論文の概要: AIC CTU@AVerImaTeC: dual-retriever RAG for image-text fact checking
- arxiv url: http://arxiv.org/abs/2602.15190v1
- Date: Mon, 16 Feb 2026 21:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.906434
- Title: AIC CTU@AVerImaTeC: dual-retriever RAG for image-text fact checking
- Title(参考訳): AIC CTU@AVerImaTeC:画像テキストファクトチェックのためのデュアルレトリバーRAG
- Authors: Herbert Ullrich, Jan Drchal,
- Abstract要約: AVerImaTeC共有タスクでは,昨年の検索拡張生成(RAG)パイプラインと逆画像検索(RIS)モジュールを組み合わせた3位システムを提案する。
その単純さにもかかわらず、我々のシステムは、OpenAI Batch API経由でGPT5.1を使用して、ファクトチェック当たりの1つのマルチモーダルLSMコールで、平均0.013ドルで競合性能を提供する。
コードとプロンプトを公開し、ベクターストアと、さらなる改善のための計画の実行コストと方向性に関する洞察を公開します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present our 3rd place system in the AVerImaTeC shared task, which combines our last year's retrieval-augmented generation (RAG) pipeline with a reverse image search (RIS) module. Despite its simplicity, our system delivers competitive performance with a single multimodal LLM call per fact-check at just $0.013 on average using GPT5.1 via OpenAI Batch API. Our system is also easy to reproduce and tweak, consisting of only three decoupled modules - a textual retrieval module based on similarity search, an image retrieval module based on API-accessed RIS, and a generation module using GPT5.1 - which is why we suggest it as an accesible starting point for further experimentation. We publish its code and prompts, as well as our vector stores and insights into the scheme's running costs and directions for further improvement.
- Abstract(参考訳): 本稿では,AVerImaTeC共有タスクにおいて,昨年の検索拡張生成(RAG)パイプラインと逆画像検索(RIS)モジュールを組み合わせた第3位システムを提案する。
その単純さにもかかわらず、我々のシステムは、OpenAI Batch API経由でGPT5.1を使用して、ファクトチェック当たりの1つのマルチモーダルLSMコールで、平均0.013ドルで競合性能を提供する。
また, 類似性検索に基づくテキスト検索モジュール, APIアクセスRISに基づく画像検索モジュール, GPT5.1 を用いた生成モジュールの3つのモジュールで, 分離したモジュールのみを再現し, 調整し易いため, さらなる実験の出発点として提案する。
コードとプロンプトを公開し、ベクターストアと、さらなる改善のための計画の実行コストと方向性に関する洞察を公開します。
関連論文リスト
- InfoCIR: Multimedia Analysis for Composed Image Retrieval [9.958100668691062]
Composed Image Retrievalimation (CIR) では、参照イメージと所望の修正を記述したテキストプロンプトを組み合わせることで、画像の検索が可能になる。
本稿では,このギャップを埋める視覚解析システムであるInfoCIRについて紹介する。
論文 参考訳(メタデータ) (2026-02-13T19:08:30Z) - Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2026-01-20T15:17:14Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation [6.573268484692302]
LiDARベースの3Dパノプティクスセグメンテーションは、LiDARセンサーから得られるデータの空間性に苦慮することが多い。
近年の研究では、LiDAR入力とカメラ画像を統合することで、この課題を克服しようとしている。
我々は,新しいマルチモーダル3Dパノプティクス・セグメンテーション・フレームワークである Image-Assist-LiDAR (IAL) を提案する。
論文 参考訳(メタデータ) (2025-05-25T03:01:28Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - Cheap-fake Detection with LLM using Prompt Engineering [16.029353282421116]
実際の写真と矛盾する画像キャプションとの誤用は、メディアのアウト・オブ・コンテクスト(OOC)誤用の一例である。
本稿では,ICME'23 Grand Challenge on Detecting CheapfakesにおけるOOCメディア検出のための新しい学習可能なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-05T11:01:00Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。
正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。
提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文 参考訳(メタデータ) (2020-07-04T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。