論文の概要: X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2509.21559v1
- Date: Thu, 25 Sep 2025 20:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.99869
- Title: X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
- Title(参考訳): X-CoT: LLMベースのチェーン・オブ・ソート推論による説明可能なテキスト・ビデオ検索
- Authors: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao,
- Abstract要約: 本研究は、LLM CoT推論に基づく説明可能な検索フレームワークであるX-CoTを提案する。
まず、セマンティック理解をサポートするビデオアノテーションを追加して既存のベンチマークを拡張します。
X-CoTは、検索性能を実証的に改善し、詳細な合理性を生成する。
- 参考スコア(独自算出の注目度): 23.9465771255843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevalent text-to-video retrieval systems mainly adopt embedding models for feature extraction and compute cosine similarities for ranking. However, this design presents two limitations. Low-quality text-video data pairs could compromise the retrieval, yet are hard to identify and examine. Cosine similarity alone provides no explanation for the ranking results, limiting the interpretability. We ask that can we interpret the ranking results, so as to assess the retrieval models and examine the text-video data? This work proposes X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of the embedding model-based similarity ranking. We first expand the existing benchmarks with additional video annotations to support semantic understanding and reduce data bias. We also devise a retrieval CoT consisting of pairwise comparison steps, yielding detailed reasoning and complete ranking. X-CoT empirically improves the retrieval performance and produces detailed rationales. It also facilitates the model behavior and data quality analysis. Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.
- Abstract(参考訳): 一般的なテキスト・ビデオ検索システムは、主に特徴抽出のための埋め込みモデルを採用し、ランク付けのためのコサイン類似性を計算する。
しかし、この設計には2つの制限がある。
低品質のテキストビデオデータペアは、検索を損なう可能性があるが、識別と検査は困難である。
コサインの類似性だけでは、ランキング結果の説明は提供せず、解釈可能性に制限がある。
我々は、検索結果を解釈して、検索モデルを評価し、テキストビデオデータを調べることができるか?
本研究は,組込みモデルに基づく類似度ランキングの代わりに,LLM CoT推論に基づく説明可能な検索フレームワークであるX-CoTを提案する。
まず、セマンティックな理解とデータバイアスの低減をサポートするために、ビデオアノテーションを追加して既存のベンチマークを拡張します。
また、ペア比較ステップからなる検索CoTを考案し、詳細な推論と完全なランキングを得る。
X-CoTは、検索性能を実証的に改善し、詳細な合理性を生成する。
また、モデルビヘイビアとデータ品質分析を容易にする。
コードとデータは、https://github.com/PrasannaPulakurthi/X-CoT.comで公開されている。
関連論文リスト
- TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval [1.8434042562191815]
本稿では,TC-MGC と呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。
本モデルでは,単語の重み付けとテキストの重み付けに係わる集約されたフレームとビデオ表現を生成するために,言語ビデオのアテンションブロックを用いる。
実証的に、TC-MGCは複数のテキストビデオ検索ベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2025-04-07T03:33:14Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List [19.212507277554415]
COILは文脈化された正確な一致検索アーキテクチャであり、意味的語彙マッチングをもたらす。
COILは古典的な語彙レトリバーと最先端の深いLMレトリバーを同等またはより小さいレイテンシで上回る。
論文 参考訳(メタデータ) (2021-04-15T00:53:54Z) - On Semantic Similarity in Video Retrieval [31.61611168620582]
本稿では,複数の映像/キャプチャを等しく関連づけることができる意味的類似性ビデオ検索への移行を提案する。
3つの一般的なビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で解析を行います。
論文 参考訳(メタデータ) (2021-03-18T09:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。