論文の概要: CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2510.06243v1
- Date: Fri, 03 Oct 2025 08:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.051643
- Title: CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning
- Title(参考訳): CoT参照: 接地推論による参照表現タスクの改善
- Authors: Qihua Dong, Luis Figueroa, Handong Zhao, Kushal Kafle, Jason Kuen, Zhihong Ding, Scott Cohen, Yun Fu,
- Abstract要約: CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
- 参考スコア(独自算出の注目度): 67.18702329644526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Comprehension and Segmentation are critical tasks for assessing the integration of language understanding and image comprehension, serving as benchmarks for Multimodal Large Language Models (MLLMs) capabilities. To address these challenges, we propose a new strategy, CoT Referring, which enhances model reasoning across modalities through a structured, chain-of-thought training data structure. Our approach systematically parses textual structures to a sequential referring step, where in each step it identifies relationships and ensures consistent reference alignment, thereby improving accuracy in complex query scenarios. We restructure the training data to enforce a new output form, providing new annotations for existing datasets and compiling an evaluation benchmark from existing resources. This benchmark is designed explicitly for complex referring cases. We also integrate detection and segmentation capabilities into a unified MLLM framework, training it with a novel adaptive weighted loss to optimize performance. Experimental results on our curated benchmark and RefCOCO/+/g demonstrate the effectiveness of our approach, with a notable increase of 2.5%+ over baseline models.
- Abstract(参考訳): 表現理解とセグメンテーションの参照は、言語理解と画像理解の統合を評価する上で重要なタスクであり、マルチモーダル大言語モデル(MLLM)機能のベンチマークとして機能する。
これらの課題に対処するために、我々はCoT Referringという新しい戦略を提案し、これは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通して、モダリティ間のモデル推論を強化する。
提案手法は,テキスト構造を逐次参照ステップに体系的に解析し,各ステップで関係を識別し,一貫した参照アライメントを確保することにより,複雑なクエリシナリオにおける精度を向上させる。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに対する新しいアノテーションを提供し、既存のリソースから評価ベンチマークをコンパイルします。
このベンチマークは、複雑な参照ケースに対して明示的に設計されている。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
得られたベンチマークとRefCOCO/+/gによる実験結果は,ベースラインモデルよりも2.5%以上増加し,本手法の有効性を示した。
関連論文リスト
- STARE at the Structure: Steering ICL Exemplar Selection with Structural Alignment [24.80531387685099]
本稿では,効率,一般化性,性能のバランスを保った2段階の模範選択戦略を提案する。
まず、BERTベースのレトリバーを構造意識の監視を用いて微調整し、意味論的に関連性があり構造的に整合した模範を選定する。
次に,隠れ表現において構文的に意味のある情報を増幅するプラグインモジュールを用いて,検索機能を強化した。
論文 参考訳(メタデータ) (2025-08-28T16:04:39Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - UMB@PerAnsSumm 2025: Enhancing Perspective-Aware Summarization with Prompt Optimization and Supervised Fine-Tuning [8.095763327154335]
本稿では,パーアンサム共有タスク(PerAnsSumm Shared Task)について,パースペクティブ・スパン識別とパースペクティブ・アウェア・サマリゼーションを包含するアプローチを提案する。
スパン識別には、平均化によって3つのトランスフォーマーモデルを統合するアンサンブル学習を採用し、個々のモデルの強みを利用する。
要約のために、キーフレーズを組み込んだ一連のCoT(Chain-of-Thought)を設計し、要約生成を管理可能なステップに導く。
論文 参考訳(メタデータ) (2025-03-14T06:29:51Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Contextualizing Search Queries In-Context Learning for Conversational Rewriting with LLMs [0.0]
本稿では,数発の対話型クエリ書き換えのための新しいアプローチであるPrompt-Guided In-Context Learningを紹介する。
提案手法では,タスク記述,入出力形式仕様,図示的な例を取り入れ,慎重に設計したプロンプトを用いている。
ベンチマークデータセットであるTRECとTaskmaster-1の実験は、我々のアプローチが強いベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-20T20:02:42Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。