論文の概要: Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2506.04034v1
- Date: Wed, 04 Jun 2025 14:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.397226
- Title: Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
- Title(参考訳): Rex-Thinker:Chain-of-Thought Reasoningによるグラウンドドオブジェクト参照
- Authors: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang,
- Abstract要約: オブジェクト参照は、与えられた自然言語記述にマッチしたイメージ内のすべてのオブジェクトを検出することを目的としている。
我々は、頑健なオブジェクト参照モデルには基礎を置くべきだと論じ、その予測は視覚的内容に説明可能かつ忠実であるべきである。
本稿では、オブジェクトを明示的なCoT推論タスクとして参照するモデルであるRex-Thinkerを提案する。
- 参考スコア(独自算出の注目度): 30.76576641002295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
- Abstract(参考訳): オブジェクト参照は、与えられた自然言語記述にマッチしたイメージ内のすべてのオブジェクトを検出することを目的としている。
我々は、頑健なオブジェクト参照モデルには基礎を置くべきだと論じ、その予測は視覚的内容に説明可能かつ忠実であるべきである。
具体的には、2つの重要な特性を満たすべきである。
1)予測を正当化し、それらを視覚的証拠と明確にリンクする解釈可能な推論を生成することにより、検証可能となる。
2) 画像中の物体が所定の表現を満足しないときに、棄権することを学ぶことにより、信頼に値する。
しかし、ほとんどのメソッドは直接境界ボックス予測タスクの参照を扱い、限定的な解釈可能性を提供し、一致するオブジェクトを持たない式を拒否するのに苦労する。
本研究では、オブジェクトを明示的なCoT推論タスクとして参照するモデルであるRex-Thinkerを提案する。
参照式が与えられた場合、まず参照対象カテゴリに対応する全ての候補オブジェクトインスタンスを識別する。
Rex-Thinkerは、最終的な予測を行う前に、各候補に対してステップバイステップの推論を行い、それが与えられた式と一致するかどうかを評価する。
このパラダイムをサポートするために、HumanRefデータセット上でGPT-4oを誘導することにより、HumanRef-CoTと呼ばれる大規模なCoTスタイル参照データセットを構築する。
それぞれの推論トレースは構造化された計画、アクション、要約フォーマットに従っており、モデルがオブジェクト候補に対して分解された解釈可能な推論を学習することができる。
次に、Rex-Thinkerを2段階に分けて、冷間開始制御による微調整フェーズをモデルに教え、続いてGRPOに基づくRL学習を行い、精度と一般化を向上する。
実験により,本手法は,ドメイン内評価における精度と解釈可能性の両方において,標準ベースラインよりも優れており,また,幻覚出力を拒否する能力の向上やドメイン外設定の強い一般化も示している。
関連論文リスト
- Fixing confirmation bias in feature attribution methods via semantic
match [4.733072355085082]
モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である,と我々は主張する。
これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
論文 参考訳(メタデータ) (2023-07-03T09:50:08Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension [39.40351938417889]
Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-01T04:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。