論文の概要: RefBench-PRO: Perceptual and Reasoning Oriented Benchmark for Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2512.06276v2
- Date: Sat, 13 Dec 2025 10:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.1128
- Title: RefBench-PRO: Perceptual and Reasoning Oriented Benchmark for Referring Expression Comprehension
- Title(参考訳): RefBench-PRO:表現理解の参照のための知覚的および推論的ベンチマーク
- Authors: Tianyi Gao, Hao Li, Han Fang, Xin Wei, Xiaodong Dong, Hongbo Sun, Ye Yuan, Zhongjiang He, Jinglin Xu, Jingmin Xin, Hao Sun,
- Abstract要約: Referring Expression (REC)は、テキスト記述に基づいて特定の画像領域をローカライズする視覚言語タスクである。
RefBench-PROは、参照表現を2つのコア次元、すなわち知覚と推論に分解する総合的なRECベンチマークである。
また,より複雑な推論条件下での局所化精度を向上させるために,動的IoUベースのGRPOを組み込んだRLベースの学習スキームRef-R1を提案する。
- 参考スコア(独自算出の注目度): 45.091078689395864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Comprehension (REC) is a vision-language task that localizes a specific image region based on a textual description. Existing REC benchmarks primarily evaluate perceptual capabilities and lack interpretable scoring mechanisms, which cannot reveal the grounding capability of Multi-modal Large Language Model (MLLM) across different cognitive abilities. To address this limitation, we introduce RefBench-PRO, a comprehensive REC benchmark, which decomposes referring expressions into two core dimensions, i.e., perception and reasoning, and further subdivides them into six progressively challenging tasks, such as attribute, position, interaction, commonsense, relation and reject. We also develop a fully automated data-generation pipeline that produces diverse referring expressions across these six sub-dimensions. Furthermore, We propose Ref-R1, an RL-based learning scheme, which incorporates Dynamic IoU-based GRPO to improve localization accuracy under increasingly complex reasoning conditions, establishing a stronger baseline for REC. Extensive experiments demonstrate that our RefBench-PRO enables interpretable evaluation of MLLM on referring expression comprehension, presenting greater challenges in both perception and reasoning.
- Abstract(参考訳): Referring Expression Comprehension (REC)は、テキスト記述に基づいて特定の画像領域をローカライズする視覚言語タスクである。
既存のRECベンチマークは主に知覚能力を評価し、解釈可能なスコアリング機構がないため、認知能力の異なるマルチモーダル大言語モデル(MLLM)の基盤能力を明らかにすることはできない。
この制限に対処するために、RefBench-PROという総合的なRECベンチマークを導入し、参照表現を2つの中核次元(知覚と推論)に分解し、さらに属性、位置、相互作用、コモンセンス、リレーション、リジェクションの6つの課題に分割する。
また、これら6つのサブ次元にまたがる多様な参照表現を生成する完全自動データ生成パイプラインも開発している。
さらに、動的IoUベースのGRPOを組み込んだRLベースの学習スキームRef-R1を提案し、より複雑な推論条件下でのローカライズ精度を改善し、RECのより強力なベースラインを確立する。
我々のRefBench-PROは,表現理解におけるMLLMの解釈的評価を可能にし,認識と推論の両面で大きな課題を呈している。
関連論文リスト
- Understanding What Is Not Said:Referring Remote Sensing Image Segmentation with Scarce Expressions [45.04317112354794]
Referring Remote Sensing Imageは、リモートセンシングイメージのインスタンスを参照式に従ってセグメントすることを目的としている。
本稿では,RRSISのためのWREL(Weakly Referring Expression Learning)という新たな学習パラダイムを提案する。
混合参照学習は、完全注釈付き参照表現を用いたトレーニングと比較して、性能ギャップに証明可能な上限をもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-26T17:18:48Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent [6.300669721057781]
メタ・ポリシィ・リフレクション(Meta-Policy Reflexion, MPR)は、LCM生成したリフレクションを構造化された述語型メタ・ポリシィ・メモリ(MPM)に集約するフレームワークである。
MPRはモデルウェイト更新なしで再利用可能な修正知識を外部化し、安全でないアクションや無効なアクションを減らすためにドメイン制約を強制し、言語ベースのリフレクションの適応性を維持する。
供給材料に報告された実証結果は, 反射ベースラインと比較して, 実行精度とロバスト性が一貫した向上を示し, 規則許容性は安定性をさらに向上させる。
論文 参考訳(メタデータ) (2025-09-04T08:18:39Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。