論文の概要: Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.18397v1
- Date: Fri, 25 Apr 2025 14:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.802133
- Title: Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
- Title(参考訳): 優先最適化による教師なし視覚連鎖推論
- Authors: Kesen Zhao, Beier Zhu, Qianru Sun, Hanwang Zhang,
- Abstract要約: CoT推論は多モーダル大言語モデル(MLLM)の解釈可能性と問題解決能力を大幅に向上させる
既存のアプローチはテキストCoTに重点を置いており、視覚的手がかりを活用する能力を制限する。
本稿では、優先最適化による画像レベルのCoT推論のための新しいフレームワークであるUnsupervised Visual CoT (UV-CoT)を紹介する。
- 参考スコア(独自算出の注目度): 69.29207684569695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chain-of-thought (CoT) reasoning greatly improves the interpretability and problem-solving abilities of multimodal large language models (MLLMs). However, existing approaches are focused on text CoT, limiting their ability to leverage visual cues. Visual CoT remains underexplored, and the only work is based on supervised fine-tuning (SFT) that relies on extensive labeled bounding-box data and is hard to generalize to unseen cases. In this paper, we introduce Unsupervised Visual CoT (UV-CoT), a novel framework for image-level CoT reasoning via preference optimization. UV-CoT performs preference comparisons between model-generated bounding boxes (one is preferred and the other is dis-preferred), eliminating the need for bounding-box annotations. We get such preference data by introducing an automatic data generation pipeline. Given an image, our target MLLM (e.g., LLaVA-1.5-7B) generates seed bounding boxes using a template prompt and then answers the question using each bounded region as input. An evaluator MLLM (e.g., OmniLLM-12B) ranks the responses, and these rankings serve as supervision to train the target MLLM with UV-CoT by minimizing negative log-likelihood losses. By emulating human perception--identifying key regions and reasoning based on them--UV-CoT can improve visual comprehension, particularly in spatial reasoning tasks where textual descriptions alone fall short. Our experiments on six datasets demonstrate the superiority of UV-CoT, compared to the state-of-the-art textual and visual CoT methods. Our zero-shot testing on four unseen datasets shows the strong generalization of UV-CoT. The code is available in https://github.com/kesenzhao/UV-CoT.
- Abstract(参考訳): CoT推論はマルチモーダル大言語モデル(MLLM)の解釈可能性と問題解決能力を大幅に向上させる。
しかし、既存のアプローチはテキストCoTに重点を置いており、視覚的手がかりを活用する能力を制限する。
Visual CoTはまだ探索されていないが、唯一の研究は、広範囲のラベル付きバウンディングボックスデータに依存する教師付き微調整(SFT)に基づいており、目に見えないケースに一般化するのは難しい。
本稿では、優先最適化による画像レベルのCoT推論のための新しいフレームワークであるUnsupervised Visual CoT (UV-CoT)を紹介する。
UV-CoTはモデル生成バウンディングボックス(一方は好ましく、もう一方は好ましくない)間の優先比較を行い、バウンディングボックスアノテーションを必要としない。
自動データ生成パイプラインを導入することで、そのような嗜好データを得る。
MLLM(例: LLaVA-1.5-7B)はテンプレートプロンプトを用いてシードバウンディングボックスを生成し,各バウンド領域を入力として回答する。
評価器MLLM(例:OmniLLM-12B)は応答をランク付けし、これらのランキングは負の対数損失を最小限に抑えてUV-CoTで目標MLLMを訓練する監督役として機能する。
人間の知覚をエミュレートすることで、キー領域を識別し、それらに基づいて推論することで、UV-CoTは視覚的理解を改善することができる。
6つのデータセットに対する実験は、最先端のテキストおよびビジュアルCoT法と比較してUV-CoTの優位性を示した。
4つの未知のデータセットに対するゼロショットテストは、UV-CoTの強力な一般化を示している。
コードはhttps://github.com/kesenzhao/UV-CoT.comで公開されている。
関連論文リスト
- Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data [17.17642905547469]
既存の手法では(M)LLMをデータ生成に利用しているが、直接的プロンプトによって精度と多様性が制限されることが多い。
我々は,自由探索された推論経路を監督として利用する新しいプログラム推論データ生成パイプラインであるtextitChain of Function (CoF)を提案する。
textitCoFは複数の利点を提供している: 1) 精度: 関数支配生成は、フリーフォーム生成と比較して幻覚を減少させる; 2) 多様性: 関数鎖を列挙するということは、様々な質問を可能にする; 3) 説明可能性: 関数鎖は、組込みの合理性として機能し、全体的な正確性を超えたきめ細かい評価を可能にする; 4) 実践性: 信頼の排除
論文 参考訳(メタデータ) (2025-03-20T15:56:04Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。