Fugu-MT 論文翻訳(概要): Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models

論文の概要: Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.11422v1
Date: Tue, 16 Jul 2024 06:32:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 16:22:29.741199
Title: Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models
Title（参考訳）: リフレクティブ・インストラクション・チューニング:大規模視覚言語モデルにおける幻覚の緩和
Authors: Jinrui Zhang, Teng Wang, Haigang Zhang, Ping Lu, Feng Zheng,
Abstract要約: 大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
参考スコア（独自算出の注目度）: 36.119299938503936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs) have shown promising performance on a variety of vision-language tasks. However, they remain susceptible to hallucinations, generating outputs misaligned with visual content or instructions. While various mitigation strategies have been proposed, they often neglect a key contributor to hallucinations: lack of fine-grained reasoning supervision during training. Without intermediate reasoning steps, models may establish superficial shortcuts between instructions and responses, failing to internalize the inherent reasoning logic. To address this challenge, we propose reflective instruction tuning, which integrates rationale learning into visual instruction tuning. Unlike previous methods that learning from responses only, our approach entails the model predicting rationales justifying why responses are correct or incorrect. This fosters a deeper engagement with the fine-grained reasoning underlying each response, thus enhancing the model's reasoning proficiency. To facilitate this approach, we propose REVERIE, the first large-scale instruction-tuning dataset with ReflEctiVE RatIonalE annotations. REVERIE comprises 115k machine-generated reasoning instructions, each meticulously annotated with a corresponding pair of correct and confusing responses, alongside comprehensive rationales elucidating the justification behind the correctness or erroneousness of each response. Experimental results on multiple LVLM benchmarks reveal that reflective instruction tuning with the REVERIE dataset yields noticeable performance gain over the baseline model, demonstrating the effectiveness of reflecting from the rationales. Project page is at https://zjr2000.github.io/projects/reverie.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。しかし、幻覚の影響を受け難いままであり、視覚内容や指示と不一致な出力を生成する。様々な緩和戦略が提案されているが、彼らはしばしば幻覚への重要な貢献を無視している。中間的推論ステップがなければ、モデルは命令と応答の間の表面的なショートカットを確立することができ、固有の推論ロジックの内部化に失敗する。この課題に対処するために,合理化学習を視覚的指導調律に統合した反射的指導調律を提案する。反応のみから学習する従来の方法とは異なり、我々の手法はなぜ応答が正しいのか、正しくないのかを正当化する合理性を予測するモデルを必要とする。これにより、各応答の根底にあるきめ細かい推論とのより深い関わりが促進され、モデルの推論習熟度が向上する。このアプローチを容易にするために,ReflEctiVE RatIonalEアノテーションを用いた最初の大規模命令チューニングデータセットであるREVERIEを提案する。 ReverIEは、115kの機械生成推論命令からなり、それぞれの応答の正当性や誤当性の背後にある正当性を解明する包括的論理とともに、対応する正当性と紛らわしい応答のペアに細心の注意を払って注釈付けされる。複数のLVLMベンチマークによる実験結果から,REVERIEデータセットによる反射的命令チューニングがベースラインモデルよりも顕著な性能向上を達成し,有理数からの反射の有効性が示された。プロジェクトページはhttps://zjr2000.github.io/projects/reverieにある。

関連論文リスト

Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文参考訳（メタデータ） (2025-05-26T17:51:47Z)
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning [16.86024541396427]
Re-Criticは、論理的説明で生の指示を強化する視覚的合理性合成器である。 Re-Criticはコンテキスト内自己批判機構を使用して、優先順位調整のための応答ペアを選択する。実験により、有理拡大されたデータセットで微調整されたモデルでは、幻覚特異的なタスクからより広範なマルチモーダル推論タスクにまで及ぶ利益が得られます。
論文参考訳（メタデータ） (2025-05-12T01:51:50Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [17.3254565018168]
大規模言語モデル(LLM)は複雑な推論シナリオに悩まされることが多い。 LLM生成反射の精度と深さを向上するコントラスト反射合成パイプラインを導入する。本稿では,言語強化学習パラダイムにおける2モデル推論フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-26T15:41:41Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Revealing the Inherent Instructability of Pre-Trained Language Models [9.504992236994697]
本稿では,RT(Response Tuning)が命令とそれに対応する対応マッピングを命令チューニングから取り除くことを示す。実験の結果、RTは応答のみに基づいて訓練され、広範囲の指示に効果的に反応し、訓練対象に近づきやすいことを示すことができた。
論文参考訳（メタデータ） (2024-10-03T13:15:19Z)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文参考訳（メタデータ） (2024-05-24T16:21:59Z)
FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文参考訳（メタデータ） (2024-04-07T19:00:45Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文参考訳（メタデータ） (2023-09-07T14:12:31Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。