論文の概要: Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning
- arxiv url: http://arxiv.org/abs/2505.07172v1
- Date: Mon, 12 May 2025 01:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.238028
- Title: Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning
- Title(参考訳): Rationale-Augmented Instruction Tuning による幻覚の緩和
- Authors: Zexian Yang, Dian Li, Dayan Wu, Gang Liu, Weiping Wang,
- Abstract要約: Re-Criticは、論理的説明で生の指示を強化する視覚的合理性合成器である。
Re-Criticはコンテキスト内自己批判機構を使用して、優先順位調整のための応答ペアを選択する。
実験により、有理拡大されたデータセットで微調整されたモデルでは、幻覚特異的なタスクからより広範なマルチモーダル推論タスクにまで及ぶ利益が得られます。
- 参考スコア(独自算出の注目度): 16.86024541396427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in multimodal reasoning tasks, existing Large Vision-Language Models (LVLMs) are prone to producing visually ungrounded responses when interpreting associated images. In contrast, when humans embark on learning new knowledge, they often rely on a set of fundamental pre-study principles: reviewing outlines to grasp core concepts, summarizing key points to guide their focus and enhance understanding. However, such preparatory actions are notably absent in the current instruction tuning processes. This paper presents Re-Critic, an easily scalable rationale-augmented framework designed to incorporate fundamental rules and chain-of-thought (CoT) as a bridge to enhance reasoning abilities. Specifically, Re-Critic develops a visual rationale synthesizer that scalably augments raw instructions with rationale explanation. To probe more contextually grounded responses, Re-Critic employs an in-context self-critic mechanism to select response pairs for preference tuning. Experiments demonstrate that models fine-tuned with our rationale-augmented dataset yield gains that extend beyond hallucination-specific tasks to broader multimodal reasoning tasks.
- Abstract(参考訳): マルチモーダル推論タスクの大幅な進歩にもかかわらず、既存のLVLM(Large Vision-Language Models)は、関連画像の解釈時に視覚的アングラウンドな応答を生成する傾向にある。
対照的に、人間が新しい知識を学ぶとき、それらはしばしば基本的な事前学習の原則のセットに依存している: コア概念を理解するためにアウトラインをレビューし、焦点を導き、理解を深めるためにキーポイントを要約する。
しかし、このような準備的な動作は、現在の命令チューニングプロセスでは特に欠落している。
本稿では,基本ルールとチェーン・オブ・シント(CoT)を橋渡しして推論能力を高めるために設計した,スケーラブルな合理化フレームワークであるRe-Criticを提案する。
具体的には、Re-Criticは、合理的な説明で生の指示を強要する視覚的合理合成器を開発する。
より文脈的に接地された応答を探索するために、Re-Criticはコンテキスト内自己批判機構を使用して、優先順位調整のための応答ペアを選択する。
実験により、有理拡大されたデータセットで微調整されたモデルでは、幻覚特異的なタスクからより広範なマルチモーダル推論タスクにまで及ぶ利益が得られます。
関連論文リスト
- A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。