Fugu-MT 論文翻訳(概要): FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

論文の概要: FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

arxiv url: http://arxiv.org/abs/2404.05046v1
Date: Sun, 7 Apr 2024 19:00:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 18:41:48.791414
Title: FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback
Title（参考訳）: FGAIF: きめ細かいAIフィードバックによる大規模ビジョンランゲージモデルの調整
Authors: Liqiang Jing, Xinya Du,
Abstract要約: ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
参考スコア（独自算出の注目度）: 16.24562885483636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated proficiency in tackling a variety of visual-language tasks. However, current LVLMs suffer from misalignment between text and image modalities which causes three kinds of hallucination problems, i.e., object existence, object attribute, and object relationship. To tackle this issue, existing methods mainly utilize Reinforcement Learning (RL) to align modalities in LVLMs. However, they still suffer from three main limitations: (1) General feedback can not indicate the hallucination type contained in the response; (2) Sparse rewards only give the sequence-level reward for the whole response; and (3)Annotation cost is time-consuming and labor-intensive. To handle these limitations, we propose an innovative method to align modalities in LVLMs through Fine-Grained Artificial Intelligence Feedback (FGAIF), which mainly consists of three steps: AI-based Feedback Collection, Fine-grained Reward Model Training, and Reinforcement Learning with Fine-grained Reward. Specifically, We first utilize AI tools to predict the types of hallucination for each segment in the response and obtain a collection of fine-grained feedback. Then, based on the collected reward data, three specialized reward models are trained to produce dense rewards. Finally, a novel fine-grained feedback module is integrated into the Proximal Policy Optimization (PPO) algorithm. Extensive experiments are conducted on hallucination and general benchmarks, demonstrating the superior performance of our proposed method. Notably, compared with previous models trained with the RL-based aligning method, our proposed method is effective even with fewer parameters.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに取り組む能力を示す。しかし、現在のLVLMは、3種類の幻覚、すなわちオブジェクトの存在、オブジェクト属性、オブジェクトの関係を引き起こす、テキストと画像のモダリティの不一致に悩まされている。この問題に対処するため、既存の手法は主に強化学習(RL)を用いてLVLMのモダリティを調整している。しかし, 一般フィードバックは反応に含まれる幻覚のタイプを示すことができない, スパース報酬は反応全体に対してのみシーケンスレベルの報酬を与える, アノテーションのコストは時間と労力がかかる, という3つの大きな制限がまだ残っている。これらの制約に対処するために、AIベースのフィードバックコレクション、きめ細かいリワードモデルトレーニング、きめ細かいリワードによる強化学習の3段階からなるFGAIF(Fined Artificial Intelligence Feedback)を用いて、LVLMのモダリティを整合させる革新的な手法を提案する。具体的には、まずAIツールを使用して、応答中の各セグメントの幻覚のタイプを予測し、きめ細かいフィードバックを収集する。そして、収集した報酬データに基づいて、密集した報酬を生成するために、3つの特別報酬モデルが訓練される。最後に、新しいきめ細かいフィードバックモジュールをPPOアルゴリズムに統合する。幻覚および一般ベンチマークにおいて,提案手法の優れた性能を示す大規模な実験を行った。特に,RL法を用いてトレーニングした従来のモデルと比較して,提案手法は少ないパラメータでも有効である。

関連論文リスト

Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning [50.748123348417984]
本稿では、視覚言語によるスローtHInking reAsoningのためのシンプルでスケーラブルなセミオフポリシーRLであるSOPHIAを提案する。 SOPHIAは、訓練可能なLVLMからのオンラインの視覚的理解と、言語モデルからの非政治的なスロー思考推論を組み合わせることで、セミ・オフ・ポリティクスの行動モデルを構築している。 8Bおよび38BサイズのInternVL2.5およびInternVL3.0を用いた実験はSOPHIAの有効性を示した。
論文参考訳（メタデータ） (2025-07-22T17:59:34Z)
Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception [28.351994916635423]
反実的前提問題(CPQ)の解決におけるLVLMの脆弱性について論じる。両種類の幻覚を緩和するための統合的・総合的なデータ駆動後学習フレームワークであるAntidoteを紹介した。我々は,LVLMがCPQを正しく処理し,実応答を生成する能力を評価するための新しいベンチマーク「CP-Bench」を構築した。
論文参考訳（メタデータ） (2025-04-29T07:05:24Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment [0.618727087412292]
大規模言語モデル(LLM)のアライメントは、有用で無害なコンテンツを生成するために不可欠である。既存のアプローチでは、好みに基づく人間のフィードバックデータを利用して報酬関数を学習する。近似変分アライメント学習(AVRIL)によるLLMアライメントを実現するための新しいトレーニング目標である近似変分アライメント(AVA)を提案する。
論文参考訳（メタデータ） (2024-11-14T10:37:34Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-07-02T16:15:01Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。 MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-10-04T00:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。