論文の概要: GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
- arxiv url: http://arxiv.org/abs/2503.06514v2
- Date: Tue, 25 Mar 2025 07:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:10.033228
- Title: GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
- Title(参考訳): GFlowVLM:生成フローネットワークを用いた視覚言語モデルにおけるマルチステップ推論の強化
- Authors: Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee,
- Abstract要約: 我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。
GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。
GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
- 参考スコア(独自算出の注目度): 4.851402232145819
- License:
- Abstract: Vision-Language Models (VLMs) have recently shown promising advancements in sequential decision-making tasks through task-specific fine-tuning. However, common fine-tuning methods, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) techniques like Proximal Policy Optimization (PPO), present notable limitations: SFT assumes Independent and Identically Distributed (IID) data, while PPO focuses on maximizing cumulative rewards. These limitations often restrict solution diversity and hinder generalization in multi-step reasoning tasks. To address these challenges, we introduce a novel framework, GFlowVLM, a framework that fine-tune VLMs using Generative Flow Networks (GFlowNets) to promote generation of diverse solutions for complex reasoning tasks. GFlowVLM models the environment as a non-Markovian decision process, allowing it to capture long-term dependencies essential for real-world applications. It takes observations and task descriptions as inputs to prompt chain-of-thought (CoT) reasoning which subsequently guides action selection. We use task based rewards to fine-tune VLM with GFlowNets. This approach enables VLMs to outperform prior fine-tuning methods, including SFT and RL. Empirical results demonstrate the effectiveness of GFlowVLM on complex tasks such as card games (NumberLine, BlackJack) and embodied planning tasks (ALFWorld), showing enhanced training efficiency, solution diversity, and stronger generalization capabilities across both in-distribution and out-of-distribution scenarios.
- Abstract(参考訳): VLM(Vision-Language Models)は、タスク固有の微調整を通じて、シーケンシャルな意思決定タスクの進歩を示す。
しかし、SFTは独立分散IID(Independent and Identically Distributed)データを仮定し、PPOは累積報酬の最大化に重点を置いている。
これらの制限はしばしば解の多様性を制限し、多段階推論タスクの一般化を妨げる。
これらの課題に対処するために、複雑な推論タスクのための多様なソリューションの生成を促進するためにGenerative Flow Networks(GFlowNets)を使用してVLMを微調整するフレームワークであるGFlowVLMを紹介した。
GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。
観察とタスク記述を入力として、チェーン・オブ・シント(CoT)推論を誘導し、後に行動選択を導く。
タスクベースの報酬を使って、GFlowNetsでVLMを微調整します。
このアプローチにより、VLM は SFT や RL など、事前の微調整手法よりも優れる。
実験により,GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)などの複雑なタスクに対して有効であることを示す。
関連論文リスト
- Optimizing Value of Learning in Task-Oriented Federated Meta-Learning Systems [10.332182237773818]
デバイス間の個別のトレーニングニーズを評価するために、新しいメトリック、学習のメトリック値(VoL)が導入された。
タスクレベルの重み(TLW)は、FMLトレーニングのタスクレベルの考慮と公平性に基づいて定義される。
論文 参考訳(メタデータ) (2025-01-07T00:30:31Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks [0.10713888959520208]
生成フローネットワーク(GFlowNet)を用いて大規模言語モデル(LLM)を訓練する。
GFlowNetファインチューニングは、報酬関数に比例した分布を持つLLMをトレーニングすることで、多様な解を求める。
その結果、GFlowNetの微調整は、様々な中間的推論ステップから最終的な答えを導き出すことがわかった。
論文 参考訳(メタデータ) (2024-10-26T11:13:33Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。