論文の概要: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.16965v2
- Date: Thu, 22 May 2025 07:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.026816
- Title: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning
- Title(参考訳): Praxis-VLM:テキスト駆動強化学習による視覚領域の意思決定
- Authors: Zhe Hu, Jing Li, Zhongzhu Pu, Hou Pong Chan, Yu Yin,
- Abstract要約: 本稿では,視覚的シーンがテキストのみの記述として表現される場合,視覚言語モデルが驚くほど強い意思決定性能が得られることを示す。
視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
- 参考スコア(独自算出の注目度): 23.7096338281261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Language Models exhibited immense potential for embodied AI, yet they often lack the sophisticated situational reasoning required for complex decision-making. This paper shows that VLMs can achieve surprisingly strong decision-making performance when visual scenes are represented merely as text-only descriptions, suggesting foundational reasoning can be effectively learned from language. Motivated by this insight, we propose Praxis-VLM, a reasoning VLM for vision-grounded decision-making. Praxis-VLM employs the GRPO algorithm on textual scenarios to instill robust reasoning capabilities, where models learn to evaluate actions and their consequences. These reasoning skills, acquired purely from text, successfully transfer to multimodal inference with visual inputs, significantly reducing reliance on scarce paired image-text training data. Experiments across diverse decision-making benchmarks demonstrate that Praxis-VLM substantially outperforms standard supervised fine-tuning, exhibiting superior performance and generalizability. Further analysis confirms that our models engage in explicit and effective reasoning, underpinning their enhanced performance and adaptability.
- Abstract(参考訳): ビジョン言語モデルは、AIを具現化する大きな可能性を示したが、複雑な意思決定に必要な高度な状況推論を欠いていることが多い。
本稿では,視覚シーンが単にテキストのみの記述として表現される場合,VLMが驚くほど強力な意思決定性能を発揮することを示し,基礎的推論を言語から効果的に学習できることを示唆する。
そこで本研究では,視覚的意思決定のためのVLMであるPrxis-VLMを提案する。
Praxis-VLM は GRPO アルゴリズムをテキストシナリオに適用し、モデルが行動とその結果を評価することを学ぶ頑健な推論能力を組み込む。
これらの推論スキルは、純粋にテキストから取得され、視覚入力によるマルチモーダル推論への転送に成功した。
様々な意思決定ベンチマークによる実験により、Prxis-VLMは標準的な教師付き微調整よりも大幅に優れ、優れた性能と一般化性を示すことが示された。
さらなる分析により、我々のモデルは明示的で効果的な推論に関わっており、その性能と適応性の向上を支えていることが確認される。
関連論文リスト
- Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning [17.59802090014789]
視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
論文 参考訳(メタデータ) (2025-02-03T18:50:15Z) - Improving Fine-grained Visual Understanding in VLMs through Text-Only Training [0.0]
テキストのみの学習を通して視覚言語モデル(VLM)におけるきめ細かい視覚的理解を高める可能性について検討する。
我々は2つの異なる領域、細粒度の種分類と文化的な視覚的理解タスクについて包括的な実験を行った。
その結果,テキストのみのトレーニングは従来の画像テキスト学習に匹敵するが,計算コストは大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-17T14:18:50Z) - Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:03:32Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。