論文の概要: Grounding Large Language Models In Embodied Environment With Imperfect World Models
- arxiv url: http://arxiv.org/abs/2410.02742v2
- Date: Mon, 11 Nov 2024 20:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:59.989508
- Title: Grounding Large Language Models In Embodied Environment With Imperfect World Models
- Title(参考訳): 不完全な世界モデルによる身体環境における大規模言語モデルの構築
- Authors: Haolan Liu, Jishen Zhao,
- Abstract要約: 大きな言語モデル(LLM)は、基本的な物理的推論やロボティクスタスクの実行でしばしば混乱する。
We propose a Grounding Large Language model with Imperfect world MOdel (GLIMO)。
GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
- 参考スコア(独自算出の注目度): 8.182450558534198
- License:
- Abstract: Despite a widespread success in various applications, large language models (LLMs) often stumble when tackling basic physical reasoning or executing robotics tasks, due to a lack of direct experience with the physical nuances of the real world. To address these issues, we propose a Grounding Large language model with Imperfect world MOdel (GLIMO), which utilizes proxy world models such as simulators to collect and synthesize trining data. GLIMO incorporates an LLM agent-based data generator to automatically create high-quality and diverse instruction datasets. The generator includes an iterative self-refining module for temporally consistent experience sampling, a diverse set of question-answering instruction seeds, and a retrieval-augmented generation module for reflecting on prior experiences. Comprehensive experiments show that our approach improve the performance of strong open-source LLMs like LLaMA-3 with a performance boost of 2.04 $\times$, 1.54 $\times$, and 1.82 $\times$ across three different benchmarks, respectively. The performance is able to compete with or surpass their larger counterparts such as GPT-4.
- Abstract(参考訳): 様々な応用において広く成功したにもかかわらず、大きな言語モデル(LLM)は、現実世界の物理的なニュアンスに対する直接的な経験の欠如により、基礎的な物理的推論やロボットのタスクの実行にしばしば失敗する。
これらの問題に対処するために,シミュレータなどのプロキシワールドモデルを用いてトリニングデータを収集・合成する,不完全世界モデル(GLIMO)を用いたグラウンディング大言語モデルを提案する。
GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。
本発明のジェネレータは、時間的に一貫した体験サンプリングのための反復的自己精製モジュールと、質問回答指示シードの多種多様なセットと、先行経験を反映する検索拡張生成モジュールとを含む。
総合実験の結果,LLaMA-3のような強力なオープンソースLLMの性能は,それぞれ2.04$\times$, 1.54$\times$, 1.82$\times$の3つのベンチマークで向上した。
パフォーマンスは、GPT-4のようなより大きなパフォーマンスと競合したり、超えたりすることができる。
関連論文リスト
- Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [41.02446816970586]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - The Performance of the LSTM-based Code Generated by Large Language Models (LLMs) in Forecasting Time Series Data [0.3749861135832072]
本稿では,ChatGPT, PaLM, LLama, FalconなどのLLMの時系列データ解析のためのディープラーニングモデルの生成における性能について検討し, 比較する。
その結果は、生成的AIを活用して、許容できる良さで優れた予測モデルを作成したいデータアナリストや実践者にとって有益である。
論文 参考訳(メタデータ) (2024-11-27T20:18:36Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Multiscale Generative Models: Improving Performance of a Generative
Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。
我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。
本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。