論文の概要: The Embodied World Model Based on LLM with Visual Information and Prediction-Oriented Prompts
- arxiv url: http://arxiv.org/abs/2406.00765v1
- Date: Sun, 2 Jun 2024 14:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:36:42.510329
- Title: The Embodied World Model Based on LLM with Visual Information and Prediction-Oriented Prompts
- Title(参考訳): 視覚情報と予測型プロンプトを用いたLLMに基づく身体的世界モデル
- Authors: Wakana Haijima, Kou Nakakubo, Masahiro Suzuki, Yutaka Matsuo,
- Abstract要約: VOYAGERは、マインクラフトの世界における自律的な探索を可能にするLLMベースの組み込みAIとしてよく知られている。
視覚データの未使用化や世界モデルとしての機能不足といった問題がある。
考案されたプロンプトが世界モデルとしてのLLMの機能を引き出す可能性があることが示唆された。
- 参考スコア(独自算出の注目度): 19.00518906047691
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, as machine learning, particularly for vision and language understanding, has been improved, research in embedded AI has also evolved. VOYAGER is a well-known LLM-based embodied AI that enables autonomous exploration in the Minecraft world, but it has issues such as underutilization of visual data and insufficient functionality as a world model. In this research, the possibility of utilizing visual data and the function of LLM as a world model were investigated with the aim of improving the performance of embodied AI. The experimental results revealed that LLM can extract necessary information from visual data, and the utilization of the information improves its performance as a world model. It was also suggested that devised prompts could bring out the LLM's function as a world model.
- Abstract(参考訳): 近年では、特に視覚と言語理解のための機械学習が改良され、組み込みAIの研究も進展している。
VOYAGERは、マインクラフトの世界における自律的な探索を可能にする、LLMベースのよく知られたエンボディAIであるが、ビジュアルデータの未使用化や世界モデルとしての不十分な機能といった問題もある。
本研究では,世界モデルとしての視覚データの利用可能性とLLMの機能について,具体的AIの性能向上を目的とした検討を行った。
実験の結果,LLMは視覚データから必要な情報を抽出できることがわかった。
また、考案されたプロンプトが世界モデルとしてのLLMの機能を引き出す可能性があることも示唆された。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。