論文の概要: SituationalLLM: Proactive Language Models with Scene Awareness for Dynamic, Contextual Task Guidance
- arxiv url: http://arxiv.org/abs/2406.13302v2
- Date: Mon, 20 Jan 2025 14:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:43.691174
- Title: SituationalLLM: Proactive Language Models with Scene Awareness for Dynamic, Contextual Task Guidance
- Title(参考訳): situationalLLM:動的・文脈的タスクガイダンスのためのシーン認識型プロアクティブ言語モデル
- Authors: Muhammad Saif Ullah Khan, Didier Stricker,
- Abstract要約: 本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。
カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。
実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 13.634866461329224
- License:
- Abstract: Large language models (LLMs) have achieved remarkable success in text-based tasks but often struggle to provide actionable guidance in real-world physical environments. This is because of their inability to recognize their limited understanding of the user's physical context. We present SituationalLLM, a novel approach that integrates structured scene information into an LLM to deliver proactive, context-aware assistance. By encoding objects, attributes, and relationships in a custom Scene Graph Language, SituationalLLM actively identifies gaps in environmental context and seeks clarifications during user interactions. This behavior emerges from training on the Situational Awareness Database for Instruct-Tuning (SAD-Instruct), which combines diverse, scenario-specific scene graphs with iterative, dialogue-based refinements. Experimental results indicate that SituationalLLM outperforms generic LLM baselines in task specificity, reliability, and adaptability, paving the way for environment-aware AI assistants capable of delivering robust, user-centric guidance under real-world constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキストベースのタスクにおいて顕著な成功を収めてきたが、現実の物理的環境において実用的なガイダンスの提供に苦慮することが多い。
これは、ユーザの物理的なコンテキストに対する限られた理解を認識できないためである。
本研究では、構造化シーン情報をLLMに統合し、プロアクティブな文脈認識支援を実現するための新しいアプローチである PresentalLLM を提案する。
カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。
この行動は、多様なシナリオ固有のシーングラフと反復的な対話ベースの改善を組み合わせた、インストラクション・チューニングのための状況認識データベース(SAD-Instruct)のトレーニングから生じる。
実験結果から、ALLLMはタスク特異性、信頼性、適応性において一般的なLCMベースラインよりも優れており、現実の制約下で堅牢でユーザ中心のガイダンスを提供することができる環境対応AIアシスタントへの道を開いたことが示唆された。
関連論文リスト
- Plant in Cupboard, Orange on Table, Book on Shelf. Benchmarking Practical Reasoning and Situation Modelling in a Text-Simulated Situated Environment [18.256529559741075]
大規模言語モデル(LLM)は、自然言語を介して対話するための'チャットボット'として有名になった。
我々は、非常に抽象的に、家庭の設定をシミュレートするシンプルなテキストベースの環境を実装した。
以上の結果から,環境の複雑さとゲーム制限が性能を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Dynamic Scene Understanding from Vision-Language Representations [11.833972582610027]
本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-20T18:33:46Z) - Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series [3.453940014682793]
本研究では,Large Language Models (LLMs) に習熟した言語環境において,時系列(TS)データを言語成分と整合させるコンテキストアライメントを提案する。
このようなコンテキストレベルのアライメントは、DSCA-GNN(Dual-Scale Context-Alignment GNN)によって達成される構造的アライメントと論理的アライメントを含む。
大規模な実験は、特に少数ショットおよびゼロショット予測において、DeCAの有効性とタスク間のコンテキストアライメントの重要性を示している。
論文 参考訳(メタデータ) (2025-01-07T12:40:35Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。