Fugu-MT 論文翻訳(概要): SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance

論文の概要: SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance

arxiv url: http://arxiv.org/abs/2406.13302v3
Date: Fri, 31 Jan 2025 12:35:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.445155
Title: SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance
Title（参考訳）: ConditionalLLM:動的・文脈的タスクガイダンスのためのシーン認識型プロアクティブ言語モデル
Authors: Muhammad Saif Ullah Khan, Muhammad Zeshan Afzal, Didier Stricker,
Abstract要約: 本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
参考スコア（独自算出の注目度）: 13.155859243167619
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have achieved remarkable success in text-based tasks but often struggle to provide actionable guidance in real-world physical environments. This is because of their inability to recognize their limited understanding of the user's physical context. We present SituationalLLM, a novel approach that integrates structured scene information into an LLM to deliver proactive, context-aware assistance. By encoding objects, attributes, and relationships in a custom Scene Graph Language, SituationalLLM actively identifies gaps in environmental context and seeks clarifications during user interactions. This behavior emerges from training on the Situational Awareness Database for Instruct-Tuning (SAD-Instruct), which combines diverse, scenario-specific scene graphs with iterative, dialogue-based refinements. Experimental results indicate that SituationalLLM outperforms generic LLM baselines in task specificity, reliability, and adaptability, paving the way for environment-aware AI assistants capable of delivering robust, user-centric guidance under real-world constraints.
Abstract（参考訳）: 大規模言語モデル(LLM)はテキストベースのタスクにおいて顕著な成功を収めてきたが、現実の物理的環境において実用的なガイダンスの提供に苦慮することが多い。これは、ユーザの物理的なコンテキストに対する限られた理解を認識できないためである。本研究では、構造化シーン情報をLLMに統合し、プロアクティブな文脈認識支援を実現するための新しいアプローチである PresentalLLM を提案する。カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。この行動は、多様なシナリオ固有のシーングラフと反復的な対話ベースの改善を組み合わせた、インストラクション・チューニングのための状況認識データベース(SAD-Instruct)のトレーニングから生じる。実験結果から、ALLLMはタスク特異性、信頼性、適応性において一般的なLCMベースラインよりも優れており、現実の制約下で堅牢でユーザ中心のガイダンスを提供することができる環境対応AIアシスタントへの道を開いたことが示唆された。

関連論文リスト

An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
Plant in Cupboard, Orange on Table, Book on Shelf. Benchmarking Practical Reasoning and Situation Modelling in a Text-Simulated Situated Environment [18.256529559741075]
大規模言語モデル(LLM)は、自然言語を介して対話するための'チャットボット'として有名になった。我々は、非常に抽象的に、家庭の設定をシミュレートするシンプルなテキストベースの環境を実装した。以上の結果から,環境の複雑さとゲーム制限が性能を損なうことが示唆された。
論文参考訳（メタデータ） (2025-02-17T12:20:39Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series [3.453940014682793]
本研究では,Large Language Models (LLMs) に習熟した言語環境において,時系列(TS)データを言語成分と整合させるコンテキストアライメントを提案する。このようなコンテキストレベルのアライメントは、DSCA-GNN(Dual-Scale Context-Alignment GNN)によって達成される構造的アライメントと論理的アライメントを含む。大規模な実験は、特に少数ショットおよびゼロショット予測において、DeCAの有効性とタスク間のコンテキストアライメントの重要性を示している。
論文参考訳（メタデータ） (2025-01-07T12:40:35Z)
Onto-LLM-TAMP: Knowledge-oriented Task and Motion Planning using Large Language Models [0.21990652930491858]
本研究は,タスクコンテキスト推論と知識ベース環境記述を用いて,ユーザプロンプトを洗練・拡張する知識ベース推論を用いた新しいオント・LLM-TAMPフレームワークを提案する。提案フレームワークはシミュレーションと実世界のシナリオの両方を通じて検証され,動的環境への適応性や意味論的に正しいタスクプランの生成の観点から,ベースラインアプローチに対する大幅な改善が示された。
論文参考訳（メタデータ） (2024-12-10T13:18:45Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Collaborative AI in Sentiment Analysis: System Architecture, Data Prediction and Deployment Strategies [3.3374611485861116]
大規模言語モデル(LLM)に基づく人工知能技術は、特に感情分析においてゲームチェンジャーとなっている。しかし、複雑なマルチモーダルデータを処理するための多様なAIモデルの統合と、それに伴う機能抽出の高コストは、大きな課題を呈している。本研究では,様々なAIシステムにまたがるタスクを効率的に分散・解決するための協調型AIフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-17T06:14:34Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
A Theoretical Framework for AI-driven data quality monitoring in high-volume data environments [1.2753215270475886]
本稿では,高ボリューム環境におけるデータ品質維持の課題に対処するために,AIによるデータ品質監視システムに関する理論的枠組みを提案する。本稿では,ビッグデータのスケール,速度,多様性の管理における従来の手法の限界について検討し,高度な機械学習技術を活用した概念的アプローチを提案する。主なコンポーネントは、インテリジェントデータ取り込み層、適応前処理機構、コンテキスト認識機能抽出、AIベースの品質評価モジュールなどである。
論文参考訳（メタデータ） (2024-10-11T07:06:36Z)
Future-Proofing Mobile Networks: A Digital Twin Approach to Multi-Signal Management [2.5341871361006456]
デジタルツイン(DT)は、将来の無線ネットワークにおいて重要な技術となることが期待されている。我々のフレームワークは多様なデータソースを統合し、ネットワーク性能に関するリアルタイムで総合的な洞察を提供する。従来の分析は、Generative AI(GenAI)のような新しいAIモデルに依存するように進化する。
論文参考訳（メタデータ） (2024-07-22T10:13:46Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Towards Scenario- and Capability-Driven Dataset Development and Evaluation: An Approach in the Context of Mapless Automated Driving [0.0]
本稿では,自動走行における環境認識のためのデータセット開発プロセスに焦点を当てる。本稿では,データセット開発におけるシナリオと能力に基づくアプローチを提案する。この方法論を、既存のレーン検出データセットの幅広い範囲に適用することにより、現在のデータセットにおける重要な制限を特定します。
論文参考訳（メタデータ） (2024-04-30T15:52:49Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文参考訳（メタデータ） (2024-02-07T01:45:14Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。シミュレーションと実環境の両方で実験的な評価を行う。
論文参考訳（メタデータ） (2023-01-15T09:37:55Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Artificial Intelligence (AI)-Centric Management of Resources in Modern Distributed Computing Systems [22.550075095184514]
Cloud Data Centres (DCS) は大規模で複雑で異種であり、複数のネットワークと地理的境界に分散している。 IoT(Internet of Things)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大なデータを生成しています。既存のリソース管理システム(RMS)は、そのような複合システムや動的システムには静的またはソリューションが不十分である。
論文参考訳（メタデータ） (2020-06-09T06:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。