Fugu-MT 論文翻訳(概要): Interpreting Context-Aware Human Preferences for Multi-Objective Robot Navigation

論文の概要: Interpreting Context-Aware Human Preferences for Multi-Objective Robot Navigation

arxiv url: http://arxiv.org/abs/2603.17510v1
Date: Wed, 18 Mar 2026 09:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.94648
Title: Interpreting Context-Aware Human Preferences for Multi-Objective Robot Navigation
Title（参考訳）: 多目的ロボットナビゲーションにおけるコンテキスト認識型人間の嗜好の解釈
Authors: Tharun Sethuraman, Subham Agrawal, Nils Dengler, Jorge de Heuvel, Teena Hassan, Maren Bennewitz,
Abstract要約: 本稿では,ロボットがコンテキストに依存したナビゲーションの好みを理解し,適用できるようにするパイプラインを提案する。 Vision-Language Model (VLM)は、搭載された視覚観測から構造化された環境コンテキストを抽出する。大規模言語モデル(LLM)は、自然言語のユーザフィードバックを解釈可能なコンテキスト依存の行動規則に変換する。好み翻訳モジュールは、コンテキスト情報と格納されたルールを数値的な好みベクトルにマッピングする。
参考スコア（独自算出の注目度）: 6.15445073348032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots operating in human-shared environments must not only achieve task-level navigation objectives such as safety and efficiency, but also adapt their behavior to human preferences. However, as human preferences are typically expressed in natural language and depend on environmental context, it is difficult to directly integrate them into low-level robot control policies. In this work, we present a pipeline that enables robots to understand and apply context-dependent navigation preferences by combining foundational models with a Multi-Objective Reinforcement Learning (MORL) navigation policy. Thus, our approach integrates high-level semantic reasoning with low-level motion control. A Vision-Language Model (VLM) extracts structured environmental context from onboard visual observations, while Large Language Models (LLM) convert natural language user feedback into interpretable, context-dependent behavioral rules stored in a persistent but updatable rule memory. A preference translation module then maps contextual information and stored rules into numerical preference vectors that parameterize a pretrained MORL policy for real-time navigation adaptation. We evaluate the proposed framework through quantitative component-level evaluations, a user study, and real-world robot deployments in various indoor environments. Our results demonstrate that the system reliably captures user intent, generates consistent preference vectors, and enables controllable behavior adaptation across diverse contexts. Overall, the proposed pipeline improves the adaptability, transparency, and usability of robots operating in shared human environments, while maintaining safe and responsive real-time control.
Abstract（参考訳）: 人間と共有された環境で動作しているロボットは、安全や効率といったタスクレベルのナビゲーション目的を達成するだけでなく、人間の好みに適応する必要がある。しかしながら、人間の嗜好は一般的に自然言語で表現され、環境条件に依存しているため、それらを低レベルのロボット制御ポリシーに直接組み込むことは困難である。本研究では,基本モデルとMORL(Multi-Objective Reinforcement Learning)ナビゲーションポリシを組み合わせることで,ロボットがコンテキスト依存のナビゲーション嗜好を理解し,適用できるようにするパイプラインを提案する。そこで本研究では,高レベルなセマンティック推論と低レベルなモーション制御を統合した。 VLM(Vision-Language Model)は、搭載された視覚観測から構造化された環境コンテキストを抽出する一方、Large Language Models(LLM)は、自然言語のユーザフィードバックを、永続的だが更新可能なルールメモリに格納された解釈可能なコンテキスト依存の行動ルールに変換する。嗜好翻訳モジュールは、コンテキスト情報と格納されたルールを、事前訓練されたMORLポリシーをパラメータ化してリアルタイムナビゲーション適応する数値選好ベクトルにマッピングする。提案手法は,各種屋内環境における定量的なコンポーネントレベル評価,ユーザスタディ,実世界ロボットの展開を通じて評価する。提案システムは,ユーザの意図を確実に把握し,一貫した嗜好ベクトルを生成し,多様なコンテキストにまたがる制御可能な行動適応を可能にする。全体として、提案したパイプラインは、安全で応答性の高いリアルタイム制御を維持しながら、共有された人間環境で動作するロボットの適応性、透明性、ユーザビリティを向上させる。

関連論文リスト

APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model [21.492007331670376]
本稿では,自律ナビゲーションのための適応型プランナー学習モデル(textscapplv)を提案する。 textscapplvは、ナビゲーション性能と一般化の両方において、既存のメソッドよりも優れています。我々は,収集した航法軌道からの教師付き学習微調整と,航法性能をさらに最適化するための強化学習微調整の2つの訓練戦略を開発した。
論文参考訳（メタデータ） (2026-03-09T19:23:09Z)
OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
Interpretable Robot Control via Structured Behavior Trees and Large Language Models [0.14990005092937678]
本稿では,自然言語理解とロボット実行を橋渡しする新しい枠組みを提案する。提案手法は実世界のシナリオでは実用的であり、平均的な認識と実行の精度は約94%である。
論文参考訳（メタデータ） (2025-08-13T08:53:13Z)
Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文参考訳（メタデータ） (2025-07-15T05:37:24Z)
LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2025-04-15T17:14:06Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文参考訳（メタデータ） (2024-03-22T23:12:28Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。