論文の概要: Toward Ownership Understanding of Objects: Active Question Generation with Large Language Model and Probabilistic Generative Model
- arxiv url: http://arxiv.org/abs/2509.12754v1
- Date: Tue, 16 Sep 2025 07:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.939844
- Title: Toward Ownership Understanding of Objects: Active Question Generation with Large Language Model and Probabilistic Generative Model
- Title(参考訳): オブジェクトのオーナシップ理解に向けて:大規模言語モデルと確率的生成モデルを用いたアクティブな質問生成
- Authors: Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi,
- Abstract要約: ActOwL(アクティブ・オーナシップ・ラーニング)は,ロボットがユーザに対して能動的にオーナシップ関連の質問を作成・質問できるフレームワークである。
ActOwLは確率的生成モデルを用いて情報ゲインを最大化する質問を選択する。
LLM(Large Language Models)から常識知識を活用することで、オブジェクトは共有または所有のいずれかとして事前分類される。
- 参考スコア(独自算出の注目度): 6.0783502693642495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby acquiring ownership knowledge efficiently to improve learning efficiency. Additionally, by leveraging commonsense knowledge from Large Language Models (LLM), objects are pre-classified as either shared or owned, and only owned objects are targeted for questioning. Through experiments in a simulated home environment and a real-world laboratory setting, ActOwL achieved significantly higher ownership clustering accuracy with fewer questions than baseline methods. These findings demonstrate the effectiveness of combining active inference with LLM-guided commonsense reasoning, advancing the capability of robots to acquire ownership knowledge for practical and socially appropriate task execution.
- Abstract(参考訳): 家庭やオフィス環境で動作しているロボットは、‘Bring me my cup’のような指示を正しく実行するために、オブジェクトの所有権を理解する必要がある。
しかし、視覚的特徴だけでは、所有権を確実に推測することはできない。
このギャップに対処するために,ロボットがユーザに対して能動的にオーナシップ関連質問を生成・問うことのできるフレームワークであるActive Ownership Learning (ActOwL)を提案する。
ActOwLは確率的生成モデルを用いて情報獲得を最大化する質問を選択し、学習効率を向上させるためにオーナシップ知識を効率的に取得する。
加えて、Large Language Models (LLM) から常識的知識を活用することで、オブジェクトは共有または所有のいずれかとして事前分類され、所有されているオブジェクトのみが質問の対象となる。
ActOwLは、シミュレーションされた家庭環境と実世界の実験室での実験を通じて、ベースライン法よりも少ない質問で、オーナシップクラスタリングの精度を著しく向上させた。
これらの結果は, LLM誘導コモンセンス推論とアクティブ推論を組み合わせ, 実用的かつ社会的に適切なタスク実行のために, ロボットによるオーナシップ知識の獲得を促進させる効果を示した。
関連論文リスト
- Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Focusing Robot Open-Ended Reinforcement Learning Through Users' Purposes [1.0013553984400492]
オープンエンドラーニング(OEL)自律ロボットは、環境と直接対話することで、新たなスキルと知識を得ることができる。
目的指向型オープンエンドラーニング(POEL)というソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-16T17:22:11Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment [18.256529559741075]
大きな言語モデル(LLM)はエージェントシステムのキーコンポーネントとして機能し、それらの常識的な知識は、位置や具現化されたアクションのための言語ベースのプランナーとしての性能に大きく影響する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning [38.038143548554686]
大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-04T04:31:24Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。