論文の概要: Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2603.12701v1
- Date: Fri, 13 Mar 2026 06:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.942412
- Title: Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration
- Title(参考訳): 目を見つめる:人間とAIのコラボレーションにおける共有された初対人視点による認知的アライメントの実現
- Authors: Zhuyu Teng, Pei Chen, Yichen Cai, Ruoqing Lu, Zhaoqu Jiang, Jiayang Li, Weitao You, Lingyun Sun,
- Abstract要約: Eye2Eyeは、人間とAIの認知アライメントのためのチャネルとして、一対一の視点を活用するフレームワークである。
1) 流体焦点アライメントのための共同注意調整,(2) 進化する共通基盤を維持するための修正可能なメモリ,(3) ユーザのAI理解の明確化と洗練を可能にする反射フィードバック,の3つのコンポーネントを統合している。
その結果,Eye2Eyeは信頼度を高めながらタスク完了時間とインタラクション負荷を著しく低減し,コラボレーションを改善するためにコンポーネントが協調して動作することを示す。
- 参考スコア(独自算出の注目度): 25.379765835384177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite advances in multimodal AI, current vision-based assistants often remain inefficient in collaborative tasks. We identify two key gulfs: a communication gulf, where users must translate rich parallel intentions into verbal commands due to the channel mismatch , and an understanding gulf, where AI struggles to interpret subtle embodied cues. To address these, we propose Eye2Eye, a framework that leverages first-person perspective as a channel for human-AI cognitive alignment. It integrates three components: (1) joint attention coordination for fluid focus alignment, (2) revisable memory to maintain evolving common ground, and (3) reflective feedback allowing users to clarify and refine AI's understanding. We implement this framework in an AR prototype and evaluate it through a user study and a post-hoc pipeline evaluation. Results show that Eye2Eye significantly reduces task completion time and interaction load while increasing trust, demonstrating its components work in concert to improve collaboration.
- Abstract(参考訳): マルチモーダルAIの進歩にもかかわらず、現在のビジョンベースのアシスタントはコラボレーションタスクでは非効率であることが多い。
コミュニケーションギャルフは、チャンネルミスマッチによるリッチな並行意図を言語コマンドに変換するもので、理解ギャルフは、微妙なエンボディドキューの解釈にAIが苦労している。
これらの問題に対処するために,人間とAIの認知アライメントのためのチャネルとして,一対一の視点を活用するフレームワークEye2Eyeを提案する。
1) 流体焦点アライメントのための共同注意調整,(2) 進化する共通基盤を維持するための修正可能なメモリ,(3) ユーザのAI理解の明確化と洗練を可能にする反射フィードバック,の3つのコンポーネントを統合している。
我々は,このフレームワークをARプロトタイプに実装し,ユーザスタディとポストホックパイプライン評価を通じて評価する。
その結果,Eye2Eyeは信頼度を高めながらタスク完了時間とインタラクション負荷を著しく低減し,コラボレーションを改善するためにコンポーネントが協調して動作することを示す。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Eye Gaze as a Signal for Conveying User Attention in Contextual AI Systems [6.910103624072253]
マルチモーダルAIシステムは、ユーザーとシステムの間の明示的な通信チャネルに依存している。
ユーザの注意情報を伝えるためのウェアラブルアイトラッキングの可能性を探る。
論文 参考訳(メタデータ) (2025-01-23T17:51:54Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Vision-Based Manipulators Need to Also See from Their Hands [58.398637422321976]
本研究では,視覚的視点の選択が,生のセンサ観測から身体操作の文脈における学習と一般化にどう影響するかを検討する。
手中心(目の)視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化を一貫して改善する。
論文 参考訳(メタデータ) (2022-03-15T18:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。