論文の概要: ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction
- arxiv url: http://arxiv.org/abs/2504.01472v1
- Date: Wed, 02 Apr 2025 08:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:33.495133
- Title: ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction
- Title(参考訳): ANNEXE:エゴセントリックなインタラクションのための統一分析、解答、接地
- Authors: Yuejiao Su, Yi Wang, Qiongyang Hu, Chuang Yang, Lap-Pui Chau,
- Abstract要約: 本稿では,Egocentric Interaction Reasoning and pixel Grounding (Ego-IRG) という新しいタスクを提案する。
Ego-IRGは、クエリを入力としてエゴセントリックなイメージを取り入れ、分析、回答、ピクセルグラウンドという3つの重要なステップを通じてインタラクションを解決することを目的とした最初のタスクである。
Ego-IRGBenchデータセットには、160万のクエリとそれに対応するインタラクションに関するマルチモーダルレスポンスを備えた、20万以上のエゴセントリックなイメージが含まれている。
- 参考スコア(独自算出の注目度): 16.338872733140832
- License:
- Abstract: Egocentric interaction perception is one of the essential branches in investigating human-environment interaction, which lays the basis for developing next-generation intelligent systems. However, existing egocentric interaction understanding methods cannot yield coherent textual and pixel-level responses simultaneously according to user queries, which lacks flexibility for varying downstream application requirements. To comprehend egocentric interactions exhaustively, this paper presents a novel task named Egocentric Interaction Reasoning and pixel Grounding (Ego-IRG). Taking an egocentric image with the query as input, Ego-IRG is the first task that aims to resolve the interactions through three crucial steps: analyzing, answering, and pixel grounding, which results in fluent textual and fine-grained pixel-level responses. Another challenge is that existing datasets cannot meet the conditions for the Ego-IRG task. To address this limitation, this paper creates the Ego-IRGBench dataset based on extensive manual efforts, which includes over 20k egocentric images with 1.6 million queries and corresponding multimodal responses about interactions. Moreover, we design a unified ANNEXE model to generate text- and pixel-level outputs utilizing multimodal large language models, which enables a comprehensive interpretation of egocentric interactions. The experiments on the Ego-IRGBench exhibit the effectiveness of our ANNEXE model compared with other works.
- Abstract(参考訳): エゴセントリックな相互作用知覚は、人間と環境の相互作用を研究する上で不可欠な分野の1つである。
しかし、既存のエゴセントリックなインタラクション理解手法では、ユーザクエリに応じて、一貫性のあるテキストとピクセルレベルのレスポンスを同時に生成できないため、ダウンストリームアプリケーション要求の柔軟性に欠ける。
本稿では,エゴセントリック相互作用を徹底的に理解するために,エゴセントリック相互作用推論(Egocentric Interaction Reasoning and pixel Grounding, Ego-IRG)という新しいタスクを提案する。
Ego-IRGは、クエリを入力としてエゴセントリックなイメージを取り入れ、分析、回答、ピクセルグラウンドという3つの重要なステップを通じてインタラクションを解決することを目的とした最初のタスクである。
もうひとつの課題は、既存のデータセットがEgo-IRGタスクの条件を満たすことができないことだ。
この制限に対処するため、この論文はEgo-IRGBenchデータセットを作成し、160万のクエリを持つ20万以上のエゴセントリックな画像と、それに対応する対話に関するマルチモーダル応答を含む。
さらに,マルチモーダルな大言語モデルを用いたテキストおよびピクセルレベルの出力を生成する統一的なANNEXEモデルを設計し,エゴセントリックな相互作用の包括的解釈を可能にする。
Ego-IRGBenchの実験は、他の研究と比較して、我々のANNEXEモデルの有効性を示している。
関連論文リスト
- Hier-EgoPack: Hierarchical Egocentric Video Understanding with Diverse Task Perspectives [12.709881592333995]
多様な時間的粒度の推論を可能にすることで,EgoPackを進化させるHier-EgoPackを紹介した。
クリップレベルの推論とフレームレベルの推論の両方を含む複数のEgo4dベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-04T17:03:49Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - EgoPet: Egomotion and Interaction Data from an Animal's Perspective [82.7192364237065]
本稿では,同時行動とマルチエージェントインタラクションの多様な例を含む,ペットの情緒的イメージのデータセットを紹介する。
EgoPetは、既存の人間や車両のエゴセントリックなデータセットとは根本的に異なる視点を提供する。
動物行動を把握する2つのドメイン内ベンチマークタスクと、ロボット四足歩行のための事前学習リソースとしてEgoPetの有用性を評価するための第3のベンチマークを定義する。
論文 参考訳(メタデータ) (2024-04-15T17:59:47Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Emergent Communication in Interactive Sketch Question Answering [38.38087954142305]
視覚に基づく創発的コミュニケーション(EC)は、スケッチを通してコミュニケーションを学び、人間のコミュニケーションの進化を解明することを目的としている。
まず,2人の共同プレイヤがスケッチを通して対話し,複数ラウンドで画像に関する質問に答える,インタラクティブスケッチ質問回答(ISQA)タスクを紹介する。
人的評価を含む実験結果は、多ラウンドの対話機構が、適切な人間の解釈可能性を持つ知的エージェント間の標的的かつ効率的なコミュニケーションを促進することを実証している。
論文 参考訳(メタデータ) (2023-10-24T08:00:20Z) - Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation
and Database with Automatic Labelling [1.0149624140985476]
本研究は、拡張仮想性における自己認識を改善するために、自我中心の腕のセグメンテーションに焦点を当てる。
GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, Ego Gesture などの実効自我中心のデータセットについて報告する。
このタスクに対するEgoArmデータセットの適合性を確認し、元のネットワークに対して最大40%の改善を実現した。
論文 参考訳(メタデータ) (2020-03-27T12:09:27Z) - Modeling Cross-view Interaction Consistency for Paired Egocentric
Interaction Recognition [16.094976277810556]
Paired Egocentric Interaction Recognition (PEIR) は、2人の人間とビデオの相互作用を協調的に認識するタスクである。
本稿では,2つのビュー間の関係を両耳プーリングを用いて構築し,特徴レベルの一貫性を捉えることを提案する。
データセットPEVにおける実験結果は,タスクPEIRにおける提案手法の優位性を示している。
論文 参考訳(メタデータ) (2020-03-24T05:05:34Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。