論文の概要: Agent-Environment Network for Temporal Action Proposal Generation
- arxiv url: http://arxiv.org/abs/2107.08323v1
- Date: Sat, 17 Jul 2021 23:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:00:45.855852
- Title: Agent-Environment Network for Temporal Action Proposal Generation
- Title(参考訳): 時間的行動提案生成のためのエージェント環境ネットワーク
- Authors: Viet-Khoa Vo-Ho, Ngan Le, Kashu Yamazaki, Akihiro Sugimoto, Minh-Triet
Tran
- Abstract要約: 時間的行動提案生成は、ビデオ中の人間の行動を含む時間的間隔をローカライズすることを目的としている。
エージェントとして知られる人間が環境と相互作用し、環境に影響を与えるアクションを実行するというアクション定義に基づいて、コンテキストエージェント環境ネットワークを提案する。
提案手法は, (i) エージェント経路と, (ii) エージェントが環境とどのように相互作用するかを知るため, (i) エージェント経路と, (ii) 環境経路をグローバルレベルで動作させる。
- 参考スコア(独自算出の注目度): 10.74737201306622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action proposal generation is an essential and challenging task that
aims at localizing temporal intervals containing human actions in untrimmed
videos. Most of existing approaches are unable to follow the human cognitive
process of understanding the video context due to lack of attention mechanism
to express the concept of an action or an agent who performs the action or the
interaction between the agent and the environment. Based on the action
definition that a human, known as an agent, interacts with the environment and
performs an action that affects the environment, we propose a contextual
Agent-Environment Network. Our proposed contextual AEN involves (i) agent
pathway, operating at a local level to tell about which humans/agents are
acting and (ii) environment pathway operating at a global level to tell about
how the agents interact with the environment. Comprehensive evaluations on
20-action THUMOS-14 and 200-action ActivityNet-1.3 datasets with different
backbone networks, i.e C3D and SlowFast, show that our method robustly exhibits
outperformance against state-of-the-art methods regardless of the employed
backbone network.
- Abstract(参考訳): 時間的行動提案生成は、ビデオ中の人間の行動を含む時間的間隔をローカライズすることを目的とした、不可欠かつ困難なタスクである。
既存のアプローチのほとんどは、アクションの概念を表現するための注意機構の欠如や、エージェントと環境の間のアクションや相互作用を行うエージェントのために、ビデオコンテキストを理解する人間の認知プロセスに従うことができない。
エージェントとして知られる人間が環境と相互作用し、環境に影響を与えるアクションを実行するというアクション定義に基づいて、コンテキストエージェント環境ネットワークを提案する。
提案手法は, (i) エージェント経路と, (ii) エージェントが環境とどのように相互作用するかを知るため, (i) エージェント経路と, (ii) 環境経路をグローバルレベルで動作させる。
C3DとSlowFastの20アクションTHUMOS-14と200アクションActivityNet-1.3データセットの総合評価により,採用したバックボーンネットワークによらず,最先端の手法に対して堅牢な性能を示すことを示す。
関連論文リスト
- AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Signifiers as a First-class Abstraction in Hypermedia Multi-Agent
Systems [0.6595290783361959]
我々は、Webベースのマルチエージェントシステムにおいて、シグニケータを第一級の抽象化として導入するために、Affordance TheoryとHuman-Computer Interactionの概念と方法を構築した。
我々は,情報利用の促進を目的とした,ハイパーメディア環境におけるシグニチャの文脈曝露に関する形式モデルを定義した。
論文 参考訳(メタデータ) (2023-02-14T10:54:46Z) - AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation [24.81870045216019]
時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
論文 参考訳(メタデータ) (2022-10-05T21:57:25Z) - Active Inference for Robotic Manipulation [30.692885688744507]
アクティブ推論(英: Active Inference)は、部分的に可観測性を扱う理論である。
本研究では,ロボット操作作業のシミュレーションにActive Inferenceを適用した。
アクティブ推論によって引き起こされる情報探索行動により,エージェントはこれらの難易度の高い環境を体系的に探索できることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:19:38Z) - ABN: Agent-Aware Boundary Networks for Temporal Action Proposal
Generation [14.755186542366065]
時間的行動提案生成(TAPG)は、未トリミングビデオ中の時間的行動間隔を推定することを目的としている。
本稿では,2つのサブネットワークからなるエージェント・アウェア境界ネットワーク(ABN)を提案する。
提案するABNは,TAPGのバックボーンネットワークによらず,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:06:34Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation [15.360689782405057]
本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。
AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
論文 参考訳(メタデータ) (2021-10-21T20:43:42Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。