Fugu-MT 論文翻訳(概要): Anticipating Object State Changes

論文の概要: Anticipating Object State Changes

arxiv url: http://arxiv.org/abs/2405.12789v2
Date: Mon, 30 Sep 2024 14:24:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 05:21:22.246282
Title: Anticipating Object State Changes
Title（参考訳）: オブジェクトの状態変化を予想する
Authors: Victoria Manousaki, Konstantinos Bacharidis, Filippos Gouidis, Konstantinos Papoutsakis, Dimitris Plexousakis, Antonis Argyros,
Abstract要約: 提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
参考スコア（独自算出の注目度）: 0.8428703116072809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce (a) the new problem of anticipating object state changes in images and videos during procedural activities, (b) new curated annotation data for object state change classification based on the Ego4D dataset, and (c) the first method for addressing this challenging problem. Solutions to this new task have important implications in vision-based scene understanding, automated monitoring systems, and action planning. The proposed novel framework predicts object state changes that will occur in the near future due to yet unseen human actions by integrating learned visual features that represent recent visual information with natural language (NLP) features that represent past object state changes and actions. Leveraging the extensive and challenging Ego4D dataset which provides a large-scale collection of first-person perspective videos across numerous interaction scenarios, we introduce an extension noted Ego4D-OSCA that provides new curated annotation data for the object state change anticipation task (OSCA). An extensive experimental evaluation is presented demonstrating the proposed method's efficacy in predicting object state changes in dynamic scenarios. The performance of the proposed approach also underscores the potential of integrating video and linguistic cues to enhance the predictive performance of video understanding systems and lays the groundwork for future research on the new task of object state change anticipation. The source code and the new annotation data (Ego4D-OSCA) will be made publicly available.
Abstract（参考訳）: 本研究で紹介する (a)プロシージャ活動中の画像や動画の物体の状態変化を予測する新たな問題。 b)Ego4Dデータセットに基づくオブジェクト状態変化分類のための新しいキュレートアノテーションデータ、及び (c) この課題に対処する最初の方法。この新しい課題に対する解決策は、視覚に基づくシーン理解、自動監視システム、アクションプランニングに重要な意味を持つ。提案フレームワークは,近年の視覚情報を自然言語(NLP)で表現する学習された視覚的特徴と過去のオブジェクトの状態変化や動作を表現して,近い将来に発生するオブジェクト状態の変化を予測する。 Ego4D-OSCAはオブジェクトの状態変化予測タスク(OSCA)に新たなキュレートされたアノテーションデータを提供する。動的シナリオにおけるオブジェクト状態変化の予測における提案手法の有効性を実験的に検証した。提案手法の性能は,映像理解システムの予測性能を高めるために,映像と言語の組み合わせの可能性を強調し,オブジェクトの状態変化を期待する新たな課題について,今後の研究の基盤となる。ソースコードと新しいアノテーションデータ(Ego4D-OSCA)が公開される。

関連論文リスト

SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文参考訳（メタデータ） (2025-03-15T01:48:54Z)
Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-10-21T07:44:44Z)
Active Object Detection with Knowledge Aggregation and Distillation from Large Models [5.669106489320257]
状態変化中のアクティブオブジェクトを正確に検出することは、人間のインタラクションを理解し、意思決定を容易にするために不可欠である。既存のアクティブオブジェクト検出法(AOD)は主に、サイズ、形状、手との関係など、入力内のオブジェクトの視覚的外観に依存する。状態変化は、しばしばオブジェクト上で実行される相互作用の結果であり、AODに対してより信頼性の高い手がかりを提供するために、オブジェクトに関連する可視的相互作用に関する情報的事前利用を提案する。提案するフレームワークは,Ego4D,Epic-Kitchens,MECCANOの4つのデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-21T05:39:31Z)
OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文参考訳（メタデータ） (2024-02-27T01:48:19Z)
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文参考訳（メタデータ） (2023-08-16T12:07:02Z)
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-08T06:49:54Z)
Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文参考訳（メタデータ） (2023-06-16T08:13:41Z)
Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文参考訳（メタデータ） (2023-05-22T11:56:10Z)
Object-Centric Video Prediction via Decoupling of Object Dynamics and Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-02-23T08:29:26Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)
Novel Human-Object Interaction Detection via Adversarial Domain Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文参考訳（メタデータ） (2020-05-22T22:02:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。