Fugu-MT 論文翻訳(概要): Learning Object State Changes in Videos: An Open-World Perspective

論文の概要: Learning Object State Changes in Videos: An Open-World Perspective

arxiv url: http://arxiv.org/abs/2312.11782v1
Date: Tue, 19 Dec 2023 01:33:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:22:28.622962
Title: Learning Object State Changes in Videos: An Open-World Perspective
Title（参考訳）: ビデオでオブジェクトの状態変化を学ぶ: オープンワールドの視点から
Authors: Zihui Xue, Kumar Ashutosh, Kristen Grauman
Abstract要約: 本稿では,オブジェクト状態変化問題に対する新しいオープンワールドの定式化について紹介する。目標は、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、そして最終状態 -- を時間的にローカライズすることだ。 We present HowToChange, a first open-world benchmark for video OSC localization。
参考スコア（独自算出の注目度）: 62.66597078360625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object State Changes (OSCs) are pivotal for video understanding. While humans can effortlessly generalize OSC understanding from familiar to unknown objects, current approaches are confined to a closed vocabulary. Addressing this gap, we introduce a novel open-world formulation for the video OSC problem. The goal is to temporally localize the three stages of an OSC -- the object's initial state, its transitioning state, and its end state -- whether or not the object has been observed during training. Towards this end, we develop VidOSC, a holistic learning approach that: (1) leverages text and vision-language models for supervisory signals to obviate manually labeling OSC training data, and (2) abstracts fine-grained shared state representations from objects to enhance generalization. Furthermore, we present HowToChange, the first open-world benchmark for video OSC localization, which offers an order of magnitude increase in the label space and annotation volume compared to the best existing benchmark. Experimental results demonstrate the efficacy of our approach, in both traditional closed-world and open-world scenarios.
Abstract（参考訳）: オブジェクト状態変化(OSC)は、ビデオ理解において重要な要素である。人間は未知の物体へのosc理解を無力に一般化することができるが、現在のアプローチは閉じた語彙に限定されている。このギャップに対処し,ビデオosc問題に対する新しいオープンワールド定式化を提案する。目標は、トレーニング中にオブジェクトが観察されたかどうかに関わらず、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、および最終状態 -- を時間的にローカライズすることだ。この目的に向けて,(1)oscトレーニングデータの手作業によるラベル付けを回避し,(2)オブジェクトからのきめ細かい共有状態表現を抽象化し,一般化を促進する,総合的な学習手法であるvidoscを開発した。さらに,ビデオOSCローカライゼーションのための最初のオープンワールドベンチマークであるHowToChangeについて述べる。実験により,従来のクローズドワールドシナリオとオープンワールドシナリオの両方において,我々のアプローチの有効性が示された。

関連論文リスト

Learning Event Completeness for Weakly Supervised Video Anomaly Detection [5.140169437190526]
弱監視ビデオ異常検出(LEC-VAD)のための新しい学習イベント完全性を提案する。 LEC-VADは、視覚と言語の間のカテゴリー認識とカテゴリー認識のセマンティクスの両方を符号化する。本研究では,異常項目のカテゴリに関連付けられた簡潔なテキスト記述を豊かにするための,新しいメモリバンクベースのプロトタイプ学習機構を開発する。
論文参考訳（メタデータ） (2025-06-16T04:56:58Z)
SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文参考訳（メタデータ） (2025-03-15T01:48:54Z)
Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文参考訳（メタデータ） (2024-05-27T07:08:58Z)
Anticipating Object State Changes [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文参考訳（メタデータ） (2024-05-21T13:40:30Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文参考訳（メタデータ） (2024-02-27T01:48:19Z)
Unsupervised Open-Vocabulary Object Localization in Videos [118.32792460772332]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
論文参考訳（メタデータ） (2023-09-18T15:20:13Z)
Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文参考訳（メタデータ） (2023-08-24T07:19:59Z)
Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文参考訳（メタデータ） (2023-04-17T13:31:59Z)
ActBERT: Learning Global-Local Video-Text Representations [74.29748531654474]
本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。 ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
論文参考訳（メタデータ） (2020-11-14T07:14:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。