論文の概要: Human-in-the-loop Adaptation in Group Activity Feature Learning for Team Sports Video Retrieval
- arxiv url: http://arxiv.org/abs/2602.03157v1
- Date: Tue, 03 Feb 2026 06:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.281223
- Title: Human-in-the-loop Adaptation in Group Activity Feature Learning for Team Sports Video Retrieval
- Title(参考訳): チームスポーツビデオ検索のためのグループ活動特徴学習におけるHuman-in-the-loop Adaptation
- Authors: Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita,
- Abstract要約: 本稿では,グループアクティビティのアノテーションを使わずにGAFL(Group Activity Feature Learning)のためのHuman-in-the-loop適応を提案する。
本手法は,グループ活動の類似性に基づいた事前学習を行う。
2つのチームスポーツデータセットの総合的な実験結果から,本手法が検索性能を大幅に改善することを確認した。
- 参考スコア(独自算出の注目度): 17.686293914812154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes human-in-the-loop adaptation for Group Activity Feature Learning (GAFL) without group activity annotations. This human-in-the-loop adaptation is employed in a group-activity video retrieval framework to improve its retrieval performance. Our method initially pre-trains the GAF space based on the similarity of group activities in a self-supervised manner, unlike prior work that classifies videos into pre-defined group activity classes in a supervised learning manner. Our interactive fine-tuning process updates the GAF space to allow a user to better retrieve videos similar to query videos given by the user. In this fine-tuning, our proposed data-efficient video selection process provides several videos, which are selected from a video database, to the user in order to manually label these videos as positive or negative. These labeled videos are used to update (i.e., fine-tune) the GAF space, so that the positive and negative videos move closer to and farther away from the query videos through contrastive learning. Our comprehensive experimental results on two team sports datasets validate that our method significantly improves the retrieval performance. Ablation studies also demonstrate that several components in our human-in-the-loop adaptation contribute to the improvement of the retrieval performance. Code: https://github.com/chihina/GAFL-FINE-CVIU.
- Abstract(参考訳): 本稿では,グループアクティビティのアノテーションを使わずにGAFL(Group Activity Feature Learning)のためのHuman-in-the-loop適応を提案する。
このHuman-in-the-loop適応は、グループアクティブなビデオ検索フレームワークに採用され、検索性能が向上する。
本手法は,グループ活動の類似性に基づいたGAF空間を自己教師型で事前学習するが,ビデオが教師型学習方式で事前に定義されたグループ活動クラスに分類される以前の作業とは違って,当初はGAF空間を事前学習する。
我々のインタラクティブな微調整プロセスは、GAFスペースを更新し、ユーザが提供したクエリビデオに似たビデオをよりよく検索できるようにします。
この微調整において、提案したデータ効率の高いビデオ選択プロセスは、ビデオデータベースから選択された複数の動画をユーザに提供し、これらの動画を肯定的または否定的に手動でラベル付けする。
これらのラベル付きビデオは、GAF空間の更新(すなわち微調整)に使用されるため、肯定的なビデオと否定的なビデオは、対照的な学習を通じてクエリビデオに近づいたり遠ざかったりする。
2つのチームスポーツデータセットの総合的な実験結果から,本手法が検索性能を大幅に改善することを確認した。
アブレーション研究により, 検索性能向上に寄与する要素がいくつか確認された。
コード:https://github.com/chihina/GAFL-FINE-CVIU
関連論文リスト
- 2by2: Weakly-Supervised Learning for Global Action Segmentation [4.880243880711163]
本稿では,グローバルアクションセグメンテーションの課題に対して,シンプルかつ効果的なアプローチを提案する。
我々は,グローバルな行動セグメンテーションに適した行動表現を弱教師付きで学習するために,活動ラベルを利用することを提案する。
バックボーンアーキテクチャでは、スパーストランスフォーマーをベースとしたSiameseネットワークを使用して、入力ビデオペアとして使用し、それらが同一のアクティビティに属しているかどうかを判断する。
論文 参考訳(メタデータ) (2024-12-17T11:49:36Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。