論文の概要: CBIL: Collective Behavior Imitation Learning for Fish from Real Videos
- arxiv url: http://arxiv.org/abs/2504.00234v1
- Date: Mon, 31 Mar 2025 21:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:45.984051
- Title: CBIL: Collective Behavior Imitation Learning for Fish from Real Videos
- Title(参考訳): CBIL:実映像からの魚の集団行動模倣学習
- Authors: Yifan Wu, Zhiyang Dou, Yuko Ishiwaka, Shun Ogawa, Yuke Lou, Wenping Wang, Lingjie Liu, Taku Komura,
- Abstract要約: 魚の学習行動を直接ビデオから学習するためのスケーラブルなアプローチCBIL(Collective Behavior Imitation Learning)を提案する。
MVAEは2次元の観察を、模倣学習段階に従うためにコンパクトで表現力のある暗黙の状態に効果的にマッピングする。
CBILは、学習された集合的な動きの前の様々なアニメーションタスクに使用することができる。
- 参考スコア(独自算出の注目度): 58.81930297206828
- License:
- Abstract: Reproducing realistic collective behaviors presents a captivating yet formidable challenge. Traditional rule-based methods rely on hand-crafted principles, limiting motion diversity and realism in generated collective behaviors. Recent imitation learning methods learn from data but often require ground truth motion trajectories and struggle with authenticity, especially in high-density groups with erratic movements. In this paper, we present a scalable approach, Collective Behavior Imitation Learning (CBIL), for learning fish schooling behavior directly from videos, without relying on captured motion trajectories. Our method first leverages Video Representation Learning, where a Masked Video AutoEncoder (MVAE) extracts implicit states from video inputs in a self-supervised manner. The MVAE effectively maps 2D observations to implicit states that are compact and expressive for following the imitation learning stage. Then, we propose a novel adversarial imitation learning method to effectively capture complex movements of the schools of fish, allowing for efficient imitation of the distribution for motion patterns measured in the latent space. It also incorporates bio-inspired rewards alongside priors to regularize and stabilize training. Once trained, CBIL can be used for various animation tasks with the learned collective motion priors. We further show its effectiveness across different species. Finally, we demonstrate the application of our system in detecting abnormal fish behavior from in-the-wild videos.
- Abstract(参考訳): 現実的な集団行動の再現は、魅惑的だが恐ろしい挑戦となる。
伝統的なルールに基づく手法は手作りの原則に依存しており、生成された集団行動における動きの多様性とリアリズムを制限する。
近年の模倣学習法はデータから学習するが、特に不規則な動きを持つ高密度群では、しばしば真理運動の軌跡と真偽との闘いが必要となる。
本稿では,映像から魚の学習行動を直接学習するためのスケーラブルなアプローチCBIL(Collective Behavior Imitation Learning)を提案する。
提案手法はまずビデオ表現学習を利用して,ビデオ入力から暗黙の状態を自己管理的に抽出する。
MVAEは2次元の観察を、模倣学習段階に従うためにコンパクトで表現力のある暗黙の状態に効果的にマッピングする。
そこで本研究では,魚の群落の複雑な動きを効果的に捉え,潜伏空間で測定された動きパターンの分布を効果的に再現する,新しい逆模倣学習法を提案する。
また、バイオインスパイアされた報酬と、トレーニングの正規化と安定化のための事前の報酬も組み込まれている。
訓練されたCBILは、学習された集合的な動きの前の様々なアニメーションタスクに使用することができる。
さらに、異なる種にまたがってその効果を示す。
最後に,本システムを用いた眼内ビデオからの異常魚の行動検出について述べる。
関連論文リスト
- You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations [38.835807227433335]
双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。
両眼でのみ観察できるヨト(YOTO)を提案する。
YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-24T03:26:41Z) - Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning [27.233232260388682]
そこで本研究では,シミュレーションや学習を行うビデオから報酬関数を直接生成する,新しい video2reward 手法を提案する。
本手法は,人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回る。
論文 参考訳(メタデータ) (2024-12-07T03:10:27Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.48857272250446]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation
For Action Recognition [8.571437792425417]
本研究では,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を併用した新しい伝達学習手法を提案する。
具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。
論文 参考訳(メタデータ) (2022-05-01T16:31:25Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。