論文の概要: GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding
- arxiv url: http://arxiv.org/abs/2406.09781v1
- Date: Fri, 14 Jun 2024 07:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:44:14.240380
- Title: GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding
- Title(参考訳): GPT-4o:豚の活動理解における多モーダル大言語モデルの視覚知覚性能
- Authors: Yiqi Wu, Xiaodan Hu, Ziming Fu, Siling Zhou, Jiangong Li,
- Abstract要約: 本研究では,動物行動認識における多モーダル大言語モデルの視覚知覚能力について検討した。
その結果,現在のマルチモーダルLLMでは意味的対応や時間知覚の改善が求められているが,動物行動認識の視覚的認識能力が実証された。
- 参考スコア(独自算出の注目度): 2.79453284883108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal ethology is an crucial aspect of animal research, and animal behavior labeling is the foundation for studying animal behavior. This process typically involves labeling video clips with behavioral semantic tags, a task that is complex, subjective, and multimodal. With the rapid development of multimodal large language models(LLMs), new application have emerged for animal behavior understanding tasks in livestock scenarios. This study evaluates the visual perception capabilities of multimodal LLMs in animal activity recognition. To achieve this, we created piglet test data comprising close-up video clips of individual piglets and annotated full-shot video clips. These data were used to assess the performance of four multimodal LLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, and GPT-4 omni (GPT-4o)-in piglet activity understanding. Through comprehensive evaluation across five dimensions, including counting, actor referring, semantic correspondence, time perception, and robustness, we found that while current multimodal LLMs require improvement in semantic correspondence and time perception, they have initially demonstrated visual perception capabilities for animal activity recognition. Notably, GPT-4o showed outstanding performance, with Video-Chat2 and GPT-4o exhibiting significantly better semantic correspondence and time perception in close-up video clips compared to full-shot clips. The initial evaluation experiments in this study validate the potential of multimodal large language models in livestock scene video understanding and provide new directions and references for future research on animal behavior video understanding. Furthermore, by deeply exploring the influence of visual prompts on multimodal large language models, we expect to enhance the accuracy and efficiency of animal behavior recognition in livestock scenarios through human visual processing methods.
- Abstract(参考訳): 動物民族学は動物研究の重要な側面であり、動物行動ラベリングは動物行動の研究の基礎である。
このプロセスは通常、ビデオクリップに振る舞いのセマンティックタグ(複雑で主観的でマルチモーダルなタスク)をラベル付けする。
マルチモーダル大規模言語モデル(LLM)の急速な開発に伴い,家畜シナリオにおける動物行動理解タスクへの新たな応用が現れた。
本研究では,動物行動認識におけるマルチモーダルLLMの視覚知覚能力について検討した。
そこで我々は,個々のブタのクローズアップビデオクリップと注釈付きフルショットビデオクリップからなる豚肉検査データを作成した。
これらのデータを用いて,ブタの行動理解におけるマルチモーダルLLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, GPT-4-omni (GPT-4o) の評価を行った。
計数,アクター参照,意味的対応,時間知覚,頑健性の5次元にわたる総合的な評価により,現在のマルチモーダルLLMは意味的対応や時間知覚の改善を必要とするが,当初は動物行動認識の視覚的知覚能力が実証されていた。
特に、GPT-4oは、ビデオチャット2とGPT-4oは、フルショットクリップと比較して、クローズアップビデオクリップのセマンティック対応と時間知覚が著しく向上した。
本研究の最初の評価実験は、家畜のシーン映像理解における多モーダル大言語モデルの可能性を検証し、動物行動映像理解の今後の研究への新たな方向性と参考を提供するものである。
さらに、視覚的プロンプトが多モーダルな言語モデルに与える影響を深く探求することにより、人間の視覚的処理手法によって家畜のシナリオにおける動物行動認識の精度と効率を高めることが期待されている。
関連論文リスト
- Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - UniAP: Towards Universal Animal Perception in Vision via Few-shot
Learning [24.157933537030086]
様々な視覚的タスクにおいて種間認識を可能にする新しいユニバーサル・アニマル・パーセプション・モデルであるUniAPを紹介した。
異なる動物やタスク間で共有される視覚的特徴を活かすことで、UniAPは、よく研究された種から限られたラベル付きデータや未知の種への知識の伝達を可能にしている。
論文 参考訳(メタデータ) (2023-08-19T09:13:46Z) - CVB: A Video Dataset of Cattle Visual Behaviors [13.233877352490923]
牛の行動認識のための既存のデータセットは、ほとんど小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。
キャトル・ビジュアル・ビヘイビアス (CVB) と呼ばれる新しいデータセットを導入し、502本のビデオクリップを15秒毎に撮影し、自然の照明条件で撮影し、11種類の視覚的に知覚できる牛の行動に注釈を付ける。
論文 参考訳(メタデータ) (2023-05-26T00:44:11Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - MABe22: A Multi-Species Multi-Task Benchmark for Learned Representations
of Behavior [28.878568752724235]
学習行動表現の質を評価するベンチマークであるMABe22を紹介する。
このデータセットは様々な生物学実験から収集される。
我々は,自己教師付きビデオとトラジェクトリ表現学習法を試行し,ベンチマークの利用を実証した。
論文 参考訳(メタデータ) (2022-07-21T15:51:30Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - Animal Kingdom: A Large and Diverse Dataset for Animal Behavior
Understanding [4.606145900630665]
大規模で多様なデータセットであるAnimal Kingdomを作成し、複数の注釈付きタスクを提供します。
私たちのデータセットには、関連する動物行動セグメントをローカライズする50時間のアノテーション付きビデオが含まれています。
本研究では,未確認新種動物を用いた行動認識の一般的な特徴と特定の特徴を学習する協調行動認識(CARe)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T02:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。