論文の概要: HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding
- arxiv url: http://arxiv.org/abs/2501.15111v1
- Date: Sat, 25 Jan 2025 07:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:43.839075
- Title: HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding
- Title(参考訳): HumanOmni:人間中心のビデオ理解のための大規模視覚音声言語モデル
- Authors: Jiaxing Zhao, Qize Yang, Yixing Peng, Detao Bai, Shimin Yao, Boyuan Sun, Xiang Chen, Shenghao Fu, Weixuan chen, Xihan Wei, Liefeng Bo,
- Abstract要約: ヒューマン・オムニ(Human Omni)は、オムニ・マルチモーダル(Omni-multimodal)の言語モデルである。
我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築した。
実験では,人間中心のシーンを多種多様なタスクで扱う上で,ヒト・オムニの高度な能力を検証した。
- 参考スコア(独自算出の注目度): 16.93348898548816
- License:
- Abstract: In human-centric scenes, the ability to simultaneously understand visual and auditory information is crucial. While recent omni models can process multiple modalities, they generally lack effectiveness in human-centric scenes due to the absence of large-scale, specialized datasets and non-targeted architectures. In this work, we developed HumanOmni, the industry's first human-centric Omni-multimodal large language model. We constructed a dataset containing over 2.4 million human-centric video clips with detailed captions and more than 14 million instructions, facilitating the understanding of diverse human-centric scenes. HumanOmni includes three specialized branches for understanding different types of scenes. It adaptively fuses features from these branches based on user instructions, significantly enhancing visual understanding in scenes centered around individuals. Moreover, HumanOmni integrates audio features to ensure a comprehensive understanding of environments and individuals. Our experiments validate HumanOmni's advanced capabilities in handling human-centric scenes across a variety of tasks, including emotion recognition, facial expression description, and action understanding. Our model will be open-sourced to facilitate further development and collaboration within both academia and industry.
- Abstract(参考訳): 人間中心のシーンでは、視覚情報と聴覚情報を同時に理解する能力が不可欠である。
最近のOmniモデルは複数のモダリティを処理できるが、大規模で特殊なデータセットや非ターゲットアーキテクチャが存在しないため、人間中心のシーンでは有効性が欠如している。
本研究では,業界初の人間中心型Omni-multimodal大言語モデルであるHumanOmniを開発した。
我々は、細かなキャプションと1400万以上の指示を含む、240万以上の人間中心のビデオクリップを含むデータセットを構築し、多様な人間中心シーンの理解を容易にした。
HumanOmniには、異なるタイプのシーンを理解するための3つの特別なブランチが含まれている。
ユーザインストラクションに基づいて、これらのブランチの機能を適応的に融合し、個人を中心としたシーンにおける視覚的理解を大幅に強化する。
さらに、HumanOmniはオーディオ機能を統合し、環境や個人に関する包括的な理解を確保する。
我々の実験は、感情認識、表情記述、行動理解など、さまざまなタスクにおいて、人間中心のシーンを扱う上でのHumanOmniの高度な能力を検証した。
私たちのモデルは、学術と産業の両方において、さらなる開発とコラボレーションを促進するために、オープンソース化されます。
関連論文リスト
- HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - A Unified Framework for Human-centric Point Cloud Video Understanding [23.91555808792291]
人間中心のポイントクラウドビデオ理解(PVU)は、人間のポイントクラウドのシーケンスから人間に関連する特徴を抽出し、解釈することに焦点を当てた新興分野である。
本稿では,従来の知識を十分に活用する統一的なフレームワークを提案し,汎用的人間中心のクラウドビデオ理解のためのデータ自体の本質的特徴を探求する。
本手法は,動作認識や3次元ポーズ推定など,多種多様なヒューマンタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-29T07:53:06Z) - Hulk: A Universal Knowledge Translator for Human-Centric Tasks [69.8518392427151]
我々は、最初のマルチモーダルな人間中心ジェネラリストモデルであるハルクを提示する。
2Dビジョン、3Dビジョン、スケルトンベース、そしてタスク固有の微調整なしで視覚言語タスクに対処する。
Hulkは11のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-12-04T07:36:04Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。