論文の概要: Omni-Judge: Can Omni-LLMs Serve as Human-Aligned Judges for Text-Conditioned Audio-Video Generation?
- arxiv url: http://arxiv.org/abs/2602.01623v1
- Date: Mon, 02 Feb 2026 04:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.899379
- Title: Omni-Judge: Can Omni-LLMs Serve as Human-Aligned Judges for Text-Conditioned Audio-Video Generation?
- Title(参考訳): Omni-Judge:Omni-LLMsは、テキストによるオーディオビデオ生成のための人間指定の裁判官になれるか?
- Authors: Susan Liang, Chao Huang, Filippos Bellos, Yolo Yunlong Tang, Qianxiang Shen, Jing Bi, Luchuan Song, Zeliang Zhang, Jason Corso, Chenliang Xu,
- Abstract要約: 我々は,Omni-LLMsがテキスト・コンディショニング・オーディオ・ビデオ生成のためのヒューマンアライメント・ジャッジとして機能するかどうかを検討した。
omni-LLMは音声、ビデオ、テキストを自然に処理し、リッチな推論をサポートし、解釈可能な連鎖フィードバックを提供する。
本研究は,マルチモーダル生成のための統一評価器として,オムニ-LLMの潜在的な限界と現在の限界を強調した。
- 参考スコア(独自算出の注目度): 41.8825737520503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-video generation models such as Sora 2 and Veo 3 can now produce high-fidelity videos with synchronized audio directly from a textual prompt, marking a new milestone in multi-modal generation. However, evaluating such tri-modal outputs remains an unsolved challenge. Human evaluation is reliable but costly and difficult to scale, while traditional automatic metrics, such as FVD, CLAP, and ViCLIP, focus on isolated modality pairs, struggle with complex prompts, and provide limited interpretability. Omni-modal large language models (omni-LLMs) present a promising alternative: they naturally process audio, video, and text, support rich reasoning, and offer interpretable chain-of-thought feedback. Driven by this, we introduce Omni-Judge, a study assessing whether omni-LLMs can serve as human-aligned judges for text-conditioned audio-video generation. Across nine perceptual and alignment metrics, Omni-Judge achieves correlation comparable to traditional metrics and excels on semantically demanding tasks such as audio-text alignment, video-text alignment, and audio-video-text coherence. It underperforms on high-FPS perceptual metrics, including video quality and audio-video synchronization, due to limited temporal resolution. Omni-Judge provides interpretable explanations that expose semantic or physical inconsistencies, enabling practical downstream uses such as feedback-based refinement. Our findings highlight both the potential and current limitations of omni-LLMs as unified evaluators for multi-modal generation.
- Abstract(参考訳): Sora 2やVeo 3のような最先端のテキスト・ビデオ生成モデルは、テキストプロンプトから直接同期オーディオで高忠実度ビデオを生成することができ、マルチモーダル・ジェネレーションにおける新たなマイルストーンとなる。
しかし、そのような三モーダルなアウトプットを評価することは未解決の課題である。
FVD、CLAP、ViCLIPといった従来の自動メトリクスは、孤立したモダリティペア、複雑なプロンプトとの闘い、限定的な解釈性に重点を置いている。
オーディオ、ビデオ、テキストを自然に処理し、リッチな推論をサポートし、解釈可能な連鎖フィードバックを提供する。
そこで本研究では,オムニ・ジャッジ(Omni-Judge)について紹介する。
Omni-Judgeは9つの知覚とアライメントの指標の中で、従来のメトリクスに匹敵する相関を達成し、音声-テキストアライメント、ビデオ-テキストアライメント、オーディオ-ビデオ-テキストコヒーレンスといったセマンティックに要求されるタスクに長けている。
時間分解能が限られているため、ビデオ品質や音声-ビデオ同期など、高FPS知覚の指標では性能が劣る。
Omni-Judgeは、セマンティックまたは物理的不整合を明らかにする解釈可能な説明を提供し、フィードバックベースの改善のような実用的な下流の使用を可能にする。
本研究は,マルチモーダル生成のための統一評価器として,オムニ-LLMの潜在的な限界と現在の限界を強調した。
関連論文リスト
- OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。