論文の概要: Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization
- arxiv url: http://arxiv.org/abs/2605.09996v1
- Date: Mon, 11 May 2026 05:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.539173
- Title: Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization
- Title(参考訳): Omni-Persona: システムベンチマークとOmnimodal Personalizationの改善
- Authors: Yeongtak Oh, Dongwook Lee, Sangkwon Park, Heeseung Kim, Sungroh Yoon,
- Abstract要約: オムニ・ペルソナ(Omni-Persona)は、オムニモーダルパーソナライゼーションのための最初の総合的なベンチマークである。
タスクを EmphPersona Modality Graph 上のクロスモーダルルーティングとして形式化し,4つのタスクグループと$sim750$項目にわたる18のきめ細かいタスクを包含する。
- 参考スコア(独自算出の注目度): 47.84878018101177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models have advanced across text, image, and audio, personalization research has remained primarily vision-language, with unified omnimodal benchmarking that jointly covers text, image, and audio still limited, and lacking the methodological rigor to account for absent-persona scenarios or systematic grounding studies. We introduce Omni-Persona, the first comprehensive benchmark for omnimodal personalization. We formalize the task as cross-modal routing over the \emph{Persona Modality Graph}, encompassing 4 task groups and 18 fine-grained tasks across ${\sim}750$ items. To rigorously diagnose grounding behavior, we propose \emph{Calibrated Accuracy ($\mathrm{Cal}$)}, which jointly rewards correct grounding and appropriate abstention, incorporating absent-persona queries within a unified evaluation framework. On our dedicated experiments, three diagnostic findings emerge: (i) open-source models show a consistent audio-vs-visual grounding gap that RLVR partially narrows via dense rule-based supervision; (ii) answerable recall and parameter scale are incomplete diagnostics, since strong recall can coexist with absent-persona hallucination and larger models do not always achieve higher $\mathrm{Cal}$, exposing calibration as a separate evaluation axis; and (iii) SFT is bounded by the difficulty of constructing annotated ground-truth supervision at scale, while RLVR generalizes more consistently through outcome-level verifiable feedback yet drifts toward conservative behavior and lower generation quality under our reward design. Omni-Persona thus serves as a diagnostic framework that surfaces the pitfalls of omnimodal personalization, guiding future post-training and reward design.
- Abstract(参考訳): マルチモーダルな大きな言語モデルは、テキスト、画像、オーディオにまたがって進化してきたが、パーソナライゼーションの研究は主に視覚言語であり、テキスト、画像、オーディオを共同でカバーする一貫した全方位ベンチマークは、いまだに限られており、不在の個人シナリオや体系的な基礎研究を考慮するための方法論的な厳密さが欠如している。
オムニ・ペルソナ(Omni-Persona)は、オムニモーダルパーソナライゼーションのための最初の総合的なベンチマークである。
タスクを,4つのタスク群と18のきめ細かいタスクを${\sim}750$の項目で含む, \emph{Persona Modality Graph} 上のクロスモーダルルーティングとして形式化する。
本研究では, 接地行動の厳密な診断を目的として, 正しい接地と適切な棄権を共同で報いる「emph{Calibrated Accuracy(\mathrm{Cal}$)} を提案する。
専用実験では,3つの診断所見が出現した。
(i)オープンソースモデルは、RLVRが厳密な規則に基づく監督によって部分的に狭まる一貫したオーディオ-vs-視覚的接地ギャップを示す。
(II)答え可能なリコールとパラメータスケールは不完全診断であり、強いリコールは不在対人幻覚と共存し、より大きなモデルは必ずしもより高い$\mathrm{Cal}$を達成せず、キャリブレーションを別個の評価軸として表す。
一方、RLVRは、結果レベルの検証可能なフィードバックを通じてより一貫した一般化を図りながら、保守的な行動や、報奨設計の下での低い世代品質に向け、より一貫した評価を行ないます。
したがって、Omni-Personaは、一様パーソナライゼーションの落とし穴を表面化し、将来のポストトレーニングと報酬設計を導く診断フレームワークとして機能する。
関連論文リスト
- ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis [22.55861092515539]
重要なボトルネックは、効果的な報酬モデル(RM)の欠如である。
我々は,最初のオープンソースルーリックグラウンド報酬モデルである textbf Omni-RRM を紹介する。
テキスト、画像、ビデオ、オーディオにまたがって、次元的に正当化された構造化された多次元の選好判断を生成する。
論文 参考訳(メタデータ) (2026-01-31T18:20:45Z) - Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception [97.32606786622728]
我々は、データパイプライン、モデル、ベンチマークの観点から、Omniの詳細な認識を体系的で包括的に調査する。
ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
論文 参考訳(メタデータ) (2025-10-14T17:00:09Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。