論文の概要: Fair in Mind, Fair in Action? A Synchronous Benchmark for Understanding and Generation in UMLLMs
- arxiv url: http://arxiv.org/abs/2603.00590v1
- Date: Sat, 28 Feb 2026 10:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.280758
- Title: Fair in Mind, Fair in Action? A Synchronous Benchmark for Understanding and Generation in UMLLMs
- Title(参考訳): フェア・イン・マインド、フェア・イン・アクション? UMLLMの理解と生成のための同期ベンチマーク
- Authors: Yiran Zhao, Lu Zhou, Xiaogang Xu, Zhe Liu, Jiafei Wu, Liming Fang,
- Abstract要約: InLMにおける理解タスクと生成タスクの両方の公平性を同期的に評価するために、IRISベンチマークを導入する。
このベンチマークは任意のメトリクスを正規化し、高次元の「フェアネス空間」に集約するように設計されている。
- 参考スコア(独自算出の注目度): 23.30891090547861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial intelligence (AI) is increasingly deployed across domains, ensuring fairness has become a core challenge. However, the field faces a "Tower of Babel'' dilemma: fairness metrics abound, yet their underlying philosophical assumptions often conflict, hindering unified paradigms-particularly in unified Multimodal Large Language Models (UMLLMs), where biases propagate systemically across tasks. To address this, we introduce the IRIS Benchmark, to our knowledge the first benchmark designed to synchronously evaluate the fairness of both understanding and generation tasks in UMLLMs. Enabled by our demographic classifier, ARES, and four supporting large-scale datasets, the benchmark is designed to normalize and aggregate arbitrary metrics into a high-dimensional "fairness space'', integrating 60 granular metrics across three dimensions-Ideal Fairness, Real-world Fidelity, and Bias Inertia & Steerability (IRIS). Through this benchmark, our evaluation of leading UMLLMs uncovers systemic phenomena such as the "generation gap'', individual inconsistencies like "personality splits'', and the "counter-stereotype reward'', while offering diagnostics to guide the optimization of their fairness capabilities. With its novel and extensible framework, the IRIS benchmark is capable of integrating evolving fairness metrics, ultimately helping to resolve the "Tower of Babel'' impasse. Project Page: https://iris-benchmark-web.vercel.app/
- Abstract(参考訳): 人工知能(AI)がドメインにまたがって展開されるにつれて、公正性を保証することが、中核的な課題となっている。
しかし、この分野は「バベルのジレンマの解答」に直面している。フェアネスメトリクスは、しばしば矛盾するが、その基礎となる哲学的前提は、統一パラダイムを障害し、特に統一されたマルチモーダル言語モデル(UMLLM)において、バイアスがタスク全体にわたって体系的に伝播する。これに対処するために、私たちは、UMLLMにおける理解と生成の両方のタスクの公正性を同期的に評価するように設計された最初のベンチマーク、IRISベンチマークを紹介します。我々の人口分類器、ARES、および4つの大規模データセットによって可能であり、このベンチマークは、任意のメトリクスを高次元の「フェアネス空間」に正規化、集約し、60のメトリクスを3次元にわたって統合するように設計されています。
このベンチマークを通じて、UMLLMの主導的評価は、「世代ギャップ」や「個人分割」のような個人的不整合、そして「カウンターステレオタイプ報酬」といった体系的な現象を明らかにしつつ、その公平性の最適化を導くための診断を提供しながら、新しい拡張可能なフレームワークにより、IRISベンチマークは進化する公正度メトリクスを統合することができ、最終的に「バベルの欠点」を解決するのに役立ちます。
Project Page: https://iris-benchmark-web.vercel.app/
関連論文リスト
- Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision [34.575729271291436]
導電失語(Conduction Aphasia)は、モデルがマルチモーダル入力を正確に解釈するが、その理解を忠実で制御可能な合成に変換するのに苦労する現象である。
外部データや教師の監督を必要としない,シンプルでエレガントな自己改善フレームワークUniCornを提案する。
マルチモーダルコヒーレンスの回復を検証するために,テキスト・トゥ・イメージ・トゥ・テクスチャ・コンシステンシー・ベンチマークであるUniCycleを導入する。
論文 参考訳(メタデータ) (2026-01-06T17:15:50Z) - AI Benchmark Democratization and Carpentry [12.180796797521062]
大規模な言語モデルはしばしば静的なベンチマークを行い、ベンチマーク結果と実世界のパフォーマンスのギャップを生じさせる。
現在のベンチマークでは、上位層のハードウェア上でのピークパフォーマンスを強調し、多様な実世界のシナリオに対する限られたガイダンスを提供することが多い。
民主化は、技術革新とレベルを越えた体系的な教育の両方を必要とし、ベンチマーク設計と使用において持続的な専門知識を構築する。
論文 参考訳(メタデータ) (2025-12-12T14:20:05Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - Evaluating LLM Metrics Through Real-World Capabilities [0.0]
大規模調査データと利用ログを分析し,Large Language Models(LLM)の使用方法を示す6つのコア機能を特定する。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
論文 参考訳(メタデータ) (2025-05-13T06:02:37Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes [6.30817290125825]
本稿では、GUSデータセットとマルチラベルトークンレベル検出器を組み合わせたGUS-Net Frameworkを紹介し、社会バイアスのスパンレベル分析を行う。
GUSデータセットには、複数のドメインにまたがる3,739のユニークなスニペットが含まれ、69,000以上のトークンレベルのアノテーションが含まれている。
マルチラベルトークンレベルの分類としてバイアス検出を定式化し,エンコーダベースモデルとデコーダベース大規模言語モデルの両方をベンチマークする。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Practical Approaches for Fair Learning with Multitype and Multivariate
Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。
本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。
実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2022-11-11T11:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。