論文の概要: AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline
- arxiv url: http://arxiv.org/abs/2512.12443v1
- Date: Sat, 13 Dec 2025 19:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.262731
- Title: AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline
- Title(参考訳): AI Transparency Atlas: フレームワーク、スコーリング、リアルタイムモデルカード評価パイプライン
- Authors: Akhmadillo Mamirov, Faiaz Azmain, Hanyu Wang,
- Abstract要約: 我々は5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100台のHugging Faceモデルカードからドキュメントを分析した。
安全クリティカルな開示を優先する8つのセクションと23のサブセクションからなる重み付き透明性フレームワークを開発した。
- 参考スコア(独自算出の注目度): 2.1787849426740364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI model documentation is fragmented across platforms and inconsistent in structure, preventing policymakers, auditors, and users from reliably assessing safety claims, data provenance, and version-level changes. We analyzed documentation from five frontier models (Gemini 3, Grok 4.1, Llama 4, GPT-5, and Claude 4.5) and 100 Hugging Face model cards, identifying 947 unique section names with extreme naming variation. Usage information alone appeared under 97 distinct labels. Using the EU AI Act Annex IV and the Stanford Transparency Index as baselines, we developed a weighted transparency framework with 8 sections and 23 subsections that prioritizes safety-critical disclosures (Safety Evaluation: 25%, Critical Risk: 20%) over technical specifications. We implemented an automated multi-agent pipeline that extracts documentation from public sources and scores completeness through LLM-based consensus. Evaluating 50 models across vision, multimodal, open-source, and closed-source systems cost less than $3 in total and revealed systematic gaps. Frontier labs (xAI, Microsoft, Anthropic) achieve approximately 80% compliance, while most providers fall below 60%. Safety-critical categories show the largest deficits: deception behaviors, hallucinations, and child safety evaluations account for 148, 124, and 116 aggregate points lost, respectively, across all evaluated models.
- Abstract(参考訳): AIモデルドキュメンテーションはプラットフォームにまたがって断片化されており、ポリシー作成者、監査官、ユーザが安全クレーム、データ証明、バージョンレベルの変更を確実に評価することを防止している。
我々は,5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100個のHugging Faceモデルカードからドキュメンテーションを解析し,極端な命名変化を伴う947個のセクション名を同定した。
使用情報は97の異なるラベルの下にのみ表示される。
EU AI Act Annex IVとStanford Transparency Indexをベースラインとして、安全クリティカルな開示(安全評価:25%、臨界リスク:20%)を技術的仕様よりも優先する8つのセクションと23のサブセクションからなる重み付けされた透明性フレームワークを開発しました。
公開資料からドキュメンテーションを抽出する自動マルチエージェントパイプラインを実装し,LLMに基づくコンセンサスにより完全性を評価する。
ビジョン、マルチモーダル、オープンソース、クローズドソースシステムの50モデルを評価するには、合計で3ドル未満の費用がかかり、体系的なギャップが明らかになった。
Frontier Labs(xAI, Microsoft, Anthropic)は約80%のコンプライアンスを実現しているが、ほとんどのプロバイダは60%以下である。
障害行動、幻覚、児童の安全評価は、すべての評価モデルでそれぞれ128、124、および116の集計ポイントが失われている。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。
11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。
我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T01:30:31Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - aiXamine: Simplified LLM Safety and Security [7.933485586826888]
安全とセキュリティのための総合的なブラックボックス評価プラットフォームであるaiXamineについて紹介する。
AiXamineは40以上のテスト(ベンチマーク)を、特定の安全性とセキュリティをターゲットとした8つの重要なサービスに統合する。
プラットフォームは、評価結果をモデル毎の1つの詳細なレポートに集約し、モデルパフォーマンス、テスト例、リッチな視覚化を提供する。
論文 参考訳(メタデータ) (2025-04-21T09:26:05Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。