論文の概要: RAIL in the Wild: Operationalizing Responsible AI Evaluation Using Anthropic's Value Dataset
- arxiv url: http://arxiv.org/abs/2505.00204v1
- Date: Wed, 30 Apr 2025 22:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.181538
- Title: RAIL in the Wild: Operationalizing Responsible AI Evaluation Using Anthropic's Value Dataset
- Title(参考訳): 野生のRAIL:Arthhropicの値データセットを用いた責任AI評価の運用
- Authors: Sumit Verma, Pritam Prasun, Arpit Jaiswal, Pritish Kumar,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の規範的振る舞いを評価するために,Responsible AI Labs (RAIL) フレームワークを用いた体系的アプローチを提案する。
このフレームワークを、Arthropicの"Values in the Wild"データセットに適用し、Claude氏との308,000以上の会話と3000以上の注釈付き値表現を含む。
本研究は、これらの値をRAIL次元にマッピングし、合成スコアを計算し、実世界のLLMの倫理的行動に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As AI systems become embedded in real-world applications, ensuring they meet ethical standards is crucial. While existing AI ethics frameworks emphasize fairness, transparency, and accountability, they often lack actionable evaluation methods. This paper introduces a systematic approach using the Responsible AI Labs (RAIL) framework, which includes eight measurable dimensions to assess the normative behavior of large language models (LLMs). We apply this framework to Anthropic's "Values in the Wild" dataset, containing over 308,000 anonymized conversations with Claude and more than 3,000 annotated value expressions. Our study maps these values to RAIL dimensions, computes synthetic scores, and provides insights into the ethical behavior of LLMs in real-world use.
- Abstract(参考訳): AIシステムが現実世界のアプリケーションに組み込まれるにつれて、倫理的基準を満たすことが不可欠である。
既存のAI倫理フレームワークは公平さ、透明性、説明責任を強調しているが、実行可能な評価方法が欠如していることが多い。
本稿では,大規模言語モデル (LLM) の規範的振る舞いを評価するために,8次元の計測可能な次元を含むResponsible AI Labs (RAIL) フレームワークを用いた体系的アプローチを提案する。
このフレームワークを、Arthropicの"Values in the Wild"データセットに適用し、Claude氏との匿名化された会話が308,000以上、注釈付きバリュー表現が3,000以上含まれています。
本研究は、これらの値をRAIL次元にマッピングし、合成スコアを計算し、実世界のLLMの倫理的行動に関する洞察を提供する。
関連論文リスト
- Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions [16.952352685459932]
我々は、経験的に3,307のAI値を発見・分類し、それらがどのように異なるかを研究する。
私たちの研究は、AIシステムにおける価値のより基礎的な評価と設計のための基盤を作りました。
論文 参考訳(メタデータ) (2025-04-21T17:13:16Z) - Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs [2.761261381839981]
本研究では,大規模言語モデルにおける国家社会価値の行動駆動メカニズムを探求する,ValueExplorationという新しいフレームワークを提案する。
まず,中国社会価値を大言語モデルで符号化するニューロンを同定し,同定する。
これらのニューロンを不活性化することにより、モデル行動の変化を分析し、LLM決定に影響を及ぼす内部メカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:23:59Z) - Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。
マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-28T03:31:37Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models [51.69735366140249]
我々はEthical-Lensというフレームワークを紹介した。
Ethical-Lensは、毒性とバイアス次元をまたいだテキストと画像のモデルにおける価値アライメントを保証する。
実験の結果、Ethical-Lensは商業モデルに匹敵するレベルまでアライメント能力を向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T11:38:25Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。