Fugu-MT 論文翻訳(概要): Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability

論文の概要: Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability

arxiv url: http://arxiv.org/abs/2412.18551v1
Date: Tue, 24 Dec 2024 17:03:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.839385
Title: Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability
Title（参考訳）: Libra-Leaderboard: 安全と能力のバランスの取れたリーダーボードを通じて、責任あるAIを目指す
Authors: Haonan Li, Xudong Han, Zenan Zhai, Honglin Mu, Hao Wang, Zhenxuan Zhang, Yilin Geng, Shom Lin, Renxi Wang, Artem Shelmanov, Xiangyu Qi, Yuxia Wang, Donghai Hong, Youliang Yuan, Meng Chen, Haoqin Tu, Fajri Koto, Tatsuki Kuribayashi, Cong Zeng, Rishabh Bhardwaj, Bingchen Zhao, Yawen Duan, Yi Liu, Emad A. Alghamdi, Yaodong Yang, Yinpeng Dong, Soujanya Poria, Pengfei Liu, Zhengzhong Liu, Xuguang Ren, Eduard Hovy, Iryna Gurevych, Preslav Nakov, Monojit Choudhury, Timothy Baldwin,
Abstract要約: Libra-Leaderboardは、LLMを性能と安全性のバランスよく評価することでランク付けするために設計された包括的なフレームワークである。平均的なパフォーマンスと安全性の指標を持つ従来のアプローチとは異なり、Libra-Leaderboardは総合ランキングを計算するために、距離から最適スコア法を使用している。
参考スコア（独自算出の注目度）: 114.82229417492574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To address this gap, we introduce Libra-Leaderboard, a comprehensive framework designed to rank LLMs through a balanced evaluation of performance and safety. Combining a dynamic leaderboard with an interactive LLM arena, Libra-Leaderboard encourages the joint optimization of capability and safety. Unlike traditional approaches that average performance and safety metrics, Libra-Leaderboard uses a distance-to-optimal-score method to calculate the overall rankings. This approach incentivizes models to achieve a balance rather than excelling in one dimension at the expense of some other ones. In the first release, Libra-Leaderboard evaluates 26 mainstream LLMs from 14 leading organizations, identifying critical safety challenges even in state-of-the-art models.
Abstract（参考訳）: このギャップに対処するため、我々はLLMを性能と安全性のバランスよく評価することでランク付けする総合的なフレームワークLibra-Leaderboardを紹介した。動的リーダーボードと対話型LLMアリーナを組み合わせることで、Libra-Leaderboardは能力と安全性を共同で最適化することを推奨する。平均的なパフォーマンスと安全性の指標を持つ従来のアプローチとは異なり、Libra-Leaderboardは総合ランキングを計算するために、距離から最適スコア法を使用している。このアプローチは、他のいくつかを犠牲にして、1次元において優れたバランスを達成するためのモデルにインセンティブを与える。最初のリリースでは、Libra-Leaderboardが14の組織から26の主要なLCMを評価し、最先端のモデルにおいても重要な安全性上の課題を特定している。

関連論文リスト

Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2025-12-05T00:43:55Z)
Defend LLMs Through Self-Consciousness [0.0]
本稿では,大規模言語モデル(LLM)に対する自己意識防御機構について紹介する。本稿では,メタ認知およびアロケーションモジュールを組み込んだフレームワークを提案し,LCMが自己の出力を自律的に評価・調整することを可能にする。
論文参考訳（メタデータ） (2025-08-04T23:52:15Z)
am-ELO: A Stable Framework for Arena-based LLM Evaluation [28.54576582498528]
ELO評価システムに基づく既存のフレームワークは、ランキングの不整合とアノテータの様々な能力に対する注意の欠如により、避けられない不安定な問題に悩まされている。 ELOレーティングシステムを強化することで,これらの問題に対処するための新しい安定アリーナフレームワークを導入する。
論文参考訳（メタデータ） (2025-05-06T12:28:50Z)
Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [44.74709190788796]
十分に調整された報酬ベースのパイプラインが最も堅牢なままだ。 textbfDR-IRLは逆強化学習によって動的報酬を調整する。 textbfGRPO-Sは、タスクの難易度に最適化中の報酬をスケールする。
論文参考訳（メタデータ） (2025-03-23T16:40:29Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文参考訳（メタデータ） (2024-06-11T00:35:39Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。