論文の概要: MISR: Measuring Instrumental Self-Reasoning in Frontier Models
- arxiv url: http://arxiv.org/abs/2412.03904v1
- Date: Thu, 05 Dec 2024 06:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:58.820521
- Title: MISR: Measuring Instrumental Self-Reasoning in Frontier Models
- Title(参考訳): MISR:フロンティアモデルにおける計測機器の自己推論
- Authors: Kai Fronsdal, David Lindner,
- Abstract要約: 大規模言語モデル(LLM)エージェントの楽器的自己推論能力を評価する。
インストゥルメンタルな自己推論能力は、最も有能なフロンティアモデルにのみ現れる。
我々の評価は,将来のモデルにおける楽器の自己推論能力の増大を測定するのに有効である。
- 参考スコア(独自算出の注目度): 7.414638276983446
- License:
- Abstract: We propose a suite of tasks to evaluate the instrumental self-reasoning ability of large language model (LLM) agents. Instrumental self-reasoning ability could improve adaptability and enable self-modification, but it could also pose significant risks, such as enabling deceptive alignment. Prior work has only evaluated self-reasoning in non-agentic settings or in limited domains. In this paper, we propose evaluations for instrumental self-reasoning ability in agentic tasks in a wide range of scenarios, including self-modification, knowledge seeking, and opaque self-reasoning. We evaluate agents built using state-of-the-art LLMs, including commercial and open source systems. We find that instrumental self-reasoning ability emerges only in the most capable frontier models and that it is highly context-dependent. No model passes the the most difficult versions of our evaluations, hence our evaluation can be used to measure increases in instrumental self-reasoning ability in future models. We open-source our evaluations at https://github.com/kaifronsdal/Self-Reasoning-Evals.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントのインストゥルメンタル自己推論能力を評価するためのタスクセットを提案する。
機器の自己推論能力は適応性を改善し、自己修正を可能にする可能性があるが、詐欺的アライメントを可能にするなど、重大なリスクを生じさせる可能性がある。
それまでの研究は、非アジェンティックな設定や限られたドメインでのみ自己推論を評価してきた。
本稿では,エージェントタスクにおけるインストゥルメンタルな自己推論能力の評価を,自己修正,知識探索,不透明な自己推論など,幅広いシナリオにおいて提案する。
我々は、商用およびオープンソースシステムを含む最先端のLLMを用いて構築されたエージェントを評価する。
楽器による自己推論能力は,最も有能なフロンティアモデルにのみ出現し,文脈に依存していることがわかった。
評価の最も難しいバージョンをパスするモデルは存在しないので、将来のモデルにおける機器の自己推論能力の増大を計測するために、我々の評価は利用することができる。
評価はhttps://github.com/kaifronsdal/Self-Reasoning-Evals.comで公開しています。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。
性能評価がサンドバッグに弱いことを示す。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。