論文の概要: Pseudointelligence: A Unifying Framework for Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2310.12135v1
- Date: Wed, 18 Oct 2023 17:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:26:15.412684
- Title: Pseudointelligence: A Unifying Framework for Language Model Evaluation
- Title(参考訳): Pseudointelligence: 言語モデル評価のための統一フレームワーク
- Authors: Shikhar Murty, Orr Paradise, Pratyusha Sharma
- Abstract要約: 本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
- 参考スコア(独自算出の注目度): 14.95543156914676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With large language models surpassing human performance on an increasing
number of benchmarks, we must take a principled approach for targeted
evaluation of model capabilities. Inspired by pseudorandomness, we propose
pseudointelligence, which captures the maxim that "(perceived) intelligence
lies in the eye of the beholder". That is, that claims of intelligence are
meaningful only when their evaluator is taken into account. Concretely, we
propose a complexity-theoretic framework of model evaluation cast as a dynamic
interaction between a model and a learned evaluator. We demonstrate that this
framework can be used to reason about two case studies in language model
evaluation, as well as analyze existing evaluation methods.
- Abstract(参考訳): 大規模言語モデルが人間のパフォーマンスを上回るベンチマーク数が増えると、モデル能力の評価を目標とする原則的なアプローチをとらなければならない。
疑似ランダム性に触発されて,我々は疑似知性を提案し,「(知覚された)知性はベホルダの眼の中にある」という極意を捉えた。
つまり、インテリジェンスの主張は、評価者が考慮される場合にのみ意味のあるものである。
具体的には,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークを,言語モデル評価における2つのケーススタディの推論や,既存の評価手法の分析に活用できることを実証する。
関連論文リスト
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Language Models are Bounded Pragmatic Speakers: Understanding RLHF from
a Bayesian Cognitive Modeling Perspective [2.8282906214258805]
本稿では,有界プラグマティック話者と呼ばれる確率論的認知モデルを定式化する。
人間のフィードバックからの強化学習によって微調整された大きな言語モデルは、高速でスローなモデルに似た思考モデルを具現化していることを示す。
論文 参考訳(メタデータ) (2023-05-28T16:04:48Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Dialogue Response Selection with Hierarchical Curriculum Learning [52.3318584971562]
対話応答選択のためのマッチングモデルの学習について検討する。
近年,ランダムなネガティブは信頼度の高いモデルを学習するには自明すぎることが判明し,階層的なカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-29T14:06:41Z) - Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文 参考訳(メタデータ) (2020-10-17T16:49:43Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z) - Asking the Right Questions: Learning Interpretable Action Models Through
Query Answering [33.08099403894141]
本稿では,ブラックボックス型自律エージェントの解釈可能なリレーショナルモデルを設計・動作可能な新しいアプローチを開発する。
我々の主な貢献は、エージェントとの最小クエリインタフェースを用いてそのようなモデルを推定するための新しいパラダイムと、エージェントの内部モデルを推定するための尋問ポリシーを生成する階層的なクエリアルゴリズムである。
論文 参考訳(メタデータ) (2019-12-29T09:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。