論文の概要: A collection of principles for guiding and evaluating large language
models
- arxiv url: http://arxiv.org/abs/2312.10059v1
- Date: Mon, 4 Dec 2023 12:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:02:13.538586
- Title: A collection of principles for guiding and evaluating large language
models
- Title(参考訳): 大規模言語モデルの指導と評価のための原則集
- Authors: Konstantin Hebenstreit, Robert Praas, Matthias Samwald
- Abstract要約: 文献から220の原則のリストを特定し、キュレートし、37のコア原則を7つのカテゴリに分類する。
われわれは、主観的重要性の専門家に異なる原則を課す、小規模の専門家調査を実施している。
原則の共有モデルの開発は、複数の目的を達成することができると想定しています。
- 参考スコア(独自算出の注目度): 5.412690203810726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate outstanding capabilities, but
challenges remain regarding their ability to solve complex reasoning tasks, as
well as their transparency, robustness, truthfulness, and ethical alignment. In
this preliminary study, we compile a set of core principles for steering and
evaluating the reasoning of LLMs by curating literature from several relevant
strands of work: structured reasoning in LLMs, self-evaluation/self-reflection,
explainability, AI system safety/security, guidelines for human critical
thinking, and ethical/regulatory guidelines for AI. We identify and curate a
list of 220 principles from literature, and derive a set of 37 core principles
organized into seven categories: assumptions and perspectives, reasoning,
information and evidence, robustness and security, ethics, utility, and
implications. We conduct a small-scale expert survey, eliciting the subjective
importance experts assign to different principles and lay out avenues for
future work beyond our preliminary results. We envision that the development of
a shared model of principles can serve multiple purposes: monitoring and
steering models at inference time, improving model behavior during training,
and guiding human evaluation of model reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)は優れた能力を示すが、その透明性、堅牢性、真実性、倫理的整合性に加えて、複雑な推論タスクを解く能力に関する課題は残る。
本稿では, LLMにおける構造化推論, 自己評価・自己回帰, 説明可能性, AIシステム安全性・セキュリティ, 人間の批判的思考のガイドライン, 倫理的・規制的なAIガイドラインなど, 関連分野の文献をキュレートすることにより, LLMの判断と評価のための基本原則をまとめた。
文献から220の原則のリストを特定してキュレートし、仮定と視点、推論、情報とエビデンス、堅牢性とセキュリティ、倫理、ユーティリティ、含意の7つのカテゴリに分けられた37のコア原則のセットを導出します。
われわれは、主観的な重要度の専門家に異なる原則を課し、予備的な結果を超えて将来の研究の道筋を定める、小規模の専門家調査を実施している。
我々は,モデルの共有モデルの開発は,推論時のモデル監視とステアリング,トレーニング中のモデル行動の改善,モデル推論の人的評価の導出など,複数の目的を達成することができると考えている。
関連論文リスト
- IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction [3.961279440272764]
RULEARNは,対話型環境下での大規模言語モデルのルール学習能力を評価するために設計された,新しいベンチマークである。
誘導, 誘引, アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。
5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-19T23:37:07Z) - Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。
フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-10T09:53:54Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences [0.0]
この研究は、ITSのフィードバック生成に関する以前の研究を通し、AIEDの研究を慎重に支援するものである。
本論文の主な貢献は次のとおりである。 生成AIの時代におけるフィードバック生成において、より慎重で理論的に基礎付けられた手法を適用すること。
論文 参考訳(メタデータ) (2024-05-07T20:09:18Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。