論文の概要: Methods for Estimating and Improving Robustness of Language Models
- arxiv url: http://arxiv.org/abs/2206.08446v1
- Date: Thu, 16 Jun 2022 21:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 07:27:56.285189
- Title: Methods for Estimating and Improving Robustness of Language Models
- Title(参考訳): 言語モデルのロバスト性の推定と改善方法
- Authors: Michal \v{S}tef\'anik
- Abstract要約: 大規模言語モデル(LLM)は、完全な意味論の複雑さよりも単純で表面的なテキスト関係を好むことで悪名高い欠陥を被っている。
本提案では, 学習領域外の一般化能力の弱い問題において, この問題の共通分母について検討する。
これらの指標のいくつかをトレーニング目的に組み込むことで、ニューラルネットワークの分散ロバスト性の向上が期待できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their outstanding performance, large language models (LLMs) suffer
notorious flaws related to their preference for simple, surface-level textual
relations over full semantic complexity of the problem. This proposal
investigates a common denominator of this problem in their weak ability to
generalise outside of the training domain. We survey diverse research
directions providing estimations of model generalisation ability and find that
incorporating some of these measures in the training objectives leads to
enhanced distributional robustness of neural models. Based on these findings,
we present future research directions towards enhancing the robustness of LLMs.
- Abstract(参考訳): その卓越した性能にもかかわらず、大きな言語モデル(LLM)は、問題の完全な意味的複雑さよりも単純で表面的なテキスト関係を好むことで悪名高い欠点を被っている。
本提案は,訓練領域外における一般化能力の弱い問題に対する共通分母について検討する。
モデル一般化能力の推定を提供する多様な研究方向を調査し,学習目標にこれらの尺度を組み込むことで,神経モデルの分布的ロバスト性が高まることを見出した。
これらの知見に基づき,LLMの堅牢性向上に向けた今後の研究方向性を示す。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。
これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文 参考訳(メタデータ) (2024-04-02T11:46:31Z) - Large Language Models for Forecasting and Anomaly Detection: A
Systematic Literature Review [10.325003320290547]
本稿では,Large Language Models (LLMs) の予測・異常検出への応用について概説する。
LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。
このレビューでは、膨大な歴史的データセットへの依存、さまざまな文脈における一般化可能性の問題、モデル幻覚の現象など、より広範な採用と有効性を阻害するいくつかの重要な課題を取り上げている。
論文 参考訳(メタデータ) (2024-02-15T22:43:02Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。