論文の概要: FLEx: Language Modeling with Few-shot Language Explanations
- arxiv url: http://arxiv.org/abs/2601.04157v1
- Date: Wed, 07 Jan 2026 18:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.227337
- Title: FLEx: Language Modeling with Few-shot Language Explanations
- Title(参考訳): FLEx: 短いショット言語説明による言語モデリング
- Authors: Adar Avsian, Christopher Richardson, Anirudh Sundar, Larry Heck,
- Abstract要約: 本稿では,少数の説明例を用いたモデル行動改善手法であるFLExを紹介する。
FLExは埋め込みベースのクラスタリングを用いて代表モデルエラーを選択し、関連する説明がそれらの誤りを正すかどうかを確認し、推論時に予測されるプロンプトプレフィックスにまとめる。
FLExは3つのデータセットすべてでチェーン・オブ・シークレットを一貫して上回っていることが分かりました。
- 参考スコア(独自算出の注目度): 7.372761161298823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have become effective at a wide range of tasks, from math problem solving to open-domain question answering. However, they still make mistakes, and these mistakes are often repeated across related queries. Natural language explanations can help correct these errors, but collecting them at scale may be infeasible, particularly in domains where expert annotators are required. To address this issue, we introduce FLEx ($\textbf{F}$ew-shot $\textbf{L}$anguage $\textbf{Ex}$planations), a method for improving model behavior using a small number of explanatory examples. FLEx selects representative model errors using embedding-based clustering, verifies that the associated explanations correct those errors, and summarizes them into a prompt prefix that is prepended at inference-time. This summary guides the model to avoid similar errors on new inputs, without modifying model weights. We evaluate FLEx on CounterBench, GSM8K, and ReasonIF. We find that FLEx consistently outperforms chain-of-thought (CoT) prompting across all three datasets and reduces up to 83\% of CoT's remaining errors.
- Abstract(参考訳): 言語モデルは、数学の問題解決からオープンドメインの質問応答に至るまで、幅広いタスクで有効になっている。
しかし、それでも間違いを犯し、これらのミスは関連するクエリ間で繰り返されることが多い。
自然言語の説明はこれらのエラーを修正するのに役立ちますが、特にエキスパートアノテータが必要なドメインでは、それらを大規模に収集することは不可能です。
この問題を解決するために、少数の説明例を使ってモデルの振る舞いを改善するFLEx ($\textbf{F}$ew-shot $\textbf{L}$anguage $\textbf{Ex}$planationsを導入する。
FLExは埋め込みベースのクラスタリングを用いて代表モデルエラーを選択し、関連する説明がそれらの誤りを正すかどうかを確認し、推論時に予測されるプロンプトプレフィックスに要約する。
この要約は、モデルウェイトを変更することなく、新しい入力で同様のエラーを避けるようモデルに誘導する。
FLEx on CounterBench, GSM8K, ReasonIF。
FLExは3つのデータセットにまたがってチェーン・オブ・シークレット(CoT)を一貫して上回り、CoTの残りのエラーの最大83%を削減している。
関連論文リスト
- Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - LADDER: Language Driven Slice Discovery and Error Rectification [16.146099639239615]
現在のクラスタリングや離散属性ベースのスライス発見メソッドは、重要な制限に直面している。
我々は,(1)不完全性に対処するために自然言語の柔軟性を活用すること,(2)LLMの潜在的テクストドメイン知識と高度な推論を用いて文を分析し,仮説を直接導出する,という制限に対処することを提案する。
厳密な評価は、ラダーがバイアスを発見し緩和する際に、既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-07-31T14:49:35Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。