Fugu-MT 論文翻訳(概要): Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?

論文の概要: Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?

arxiv url: http://arxiv.org/abs/2406.12809v1
Date: Tue, 18 Jun 2024 17:25:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:49:20.175879
Title: Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?
Title（参考訳）: 大規模言語モデルは、困難を解決できれば、いつでも簡単に解決できるのか?
Authors: Zhe Yang, Yichang Zhang, Tianyu Liu, Jian Yang, Junyang Lin, Chang Zhou, Zhifang Sui,
Abstract要約: 大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。相対的整合性スコアによる整合性向上の可能性を分析する。
参考スコア（独自算出の注目度）: 65.43882564649721
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities, but still suffer from inconsistency issues (e.g. LLMs can react differently to disturbances like rephrasing or inconsequential order change). In addition to these inconsistencies, we also observe that LLMs, while capable of solving hard problems, can paradoxically fail at easier ones. To evaluate this hard-to-easy inconsistency, we develop the ConsisEval benchmark, where each entry comprises a pair of questions with a strict order of difficulty. Furthermore, we introduce the concept of consistency score to quantitatively measure this inconsistency and analyze the potential for improvement in consistency by relative consistency score. Based on comprehensive experiments across a variety of existing models, we find: (1) GPT-4 achieves the highest consistency score of 92.2\% but is still inconsistent to specific questions due to distraction by redundant information, misinterpretation of questions, etc.; (2) models with stronger capabilities typically exhibit higher consistency, but exceptions also exist; (3) hard data enhances consistency for both fine-tuning and in-context learning. Our data and code will be publicly available on GitHub.
Abstract（参考訳）: 大きな言語モデル(LLM)は印象的な機能を示しているが、いまだに矛盾した問題に悩まされている(例えば、LLMはリフレッシングや不適切な順序変更といった障害に対して異なる反応をすることができる)。これらの不整合に加えて、LLMは難解な問題を解くことができるが、パラドックス的により簡単な問題で失敗する可能性があることも観察した。この難易度不整合性を評価するために,コンシエバルベンチマークを開発した。さらに, この不整合を定量的に測定し, 相対的整合性スコアによる整合性向上の可能性を分析するために, 整合性スコアの概念を導入する。 1) GPT-4 は 92.2 % の最高一貫性を達成しているが, 冗長な情報や質問の誤解釈などによる特定の問題には相容れない。 2) より強力な能力を持つモデルは一般的に高い一貫性を示すが、例外も存在し、(3) ハードデータは微調整と文脈内学習の両方の一貫性を高める。当社のデータとコードはGitHubで公開されます。

関連論文リスト

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6286531904189063]
AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。 FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文参考訳（メタデータ） (2025-03-29T06:38:30Z)
Multidimensional Consistency Improves Reasoning in Language Models [21.989335720239467]
複数の入力のバリエーションにまたがる応答整合性のモデルをテストするためのフレームワークを提案する。我々は, (i) シュート順, (ii) 問題表現, (iii) 言語でのバリエーションを誘導する。我々のフレームワークは単言語データセットGSM8Kと多言語データセットMGSMの両方、特により小さなモデルにおいて数学的推論性能を一貫して向上させる。
論文参考訳（メタデータ） (2025-03-04T14:41:05Z)
GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。 GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文参考訳（メタデータ） (2024-12-13T11:38:10Z)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (2024-09-27T03:49:56Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文参考訳（メタデータ） (2024-01-13T03:18:16Z)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文参考訳（メタデータ） (2024-01-12T18:36:29Z)
WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文参考訳（メタデータ） (2023-11-27T15:38:17Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。 GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文参考訳（メタデータ） (2023-05-23T17:25:59Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。