論文の概要: What is an "Abstract Reasoner"? Revisiting Experiments and Arguments about Large Language Models
- arxiv url: http://arxiv.org/abs/2507.22457v1
- Date: Wed, 30 Jul 2025 08:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.079952
- Title: What is an "Abstract Reasoner"? Revisiting Experiments and Arguments about Large Language Models
- Title(参考訳): 抽象推論」とは何か? 大規模言語モデルの実験と論証を再考する
- Authors: Tian Yun, Chen Sun, Ellie Pavlick,
- Abstract要約: 入力符号化のためのパラメータの小さなサブセットをチューニングしても、ほぼ完璧な性能が得られることを示す。
我々は、この経験的な結果の収集を、それが「抽象的推論者」を意味するかについての議論を再開する(再)招待として捉えている。
- 参考スコア(独自算出の注目度): 21.292671597235444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has argued that large language models (LLMs) are not "abstract reasoners", citing their poor zero-shot performance on a variety of challenging tasks as evidence. We revisit these experiments in order to add nuance to the claim. First, we show that while LLMs indeed perform poorly in a zero-shot setting, even tuning a small subset of parameters for input encoding can enable near-perfect performance. However, we also show that this finetuning does not necessarily transfer across datasets. We take this collection of empirical results as an invitation to (re-)open the discussion of what it means to be an "abstract reasoner", and why it matters whether LLMs fit the bill.
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)は、様々な困難なタスクにおけるゼロショットのパフォーマンスが、証拠として不十分であることを理由に「推論を断ち切る」ものではないと論じている。
クレームにニュアンスを加えるために、これらの実験を再考する。
まず、LLMはゼロショット設定では性能が良くないが、入力エンコーディングのためのパラメータの小さなサブセットを調整しても、ほぼ完璧な性能が得られることを示す。
しかし、この微調整が必ずしもデータセット間で転送されるとは限らないことも示している。
我々は、この実証的な結果の収集を、それが「難解な推論者」を意味するのか、なぜLCMが法案に適合するかという議論を再開する(再)招待として捉えている。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文 参考訳(メタデータ) (2025-04-29T12:30:05Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - "I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models [0.0]
議論的推論を行う2つの大規模言語モデル(LLM)の性能を評価する。
AM と APE では LLM のスコアが SOTA に匹敵するか上回っていることがわかった。
しかしながら、LLMの統計的解析は、小さいが、まだ可読である場合、I/O表現の変化は、モデルが推論を実行していないことを示している。
論文 参考訳(メタデータ) (2023-09-29T02:41:38Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。