Fugu-MT 論文翻訳(概要): The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models

論文の概要: The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models

arxiv url: http://arxiv.org/abs/2605.03936v1
Date: Tue, 05 May 2026 16:26:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:44.03152
Title: The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models
Title（参考訳）: 対訳ゲーム:言語モデルにおける概念分析と修復の反復
Authors: Daniel Drucker, Kyle Mahowald,
Abstract要約: 言語モデルが反復解析と修復連鎖によって哲学的解析を行うことができるかどうかを考察する。多くのLM生成反例は、専門家の人間とLMの裁判官の両方によって無効と判断されるが、LM審査員は人間の約2倍の人数を受け入れている。
参考スコア（独自算出の注目度）: 11.31435294855236
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conceptual analysis -- proposing definitions and refining them through counterexamples -- is central to philosophical methodology. We study whether language models can perform this task through iterated analysis and repair chains: one model instance generates counterexamples to a proposed definition, another repairs the definition, and the process repeats. Across 20 concepts and thousands of counterexample-repair cycles, we find that, although many LM-generated counterexamples are judged invalid by both expert humans and an LM judge, the LM judge accepts roughly twice as many as humans do. Nonetheless, per-item validity judgments are moderately consistent across humans and between humans and the LM. We further find that extended iteration produces increasingly verbose definitions without improving accuracy. We also see that some concepts resist stable definitions in general. These findings suggest that while LMs can engage in philosophical reasoning, the counterexample-repair loop hits diminishing returns quickly and could be a fruitful test case for evaluating whether LMs can sustain high-level iterated philosophical reasoning.
Abstract（参考訳）: 概念分析 (conceptual analysis) -- 定義を提案し、反例を通してそれらを精錬する -- は、哲学的方法論の中心である。 1つのモデルインスタンスが提案した定義に対する反例を生成し、もう1つのモデルインスタンスが定義を修復し、プロセスが繰り返す。 20のコンセプトと数千の反例・反例サイクルにおいて、多くのLM生成の反例は、専門家の人間とLMの裁判官の両方によって無効と判断されるが、LM審査員は人間の約2倍の数の反例を受け入れている。それでも、各項目の妥当性判断は、人間とLMの間では適度に一致している。さらに、拡張イテレーションは、精度を向上することなく、ますます冗長な定義を生み出すことが分かっています。また、いくつかの概念は一般に安定な定義に抵抗する。これらの結果から, LMは哲学的推論を行うことができるが, 反例・反例ループは急速に減少し, LMが高レベルの反復的哲学的推論を維持できるかどうかを評価する上で有益である可能性が示唆された。

関連論文リスト

Learning from Equivalence Queries, Revisited [62.46207559138802]
本研究は,全情報と帯域幅の両方のフィードバックに基づいて等価クエリから学習する。本分析では,対称逆数に対するゲーム理論的視点と適応重み付け法とミニマックス引数を組み合わせる。
論文参考訳（メタデータ） (2026-04-06T08:55:41Z)
Measuring Reasoning in LLMs: a New Dialectical Angle [0.0]
本稿では,言語モデルの推論を弁証学で評価する構造化フレームワークSIEVを提案する。従来の評価とは異なり、SIEVはモデルが到達した結論だけでなく、どのように到達するかを評価する。例えば、最近のモデルであるGPT-5-chatは、GSM上のSIEVで評価すると40ポイント以上(100点中)を失う。
論文参考訳（メタデータ） (2025-10-20T22:08:59Z)
"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文参考訳（メタデータ） (2023-10-26T21:47:59Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。 REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文参考訳（メタデータ） (2023-04-04T15:57:28Z)
Are Representations Built from the Ground Up? An Empirical Examination of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文参考訳（メタデータ） (2022-10-07T14:21:30Z)
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文参考訳（メタデータ） (2022-10-03T21:34:32Z)
The Language Model Understood the Prompt was Ambiguous: Probing Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。 LMは複数の解析を同時に追跡できることがわかった。曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文参考訳（メタデータ） (2021-09-16T10:27:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。