Fugu-MT 論文翻訳(概要): Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective

論文の概要: Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective

arxiv url: http://arxiv.org/abs/2604.27340v1
Date: Thu, 30 Apr 2026 02:33:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:53.885375
Title: Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective
Title（参考訳）: LLMのより説明可能で分割自由な構成性推定:ルール生成の視点から
Authors: Ziyao Xu, Cong Wang, Houfeng Wang,
Abstract要約: LLMの合成性評価のための新しいルール生成視点を提案する。 LLMは、データセットマッピングの規則としてプログラムを生成する必要があり、複雑性に基づく理論を用いてLCMの構成性の推定を提供する。我々は,この観点から既存のLLMの実験と解析を行い,LLMが示す様々な構成性特性と構成性欠陥を見出した。
参考スコア（独自算出の注目度）: 27.14336518124242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositional generalization tests are often used to estimate the compositionality of LLMs. However, such tests have the following limitations: (1) they only focus on the output results without considering LLMs' understanding of sample compositionality, resulting in explainability defects; (2) they rely on dataset partition to form the test set with combinations unseen in the training set, suffering from combination leakage issues. In this work, we propose a novel rule-generation perspective for compositionality estimation for LLMs. It requires LLMs to generate a program as rules for dataset mapping and provides estimates of the compositionality of LLMs using complexity-based theory. The perspective addresses the limitations of compositional generalization tests and provides a new way to analyze the compositionality characterization of LLMs. We conduct experiments and analysis of existing advanced LLMs based on this perspective on a string-to-grid task, and find various compositionality characterizations and compositionality deficiencies exhibited by LLMs.
Abstract（参考訳）: 組成一般化試験は、LLMの組成性を推定するためにしばしば用いられる。しかし, それらのテストは, 1) LLMのサンプル構成性の理解を考慮せずに, 結果のみに焦点を合わせ, 説明可能性の欠陥を生じさせる, 2) 組み合わせリーク問題に悩まされ, トレーニングセットに見当たらない組み合わせでテストセットを形成するために, データセット分割に頼っている,という制限がある。本研究では,LLMの合成性評価のためのルール生成的視点を提案する。 LLMは、データセットマッピングの規則としてプログラムを生成する必要があり、複雑性に基づく理論を用いてLCMの構成性の推定を提供する。この視点は、合成一般化テストの限界に対処し、LLMの構成性特性を解析するための新しい方法を提供する。我々は,この観点から既存のLLMの実験と解析を行い,LLMが示す様々な構成性特性と構成性欠陥を見出した。

関連論文リスト

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks [40.48180253367968]
汎用LLMの一般化能力を向上する文脈内学習手法を提案する。このアプローチでは反復的なサンプル選択戦略を採用しており、いくつかの例を段階的に調整して構築する。実験の結果, より単純な例では, LLMではより優れた一般化性能が得られることがわかった。
論文参考訳（メタデータ） (2025-09-01T08:54:45Z)
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。 LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T14:10:10Z)
Can Frontier LLMs Replace Annotators in Biomedical Text Mining? Analyzing Challenges and Exploring Solutions [0.0]
バイオメディカルテキストマイニングにおけるLCMの最適性能について, これまでに複数の研究が報告されている。これらの評価において, 故障パターンを解析することにより, バイオメディカルコーパスにおけるLCMの3つの主な課題を明らかにした。以上の結果から,SOTA BERT モデルの性能はフロンティア LLM に近づいたり,超えたりできることが示された。
論文参考訳（メタデータ） (2025-03-05T08:37:10Z)
Investigating the (De)Composition Capabilities of Large Language Models in Natural-to-Formal Language Conversion [21.68354181391989]
大規模言語モデル(LLM)は、一般化され堅牢な自然言語変換(N2F)において、分解と構成の強力な能力を持つ必要がある。我々は,N2F における LLM の分解と合成能力のセットを評価できるサンプルとタスクの構成を行うDEDCフレームワークを提案する。本研究は,N2F における LLM の分解と合成の基本的な機能について,新たな視点を提供する。
論文参考訳（メタデータ） (2025-01-24T17:15:09Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。