論文の概要: Evaluating Relational Reasoning in LLMs with REL
- arxiv url: http://arxiv.org/abs/2604.12176v1
- Date: Tue, 14 Apr 2026 01:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.181408
- Title: Evaluating Relational Reasoning in LLMs with REL
- Title(参考訳): RELを用いたLLMのリレーショナル推論の評価
- Authors: Lukas Fesser, Yasha Ektefaie, Ada Fang, Sham M. Kakade, Marinka Zitnik,
- Abstract要約: リレーショナル推論は、複数のエンティティ、属性、変数を共同で結合する機能を推論する能力である。
我々は,入力サイズ,語彙,表現的選択などの共同創設者を制御しながら,推論の難しさを変えるための原則的手法を開発した。
アクロスフロンティアLSMは、固定されたエンティティの総数を保持してもRCが増加するにつれて、一貫して単調に劣化する。
- 参考スコア(独自算出の注目度): 44.475732460699895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational reasoning is the ability to infer relations that jointly bind multiple entities, attributes, or variables. This ability is central to scientific reasoning, but existing evaluations of relational reasoning in large language models often focus on structured inputs such as tables, graphs, or synthetic tasks, and do not isolate the difficulty introduced by higher-arity relational binding. We study this problem through the lens of Relational Complexity (RC), which we define as the minimum number of independent entities or operands that must be simultaneously bound to apply a relation. RC provides a principled way to vary reasoning difficulty while controlling for confounders such as input size, vocabulary, and representational choices. Building on RC, we introduce REL, a generative benchmark framework spanning algebra, chemistry, and biology that varies RC within each domain. Across frontier LLMs, performance degrades consistently and monotonically as RC increases, even when the total number of entities is held fixed. This failure mode persists with increased test-time compute and in-context learning, suggesting a limitation tied to the arity of the required relational binding rather than to insufficient inference steps or lack of exposure to examples. Our results identify a regime of higher-arity reasoning in which current models struggle, and motivate re-examining benchmarks through the lens of relational complexity.
- Abstract(参考訳): リレーショナル推論(Relational reasoning)とは、複数のエンティティ、属性、変数を結合する関係を推論する能力である。
この能力は科学的推論の中心であるが、大規模言語モデルにおける関係推論の既存の評価は、しばしばテーブル、グラフ、合成タスクのような構造化された入力に焦点を合わせており、高次関係結合によって引き起こされる困難を分離しない。
我々はこの問題を関係複雑度レンズ(RC)を通して研究し、関係を適用するために同時に拘束しなければならない独立した実体やオペランドの最小数と定義する。
RCは、入力サイズ、語彙、表現的選択などの共同創設者を制御しながら、推論の難しさを変えるための原則化された方法を提供する。
RC 上に構築された REL は,代数,化学,生物学にまたがる生成ベンチマークフレームワークであり,各領域で RC が変化する。
また、フロンティアLSM全体では、エンティティの総数が固定された場合でも、RCが増加するにつれて性能が一貫して単調に低下する。
この障害モードは、テスト時間計算の増加とコンテキスト内学習によって持続し、推論ステップの不足や例への露出の欠如よりも、必要なリレーショナルバインディングのアリティに関連する制限を示唆している。
この結果から、現在のモデルが苦戦している高アリティ推論の体系を特定し、リレーショナル複雑性のレンズを通してベンチマークを再検討する動機付けを行う。
関連論文リスト
- Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases [66.24230877709756]
リレーショナルディープラーニング(RDL)は、リレーショナルデータベース(RDB)を異種エンティティグラフとして構成するために提案される。
既存のRDL手法は、RDBにおける関係データの不均衡問題を無視し、少数民族を過小評価するリスクを負う。
本研究では,RDBエンティティ分類におけるクラス不均衡問題を初めて検討し,関係中心型マイノリティー合成オーバーサンプリングGNNを設計する。
論文 参考訳(メタデータ) (2026-03-09T03:18:26Z) - CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density [2.4149105714758545]
認知負荷理論(CLT)に基づく新しい総合ベンチマークであるCogniLoadを紹介する。
CogniLoadは、CLTのコア次元を反映した、独立に調整可能なパラメータを持つ自然言語論理パズルを生成する。
CogniLoadは、タスク長を支配的な制約として識別する、異なるパフォーマンス感受性を明らかにしている。
論文 参考訳(メタデータ) (2025-09-22T22:28:33Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models [9.211266032947497]
我々は,事実検索が孤立点問合せよりもかなり難しいことを実証した。
我々の実験では、最先端のLLMでさえ25%以上の精度で苦戦していることがわかった。
これらの知見は、構造化された事実知識を合成する現在のLLMの能力において、重要な限界である。
論文 参考訳(メタデータ) (2025-05-27T16:33:38Z) - Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文 参考訳(メタデータ) (2024-06-20T21:27:57Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。