論文の概要: Kinship Data Benchmark for Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2601.07794v1
- Date: Mon, 12 Jan 2026 18:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.735365
- Title: Kinship Data Benchmark for Multi-hop Reasoning
- Title(参考訳): マルチホップ推論のためのKinship Data Benchmark
- Authors: Tianda Sun, Dimitar Kazakov,
- Abstract要約: KinshipQAは、親族関係に関する推論を通じて、その能力を調べるために設計されたベンチマークである。
私たちの研究の中心的な貢献は、オンデマンド、大規模、現実的で、文化固有の系譜データを生成する生成パイプラインです。
暗黙的な関係連鎖の推論を必要とするテキスト推論タスクを導出する。
- 参考スコア(独自算出の注目度): 1.0971997884861282
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly evaluated on their ability to perform multi-hop reasoning, i.e., to combine multiple pieces of information into a coherent inference. We introduce KinshipQA, a benchmark designed to probe this capability through reasoning over kinship relations. The central contribution of our work is a generative pipeline that produces, on demand, large-scale, realistic, and culture-specific genealogical data: collections of interconnected family trees that satisfy explicit marriage constraints associated with different kinship systems. This allows task difficulty, cultural assumptions, and relational depth to be systematically controlled and varied. From these genealogies, we derive textual inference tasks that require reasoning over implicit relational chains. We evaluate the resulting benchmark using six state-of-the-art LLMs, spanning both open-source and closed-source models, under a uniform zero-shot protocol with deterministic decoding. Performance is measured using exact-match and set-based metrics. Our results demonstrate that KinshipQA yields a wide spread of outcomes and exposes systematic differences in multi-hop reasoning across models and cultural settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の情報をコヒーレントな推論に結合するマルチホップ推論を行う能力について、ますます評価されている。
KinshipQAは、親族関係の推論を通じて、この機能を探索するためのベンチマークである。
我々の研究の中心的な貢献は、オンデマンドで、大規模で、現実的で、文化特有の系譜データを生成する生成パイプラインである。
これにより、課題の難しさ、文化的な仮定、関係深さを体系的に制御し、変化させることができる。
これらの系譜から、暗黙的な関係連鎖の推論を必要とするテキスト推論タスクを導出する。
提案手法は,オープンソースモデルとクローズドソースモデルの両方にまたがって,決定論的復号化を伴う一様ゼロショットプロトコルを用いて,6つの最先端LCMを用いて評価する。
パフォーマンスは、正確なマッチングとセットベースのメトリクスを使用して測定される。
以上の結果から,KinshipQAは幅広い成果をもたらし,モデルや文化環境におけるマルチホップ推論の体系的差異を明らかにした。
関連論文リスト
- Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - From Thinking to Output: Chain-of-Thought and Text Generation Characteristics in Reasoning Language Models [10.38327947136263]
本稿では、4つの最先端大推論モデルの推論特性を解析するための新しい枠組みを提案する。
多様なデータセットは、論理的推論、因果推論、多段階問題解決を含む実世界のシナリオベースの質問で構成されている。
この研究結果は、これらのモデルがどのように探索と搾取のバランスをとり、問題に対処し、結論に達するかについて様々なパターンを明らかにする。
論文 参考訳(メタデータ) (2025-06-20T14:02:16Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study [0.9424565541639368]
化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。
我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-23T04:36:19Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。