論文の概要: LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs
- arxiv url: http://arxiv.org/abs/2507.16809v2
- Date: Thu, 24 Jul 2025 16:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.867025
- Title: LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs
- Title(参考訳): LingBench++: LLMによるマルチステップおよびクロスカルチャー推論のための言語学的インフォームドベンチマークと推論フレームワーク
- Authors: Da-Chen Lian, Ri-Sheng Huang, Pin-Er Chen, Chunki Lim, You-Kuan Lin, Guan-Yu Tseng, Zi-Cheng Yang, Zhen-Yu Lin, Pin-Cheng Chen, Shu-Kai Hsieh,
- Abstract要約: LingBench++は、大規模言語モデル(LLM)を評価するためのベンチマークおよび推論フレームワークである。
構造化された推論トレース、ステップワイズ評価プロトコル、90以上の言語にまたがるリッチな型付けメタデータを提供する。
本稿では,外部知識源と反復推論を用いたモデルが,精度と解釈性の両方において単一パスアプローチより優れていることを示す。
- 参考スコア(独自算出の注目度): 0.631976908971572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose LingBench++, a linguistically-informed benchmark and reasoning framework designed to evaluate large language models (LLMs) on complex linguistic tasks inspired by the International Linguistics Olympiad (IOL). Unlike prior benchmarks that focus solely on final answer accuracy, LingBench++ provides structured reasoning traces, stepwise evaluation protocols, and rich typological metadata across over 90 low-resource and cross-cultural languages. We further develop a multi-agent architecture integrating grammatical knowledge retrieval, tool-augmented reasoning, and deliberate hypothesis testing. Through systematic comparisons of baseline and our proposed agentic models, we demonstrate that models equipped with external knowledge sources and iterative reasoning outperform single-pass approaches in both accuracy and interpretability. LingBench++ offers a comprehensive foundation for advancing linguistically grounded, culturally informed, and cognitively plausible reasoning in LLMs.
- Abstract(参考訳): 我々はLingBench++を提案する。LingBench++は、国際言語オリンピアード(IOL)にインスパイアされた複雑な言語タスクにおいて、大きな言語モデル(LLM)を評価するために設計された、言語的にインフォームドされたベンチマークおよび推論フレームワークである。
LingBench++は、最終回答の正確性のみに焦点を当てた以前のベンチマークとは異なり、構造化推論トレース、ステップワイズ評価プロトコル、90以上の低リソースおよび異文化言語にわたるリッチな型付けメタデータを提供する。
さらに,文法的知識検索,ツール拡張推論,意図的仮説テストを統合したマルチエージェントアーキテクチャを開発した。
提案するエージェントモデルとベースラインを体系的に比較することにより,外的知識源と反復的推論を用いたモデルが,精度と解釈性の両方において単一パスアプローチより優れていることを示す。
LingBench++は、LLMにおける言語学的基盤、文化的情報、認知学的に妥当な推論を促進するための包括的な基盤を提供する。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Probing Large Language Models in Reasoning and Translating Complex Linguistic Puzzles [0.6144680854063939]
本稿では,複雑な言語パズルの解法としてLarge Language Models (LLMs) を用いる。
パズリングマシンコンペティションと各種言語オリンピアードのデータセットを用いて、GPT-4 0603の性能を評価する。
論文 参考訳(メタデータ) (2025-02-02T14:53:14Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - IOLBENCH: Benchmarking LLMs on Linguistic Reasoning [8.20398036986024]
IOL(International Linguistics Olympiad)問題に基づく新しいベンチマークであるIOLBENCHを紹介する。
このデータセットは、文法、形態学、音韻学、意味論をテストする様々な問題を含んでいる。
最も先進的なモデルでさえ、言語的な複雑さの複雑さを扱うのに苦労している。
論文 参考訳(メタデータ) (2025-01-08T03:15:10Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Rethinking the Evaluating Framework for Natural Language Understanding
in AI Systems: Language Acquisition as a Core for Future Metrics [0.0]
人工知能(AI)の急成長分野において、自然言語処理(NLP)における大規模言語モデル(LLM)の先例のない進歩は、従来の機械学習のメトリクスのアプローチ全体を再考する機会を提供する。
本稿では,確立されたチューリングテストから,言語習得を基盤とした全包含フレームワークへのパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2023-09-21T11:34:52Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。