論文の概要: QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning
- arxiv url: http://arxiv.org/abs/2508.15854v1
- Date: Wed, 20 Aug 2025 10:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.124536
- Title: QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning
- Title(参考訳): QIAS 2025における共有タスクのQU-NLP:イスラム継承推論のための2相LLMファインチューニングと検索拡張ジェネレーションアプローチ
- Authors: Mohammad AL-Smadi,
- Abstract要約: 我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents our approach and results for SubTask 1: Islamic Inheritance Reasoning at QIAS 2025, a shared task focused on evaluating Large Language Models (LLMs) in understanding and reasoning within Islamic inheritance knowledge. We fine-tuned the Fanar-1-9B causal language model using Low-Rank Adaptation (LoRA) and integrated it into a Retrieval-Augmented Generation (RAG) pipeline. Our system addresses the complexities of Islamic inheritance law, including comprehending inheritance scenarios, identifying eligible heirs, applying fixed-share rules, and performing precise calculations. Our system achieved an accuracy of 0.858 in the final test, outperforming other competitive models such as, GPT 4.5, LLaMA, Fanar, Mistral and ALLaM evaluated with zero-shot prompting. Our results demonstrate that QU-NLP achieves near state-of-the-art accuracy (85.8%), excelling especially on advanced reasoning (97.6%) where it outperforms Gemini 2.5 and OpenAI's o3. This highlights that domain-specific fine-tuning combined with retrieval grounding enables mid-scale Arabic LLMs to surpass frontier models in Islamic inheritance reasoning.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) の評価に焦点をあてた共通課題であるQIAS 2025における「サブタスク1:イスラム継承推論」のアプローチと成果について述べる。
本稿では,Low-Rank Adaptation (LoRA) を用いて Fanar-1-9B 因果言語モデルを微調整し,それをRetrieval-Augmented Generation (RAG) パイプラインに統合した。
本システムでは,相続シナリオの解釈,相続者の特定,固定共有ルールの適用,正確な計算など,イスラーム継承法の複雑さに対処する。
最終試験では, GPT 4.5, LLaMA, Fanar, Mistral, ALLaMなどの競合モデルよりも0.858の精度を達成した。
以上の結果から,QU-NLPは最先端の精度(85.8%)を達成し,特にGemini 2.5とOpenAIのo3を上回った高度な推論(97.6%)に優れていた。
このことは、ドメイン固有の微調整と検索基盤を組み合わせることで、中規模のアラビア語のLLMがイスラム継承推論におけるフロンティアモデルを上回ることができることを強調している。
関連論文リスト
- Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions [1.1883838320818292]
大規模言語モデル(LLM)は、候補スクリーニングの合理化を約束するが、精度とアルゴリズムバイアスに関する深刻な懸念も引き起こす。
いくつかの最先端の基盤的LCMをベンチマークし、ジョブ候補マッチングのためのドメイン固有の採用モデル(Match Score)と比較する。
実験の結果,Match Score は汎用 LLM よりも精度(ROC AUC 0.85 対 0.77 )が優れており,人口集団間でより公平な結果が得られた。
論文 参考訳(メタデータ) (2025-07-02T19:02:18Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。