論文の概要: QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning
- arxiv url: http://arxiv.org/abs/2508.15854v1
- Date: Wed, 20 Aug 2025 10:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.124536
- Title: QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning
- Title(参考訳): QIAS 2025における共有タスクのQU-NLP:イスラム継承推論のための2相LLMファインチューニングと検索拡張ジェネレーションアプローチ
- Authors: Mohammad AL-Smadi,
- Abstract要約: 我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents our approach and results for SubTask 1: Islamic Inheritance Reasoning at QIAS 2025, a shared task focused on evaluating Large Language Models (LLMs) in understanding and reasoning within Islamic inheritance knowledge. We fine-tuned the Fanar-1-9B causal language model using Low-Rank Adaptation (LoRA) and integrated it into a Retrieval-Augmented Generation (RAG) pipeline. Our system addresses the complexities of Islamic inheritance law, including comprehending inheritance scenarios, identifying eligible heirs, applying fixed-share rules, and performing precise calculations. Our system achieved an accuracy of 0.858 in the final test, outperforming other competitive models such as, GPT 4.5, LLaMA, Fanar, Mistral and ALLaM evaluated with zero-shot prompting. Our results demonstrate that QU-NLP achieves near state-of-the-art accuracy (85.8%), excelling especially on advanced reasoning (97.6%) where it outperforms Gemini 2.5 and OpenAI's o3. This highlights that domain-specific fine-tuning combined with retrieval grounding enables mid-scale Arabic LLMs to surpass frontier models in Islamic inheritance reasoning.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) の評価に焦点をあてた共通課題であるQIAS 2025における「サブタスク1:イスラム継承推論」のアプローチと成果について述べる。
本稿では,Low-Rank Adaptation (LoRA) を用いて Fanar-1-9B 因果言語モデルを微調整し,それをRetrieval-Augmented Generation (RAG) パイプラインに統合した。
本システムでは,相続シナリオの解釈,相続者の特定,固定共有ルールの適用,正確な計算など,イスラーム継承法の複雑さに対処する。
最終試験では, GPT 4.5, LLaMA, Fanar, Mistral, ALLaMなどの競合モデルよりも0.858の精度を達成した。
以上の結果から,QU-NLPは最先端の精度(85.8%)を達成し,特にGemini 2.5とOpenAIのo3を上回った高度な推論(97.6%)に優れていた。
このことは、ドメイン固有の微調整と検索基盤を組み合わせることで、中規模のアラビア語のLLMがイスラム継承推論におけるフロンティアモデルを上回ることができることを強調している。
関連論文リスト
- IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions [1.3052252174353483]
ISLegalBenchは、イスラム法学の7つの学派でLSMを評価する最初のベンチマークである。
最良のモデルは68%の正しさしか達成せず、幻覚は21%である。
ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。
論文 参考訳(メタデータ) (2026-02-02T10:30:59Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - FARSIQA: Faithful and Advanced RAG System for Islamic Question Answering [0.0]
本稿では,ペルシア・イスラム領域におけるFARSIQAの導入について紹介する。
FARSIQAは、我々の革新的なFAIR-RAGアーキテクチャの上に構築されています。
論文 参考訳(メタデータ) (2025-10-29T15:25:34Z) - Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation [0.17592522344393483]
o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。
モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
論文 参考訳(メタデータ) (2025-09-01T03:08:10Z) - CVPD at QIAS 2025 Shared Task: An Efficient Encoder-Based Approach for Islamic Inheritance Reasoning [6.5255476646093316]
イスラーム継承法(Ilm al-Mawarith)は、相続人の正確な識別と株式の計算を必要とする。
本稿では,アラビア文字エンコーダとアテンテーティブ・レバレンス・スコーリング(ARS)を用いた継承問題解決フレームワークを提案する。
このシステムは、意味的関連性に応じて回答オプションをランク付けし、生成的推論なしで高速でデバイス上の推論を可能にする。
論文 参考訳(メタデータ) (2025-08-30T11:03:54Z) - Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases [1.3521447196536418]
イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。
大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。
本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
論文 参考訳(メタデータ) (2025-08-13T10:37:58Z) - MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions [1.1883838320818292]
大規模言語モデル(LLM)は、候補スクリーニングの合理化を約束するが、精度とアルゴリズムバイアスに関する深刻な懸念も引き起こす。
いくつかの最先端の基盤的LCMをベンチマークし、ジョブ候補マッチングのためのドメイン固有の採用モデル(Match Score)と比較する。
実験の結果,Match Score は汎用 LLM よりも精度(ROC AUC 0.85 対 0.77 )が優れており,人口集団間でより公平な結果が得られた。
論文 参考訳(メタデータ) (2025-07-02T19:02:18Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。