論文の概要: CVPD at QIAS 2025 Shared Task: An Efficient Encoder-Based Approach for Islamic Inheritance Reasoning
- arxiv url: http://arxiv.org/abs/2509.00457v2
- Date: Fri, 05 Sep 2025 20:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.894804
- Title: CVPD at QIAS 2025 Shared Task: An Efficient Encoder-Based Approach for Islamic Inheritance Reasoning
- Title(参考訳): CVPD on QIAS 2025 Shared Task: An Efficient Encoder-based Approach for Islamic Inheritance Reasoning
- Authors: Salah Eddine Bekhouche, Abdellah Zakaria Sellam, Hichem Telli, Cosimo Distante, Abdenour Hadid,
- Abstract要約: イスラーム継承法(Ilm al-Mawarith)は、相続人の正確な識別と株式の計算を必要とする。
本稿では,アラビア文字エンコーダとアテンテーティブ・レバレンス・スコーリング(ARS)を用いた継承問題解決フレームワークを提案する。
このシステムは、意味的関連性に応じて回答オプションをランク付けし、生成的推論なしで高速でデバイス上の推論を可能にする。
- 参考スコア(独自算出の注目度): 6.5255476646093316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Islamic inheritance law (Ilm al-Mawarith) requires precise identification of heirs and calculation of shares, which poses a challenge for AI. In this paper, we present a lightweight framework for solving multiple-choice inheritance questions using a specialised Arabic text encoder and Attentive Relevance Scoring (ARS). The system ranks answer options according to semantic relevance, and enables fast, on-device inference without generative reasoning. We evaluate Arabic encoders (MARBERT, ArabicBERT, AraBERT) and compare them with API-based LLMs (Gemini, DeepSeek) on the QIAS 2025 dataset. While large models achieve an accuracy of up to 87.6%, they require more resources and are context-dependent. Our MARBERT-based approach achieves 69.87% accuracy, presenting a compelling case for efficiency, on-device deployability, and privacy. While this is lower than the 87.6% achieved by the best-performing LLM, our work quantifies a critical trade-off between the peak performance of large models and the practical advantages of smaller, specialized systems in high-stakes domains.
- Abstract(参考訳): イスラーム継承法(Ilm al-Mawarith)は、相続人の正確な識別と株式の計算を必要としており、AIの課題となっている。
本稿では,アラビア文字エンコーダとAttentive Relevance Scoring(ARS)を用いて,複数選択継承問題を解決するための軽量フレームワークを提案する。
このシステムは、意味的関連性に応じて回答オプションをランク付けし、生成的推論なしで高速でデバイス上の推論を可能にする。
アラビアエンコーダ (MARBERT, ArabicBERT, AraBERT) を評価し, QIAS 2025 データセット上の API ベースの LLM (Gemini, DeepSeek) と比較した。
大きなモデルは87.6%の精度を達成するが、より多くのリソースを必要とし、文脈に依存している。
私たちのMARBERTベースのアプローチは69.87%の精度を実現し、効率性、デバイス上のデプロイ性、プライバシに関する魅力的なケースを提示しています。
LLMが達成した87.6%よりも低いが,我々の研究は,大規模モデルのピーク性能と,大規模領域におけるより小型で専門的なシステムの実用的優位性との間の重要なトレードオフを定量化している。
関連論文リスト
- Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective [3.2771631221674333]
トレーニング、生成、スコアリングフェーズを通じて、タスク固有のデータ拡張を活用します。
深度優先探索アルゴリズムを用いて多種多様な高確率候補解を生成する。
本手法はパブリックARC-AGI評価セットにおいて71.6%(286.5/400タスク)のスコアを得る。
論文 参考訳(メタデータ) (2025-05-08T11:17:10Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。
ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。
英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文 参考訳(メタデータ) (2025-01-27T21:30:02Z) - Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。
LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。
本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-15T11:32:35Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。