Fugu-MT 論文翻訳(概要): Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering?

論文の概要: Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering?

arxiv url: http://arxiv.org/abs/2507.09638v1
Date: Sun, 13 Jul 2025 14:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 18:48:23.665241
Title: Can Group Relative Policy Optimization Improve Thai Legal Reasoning and Question Answering?
Title（参考訳）: グループ相対政策最適化はタイの法的推論と質問応答を改善するか?
Authors: Pawitsapak Akarajaradwong, Chompakorn Chaksangchaichot, Pirat Pothavorn, Attapol Thamrongrattanarit-Rutherford, Ekapol Chuangsuwanich, Sarana Nutanong,
Abstract要約: 本稿では,タイの法的な質問応答システムと,法的な引用精度の向上と応答品質の向上を両立させるアプローチを提案する。提案手法は,BGE-M3埋め込みをコスト効率の良いセマンティック・類似性報酬として活用する。 NitiBenchベンチマークの実験では、大幅な改善が示されている。
参考スコア（独自算出の注目度）: 7.42457277619017
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The Retrieval-Augmented Generation (RAG) systems' performance on Thai legal question answering is still limited, especially for questions requiring extensive, complex legal reasoning. To address these limitations, we introduce an approach aligning LLMs toward improved law citation accuracy and better response quality using Group-Relative Policy Optimization (GRPO). Our approach leverages BGE-M3 embeddings as a cost-efficient semantic-similarity reward, significantly reducing computational expenses up to 2.5x compared to large language model judges. Experiments on the NitiBench benchmark demonstrate substantial improvements: GRPO achieves up to 90% citation-F1 gains from the base model and a 31% increase in joint quality metrics over instruction tuning. Crucially, our method shows enhanced robustness on complex legal reasoning tasks compared to instruction tuning, providing an effective and resource-efficient solution for enhancing Thai legal LLMs.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)システムによるタイの法的な質問応答のパフォーマンスはまだ限られている。これらの制約に対処するため,グループ相対政策最適化(GRPO)を用いた法引用精度の向上と応答品質の向上に向けたLLMの整合化手法を提案する。提案手法では,BGE-M3埋め込みをコスト効率のよいセマンティック・類似性報酬として活用し,大規模言語モデル判事と比較して計算コストを最大2.5倍に削減する。 NitiBenchベンチマークの実験では、GRPOはベースモデルから最大90%の引用-F1ゲインを獲得し、命令チューニングよりも31%のジョイント品質指標が向上した。提案手法は, タイの法的LLMの強化に有効な, 資源効率の高いソリューションを提供することにより, 複雑な法的推論タスクの堅牢性の向上を図っている。

関連論文リスト

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文参考訳（メタデータ） (2025-05-25T06:41:28Z)
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文参考訳（メタデータ） (2025-05-24T18:58:51Z)
AUTOLAW: Enhancing Legal Compliance in Large Language Models via Case Law Generation and Jury-Inspired Deliberation [5.732271982985626]
AutoLawは、ドメイン固有の大規模言語モデル(LLM)のための新しい違反検出フレームワークである。 LLMの法的コンプライアンスを強化するために、敵対的なデータ生成と陪審に触発された審議プロセスを組み合わせる。本研究は, 法的不一致を適応的に調査し, 信頼性の高い文脈対応の判断を下すフレームワークの能力を強調した。
論文参考訳（メタデータ） (2025-05-20T07:09:13Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering [4.61348190872483]
本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文参考訳（メタデータ） (2025-02-15T17:52:14Z)
Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。 AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文参考訳（メタデータ） (2024-12-09T07:46:14Z)
Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文参考訳（メタデータ） (2024-10-08T05:26:28Z)
Enabling Discriminative Reasoning in LLMs for Legal Judgment Prediction [23.046342240176575]
人間の推論に触発されたAsk-Discriminate-Predict(ADAPT)推論フレームワークを紹介する。 ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。広く利用されている2つのデータセットに対して行われた実験は、法的な判断予測において、我々のフレームワークの優れた性能を示す。
論文参考訳（メタデータ） (2024-07-02T05:43:15Z)
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文参考訳（メタデータ） (2023-06-12T12:40:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。