論文の概要: Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains
- arxiv url: http://arxiv.org/abs/2501.14431v1
- Date: Fri, 24 Jan 2025 11:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:15.933770
- Title: Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains
- Title(参考訳): Domaino1s: 高速ドメインにおける説明可能な回答のためのLLM推論のガイド
- Authors: Xu Chu, Zhijie Tan, Hanlin Xue, Guanyu Wang, Tong Mo, Weiping Li,
- Abstract要約: この作業では、ドメインタスクに対する大きな言語モデルの推論機能を強化するDomain$o1$sを導入している。
ドメイン固有の推論ステップを活性化する微調整モデルのために,CoT-stock-2kおよびCoT-legal-2kデータセットを構築した。
また、ドメインモデルの説明可能性を評価するための新しい指標であるPROOF-Scoreを導入し、よりリッチな評価次元で従来の精度メトリクスを補完する。
- 参考スコア(独自算出の注目度): 14.616349263738677
- License:
- Abstract: Large Language Models (LLMs) are widely applied to downstream domains. However, current LLMs for high-stakes domain tasks, such as financial investment and legal QA, typically generate brief answers without reasoning processes and explanations. This limits users' confidence in making decisions based on their responses. While original CoT shows promise, it lacks self-correction mechanisms during reasoning. This work introduces Domain$o1$s, which enhances LLMs' reasoning capabilities on domain tasks through supervised fine-tuning and tree search. We construct CoT-stock-2k and CoT-legal-2k datasets for fine-tuning models that activate domain-specific reasoning steps based on their judgment. Additionally, we propose Selective Tree Exploration to spontaneously explore solution spaces and sample optimal reasoning paths to improve performance. We also introduce PROOF-Score, a new metric for evaluating domain models' explainability, complementing traditional accuracy metrics with richer assessment dimensions. Extensive experiments on stock investment recommendation and legal reasoning QA tasks demonstrate Domaino1s's leading performance and explainability. Our code is available at https://anonymous.4open.science/r/Domaino1s-006F/.
- Abstract(参考訳): 大規模言語モデル(LLM)は下流領域に広く適用されている。
しかしながら、金融投資や法定QAのような高額なドメインタスクのための現在のLLMは、推論プロセスや説明なしに簡単な回答を生成するのが一般的である。
これにより、ユーザの反応に基づいた意思決定に対する信頼性が制限される。
オリジナルのCoTは将来性を示すが、推論中に自己補正機構が欠如している。
この作業では、教師付き微調整とツリー検索を通じて、LLMのドメインタスク推論能力を向上するDomain$o1$sを導入している。
我々は,その判断に基づいてドメイン固有の推論ステップを活性化する微調整モデルのために,CoT-stock-2kおよびCoT-legal-2kデータセットを構築した。
さらに,自然に解空間を探索する選択木探索と,性能向上のための最適推論経路の標本化を提案する。
また、ドメインモデルの説明可能性を評価するための新しい指標であるPROOF-Scoreを導入し、よりリッチな評価次元で従来の精度メトリクスを補完する。
株式投資レコメンデーションと法的推論QAタスクに関する大規模な実験は、Domaino1sのリードパフォーマンスと説明可能性を示している。
私たちのコードはhttps://anonymous.4open.science/r/Domaino1s-006F/で利用可能です。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - ACPBench: Reasoning about Action, Change, and Planning [22.47015814897628]
ACPBenchは、計画分野における推論タスクを評価するためのベンチマークである。
このコレクションは、形式言語で記述されたプランニングドメインから構築されている。
論文 参考訳(メタデータ) (2024-10-08T03:48:57Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。
本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-16T09:29:50Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Empower Large Language Model to Perform Better on Industrial
Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。
しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。
私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文 参考訳(メタデータ) (2023-05-19T09:23:25Z) - Domain Balancing: Face Recognition on Long-Tailed Domains [49.4688709764188]
本稿では,長期領域分散問題を扱うための新しいドメインバランス機構を提案する。
本稿では、まず、サンプルがヘッドドメインかテールドメインであるかを判断するために、ドメイン周波数指標(DFI)を提案する。
第2に、DFIに応じてネットワークを調整することにより、領域分布のバランスをとるために、軽量な残留バランスマッピング(RBM)ブロックを定式化する。
最後に、損失関数におけるドメインバランスマージン(DBM)を提案し、テール領域の特徴空間をさらに最適化し、一般化を改善する。
論文 参考訳(メタデータ) (2020-03-30T20:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。