論文の概要: Is Micro Domain-Adaptive Pre-Training Effective for Real-World Operations? Multi-Step Evaluation Reveals Potential and Bottlenecks
- arxiv url: http://arxiv.org/abs/2602.04466v1
- Date: Wed, 04 Feb 2026 11:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.512042
- Title: Is Micro Domain-Adaptive Pre-Training Effective for Real-World Operations? Multi-Step Evaluation Reveals Potential and Bottlenecks
- Title(参考訳): マイクロドメイン適応型プレトレーニングは実世界の運用に有効か?
- Authors: Masaya Tsunokake, Yuta Koreeda, Terufumi Morishita, Koichi Nagatsuka, Hikaru Tomonari, Yasuhiro Sogawa,
- Abstract要約: 前回の研究では、ドキュメントが少ないマイクロドメイン適応型事前学習(textbfmDAPT$)が、より大きなドメインでのDAPTと同様、効果的であることを示した。
生成タスクにおけるmDAPTの可能性とボトルネックを明らかにすることを目的としている。
我々はmDAPTをIT技術支援業務における現実の質問に対する独占的なIT製品知識について検証した。
- 参考スコア(独自算出の注目度): 9.162332241312997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When applying LLMs to real-world enterprise operations, LLMs need to handle proprietary knowledge in small domains of specific operations ($\textbf{micro domains}$). A previous study shows micro domain-adaptive pre-training ($\textbf{mDAPT}$) with fewer documents is effective, similarly to DAPT in larger domains. However, it evaluates mDAPT only on multiple-choice questions; thus, its effectiveness for generative tasks in real-world operations remains unknown. We aim to reveal the potential and bottlenecks of mDAPT for generative tasks. To this end, we disentangle the answering process into three subtasks and evaluate the performance of each subtask: (1) $\textbf{eliciting}$ facts relevant to questions from an LLM's own knowledge, (2) $\textbf{reasoning}$ over the facts to obtain conclusions, and (3) $\textbf{composing}$ long-form answers based on the conclusions. We verified mDAPT on proprietary IT product knowledge for real-world questions in IT technical support operations. As a result, mDAPT resolved the elicitation task that the base model struggled with but did not resolve other subtasks. This clarifies mDAPT's effectiveness in the knowledge aspect and its bottlenecks in other aspects. Further analysis empirically shows that resolving the elicitation and reasoning tasks ensures sufficient performance (over 90%), emphasizing the need to enhance reasoning capability.
- Abstract(参考訳): LLMを実世界のエンタープライズオペレーションに適用するには、特定のオペレーションの小さなドメイン($\textbf{micro domain}$)でプロプライエタリな知識を扱う必要がある。
前回の研究では、ドキュメントが少ないマイクロドメイン適応型事前トレーニング($\textbf{mDAPT}$)が有効であることが示されている。
しかし,mDAPTは複数項目の質問に対してのみ評価されるため,実世界の操作における生成タスクの有効性は分かっていない。
生成タスクにおけるmDAPTの可能性とボトルネックを明らかにすることを目的としている。
この目的のために,回答処理を3つのサブタスクに分解し,各サブタスクのパフォーマンスを評価する。(1)$\textbf{eliciting}$事実,(2)$\textbf{reasoning}$事実に対して結論を得る,(3)$\textbf{composing}$ロングフォーム回答。
我々はmDAPTをIT技術支援業務における現実の質問に対する独占的なIT製品知識について検証した。
結果として、mDAPTは、ベースモデルが苦労したが他のサブタスクを解決しなかった、引き起こしタスクを解決した。
このことは、知識面におけるmDAPTの有効性と、他の面におけるボトルネックを明らかにする。
さらなる分析は、引用と推論タスクの解決が十分な性能(90%以上)を保証することを実証的に示し、推論能力を高める必要性を強調している。
関連論文リスト
- Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Equitable Multi-task Learning [18.65048321820911]
マルチタスク学習(MTL)は、CV、NLP、IRといった様々な研究領域で大きな成功を収めている。
本稿では,EMTLという新しいマルチタスク最適化手法を提案する。
本手法は,2つの研究領域の公開ベンチマークデータセットにおいて,最先端の手法よりも安定して性能を向上する。
論文 参考訳(メタデータ) (2023-06-15T03:37:23Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - When Giant Language Brains Just Aren't Enough! Domain Pizzazz with
Knowledge Sparkle Dust [15.484175299150904]
本稿では,大規模言語モデルの実践的ユースケースへの適応におけるギャップを埋めることを目的とした経験的分析を提案する。
本研究は, 推論の課題によるケーススタディとして, 保険の質問応答(QA)タスクを選択する。
本課題に基づいて,保険政策ルールブックやDBPediaから抽出した付加的な知識により,LLMに依存した新たなモデルを設計する。
論文 参考訳(メタデータ) (2023-05-12T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。