論文の概要: Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain
- arxiv url: http://arxiv.org/abs/2309.04198v3
- Date: Fri, 23 Feb 2024 11:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:07:33.665603
- Title: Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain
- Title(参考訳): 民営化にともなうllmの二重論理能力を無視するな:医療領域におけるデータ集約分析
- Authors: Yanrui Du, Sendong Zhao, Muzhen Cai, Ming Ma, Danyang Zhao, Jiawei
Cao, Bing Qin
- Abstract要約: 本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
- 参考スコア(独自算出の注目度): 19.46334739319516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive studies have been devoted to privatizing general-domain Large
Language Models (LLMs) as Domain-Specific LLMs via feeding specific-domain
data. However, these privatization efforts often ignored a critical aspect:
Dual Logic Ability, which is a core reasoning ability for LLMs. The dual logic
ability of LLMs ensures that they can maintain a consistent stance when
confronted with both positive and negative statements about the same fact. Our
study focuses on how the dual logic ability of LLMs is affected during the
privatization process in the medical domain. We conduct several experiments to
analyze the dual logic ability of LLMs by examining the consistency of the
stance in responses to paired questions about the same fact. In our
experiments, interestingly, we observed a significant decrease in the dual
logic ability of existing LLMs after privatization. Besides, our results
indicate that incorporating general domain dual logic data into LLMs not only
enhances LLMs' dual logic ability but also further improves their accuracy.
These findings underscore the importance of prioritizing LLMs' dual logic
ability during the privatization process. Our study establishes a benchmark for
future research aimed at exploring LLMs' dual logic ability during the
privatization process and offers valuable guidance for privatization efforts in
real-world applications.
- Abstract(参考訳): 汎用言語モデル(LLM)を特定のドメインデータを供給することによって、ドメイン特化LSMとして民営化する研究が盛んである。
しかし、これらの民営化の取り組みは、LLMの中核的な推論能力であるデュアル論理能力(Dual Logic Ability)という重要な側面をしばしば無視した。
llmsの双対論理能力は、同じ事実について正と負の両方のステートメントと向き合うとき、一貫したスタンスを維持することを保証する。
本研究は, LLMの二重論理能力が医療領域の民営化過程にどう影響するかに焦点を当てた。
同じ事実に対するペア質問に対する反応における姿勢の一貫性について検討し,llmの二重論理能力を解析するための実験を行った。
興味深いことに、我々は民営化後の既存のLLMの二重論理能力の大幅な低下を観察した。
さらに, LLMに汎用ドメイン二重論理データを組み込むことにより, LLMの二重論理能力を向上するだけでなく, その精度も向上することを示す。
これらの結果は,民営化過程におけるLLMの二重論理能力の優先順位付けの重要性を浮き彫りにした。
本研究は,LLMの民営化過程における二重論理能力の探索を目的とした将来の研究のためのベンチマークを構築し,実世界のアプリケーションにおける民営化の取り組みに関する貴重なガイダンスを提供する。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via
Game-Theoretic Evaluations [91.30799663654965]
本稿では,ボードゲームやカードゲームなどのゲーム理論タスクを通じて,競争環境における大規模言語モデルの推論能力を評価する。
GTBenchは、広く認識されている10のタスクを包括的ゲーム分類によって構成する言語駆動型環境である。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。