論文の概要: Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07858v1
- Date: Tue, 12 Nov 2024 15:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:15.900842
- Title: Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models
- Title(参考訳): Verbosity $\neq$ Veracity:Demystify Verbosity Compensation Behavior of Large Language Models
- Authors: Yusen Zhang, Sarkar Snigdha Sarathi Das, Rui Zhang,
- Abstract要約: 本稿では,Verbosity Compensationの定義と分析を行う。
VCはユーザーの理解を混乱させ、効率を低下させるため有害である。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.846200844870767
- License:
- Abstract: When unsure about an answer, humans often respond with more words than necessary, hoping that part of the response will be correct. We observe a similar behavior in large language models (LLMs), which we term "Verbosity Compensation" (VC). VC is harmful because it confuses the user understanding, leading to low efficiency, and influences the LLM services by increasing the latency and cost of generating useless tokens. In this paper, we present the first work that defines and analyzes Verbosity Compensation, explores its causes, and proposes a simple mitigating approach. We define Verbosity Compensation as the behavior of generating responses that can be compressed without information loss when prompted to write concisely. Our experiments, conducted on five datasets of knowledge and reasoning-based QA tasks with 14 newly developed LLMs, reveal three conclusions. 1) We reveal a pervasive presence of verbosity compensation across all models and all datasets. Notably, GPT-4 exhibits a VC frequency of 50.40%. 2) We reveal the large performance gap between verbose and concise responses, with a notable difference of 27.61% on the Qasper dataset. We also demonstrate that this difference does not naturally diminish as LLM capability increases. Both 1) and 2) highlight the urgent need to mitigate the frequency of VC behavior and disentangle verbosity with veracity. We propose a simple yet effective cascade algorithm that replaces the verbose responses with the other model-generated responses. The results show that our approach effectively alleviates the VC of the Mistral model from 63.81% to 16.16% on the Qasper dataset. 3) We also find that verbose responses exhibit higher uncertainty across all five datasets, suggesting a strong connection between verbosity and model uncertainty. Our dataset and code are available at https://github.com/psunlpgroup/VerbosityLLM.
- Abstract(参考訳): 答えがわからない場合、人間は必要以上に多くの言葉で反応し、応答の一部が正しいことを期待する。
我々は,大規模言語モデル (LLM) でも同様な振る舞いを観察し,これをVC (Verbosity Compensation) と呼ぶ。
VCはユーザの理解を混乱させ、効率を低下させ、無駄なトークンを生成するレイテンシとコストを増大させることでLLMサービスに影響を与えるため、有害である。
本稿では,Verbosity Compensationを定義し解析し,その原因を探究し,簡単な緩和手法を提案する。
我々はVerbosity Compensationを,簡潔に書き込むように促された情報損失を伴わずに圧縮できる応答を生成する行動として定義する。
新たに14個のLSMを用いて5つの知識と推論に基づくQAタスクのデータセットを用いて実験を行ったところ,3つの結論が得られた。
1)全モデルおよび全データセットに多岐にわたる冗長性補償の存在を明らかにする。
特に、GPT-4のVC周波数は50.40%である。
2) Qasperデータセットでは, 冗長応答と簡潔応答の差が大きく, 顕著な差は27.61%であった。
また,LLM能力の増大に伴い,この差は自然に減少しないことを示した。
両方
1)と
2)VCの行動の頻度を減らし、正確さで冗長性を乱す緊急の必要性を強調します。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
その結果、我々の手法は、Qasperデータセットにおいて、MistralモデルのVCを63.81%から16.16%に効果的に緩和することを示した。
3) 冗長応答は5つのデータセットにまたがって高い不確実性を示し, 冗長性とモデルの不確実性との間に強い関係があることが示唆された。
私たちのデータセットとコードはhttps://github.com/psunlpgroup/VerbosityLLM.orgで公開されています。
関連論文リスト
- Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。