論文の概要: Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07858v1
- Date: Tue, 12 Nov 2024 15:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:15.900842
- Title: Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models
- Title(参考訳): Verbosity $\neq$ Veracity:Demystify Verbosity Compensation Behavior of Large Language Models
- Authors: Yusen Zhang, Sarkar Snigdha Sarathi Das, Rui Zhang,
- Abstract要約: 本稿では,Verbosity Compensationの定義と分析を行う。
VCはユーザーの理解を混乱させ、効率を低下させるため有害である。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.846200844870767
- License:
- Abstract: When unsure about an answer, humans often respond with more words than necessary, hoping that part of the response will be correct. We observe a similar behavior in large language models (LLMs), which we term "Verbosity Compensation" (VC). VC is harmful because it confuses the user understanding, leading to low efficiency, and influences the LLM services by increasing the latency and cost of generating useless tokens. In this paper, we present the first work that defines and analyzes Verbosity Compensation, explores its causes, and proposes a simple mitigating approach. We define Verbosity Compensation as the behavior of generating responses that can be compressed without information loss when prompted to write concisely. Our experiments, conducted on five datasets of knowledge and reasoning-based QA tasks with 14 newly developed LLMs, reveal three conclusions. 1) We reveal a pervasive presence of verbosity compensation across all models and all datasets. Notably, GPT-4 exhibits a VC frequency of 50.40%. 2) We reveal the large performance gap between verbose and concise responses, with a notable difference of 27.61% on the Qasper dataset. We also demonstrate that this difference does not naturally diminish as LLM capability increases. Both 1) and 2) highlight the urgent need to mitigate the frequency of VC behavior and disentangle verbosity with veracity. We propose a simple yet effective cascade algorithm that replaces the verbose responses with the other model-generated responses. The results show that our approach effectively alleviates the VC of the Mistral model from 63.81% to 16.16% on the Qasper dataset. 3) We also find that verbose responses exhibit higher uncertainty across all five datasets, suggesting a strong connection between verbosity and model uncertainty. Our dataset and code are available at https://github.com/psunlpgroup/VerbosityLLM.
- Abstract(参考訳): 答えがわからない場合、人間は必要以上に多くの言葉で反応し、応答の一部が正しいことを期待する。
我々は,大規模言語モデル (LLM) でも同様な振る舞いを観察し,これをVC (Verbosity Compensation) と呼ぶ。
VCはユーザの理解を混乱させ、効率を低下させ、無駄なトークンを生成するレイテンシとコストを増大させることでLLMサービスに影響を与えるため、有害である。
本稿では,Verbosity Compensationを定義し解析し,その原因を探究し,簡単な緩和手法を提案する。
我々はVerbosity Compensationを,簡潔に書き込むように促された情報損失を伴わずに圧縮できる応答を生成する行動として定義する。
新たに14個のLSMを用いて5つの知識と推論に基づくQAタスクのデータセットを用いて実験を行ったところ,3つの結論が得られた。
1)全モデルおよび全データセットに多岐にわたる冗長性補償の存在を明らかにする。
特に、GPT-4のVC周波数は50.40%である。
2) Qasperデータセットでは, 冗長応答と簡潔応答の差が大きく, 顕著な差は27.61%であった。
また,LLM能力の増大に伴い,この差は自然に減少しないことを示した。
両方
1)と
2)VCの行動の頻度を減らし、正確さで冗長性を乱す緊急の必要性を強調します。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
その結果、我々の手法は、Qasperデータセットにおいて、MistralモデルのVCを63.81%から16.16%に効果的に緩和することを示した。
3) 冗長応答は5つのデータセットにまたがって高い不確実性を示し, 冗長性とモデルの不確実性との間に強い関係があることが示唆された。
私たちのデータセットとコードはhttps://github.com/psunlpgroup/VerbosityLLM.orgで公開されています。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Explanation-based Finetuning Makes Models More Robust to Spurious Cues [21.327036110196637]
大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
論文 参考訳(メタデータ) (2023-05-08T18:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。