論文の概要: Large Language Models Often Say One Thing and Do Another
- arxiv url: http://arxiv.org/abs/2503.07003v1
- Date: Mon, 10 Mar 2025 07:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:56.232740
- Title: Large Language Models Often Say One Thing and Do Another
- Title(参考訳): 大規模言語モデルは、しばしば1つのことを言い、もう1つのことをする
- Authors: Ruoxi Xu, Hongyu Lin, Xianpei Han, Jia Zheng, Weixiang Zhou, Le Sun, Yingfei Sun,
- Abstract要約: 我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
- 参考スコア(独自算出の注目度): 49.22262396351797
- License:
- Abstract: As large language models (LLMs) increasingly become central to various applications and interact with diverse user populations, ensuring their reliable and consistent performance is becoming more important. This paper explores a critical issue in assessing the reliability of LLMs: the consistency between their words and deeds. To quantitatively explore this consistency, we developed a novel evaluation benchmark called the Words and Deeds Consistency Test (WDCT). The benchmark establishes a strict correspondence between word-based and deed-based questions across different domains, including opinion vs. action, non-ethical value vs. action, ethical value vs. action, and theory vs. application. The evaluation results reveal a widespread inconsistency between words and deeds across different LLMs and domains. Subsequently, we conducted experiments with either word alignment or deed alignment to observe their impact on the other aspect. The experimental results indicate that alignment only on words or deeds poorly and unpredictably influences the other aspect. This supports our hypothesis that the underlying knowledge guiding LLMs' word or deed choices is not contained within a unified space.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なアプリケーションの中心となり、多様なユーザ集団と相互作用するようになり、信頼性と一貫したパフォーマンスの確保がますます重要になっている。
本稿では, LLM の信頼性を評価する上で重要な課題である, 単語と行為の整合性について考察する。
この一貫性を定量的に検討するために,Words and Deeds Consistency Test (WDCT) と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、意見対アクション、非倫理的価値対アクション、倫理的価値対アクション、理論対アプリケーションなど、さまざまな領域にわたる単語ベースの質問と行為に基づく質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
その後,単語のアライメントとdeedアライメントを併用して実験を行い,その影響を観察した。
実験結果から,単語や行為のみのアライメントが,他の側面に悪影響を及ぼすことが示唆された。
このことは、LLMの言葉や行為の選択を導く基礎となる知識が統一空間に含まれていないという我々の仮説を支持している。
関連論文リスト
- Internal Consistency and Self-Feedback in Large Language Models: A Survey [19.647988281648253]
我々は、内部整合性の統一的な視点を使用し、欠陥や幻覚を推論するための説明を提供する。
自己フィードバックと呼ばれる内部一貫性をマイニングできる効果的な理論的枠組みを導入する。
論文 参考訳(メタデータ) (2024-07-19T17:59:03Z) - Experimental Pragmatics with Machines: Testing LLM Predictions for the Inferences of Plain and Embedded Disjunctions [4.753535328327316]
本研究では, 平板および埋込み接合の3つの推論に焦点をあて, 通常のスカラー不整形と比較する。
この比較を,最先端の大規模言語モデルの予測の新しい視点から検討する。
最高のパフォーマンスモデルの結果は、主に人間のものと一致しており、それらの推論と不適応の大きな違いと、それらの推論の異なる側面の微妙な区別の両方で見られます。
論文 参考訳(メタデータ) (2024-05-09T13:54:15Z) - Word Importance Explains How Prompts Affect Language Model Outputs [0.7223681457195862]
本研究では,個々の単語をインプロンプトで変化させることにより,大規模言語モデルの説明可能性を向上させる手法を提案する。
古典的注目とは違って、単語の重要度は、任意に定義されたテキストスコアに対する急進的な単語の影響を測定する。
その結果,単語の重要度スコアは,複数のスコア機能において期待される接尾辞の重要度と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2024-03-05T15:04:18Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora [14.993021283916008]
単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。
実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-13T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。