Fugu-MT 論文翻訳(概要): Quantitative Assessment of Intersectional Empathetic Bias and Understanding

論文の概要: Quantitative Assessment of Intersectional Empathetic Bias and Understanding

arxiv url: http://arxiv.org/abs/2411.05777v1
Date: Fri, 08 Nov 2024 18:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.853901
Title: Quantitative Assessment of Intersectional Empathetic Bias and Understanding
Title（参考訳）: 交叉交感神経の定量的評価と理解
Authors: Vojtech Formanek, Ondrej Sotolar,
Abstract要約: 多くの文献が、構成のゆるい定義に基づいて現在の共感の運用について批判している。本稿では,その心理的起源に近い共感を運用する共感評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A growing amount of literature critiques the current operationalizations of empathy based on loose definitions of the construct. Such definitions negatively affect dataset quality, model robustness, and evaluation reliability. We propose an empathy evaluation framework that operationalizes empathy close to its psychological origins. The framework measures the variance in responses of LLMs to prompts using existing metrics for empathy and emotional valence. The variance is introduced through the controlled generation of the prompts by varying social biases affecting context understanding, thus impacting empathetic understanding. The control over generation ensures high theoretical validity of the constructs in the prompt dataset. Also, it makes high-quality translation, especially into languages that currently have little-to-no way of evaluating empathy or bias, such as the Slavonic family, more manageable. Using chosen LLMs and various prompt types, we demonstrate the empathy evaluation with the framework, including multiple-choice answers and free generation. The variance in our initial evaluation sample is small and we were unable to measure convincing differences between the empathetic understanding in contexts given by different social groups. However, the results are promising because the models showed significant alterations their reasoning chains needed to capture the relatively subtle changes in the prompts. This provides the basis for future research into the construction of the evaluation sample and statistical methods for measuring the results.
Abstract（参考訳）: 多くの文献が、構成のゆるい定義に基づいて現在の共感の運用について批判している。このような定義はデータセットの品質、モデルの堅牢性、評価信頼性に悪影響を及ぼす。本稿では,その心理的起源に近い共感を運用する共感評価フレームワークを提案する。このフレームワークは、LLMの応答のばらつきを計測し、共感と感情の原子価を既存の指標で測定する。この分散は、文脈理解に影響を与える様々な社会的バイアスによってプロンプトの制御生成を通じて導入され、共感的理解に影響を及ぼす。生成の制御により、プロンプトデータセットにおける構成物の高い理論的妥当性が保証される。また、高品質な翻訳、特にスラヴ語族のような共感や偏見を評価する方法がほとんどない言語への翻訳も、より管理しやすい。選択したLLMと様々なプロンプトタイプを用いて,複数選択の回答と自由生成を含む,フレームワークによる共感評価を実演する。初期評価サンプルの差異は小さく,異なる社会集団が与える文脈における共感的理解の説得力の違いを測定できなかった。しかし、これらのモデルでは、プロンプトの比較的微妙な変化を捉えるために必要な推論チェーンが大幅に変更されているため、結果は有望である。本研究は, 評価試料の構築に関する今後の研究の基盤と, 結果測定のための統計的手法を提供する。

関連論文リスト

Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts [10.492471013369782]
本稿では、感情を文脈に依存し、文化的に埋め込まれた構成として扱う枠組みを提案する。我々は,大言語モデル(LLM)が,ナイロビの若手健康グループからのWhatsAppメッセージの感情にどのような影響を与えるかを評価する。
論文参考訳（メタデータ） (2025-08-06T08:27:55Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [13.739343897204568]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。既存の評価手法は、LLM出力の長文応答におけるバイアスと本質的変動をしばしば見落としている。人口集団間での長文応答の微妙な意味的差異を検知し,LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiScoを提案する。
論文参考訳（メタデータ） (2025-06-23T18:31:22Z)
Prompt Sentiment: The Catalyst for LLM Change [0.29998889086656577]
本研究では,感情変化が大規模言語モデル(LLM)に与える影響を系統的に検討する。私たちの分析は、コンテンツ生成、会話型AI、法的および財務分析、ヘルスケアAI、クリエイティブライティング、および技術ドキュメントを含む、AI駆動の6つのアプリケーションにまたがる。以上の結果から,肯定的な感情はモデル反応に大きく影響し,否定的な感情は事実の精度を低下させ,バイアスを増幅する一方,肯定的な感情は冗長性や感情の伝播を増大させる傾向が示唆された。
論文参考訳（メタデータ） (2025-03-14T06:25:21Z)
Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文参考訳（メタデータ） (2025-03-10T07:34:54Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Decoding AI Judgment: How LLMs Assess News Credibility and Bias [33.7054351451505]
大規模言語モデル(LLM)は、評価プロセスを含む言語にますます組み込まれています。これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。我々は、専門家評価(NewsGuardとMedia Bias/Fact Check(MBFC))と、制御された実験を通して収集された人間の判断に対する6つのLCMをベンチマークする。
論文参考訳（メタデータ） (2025-02-06T18:52:10Z)
Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文参考訳（メタデータ） (2024-09-04T01:40:20Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文参考訳（メタデータ） (2022-10-17T08:55:26Z)
Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文参考訳（メタデータ） (2022-03-21T17:05:54Z)
Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文参考訳（メタデータ） (2022-03-16T15:00:33Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文参考訳（メタデータ） (2021-06-02T19:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。