論文の概要: Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems
- arxiv url: http://arxiv.org/abs/2502.14019v1
- Date: Wed, 19 Feb 2025 18:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:13.883404
- Title: Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems
- Title(参考訳): 非人間化機械:テキスト生成システムにおける擬人化行動の緩和
- Authors: Myra Cheng, Su Lin Blodgett, Alicia DeVrio, Lisa Egede, Alexandra Olteanu,
- Abstract要約: このようなシステムアウトプットにどのように介入すれば人為的行動が緩和され、その付随する有害な結果が未検討のままである。
我々は,先行研究とクラウドソース研究の両方に根ざした介入の目録を整理し,参加者がシステム出力を編集し,人間らしくないようにした。
- 参考スコア(独自算出の注目度): 55.99010491370177
- License:
- Abstract: As text generation systems' outputs are increasingly anthropomorphic -- perceived as human-like -- scholars have also raised increasing concerns about how such outputs can lead to harmful outcomes, such as users over-relying or developing emotional dependence on these systems. How to intervene on such system outputs to mitigate anthropomorphic behaviors and their attendant harmful outcomes, however, remains understudied. With this work, we aim to provide empirical and theoretical grounding for developing such interventions. To do so, we compile an inventory of interventions grounded both in prior literature and a crowdsourced study where participants edited system outputs to make them less human-like. Drawing on this inventory, we also develop a conceptual framework to help characterize the landscape of possible interventions, articulate distinctions between different types of interventions, and provide a theoretical basis for evaluating the effectiveness of different interventions.
- Abstract(参考訳): テキスト生成システムのアウトプットが人為的になるにつれて、研究者らは、そのようなアウトプットが、ユーザーが過度にリライスしたり、これらのシステムへの感情的依存を発達させたりといった有害な結果をもたらすのではないかという懸念も高まっている。
しかし、このようなシステムのアウトプットに介入する方法は、人為的行動とその付随する有害な成果を緩和するものである。
本研究は,このような介入を開発するための実証的,理論的根拠を提供することを目的としている。
そこで我々は,先行研究とクラウドソース研究の両方に根ざした介入の在庫を整理し,参加者がシステム出力を編集し,人間らしくないようにした。
この目録に基づいて、我々はまた、可能な介入の景観を特徴づけ、異なる種類の介入の区別を明確にし、異なる介入の有効性を評価するための理論的基盤を提供するための概念的枠組みも開発している。
関連論文リスト
- Investigating social alignment via mirroring in a system of interacting language models [16.304359423423648]
マルチエージェントシステムにおけるミラーリングがアライメントに及ぼす影響について検討する。
このフレームワークで大規模言語モデルと対話するシステムをシミュレートする。
システム行動は各エージェントの通信範囲に強く影響されている。
論文 参考訳(メタデータ) (2024-12-07T02:19:57Z) - Generative Intervention Models for Causal Perturbation Modeling [80.72074987374141]
多くの応用において、システムのメカニズムが外部の摂動によって変更されるかは未定である。
本稿では、これらの摂動特徴を原子間干渉による分布にマッピングする方法を学習する生成的介入モデル(GIM)を提案する。
論文 参考訳(メタデータ) (2024-11-21T10:37:57Z) - Estimating Causal Effects of Text Interventions Leveraging LLMs [7.2937547395453315]
本稿では,大規模言語モデル(LLM)により促進されるテキスト変換を用いて因果効果を推定する手法を提案する。
既存の手法とは異なり、本手法は任意のテキスト介入に対応し、ドメイン適応能力を持つテキストレベル分類器を用いて、ドメインシフトに対するロバストな効果推定を生成する。
この様々なテキスト介入を扱う柔軟性は、テキストデータの因果推定において重要な進歩であり、人間の振る舞いをよりよく理解し、社会システム内で効果的なポリシーを開発する機会を提供する。
論文 参考訳(メタデータ) (2024-10-28T19:19:35Z) - Composable Interventions for Language Models [60.32695044723103]
言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。
しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。
複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文 参考訳(メタデータ) (2024-07-09T01:17:44Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Expanding the Role of Affective Phenomena in Multimodal Interaction
Research [57.069159905961214]
マルチモーダルインタラクション, 感情計算, 自然言語処理において, 選ばれたカンファレンスから16,000以上の論文を調査した。
本論文では,感情関連論文910を同定し,情緒現象の役割について分析した。
我々は、人間の社会的行動や認知状態の機械的理解を高めるために、AIシステムによって感情と感情の予測がどのように使用されるかについて、限られた研究結果を得た。
論文 参考訳(メタデータ) (2023-05-18T09:08:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。
Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文 参考訳(メタデータ) (2021-04-07T06:18:58Z) - Understanding the Effect of Out-of-distribution Examples and Interactive
Explanations on Human-AI Decision Making [19.157591744997355]
典型的な実験的なセットアップは、人間-AIチームの可能性を制限します。
インタラクティブな説明を支援する新しいインターフェースを開発し、人間がAI支援に積極的に取り組みます。
論文 参考訳(メタデータ) (2021-01-13T19:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。