論文の概要: Assessing LLM Response Quality in the Context of Technology-Facilitated Abuse
- arxiv url: http://arxiv.org/abs/2602.17672v1
- Date: Sun, 11 Jan 2026 19:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.486642
- Title: Assessing LLM Response Quality in the Context of Technology-Facilitated Abuse
- Title(参考訳): 技術分野におけるLCM応答品質の評価
- Authors: Vijay Prakash, Majed Almansoori, Donghan Hu, Rahul Chatterjee, Danny Yuxing Huang,
- Abstract要約: TFA(Technology-facilitated abuse)は、デジタルツールを利用して生存者をコントロール・監視・危害する親密なパートナー暴力(IPV)の一種である。
4つの大言語モデル(LLM)のエキスパート主導による手動評価について述べる。
我々は,TFAドメインに適合する基準に基づいて,サバイバルセーフティ中心のプロンプトによって生成されたゼロショットシングルターンLDM応答の質を評価する。
- 参考スコア(独自算出の注目度): 9.590490541338022
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Technology-facilitated abuse (TFA) is a pervasive form of intimate partner violence (IPV) that leverages digital tools to control, surveil, or harm survivors. While tech clinics are one of the reliable sources of support for TFA survivors, they face limitations due to staffing constraints and logistical barriers. As a result, many survivors turn to online resources for assistance. With the growing accessibility and popularity of large language models (LLMs), and increasing interest from IPV organizations, survivors may begin to consult LLM-based chatbots before seeking help from tech clinics. In this work, we present the first expert-led manual evaluation of four LLMs - two widely used general-purpose non-reasoning models and two domain-specific models designed for IPV contexts - focused on their effectiveness in responding to TFA-related questions. Using real-world questions collected from literature and online forums, we assess the quality of zero-shot single-turn LLM responses generated with a survivor safety-centered prompt on criteria tailored to the TFA domain. Additionally, we conducted a user study to evaluate the perceived actionability of these responses from the perspective of individuals who have experienced TFA. Our findings, grounded in both expert assessment and user feedback, provide insights into the current capabilities and limitations of LLMs in the TFA context and may inform the design, development, and fine-tuning of future models for this domain. We conclude with concrete recommendations to improve LLM performance for survivor support.
- Abstract(参考訳): TFA(Technology-facilitated abuse)は、デジタルツールを利用して生存者をコントロール・監視・危害する親密なパートナー暴力(IPV)の一種である。
テッククリニックは、TFA生存者の信頼できる支援源の1つだが、スタッフの制限と物流障壁のために制限に直面している。
その結果、多くの生存者は支援のためにオンラインリソースに移行した。
大型言語モデル(LLM)のアクセシビリティと人気が高まり、ITV組織からの関心が高まり、生存者はテッククリニックから助けを求める前にLSMベースのチャットボットに相談し始めるかもしれない。
本研究では、ITVコンテキスト用に設計された2つの汎用的非推論モデルと2つのドメイン固有モデルである4つのLSMのエキスパート主導による手動評価について、TFA関連質問への回答の有効性に着目した最初の手動評価を行う。
文献やオンラインフォーラムから収集した実世界の質問を用いて,TFAドメインに適合する基準に基づいて,生存者の安全中心のプロンプトによって生成されたゼロショットシングルターンLDM応答の質を評価する。
さらに,TFAを経験した個人の視点から,これらの反応の認知行動性を評価するために,ユーザスタディを行った。
専門家評価とユーザフィードバックの両面から得られた知見は、TFAコンテキストにおけるLLMの現在の能力と限界についての洞察を与え、この領域における将来のモデルの設計、開発、微調整を通知する可能性がある。
我々は、生存支援のためのLLM性能を改善するための具体的な勧告で締めくくった。
関連論文リスト
- Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs [12.162590322796435]
主権 LLM に関する世界的な議論は、政府が独自の社会文化的・歴史的文脈に合わせて LLM を開発する必要性を強調している。
主権的LLMの社会的文化的要素を抽出・評価するための分析的枠組みを提案する。
低リソース言語をサポートする上で,主権的なLLMが重要な役割を担っている一方で,これらのモデルがターゲットユーザに提供するという一般的な主張を常に満たしている訳ではない。
論文 参考訳(メタデータ) (2025-10-16T11:17:44Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation [5.4260854377259315]
そこで我々は,LLMを模擬したQuality Controlアセスメントを提案する。
この評価は2つの重要なテストから成っている。
どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
論文 参考訳(メタデータ) (2025-04-11T20:16:02Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Evaluating the Performance of Large Language Models in Scientific Claim Detection and Classification [0.0]
本研究では,Twitterのようなプラットフォーム上での誤情報を緩和する革新的な手法として,LLM(Large Language Models)の有効性を評価する。
LLMは、従来の機械学習モデルに関連する広範なトレーニングと過度に適合する問題を回避し、事前訓練された適応可能なアプローチを提供する。
特定データセットを用いたLCMの性能の比較分析を行い、公衆衛生コミュニケーションへの応用のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T05:02:26Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice [0.0]
大規模言語モデル(LLM)は非決定論的であり、誤ったあるいは有害な応答を与え、品質管理を保証するために規制できない。
提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。
不眠症治療士に対する専門的認知行動療法をブラインド形式で評価した。
論文 参考訳(メタデータ) (2024-07-23T05:00:18Z) - A critical review of methods and challenges in large language models [6.850038413666062]
大規模言語モデル(LLM)の詳細な分析について
リカレントニューラルネットワーク(RNN)からトランスフォーマーモデルへの進化を検査する。
コンテキスト内学習や様々な微調整アプローチといった最先端のテクニックを記述します。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - A Survey of Safety and Trustworthiness of Large Language Models through
the Lens of Verification and Validation [21.242078120036176]
大規模言語モデル(LLM)は、エンドユーザーと人間レベルの会話を行う能力のために、AIの新たな熱波を爆発させた。
この調査は、産業応用における安全性と信頼性に関するものである。
論文 参考訳(メタデータ) (2023-05-19T02:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。