Fugu-MT 論文翻訳(概要): FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

論文の概要: FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

arxiv url: http://arxiv.org/abs/2603.04123v1
Date: Wed, 04 Mar 2026 14:41:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.348587
Title: FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation
Title（参考訳）: FINEST: 微粒化評価による感性トピックに対するLLM応答の改善
Authors: Juhyun Oh, Nayeon Lee, Chani Jung, Jiho Jin, Junho Myung, Jongwon Lee, Taeui Song, Alice Oh,
Abstract要約: FINESTは、感性トピックのためのFINE粒度対応評価分類である。有用性と無害性は、コンテンツ、論理、適切性という3つの主要なカテゴリにまたがるエラーに分解される。韓国の感応性質問データセットの実験では、FINESTによってガイドされたスコアとエラーに基づく改善パイプラインが、モデル応答を大幅に改善することを示した。
参考スコア（独自算出の注目度）: 28.110568600225147
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) often generate overly cautious and vague responses on sensitive topics, sacrificing helpfulness for safety. Existing evaluation frameworks lack systematic methods to identify and address specific weaknesses in responses to sensitive topics, making it difficult to improve both safety and helpfulness simultaneously. To address this, we introduce FINEST, a FINE-grained response evaluation taxonomy for Sensitive Topics, which breaks down helpfulness and harmlessness into errors across three main categories: Content, Logic, and Appropriateness. Experiments on a Korean-sensitive question dataset demonstrate that our score- and error-based improvement pipeline, guided by FINEST, significantly improves the model responses across all three categories, outperforming refinement without guidance. Notably, score-based improvement -- providing category-specific scores and justifications -- yields the most significant gains, reducing the error sentence ratio for Appropriateness by up to 33.09%. This work lays the foundation for a more explainable and comprehensive evaluation and improvement of LLM responses to sensitive questions.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば、機密性の高いトピックに対して過度に慎重で曖昧な応答を生成し、安全性を犠牲にする。既存の評価フレームワークには、センシティブなトピックに対する応答の特定の弱点を特定し、対処するための体系的な方法がないため、安全性と利便性の両方を同時に改善することは困難である。これを解決するために,FINESTという,感性トピックのためのFINE粒度の応答評価分類法を導入し,有用性と無害性を3つの主要なカテゴリ(コンテンツ,論理,適切性)のエラーに分解する。韓国のセンシティブな質問データセットの実験では、FINESTが指導したスコアとエラーに基づく改善パイプラインが、3つのカテゴリのモデル応答を大幅に改善し、ガイダンスなしで改善を達成している。特に、スコアベースの改善 -- カテゴリ固有のスコアと正当化を提供する -- は、最も大きな利益をもたらし、適切性に対するエラー文比率を最大33.09%削減する。この研究は、より説明しやすく包括的なLCM応答の評価と、センシティブな質問に対する改善の基礎を築いた。

関連論文リスト

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文参考訳（メタデータ） (2025-11-19T06:46:33Z)
Transparent Reference-free Automated Evaluation of Open-Ended User Survey Responses [7.295969279816647]
オープンな調査回答は、マーケティング研究に貴重な洞察を与えます。品質の低い回答は、手動フィルタリングの研究者に負担を与えるだけでなく、誤った結論をもたらすリスクも負う。そこで本研究では,ヒトのサーベイ応答に特化して設計された2段階評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-03T08:37:33Z)
IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。 IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文参考訳（メタデータ） (2025-08-27T16:47:31Z)
Contextual Candor: Enhancing LLM Trustworthiness Through Hierarchical Unanswerability Detection [0.0]
本稿では,大規模言語モデル(LLM)のための新しいハイブリッド学習パラダイムであるReinforced Unanswerability Learning (RUL)を紹介する。 RULは、多段階学習戦略によって導かれるLLMの生成コアに、識別不能な予測ヘッドを統合する。実験は、RULの優れた性能を示し、文、段落、ランキングレベルにわたる解答不能検出において、はるかに高い精度を達成する。
論文参考訳（メタデータ） (2025-06-01T17:59:27Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文参考訳（メタデータ） (2025-02-18T03:50:06Z)
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。 RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文参考訳（メタデータ） (2024-06-17T07:52:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。