論文の概要: AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output
- arxiv url: http://arxiv.org/abs/2506.02372v1
- Date: Tue, 03 Jun 2025 02:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.199061
- Title: AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output
- Title(参考訳): AnswerCarefully:日本のLLM出力の安全性向上のためのデータセット
- Authors: Hisami Suzuki, Satoru Katsumata, Takashi Kodama, Tetsuro Takahashi, Kouta Nakayama, Satoshi Sekine,
- Abstract要約: 本稿では,日本のLLM出力の安全性と適切性を促進するデータセットAnswerCarefullyを提案する。
データセットは1,800対の質問と参照された回答で構成されており、回答には特別な注意が必要である。
このデータセットを用いて日本語LLMを微調整することで,一般応答の有用性を損なうことなく,出力安全性が向上したことを示す。
- 参考スコア(独自算出の注目度): 5.89796352937863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present AnswerCarefully, a dataset for promoting the safety and appropriateness of Japanese LLM outputs. The dataset consists of 1,800 pairs of questions and reference answers, where the questions require special attention in answering. It covers a wide range of risk categories established in prior English-language datasets, but the data samples are original in that they are manually created to reflect the socio-cultural context of LLM usage in Japan. We show that using this dataset for instruction to fine-tune a Japanese LLM led to improved output safety without compromising the utility of general responses. We also report the results of a safety evaluation of 12 Japanese LLMs using this dataset as a benchmark. Finally, we describe the latest update on the dataset which provides English translations and annotations of the questions, aimed at facilitating the derivation of similar datasets in different languages and regions.
- Abstract(参考訳): 本稿では,日本のLLM出力の安全性と適切性を促進するデータセットAnswerCarefullyを提案する。
データセットは1,800対の質問と参照された回答で構成されており、回答には特別な注意が必要である。
従来の英語データセットで確立された幅広いリスクカテゴリを網羅するが、これらのデータサンプルは日本のLCM利用の社会的・文化的文脈を反映して手作業で作成されるという点で独創的である。
このデータセットを用いて日本語LLMを微調整することで,一般応答の有用性を損なうことなく,出力安全性が向上したことを示す。
また,本データセットをベンチマークとして,12種類のLLMの安全性評価結果について報告する。
最後に、さまざまな言語や地域で類似したデータセットの導出を容易にすることを目的とした、質問の英語翻訳とアノテーションを提供するデータセットの最新アップデートについて説明する。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety [27.843894102000608]
我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語および自然主義データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
論文 参考訳(メタデータ) (2024-04-08T10:57:25Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large
Language Models and its Methodology [4.396516562723691]
本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。
その結果,このデータセットはLLMにとって有益である可能性が示唆された。
しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。
論文 参考訳(メタデータ) (2023-05-22T04:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。