Fugu-MT 論文翻訳(概要): SS-Bench: A Benchmark for Social Story Generation and Evaluation

論文の概要: SS-Bench: A Benchmark for Social Story Generation and Evaluation

arxiv url: http://arxiv.org/abs/2406.15695v1
Date: Sat, 22 Jun 2024 00:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 21:04:37.150207
Title: SS-Bench: A Benchmark for Social Story Generation and Evaluation
Title（参考訳）: SS-Bench: ソーシャルストーリーの生成と評価のためのベンチマーク
Authors: Yi Feng, Mingyang Song, Jiaqi Wang, Mao Zheng, Liping Jing, Jian Yu,
Abstract要約: 自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。ソーシャルストーリーは創造に費やされ、しばしば多様性とタイムラインに制限される。ソーシャルストーリーを生成し評価するためのtextbfSocial textbfStory textbfBenchmark である textbfSS-Bench を提案する。
参考スコア（独自算出の注目度）: 53.39177041545863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Children with Autism Spectrum Disorder (ASD) often misunderstand social situations and struggle to participate in daily routines. Psychology experts write Social Stories under strict constraints of structural clarity, descriptive orientation, and situational safety to enhance their abilities in these regimes. However, Social Stories are costly in creation and often limited in diversity and timeliness. As Large Language Models (LLMs) become increasingly powerful, there is a growing need for more automated, affordable, and accessible methods to generate Social Stories in real-time with broad coverage. Adapting LLMs to meet the unique and strict constraints of Social Stories is a challenging issue. To this end, we propose \textbf{SS-Bench}, a \textbf{S}ocial \textbf{S}tory \textbf{Bench}mark for generating and evaluating Social Stories. Specifically, we develop a constraint-driven strategy named \textbf{\textsc{StarSow}} to hierarchically prompt LLMs to generate Social Stories and build a benchmark, which has been validated through experiments to fine-tune smaller models for generating qualified Social Stories. Additionally, we introduce \textbf{Quality Assessment Criteria}, employed in human and GPT evaluations, to verify the effectiveness of the generated stories. We hope this work benefits the autism community and catalyzes future research focusing on particular groups.
Abstract（参考訳）: 自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。心理学の専門家は、これらの体制における能力を高めるために、構造的明瞭さ、記述的指向、状況的安全性の厳格な制約の下で社会ストーリーを書く。しかし、ソーシャルストーリーは作成に費用がかかり、しばしば多様性やタイムラインに制限される。大規模言語モデル(LLMs)がますます強力になるにつれて、より自動化され、手頃な価格で、アクセスしやすい方法で、幅広い範囲でリアルタイムでソーシャルストーリーを生成する必要性が高まっています。ソーシャルストーリーのユニークで厳格な制約を満たすためにLLMを適用することは、難しい問題です。この目的のために,ソーシャルストーリーの生成と評価を行うために,textbf{SS-Bench}, a \textbf{S}ocial \textbf{S}tory \textbf{Bench}markを提案する。具体的には,社会的ストーリの生成とベンチマーク作成をLLMに階層的に促すための制約駆動型戦略である‘textbf{\textsc{StarSow}} を開発した。また、人間とGPTの評価に使用される「textbf{Quality Assessment Criteria」を導入し、生成したストーリーの有効性を検証する。我々は、この研究が自閉症コミュニティに恩恵を与え、特定のグループに焦点を当てた将来の研究を促進することを願っている。

関連論文リスト

Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文参考訳（メタデータ） (2025-10-24T06:08:41Z)
SocialNLI: A Dialogue-Centric Social Inference Dataset [49.60157928163403]
第1回社会対話推論データセットSocialNLIを紹介する。 SocialNLIは、複雑な社会的ニュアンスの中心となるために手書きの対話文からなる。多段階の反実的推論による推論モデルの評価を行う。
論文参考訳（メタデータ） (2025-10-06T23:42:01Z)
Sotopia-RL: Reward Design for Social Intelligence [52.59432715228559]
Sotopia-RLは、粗いエピソードレベルのフィードバックを発話レベル、多次元報酬に洗練する新しいフレームワークである。オープンエンドの社会学習環境であるソトピアにおける実験は、ソトピア-RLが最先端の社会目標達成スコアを達成することを示した。
論文参考訳（メタデータ） (2025-08-05T20:43:42Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。 SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文参考訳（メタデータ） (2025-05-29T17:47:36Z)
R^3-VQA: "Read the Room" by Video Social Reasoning [26.694917467429207]
「部屋を読む」は人間の日常生活において重要な社会的推論能力である。我々は、R3-VQAという、価値があり、高品質で包括的なビデオデータセットに貢献する。
論文参考訳（メタデータ） (2025-05-07T05:55:45Z)
How Social is It? A Benchmark for LLMs' Capabilities in Multi-user Multi-turn Social Agent Tasks [6.487500253901779]
大規模言語モデル(LLM)は、マルチユーザ、マルチターンソーシャルエージェントタスクにおいて役割を果たす。我々は LLM の社会的能力を評価するために, 新たなベンチマーク "How Social Is It" (以下 HSII と呼ぶ) を提案する。 HSIIは、フォーマット解析、ターゲット選択、ターゲット切替会話、安定した会話の4段階から構成され、LLMのコミュニケーションとタスク完了能力を総合的に評価する。
論文参考訳（メタデータ） (2025-04-04T08:59:01Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文参考訳（メタデータ） (2024-09-02T08:28:19Z)
Open Artificial Knowledge [3.187724439601991]
我々は5億以上のトークンからなる大規模リソースであるOpen Artificial Knowledge (OAK)データセットを紹介した。 OAKデータセットは、より有能で整合した言語モデルの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-07-19T15:01:24Z)
The Call for Socially Aware Language Technologies [94.6762219597438]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。
論文参考訳（メタデータ） (2024-05-03T18:12:39Z)
Social Skill Training with Large Language Models [65.40795606463101]
人々は紛争解決のような社会的スキルに頼り、効果的にコミュニケーションし、仕事と個人の生活の両方で繁栄する。本稿では,専門分野に進出する上での社会的スキルの障壁を明らかにする。本稿では,大規模言語モデルを用いた総合的なフレームワークによるソーシャルスキルトレーニングのソリューションを提案する。
論文参考訳（メタデータ） (2024-04-05T16:29:58Z)
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文参考訳（メタデータ） (2024-03-13T17:17:48Z)
SOCIALITE-LLAMA: An Instruction-Tuned Model for Social Scientific Tasks [13.152622137022881]
オープンソースでインストラクションをチューニングしたLlamaであるSocialite-Llamaを紹介します。 20種類の社会科学タスクにおいて、Socialite-LlamaはLlamaのパフォーマンスを改善し、最先端のマルチタスク微調整モデルのパフォーマンスをマッチまたは改善する。
論文参考訳（メタデータ） (2024-02-03T01:33:16Z)
Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文参考訳（メタデータ） (2023-10-25T03:58:49Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文参考訳（メタデータ） (2023-10-18T02:27:01Z)
Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-23T16:35:16Z)
Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文参考訳（メタデータ） (2023-04-15T00:19:44Z)
SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。 DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文参考訳（メタデータ） (2021-07-02T10:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。