論文の概要: Scalable Evaluation of Online Facilitation Strategies via Synthetic Simulation of Discussions
- arxiv url: http://arxiv.org/abs/2503.16505v2
- Date: Tue, 20 May 2025 11:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.946198
- Title: Scalable Evaluation of Online Facilitation Strategies via Synthetic Simulation of Discussions
- Title(参考訳): 議論の合成シミュレーションによるオンラインファシリテーション戦略のスケーラブルな評価
- Authors: Dimitris Tsirmpas, Ion Androutsopoulos, John Pavlopoulos,
- Abstract要約: 本稿では,LLMファシリテータの開発をプロトタイプ化する,シンプルで一般化可能なLCM駆動手法を提案する。
我々は,現在のファシリテーション戦略がLCMファシリテータの性能を向上させることができるかどうかを検証するために,我々の方法論を利用する。
- 参考スコア(独自算出の注目度): 13.85030571429358
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Limited large-scale evaluations exist for facilitation strategies of online discussions due to significant costs associated with human involvement. An effective solution is synthetic discussion simulations using Large Language Models (LLMs) to create initial pilot experiments. We propose a simple, generalizable, LLM-driven methodology to prototype the development of LLM facilitators, and produce high-quality synthetic data without human involvement. We use our methodology to test whether current facilitation strategies can improve the performance of LLM facilitators. We find that, while LLM facilitators significantly improve synthetic discussions, there is no evidence that the application of more elaborate facilitation strategies proposed in modern Social Science research lead to further improvements in discussion quality, compared to more basic approaches. Additionally, we find that small LLMs (such as Mistral Nemo 12B) can perform comparably to larger models (such as LLaMa 70B), and that special instructions must be used for instruction-tuned models to induce toxicity in synthetic discussions. We confirm that each component of our methodology contributes substantially to high quality data via an ablation study. We release an open-source framework, "SynDisco" (pip install syndisco), which implements our methodology. We also release the "Virtual Moderation Dataset" (https://paperswithcode.com/dataset/vmd), a large, publicly available dataset containing LLM-generated and LLM-annotated discussions using multiple open-source LLMs.
- Abstract(参考訳): 人的関与に伴う多大なコストによるオンライン議論の促進戦略として,限定的な大規模評価が存在する。
効果的な解法は、Large Language Models (LLMs) を用いた総合的な議論シミュレーションであり、初期の試験的な実験を作成する。
我々は,LLMファシリテータの開発をプロトタイプ化し,人間の関与なしに高品質な合成データを生成する,シンプルで一般化可能なLCM駆動の手法を提案する。
我々は,現在のファシリテーション戦略がLCMファシリテータの性能を向上させることができるかどうかを検証するために,我々の方法論を利用する。
LLMファシリテータは、合成議論を著しく改善するが、現代の社会科学研究で提案されたより精巧なファシリテーション戦略の適用が、より基本的なアプローチに比べて議論品質のさらなる改善につながるという証拠はない。
さらに、Mistral Nemo 12Bのような小さなLLMは、LLaMa 70Bのような大型モデルと互換性があり、合成議論において毒性を誘導するためには、命令調整されたモデルに特別な命令を使わなければならない。
本手法の各コンポーネントがアブレーション研究を通じて,高品質なデータに実質的に寄与することが確認された。
我々は,我々の方法論を実装したオープンソースフレームワークであるSynDisco(pip install syndisco)をリリースする。
また、複数のオープンソース LLM を用いた LLM 生成および LLM アノテーションによる議論を含む大規模で一般公開されたデータセットである "Virtual Moderation Dataset" (https://paperswithcode.com/dataset/vmd) もリリースしています。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。
まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。
第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。