論文の概要: ViDAS: Vision-based Danger Assessment and Scoring
- arxiv url: http://arxiv.org/abs/2410.00477v1
- Date: Tue, 1 Oct 2024 08:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:27:01.756705
- Title: ViDAS: Vision-based Danger Assessment and Scoring
- Title(参考訳): ViDAS: 視覚に基づく危険評価と検査
- Authors: Pranav Gupta, Advith Krishnan, Naman Nanda, Ananth Eswar, Deeksha Agarwal, Pratham Gohil, Pratyush Goel,
- Abstract要約: 本稿では,映像コンテンツの危険度定量化という課題に対処して,危険分析と評価の推進を目的とした新しいデータセットを提案する。
これは、様々なイベントを含む100のYouTubeビデオのコレクションをコンパイルすることで達成される。
各ビデオは、0(人間に危険はない)から10(命の危険)までの尺度で危険評価を行った人間の参加者によって注釈付けされる。
- 参考スコア(独自算出の注目度): 0.7528462379265576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel dataset aimed at advancing danger analysis and assessment by addressing the challenge of quantifying danger in video content and identifying how human-like a Large Language Model (LLM) evaluator is for the same. This is achieved by compiling a collection of 100 YouTube videos featuring various events. Each video is annotated by human participants who provided danger ratings on a scale from 0 (no danger to humans) to 10 (life-threatening), with precise timestamps indicating moments of heightened danger. Additionally, we leverage LLMs to independently assess the danger levels in these videos using video summaries. We introduce Mean Squared Error (MSE) scores for multimodal meta-evaluation of the alignment between human and LLM danger assessments. Our dataset not only contributes a new resource for danger assessment in video content but also demonstrates the potential of LLMs in achieving human-like evaluations.
- Abstract(参考訳): 本稿では,ビデオコンテンツの危険度を定量化することの難しさに対処し,Large Language Model (LLM) の評価器がいかに人間に似ているかを明らかにすることによって,危険度分析と評価を促進することを目的とした新しいデータセットを提案する。
これは、様々なイベントを含む100のYouTubeビデオのコレクションをコンパイルすることで達成される。
各ビデオは、危険度を0(人間に危険はない)から10(生命を脅かす)に分類し、危険度を高める瞬間を正確に示すタイムスタンプによって注釈付けされる。
さらに,ビデオ要約を用いて,ビデオの危険レベルを独立に評価するためにLCMを利用する。
危険度評価のためのマルチモーダルメタ評価のための平均二乗誤差(MSE)スコアを導入する。
我々のデータセットは、ビデオコンテンツの危険度評価に新たなリソースを提供するだけでなく、人間的な評価を行う上でのLLMの可能性も示している。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.23823544208315]
大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。
信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
論文 参考訳(メタデータ) (2024-08-27T17:03:18Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がないと、これらの評価の有効性が懸念される。
JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models [47.65210244674764]
大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
安全性に関する懸念も高まっている。
S-Evalは,多次元かつオープンな安全評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。