このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240519となっている論文です。

PDF登録状況(公開日: 20240519)

TitleAuthorsAbstract論文公表日・翻訳日
# ヨロブ8コンピュータビジョンモデルを用いたヘブライ文字の検出とCuneiformタブレット分類

Hebrew letters Detection and Cuneiform tablets Classification by using the yolov8 computer vision model ( http://arxiv.org/abs/2407.06133v1 )

ライセンス: Link先を確認
Elaf A. Saeed, Ammar D. Jasim, Munther A. Abdul Malik, (参考訳) 古風な書体であるキュニフォーム・ライティングは、過去を見ることができる。 エジプトのヒエログリフ以外では、クネイフォーム文字は最古の書記体系の一つである。 多くの歴史家がヘブライ語の起源を古代に定めている。 古い言語を解読する方法を学んだ後、考古学者を訪ねて、他の古代の言語を解読する方法を学びました。 ヘブライ語文の内容に基づいて,この手順を高速化し,キュニフォームなタブレット画像の識別とグループ化を行うための,ディープラーニングに基づく手話検出手法を提案する。 ヘブライ語アルファベットは、深層学習に必要な訓練データを集めるのが難しくて費用がかかることで知られています。 そこで本研究では,既存の文字起こしと,ラテン文字によるタブレットの内容のサインバイサイン表現を用いて,この問題を解決する。 我々は,これらに記号の局所化を含まないため,教師付きアプローチの1つを推奨する。 次に、アノテーションを使わずに、これらの局所的な標識を用いて符号検出器を再訓練する。 その後、より効果的な符号検出器によりアライメント品質が向上する。 そこで本研究では,Yolov8オブジェクト識別事前学習モデルを用いて,ヘブライ語の文字を識別し,クチュニフォームタブレットを分類することを目的とする。

Cuneiform writing, an old art style, allows us to see into the past. Aside from Egyptian hieroglyphs, the cuneiform script is one of the oldest writing systems. Many historians place Hebrew's origins in antiquity. For example, we used the same approach to decipher the cuneiform languages; after learning how to decipher one old language, we would visit an archaeologist to learn how to decipher any other ancient language. We propose a deep-learning-based sign detector method to speed up this procedure to identify and group cuneiform tablet images according to Hebrew letter content. The Hebrew alphabet is notoriously difficult and costly to gather the training data needed for deep learning, which entails enclosing Hebrew characters in boxes. We solve this problem using pre-existing transliterations and a sign-by-sign representation of the tablet's content in Latin characters. We recommend one of the supervised approaches because these do not include sign localization: We Find the transliteration signs in the tablet photographs by comparing them to their corresponding transliterations. Then, retrain the sign detector using these localized signs instead of utilizing annotations. Afterward, a more effective sign detector enhances the alignment quality. Consequently, this research aims to use the Yolov8 object identification pretraining model to identify Hebrew characters and categorize the cuneiform tablets.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-19
# 不均質な知識グラフを用いたオンライン授業における成績予測の比較分析

A Comparative Analysis of Student Performance Predictions in Online Courses using Heterogeneous Knowledge Graphs ( http://arxiv.org/abs/2407.12153v1 )

ライセンス: Link先を確認
Thomas Trask, Dr. Nicholas Lytle, Michael Boyle, Dr. David Joyner, Dr. Ahmed Mubarak, (参考訳) 高等教育現場では,オンライン授業が一般的になるにつれて,オンライン授業とオンライン授業の授業版を受講する学生の学生のパフォーマンス調査が求められている。 学生の終末成績を比較して学習結果の違いに注意が向けられているが、異なるモダリティ間での生徒のエンゲージメントパターンの比較では、あまり注目されていない。 本研究では, 学生, コースビデオ, フォーマティブアセスメント, および学生のインタラクションからなる異種知識グラフを分析し, グラフ畳み込みネットワーク(GCN)を用いて学生のパフォーマンスを予測する。 評価における学生のパフォーマンスを用いて,リスクの高い学生を識別するための有用なモデルを決定することを試みる。 次に、同一コースの5つのオンラインMOOCスタイルインスタンスと2つの完全オンラインMOOCスタイルインスタンスを比較した。 開発したモデルでは, 生徒が消費したコンテンツ, コース, モダリティに基づいて, 特定の問題に合格するかどうかを70~90%の精度で予測した。

As online courses become the norm in the higher-education landscape, investigations into student performance between students who take online vs on-campus versions of classes become necessary. While attention has been given to looking at differences in learning outcomes through comparisons of students' end performance, less attention has been given in comparing students' engagement patterns between different modalities. In this study, we analyze a heterogeneous knowledge graph consisting of students, course videos, formative assessments and their interactions to predict student performance via a Graph Convolutional Network (GCN). Using students' performance on the assessments, we attempt to determine a useful model for identifying at-risk students. We then compare the models generated between 5 on-campus and 2 fully-online MOOC-style instances of the same course. The model developed achieved a 70-90\% accuracy of predicting whether a student would pass a particular problem set based on content consumed, course instance, and modality.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-19
# 生成学生:質問項目評価支援のためのLLMシミュレーション学生プロファイルの利用

Generative Students: Using LLM-Simulated Student Profiles to Support Question Item Evaluation ( http://arxiv.org/abs/2405.11591v1 )

ライセンス: Link先を確認
Xinyi Lu, Xu Wang, (参考訳) 自動生成された質問項目の品質を評価することは、長年にわたる課題である。 本稿では,LLMを利用して学生のプロファイルをシミュレートし,MCQ(Multi-choice Question)に対する応答を生成する。 MCQに対する生成的学生の反応は質問項目評価をさらに支援することができる。 KLIフレームワークをベースとした素早いアーキテクチャである生成学生を提案する。 生成的学生プロファイル(英: Generative student profile)は、学生が習得した知識コンポーネントのリストの関数であり、知識の証拠を混乱させたり、全く持っていない。 ヒューリスティック評価の対象領域における生成的学生概念のインスタンス化を行う。 GPT-4を用いて45人の生成学生を作製し,20名のMCQに回答させた。 その結果, 生成した学生は, プロファイルに整合した論理的, 信頼性の高い反応を生み出した。 そして, 実生の反応と実生の反応を同一のMCQで比較したところ, 高い相関関係が認められた。 さらに, 生成的学生と実生が識別する難解な質問には, かなりの重複があった。 その後のケーススタディでは,ジェネレーティブ・学生が提供した信号に基づいて,インストラクターが質問品質を向上させることができた。

Evaluating the quality of automatically generated question items has been a long standing challenge. In this paper, we leverage LLMs to simulate student profiles and generate responses to multiple-choice questions (MCQs). The generative students' responses to MCQs can further support question item evaluation. We propose Generative Students, a prompt architecture designed based on the KLI framework. A generative student profile is a function of the list of knowledge components the student has mastered, has confusion about or has no evidence of knowledge of. We instantiate the Generative Students concept on the subject domain of heuristic evaluation. We created 45 generative students using GPT-4 and had them respond to 20 MCQs. We found that the generative students produced logical and believable responses that were aligned with their profiles. We then compared the generative students' responses to real students' responses on the same set of MCQs and found a high correlation. Moreover, there was considerable overlap in the difficult questions identified by generative students and real students. A subsequent case study demonstrated that an instructor could improve question quality based on the signals provided by Generative Students.
翻訳日:2024-06-02 14:47:20 公開日:2024-05-19
# 説明可能な人間とAIのインタラクション:計画的視点

Explainable Human-AI Interaction: A Planning Perspective ( http://arxiv.org/abs/2405.15804v1 )

ライセンス: Link先を確認
Sarath Sreedharan, Anagha Kulkarni, Subbarao Kambhampati, (参考訳) 当初から、AIは人間とかなりあいまいな関係を築いてきた。 今や、AI技術が日々の生活に入り続けるにつれて、AIシステムは人間と相乗的に働く必要がある。 このようなシナジスティックな人間とAIの相互作用にとって重要な要件のひとつは、AIシステムがループ内の人間に説明可能であることである。 これを有効にするためには、AIエージェントは自身の世界のモデルで計画するだけでなく、ループ内の人間のメンタルモデルも考慮する必要がある。 我々の研究室での数年間の研究から、AIエージェントがこれらのメンタルモデルを使って人間の期待に沿うか、あるいは説明的コミュニケーションを通じて期待を変えるかについて議論する。 本書の主な焦点は、協調的なシナリオであるが、同じ精神モデルが難読化や偽造にどのように使用できるかを指摘したい。 本書は、主にこれらの分野における我々の独自の研究によって推進されているが、各章では、他のグループからの関連する研究に十分な関連性を提供する。

From its inception, AI has had a rather ambivalent relationship with humans -- swinging between their augmentation and replacement. Now, as AI technologies enter our everyday lives at an ever increasing pace, there is a greater need for AI systems to work synergistically with humans. One critical requirement for such synergistic human-AI interaction is that the AI systems be explainable to the humans in the loop. To do this effectively, AI agents need to go beyond planning with their own models of the world, and take into account the mental model of the human in the loop. Drawing from several years of research in our lab, we will discuss how the AI agent can use these mental models to either conform to human expectations, or change those expectations through explanatory communication. While the main focus of the book is on cooperative scenarios, we will point out how the same mental models can be used for obfuscation and deception. Although the book is primarily driven by our own research in these areas, in every chapter, we will provide ample connections to relevant research from other groups.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-19
# 脳ネットワークにおける時間的・空間的ダイナミクス分析のためのディープラーニングフレームワークDSAM

DSAM: A Deep Learning Framework for Analyzing Temporal and Spatial Dynamics in Brain Networks ( http://arxiv.org/abs/2405.15805v1 )

ライセンス: Link先を確認
Bishal Thapaliya, Robyn Miller, Jiayu Chen, Yu-Ping Wang, Esra Akbas, Ram Sapkota, Bhaskar Ray, Pranav Suresh, Santosh Ghimire, Vince Calhoun, Jingyu Liu, (参考訳) Resting-state functional magnetic resonance imaging (rs-fMRI)は、複雑な認知過程の人間の神経機構を理解するための非侵襲的手法である。 ほとんどのrs-fMRI研究は、関心のある脳領域にまたがる単一の静的な機能的接続行列、あるいはスライディングウインドウアプローチで動的機能的接続行列を計算する。 これらのアプローチは、脳のダイナミクスを単純化し、目の前のゴールを適切に考慮していないリスクがある。 深層学習は複雑な関係データのモデリングでかなりの人気を得ているが、脳の時空間的ダイナミクスを明らかにするための応用はまだ限られている。 本稿では、時系列から直接ゴール固有の機能的接続行列を学習し、最終分類に特殊なグラフニューラルネットワークを用いる、解釈可能な新しいディープラーニングフレームワークを提案する。 我々のモデルであるDSAMは、時間的因果畳み込みネットワークを利用して、低レベルの特徴表現と高レベルの特徴表現の両方の時間的ダイナミクスをキャプチャし、重要な時間点を識別するための時間的注意ユニット、ゴール固有の接続行列を構築するための自己注意ユニット、下流分類のための空間的ダイナミクスをキャプチャするグラフニューラルネットワークの新たな変種を利用する。 提案手法を検証するために,1075サンプルを用いたHuman Connectome Projectデータセットを用いて,性グループ分類モデルの構築と解釈を行う実験を行った。 提案したフレームワークを他の最先端モデルと比較すると、この新たなアプローチは、固定接続行列の仮定を超えて、目標固有の脳接続パターンのエビデンスを提供する。

Resting-state functional magnetic resonance imaging (rs-fMRI) is a noninvasive technique pivotal for understanding human neural mechanisms of intricate cognitive processes. Most rs-fMRI studies compute a single static functional connectivity matrix across brain regions of interest, or dynamic functional connectivity matrices with a sliding window approach. These approaches are at risk of oversimplifying brain dynamics and lack proper consideration of the goal at hand. While deep learning has gained substantial popularity for modeling complex relational data, its application to uncovering the spatiotemporal dynamics of the brain is still limited. We propose a novel interpretable deep learning framework that learns goal-specific functional connectivity matrix directly from time series and employs a specialized graph neural network for the final classification. Our model, DSAM, leverages temporal causal convolutional networks to capture the temporal dynamics in both low- and high-level feature representations, a temporal attention unit to identify important time points, a self-attention unit to construct the goal-specific connectivity matrix, and a novel variant of graph neural network to capture the spatial dynamics for downstream classification. To validate our approach, we conducted experiments on the Human Connectome Project dataset with 1075 samples to build and interpret the model for the classification of sex group, and the Adolescent Brain Cognitive Development Dataset with 8520 samples for independent testing. Compared our proposed framework with other state-of-art models, results suggested this novel approach goes beyond the assumption of a fixed connectivity matrix and provides evidence of goal-specific brain connectivity patterns, which opens up the potential to gain deeper insights into how the human brain adapts its functional connectivity specific to the task at hand.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-19
# 学生が対話をどのように知覚するかを導く人間生成型AIの協調的問題解決

Human-Generative AI Collaborative Problem Solving Who Leads and How Students Perceive the Interactions ( http://arxiv.org/abs/2405.13048v1 )

ライセンス: Link先を確認
Gaoxia Zhu, Vidya Sudarshan, Jason Fok Kow, Yew Soon Ong, (参考訳) 本研究は, 問題解決タスクにおいて, 生成的AI(ChatGPT)との共同作業を行う場合の, 人為的AIコラボレーションタイプと学生のインタラクション体験について検討し, これらの要因が学生の代理意識と協調的問題解決に与える影響について考察する。 79人の大学生を対象にした調査とリフレクションを分析して、貢献、人的リード、AIリードという3つの人間生成AIコラボレーションタイプを特定した。 特に,ChatGPTとの共同研究において,77.21%の学生が,自らを指導したか,あるいは協力的な問題解決に寄与していたことが示唆された。 一方、被験者の15.19%は、共同作業はChatGPTが主導しており、学生がChatGPTに頼る傾向があることを示唆している。 さらに、67.09%の学生がChatGPTとの交流経験が肯定的あるいは混合的であると感じている。 また,ポジティブインタラクション体験とポジティブエージェンシー感覚の正の相関が認められた。 本研究の結果は,学生と生成AIの連携の理解に寄与し,ChatGPTが共同問題解決を指導した理由や,カリキュラムや技術設計を通じてインタラクションエクスペリエンスを向上させる方法について,さらに研究の必要性を強調した。

This research investigates distinct human-generative AI collaboration types and students' interaction experiences when collaborating with generative AI (i.e., ChatGPT) for problem-solving tasks and how these factors relate to students' sense of agency and perceived collaborative problem solving. By analyzing the surveys and reflections of 79 undergraduate students, we identified three human-generative AI collaboration types: even contribution, human leads, and AI leads. Notably, our study shows that 77.21% of students perceived they led or had even contributed to collaborative problem-solving when collaborating with ChatGPT. On the other hand, 15.19% of the human participants indicated that the collaborations were led by ChatGPT, indicating a potential tendency for students to rely on ChatGPT. Furthermore, 67.09% of students perceived their interaction experiences with ChatGPT to be positive or mixed. We also found a positive correlation between positive interaction experience and a sense of positive agency. The results of this study contribute to our understanding of the collaboration between students and generative AI and highlight the need to study further why some students let ChatGPT lead collaborative problem-solving and how to enhance their interaction experience through curriculum and technology design.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-19
# SemEval-2024 Task 3: 会話におけるマルチモーダル感情原因分析

SemEval-2024 Task 3: Multimodal Emotion Cause Analysis in Conversations ( http://arxiv.org/abs/2405.13049v1 )

ライセンス: Link先を確認
Fanfan Wang, Heqing Ma, Jianfei Yu, Rui Xia, Erik Cambria, (参考訳) 感情を理解する能力は人間のような人工知能の重要な要素であり、感情は人間の認知、意思決定、社会的相互作用に大きな影響を及ぼす。 会話における感情認識に加えて、会話における個人の感情状態の背後にある潜在的な原因を特定するタスクは、多くのアプリケーションシナリオにおいて非常に重要である。 会話におけるマルチモーダル感情原因分析(Multimodal Emotion Cause Analysis in Conversations)と名付けられたSemEval-2024タスク3を編成する。 異なるモダリティ設定の下では、2つのサブタスクで構成されている: テキスト感情因果ペア抽出 (TECPE) とマルチモーダル感情因果ペア抽出 (MECPE) である。 共有タスクには143件の登録があり、216件の応募が成功した。 本稿では,タスク,データセット,評価設定について紹介し,トップチームのシステムを要約し,参加者の知見について議論する。

The ability to understand emotions is an essential component of human-like artificial intelligence, as emotions greatly influence human cognition, decision making, and social interactions. In addition to emotion recognition in conversations, the task of identifying the potential causes behind an individual's emotional state in conversations, is of great importance in many application scenarios. We organize SemEval-2024 Task 3, named Multimodal Emotion Cause Analysis in Conversations, which aims at extracting all pairs of emotions and their corresponding causes from conversations. Under different modality settings, it consists of two subtasks: Textual Emotion-Cause Pair Extraction in Conversations (TECPE) and Multimodal Emotion-Cause Pair Extraction in Conversations (MECPE). The shared task has attracted 143 registrations and 216 successful submissions. In this paper, we introduce the task, dataset and evaluation settings, summarize the systems of the top teams, and discuss the findings of the participants.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-19
# 人中心LLM-Agentユーザインタフェース:ポジションペーパー

Human-Centered LLM-Agent User Interface: A Position Paper ( http://arxiv.org/abs/2405.13050v1 )

ライセンス: Link先を確認
Daniel Chin, Yuxuan Wang, Gus Xia, (参考訳) Large Language Model (LLM) - in-the-loopアプリケーションは、ユーザのコマンドを効果的に解釈し、計画を立て、それに従って外部ツールやシステムを操作する。 それでも、LLMエージェントの操作範囲は、ユーザを受動的に追従することに限定されており、基盤となるツールやシステムに関して、ユーザは自身のニーズをフレーム化しなければならない。 LLM-Agent User Interface (LAUI) の可能性がはるかに大きいことに留意する。 基盤となるツールやシステムにほとんど無知なユーザは、LAUIを使って創発的なワークフローを見つけることができるべきです。 探索可能なGUIを設計してシステムの使用方法を教える従来の方法とは対照的に、理想的なLAUIでは、LLMエージェントがシステムに精通するように初期化され、ユーザとそのニーズを積極的に研究し、ユーザに対して新たなインタラクションスキームを提案する。 LAUIを説明するために,LLMエージェント,プロンプトマネージャ,フルートをチューニングしたマルチモーダル・ソフトウェア・ハードウエア・システムを用いて,フルートの複雑なリアルタイムユーザ体験を楽しむための具体例であるFlute X GPTを提案する。

Large Language Model (LLM) -in-the-loop applications have been shown to effectively interpret the human user's commands, make plans, and operate external tools/systems accordingly. Still, the operation scope of the LLM agent is limited to passively following the user, requiring the user to frame his/her needs with regard to the underlying tools/systems. We note that the potential of an LLM-Agent User Interface (LAUI) is much greater. A user mostly ignorant to the underlying tools/systems should be able to work with a LAUI to discover an emergent workflow. Contrary to the conventional way of designing an explorable GUI to teach the user a predefined set of ways to use the system, in the ideal LAUI, the LLM agent is initialized to be proficient with the system, proactively studies the user and his/her needs, and proposes new interaction schemes to the user. To illustrate LAUI, we present Flute X GPT, a concrete example using an LLM agent, a prompt manager, and a flute-tutoring multi-modal software-hardware system to facilitate the complex, real-time user experience of learning to play the flute.
翻訳日:2024-05-25 04:32:08 公開日:2024-05-19
# CNNを用いた人物検出とキーワードスポッティングによるTinyMLを用いた非接触エレベータの実現

Towards Contactless Elevators with TinyML using CNN-based Person Detection and Keyword Spotting ( http://arxiv.org/abs/2405.13051v1 )

ライセンス: Link先を確認
Anway S. Pimpalkar, Deeplaxmi V. Niture, (参考訳) 本研究では,人的介入を最小限に抑えつつ,安全性,知性,効率を高めることを目的とした非接触式エレベーター運転システムの概念実証を行う。 エレベータ操作のために、小さな機械学習(tinyML)推論を実行するマイクロコントローラベースのエッジデバイスを開発した。 人検出とキーワードスポッティングアルゴリズムを用いて、システムは最小限のインフラ変更を必要とするコスト効率と堅牢なユニットを提供する。 この設計は、精度と応答時間を最適化するために、前処理ステップと量子化された畳み込みニューラルネットワークをマルチテナントフレームワークに組み込んでいる。 その結果、人検出精度は83.34%、キーワードスポッティング効率は80.5%で、全体のレイテンシは5秒未満で、現実のシナリオでは有効であることが示されている。 現行の高コストで一貫性のない非接触技術とは異なり、このシステムは小さなMLを活用して、コスト効率が高く、信頼性が高く、スケーラブルなソリューションを提供する。 この研究は有望な結果を強調しているが、既存のシステムとのスケーラビリティと統合のためにさらなる調査が必要である。 エネルギー効率、単純さ、安全性のメリットが実証されたことから、小さなMLの採用がエレベーターシステムに革命をもたらし、将来の技術進歩のモデルとして機能する可能性が示唆されている。 この技術は、物理的接触を減らし、特にパンデミックや衛生上の問題に関係のある運用効率を向上させることで、多層建築物の公衆衛生と利便性に大きな影響を及ぼす可能性がある。

This study presents a proof of concept for a contactless elevator operation system aimed at minimizing human intervention while enhancing safety, intelligence, and efficiency. A microcontroller-based edge device executing tiny Machine Learning (tinyML) inferences is developed for elevator operation. Using person detection and keyword spotting algorithms, the system offers cost-effective and robust units requiring minimal infrastructural changes. The design incorporates preprocessing steps and quantized convolutional neural networks in a multitenant framework to optimize accuracy and response time. Results show a person detection accuracy of 83.34% and keyword spotting efficacy of 80.5%, with an overall latency under 5 seconds, indicating effectiveness in real-world scenarios. Unlike current high-cost and inconsistent contactless technologies, this system leverages tinyML to provide a cost-effective, reliable, and scalable solution, enhancing user safety and operational efficiency without significant infrastructural changes. The study highlights promising results, though further exploration is needed for scalability and integration with existing systems. The demonstrated energy efficiency, simplicity, and safety benefits suggest that tinyML adoption could revolutionize elevator systems, serving as a model for future technological advancements. This technology could significantly impact public health and convenience in multi-floor buildings by reducing physical contact and improving operational efficiency, particularly relevant in the context of pandemics or hygiene concerns.
翻訳日:2024-05-25 04:32:08 公開日:2024-05-19
# 自由形式のユーザインタラクションから個人性を推定できる大規模言語モデル

Large Language Models Can Infer Personality from Free-Form User Interactions ( http://arxiv.org/abs/2405.13052v1 )

ライセンス: Link先を確認
Heinrich Peters, Moran Cerf, Sandra C. Matz, (参考訳) 本研究では,Large Language Models (LLMs) を用いて,自由形式のユーザインタラクションから5つの人格特性を推定する能力について検討する。 その結果, GPT-4を用いたチャットボットは, 従来の静的テキストコンテンツからの推論よりも高い精度でパーソナリティを推測できることがわかった。 推論の精度は、会話の設定によって異なる。 チャットボットがユーザ(平均 r=.443, range=[.245, .640])からパーソナリティ関連情報を引き出すように促されたときのパフォーマンスが最も高かった(平均 r=.218, range=[.066, .373])。 特に、人格評価に直接焦点をあてることが、ユーザー体験のポジティブさを損なうことはなく、参加者は、双方の条件をまたいだ相互作用が等しく自然で、快適で、エンゲージメントがあり、人間らしいと報告した。 ChatGPTのデフォルトの動作を模倣するチャットボットは、人格推定が著しく劣り、ユーザー体験の評価が低くなったが、それでもいくつかの性格特性(平均 r=.117, range=[-.004, .209])について心理的に有意な情報をキャプチャした。 予備的な分析は、人格推定の正確さは、社会デミノグラフィーのサブグループによってわずかに異なることを示唆している。 本研究は,対話型対話に基づく心理的プロファイリングにおけるLLMの可能性を強調した。 これらの知見に関連する実践的含意と倫理的課題について論じる。

This study investigates the capacity of Large Language Models (LLMs) to infer the Big Five personality traits from free-form user interactions. The results demonstrate that a chatbot powered by GPT-4 can infer personality with moderate accuracy, outperforming previous approaches drawing inferences from static text content. The accuracy of inferences varied across different conversational settings. Performance was highest when the chatbot was prompted to elicit personality-relevant information from users (mean r=.443, range=[.245, .640]), followed by a condition placing greater emphasis on naturalistic interaction (mean r=.218, range=[.066, .373]). Notably, the direct focus on personality assessment did not result in a less positive user experience, with participants reporting the interactions to be equally natural, pleasant, engaging, and humanlike across both conditions. A chatbot mimicking ChatGPT's default behavior of acting as a helpful assistant led to markedly inferior personality inferences and lower user experience ratings but still captured psychologically meaningful information for some of the personality traits (mean r=.117, range=[-.004, .209]). Preliminary analyses suggest that the accuracy of personality inferences varies only marginally across different socio-demographic subgroups. Our results highlight the potential of LLMs for psychological profiling based on conversational interactions. We discuss practical implications and ethical challenges associated with these findings.
翻訳日:2024-05-25 04:32:08 公開日:2024-05-19
# MeteoRA: 大規模言語モデルのためのマルチタスク組み込みLoRA

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models ( http://arxiv.org/abs/2405.13053v1 )

ライセンス: Link先を確認
Jingwei Xu, Junyu Lai, Yunpeng Huang, (参考訳) textit{pretrain+fine-tune} パラダイムは、さまざまなダウンストリームアプリケーションに大規模な言語モデル (LLM) をデプロイする基礎となっている。 このうちローランド適応(LoRA)はそのパラメータ効率のよい微調整(PEFT)で際立っている。 しかし、このアプローチでは、明示的なタスク意図の選択、自動タスク検出や、複数の既存のLoRAアダプタを1つのLLMに埋め込んだ推論時の切り替えといった課題に対処する必要がある。 本稿では,LLM向けに設計されたスケーラブルなマルチ知識 LoRA 融合フレームワークである \textbf{\method} (\textbf{M}ultiple-\textbf{T}asks embedded \textbf{LoRA})を紹介する。 \method\は様々なLoRAアダプタをMixture-of-Experts (MoE)スタイルのベースLLMに統合し、モデルがタスク入力に基づいて関連するアダプタを自動的に選択できるようにする。 この進歩はLLMの様々な問題を解くために様々なアダプタを必要とする複合タスクを扱う能力を大幅に向上させる。 LlaMA2-13B および LlaMA3-8B ベースモデルに既製の 28 個の LoRA アダプタを \method 経由で搭載し,各アダプタと同等の性能を示す。 さらに,2つの基本モデルに<method\を組み込んだ場合,1つの推論プロセスのみで10の問題を逐次的に解くことで,<method\組み込みLLMにおける時間的意図切替の能力を強調した。

The \textit{pretrain+fine-tune} paradigm is foundational in deploying large language models (LLMs) across a diverse range of downstream applications. Among these, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous off-the-shelf task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for automatic task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce \textbf{\method} (\textbf{M}ultiple-\textbf{T}asks embedded \textbf{LoRA}), a scalable multi-knowledge LoRA fusion framework designed for LLMs. \method\ integrates various LoRA adapters in a Mixture-of-Experts (MoE) style into the base LLM, enabling the model to automatically select the most pertinent adapter based on the task input. This advancement significantly enhances the LLM's capability to handle composite tasks that require different adapters to solve various components of the problem. Our evaluations, featuring the LlaMA2-13B and LlaMA3-8B base models equipped with off-the-shelf 28 LoRA adapters through \method, demonstrate equivalent performance with the individual adapters. Furthermore, both base models equipped with \method\ achieve superior performance in sequentially solving composite tasks with ten problems in only a single inference process, highlighting the ability of timely intention switching in \method\ embedded LLMs.
翻訳日:2024-05-25 04:32:08 公開日:2024-05-19
# 低分解能情報に焦点をあてる:低分解能ヒューマンポース推定のための多粒性情報損失モデル

Focus on Low-Resolution Information: Multi-Granular Information-Lossless Model for Low-Resolution Human Pose Estimation ( http://arxiv.org/abs/2405.12247v1 )

ライセンス: Link先を確認
Zejun Gu, Zhong-Qiu Zhao, Hao Shen, Zhao Zhang, (参考訳) 人間のポーズ推定の現実的な応用では、画像取得装置の性能が制限されたり、撮影距離が遠すぎる場合に、低解像度の入力画像に頻繁に遭遇する。 しかし、人間のポーズ推定のための既存の最先端モデルでは、低解像度画像では不十分である。 主な理由は、例えば、ストライドされた畳み込み層やプール層など、これらのモデルにダウンサンプリング層が存在することである。 これにより、既に不十分な画像情報も削減される。 もう一つの重要な理由は、身体の骨格と人間の運動情報が完全に活用されていないことである。 本稿では,上記の問題に対処するダウンサンプリング層を置き換えるために,MGIL(Multi-Granular Information-Lossless)モデルを提案する。 具体的には、MGILは、局所情報の損失を防止するために、きめ細かいロスレス情報抽出(FLIE)モジュールを使用する。 さらに,人体構造情報を適切に活用するための粗粒度情報インタラクション(CII)モジュールを設計する。 粒界情報を効率的に融合し,キーポイント間の関係を徹底的に活用するために,多角形適応核融合(MGAF)機構を導入する。 このメカニズムは、画像の内容に基づいて、異なる粒度の特徴に重みを割り当てる。 モデルは効果的で柔軟で普遍的です。 包括的実験による様々な視覚タスクにおけるその可能性を示す。 COCOでは7.7mAPのSOTA法よりも優れており、異なる入力解像度、異なるバックボーン、異なるビジョンタスクでよく機能する。 コードには補足材料が備わっている。

In real-world applications of human pose estimation, low-resolution input images are frequently encountered when the performance of the image acquisition equipment is limited or the shooting distance is too far. However, existing state-of-the-art models for human pose estimation perform poorly on low-resolution images. One key reason is the presence of downsampling layers in these models, e.g., strided convolutions and pooling layers. It further reduces the already insufficient image information. Another key reason is that the body skeleton and human kinematic information are not fully utilized. In this work, we propose a Multi-Granular Information-Lossless (MGIL) model to replace the downsampling layers to address the above issues. Specifically, MGIL employs a Fine-grained Lossless Information Extraction (FLIE) module, which can prevent the loss of local information. Furthermore, we design a Coarse-grained Information Interaction (CII) module to adequately leverage human body structural information. To efficiently fuse cross-granular information and thoroughly exploit the relationships among keypoints, we further introduce a Multi-Granular Adaptive Fusion (MGAF) mechanism. The mechanism assigns weights to features of different granularities based on the content of the image. The model is effective, flexible, and universal. We show its potential in various vision tasks with comprehensive experiments. It outperforms the SOTA methods by 7.7 mAP on COCO and performs well with different input resolutions, different backbones, and different vision tasks. The code is provided in supplementary material.
翻訳日:2024-05-22 15:17:08 公開日:2024-05-19
# 変圧器は秘密裏にリニア

Your Transformer is Secretly Linear ( http://arxiv.org/abs/2405.12250v1 )

ライセンス: Link先を確認
Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov, (参考訳) 本稿では, GPT, LLaMA, OPT, BLOOMなどのモデルを含むトランスフォーマーデコーダ専用の線形特性を示す。 連続層間の埋め込み変換を解析し, ほぼ完全な線形関係を明らかにする(Procrustes類似度スコア0.99)。 しかし、変圧器層の出力ノルムが一定に低いため、残留成分を除去すると線形性が低下する。 実験の結果, 変圧器の最も線形なブロックのいくつかを除去あるいは線形に近似することは, 損失やモデル性能に大きく影響しないことがわかった。 さらに, より小さなモデルに対する事前学習実験では, 層状線形性を低減することを目的としたコサイン類似性に基づく正則化を導入する。 この正規化は、Tiny StoriesやSuperGLUEのようなベンチマークのパフォーマンス指標を改善し、モデルの線形性をうまく低下させる。 本研究は, トランスフォーマーアーキテクチャの既存の理解に挑戦し, 従来想定されていたよりも線形である可能性が示唆された。

This paper reveals a novel linear characteristic exclusive to transformer decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering a near-perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed due to a consistently low output norm of the transformer layer. Our experiments show that removing or linearly approximating some of the most linear blocks of transformers does not affect significantly the loss or model performance. Moreover, in our pretraining experiments on smaller models we introduce a cosine-similarity-based regularization, aimed at reducing layer linearity. This regularization improves performance metrics on benchmarks like Tiny Stories and SuperGLUE and as well successfully decreases the linearity of the models. This study challenges the existing understanding of transformer architectures, suggesting that their operation may be more linear than previously assumed.
翻訳日:2024-05-22 15:17:08 公開日:2024-05-19
# より良い活性化関数の探索法

A Method on Searching Better Activation Functions ( http://arxiv.org/abs/2405.12954v1 )

ライセンス: Link先を確認
Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang, (参考訳) 人工知能ニューラルネットワーク(ANN)の成功は、アクティベーション関数の司法的選択に大きな影響を与え、ネットワークに非線形性を導入し、データ内の洗練された関係をモデル化できるようにする。 しかし、活性化関数の探索は過去の経験的知識に大きく依存しており、理論的なガイダンスが欠如しており、より効果的な活性化関数の同定を妨げている。 この作業では、そのような問題に対する適切な解決策を提供します。 まず、情報エントロピーの観点から、境界条件付き最悪の活性化関数(WAFBC)の存在を理論的に実証する。 さらに,情報エントロピー関数のテイラー展開形式に着想を得て,エントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。 EAFO法は、ディープニューラルネットワークにおける静的アクティベーション関数を設計するための新しい視点と、反復トレーニング中に動的にアクティベーションを最適化する可能性を提示する。 EAFO法を用いて,Correction Regularized ReLU(CRRELU)と呼ばれる新しいアクティベーション関数を導出する。 CIFAR-10、CIFAR-100、ImageNet-1Kデータセット上での視覚変換器とその変種による実験は、既存のReLUの補正よりもCRReLUの方が優れていることを示す。 大規模言語モデル(LLM)の微調整作業に関する大規模な実証研究において、CRRELUはGELUよりも優れた性能を示し、実用的な応用の可能性を示している。

The success of artificial neural networks (ANNs) hinges greatly on the judicious selection of an activation function, introducing non-linearity into network and enabling them to model sophisticated relationships in data. However, the search of activation functions has largely relied on empirical knowledge in the past, lacking theoretical guidance, which has hindered the identification of more effective activation functions. In this work, we offer a proper solution to such issue. Firstly, we theoretically demonstrate the existence of the worst activation function with boundary conditions (WAFBC) from the perspective of information entropy. Furthermore, inspired by the Taylor expansion form of information entropy functional, we propose the Entropy-based Activation Function Optimization (EAFO) methodology. EAFO methodology presents a novel perspective for designing static activation functions in deep neural networks and the potential of dynamically optimizing activation during iterative training. Utilizing EAFO methodology, we derive a novel activation function from ReLU, known as Correction Regularized ReLU (CRReLU). Experiments conducted with vision transformer and its variants on CIFAR-10, CIFAR-100 and ImageNet-1K datasets demonstrate the superiority of CRReLU over existing corrections of ReLU. Extensive empirical studies on task of large language model (LLM) fine-tuning, CRReLU exhibits superior performance compared to GELU, suggesting its broader potential for practical applications.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-19
# 一般化読み出し関数によるグラフ特性予測の改善

Improving Graph Property Prediction with Generalized Readout Functions ( http://arxiv.org/abs/2009.09919v2 )

ライセンス: Link先を確認
Eric Alcaide, (参考訳) グラフプロパティ予測は、任意の数のノードとそれらの間の接続を含むことができるため、グラフが最も一般的なデータ構造の一つであり、この種のデータ(ネットワーク、分子、知識ベースなど)の分類や回帰といった多くの異なるタスクのバックボーンであるという事実から、近年注目を集めている。 本稿では,メッセージパッシングニューラルネットワークのリードアウトフェーズで発生する情報損失を軽減するため,新しいグローバルプール層を導入する。 この新しいレイヤは、任意に学習可能な2つの値($\beta$と$p$)でパラメータ化され、その変換は、指定可能な特定の設定下で、すでに一般的な読み出し関数(平均、最大、和)に戻すことができる。 本手法の優れた表現性や性能を示すために,我々は,現在の最高の性能アーキテクチャを取り入れ,読み出し層をドロップイン置換として利用することにより,グラフ特性予測タスクでこれを検証し,新しい最先端の成果を報告する。 実験を再現するコードは、ここでアクセスすることができる。

Graph property prediction is drawing increasing attention in the recent years due to the fact that graphs are one of the most general data structures since they can contain an arbitrary number of nodes and connections between them, and it is the backbone for many different tasks like classification and regression on such kind of data (networks, molecules, knowledge bases, ...). We introduce a novel generalized global pooling layer to mitigate the information loss that typically occurs at the Readout phase in Message-Passing Neural Networks. This novel layer is parametrized by two values ($\beta$ and $p$) which can optionally be learned, and the transformation it performs can revert to several already popular readout functions (mean, max and sum) under certain settings, which can be specified. To showcase the superior expressiveness and performance of this novel technique, we test it in a popular graph property prediction task by taking the current best-performing architecture and using our readout layer as a drop-in replacement and we report new state of the art results. The code to reproduce the experiments can be accessed here: https://github.com/EricAlcaide/generalized-readout-phase
翻訳日:2024-05-22 03:18:46 公開日:2024-05-19
# CogME: ストーリー理解のための認知型多次元評価指標

CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding ( http://arxiv.org/abs/2107.09847v3 )

ライセンス: Link先を確認
Minjung Shin, Seongho Choi, Yu-Jung Heo, Minsu Lee, Byoung-Tak Zhang, Jeh-Kwang Ryu, (参考訳) 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。 CogMEは、人間の思考戦略とストーリー理解を含むストーリー要素に基づくフレームワークである。 質問の具体的なブレークダウンによって、このアプローチは、AIモデルの特定の長所と短所だけでなく、ベンチマークデータセットの特性も明らかにする、微妙な評価を提供する。 DramaQAデータセットを用いたケーススタディでは、モデルとベンチマークデータセットの洗練された分析が示されている。 我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。 このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。

We introduce CogME, a cognition-inspired, multi-dimensional evaluation metric designed for AI models focusing on story understanding. CogME is a framework grounded in human thinking strategies and story elements that involve story understanding. With a specific breakdown of the questions, this approach provides a nuanced assessment revealing not only AI models' particular strengths and weaknesses but also the characteristics of the benchmark dataset. Our case study with the DramaQA dataset demonstrates a refined analysis of the model and the benchmark dataset. We argue the need for metrics based on understanding the nature of tasks and designed to align closely with human cognitive processes. This approach provides insights beyond traditional overall scores and paves the way for more sophisticated AI development targeting higher cognitive functions.
翻訳日:2024-05-22 01:31:05 公開日:2024-05-19
# 波動関数が既に宇宙上の物体である理由

Why the wavefunction already is an object on space ( http://arxiv.org/abs/2111.14604v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) 量子力学の発見以来、波動関数が3.$次元空間ではなく3.$\mathbf{n}$-次元構成空間上で定義されるという事実は、シュル・オーディンガー、ローレンツ、アインシュタインなど多くの人に不愉快に思われた。 現在でも、これは量子力学の基礎において重要な問題と見なされ続けている。 この記事では、波動関数が既に空間上の真の対象であることが示される。 これは意外に思えるかもしれないが、波動関数はユークリッド幾何学や古典物理学で知られている対象にこれまで遭遇していなかった定性的に新しい特徴を持たない。 Felix Klein氏のErlangen Programでも、これは事実であることが示されている。 これは、ウィグナーとバーグマンによって実現された時空等距離の表現によって量子粒子の分類に自然に適合し、別の確認層を追加する。 すべての量子実験が宇宙で起こることに気付くと、宇宙上の物体である波動関数とともに自然に一貫した解釈ができる。

Since the discovery of quantum mechanics, the fact that the wavefunction is defined on the $3\mathbf{n}$-dimensional configuration space rather than on the $3$-dimensional space seemed uncanny to many, including Schr\"odinger, Lorentz, and Einstein. Even today, this continues to be seen as an important problem in the foundations of quantum mechanics. In this article it will be shown that the wavefunction already is a genuine object on space. While this may seem surprising, the wavefunction has no qualitatively new features that were not previously encountered in the objects known from Euclidean geometry and classical physics. This will be shown to be true also in Felix Klein's Erlangen Program. This fits naturally in the classification of quantum particles by the representations of the spacetime isometries realized by Wigner and Bargmann, adding another layer of confirmation. Once we realize that all quantum experiments take place in space, they can be interpreted naturally and consistently with the wavefunction being an object on space.
翻訳日:2024-05-22 01:31:05 公開日:2024-05-19
# 粒子画像速度測定のためのサロゲートを用いた相互相関

Surrogate-based cross-correlation for particle image velocimetry ( http://arxiv.org/abs/2112.05303v2 )

ライセンス: Link先を確認
Yong Lee, Fuqiang Gu, Zeyu Gong, Ding Pan, Wenhui Zeng, (参考訳) 本稿では,SBCC(Surrogate-based cross-correlation)フレームワークを提案する。 基本的な考え方は、1つの原画像を置き換える最適化されたサロゲートフィルタ/画像が、より正確で堅牢な相関信号を生成することである。 具体的には、サロゲート画像は、画像ノイズ(コンテキスト画像)に対するゼロ応答を生成しながら、粒子(PIV画像対)を追跡するための完全なガウス型相関マップを生成することを推奨する。 そして、この問題は、代理損失と整合損失からなる目的関数で定式化される。 結果として、クローズドフォームソリューションは、他の負のコンテキストイメージを考慮可能な効率的な多変量演算子を提供する。 SBCC法は,最先端のベースライン法(バックグランドサブトラクション,ロバスト位相相関など)と比較して,合成データセットの性能向上(精度とロバスト性)と,いくつかの挑戦的なPIV症例を示す。 また、興味のある研究者には実験的な実装(\url{https://github.com/yongleex/SBCC})も利用可能である。

This paper presents a novel surrogate-based cross-correlation (SBCC) framework to improve the correlation performance for practical particle image velocimetry~(PIV). The basic idea is that an optimized surrogate filter/image, replacing one raw image, will produce a more accurate and robust correlation signal. Specifically, the surrogate image is encouraged to generate perfect Gaussian-shaped correlation map to tracking particles (PIV image pair) while producing zero responses to image noise (context images). And the problem is formularized with an objective function composed of surrogate loss and consistency loss. As a result, the closed-form solution provides an efficient multivariate operator that could consider other negative context images. Compared with the state-of-the-art baseline methods (background subtraction, robust phase correlation, etc.), our SBCC method exhibits significant performance improvement (accuracy and robustness) on the synthetic dataset and several challenging experimental PIV cases. Besides, our implementation with experimental details (\url{https://github.com/yongleex/SBCC}) is also available for interested researchers.
翻訳日:2024-05-22 01:31:05 公開日:2024-05-19
# 2つのバランスの取れない単光子エミッターに対するレイリーの呪いを破る:BLESS法

Breaking Rayleigh's curse for two unbalanced single-photon emitters: BLESS technique ( http://arxiv.org/abs/2112.13244v4 )

ライセンス: Link先を確認
Konstantin Katamadze, Boris Bantysh, Andrey Chernyavskiy, Yurii Bogdanov, Sergei Kulik, (参考訳) レイリーの基準は、点展開関数幅以下の点源を解くことは不可能である。 統計的推定ではこれを克服しているが、レイリーの呪いとして知られる短い距離での誤りの増加に悩まされている。 ターゲットモードのシェーピングは、同じ光源ではこれを解決するが、明るさ比が未知のエミッターのようなマルチパラメータオブジェクトでは解決しない。 本研究では,ビーム変調とショット統計検査を利用したBLESS手法を提案する。 古典的および量子的クレーマー・ラオ境界計算によって実証されたBLESSは、実画像実験において有意義なポテンシャルを示す。

Rayleigh's criterion posits that resolving point sources below point spread function width is impossible. Statistical estimation overcomes this but suffers from increasing error at shorter distances, known as Rayleigh's curse. Target mode shaping solves this for equal sources but not for multi-parameter objects like emitters with unknown brightness ratio. We propose BLESS technique, utilizing Beam moduLation and Examination of Shot Statistics, breaking Rayleigh's curse for unbalanced sources. Demonstrated through classical and quantum Cramer-Rao bound calculations, BLESS shows significant potential for real imaging experiments.
翻訳日:2024-05-22 01:31:04 公開日:2024-05-19
# S$^2$-FPN:リアルタイムセマンティックセグメンテーションのためのスケールウェアストリップ注意誘導特徴ピラミッドネットワーク

S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2206.07298v3 )

ライセンス: Link先を確認
Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse Munea, Xin Hong, Abuzar B. M. Adam, Amina Benabid, (参考訳) 現代の高性能セマンティックセグメンテーション手法は、重いバックボーンと拡張畳み込みを用いて関連する特徴を抽出する。 セグメンテーションタスクにはコンテキスト情報と意味情報の両方で機能を抽出することが重要であるが、リアルタイムアプリケーションにはメモリフットプリントと高い計算コストをもたらす。 本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。 具体的には,S$^2$-FPN(Scale-aware Strip Attention Guided Feature Pyramid Network)という軽量モデルを提案する。 我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。 APFは、差別的なマルチスケールの特徴を学習し、異なるレベル間のセマンティックギャップを埋めるための注意機構を採用している。 APFは、グローバルコンテキストを垂直なストリップ操作でエンコードするためにスケールアウェアアテンションを使用し、長距離依存をモデル化し、ピクセルと同様のセマンティックラベルを関連付けるのに役立つ。 さらに、APFはチャンネル機能を強調するためにチャンネルワイドリウェイトブロック(CRB)を使用している。 最後に、S$^2$-FPNのデコーダは、APFとエンコーダの機能を融合するために使用されるGFUを採用する。 2つの挑戦的なセマンティックセマンティック・セマンティック・セマンティクス・ベンチマークで大規模な実験を行い、この手法がモデル設定の異なる精度/速度トレードオフを実現することを実証した。 提案されたモデルは、76.2\%mIoU/87.3FPS、77.4\%mIoU/67FPS、77.8\%mIoU/30.5FPS、69.6\%mIoU,71.0\%mIoU、74.2\%mIoUである。 この作業のコードは \url{https://github.com/mohamedac29/S2-FPN で公開される。

Modern high-performance semantic segmentation methods employ a heavy backbone and dilated convolution to extract the relevant feature. Although extracting features with both contextual and semantic information is critical for the segmentation tasks, it brings a memory footprint and high computation cost for real-time applications. This paper presents a new model to achieve a trade-off between accuracy/speed for real-time road scene semantic segmentation. Specifically, we proposed a lightweight model named Scale-aware Strip Attention Guided Feature Pyramid Network (S$^2$-FPN). Our network consists of three main modules: Attention Pyramid Fusion (APF) module, Scale-aware Strip Attention Module (SSAM), and Global Feature Upsample (GFU) module. APF adopts an attention mechanisms to learn discriminative multi-scale features and help close the semantic gap between different levels. APF uses the scale-aware attention to encode global context with vertical stripping operation and models the long-range dependencies, which helps relate pixels with similar semantic label. In addition, APF employs channel-wise reweighting block (CRB) to emphasize the channel features. Finally, the decoder of S$^2$-FPN then adopts GFU, which is used to fuse features from APF and the encoder. Extensive experiments have been conducted on two challenging semantic segmentation benchmarks, which demonstrate that our approach achieves better accuracy/speed trade-off with different model settings. The proposed models have achieved a results of 76.2\%mIoU/87.3FPS, 77.4\%mIoU/67FPS, and 77.8\%mIoU/30.5FPS on Cityscapes dataset, and 69.6\%mIoU,71.0\% mIoU, and 74.2\% mIoU on Camvid dataset. The code for this work will be made available at \url{https://github.com/mohamedac29/S2-FPN
翻訳日:2024-05-22 01:31:04 公開日:2024-05-19
# 量子オイラー角とエージェンシー依存時空

Quantum Euler angles and agency-dependent spacetime ( http://arxiv.org/abs/2211.11347v2 )

ライセンス: Link先を確認
Giovanni Amelino-Camelia, Vittorio D'Esposito, Giuseppe Fabiano, Domenico Frattulillo, Philipp A. Hoehn, Flavio Mercati, (参考訳) 量子重力は参照フレームの記述に量子的側面を導入することが期待されている。 ここでは、古典対称性の量子重力誘起変形が、参照フレーム間の変換則を効果的に修正する方法について検討する。 量子群 $SU_q(2)$ を、2つの参照フレーム間の相対配向を記述するものとして、変形した空間回転と代数の表現の解釈状態の記述として呼び出す。 これはオイラー角の1つを量子化し、エージェンシー依存の新しいパラダイムへと導く:空間はファジィ点の集合として再構成され、各エージェントに排他的であり、参照フレームの選択に依存する。 各エージェントは、ポイントがシャープである1つの方向だけを選択することができ、他のすべての方向のポイントは、この選択に依存する方法でファジィになる。 異なる選択をする2つのエージェントは同じ点を異なるファジィで観測する。

Quantum gravity is expected to introduce quantum aspects into the description of reference frames. Here we set the stage for exploring how quantum gravity induced deformations of classical symmetries could modify the transformation laws among reference frames in an effective regime. We invoke the quantum group $SU_q(2)$ as a description of deformed spatial rotations and interpret states of a representation of its algebra as describing the relative orientation between two reference frames. This leads to a quantization of one of the Euler angles and to the new paradigm of agency-dependence: space is reconstructed as a collection of fuzzy points, exclusive to each agent, which depends on their choice of reference frame. Each agent can choose only one direction in which points can be sharp, while points in all other directions become fuzzy in a way that depends on this choice. Two agents making different choices will thus observe the same points with different degrees of fuzziness.
翻訳日:2024-05-22 01:20:28 公開日:2024-05-19
# 量子ジャジンスキー等式の設定における射影仮説

Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v7 )

ライセンス: Link先を確認
Eiji Konishi, (参考訳) 射影量子計測は、現代の量子力学において理論的に受け入れられた過程である。 しかし、その射影仮説は実験的に確立された経験則として広く見なされている。 本稿では、投射量子測定における射影仮説のハミルトン過程の実現に関する以前の結果と、マクロ量子力学系の質量中心の軌道可観測物の完全な集合が相互に可換な古典的可観測物の集合に制限されていることと、イベント読取に必要な作業(すなわち射影量子測定における情報的過程)に関する以前の結果を組み合わせる。 次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。

Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this article, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the orbital observables of the center of mass of a macroscopic quantum mechanical system is restricted to a set of mutually commuting classical observables, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously.
翻訳日:2024-05-22 01:20:28 公開日:2024-05-19
# 観測不能条件下での予測アルゴリズムのロバスト設計と評価

Robust Design and Evaluation of Predictive Algorithms under Unobserved Confounding ( http://arxiv.org/abs/2212.09844v5 )

ライセンス: Link先を確認
Ashesh Rambachan, Amanda Coston, Edward Kennedy, (参考訳) 予測アルゴリズムは、人間の意思決定者が選択した結果が選択的に観察される設定において、連続的な決定を通知する。 選択的に観測されたデータにおける予測アルゴリズムの頑健な設計と評価のための統一的なフレームワークを提案する。 提案手法は,観測された共変量に対する条件付き非選択単位と選択単位間の平均値において,結果がどの程度異なるか,およびニュアンスパラメータを同定し,プロキシ結果や機器変数などの欠落データを計算するための一般的な経験的戦略を定式化するものである。 本研究では, 予測アルゴリズムの平均二乗誤差, 真/偽の正の確率など, 予測性能の大規模推定値の境界値に対するバイアス付き機械学習推定器を開発した。 オーストラリアの大手金融機関の行政データセットにおいて、未観測の共起に関する様々な仮定が、デフォルトリスク予測やセンシティブなグループ間での信用スコアの評価に有意義な変化をもたらすかを説明する。

Predictive algorithms inform consequential decisions in settings where the outcome is selectively observed given choices made by human decision makers. We propose a unified framework for the robust design and evaluation of predictive algorithms in selectively observed data. We impose general assumptions on how much the outcome may vary on average between unselected and selected units conditional on observed covariates and identified nuisance parameters, formalizing popular empirical strategies for imputing missing data such as proxy outcomes and instrumental variables. We develop debiased machine learning estimators for the bounds on a large class of predictive performance estimands, such as the conditional likelihood of the outcome, a predictive algorithm's mean square error, true/false positive rate, and many others, under these assumptions. In an administrative dataset from a large Australian financial institution, we illustrate how varying assumptions on unobserved confounding leads to meaningful changes in default risk predictions and evaluations of credit scores across sensitive groups.
翻訳日:2024-05-22 01:20:28 公開日:2024-05-19
# ExcelFormer: DNNはタブラル予測のための確実なベットか?

ExcelFormer: Can a DNN be a Sure Bet for Tabular Prediction? ( http://arxiv.org/abs/2301.02819v4 )

ライセンス: Link先を確認
Jintai Chen, Jiahuan Yan, Qiyuan Chen, Danny Ziyi Chen, Jian Wu, Jimeng Sun, (参考訳) 表形式で整理されたデータは、現実世界のアプリケーションではユビキタスであり、ユーザーはしばしば、バイアスのある特徴定義を持つテーブルを作成し、自分の興味の予測ターゲットを柔軟に設定する。 したがって、堅牢で、効果的で、データセットに反し、ユーザフレンドリな表型予測アプローチの急速な開発が望まれている。 グラディエントブースティング決定木(GBDT)と既存のディープニューラルネットワーク(DNN)がプロのユーザによって広く利用されている一方で、彼らはカジュアルなユーザ、特にカジュアルなユーザに対していくつかの課題を提示している。 一 データセットの好みの違いによるモデル選択のジレンマ、及び (II)重度ハイパーパラメータ探索の必要性は,その性能が不十分であると考えられる。 本稿では,様々な表形式の予測タスクに対して,かつカジュアルなユーザにも親しみやすい「確実な賭け」ソリューションとして機能するディープラーニングモデルを開発することができるか,という課題を掘り下げる。 P1) 回転分散特性の欠如,(P2) 大規模データ需要,(P3) 過スムース解の3つの重要な欠点を考察した。 ExcelFormerは,DNNの回転不変性(P1の場合)を損なうような,情報の少ない特徴の影響を効果的に抑制する半透過型アテンションモジュール,表層データに適したデータ拡張アプローチ(P2),モデル適合性を高めるための注意型フィードフォワードネットワーク(P3の場合)を通じて,これらの課題に対処する。 これらの設計はExcelFormerを多種多様な表データセットの"確実な賭け"ソリューションにしている。 実世界のデータセットで実施された広範かつ階層化された実験により、我々のモデルは様々な表形式のデータ予測タスクにまたがって過去のアプローチよりも優れており、このフレームワークはカジュアルなユーザと親しみやすく、重いハイパーパラメータチューニングを使わずに使いやすくする。

Data organized in tabular format is ubiquitous in real-world applications, and users often craft tables with biased feature definitions and flexibly set prediction targets of their interests. Thus, a rapid development of a robust, effective, dataset-versatile, user-friendly tabular prediction approach is highly desired. While Gradient Boosting Decision Trees (GBDTs) and existing deep neural networks (DNNs) have been extensively utilized by professional users, they present several challenges for casual users, particularly: (i) the dilemma of model selection due to their different dataset preferences, and (ii) the need for heavy hyperparameter searching, failing which their performances are deemed inadequate. In this paper, we delve into this question: Can we develop a deep learning model that serves as a "sure bet" solution for a wide range of tabular prediction tasks, while also being user-friendly for casual users? We delve into three key drawbacks of deep tabular models, encompassing: (P1) lack of rotational variance property, (P2) large data demand, and (P3) over-smooth solution. We propose ExcelFormer, addressing these challenges through a semi-permeable attention module that effectively constrains the influence of less informative features to break the DNNs' rotational invariance property (for P1), data augmentation approaches tailored for tabular data (for P2), and attentive feedforward network to boost the model fitting capability (for P3). These designs collectively make ExcelFormer a "sure bet" solution for diverse tabular datasets. Extensive and stratified experiments conducted on real-world datasets demonstrate that our model outperforms previous approaches across diverse tabular data prediction tasks, and this framework can be friendly to casual users, offering ease of use without the heavy hyperparameter tuning.
翻訳日:2024-05-22 01:20:28 公開日:2024-05-19
# 確率的表現によるPDE学習のためのモンテカルロニューラルPDE解法

Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation ( http://arxiv.org/abs/2302.05104v3 )

ライセンス: Link先を確認
Rui Zhang, Qi Meng, Rongchan Zhu, Yue Wang, Wenlei Shi, Shihua Zhang, Zhi-Ming Ma, Tie-Yan Liu, (参考訳) 利用可能な限られたデータを持つシナリオでは、教師なしの方法で関数から関数へのニューラルPDEソルバを訓練することが不可欠である。 しかし、既存の手法の効率性と精度は、有限差分法や擬スペクトル法といった数値アルゴリズムの特性によって制約される。 これらの手法は、適切な精度を達成するために、慎重な時空間離散化を必要とし、特に相当な時空間変動のある場合において、重要な計算課題と不正確なシミュレーションをもたらす。 これらの制約に対処するために、PDEの確率的表現を用いて教師なしニューラルネットワークを訓練するためのモンテカルロ・ニューラルPDEソルバー(MCNPソルバー)を提案する。 他の教師なし手法と比較して、MCNPソルバーはモンテカルロ法(英語版)の利点を自然に受け継いでいる。 粒子の軌道をシミュレートするために, 対流過程にHeunの手法を用い, 拡散過程中に隣接する格子点の確率密度関数を用いて期待値を計算する。 これらの技術は精度を高め、モンテカルロサンプリングに関連する計算問題を回避している。 対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する数値実験により, 他の教師なしベースラインと比較して精度と効率が著しく向上した。 ソースコードは、https://github.com/optray/MCNPで公開されます。

In scenarios with limited available data, training the function-to-function neural PDE solver in an unsupervised manner is essential. However, the efficiency and accuracy of existing methods are constrained by the properties of numerical algorithms, such as finite difference and pseudo-spectral methods, integrated during the training stage. These methods necessitate careful spatiotemporal discretization to achieve reasonable accuracy, leading to significant computational challenges and inaccurate simulations, particularly in cases with substantial spatiotemporal variations. To address these limitations, we propose the Monte Carlo Neural PDE Solver (MCNP Solver) for training unsupervised neural solvers via the PDEs' probabilistic representation, which regards macroscopic phenomena as ensembles of random particles. Compared to other unsupervised methods, MCNP Solver naturally inherits the advantages of the Monte Carlo method, which is robust against spatiotemporal variations and can tolerate coarse step size. In simulating the trajectories of particles, we employ Heun's method for the convection process and calculate the expectation via the probability density function of neighbouring grid points during the diffusion process. These techniques enhance accuracy and circumvent the computational issues associated with Monte Carlo sampling. Our numerical experiments on convection-diffusion, Allen-Cahn, and Navier-Stokes equations demonstrate significant improvements in accuracy and efficiency compared to other unsupervised baselines. The source code will be publicly available at: https://github.com/optray/MCNP.
翻訳日:2024-05-22 01:10:43 公開日:2024-05-19
# 手動テストは不要か? 単体テスト生成のためのChatGPTの評価と改善

No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation ( http://arxiv.org/abs/2305.04207v3 )

ライセンス: Link先を確認
Zhiqiang Yuan, Yiling Lou, Mingwei Liu, Shiji Ding, Kaixin Wang, Yixuan Chen, Xin Peng, (参考訳) 単体テストは、機能的に分離されたプログラムユニットのバグを検出するのに不可欠である。 手動で高品質な単体テストを書くのは時間と労力がかかります。 従来のテクニックは適切なカバレッジでテストを生成することができるが、読みやすさが低く、開発者が直接採用することはできない。 最近の研究は、ユニットテスト生成における大規模言語モデル(LLM)の大きな可能性を示しており、より人間らしく有意義なテストコードを生成することができる。 指導指導と強化学習を取り入れた最新のLLMであるChatGPTは、様々な領域でよく機能している。 しかし、ChatGPTがユニット・テスト・ジェネレーションにおいてどの程度有効であるかはいまだ不明である。 本研究では,ChatGPTの単体テスト生成能力を評価するための実験的検討を行った。 具体的には, 精度, 有効性, 可読性, ユーザビリティについて, 定量的分析とユーザスタディを行い, 生成したテストの品質を体系的に調査する。 ChatGPTが生成したテストは、さまざまなコンパイルエラーや実行障害など、依然として正確性の問題に悩まされている。 それでもChatGPTが生成したパステストは、同等のカバレッジ、可読性、時には開発者の好みを達成することで、手書きのテストに似ている。 以上の結果から,ChatGPTを用いた単体テストの精度向上が期待できる可能性が示唆された。 以上の知見にインスパイアされたChatTESTERは、ChatGPT自体を活用して生成されたテストの品質を向上させる、新しいChatGPTベースの単体テスト生成手法である。 ChatTESTERには初期テストジェネレータと反復テスト精錬器が組み込まれている。 評価では、34.3%以上のコンパイル可能なテストと18.7%の正確なアサーションを持つテストを生成することで、ChatTESTERの有効性を示す。

Unit testing is essential in detecting bugs in functionally-discrete program units. Manually writing high-quality unit tests is time-consuming and laborious. Although traditional techniques can generate tests with reasonable coverage, they exhibit low readability and cannot be directly adopted by developers. Recent work has shown the large potential of large language models (LLMs) in unit test generation, which can generate more human-like and meaningful test code. ChatGPT, the latest LLM incorporating instruction tuning and reinforcement learning, has performed well in various domains. However, It remains unclear how effective ChatGPT is in unit test generation. In this work, we perform the first empirical study to evaluate ChatGPT's capability of unit test generation. Specifically, we conduct a quantitative analysis and a user study to systematically investigate the quality of its generated tests regarding the correctness, sufficiency, readability, and usability. The tests generated by ChatGPT still suffer from correctness issues, including diverse compilation errors and execution failures. Still, the passing tests generated by ChatGPT resemble manually-written tests by achieving comparable coverage, readability, and even sometimes developers' preference. Our findings indicate that generating unit tests with ChatGPT could be very promising if the correctness of its generated tests could be further improved. Inspired by our findings above, we propose ChatTESTER, a novel ChatGPT-based unit test generation approach, which leverages ChatGPT itself to improve the quality of its generated tests. ChatTESTER incorporates an initial test generator and an iterative test refiner. Our evaluation demonstrates the effectiveness of ChatTESTER by generating 34.3% more compilable tests and 18.7% more tests with correct assertions than the default ChatGPT.
翻訳日:2024-05-22 01:00:22 公開日:2024-05-19
# トリビュートAIコンペティションの物語の紹介

Introducing Tales of Tribute AI Competition ( http://arxiv.org/abs/2305.08234v4 )

ライセンス: Link先を確認
Jakub Kowalski, Radosław Miernik, Katarzyna Polak, Dominik Budzki, Damian Kowalik, (参考訳) 本稿では,The Elder Scrolls OnlineのHigh Isle章でリリースされた2人のプレイヤーによるデッキビルディングカードゲームに基づいて,新たなAIチャレンジであるTOTAIC(T Tales of Tribute AI Competition)を提案する。 現在、CCG(Collectible Card Games)のジャンルをカバーしているAIコンペティションは他になく、デッキビルディングゲームをターゲットにしたコンペティションは一度もない。 したがって、ランダム性や隠れ情報、大きな分岐要因など、通常のCCG関連の障害を克服するためには、長期的な計画と汎用性も必要である。 このゲームは、古典的な敵探索、シングルプレイヤー計画、ニューラルネットワークベースのアルゴリズムなど、複数のアプローチで対処することができる。 本稿では,競争の枠組みを紹介し,ゲームのルールを説明し,サンプルAIエージェント間のトーナメントの結果を示す。

This paper presents a new AI challenge, the Tales of Tribute AI Competition (TOTAIC), based on a two-player deck-building card game released with the High Isle chapter of The Elder Scrolls Online. Currently, there is no other AI competition covering Collectible Card Games (CCG) genre, and there has never been one that targets a deck-building game. Thus, apart from usual CCG-related obstacles to overcome, like randomness, hidden information, and large branching factor, the successful approach additionally requires long-term planning and versatility. The game can be tackled with multiple approaches, including classic adversarial search, single-player planning, and Neural Networks-based algorithms. This paper introduces the competition framework, describes the rules of the game, and presents the results of a tournament between sample AI agents.
翻訳日:2024-05-22 01:00:22 公開日:2024-05-19
# 平均対称性をもつ位相相:デコヒート、障害、本質

Topological Phases with Average Symmetries: the Decohered, the Disordered, and the Intrinsic ( http://arxiv.org/abs/2305.16399v3 )

ライセンス: Link先を確認
Ruochen Ma, Jian-Hao Zhang, Zhen Bi, Meng Cheng, Chong Wang, (参考訳) グローバル対称性はトポロジカル量子相の風景を大いに豊かにし、トポロジカルな絶縁体から分数量子ホール効果まで重要な役割を担っている。 混合量子状態の位相相は、開量子系における \textit{decoherence} や不完全結晶固体における \textit{disorders} に由来するが、近年大きな関心を集めている。 純状態とは異なり、混合量子状態は、個々の状態に対して、全アンサンブルを不変に保ちつつも、個々の状態に依存しない対称性である「textit{average symmetries}」を示すことができる。 本研究では,一般対称性群に適用可能な平均対称性保護位相 (ASPT) の体系的分類と特性について述べる。 さらに、不規則なボゾン系における平均対称性リッチトポロジカル位数(ASET)の理論を定式化する。 我々の体系的なアプローチは、過去の文献における曖昧な問題を明確化し、魅力的な新しい物理学を明らかにするのに役立ちます。 特に,(1)非整合系におけるASPT相の定義と分類が微妙な違いを示すこと,(2) 両相のASPT相は,欠陥装飾とスペクトル配列の統一的な枠組みで分類・特徴付けられること,(3) この系統分類は,対称性の一部が平均となる非整合系や乱系において排他的に現れること,(4) ASETと同様,非整合系における内在的乱相は,非整合性エキソン性を示す。

Global symmetries greatly enrich the landscape of topological quantum phases, playing an essential role from topological insulators to fractional quantum Hall effect. Topological phases in mixed quantum states, originating from \textit{decoherence} in open quantum systems or \textit{disorders} in imperfect crystalline solids, have recently garnered significant interest. Unlike pure states, mixed quantum states can exhibit \textit{average symmetries} -- symmetries that keep the total ensemble invariant but not on each individual state. In this work, we present a systematic classification and characterization of average symmetry-protected topological (ASPT) phases applicable to generic symmetry groups, encompassing both average and exact symmetries, for bosonic and fermionic systems. Moreover, we formulate the theory of average symmetry-enriched topological (ASET) orders in disordered bosonic systems. Our systematic approach helps clarify nuanced issues in previous literature and uncovers compelling new physics. Notably, we discover that (1) the definition and classification of ASPT phases in decohered and disordered systems exhibit subtle differences; (2) despite these differences, ASPT phases in both settings can be classified and characterized under a unified framework of defect decoration and spectral sequence; (3) this systematic classification uncovers a plethora of ASPT phases that are \textit{intrinsically mixed}, implying they can exclusively manifest in decohered or disordered systems where part of the symmetry is average; (4) similarly for ASET, we find intrinsically disordered phases exhibiting exotic anyon behaviors -- the ground states of such phases necessarily contain localized anyons, with gapless (yet still localized) excitation spectral.
翻訳日:2024-05-22 01:00:22 公開日:2024-05-19
# MultiLegalPile: 689GBの多言語法的コーパス

MultiLegalPile: A 689GB Multilingual Legal Corpus ( http://arxiv.org/abs/2306.02069v3 )

ライセンス: Link先を確認
Joel Niklaus, Veton Matoshi, Matthias Stürmer, Ilias Chalkidis, Daniel E. Ho, (参考訳) 大規模かつ高品質なデータセットは、大規模言語モデル(LLM)のトレーニングに不可欠である。 しかし、今のところ、法のような専門的な重要なドメインで利用可能なデータセットはほとんどなく、利用可能なデータセットは英語のみに限られることが多い。 我々は17の管轄区域から24の言語で689GBのコーパスであるMultiLegalPileをキュレートしてリリースする。 MultiLegalPile corpus は様々なライセンスを持つ様々な法的データソースを含み、Erlex Resources および Legal mC4 サブセットのより寛容なライセンスを持つ、公正な使用下で NLP モデルを事前訓練することができる。 2つのRoBERTaモデルと1つのLongformerモデルを多言語で事前学習し、各言語固有のサブセット上で24の単言語モデルを作成し、LEXTREMEで評価する。 さらに、LexGLUE上での英語および多言語モデルの評価を行った。 我々の多言語モデルは、LEXTREME上の新しいSotAとLexGLUE上の英語モデルを設定した。 最もオープンなライセンスの下で、データセット、トレーニングされたモデル、およびすべてのコードをリリースします。

Large, high-quality datasets are crucial for training Large Language Models (LLMs). However, so far, there are few datasets available for specialized critical domains such as law and the available ones are often only for the English language. We curate and release MultiLegalPile, a 689GB corpus in 24 languages from 17 jurisdictions. The MultiLegalPile corpus, which includes diverse legal data sources with varying licenses, allows for pretraining NLP models under fair use, with more permissive licenses for the Eurlex Resources and Legal mC4 subsets. We pretrain two RoBERTa models and one Longformer multilingually, and 24 monolingual models on each of the language-specific subsets and evaluate them on LEXTREME. Additionally, we evaluate the English and multilingual models on LexGLUE. Our multilingual models set a new SotA on LEXTREME and our English models on LexGLUE. We release the dataset, the trained models, and all of the code under the most open possible licenses.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-19
# センサを用いた人間行動認識のための教師なし統計的特徴誘導拡散モデル

Unsupervised Statistical Feature-Guided Diffusion Model for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2306.05285v2 )

ライセンス: Link先を確認
Si Zuo, Vitor Fortes Rey, Sungho Suh, Stephan Sigg, Paul Lukowicz, (参考訳) オンボディセンサーからのヒューマンアクティビティ認識(HAR)は、パーソナルヘルスからスポーツ、ウェルネス、産業用4.0まで、多くのAIアプリケーションの中核的な機能である。 コンピュータビジョンなどの他のML領域と比較して、ウェアラブルセンサーベースのHARの進歩を支えている重要な問題は、多様なラベル付きトレーニングデータの利用不可能である。 特に、オンラインレポジトリで利用可能な無数の注釈付きイメージがあるが、無償のセンサデータは疎外され、ほとんどラベルが付けられていない。 Inertial Measurement Unit (IMU) センサなどのデバイスを用いたウェアラブルセンサによる人間活動認識に特化して, 教師なしの統計的特徴誘導拡散モデルを提案する。 注釈付きトレーニングデータに頼ることなく、合成ラベル付き時系列センサデータを生成する。 これにより、現実世界のセンサーデータにかかわる不足とアノテーションの問題に対処する。 平均,標準偏差,Zスコア,歪などの統計情報に拡散モデルを適用し,多種多様な合成センサデータを生成する。 公共活動認識データセットの実験を行い, 従来のオーバーサンプリング法と, 最先端のジェネレーティブ・ネットワーク法との比較を行った。 実験により,人間の活動認識能力の向上と既存技術の向上が実証された。

Human activity recognition (HAR) from on-body sensors is a core functionality in many AI applications: from personal health, through sports and wellness to Industry 4.0. A key problem holding up progress in wearable sensor-based HAR, compared to other ML areas, such as computer vision, is the unavailability of diverse and labeled training data. Particularly, while there are innumerable annotated images available in online repositories, freely available sensor data is sparse and mostly unlabeled. We propose an unsupervised statistical feature-guided diffusion model specifically optimized for wearable sensor-based human activity recognition with devices such as inertial measurement unit (IMU) sensors. The method generates synthetic labeled time-series sensor data without relying on annotated training data. Thereby, it addresses the scarcity and annotation difficulties associated with real-world sensor data. By conditioning the diffusion model on statistical information such as mean, standard deviation, Z-score, and skewness, we generate diverse and representative synthetic sensor data. We conducted experiments on public human activity recognition datasets and compared the method to conventional oversampling and state-of-the-art generative adversarial network methods. Experimental results demonstrate that this can improve the performance of human activity recognition and outperform existing techniques.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-19
# 単一原子断熱量子メモリの性能と帯域幅のモデル化

Modeling the performance and bandwidth of single-atom adiabatic quantum memories ( http://arxiv.org/abs/2306.07855v2 )

ライセンス: Link先を確認
Takla Nateeboon, Chanaprom Cholsuk, Tobias Vogl, Sujin Suwanna, (参考訳) 量子記憶は、将来の量子インターネットのバックボーンを形成する量子リピータにとって不可欠である。 このようなメモリは、この状態が取得された後、制御可能な時間の信号状態を取得することができる。 本研究では,原子材料と工学的パラメータが量子メモリの性能と帯域幅に与える影響を理論的に検討した。 我々は、Lindbladマスター方程式と断熱量子状態操作に基づく量子メモリ演算の理論モデルを適用した。 2次元六方晶窒化ホウ素 (hBN) の2つの欠陥を示すことにより, ラマン型量子メモリの性能を評価するために, 材料特性とその不確かさを評価した。 材料パラメータと最大効率に基づいて信号帯域幅を計算する手法を考案した。 帯域幅は、信号光子周波数、電子構造における双極子遷移モーメント、空洞体積、外部制御電界の強度の4つの要因に依存する。 我々のスキームは一般的な材料とは独立であるので、適切な3レベル構造を持つ他の多くの量子材料にも適用することができる。 そこで我々は、量子メモリのための材料の設計と選択に有望な経路を提供した。 したがって、我々の研究は大規模量子ネットワークの実現に向けた重要なステップである。

Quantum memories are essential for quantum repeaters that will form the backbone of the future quantum internet. Such memory can capture a signal state for a controllable amount of time after which this state can be retrieved. In this work, we theoretically investigated how atomic material and engineering parameters affect the performance and bandwidth of a quantum memory. We have applied a theoretical model for quantum memory operation based on the Lindblad master equation and adiabatic quantum state manipulation. The materials properties and their uncertainty are evaluated to determine the performance of Raman-type quantum memories by showcasing two defects in two-dimensional hexagonal boron nitride (hBN). We have derived a scheme to calculate the signal bandwidth based on the material parameters as well as the maximum efficiency that can be realized. The bandwidth depends on four factors: the signal photon frequency, the dipole transition moments in the electronic structure, cavity volume, and the strength of the external control electric field. As our scheme is general and independent of materials, it can be applied to many other quantum materials with a suitable three-level structure. We therefore provided a promising route for designing and selecting materials for quantum memories. Our work is therefore an important step toward the realization of a large-scale quantum network.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-19
# 混合量子古典力学の複素流体モデル

Complex fluid models of mixed quantum-classical dynamics ( http://arxiv.org/abs/2306.15652v2 )

ライセンス: Link先を確認
François Gay-Balmaz, Cesare Tronci, (参考訳) 非断熱的分子動力学のいくつかの手法は、マデラングの原子運動の流体力学的記述に基づいており、一方電子成分は有限次元量子系として扱われる。 この文脈では、量子ポテンシャルは深刻な計算上の問題を引き起こし、しばしばその貢献を無視し、したがって核運動を古典的なものとして近似しようとする。 結果として得られるモデルは、電子部品の量子運動に原子核の古典的な流体力学を結合させ、複雑な流体系の構造へと繋がる。 この種の混合量子古典流体モデルは、液体溶媒と量子溶質分子とのカップリングを記述するための溶媒力学にも現れる。 これらのアプローチは有望な方向を示すが、数学的構造にはある程度の注意が必要である。 場合によっては、高次の勾配に挑戦することで、これらの方程式は難解である。 他の場合、これらのモデルはよく知られた一貫性の問題に悩まされる位相空間の定式化に基づいている。 本稿では,これらの困難を解消する新しい複雑な流体システムを提案する。 一般的なアプローチとは異なり、現在のシステムは、元の位相空間モデルの作用原理のレベルで流体クロージャを適用することで得られる。 その結果、システムはハミルトニアン構造を継承し、エネルギー/モメンタムバランスを保持する。 その構造的性質と力学不変量について論じた後、純粋退化力学の場合のモデルを説明する。 我々はいくつかの不変平面モデルを提示することで結論付ける。

Several methods in nonadiabatic molecular dynamics are based on Madelung's hydrodynamic description of nuclear motion, while the electronic component is treated as a finite-dimensional quantum system. In this context, the quantum potential leads to severe computational challenges and one often seeks to neglect its contribution, thereby approximating nuclear motion as classical. The resulting model couples classical hydrodynamics for the nuclei to the quantum motion of the electronic component, leading to the structure of a complex fluid system. This type of mixed quantum-classical fluid models have also appeared in solvation dynamics to describe the coupling between liquid solvents and the quantum solute molecule. While these approaches represent a promising direction, their mathematical structure requires a certain care. In some cases, challenging higher-order gradients make these equations hardly tractable. In other cases, these models are based on phase-space formulations that suffer from well-known consistency issues. Here, we present a new complex fluid system that resolves these difficulties. Unlike common approaches, the current system is obtained by applying the fluid closure at the level of the action principle of the original phase-space model. As a result, the system inherits a Hamiltonian structure and retains energy/momentum balance. After discussing some of its structural properties and dynamical invariants, we illustrate the model in the case of pure-dephasing dynamics. We conclude by presenting some invariant planar models.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-19
# 被験者拡散:テスト時間微調整を伴わないオープンドメインパーソナライズされたテキスト・ツー・イメージ生成

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning ( http://arxiv.org/abs/2307.11410v2 )

ライセンス: Link先を確認
Jian Ma, Junhao Liang, Chen Chen, Haonan Lu, (参考訳) 拡散モデルを用いたパーソナライズされた画像生成の最近の進歩は顕著である。 しかし、オープンドメインと非微調整のパーソナライズされた画像生成領域の開発は、かなりゆっくりと進んでいる。 本稿では、テストタイムの微調整を必要とせず、単一の参照画像のみを必要とせず、任意の領域における単一または複数オブジェクトのパーソナライズされた生成をサポートする、新しいオープンドメイン・パーソナライズされた画像生成モデルである「サブジェクト・ディフュージョン」を提案する。 まず、自動データラベリングツールを構築し、LAION-Aestheticsデータセットを用いて76M画像とその対応する対象検出境界ボックス、セグメンテーションマスク、テキスト記述からなる大規模データセットを構築する。 第2に、粗い位置ときめ細かい参照画像制御を組み込むことで、テキストと画像のセマンティクスを組み合わせた統合されたフレームワークを設計し、対象の忠実度と一般化を最大化する。 さらに,マルチオブジェクト生成をサポートするアテンション制御機構も採用している。 大規模定性的および定量的な結果から,本手法は他のSOTAフレームワークよりも,単一,複数,人間がカスタマイズした画像生成において優れていることが示された。 我々の \href{https://oppo-mente-lab.github.io/subject_diffusion/}{project page} を参照してください。

Recent progress in personalized image generation using diffusion models has been significant. However, development in the area of open-domain and non-fine-tuning personalized image generation is proceeding rather slowly. In this paper, we propose Subject-Diffusion, a novel open-domain personalized image generation model that, in addition to not requiring test-time fine-tuning, also only requires a single reference image to support personalized generation of single- or multi-subject in any domain. Firstly, we construct an automatic data labeling tool and use the LAION-Aesthetics dataset to construct a large-scale dataset consisting of 76M images and their corresponding subject detection bounding boxes, segmentation masks and text descriptions. Secondly, we design a new unified framework that combines text and image semantics by incorporating coarse location and fine-grained reference image control to maximize subject fidelity and generalization. Furthermore, we also adopt an attention control mechanism to support multi-subject generation. Extensive qualitative and quantitative results demonstrate that our method outperforms other SOTA frameworks in single, multiple, and human customized image generation. Please refer to our \href{https://oppo-mente-lab.github.io/subject_diffusion/}{project page}
翻訳日:2024-05-22 00:50:05 公開日:2024-05-19
# 大規模言語モデルのための忘れられない公開検証可能な透かし

An Unforgeable Publicly Verifiable Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v6 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King, Philip S. Yu, (参考訳) 近年,大型言語モデル (LLM) のためのテキスト透かしアルゴリズムが提案され,偽ニュースや著作権問題など LLM が生成するテキストの潜在的な害を軽減している。 しかし、現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とするため、公衆の検知中にセキュリティ違反や偽造の影響を受けやすい。 この制限に対処するため、両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行うUPVという、忘れられない公開検証可能な透かしアルゴリズムを提案する。 一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワークの間で共有され、検出ネットワークは極めて効率的に精度が向上する。 実験により,ニューラルネットワークによる検出精度と計算効率が向上した。 その後の解析により、検出ネットワークから透かしを鍛造する際の複雑さが確認される。 私たちのコードは、 \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}で利用可能です。 さらに、我々のアルゴリズムはMarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}を通じてアクセスすることもできる。

Recently, text watermarking algorithms for large language models (LLMs) have been proposed to mitigate the potential harms of text generated by LLMs, including fake news and copyright issues. However, current watermark detection algorithms require the secret key used in the watermark generation process, making them susceptible to security breaches and counterfeiting during public detection. To address this limitation, we propose an unforgeable publicly verifiable watermark algorithm named UPV that uses two different neural networks for watermark generation and detection, instead of using the same key at both stages. Meanwhile, the token embedding parameters are shared between the generation and detection networks, which makes the detection network achieve a high accuracy very efficiently. Experiments demonstrate that our algorithm attains high detection accuracy and computational efficiency through neural networks. Subsequent analysis confirms the high complexity involved in forging the watermark from the detection network. Our code is available at \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}. Additionally, our algorithm could also be accessed through MarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}.
翻訳日:2024-05-22 00:40:21 公開日:2024-05-19
# NaijaRC: ナイジェリアの言語のための多項目読解データセット

NaijaRC: A Multi-choice Reading Comprehension Dataset for Nigerian Languages ( http://arxiv.org/abs/2308.09768v3 )

ライセンス: Link先を確認
Anuoluwapo Aremu, Jesujoba O. Alabi, Daud Abolade, Nkechinyere F. Aguobi, Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, (参考訳) 本稿では,ナイジェリアの3つの母国語を対象とした複数選択読解データセットであるNaijaRCを,高等学校の読解読解試験に基づいて作成する。 既存の英語RACEとベレベレ訓練データセットを用いて、事前学習したエンコーダのみのモデルに基づいて、言語間移動を行うことで、ベースライン結果を提供する。 さらに, GPT-4 のような大規模言語モデル (LLM) も提案する。

In this paper, we create NaijaRC: a new multi-choice Reading Comprehension dataset for three native Nigeria languages that is based on high-school reading comprehension examination. We provide baseline results by performing cross-lingual transfer using existing English RACE and Belebele training dataset based on a pre-trained encoder-only model. Additionally, we provide results by prompting large language models (LLMs) like GPT-4.
翻訳日:2024-05-22 00:40:21 公開日:2024-05-19
# リスク時の匿名性 : 大規模言語モデルの再同定能力の評価

Anonymity at Risk? Assessing Re-Identification Capabilities of Large Language Models ( http://arxiv.org/abs/2308.11103v2 )

ライセンス: Link先を確認
Alex Nyffenegger, Matthias Stürmer, Joel Niklaus, (参考訳) 裁判所判決における自然と法的双方の匿名性は、欧州連合とスイスにおけるプライバシー保護の重要な側面である。 LLMの出現に伴い、匿名化者の大規模再識別への懸念が高まっている。 スイス連邦最高裁判所に従って、スイス連邦最高裁判所の実際の法的データを用いて概念実証を構築することにより、裁判所の判決において個人を再識別するLLMの可能性を探る。 実験の結果, 匿名化されたウィキペディアデータセットを, より厳密な試験場として構築し, さらなる調査を行った。 テキスト中の人物を識別する新しいタスクの導入と適用により、パフォーマンスを測定するための新しい指標も導入する。 モデルサイズ, 入力長, 命令のチューニングを最も重要な決定要因として同定し, 再同定に影響を及ぼす要因を系統的に分析する。 ウィキペディアの再識別率が高いにもかかわらず、最高のLCMでさえ裁判所の判断に苦しんだ。 この複雑さは、テストデータセットの欠如、実質的なトレーニングリソースの必要性、そして再識別に使用される情報の空間性に起因する。 結論として,本研究では,LLMを用いた再同定は現時点では不可能であるが,ウィキペディアにおける概念実証が示すように,将来的には可能となる可能性がある。 当社のシステムは、匿名化された決定のセキュリティに対する信頼性を高めるのに役立ち、裁判所が決定を公表する自信を増すことを願っています。

Anonymity of both natural and legal persons in court rulings is a critical aspect of privacy protection in the European Union and Switzerland. With the advent of LLMs, concerns about large-scale re-identification of anonymized persons are growing. In accordance with the Federal Supreme Court of Switzerland, we explore the potential of LLMs to re-identify individuals in court rulings by constructing a proof-of-concept using actual legal data from the Swiss federal supreme court. Following the initial experiment, we constructed an anonymized Wikipedia dataset as a more rigorous testing ground to further investigate the findings. With the introduction and application of the new task of re-identifying people in texts, we also introduce new metrics to measure performance. We systematically analyze the factors that influence successful re-identifications, identifying model size, input length, and instruction tuning among the most critical determinants. Despite high re-identification rates on Wikipedia, even the best LLMs struggled with court decisions. The complexity is attributed to the lack of test datasets, the necessity for substantial training resources, and data sparsity in the information used for re-identification. In conclusion, this study demonstrates that re-identification using LLMs may not be feasible for now, but as the proof-of-concept on Wikipedia showed, it might become possible in the future. We hope that our system can help enhance the confidence in the security of anonymized decisions, thus leading to the courts being more confident to publish decisions.
翻訳日:2024-05-22 00:40:21 公開日:2024-05-19
# 部分グラフ補間を用いた量子ネットワークにおける多部絡み合い分布

Multipartite Entanglement Distribution in Quantum Networks using Subgraph Complementations ( http://arxiv.org/abs/2308.13700v4 )

ライセンス: Link先を確認
Aniruddha Sen, Kenneth Goodenough, Don Towsley, (参考訳) 量子ネットワークは量子通信において重要であり、量子テレポーテーション、量子鍵分布、量子センシング、量子誤り訂正などのタスクが可能である。 グラフ状態 (Graph state) は、グラフで表現できる多部交絡状態の特定のクラスである。 量子ネットワーク上でグラフ状態を分散する新しい手法を提案する。 グラフ状態の分布は、基礎となるグラフの最小ランクと量子状態のシュミットランクによって量子化された絡み合いの度合いにも関係している部分グラフ補間システムによって特徴づけられることを示す。 我々は,提案アルゴリズムの資源使用量を分析し,従来の作業と比較して,量子ビット数,古典的通信用ビット数,EPRペア数を改善することを示す。 実際、我々のアプローチのローカル操作の数とリソース消費は、頂点の数で線形にスケールする。 これにより、密度グラフで表されるグラフ状態のいくつかのクラスに対する完了時間の2次改善が得られ、ゲート演算の並列化を可能にして指数関数的に改善される。 これにより,ノイズ操作の有無が向上し,ノイズ操作の有無がシミュレーションによって示されるようになる。 グラフ状態の共通クラスは、部分グラフ補完を用いて最適な分布時間とともに分類される。 任意のグラフ状態の分配に最適な部分グラフ補完演算の列を見つけ, 分布時間上の上限を設定し, 近似的なグリーディアルゴリズムを提供する。

Quantum networks are important for quantum communication and allow for several tasks such as quantum teleportation, quantum key distribution, quantum sensing, and quantum error correction. Graph states are a specific class of multipartite entangled states that can be represented by graphs. We propose a novel approach for distributing graph states across a quantum network. We show that the distribution of graph states can be characterized by a system of subgraph complementations, which we also relate to the minimum rank of the underlying graph and the degree of entanglement quantified by the Schmidt-rank of the quantum state. We analyze resource usage for our algorithm and show that it improves on the number of qubits, bits for classical communication, and EPR pairs utilized, as compared to prior work. In fact, the number of local operations and resource consumption for our approach scales linearly in the number of vertices. This produces a quadratic improvement in completion time for several classes of graph states represented by dense graphs, which translates into an exponential improvement by allowing parallelization of gate operations. This leads to improved fidelities in the presence of noisy operations, as we show through simulation in the presence of noisy operations. Common classes of graph states are classified along with their optimal distribution time using subgraph complementations. We find a close to optimal sequence of subgraph complementation operations to distribute an arbitrary graph state, and establish upper bounds on distribution time along with providing approximate greedy algorithms.
翻訳日:2024-05-22 00:40:21 公開日:2024-05-19
# クラスリバランシングを伴わないクラス不均衡グラフ学習

Class-Imbalanced Graph Learning without Class Rebalancing ( http://arxiv.org/abs/2308.14181v2 )

ライセンス: Link先を確認
Zhining Liu, Ruizhong Qiu, Zhichen Zeng, Hyunsik Yoo, David Zhou, Zhe Xu, Yada Zhu, Kommy Weldemariam, Jingrui He, Hanghang Tong, (参考訳) クラス不均衡は実世界のノード分類タスクでよく見られ、グラフ学習モデルには大きな課題がある。 既存の研究の多くは、クラスバランス(CR)の観点と、クラスワイドのリウェイトやリサンプリングによるクラス不均衡に根ざしている。 本研究では、トポロジカルパラダイムからクラス不均衡バイアスの根本原因にアプローチする。 具体的には、クラス不均衡に起因する予測バイアスを大幅に悪化させるグラフトポロジーにおける2つの基本的な現象を理論的に明らかにする。 そこで我々は,クラス再バランスを伴わないクラスバランスバイアスを軽減するために,軽量なトポロジカル拡張フレームワークBATを考案した。 CRと直交しているため、BATは効率的なプラグイン・アンド・プレイモジュールとして機能し、既存のCR技術とシームレスに結合し、大幅に向上させることができる。 実世界の不均衡グラフ学習タスクに関する体系的な実験は、BATが46.27%のパフォーマンス向上と72.74%のバイアス低減を達成できることを示している。 コード、例、ドキュメントはhttps://github.com/ZhiningLiu1998/BAT.orgで公開されている。

Class imbalance is prevalent in real-world node classification tasks and poses great challenges for graph learning models. Most existing studies are rooted in a class-rebalancing (CR) perspective and address class imbalance with class-wise reweighting or resampling. In this work, we approach the root cause of class-imbalance bias from an topological paradigm. Specifically, we theoretically reveal two fundamental phenomena in the graph topology that greatly exacerbate the predictive bias stemming from class imbalance. On this basis, we devise a lightweight topological augmentation framework BAT to mitigate the class-imbalance bias without class rebalancing. Being orthogonal to CR, BAT can function as an efficient plug-and-play module that can be seamlessly combined with and significantly boost existing CR techniques. Systematic experiments on real-world imbalanced graph learning tasks show that BAT can deliver up to 46.27% performance gain and up to 72.74% bias reduction over existing techniques. Code, examples, and documentations are available at https://github.com/ZhiningLiu1998/BAT.
翻訳日:2024-05-22 00:40:21 公開日:2024-05-19
# SI-SD:Awake-Guided Cross-Subject Semantic Decodingによるスリープインタプリタ

SI-SD: Sleep Interpreter through awake-guided cross-subject Semantic Decoding ( http://arxiv.org/abs/2309.16457v3 )

ライセンス: Link先を確認
Hui Zheng, Zhong-Tao Chen, Hai-Teng Wang, Jian-Yang Zhou, Lin Zheng, Pei-Yang Lin, Yun-Zhe Liu, (参考訳) 睡眠中の脳の活動から意味的内容を理解することは、神経科学の主要な目標である。 げっ歯類の研究は睡眠中の記憶の自発的な神経活動を示しているが、人間の睡眠のセマンティックな内容を把握することは、よく注釈された睡眠データセットが欠如していることと、覚醒と睡眠の間の神経パターンが著しく異なることによる重要な課題である。 これらの課題に対処するため、我々は新しい認知神経科学実験を設計し、覚醒と睡眠の間に134人の被験者から包括的、注意深い脳波(EEG)データセットを収集した。 このベンチマークデータセットを利用して、ウェイクフルネスと睡眠の間のニューラル潜時シーケンスの位置ワイドアライメントにより、睡眠セマンティックデコーディングを強化するSI-SDを開発した。 NREM 2/3 と REM では,それぞれ 24.12% と 21.39% のトップ-1 の精度を達成し,他のすべてのベースラインを上回った。 さらなる微調整により、復号性能は30.32%と31.65%に向上した。 さらに、これまでの神経科学的な発見に触発されて、「スローオシレーション」イベントがNREM 2/3睡眠におけるデコードパフォーマンスにどのように影響するかを系統的に分析した。 睡眠中の脳活動の復号化を目的とした,有望なニューロAIフレームワークの構築に本研究の成果と方法論が寄与した。

Understanding semantic content from brain activity during sleep represents a major goal in neuroscience. While studies in rodents have shown spontaneous neural reactivation of memories during sleep, capturing the semantic content of human sleep poses a significant challenge due to the absence of well-annotated sleep datasets and the substantial differences in neural patterns between wakefulness and sleep. To address these challenges, we designed a novel cognitive neuroscience experiment and collected a comprehensive, well-annotated electroencephalography (EEG) dataset from 134 subjects during both wakefulness and sleep. Leveraging this benchmark dataset, we developed SI-SD that enhances sleep semantic decoding through the position-wise alignment of neural latent sequence between wakefulness and sleep. In the 15-way classification task, our model achieves 24.12% and 21.39% top-1 accuracy on unseen subjects for NREM 2/3 and REM sleep, respectively, surpassing all other baselines. With additional fine-tuning, decoding performance improves to 30.32% and 31.65%, respectively. Besides, inspired by previous neuroscientific findings, we systematically analyze how the "Slow Oscillation" event impacts decoding performance in NREM 2/3 sleep -- decoding performance on unseen subjects further improves to 40.02%. Together, our findings and methodologies contribute to a promising neuro-AI framework for decoding brain activity during sleep.
翻訳日:2024-05-22 00:30:29 公開日:2024-05-19
# 教師なしスキル発見における行動品質と多様性のバランス

Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery ( http://arxiv.org/abs/2309.17203v2 )

ライセンス: Link先を確認
Xin Liu, Yaran Chen, Dongbin Zhao, (参考訳) この研究はIEEEに提出された。 著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。 教師なしのスキル発見は、様々な方法で複数の下流タスクに効率よく適応し、外因的な報酬なしに多様な探索スキルを掘り下げようとしている。 しかし、最近の高度な手法は、特にエージェントのダイナミクスが複雑で潜在的なスキルが識別しにくい場合(例えば、ロボットの行動発見)に、行動探索と多様性のバランスをよく保つのに苦労している。 本稿では,新しい本質的なインセンティブによって探索的かつ多様な振る舞いを発見できる,コントラッシブ多目的報酬(tratrative multi-jective reward)を提案する。 これには、エージェントが既存のスキルを効果的に識別するための対照的な学習に基づく新しい多様性報酬と、新しい行動にアクセスして学習するための粒子ベースの探索報酬が含まれる。 さらに, この2つの報酬間の動的重み付け機構を多様性-探索バランスに提案し, 行動の質をさらに向上させる。 大規模な実験と分析により、ComSDは複雑な多関節ロボットの探索レベルが異なる多様な振る舞いを生成できることが証明された。 コードは公開後に公開される。

This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Unsupervised skill discovery seeks to dig out diverse and exploratory skills without extrinsic reward, with the discovered skills efficiently adapting to multiple downstream tasks in various ways. However, recent advanced methods struggle to well balance behavioral exploration and diversity, particularly when the agent dynamics are complex and potential skills are hard to discern (e.g., robot behavior discovery). In this paper, we propose \textbf{Co}ntrastive \textbf{m}ulti-objective \textbf{S}kill \textbf{D}iscovery \textbf{(ComSD)} which discovers exploratory and diverse behaviors through a novel intrinsic incentive, named contrastive multi-objective reward. It contains a novel diversity reward based on contrastive learning to effectively drive agents to discern existing skills, and a particle-based exploration reward to access and learn new behaviors. Moreover, a novel dynamic weighting mechanism between the above two rewards is proposed for diversity-exploration balance, which further improves behavioral quality. Extensive experiments and analysis demonstrate that ComSD can generate diverse behaviors at different exploratory levels for complex multi-joint robots, enabling state-of-the-art performance across 32 challenging downstream adaptation tasks, which recent advanced methods cannot. Codes will be opened after publication.
翻訳日:2024-05-22 00:30:29 公開日:2024-05-19
# 視覚的環境におけるAUVドッキングのための適応的なランドマークカラー

Adaptive Landmark Color for AUV Docking in Visually Dynamic Environments ( http://arxiv.org/abs/2310.02944v2 )

ライセンス: Link先を確認
Corey Knutson, Zhipeng Cao, Junaed Sattar, (参考訳) 自律型水中車両(AUV)は、人間の介入なしに水中での任務を遂行する。 ドッキングステーション(DS)は、AUVが電池を充電し、更新されたミッション情報を受信する場所を提供することで、AUVのミッション時間を延長することができる。 DSの位置と追跡には様々な方法が存在するが、その多くは高価な音響センサーに依存している。 そこで本研究では,適応色LEDマーカーと動的カラーフィルタを用いて,様々な水環境における目に見える可視性を最大化する視覚的手法を提案する。 AUVとDSはどちらも、望まれるマーカーの色を計算するために、カメラを使用して水背景の色を決定する。 マーカー色を決定するためにAUVとDS間の通信は不要である。 プールと湖で行った実験では,背景色が変化するにつれて,静止色閾値法よりも10倍の精度が得られた。 DS検出は、最小限の偽陽性で澄んだ水中で5mの範囲で可能である。

Autonomous Underwater Vehicles (AUVs) conduct missions underwater without the need for human intervention. A docking station (DS) can extend mission times of an AUV by providing a location for the AUV to recharge its batteries and receive updated mission information. Various methods for locating and tracking a DS exist, but most rely on expensive acoustic sensors, or are vision-based, which is significantly affected by water quality. In this \doctype, we present a vision-based method that utilizes adaptive color LED markers and dynamic color filtering to maximize landmark visibility in varying water conditions. Both AUV and DS utilize cameras to determine the water background color in order to calculate the desired marker color. No communication between AUV and DS is needed to determine marker color. Experiments conducted in a pool and lake show our method performs 10 times better than static color thresholding methods as background color varies. DS detection is possible at a range of 5 meters in clear water with minimal false positives.
翻訳日:2024-05-22 00:30:29 公開日:2024-05-19
# 大規模言語モデルのための意味不変ロバストな透かし

A Semantic Invariant Robust Watermark for Large Language Models ( http://arxiv.org/abs/2310.06356v3 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shiao Meng, Lijie Wen, (参考訳) 大規模言語モデル(LLM)のための透かしアルゴリズムは,LLMによって生成されたテキストを極めて高精度に検出できる。 このようなアルゴリズムは通常、世代毎にLLMのロジットに余分な透かしロジットを追加する。 しかし、以前のアルゴリズムは攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面している。 これは、トークンの透かしロジットが、先行するトークンの数によって決定されるためである。 本研究では,LLMの攻撃堅牢性とセキュリティ堅牢性の両方を提供する意味不変な透かし手法を提案する。 私たちの研究における透かしのロジットは、前のトークンのセマンティクスによって決定されます。 具体的には、他の埋め込み LLM を用いて、先行するトークンのセマンティック埋め込みを生成し、これらのセマンティック埋め込みは、トレーニングされた透かしモデルを通して、透かしロジットに変換される。 その後の分析と実験により,同義語置換とテキストパラフレーズ設定による意味的不変なセッティングにおいて,本手法の攻撃堅牢性を示した。 最後に、我々の透かしが適切なセキュリティの堅牢性を持っていることも示します。 私たちのコードとデータは、 \href{https://github.com/THU-BPM/Robust_Watermark}{https://github.com/THU-BPM/Robust\_Watermark}で利用可能です。 さらに、我々のアルゴリズムはMarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}を通じてアクセスすることもできる。

Watermark algorithms for large language models (LLMs) have achieved extremely high accuracy in detecting text generated by LLMs. Such algorithms typically involve adding extra watermark logits to the LLM's logits at each generation step. However, prior algorithms face a trade-off between attack robustness and security robustness. This is because the watermark logits for a token are determined by a certain number of preceding tokens; a small number leads to low security robustness, while a large number results in insufficient attack robustness. In this work, we propose a semantic invariant watermarking method for LLMs that provides both attack robustness and security robustness. The watermark logits in our work are determined by the semantics of all preceding tokens. Specifically, we utilize another embedding LLM to generate semantic embeddings for all preceding tokens, and then these semantic embeddings are transformed into the watermark logits through our trained watermark model. Subsequent analyses and experiments demonstrated the attack robustness of our method in semantically invariant settings: synonym substitution and text paraphrasing settings. Finally, we also show that our watermark possesses adequate security robustness. Our code and data are available at \href{https://github.com/THU-BPM/Robust_Watermark}{https://github.com/THU-BPM/Robust\_Watermark}. Additionally, our algorithm could also be accessed through MarkLLM \citep{pan2024markllm} \footnote{https://github.com/THU-BPM/MarkLLM}.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# 視覚強化学習における塑性の再考:データ,モジュール,訓練段階

Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages ( http://arxiv.org/abs/2310.07418v3 )

ライセンス: Link先を確認
Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao, (参考訳) ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率の良い視覚強化学習(VRL)に不可欠である。 リセットや正規化のような手法は可塑性損失を緩和する可能性があるが、VRLフレームワーク内の様々な成分がエージェントの可塑性に与える影響はいまだに理解されていない。 本研究では,(1)データの増大が塑性維持に不可欠であること,(2)批判者の塑性損失が効率的なトレーニングを妨げる主要なボトルネックとなること,(3)批判者の塑性を早期に回復するための時間的介入がなければ,その損失は破滅的になる,という,3つの主要な調査に焦点をあてた系統的な実証調査を行った。 これらの知見は, 高再生率 (RR) ジレンマに対処するための新たな戦略を示唆している。 トレーニングプロセス全体に対して静的RRを設定するのではなく、批判者の可塑性レベルに基づいてRRを動的に調整するAdaptive RRを提案する。 広範囲な評価は、適応RRが早期の破滅的な可塑性損失を回避できるだけでなく、後期のより頻繁な再利用の恩恵を受け、より優れた試料効率をもたらすことを示している。

Plasticity, the ability of a neural network to evolve with new data, is crucial for high-performance and sample-efficient visual reinforcement learning (VRL). Although methods like resetting and regularization can potentially mitigate plasticity loss, the influences of various components within the VRL framework on the agent's plasticity are still poorly understood. In this work, we conduct a systematic empirical exploration focusing on three primary underexplored facets and derive the following insightful conclusions: (1) data augmentation is essential in maintaining plasticity; (2) the critic's plasticity loss serves as the principal bottleneck impeding efficient training; and (3) without timely intervention to recover critic's plasticity in the early stages, its loss becomes catastrophic. These insights suggest a novel strategy to address the high replay ratio (RR) dilemma, where exacerbated plasticity loss hinders the potential improvements of sample efficiency brought by increased reuse frequency. Rather than setting a static RR for the entire training process, we propose Adaptive RR, which dynamically adjusts the RR based on the critic's plasticity level. Extensive evaluations indicate that Adaptive RR not only avoids catastrophic plasticity loss in the early stages but also benefits from more frequent reuse in later phases, resulting in superior sample efficiency.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# 機械学習モデルが漏洩したとき - 合成トレーニングデータの探索

When Machine Learning Models Leak: An Exploration of Synthetic Training Data ( http://arxiv.org/abs/2310.08775v3 )

ライセンス: Link先を確認
Manel Slokom, Peter-Paul de Wolf, Martha Larson, (参考訳) 本研究では,今後2年間で人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃について検討する。 この攻撃は、攻撃者がモデルをクエリして予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。 この攻撃はまた、攻撃者が特定の数の個人に対して非感受性属性の値を得たと仮定する。 攻撃の目的は、これらの個人に対して機密属性の値を推測することである。 モデルのトレーニングにおいて、元のデータを合成データに置き換えることが、攻撃者がどのように機密属性を推測できるかにどのように影響するかを検討する。

We investigate an attack on a machine learning model that predicts whether a person or household will relocate in the next two years, i.e., a propensity-to-move classifier. The attack assumes that the attacker can query the model to obtain predictions and that the marginal distribution of the data on which the model was trained is publicly available. The attack also assumes that the attacker has obtained the values of non-sensitive attributes for a certain number of target individuals. The objective of the attack is to infer the values of sensitive attributes for these target individuals. We explore how replacing the original data with synthetic data when training the model impacts how successfully the attacker can infer sensitive attributes.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# 深層強化学習アプリケーション開発における共通課題--実証的研究

Common Challenges of Deep Reinforcement Learning Applications Development: An Empirical Study ( http://arxiv.org/abs/2310.09575v3 )

ライセンス: Link先を確認
Mohammad Mehdi Morovati, Florian Tambon, Mina Taraghi, Amin Nikanjam, Foutse Khomh, (参考訳) 機械学習(ML)は、さまざまな業界でますます採用されている。 深層強化学習(Deep Reinforcement Learning, DRL)は、インテリジェントエージェントを生成するためのMLのサブドメインである。 近年のDRL技術の発展にもかかわらず、開発者がDRLアプリケーション開発で直面する主な課題はまだ不明である。 このギャップを埋めるために、ソフトウェアコミュニティで最も人気のあるQ&AプラットフォームであるStack Overflowから抽出された927のDRL関連ポストについて、大規模な実証的研究を行った。 抽出されたポストのラベル付けと分類のプロセスを通じて、DRLアプリケーションの開発において直面する共通の課題の分類と、それに対応する人気レベルを作成しました。 この分類は65人のDRL開発者を対象とした調査を通じて検証されている。 結果は、少なくとも45%の開発者が、分類学で特定された21の課題のうち18を経験していることを示している。 DRLアプリケーションの開発において最も困難な原因は、理解、API使用、設計の問題であるが、並列処理、DRLライブラリ/フレームワークは、受け入れられた回答を受け取るのに必要な時間に関して、最も難しい課題に分類されている。 我々は、この分類を利用して、特定された課題に対処し、DRLアプリケーションの品質を向上させる効率的な戦略を開発することを願っている。

Machine Learning (ML) is increasingly being adopted in different industries. Deep Reinforcement Learning (DRL) is a subdomain of ML used to produce intelligent agents. Despite recent developments in DRL technology, the main challenges that developers face in the development of DRL applications are still unknown. To fill this gap, in this paper, we conduct a large-scale empirical study of 927 DRL-related posts extracted from Stack Overflow, the most popular Q&A platform in the software community. Through the process of labeling and categorizing extracted posts, we created a taxonomy of common challenges encountered in the development of DRL applications, along with their corresponding popularity levels. This taxonomy has been validated through a survey involving 65 DRL developers. Results show that at least 45% of developers experienced 18 of the 21 challenges identified in the taxonomy. The most frequent source of difficulty during the development of DRL applications are Comprehension, API usage, and Design problems, while Parallel processing, and DRL libraries/frameworks are classified as the most difficult challenges to address, with respect to the time required to receive an accepted answer. We hope that the research community will leverage this taxonomy to develop efficient strategies to address the identified challenges and improve the quality of DRL applications.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# あらゆる光子数を作る: 結合のない低光子レートでの点滅量子エミッタのダイナミクスへの量子多スペクトルアプローチ

Making Every Photon Count: A Quantum Polyspectra Approach to the Dynamics of Blinking Quantum Emitters at Low Photon Rates Without Binning ( http://arxiv.org/abs/2310.10464v3 )

ライセンス: Link先を確認
M. Sifft, A. Kurzmann, J. Kerski, R. Schott, A. Ludwig, A. D. Wieck, A. Lorke, M. Geller, D. Hägele, (参考訳) 量子エミッタとそれに対応するマルコフモデルの点滅統計は、生体試料の高分解能顕微鏡やナノオプトエレクトロニクス、その他多くの科学・工学分野において重要な役割を果たす。 完全なカウント統計やビタビアルゴリズムのような点滅統計を解析する現在の手法は、低光子レートで分解される。 本稿では、最小光子フラックスと、測定帯域を制限する光子イベントの通常の結合の両方を必要としない評価手法を提案する。 提案手法は, 連続量子計測理論から最近導入された量子多スペクトル法でモデル化した測定記録の高次スペクトルに基づいている。 このアプローチにより、半導体量子ドットのオン・アンド・オフ・スイッチング速度を、標準実験の1000倍の光度で決定できる。 このように、単一の光子隠れマルコフモデルのパラメータ学習タスクに対する非常に強力な高帯域幅アプローチが、科学の多くの分野に応用されている。

The blinking statistics of quantum emitters and their corresponding Markov models play an important role in high resolution microscopy of biological samples as well as in nano-optoelectronics and many other fields of science and engineering. Current methods for analyzing the blinking statistics like the full counting statistics or the Viterbi algorithm break down for low photon rates. We present an evaluation scheme that eliminates the need for both a minimum photon flux and the usual binning of photon events which limits the measurement bandwidth. Our approach is based on higher order spectra of the measurement record which we model within the recently introduced method of quantum polyspectra from the theory of continuous quantum measurements. By virtue of this approach we can determine on- and off-switching rates of a semiconductor quantum dot at light levels 1000 times lower than in a standard experiment and 20 times lower than achieved with a scheme from full counting statistics. Thus a very powerful high-bandwidth approach to the parameter learning task of single photon hidden Markov models has been established with applications in many fields of science.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# エキスパートモデルのタスクレベル混合を用いた直接ニューラルネットワーク翻訳

Direct Neural Machine Translation with Task-level Mixture of Experts models ( http://arxiv.org/abs/2310.12236v2 )

ライセンス: Link先を確認
Isidora Chara Tourni, Subhajit Naskar, (参考訳) ダイレクト・ニューラル・マシン・トランスレーション(Direct Neural Machine Translation, NMT)は、2つの非英語言語間でテキストを翻訳するNMTシステムの一種である。 直接NMTシステムは、非英語のペア間の並列データが不足しているため、しばしば制限に直面している。 この制限に対処するために、多言語NMTやピボットNMT(英語による2言語間の翻訳)など、いくつかのアプローチが提案されている。 Task-level Mixture of Expert Model (Task-level MoE)は、Transformerベースのモデルの推論効率のばらつきであり、多数の言語ペアに対して有望なNMT性能を示す。 Task-level MoEでは、異なる言語グループが異なるルーティング戦略を使用して、言語間の学習と推論速度を最適化できる。 本研究では,タスクレベル MoE の直接 NMT 適用性について検討し,タスクレベル MoE に基づく直接 NMT システムは,多数の低リソースと高リソースの直接対,および翻訳方向に対してバイリンガルおよびピボットモデルより優れる一連の高パフォーマンストレーニングおよび評価構成を提案する。 16名の専門家によるタスクレベルMoEは、7つの言語ペアのバイリンガルNMT、Pivot NMTモデルよりも優れています。

Direct neural machine translation (direct NMT) is a type of NMT system that translates text between two non-English languages. Direct NMT systems often face limitations due to the scarcity of parallel data between non-English language pairs. Several approaches have been proposed to address this limitation, such as multilingual NMT and pivot NMT (translation between two languages via English). Task-level Mixture of expert models (Task-level MoE), an inference-efficient variation of Transformer-based models, has shown promising NMT performance for a large number of language pairs. In Task-level MoE, different language groups can use different routing strategies to optimize cross-lingual learning and inference speed. In this work, we examine Task-level MoE's applicability in direct NMT and propose a series of high-performing training and evaluation configurations, through which Task-level MoE-based direct NMT systems outperform bilingual and pivot-based models for a large number of low and high-resource direct pairs, and translation directions. Our Task-level MoE with 16 experts outperforms bilingual NMT, Pivot NMT models for 7 language pairs, while pivot-based models still performed better in 9 pairs and directions.
翻訳日:2024-05-22 00:20:28 公開日:2024-05-19
# オンライン視線・視線ナビゲーションのための高速テスト時間適応

Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation ( http://arxiv.org/abs/2311.13209v4 )

ライセンス: Link先を確認
Junyu Gao, Xuan Yao, Changsheng Xu, (参考訳) 自然言語の指示を正確に理解し、目的の場所に向かう能力は、具体的エージェントにとって不可欠である。 このようなエージェントは、通常、オンライン方式でユーザー指示を実行する必要があるため、有効なオンラインモデル適応のためのラベルなしテストサンプルの使用について検討する。 しかしながら、オンラインビジョン・アンド・ランゲージ・ナビゲーション(VLN)では、サンプル間のオンライン命令実行とサンプル内のマルチステップアクション決定の本質的な性質のため、頻繁な更新はモデルパラメータの劇的な変化をもたらす可能性がある。 そこで本研究では,オンラインVLNに対するFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。 大規模な実験により, 提案手法は4つのベンチマークにおいて, 顕著な性能向上が得られることがわかった。 コードはhttps://github.com/Feliciaxyao/ICML2024-FSTTAで公開されている。

The ability to accurately comprehend natural language instructions and navigate to the target location is essential for an embodied agent. Such agents are typically required to execute user instructions in an online manner, leading us to explore the use of unlabeled test samples for effective online model adaptation. However, for online Vision-and-Language Navigation (VLN), due to the intrinsic nature of inter-sample online instruction execution and intra-sample multi-step action decision, frequent updates can result in drastic changes in model parameters, while occasional updates can make the model ill-equipped to handle dynamically changing environments. Therefore, we propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for online VLN by performing joint decomposition-accumulation analysis for both gradients and parameters in a unified framework. Extensive experiments show that our method obtains impressive performance gains on four popular benchmarks. Code is available at https://github.com/Feliciaxyao/ICML2024-FSTTA.
翻訳日:2024-05-22 00:00:07 公開日:2024-05-19
# Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator ( http://arxiv.org/abs/2312.06731v5 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou, (参考訳) MLLM(Multimodal Large Language Models)は、例外的な問題解決能力を示すが、ラベルのない画像を視覚的インストラクションチューニングデータに変換することで、データを生成する能力に注目する研究は限られている。 この目的のために,本論文は,GPT-4を推進するのではなく,MLLMによるデータ生成の可能性を探究する最初のものである。 Genixerは4つの重要なステップからなる総合的なデータ生成パイプラインです。 (i)命令データ収集 (ii) 命令テンプレートの設計 三 MLLMの強化、及び (iv)データ生成とフィルタリング。 さらに、タスク非依存とタスク固有の2つのデータ生成モードを概説し、制御可能な出力を可能にした。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10の精度を高めることを実証する。 さらに、MLLM Shikraは、RECに似た合成データセットでトレーニングされると、8つのRECデータセットのうち7つが改善されている。 実験と合成データ分析により,(1)現在のMLLMは GPT-4V の助けなしに堅牢なデータ生成装置として機能し,(2)タスク固有のデータセットで訓練されたMLLMは GPT-4V を超え,(3) 合成データセットは様々なマルチモーダルベンチマークのパフォーマンスを高め,モデル幻覚を緩和する。 データ、コード、モデルはhttps://github.com/zhaohengyuan1/Genixer.comで確認できる。

Multimodal Large Language Models (MLLMs) demonstrate exceptional problem-solving capabilities, but there is limited research focusing on their ability to generate data by converting unlabeled images into visual instruction tuning data. To this end, this paper is the first to explore the potential of empowering MLLM to generate data rather than prompting GPT-4. We introduce Genixer, a holistic data generation pipeline consisting of four key steps: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLMs, and (iv) data generation and filtering. Additionally, we outline two modes of data generation: task-agnostic and task-specific, enabling controllable output. We demonstrate that a synthetic VQA-like dataset trained with LLaVA1.5 enhances performance on 10 out of 12 multimodal benchmarks. Additionally, the grounding MLLM Shikra, when trained with a REC-like synthetic dataset, shows improvements on 7 out of 8 REC datasets. Through experiments and synthetic data analysis, our findings are: (1) current MLLMs can serve as robust data generators without assistance from GPT-4V; (2) MLLMs trained with task-specific datasets can surpass GPT-4V in generating complex instruction tuning data; (3) synthetic datasets enhance performance across various multimodal benchmarks and help mitigate model hallucinations. The data, code, and models can be found at https://github.com/zhaohengyuan1/Genixer.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-19
# システムレベルの安全ガード:不確かさニューラルネットワークダイナミクスモデルによる安全な追跡制御

System-level Safety Guard: Safe Tracking Control through Uncertain Neural Network Dynamics Models ( http://arxiv.org/abs/2312.06810v2 )

ライセンス: Link先を確認
Xiao Li, Yutong Li, Anouck Girard, Ilya Kolmanovsky, (参考訳) ニューラルネットワーク(NN)はブラックボックス関数近似器として、多くの制御やロボット工学の応用において検討されている。 しかし、不確実性が存在する場合のシステム全体の安全性を検証することの難しさは、NNモジュールの安全クリティカルシステムへの展開を妨げている。 本稿では,未知の力学系の軌道追跡の予測モデルとしてNNを利用する。 我々は,本質的な不確実性と他のシステムモジュールからの不確実性の両方が存在する場合のコントローラ設計を考察する。 本稿では,制約付き軌道追跡問題を定式化し,MILP(Mixed-integer Linear Programming)を用いて解けることを示す。 提案手法は,シミュレーションによるロボットナビゲーションや障害物回避において実証的に実証されている。 デモビデオはhttps://xiaolisean.github.io/publication/2023-11-01-L4DC2024で公開されている。

The Neural Network (NN), as a black-box function approximator, has been considered in many control and robotics applications. However, difficulties in verifying the overall system safety in the presence of uncertainties hinder the deployment of NN modules in safety-critical systems. In this paper, we leverage the NNs as predictive models for trajectory tracking of unknown dynamical systems. We consider controller design in the presence of both intrinsic uncertainty and uncertainties from other system modules. In this setting, we formulate the constrained trajectory tracking problem and show that it can be solved using Mixed-integer Linear Programming (MILP). The proposed MILP-based approach is empirically demonstrated in robot navigation and obstacle avoidance through simulations. The demonstration videos are available at https://xiaolisean.github.io/publication/2023-11-01-L4DC2024.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-19
# ネパールにおけるビデオキャプションのためのアテンションベースエンコーダデコーダモデル(2023年)

Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023) ( http://arxiv.org/abs/2312.07418v3 )

ライセンス: Link先を確認
Kabita Parajuli, Shashidhar Ram Joshi, (参考訳) デバナガリ文字で書かれた言語であるネパール語でのビデオキャプションは、この領域に既存の学術研究が欠如していることから、独特な挑戦である。 本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。 LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。 Google Translateと手動のポスト編集を使用して、Google Translateを使用して作成したMicrosoft Research Video Description Corpus(MSVD)データセットと手動のポスト編集作業から、ネパールのビデオキャプションデータセットを生成する。 ビデオキャプションのモデルの有効性をBLEU, METOR, ROUGEで実証し, その性能評価を行った。

Video captioning in Nepali, a language written in the Devanagari script, presents a unique challenge due to the lack of existing academic work in this domain. This work develops a novel encoder-decoder paradigm for Nepali video captioning to tackle this difficulty. LSTM and GRU sequence-to-sequence models are used in the model to produce related textual descriptions based on features retrieved from video frames using CNNs. Using Google Translate and manual post-editing, a Nepali video captioning dataset is generated from the Microsoft Research Video Description Corpus (MSVD) dataset created using Google Translate, and manual post-editing work. The efficiency of the model for Devanagari-scripted video captioning is demonstrated by BLEU, METOR, and ROUGE measures, which are used to assess its performance.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-19
# 需要システムにおける自律移動のための多エージェント深層強化学習におけるグローバルリワード

Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems ( http://arxiv.org/abs/2312.08884v2 )

ライセンス: Link先を確認
Heiko Hoppe, Tobias Enders, Quentin Cappart, Maximilian Schiffer, (参考訳) 本研究では,AMoD(Autonomous Mobility on Demand, AMoD)システムにおいて,中央オペレーターが顧客の要求に車両を割り当てたり,その総利益を最大化するためにこれを拒否するシステムについて検討する。 近年,マルチエージェント深部強化学習 (MADRL) を用いて,スケーラブルで高性能なアルゴリズムを実現する手法が提案されている。 そこで本研究では,AMoDシステムにおける車両配車のためのグローバルリワード型MADRLアルゴリズムを提案する。 提案アルゴリズムは,局所的な報酬を伴う最先端のMADRLアルゴリズムと比較して,実世界の様々な設定における統計的に有意な改善を示す。 さらに,グローバルな報酬の活用により,暗黙の車両バランスや需要予測能力の向上が期待できる構造解析を行った。 私たちのコードはhttps://github.com/tumBAIS/GR-MADRL-AMoD.comで公開されています。

We study vehicle dispatching in autonomous mobility on demand (AMoD) systems, where a central operator assigns vehicles to customer requests or rejects these with the aim of maximizing its total profit. Recent approaches use multi-agent deep reinforcement learning (MADRL) to realize scalable yet performant algorithms, but train agents based on local rewards, which distorts the reward signal with respect to the system-wide profit, leading to lower performance. We therefore propose a novel global-rewards-based MADRL algorithm for vehicle dispatching in AMoD systems, which resolves so far existing goal conflicts between the trained agents and the operator by assigning rewards to agents leveraging a counterfactual baseline. Our algorithm shows statistically significant improvements across various settings on real-world data compared to state-of-the-art MADRL algorithms with local rewards. We further provide a structural analysis which shows that the utilization of global rewards can improve implicit vehicle balancing and demand forecasting abilities. Our code is available at https://github.com/tumBAIS/GR-MADRL-AMoD.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-19
# FengWu-4DVar:4次元変分同化によるデータ駆動型気象予報モデルの結合

FengWu-4DVar: Coupling the Data-driven Weather Forecasting Model with 4D Variational Assimilation ( http://arxiv.org/abs/2312.12455v2 )

ライセンス: Link先を確認
Yi Xiao, Lei Bai, Wei Xue, Kang Chen, Tao Han, Wanli Ouyang, (参考訳) 天気予報は極めて重要な課題である。 人工知能(AI)の成熟に伴い、データ駆動型天気予報モデルの出現により、気象予報システムの開発のための新しいパラダイムが開かれた。 達成された大きな成功にもかかわらず(例えば、グローバルな中距離予測のための先進的な物理モデルを上回る)、既存のデータ駆動天気予報モデルは、計算コストと予測精度の両方に関して、データ駆動天気予報モデルの重要性を損なう従来の同化予測システムによって生成された分析分野に依存している。 本研究では,グローバルなAI天気予報モデルであるFengWuと,最も一般的な同化アルゴリズムである4次元変分法(4DVar)とを組み合わせることで,データ駆動型天気予報モデルとデータ同化との結合の可能性を検討するとともに,AIベースの循環気象予報システムFengWu-4DVarを開発した。 FengWu-4DVarは、観測データをデータ駆動型気象予報モデルに組み込むことができ、大気力学の時間的進化を考慮し、物理モデルの助けなしにサイクリング方式で予測を行うための正確な解析場を得ることができる。 FengWu-4DVarは、ディープラーニングモデルの自己微分能力に依拠し、4DVarアルゴリズムの伝統的な実装に通常必要となる、面倒な随伴モデルを開発する必要性を排除している。 シミュレーションされた観測データセットの実験により、FengWu-4DVarは正確かつ効率的な反復予測を行うための合理的な解析場を生成することができることが示された。

Weather forecasting is a crucial yet highly challenging task. With the maturity of Artificial Intelligence (AI), the emergence of data-driven weather forecasting models has opened up a new paradigm for the development of weather forecasting systems. Despite the significant successes that have been achieved (e.g., surpassing advanced traditional physical models for global medium-range forecasting), existing data-driven weather forecasting models still rely on the analysis fields generated by the traditional assimilation and forecasting system, which hampers the significance of data-driven weather forecasting models regarding both computational cost and forecasting accuracy. In this work, we explore the possibility of coupling the data-driven weather forecasting model with data assimilation by integrating the global AI weather forecasting model, FengWu, with one of the most popular assimilation algorithms, Four-Dimensional Variational (4DVar) assimilation, and develop an AI-based cyclic weather forecasting system, FengWu-4DVar. FengWu-4DVar can incorporate observational data into the data-driven weather forecasting model and consider the temporal evolution of atmospheric dynamics to obtain accurate analysis fields for making predictions in a cycling manner without the help of physical models. Owning to the auto-differentiation ability of deep learning models, FengWu-4DVar eliminates the need of developing the cumbersome adjoint model, which is usually required in the traditional implementation of the 4DVar algorithm. Experiments on the simulated observational dataset demonstrate that FengWu-4DVar is capable of generating reasonable analysis fields for making accurate and efficient iterative predictions.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-19
# 非平衡量子貯水池の元素から散乱する光量子場モードの熱平衡、絡み合い、非古典性へのアプローチに関する厳密な研究

Rigorous results on approach to thermal equilibrium, entanglement, and nonclassicality of an optical quantum field mode scattering from the elements of a non-equilibrium quantum reservoir ( http://arxiv.org/abs/2312.14290v2 )

ライセンス: Link先を確認
Stephan De Bievre, Marco Merkli, Paul E. Parris, (参考訳) 大きな孤立系の個々の元素の任意の初期状態から始まる熱平衡状態へのアプローチの厳密な導出は極めて稀である。 これは特に量子力学系に当てはまる。 ここでは、繰り返し散乱のメカニズムを通じて、このタイプの平衡へのアプローチが、実際に特定の量子系で発生し、以前に研究されたいくつかの古典モデルの自然量子アナログと見なすことができる。 特に, ビームスプリッタを介し, 光モードが同一周波数のシーケンシャルエンカリングモードを多数含む貯水池を通過することを考える。 次に、このモードの漸近状態が仮定された定常的初期状態$\sigma$の貯留モードおよびビームスプリッタの透過率$\tau=\cos\lambda$の依存性を分析する。 これらの結果は、小さな$\lambda$でそのようなモードが任意の初期システム状態から$\rho$から始まり、貯水池モード自体が初期熱化されていない場合でも熱平衡状態に近づくことを証明できる。 さらに,初期状態が純粋な場合,光モードの漸近状態は貯水池と最大に絡み合っており,貯水池モードの状態よりも非古典性が少ないことを示す。

Rigorous derivations of the approach of individual elements of large isolated systems to a state of thermal equilibrium, starting from arbitrary initial states, are exceedingly rare. This is particularly true for quantum mechanical systems. We demonstrate here how, through a mechanism of repeated scattering, an approach to equilibrium of this type actually occurs in a specific quantum system, one that can be viewed as a natural quantum analog of several previously studied classical models. In particular, we consider an optical mode passing through a reservoir composed of a large number of sequentially-encountered modes of the same frequency, each of which it interacts with through a beam splitter. We then analyze the dependence of the asymptotic state of this mode on the assumed stationary common initial state $\sigma$ of the reservoir modes and on the transmittance $\tau=\cos\lambda$ of the beam splitters. These results allow us to establish that at small $\lambda$ such a mode will, starting from an arbitrary initial system state $\rho$, approach a state of thermal equilibrium even when the reservoir modes are not themselves initially thermalized. We show in addition that, when the initial states are pure, the asymptotic state of the optical mode is maximally entangled with the reservoir and exhibits less nonclassicality than the state of the reservoir modes.
翻訳日:2024-05-21 23:40:18 公開日:2024-05-19
# XXAI:eXplicitly eXplainable Artificial Intelligenceを目指す

XXAI: Towards eXplicitly eXplainable Artificial Intelligence ( http://arxiv.org/abs/2401.03093v4 )

ライセンス: Link先を確認
V. L. Kalmykov, L. V. Kalmykov, (参考訳) サブシンボリックニューラルネットワークに基づく人工知能(AI)の信頼性と安全性には懸念がある。 これは現代のAIのブラックボックス問題である。 同時に、象徴的なAIは、ホワイトボックスの性質を持ち、その決定の信頼性と安全性を保証することができる。 しかし、いくつかの問題は、数学モデルと自然言語用語の不透明さ、統一オントロジーの欠如、検索能力の複合的爆発など、象徴的なAIが広く使われるのを防ぐ。 AIのブラックボックス問題を解決するために,決定論的論理セルオートマトンに基づく完全透明なホワイトボックスAIであるeXplicitly eXplainable AI (XXAI)を提案する。 この場合、ドメインの一般理論は、セルオートマタの推論を導出する知識基盤の役割を担っている。 セルオートマトンは、要素ベースの局所的な相互作用からシステム全体に至るまで、あらゆるレベルの組織で並列なマルチレベル論理推論を実装している。 いくつかの生態仮説の検証は,提案手法の実装を成功させる前例となる。 XXAIは、ファイナルフェーズとトレーニングフェーズの両方で、サブシンボリックニューラルネットワークソリューションの信頼性、セキュリティ、倫理を自動検証することができる。 本稿では,そのさらなる発展のための理論的・方法論的基礎であるXXAIの実施を成功させる前例を示し,今後の展望について論じる。

There are concerns about the reliability and safety of artificial intelligence (AI) based on sub-symbolic neural networks because its decisions cannot be explained explicitly. This is the black box problem of modern AI. At the same time, symbolic AI has the nature of a white box and is able to ensure the reliability and safety of its decisions. However, several problems prevent the widespread use of symbolic AI: the opacity of mathematical models and natural language terms, the lack of a unified ontology, and the combinatorial explosion of search capabilities. To solve the black-box problem of AI, we propose eXplicitly eXplainable AI (XXAI) - a fully transparent white-box AI based on deterministic logical cellular automata whose rules are derived from the first principles of the general theory of the relevant domain. In this case, the general theory of the domain plays the role of a knowledge base for deriving the inferences of the cellular automata. A cellular automaton implements parallel multi-level logical inference at all levels of organization - from local interactions of the element base to the system as a whole. Our verification of several ecological hypotheses sets a precedent for the successful implementation of the proposed solution. XXAI is able to automatically verify the reliability, security and ethics of sub-symbolic neural network solutions in both the final and training phases. In this article, we present precedents for the successful implementation of XXAI, the theoretical and methodological foundations for its further development, and discuss prospects for the future.
翻訳日:2024-05-21 23:40:18 公開日:2024-05-19
# ニューラル正規微分方程式による安定かつ安全な人間関係強化学習

Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations ( http://arxiv.org/abs/2401.13148v2 )

ライセンス: Link先を確認
Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou, (参考訳) 強化学習(Reinforcement Learning, RL)は, ビデオゲームなどの応用において優れているが, 人間の安全が最優先されるヒューマンアライメントタスクなど, 現実的な問題にRLを使用する場合, 安全性と特定の目標を達成する能力の確保は依然として困難である。 本稿では,人間の協調作業に対する安全性と安定性を定義し,ニューラル常微分方程式(NODE)を用いて人間とロボットの動きを予測し,制御障壁関数(CBF)とリアプノフ関数(CLF)を統合し,人間の協調作業の安全性と安定性を維持するアルゴリズムを提案する。 シミュレーションの結果, 制御されたロボットは, 人間の協調作業における他の手法と比較して, 安全性違反が少なく, サンプル効率が良く, 望ましい目標状態に達するのに役立つことがわかった。

Reinforcement learning (RL) excels in applications such as video games, but ensuring safety as well as the ability to achieve the specified goals remains challenging when using RL for real-world problems, such as human-aligned tasks where human safety is paramount. This paper provides safety and stability definitions for such human-aligned tasks, and then proposes an algorithm that leverages neural ordinary differential equations (NODEs) to predict human and robot movements and integrates the control barrier function (CBF) and control Lyapunov function (CLF) with the actor-critic method to help to maintain the safety and stability for human-aligned tasks. Simulation results show that the algorithm helps the controlled robot to reach the desired goal state with fewer safety violations and better sample efficiency compared to other methods in a human-aligned task.
翻訳日:2024-05-21 23:30:28 公開日:2024-05-19
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v6 )

ライセンス: Link先を確認
Zhengpeng Xie, Qiang Zhang, Renjing Xu, (参考訳) 強化学習における最も重要かつ影響力のあるアルゴリズムの1つとして、PPOアルゴリズムは様々な領域で優れた性能を示した。 トラスト領域ポリシー最適化(TRPO)アルゴリズムの最適化に基づく重要度サンプリングプロセスを,比率クリッピングにより単純化する。 しかし、このクリッピングによる単純化は、必ずしも信頼領域の制約を効果的に強制するとは限らない。 本稿では,旧ポリシーと新ポリシーのKL分散のための新しいクリッピング手法を取り入れた,‘textit{Simple Policy Optimization} (SPO) というアルゴリズムを提案する。 PPOと比較して、SPOはより優れたサンプリング効率、極めて低いKL分散、高いポリシーエントロピーを実現し、ネットワークの深さや複雑さの増大にも頑丈である。 さらに重要なことに、SPOは制約のない一階法アルゴリズムの単純さを維持している。 私たちのコードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで利用可能です。

As one of the most important and influential algorithms in reinforcement learning, the Proximal Policy Optimization (PPO) algorithm has demonstrated outstanding performance across various domains. It simplifies the optimization-based importance sampling process of the Trust Region Policy Optimization (TRPO) algorithm through ratio clipping. However, this simplification with ratio clipping does not always effectively enforce trust region constraints. In this paper, we introduce an algorithm named \textit{Simple Policy Optimization} (SPO), which incorporates a novel clipping method for the KL divergence between the old and new policies. Extensive experimental results in both \textit{Atari 2600} and \textit{MuJoCo} environments show that, compared to PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, while also being robust to increases in network depth or complexity. More importantly, SPO maintains the simplicity of an unconstrained first-order algorithm. Our code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-05-21 23:30:28 公開日:2024-05-19
# 高次元ガウス混合に対する深部平衡モデルと非深さ明示的モデルにほぼ同値である

Deep Equilibrium Models are Almost Equivalent to Not-so-deep Explicit Models for High-dimensional Gaussian Mixtures ( http://arxiv.org/abs/2402.02697v2 )

ライセンス: Link先を確認
Zenan Ling, Longbo Li, Zhanbo Feng, Yixuan Zhang, Feng Zhou, Robert C. Qiu, Zhenyu Liao, (参考訳) 典型的な暗黙的ニューラルネットワークであるDeep equilibrium Model (DEQ) は、様々なタスクにおいて顕著な成功を収めている。 しかし、暗黙のDECと明示的なニューラルネットワークモデルとの接続と差異に関する理論的理解の欠如がある。 本稿では, ランダム行列理論(RMT)の最近の進歩を活用し, 高次元ガウス混合から入力データを引き出す際に, 暗黙のDQに対して共役核(CK)とニューラル接核(NTK)の固有スペクトルを詳細に解析する。 この設定において、これらのインプリシットCKとNTKのスペクトル挙動は、DECの活性化関数と初期重み分散に依存するが、4つの非線形方程式の系によってのみ証明する。 この理論結果の直接的な結果として、浅い明示的ネットワークを、与えられたDECと同じCKまたはNTKを生成するように慎重に設計できることが示される。 ここではガウス混合データに導かれるが、実証的な結果は、提案された理論と設計原則が一般的な実世界のデータセットにも適用されることを示している。

Deep equilibrium models (DEQs), as a typical implicit neural network, have demonstrated remarkable success on various tasks. There is, however, a lack of theoretical understanding of the connections and differences between implicit DEQs and explicit neural network models. In this paper, leveraging recent advances in random matrix theory (RMT), we perform an in-depth analysis on the eigenspectra of the conjugate kernel (CK) and neural tangent kernel (NTK) matrices for implicit DEQs, when the input data are drawn from a high-dimensional Gaussian mixture. We prove, in this setting, that the spectral behavior of these Implicit-CKs and NTKs depend on the DEQ activation function and initial weight variances, but only via a system of four nonlinear equations. As a direct consequence of this theoretical result, we demonstrate that a shallow explicit network can be carefully designed to produce the same CK or NTK as a given DEQ. Despite derived here for Gaussian mixture data, empirical results show the proposed theory and design principle also apply to popular real-world datasets.
翻訳日:2024-05-21 23:20:37 公開日:2024-05-19
# ハイパーグラフニューラルネットワークの簡易化

Simplifying Hypergraph Neural Networks ( http://arxiv.org/abs/2402.05569v2 )

ライセンス: Link先を確認
Bohan Tang, Zexi Liu, Keyue Jiang, Siheng Chen, Xiaowen Dong, (参考訳) ハイパーグラフは、複数のノードを接続するハイパーエッジを持ち、現実世界のデータにおける高次の相互作用をモデル化するのに不可欠である。 下流タスクにハイパーグラフを利用するフレームワークでは、タスク固有のモデルは一般的にハイパーグラフニューラルネットワーク(HNN)とペアリングされる。 HNNは、メッセージパッシングを介してハイパーグラフ構造情報を持つノード特徴を生成することにより、タスク固有モデルを強化する。 しかし、HNNのトレーニングはしばしば計算集約的であり、実用性に制限がある。 この課題に対処するため、我々は、事前に定義された伝播ステップのみを含む簡易ハイパーグラフニューラルネットワーク(SHNN)と呼ばれるトレーニングフリーモデルを用いて、ハイパーグラフ構造情報をノード特徴に統合する代替手法を提案する。 SHNNの有効性と効果を理論的に示す。 1)既存のHNNと比較して、ハイパーグラフに関連する下流タスクを解く際のトレーニングの複雑さを大幅に減らす。 2)ノードの特徴生成に既存のHNNと同じくらいの情報を利用する。 3)長距離相互作用を用いた場合,過度にスムースな問題に対して頑健である。 ノード分類とハイパーエッジ予測の実験では、最先端のHNNと比較して、SHNNは競争性能と優れたトレーニング効率の両方をもたらすことが示されている。 Cora-CAでは、SHNNベースのフレームワークが最も高いノード分類精度を達成し、最高のベースラインのトレーニング時間は2%に過ぎなかった。

Hypergraphs, with hyperedges connecting multiple nodes, are crucial for modelling higher-order interactions in real-world data. In frameworks utilising hypergraphs for downstream tasks, a task-specific model is typically paired with a hypergraph neural network (HNN). HNNs enhance the task-specific model by generating node features with hypergraph structural information via message passing. However, the training for HNNs is often computationally intensive, which limits their practical use. To tackle this challenge, we propose an alternative approach by integrating hypergraph structural information into node features using a training-free model called simplified hypergraph neural network (SHNN) that only contains a predefined propagation step. We theoretically show the efficiency and effectiveness of SHNN by showing that: 1) It largely reduces the training complexity when solving hypergraph-related downstream tasks compared to existing HNNs; 2) It utilises as much information as existing HNNs for node feature generation; and 3) It is robust against the oversmoothing issue while using long-range interactions. Experiments in node classification and hyperedge prediction showcase that, compared to state-of-the-art HNNs, SHNN leads to both competitive performance and superior training efficiency. Notably, on Cora-CA, the SHNN-based framework achieves the highest node classification accuracy with just 2% training time of the best baseline.
翻訳日:2024-05-21 23:20:37 公開日:2024-05-19
# 無ラベル公開映像を用いた基礎モデルによる人間の行動認識の促進

Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos ( http://arxiv.org/abs/2402.08875v3 )

ライセンス: Link先を確認
Yang Qian, Yinan Sun, Ali Kargarandehkordi, Onur Cezmi Mutlu, Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter Washington, (参考訳) TikTokのようなプラットフォーム上でのタグ付きマルチメディアコンテンツの多様性と量の増加は、コンピュータビジョンモデリングを前進させる機会を提供する。 現代人の行動に関する386のハッシュタグの下に分類された283,582本のユニークなビデオクリップのデータセットをキュレートした。 我々はこのデータセットを、アクション認識などの人間の動作モデリングタスクのためのドメイン固有の基礎モデルを構築するための貴重なリソースとしてリリースする。 このデータセットを検証するために、TikTokActionsという2つの実験を行った。 まず、TikTokActionsサブセット上のVTベースバックボーンで最先端のVideoMAEv2を事前トレーニングし、次いで微調整を行い、UCF101やHMDB51のような一般的なデータセットで評価する。 Tik-Tokデータセットを使用して事前トレーニングされたモデルの性能は、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する(UCF101では95.3%、HMDB51では53.24%)。 さらに,事前学習データセットのサイズと微調整性能の関係について検討した結果,一定の閾値を超えると,より大きなトレーニングセットの漸進的なメリットが減少することがわかった。 ビデオベースのファンデーションモデルのために、トレーニング済みのデータセットのサイズを拡大する際の限界的なメリットに関する洞察を提供する。

The increasing variety and quantity of tagged multimedia content on platforms such as TikTok provides an opportunity to advance computer vision modeling. We have curated a distinctive dataset of 283,582 unique video clips categorized under 386 hashtags relating to modern human actions. We release this dataset as a valuable resource for building domain-specific foundation models for human movement modeling tasks such as action recognition. To validate this dataset, which we name TikTokActions, we perform two sets of experiments. First, we pretrain the state-of-the-art VideoMAEv2 with a ViT-base backbone on TikTokActions subset, and then fine-tune and evaluate on popular datasets such as UCF101 and the HMDB51. We find that the performance of the model pre-trained using our Tik-Tok dataset is comparable to models trained on larger action recognition datasets (95.3% on UCF101 and 53.24% on HMDB51). Furthermore, our investigation into the relationship between pre-training dataset size and fine-tuning performance reveals that beyond a certain threshold, the incremental benefit of larger training sets diminishes. This work introduces a useful TikTok video dataset that is available for public use and provides insights into the marginal benefit of increasing pre-training dataset sizes for video-based foundation models.
翻訳日:2024-05-21 23:20:37 公開日:2024-05-19
# ResQuNNs:量子畳み込みニューラルネットワークにおけるディープラーニングの実現に向けて

ResQuNNs:Towards Enabling Deep Learning in Quantum Convolution Neural Networks ( http://arxiv.org/abs/2402.09146v3 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique, (参考訳) 本稿では、トレーニング可能な準進化層を導入し、それに関連する重要な課題に対処することにより、クオン進化ニューラルネットワーク(QuNN)の性能を向上させるための新しい枠組みを提案する。 従来の準進化的レイヤは、機能抽出には有益だが、ほとんど静的であり、適応性は限られている。 最先端とは違って、これらのレイヤ内でのトレーニングを可能にすることで、この制限を克服し、QuNNの柔軟性と可能性を大幅に向上させています。 しかし、複数のトレーニング可能な準畳み込み層の導入は、主にこれらの層にまたがる勾配にアクセスするのが困難であるため、勾配に基づく最適化の複雑さを引き起こす。 これを解決するために,Residual Quanvolutional Neural Networks (ResQuNNs) という新しいアーキテクチャを提案する。 畳み込み層間に残留ブロックを挿入することにより、ネットワーク全体のグラデーションアクセスが向上し、トレーニング性能が向上する。 さらに,これらの残留ブロックの戦略的配置に関する実証的証拠をQuNN内に提示する。 大規模な実験により,残差ブロックの効率的な構成が特定され,ネットワーク内のすべての層をまたがる勾配が実現され,結果として効率のよいトレーニングがもたらされる。 本研究は, 残差ブロックの正確な位置がQuNNの性能向上の最大化に重要な役割を担っていることを示唆する。 我々の結果は、量子深層学習の進化における大きな一歩であり、理論開発と実用的な量子コンピューティングアプリケーションの両方に新しい道のりを提供する。

In this paper, we present a novel framework for enhancing the performance of Quanvolutional Neural Networks (QuNNs) by introducing trainable quanvolutional layers and addressing the critical challenges associated with them. Traditional quanvolutional layers, although beneficial for feature extraction, have largely been static, offering limited adaptability. Unlike state-of-the-art, our research overcomes this limitation by enabling training within these layers, significantly increasing the flexibility and potential of QuNNs. However, the introduction of multiple trainable quanvolutional layers induces complexities in gradient-based optimization, primarily due to the difficulty in accessing gradients across these layers. To resolve this, we propose a novel architecture, Residual Quanvolutional Neural Networks (ResQuNNs), leveraging the concept of residual learning, which facilitates the flow of gradients by adding skip connections between layers. By inserting residual blocks between quanvolutional layers, we ensure enhanced gradient access throughout the network, leading to improved training performance. Moreover, we provide empirical evidence on the strategic placement of these residual blocks within QuNNs. Through extensive experimentation, we identify an efficient configuration of residual blocks, which enables gradients across all the layers in the network that eventually results in efficient training. Our findings suggest that the precise location of residual blocks plays a crucial role in maximizing the performance gains in QuNNs. Our results mark a substantial step forward in the evolution of quantum deep learning, offering new avenues for both theoretical development and practical quantum computing applications.
翻訳日:2024-05-21 23:20:37 公開日:2024-05-19
# 安全なテキスト・画像生成のためのユニバーサルプロンプト最適化

Universal Prompt Optimizer for Safe Text-to-Image Generation ( http://arxiv.org/abs/2402.10882v2 )

ライセンス: Link先を確認
Zongyu Wu, Hongcheng Gao, Yueze Wang, Xiang Zhang, Suhang Wang, (参考訳) テキスト・ツー・イメージ(T2I)モデルは,テキスト・プロンプトに基づく画像生成において優れた性能を示した。 しかし、これらのモデルは、性的、ハラスメント、違法な活動的画像などの安全でないコンテンツを生成するために、安全でない入力に対して脆弱である。 画像チェッカー、モデルファインチューニング、埋め込みブロッキングに基づく既存の研究は、現実のアプリケーションでは実用的ではない。 そこで我々は,ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初のユニバーサルプロンプトオプティマイザを提案する。 まず, GPT-3.5 Turbo による毒性クリーンプロンプトペアからなるデータセットを構築した。 情報保存中に有害なプロンプトをクリーンなプロンプトに変換する能力を持つよう、我々は、生成した画像の毒性とテキストアライメントを測定する新しい報酬関数を設計し、プロキシポリシー最適化を通じてオプティマイザを訓練する。 実験により,テキストアライメントに大きな影響を及ぼすことなく,不適切な画像を生成する場合の様々なT2Iモデルの有効性を効果的に低減できることが示された。 また、より良いパフォーマンスを達成するためにメソッドと組み合わせることも柔軟です。 私たちのコードはhttps://github.com/wzongyu/POSI.comで利用可能です。

Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, we propose the first universal prompt optimizer for safe T2I (POSI) generation in black-box scenario. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance. Our code is available at https://github.com/wzongyu/POSI.
翻訳日:2024-05-21 23:20:37 公開日:2024-05-19
# HiGPT:不均一グラフ言語モデル

HiGPT: Heterogeneous Graph Language Model ( http://arxiv.org/abs/2402.16024v2 )

ライセンス: Link先を確認
Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Long Xia, Dawei Yin, Chao Huang, (参考訳) 不均一グラフ学習は、ノードとエッジの有意義な表現を得るために、異種グラフ内のエンティティ間の複雑な関係と多様な関係性セマンティクスをキャプチャすることを目的としている。 ヘテロジニアスグラフニューラルネットワーク(HGNN)の最近の進歩は、関係の不均一性を考慮し、特殊メッセージ関数とアグリゲーションルールを用いることで、最先端のパフォーマンスを実現している。 しかし、異種グラフ学習のための既存のフレームワークは、多種多様な異種グラフデータセットをまたいだ一般化に制限がある。 これらのフレームワークのほとんどは、同じデータセット上の"pre-train"と"fine-tune"パラダイムに従っている。 ヘテロジニアスグラフモデルを、ノードトークンセットとリレーショナル型ヘテロジニアスの両方の分散シフトを伴う多様な下流学習タスクに順応するように一般化する?」という疑問に対処するため、ヘテロジニアスグラフ命令チューニングパラダイムを備えた一般的なグラフモデルであるHiGPTを提案する。 我々のフレームワークは、下流データセットからの微調整プロセスを必要とせずに、任意の異種グラフから学習することができる。 不均一性における分布シフトを扱うために,異種グラフ間の意味的関係を捕捉し,モデル適応を容易にする,コンテキスト内不均一グラフトークンを導入している。 ヘテロジニティを意識したグラフ命令の大規模なコーパスをHiGPTに組み込むことで、複雑な関係の不均一性を効果的に理解し、様々な種類のグラフトークンを区別することができる。 さらに,Mixture-of-Thought(MoT)命令拡張パラダイムを導入し,多様かつ情報的な命令を生成することでデータの不足を軽減する。 包括的評価を通じて,本提案フレームワークは,一般化性能の点で例外的な性能を示す。

Heterogeneous graph learning aims to capture complex relationships and diverse relational semantics among entities in a heterogeneous graph to obtain meaningful representations for nodes and edges. Recent advancements in heterogeneous graph neural networks (HGNNs) have achieved state-of-the-art performance by considering relation heterogeneity and using specialized message functions and aggregation rules. However, existing frameworks for heterogeneous graph learning have limitations in generalizing across diverse heterogeneous graph datasets. Most of these frameworks follow the "pre-train" and "fine-tune" paradigm on the same dataset, which restricts their capacity to adapt to new and unseen data. This raises the question: "Can we generalize heterogeneous graph models to be well-adapted to diverse downstream learning tasks with distribution shifts in both node token sets and relation type heterogeneity?'' To tackle those challenges, we propose HiGPT, a general large graph model with Heterogeneous graph instruction-tuning paradigm. Our framework enables learning from arbitrary heterogeneous graphs without the need for any fine-tuning process from downstream datasets. To handle distribution shifts in heterogeneity, we introduce an in-context heterogeneous graph tokenizer that captures semantic relationships in different heterogeneous graphs, facilitating model adaptation. We incorporate a large corpus of heterogeneity-aware graph instructions into our HiGPT, enabling the model to effectively comprehend complex relation heterogeneity and distinguish between various types of graph tokens. Furthermore, we introduce the Mixture-of-Thought (MoT) instruction augmentation paradigm to mitigate data scarcity by generating diverse and informative instructions. Through comprehensive evaluations, our proposed framework demonstrates exceptional performance in terms of generalization performance.
翻訳日:2024-05-21 23:10:31 公開日:2024-05-19
# 深層強化学習 : 凸最適化アプローチ

Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v5 )

ライセンス: Link先を確認
Ather Gattami, (参考訳) 本稿では,連続状態と行動空間を有する非線形システムの強化学習について考察する。 本稿では,各エピソード毎に凸最適化を用いて,最適な$Q$関数の2層ニューラルネットワーク近似を求める。 凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。 安定な非線形系に対しては、アルゴリズムが収束し、トレーニングされたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。 特に、トレーニングフェーズにおける正規化パラメータが$\rho$で与えられる場合、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、$w$と最適パラメータ$w^\star$の間の距離は$\mathcal{O}(\rho)$で制限される。 すなわち、エピソードの数が無限に近づくと、[ \|w-w^\star\| \le C\rho となるような一定の$C$が存在する。 特に,正規化パラメータがゼロになるにつれて,アルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。 その結果、凸最適化アルゴリズムの多項式時間収束により、アルゴリズムは高速に収束する。

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter in the training phase is given by $\rho$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ and the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho)$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[ \|w-w^\star\| \le C\rho. \] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the regularization parameter goes to zero. As a consequence, our algorithm converges fast due to the polynomial-time convergence of convex optimization algorithms.
翻訳日:2024-05-21 23:10:31 公開日:2024-05-19
# UrbanGPT:時空間大言語モデル

UrbanGPT: Spatio-Temporal Large Language Models ( http://arxiv.org/abs/2403.00813v3 )

ライセンス: Link先を確認
Zhonghang Li, Lianghao Xia, Jiabin Tang, Yong Xu, Lei Shi, Long Xia, Dawei Yin, Chao Huang, (参考訳) 時空間予測は、時間と空間の両方にわたる都市環境の変化を予測し、洞察することを目的としている。 その目的は、交通、人口移動、犯罪率など、都市生活の様々な側面における将来のパターン、傾向、出来事を予測することである。 時空間データの正確な予測のためのニューラルネットワーク技術の開発に多くの努力が注がれているが、これらの手法の多くは時空間の正確な表現を生成するのに十分なラベル付きデータを持つことに大きく依存していることに注意する必要がある。 残念なことに、実際の都市センシングシナリオでは、データの不足が大きな問題となっている。 したがって、多様な時空間学習シナリオにまたがる強力な一般化能力を持つ時空間モデルを構築する必要がある。 大規模言語モデル(LLM)の卓越した成果からインスピレーションを得て,広範囲の下流都市課題にまたがる卓越した一般化能力を発揮できる時空間LLMを作ることが目的である。 この目的を達成するために,時空間依存エンコーダと命令チューニングパラダイムをシームレスに統合するUrbanGPTを提案する。 この統合により、LLMは時間と空間の複雑な相互依存性を理解でき、データの不足下でより包括的で正確な予測を可能にします。 提案手法の有効性を検証するため,様々な公開データセットに対して,時空間予測タスクを網羅した広範囲な実験を行った。 結果は、慎重に設計されたアーキテクチャを持つUrbanGPTが、最先端のベースラインを一貫して上回っていることを一貫して示しています。 これらの結果は、特にラベル付きデータが不足しているゼロショットシナリオにおいて、時空間学習のための大規模言語モデルを構築する可能性を示している。

Spatio-temporal prediction aims to forecast and gain insights into the ever-changing dynamics of urban environments across both time and space. Its purpose is to anticipate future patterns, trends, and events in diverse facets of urban life, including transportation, population movement, and crime rates. Although numerous efforts have been dedicated to developing neural network techniques for accurate predictions on spatio-temporal data, it is important to note that many of these methods heavily depend on having sufficient labeled data to generate precise spatio-temporal representations. Unfortunately, the issue of data scarcity is pervasive in practical urban sensing scenarios. Consequently, it becomes necessary to build a spatio-temporal model with strong generalization capabilities across diverse spatio-temporal learning scenarios. Taking inspiration from the remarkable achievements of large language models (LLMs), our objective is to create a spatio-temporal LLM that can exhibit exceptional generalization capabilities across a wide range of downstream urban tasks. To achieve this objective, we present the UrbanGPT, which seamlessly integrates a spatio-temporal dependency encoder with the instruction-tuning paradigm. This integration enables LLMs to comprehend the complex inter-dependencies across time and space, facilitating more comprehensive and accurate predictions under data scarcity. To validate the effectiveness of our approach, we conduct extensive experiments on various public datasets, covering different spatio-temporal prediction tasks. The results consistently demonstrate that our UrbanGPT, with its carefully designed architecture, consistently outperforms state-of-the-art baselines. These findings highlight the potential of building large language models for spatio-temporal learning, particularly in zero-shot scenarios where labeled data is scarce.
翻訳日:2024-05-21 23:10:31 公開日:2024-05-19
# 偽陽性サンプリングに基づく3次元物体検出精度向上のためのデータ拡張

False Positive Sampling-based Data Augmentation for Enhanced 3D Object Detection Accuracy ( http://arxiv.org/abs/2403.02639v3 )

ライセンス: Link先を確認
Jiyong Oh, Junhaeng Lee, Woongchan Byun, Minsang Kong, Sang Hun Lee, (参考訳) 近年,3次元物体検出モデルの性能向上に焦点が当てられている。 各種のアプローチの中で, 限られた地中構造データから生じる課題に対処するための拡張手法として, 地中構造サンプリングが提案されている。 しかし、地中真実サンプリングの固有の問題は、偽陽性を増加させる傾向にある。 そこで本研究では, 偽陽性サンプリングと呼ばれる新しい拡張手法を開発し, 3次元物体検出モデルの性能向上を図ることを目的としている。 偽陽性サンプリングは、モデルの予測において偽陽性と認識される点雲を用いてモデルを再訓練する。 本研究では, 地中真偽サンプリングと偽陽性サンプリングの両方を利用するアルゴリズムと, 偽陽性サンプルデータベースを構築するアルゴリズムを提案する。 さらに、偽陽性サンプリングによる性能向上の背景にある原則を分析する。 実験により, 偽陽性サンプリングを用いたモデルでは, 偽陽性が減少し, オブジェクト検出性能が向上することが確認された。 KITTIとWaymo Openのデータセットでは、偽陽性サンプリングモデルがベースラインモデルを上回っている。

Recent studies have focused on enhancing the performance of 3D object detection models. Among various approaches, ground-truth sampling has been proposed as an augmentation technique to address the challenges posed by limited ground-truth data. However, an inherent issue with ground-truth sampling is its tendency to increase false positives. Therefore, this study aims to overcome the limitations of ground-truth sampling and improve the performance of 3D object detection models by developing a new augmentation technique called false-positive sampling. False-positive sampling involves retraining the model using point clouds that are identified as false positives in the model's predictions. We propose an algorithm that utilizes both ground-truth and false-positive sampling and an algorithm for building the false-positive sample database. Additionally, we analyze the principles behind the performance enhancement due to false-positive sampling. Our experiments demonstrate that models utilizing false-positive sampling show a reduction in false positives and exhibit improved object detection performance. On the KITTI and Waymo Open datasets, models with false-positive sampling surpass the baseline models by a large margin.
翻訳日:2024-05-21 23:10:31 公開日:2024-05-19
# ターゲットメッセージはより効果的か?

Are Targeted Messages More Effective? ( http://arxiv.org/abs/2403.06817v2 )

ライセンス: Link先を確認
Martin Grohe, Eran Rosenbluth, (参考訳) グラフニューラルネットワーク(GNN)は、グラフのためのディープラーニングアーキテクチャである。 基本的に、GNNは分散メッセージパッシングアルゴリズムであり、データから学習したパラメータによって制御される。 各イテレーションにおいて、頂点はそれぞれのエッジでメッセージを受信し、これらのメッセージを集約し、現在の状態と集約されたメッセージに基づいて状態を更新する。 GNNの表現性は、カウントを伴う一階述語論理の断片とWeisfeiler-Lehmanアルゴリズムによって特徴づけられる。 コアGNNアーキテクチャには、2つの異なるバージョンがある。 最初のバージョンでは、メッセージはソース頂点の状態にのみ依存するが、第2バージョンではソースの状態とターゲット頂点にのみ依存する。 実際には、どちらのバージョンも使われているが、これまでのGNNの理論は、主に最初のバージョンに焦点を当てている。 論理的側面では、2つのバージョンは1階述語論理の2つの断片に対応する。 2つのバージョンが表現性に違いがあるかどうかという問題は、GNNの文献では概ね見過ごされ、最近になって質問されただけである(Grohe, licS'23)。 私たちはここでこの質問に答える。 その結果、答えは予想されるほど単純ではないことが判明した。 数える一階述語論理のモーダルおよびガードされた断片がラベル付けされた無向グラフに対して同じ表現性を持つことを示すことにより、2つのGNNバージョンが同じ表現性を持つことを示す。 しかし、均一な設定では、第2版の方が厳密に表現可能であることも証明する。

Graph neural networks (GNN) are deep learning architectures for graphs. Essentially, a GNN is a distributed message passing algorithm, which is controlled by parameters learned from data. It operates on the vertices of a graph: in each iteration, vertices receive a message on each incoming edge, aggregate these messages, and then update their state based on their current state and the aggregated messages. The expressivity of GNNs can be characterised in terms of certain fragments of first-order logic with counting and the Weisfeiler-Lehman algorithm. The core GNN architecture comes in two different versions. In the first version, a message only depends on the state of the source vertex, whereas in the second version it depends on the states of the source and target vertices. In practice, both of these versions are used, but the theory of GNNs so far mostly focused on the first one. On the logical side, the two versions correspond to two fragments of first-order logic with counting that we call modal and guarded. The question whether the two versions differ in their expressivity has been mostly overlooked in the GNN literature and has only been asked recently (Grohe, LICS'23). We answer this question here. It turns out that the answer is not as straightforward as one might expect. By proving that the modal and guarded fragment of first-order logic with counting have the same expressivity over labelled undirected graphs, we show that in a non-uniform setting the two GNN versions have the same expressivity. However, we also prove that in a uniform setting the second version is strictly more expressive.
翻訳日:2024-05-21 23:00:48 公開日:2024-05-19
# 平衡からの崩壊相互作用による負のウィグナー関数

Negative Wigner function by decaying interaction from equilibrium ( http://arxiv.org/abs/2403.08474v2 )

ライセンス: Link先を確認
Michal Kolář, Radim Filip, (参考訳) 負のウィグナー関数重畳状態を持つボソニック系は、線形化系を超えた非線形量子力学を根本的に目撃しており、最近では多くの応用で量子技術の必須資源となっている。 典型的には、外部ドライブの洗練された組み合わせ、非線形制御、測定または環境へのサブシステムの強い非線形散逸によって現れる。 本稿では,これらの物質を低温の温度平衡で浴槽に弱結合したパラダイム的相互作用量子ビット・オシレータ系における純粋に突然の相互作用減衰を用いて,そのような状態を得るための概念的に異なる,より自律的な方法を提案する。 検出可能な非条件負のウィグナー関数と量子コヒーレンスと、より多くの量子ビットを用いた定性的拡張を同時に示す。

Bosonic systems with negative Wigner function superposition states are fundamentally witnessing nonlinear quantum dynamics beyond linearized systems and, recently, have become essential resources of quantum technology with many applications. Typically, they appear due to sophisticated combination of external drives, nonlinear control, measurements or strong nonlinear dissipation of subsystems to an environment. Here, we propose a conceptually different and more autonomous way to obtain such states, avoiding these ingredients, using purely sudden interaction decay in the paradigmatic interacting qubit-oscillator system weakly coupled to bath at thermal equilibrium in a low-temperature limit. We demonstrate simultaneously detectable unconditional negative Wigner function and quantum coherence and their qualitative enhancement employing more qubits.
翻訳日:2024-05-21 23:00:48 公開日:2024-05-19
# メモリ効率スパース畳み込みを用いた自動運転車のリアルタイム3次元セマンティック占有予測

Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution ( http://arxiv.org/abs/2403.08748v3 )

ライセンス: Link先を確認
Samuel Sze, Lars Kunze, (参考訳) 自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。 幾何学的距離と意味オブジェクト情報をエンコードしながらシーンを表現するためのコンパクトな方法は、3Dセマンティック占有マップを経由する。 State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。 しかし、これらの手法は、推論中の高い計算要求のため、リアルタイムアプリケーションにおいて重大な課題に遭遇する。 この制限は、GPUリソースをローカライズや計画といった他のタスクと共有する必要がある自動運転車において特に問題となる。 本稿では,正面2次元カメラ画像とLiDARスキャンから特徴を抽出し,スパース畳み込みネットワーク(Minkowski Engine)を用いて3次元セマンティック占有予測を行う手法を提案する。 自律運転シナリオの屋外シーンは本質的にスパースであるため、スパースコンボリューションの利用は特に適している。 スパースシーンの3次元シーン補完と3次元セマンティックセグメンテーションの問題を共同で解決することにより、自動運転車のリアルタイムアプリケーションに適した、より効率的な学習フレームワークを提供する。 また、nuScenesデータセット上での競合精度も示す。

In autonomous vehicles, understanding the surrounding 3D environment of the ego vehicle in real-time is essential. A compact way to represent scenes while encoding geometric distances and semantic object information is via 3D semantic occupancy maps. State of the art 3D mapping methods leverage transformers with cross-attention mechanisms to elevate 2D vision-centric camera features into the 3D domain. However, these methods encounter significant challenges in real-time applications due to their high computational demands during inference. This limitation is particularly problematic in autonomous vehicles, where GPU resources must be shared with other tasks such as localization and planning. In this paper, we introduce an approach that extracts features from front-view 2D camera images and LiDAR scans, then employs a sparse convolution network (Minkowski Engine), for 3D semantic occupancy prediction. Given that outdoor scenes in autonomous driving scenarios are inherently sparse, the utilization of sparse convolution is particularly apt. By jointly solving the problems of 3D scene completion of sparse scenes and 3D semantic segmentation, we provide a more efficient learning framework suitable for real-time applications in autonomous vehicles. We also demonstrate competitive accuracy on the nuScenes dataset.
翻訳日:2024-05-21 23:00:48 公開日:2024-05-19
# マイクロサービスのデータ管理ベンチマーク

A Benchmark for Data Management in Microservices ( http://arxiv.org/abs/2403.12605v2 )

ライセンス: Link先を確認
Rodrigo Laigner, Zhexiang Zhang, Yijian Liu, Leonardo Freitas Gomes, Yongluan Zhou, (参考訳) スケーラブルな分散アプリケーションを設計するための一般的なアーキテクチャとして、マイクロサービスアーキテクチャが登場した。 マイクロサービスは10年以上にわたって業界で広く採用されてきたが、これらのアプリケーションで発生するデータ管理の課題についてはほとんど理解されていない。 その結果、マイクロサービスアプリケーションをサポートするためのデータシステム技術の進歩は困難である。 このギャップを埋めるために、既存のベンチマークが十分に対応していない、コアデータ管理の課題を取り入れた、マイクロサービスベンチマークであるOnline Marketplaceを紹介します。 これらの課題には、トランザクション処理、クエリ処理、イベント処理、制約執行、データレプリケーションなどが含まれる。 データシステムとプラットフォーム間で適切な比較を可能にするために、さまざまなデータ管理問題の基準を定義しました。 ベンチマークを指定した後、マイクロサービスの動的状態を正確に反映したワークロード作成で直面した課題を紹介します。 我々はまた、最先端のデータプラットフォームでオンラインマーケットプレースを実装し、基準を満たす際に遭遇した問題についても論じる。 私たちの評価は、このベンチマークが、マイクロサービス実践者が求めている重要な特性をテストするための貴重なツールであることを示している。 その結果、提案したベンチマークにより、将来のデータシステムの設計が容易になり、マイクロサービス実践者の期待に応えることができる。

Microservice architectures emerged as a popular architecture for designing scalable distributed applications. Although microservices have been extensively employed in industry settings for over a decade, there is little understanding of the data management challenges that arise in these applications. As a result, it is difficult to advance data system technologies for supporting microservice applications. To fill this gap, we present Online Marketplace, a microservice benchmark that incorporates core data management challenges that existing benchmarks have not sufficiently addressed. These challenges include transaction processing, query processing, event processing, constraint enforcement, and data replication. We have defined criteria for various data management issues to enable proper comparison across data systems and platforms. After specifying the benchmark, we present the challenges we faced in creating workloads that accurately reflect the dynamic state of the microservices. We also discuss issues that we encountered when implementing Online Marketplace in state-of-the-art data platforms and meeting the criteria. Our evaluation demonstrates that the benchmark is a valuable tool for testing important properties sought by microservice practitioners. As a result, our proposed benchmark will facilitate the design of future data systems to meet the expectations of microservice practitioners.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# 知識編集による大規模言語モデルのデトックス化

Detoxifying Large Language Models via Knowledge Editing ( http://arxiv.org/abs/2403.14472v4 )

ライセンス: Link先を確認
Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen, (参考訳) 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。 我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。 いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。 そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。 さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制するだけであり, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。 これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。 コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments with several knowledge editing approaches, indicating that knowledge editing has the potential to detoxify LLMs with a limited impact on general performance efficiently. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxifying approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# 自動ファクト検証における説明評価フレームワークの実現に向けて

Towards a Framework for Evaluating Explanations in Automated Fact Verification ( http://arxiv.org/abs/2403.20322v2 )

ライセンス: Link先を確認
Neema Kotonya, Francesca Toni, (参考訳) NLPの深いニューラルモデルがより複雑になり、結果として不透明になるにつれて、それらを解釈する必要がある。 急激な関心は、予測の簡潔で一貫性のある正当化を提供するための合理的な説明に現れている。 本稿では,それらの評価を体系的に支援するための説明の合理化に関する重要な概念と特性に関する公式な枠組みを提唱する。 また、自由形式の説明から導出的説明、(最も豊かな構造を持つ)議論的説明まで、ますます複雑な構造の説明を合理化するのに適した形式的な枠組みを概説する。 自動事実検証タスクに焦点をあてて,多様構造に合わせた説明文の評価に形式化の利用と有用性を示す。

As deep neural models in NLP become more complex, and as a consequence opaque, the necessity to interpret them becomes greater. A burgeoning interest has emerged in rationalizing explanations to provide short and coherent justifications for predictions. In this position paper, we advocate for a formal framework for key concepts and properties about rationalizing explanations to support their evaluation systematically. We also outline one such formal framework, tailored to rationalizing explanations of increasingly complex structures, from free-form explanations to deductive explanations, to argumentative explanations (with the richest structure). Focusing on the automated fact verification task, we provide illustrations of the use and usefulness of our formalization for evaluating explanations, tailored to their varying structures.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# 腕を広げる:ラジアル・ストリップ・トランスフォーマー

Spread Your Wings: A Radial Strip Transformer for Image Deblurring ( http://arxiv.org/abs/2404.00358v2 )

ライセンス: Link先を確認
Duosheng Chen, Shihao Zhou, Jinshan Pan, Jinglei Shi, Lishen Qu, Jufeng Yang, (参考訳) 動き情報の探索は、動きを損なう作業において重要である。 近年、ウィンドウベースのトランスフォーマーアプローチは、画像劣化において優れた性能を達成している。 ぼやけた結果を引き起こす動きは通常、変換運動と回転運動と、ウィンドウベーストランスフォーマーによるカルト座標系におけるウィンドウシフト操作から成り、直交方向の変換運動を直接探索する。 したがって、これらの手法は回転部をモデル化する限界がある。 この問題を緩和するために、回転運動と翻訳情報を一緒に探索する角度と距離を持つ極座標変換器を導入する。 本稿では, カルト型ではなく極座標系でぼやけた画像を復元する変換器ベースアーキテクチャであるラジアルストリップ変換器(RST)を提案する。 RSTは、ラジアル変形可能な畳み込みによって浅い特徴を抽出する動的ラジアル埋め込みモジュール(DRE)を含む。 我々は、変形可能な畳み込みのオフセットを生成するために極マスク層を設計し、半径に沿って畳み込みカーネルを変形させ、回転運動情報をよりよく捉えることができる。 さらに,深部特徴抽出法として放射状ストリップアテンションソルバ (RSAS) を提案し,窓の関係を方位と半径で整理した。 本発明の注目モジュールは、極座標における画像特徴を重み付けするための放射状ストリップウィンドウを含み、鋭い画像の回復のために、回転及び翻訳動作においてより有用な情報を共に保存する。 6つの合成と実世界のデータセットによる実験結果から,本手法が他のSOTA法に対して有効であることを示す。

Exploring motion information is important for the motion deblurring task. Recent the window-based transformer approaches have achieved decent performance in image deblurring. Note that the motion causing blurry results is usually composed of translation and rotation movements and the window-shift operation in the Cartesian coordinate system by the window-based transformer approaches only directly explores translation motion in orthogonal directions. Thus, these methods have the limitation of modeling the rotation part. To alleviate this problem, we introduce the polar coordinate-based transformer, which has the angles and distance to explore rotation motion and translation information together. In this paper, we propose a Radial Strip Transformer (RST), which is a transformer-based architecture that restores the blur images in a polar coordinate system instead of a Cartesian one. RST contains a dynamic radial embedding module (DRE) to extract the shallow feature by a radial deformable convolution. We design a polar mask layer to generate the offsets for the deformable convolution, which can reshape the convolution kernel along the radius to better capture the rotation motion information. Furthermore, we proposed a radial strip attention solver (RSAS) as deep feature extraction, where the relationship of windows is organized by azimuth and radius. This attention module contains radial strip windows to reweight image features in the polar coordinate, which preserves more useful information in rotation and translation motion together for better recovering the sharp images. Experimental results on six synthesis and real-world datasets prove that our method performs favorably against other SOTA methods for the image deblurring task.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# DHR:弱スーパービジョンセマンティックセマンティックセグメンテーションのためのクラス間およびクラス間領域におけるデュアル特徴駆動階層的リバランシング

DHR: Dual Features-Driven Hierarchical Rebalancing in Inter- and Intra-Class Regions for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.00380v2 )

ライセンス: Link先を確認
Sanghyun Jo, Fei Pan, In-Jae Yu, Kyungsu Kim, (参考訳) 弱教師付きセマンティックセグメンテーション(WSS)は、Segment Anythingのような大規模ビジョンモデルのための入力シードマスクとして使用される場合、限られたデータで高品質なセグメンテーションを保証する。 しかし、WSSは、Random Walkのような従来の拡張メソッドのオーバーフィットに由来する制限として、隣接する複数のクラスを持つイメージで見過ごされているため、マイナークラスに関連する課題に直面します。 まず、従来の手法の代わりに教師なし・弱教師付き特徴写像を用いて、階層的なマスク強化を実現する。 この方法は明らかに上位クラスを分類し、その後、関連する下位クラスを分離し、すべてのクラスが下位クラスを失うことなくマスクで正しく復元されるようにする。 我々のアプローチは、広範な実験を通じて検証され、5つのベンチマーク(VOC: 79.8\%、COCO: 53.9\%、コンテキスト: 49.0\%、ADE: 32.9\%、Stuff: 37.4\%)でWSSを大幅に改善し、完全な教師付きメソッドとのギャップを、VOC検証セット上で84\%以上削減する。 コードはhttps://github.com/shjo-april/DHR.comで入手できる。

Weakly-supervised semantic segmentation (WSS) ensures high-quality segmentation with limited data and excels when employed as input seed masks for large-scale vision models such as Segment Anything. However, WSS faces challenges related to minor classes since those are overlooked in images with adjacent multiple classes, a limitation originating from the overfitting of traditional expansion methods like Random Walk. We first address this by employing unsupervised and weakly-supervised feature maps instead of conventional methodologies, allowing for hierarchical mask enhancement. This method distinctly categorizes higher-level classes and subsequently separates their associated lower-level classes, ensuring all classes are correctly restored in the mask without losing minor ones. Our approach, validated through extensive experimentation, significantly improves WSS across five benchmarks (VOC: 79.8\%, COCO: 53.9\%, Context: 49.0\%, ADE: 32.9\%, Stuff: 37.4\%), reducing the gap with fully supervised methods by over 84\% on the VOC validation set. Code is available at https://github.com/shjo-april/DHR.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# 量子国家浄化の議定書と貿易

Protocols and Trade-Offs of Quantum State Purification ( http://arxiv.org/abs/2404.01138v2 )

ライセンス: Link先を確認
Hongshun Yao, Yu-Ao Chen, Erdong Huang, Kaichu Chen, Xin Wang, (参考訳) 量子状態の浄化は、未知のノイズ状態の複数のコピーから精製された状態を回復することを目的として、量子通信と量子計算において重要な役割を果たす。 本研究は,特定の確率で高い忠実度を達成し,関連するトレードオフを特徴付けるために設計された汎用的な状態浄化フレームワークを導入する。 特に、非偏極雑音下での量子状態に対して、ターゲット確率で最大忠実性を達成することができる明示的な浄化プロトコルを提案する。 さらに,ブロック符号化手法を用いて最適な浄化プロトコルを実装するための量子回路を提案し,ストリーム浄化のための再帰的プロトコルを提案する。 最後に、興味のある様々な量子ノイズモデルの下でノイズの多い量子状態の浄化における効率性と柔軟性の観点から、我々のプロトコルの利点を実証し、我々のアプローチの有効性と汎用性を示す。

Quantum state purification plays a pivotal role in quantum communication and quantum computation, aiming to recover the purified state from multiple copies of an unknown noisy state. This work introduces a general state purification framework designed to achieve the highest fidelity with a specified probability and characterize the associated trade-offs. In particular, for i.i.d. quantum states under depolarizing noise, we propose an explicit purification protocol capable of achieving maximal fidelity with a target probability. Furthermore, we present quantum circuits for implementing the optimal purification protocols via the block encoding technique and propose recursive protocols for stream purification. Finally, we demonstrate the advantages of our protocols in terms of efficiency and flexibility in purifying noisy quantum states under various quantum noise models of interest, showcasing the effectiveness and versatility of our approach.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-19
# 画像は千語を話すが、誰もが聴けるか? 文化的関連性のためのイメージトランスクリエーションについて

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance ( http://arxiv.org/abs/2404.01247v2 )

ライセンス: Link先を確認
Simran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, Graham Neubig, (参考訳) マルチメディアコンテンツが盛んになると、人間の翻訳者は言葉だけでなく、同じ意味を伝えるために画像のような他のモダリティも文化的に適応することに集中するようになった。 この利点を享受するアプリケーションはいくつかあるが、機械翻訳システムは音声やテキストでの言語処理に限られている。 本研究では、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出す。 まず、そのタスクを行うために最先端の生成モデルからなる3つのパイプラインを構築します。 次に、2部評価データセットを構築します。 一 イメージごとに一つの概念に焦点をあてて、文化的に整合性のある600のイメージからなる概念 二 応用:現実世界の応用から算出した百枚の画像を含むもの 我々は,翻訳画像の多面的評価を行い,その文化的意義と保存性を評価する。 現在、画像編集モデルは、このタスクでは失敗するが、ループ内のLLMとレトリバーを活用することで改善できる。 ベストパイプラインは、より簡単なコンセプトデータセットで画像の5%しか変換できないため、アプリケーションデータセットのいくつかの国では翻訳が成功せず、タスクの難易度を強調している。 私たちのコードとデータはここでリリースされています。

Given the rise of multimedia content, human translators increasingly focus on culturally adapting not only words but also other modalities such as images to convey the same meaning. While several applications stand to benefit from this, machine translation systems remain confined to dealing with language in speech and text. In this work, we take a first step towards translating images to make them culturally relevant. First, we build three pipelines comprising state-of-the-art generative models to do the task. Next, we build a two-part evaluation dataset: i) concept: comprising 600 images that are cross-culturally coherent, focusing on a single concept per image, and ii) application: comprising 100 images curated from real-world applications. We conduct a multi-faceted human evaluation of translated images to assess for cultural relevance and meaning preservation. We find that as of today, image-editing models fail at this task, but can be improved by leveraging LLMs and retrievers in the loop. Best pipelines can only translate 5% of images for some countries in the easier concept dataset and no translation is successful for some countries in the application dataset, highlighting the challenging nature of the task. Our code and data is released here: https://github.com/simran-khanuja/image-transcreation.
翻訳日:2024-05-21 22:41:02 公開日:2024-05-19
# RALL-E: テキスト音声合成のためのChain-of-Thought Promptingを用いたロバストコーデック言語モデリング

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis ( http://arxiv.org/abs/2404.03204v3 )

ライセンス: Link先を確認
Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao, (参考訳) 本稿では,TTS合成のための頑健な言語モデリング手法であるRALL-Eを提案する。 大規模言語モデル(LLM)に基づく以前の研究は、ゼロショットTSにおいて印象的な性能を示したが、このような手法は、不安定な韻律(ピッチとリズム/デュレーション)や高い単語誤り率(WER)といった、言語モデルの自己回帰予測スタイルによって、しばしば弱い頑健さに悩まされる。 RALL-Eの背後にある中核的なアイデアはチェーン・オブ・シークレット(CoT)のプロンプトであり、LCMベースのTSの堅牢性を高めるため、タスクを単純なステップに分解する。 このアイデアを達成するために、RALL-Eはまず入力テキストの韻律的特徴(ピッチと持続時間)を予測し、それを中間条件としてCoTスタイルの音声トークンを予測する。 第二に、RALL-Eは予測時間プロンプトを用いてトランスフォーマーの自己注意重みの計算を誘導し、音声トークンを予測する際に対応する音素や韻律の特徴にフォーカスするようにモデルを強制する。 総合的な客観的評価と主観評価の結果、強力なベースライン法であるVALL-Eと比較して、RALL-E はゼロショット TTS の WER を 5.6 %$ (再ランクなし) と $1.7 %$ (再ランクなし) から 2.5 %$ と $1.0 %$ に大幅に改善している。 さらに, VALL-E に難解な文を正しく合成し, 誤り率を 68 % から 4 % に下げることを示した。

We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from $5.6\%$ (without reranking) and $1.7\%$ (with reranking) to $2.5\%$ and $1.0\%$, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from $68\%$ to $4\%$.
翻訳日:2024-05-21 22:41:01 公開日:2024-05-19
# Fat-Pipe ネットワーク用離散時間流シミュレータにおける高量子計算能を有する待ち時間ネットワーク制御アルゴリズム

Queue-aware Network Control Algorithm with a High Quantum Computing Readiness-Evaluated in Discrete-time Flow Simulator for Fat-Pipe Networks ( http://arxiv.org/abs/2404.04080v2 )

ライセンス: Link先を確認
Arthur Witt, (参考訳) 量子コンピューティングの新たな技術は、将来どのように問題が解決されるかを変える可能性がある。 本研究では、D-Wave Advantageのような量子アニーリングの原理に基づく、既存の量子コンピュータ上で実行可能な集中型ネットワーク制御アルゴリズムを提案する。 広域ネットワークにおける交通工学のための資源再占有アルゴリズムを提案する。 提案アルゴリズムは、過負荷のトランシーバの場合のトラフィックステアリングとリソース割り当てを変更する。 ファイバアンプやトランシーバーなどの活性成分の設定は、安定性のために変更されない。 このアルゴリズムは、ネットワークトラフィックが数秒の時間スケールで変動したり、自発的なバーストが発生したりする場合に有用である。 さらに,広域ネットワークにおけるアルゴリズムの性能を調べるために,離散時間フローシミュレータを開発した。 ネットワークシミュレータではバッファリング伝送線路のバックログと損失のモデリングについて検討する。 並行フローは、バックログの場合も同様に扱われます。 この研究は、量子アニールコンピュータに適用可能な、ILPベースのネットワーク構成アルゴリズムを提供する。 本稿では, 資源再占有アルゴリズムをバーストトラフィックのあるネットワークに適用した場合, トラフィック損失を2倍に低減できることを示す。 重負荷時の再占有により資源の効率が向上するにつれて、ネットワークのオーバープロビジョンを削減できる。 このように、この新しい形態のネットワーク操作は、ゼロマージンネットワークへと導かれる。 新たに導入したネットワークシミュレータにより,フェットパイプネットワーク内のバッファリングなどの短時間効果を解析できることを示す。 実規模ネットワークにおけるネットワーク構成の計算は一般的に時間を要するため、量子コンピューティングは提案したネットワーク構成アルゴリズムを実規模ワイドエリアネットワークに適用することができる。

The emerging technology of quantum computing has the potential to change the way how problems will be solved in the future. This work presents a centralized network control algorithm executable on already existing quantum computer which are based on the principle of quantum annealing like the D-Wave Advantage. We introduce a resource reoccupation algorithm for traffic engineering in wide-area networks. The proposed optimization algorithm changes traffic steering and resource allocation in case of overloaded transceivers. Settings of active components like fiber amplifiers and transceivers are not changed for the reason of stability. This algorithm is beneficial in situations when the network traffic is fluctuating in time scales of seconds or spontaneous bursts occur. Further, we developed a discrete-time flow simulator to study the algorithm's performance in wide-area networks. Our network simulator considers backlog and loss modeling of buffered transmission lines. Concurring flows are handled equally in case of a backlog. This work provides an ILP-based network configuring algorithm that is applicable on quantum annealing computers. We showcase, that traffic losses can be reduced significantly by a factor of 2 if a resource reoccupation algorithm is applied in a network with bursty traffic. As resources are used more efficiently by reoccupation in heavy load situations, overprovisioning of networks can be reduced. Thus, this new form of network operation leads toward a zero-margin network. We show that our newly introduced network simulator enables analyses of short-time effects like buffering within fat-pipe networks. As the calculation of network configurations in real-sized networks is typically time-consuming, quantum computing can enable the proposed network configuration algorithm for application in real-sized wide-area networks.
翻訳日:2024-05-21 22:41:01 公開日:2024-05-19
# 公正規制が施設の政策と人口基準に及ぼす影響

Impact of Fairness Regulations on Institutions' Policies and Population Qualifications ( http://arxiv.org/abs/2404.04534v2 )

ライセンス: Link先を確認
Hamidreza Montaseri, Amin Gohari, (参考訳) アルゴリズムシステムの拡散は、彼らの社会的影響の規制と制御に関する議論を加速させた。 本稿では,最も適格な個人を選択することで,実用性を最大化するシステムについて考察する。 選択アルゴリズムにおける人口格差を促進するために,社会集団間の差別を罰することを検討する。 差別罰が選択の格差を効果的に軽減できる条件を検討する。 また,刑罰政策の施行に応じて,個別の資格が経時的に進化する可能性がある場合にも,このような罰がもたらす影響について検討する。 我々は、ペナルティが人口内の株式の自然な獲得を妨げるシナリオを特定する。 さらに、この望ましくない結果に対処できる条件を提案し、公平性を確保する。

The proliferation of algorithmic systems has fueled discussions surrounding the regulation and control of their social impact. Herein, we consider a system whose primary objective is to maximize utility by selecting the most qualified individuals. To promote demographic parity in the selection algorithm, we consider penalizing discrimination across social groups. We examine conditions under which a discrimination penalty can effectively reduce disparity in the selection. Additionally, we explore the implications of such a penalty when individual qualifications may evolve over time in response to the imposed penalizing policy. We identify scenarios where the penalty could hinder the natural attainment of equity within the population. Moreover, we propose certain conditions that can counteract this undesirable outcome, thus ensuring fairness.
翻訳日:2024-05-21 22:41:01 公開日:2024-05-19
# Raster Forge: インタラクティブなRaster操作ライブラリとPython用GUI

Raster Forge: Interactive Raster Manipulation Library and GUI for Python ( http://arxiv.org/abs/2404.06389v2 )

ライセンス: Link先を確認
Afonso Oliveira, Nuno Fachada, João P. Matos-Carvalho, (参考訳) Raster Forgeは、Rasterデータ操作と分析のためのPythonライブラリとグラフィカルユーザインターフェースである。 このツールはリモートセンシングアプリケーション、特に山火事管理に重点を置いている。 画像合成や地形解析などのタスクのために、ユーザはラスタ層をインポート、視覚化、処理することができる。 森林火災管理のためには、事前に定義されたモデルを用いて燃料マップを生成する。 その影響は災害管理から水文学モデリング、農業、環境モニタリングまで及んでいる。 Raster Forgeは、ラスタデータ分析、地理空間データ処理の強化、さまざまな分野にわたる可視化に依存する地質学者や研究者にとって、貴重な資産となり得る。

Raster Forge is a Python library and graphical user interface for raster data manipulation and analysis. The tool is focused on remote sensing applications, particularly in wildfire management. It allows users to import, visualize, and process raster layers for tasks such as image compositing or topographical analysis. For wildfire management, it generates fuel maps using predefined models. Its impact extends from disaster management to hydrological modeling, agriculture, and environmental monitoring. Raster Forge can be a valuable asset for geoscientists and researchers who rely on raster data analysis, enhancing geospatial data processing and visualization across various disciplines.
翻訳日:2024-05-21 22:41:01 公開日:2024-05-19
# 敵防衛と肩を並べる : 拡散を試してみる

Struggle with Adversarial Defense? Try Diffusion ( http://arxiv.org/abs/2404.08273v3 )

ライセンス: Link先を確認
Yujie Li, Yanbin Wang, Haitao Xu, Bin Liu, Jianguo Sun, Zhenhao Guo, Wenrui Ma, (参考訳) 敵攻撃は微妙な摂動を導入して誤分類を引き起こす。 近年、画像分類器に拡散モデルを適用し、対向訓練や対向雑音の浄化により対向ロバスト性を向上させる。 しかし、拡散に基づく敵の訓練は、しばしば収束課題と高い計算費用に遭遇する。 さらに、拡散ベースの浄化は必然的にデータシフトを引き起こし、より強い適応攻撃の影響を受けやすいと考えられる。 これらの問題に対処するために,事前学習した拡散モデルとベイズ定理に基づく生成ベイズ分類器である真最大拡散分類器 (TMDC) を提案する。 データ駆動型分類器とは異なり、TMDCは拡散モデルからの条件付き確率を利用して入力画像のクラス確率を判定し、データシフトの影響と敵対的訓練の限界に対して絶縁する。 さらに,TMDCの強力な敵攻撃に対するレジリエンスを高めるため,拡散分類器の最適化戦略を提案する。 この戦略は、乱れたデータセット上の拡散モデルを条件として訓練し、拡散モデルを誘導し、データ分布を学習し、地絡ラベル下での確率を最大化する。 提案手法は,CIFAR10データセットにおける重度ホワイトボックス攻撃と強い適応攻撃に対する最先端性能を実現する。 具体的には、TMDCは、標準有界摂動に対して82.81%、標準有界摂動で86.05%、標準有界摂動で86.05%、それぞれ$\epsilon=0.05$である。

Adversarial attacks induce misclassification by introducing subtle perturbations. Recently, diffusion models are applied to the image classifiers to improve adversarial robustness through adversarial training or by purifying adversarial noise. However, diffusion-based adversarial training often encounters convergence challenges and high computational expenses. Additionally, diffusion-based purification inevitably causes data shift and is deemed susceptible to stronger adaptive attacks. To tackle these issues, we propose the Truth Maximization Diffusion Classifier (TMDC), a generative Bayesian classifier that builds upon pre-trained diffusion models and the Bayesian theorem. Unlike data-driven classifiers, TMDC, guided by Bayesian principles, utilizes the conditional likelihood from diffusion models to determine the class probabilities of input images, thereby insulating against the influences of data shift and the limitations of adversarial training. Moreover, to enhance TMDC's resilience against more potent adversarial attacks, we propose an optimization strategy for diffusion classifiers. This strategy involves post-training the diffusion model on perturbed datasets with ground-truth labels as conditions, guiding the diffusion model to learn the data distribution and maximizing the likelihood under the ground-truth labels. The proposed method achieves state-of-the-art performance on the CIFAR10 dataset against heavy white-box attacks and strong adaptive attacks. Specifically, TMDC achieves robust accuracies of 82.81% against $l_{\infty}$ norm-bounded perturbations and 86.05% against $l_{2}$ norm-bounded perturbations, respectively, with $\epsilon=0.05$.
翻訳日:2024-05-21 22:41:01 公開日:2024-05-19
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v8 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# 拡散モデルを用いた頑健な深度推定のためのコントラスト学習

Digging into contrastive learning for robust depth estimation with diffusion models ( http://arxiv.org/abs/2404.09831v3 )

ライセンス: Link先を確認
Jiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao, (参考訳) 近年, 拡散型深度推定法は, エレガントなデノナイジングパターンと有望な性能により, 広く注目を集めている。 しかし、雨や雪などの現実のシナリオでよく見られる悪条件下では、信頼できないのが普通である。 本稿では,複雑な環境における性能劣化を軽減するために,拡散モデルに適した独自のコントラスト学習モードを備えた,D4RDと呼ばれる新しい頑健な深度推定手法を提案する。 具体的には、知識蒸留の強みを対照的な学習に統合し、「真性」の対照的なスキームを構築する。 このスキームは前方拡散過程のサンプルノイズを自然参照として利用し、様々な場面で予測されたノイズをより安定かつ正確な最適化に向けて導く。 さらに、より汎用的な特徴や画像レベルを包含する雑音レベルトリニティを拡張し、マルチレベルコントラストを確立し、ネットワーク全体にわたって頑健な知覚の重荷を分散する。 複雑なシナリオに対処する前に、3つの単純かつ効果的な改善によりベースライン拡散モデルの安定性を高め、収束を容易にし、奥行きの外れを除去する。 大規模な実験により、D4RDは、合成汚職データセットや現実世界の気象条件に関する既存の最先端のソリューションを超越していることが示された。 D4RDのコードは、さらなる調査と採用のために利用可能になる予定である。

Recently, diffusion-based depth estimation methods have drawn widespread attention due to their elegant denoising patterns and promising performance. However, they are typically unreliable under adverse conditions prevalent in real-world scenarios, such as rainy, snowy, etc. In this paper, we propose a novel robust depth estimation method called D4RD, featuring a custom contrastive learning mode tailored for diffusion models to mitigate performance degradation in complex environments. Concretely, we integrate the strength of knowledge distillation into contrastive learning, building the `trinity' contrastive scheme. This scheme utilizes the sampled noise of the forward diffusion process as a natural reference, guiding the predicted noise in diverse scenes toward a more stable and precise optimum. Moreover, we extend noise-level trinity to encompass more generic feature and image levels, establishing a multi-level contrast to distribute the burden of robust perception across the overall network. Before addressing complex scenarios, we enhance the stability of the baseline diffusion model with three straightforward yet effective improvements, which facilitate convergence and remove depth outliers. Extensive experiments demonstrate that D4RD surpasses existing state-of-the-art solutions on synthetic corruption datasets and real-world weather conditions. The code for D4RD will be made available for further exploration and adoption.
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# 量子ジャンプの理論

A Theory of Quantum Jumps ( http://arxiv.org/abs/2404.10460v2 )

ライセンス: Link先を確認
Jürg Fröhlich, Zhou Gang, Alessandro Pizzo, (参考訳) ETHの原理(量子力学へのアプローチ)を用いて、量子化された電磁場に結合した原子の理想化されたモデルにおける蛍光と「量子ジャンプ」現象を研究する。 原子の軌道運動が無視され光の速度が無限大になる制限状態において、個々の原子の状態の有効時間進化を記述する明示的な非線形確率微分方程式を導出する。 これらの方程式は、ブラウン運動のウィナー測度の量子力学的類似である量子ジャンプを持つ状態軌道の測度をもたらす。 この結果は、いくつかの単純なモデルの文脈における基本原理から、顕微鏡システムの量子力学的記述における基本ランダム性の導出に関係している。

Using the principles of the ETH - Approach to Quantum Mechanics we study fluorescence and the phenomenon of ``quantum jumps'' in idealized models of atoms coupled to the quantized electromagnetic field. In a limiting regime where the orbital motion of the atoms is neglected and the velocity of light tends to infinity we derive explicit non-linear stochastic differential equations describing the effective time evolution of states of individual atoms. These equations give rise to a measure on state-trajectories with quantum jumps which is a quantum-mechanical analogue of the Wiener measure of Brownian motion. Our results amount to a derivation of the fundamental randomness in the quantum-mechanical description of microscopic systems from basic principles in the context of some simple models.
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# 微調整・伝達学習における制御理論的アプローチ

Control Theoretic Approach to Fine-Tuning and Transfer Learning ( http://arxiv.org/abs/2404.11013v2 )

ライセンス: Link先を確認
Erkan Bayram, Shenyu Liu, Mohamed-Ali Belabbas, Tamer Başar, (参考訳) ペア化された $(\mathcal{X},\mathcal{Y})$ の形式のトレーニングセットが与えられたとき、制御系 $\dot x = f(x,u)$ は、制御系 $u^*$ を通じてペア化された集合を学んだ。 トレーニングセットが拡張された場合、新しい制御の$u^*$を見つけるには、スクラッチから開始する必要がある。 この制限を克服するために、$\textit{ tuning without forgetting}$という概念を導入します。 トレーニングセットが拡大すると、制御をu^*$に調整するために$\textit{an iterative algorithm}$を開発し、ペアセットにすでにある点が一致し、新しいトレーニングサンプルが学習される。 提案手法の更新毎に,学習したサンプルの制御ダイナミクスによって生成されたエンドポイントマッピングのカーネルに$u^*$の制御を投影する。 追加サンプルを反復的に学習しながら、事前に学習したサンプルのエンドポイントを一定に保つ。

Given a training set in the form of a paired $(\mathcal{X},\mathcal{Y})$, we say that the control system $\dot x = f(x,u)$ has learned the paired set via the control $u^*$ if the system steers each point of $\mathcal{X}$ to its corresponding target in $\mathcal{Y}$. If the training set is expanded, most existing methods for finding a new control $u^*$ require starting from scratch, resulting in a quadratic increase in complexity with the number of points. To overcome this limitation, we introduce the concept of $\textit{ tuning without forgetting}$. We develop $\textit{an iterative algorithm}$ to tune the control $u^*$ when the training set expands, whereby points already in the paired set are still matched, and new training samples are learned. At each update of our method, the control $u^*$ is projected onto the kernel of the end-point mapping generated by the controlled dynamics at the learned samples. It ensures keeping the end-points for the previously learned samples constant while iteratively learning additional samples.
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# CAUS:大規模言語モデルを活用した人間の認知に基づく質問生成のためのデータセット

CAUS: A Dataset for Question Generation based on Human Cognition Leveraging Large Language Models ( http://arxiv.org/abs/2404.11835v2 )

ライセンス: Link先を確認
Minjung Shin, Donghyun Kim, Jeh-Kwang Ryu, (参考訳) 本稿では,大規模言語モデル(特にGPT-4)が不確実性を解決するための認知過程をエミュレートできるように設計されたCurious About Uncertain Scene (CAUS)データセットを紹介する。 このデータセットを活用することで,LLMが質問を効果的に行う可能性について検討する。 我々のアプローチは、推論とクエリの生成を刺激するために、不確実性に埋め込まれたシーン記述を提供することである。 クエリは多次元の基準に従って分類される。 すべての手順は、LLMと人間の研究者の両方が参加する協調システムによって促進される。 以上の結果から, GPT-4は, 適切な文脈や指示が与えられた場合に, 適切な質問を効果的に生成し, そのニュアンスを把握できることが示唆された。 この研究は、人間のような質問をAIモデルに組み込むことで、不確実性を管理する能力が向上し、人工知能(AI)の今後の進歩への道が開かれたことを示唆している。

We introduce the Curious About Uncertain Scene (CAUS) dataset, designed to enable Large Language Models, specifically GPT-4, to emulate human cognitive processes for resolving uncertainties. Leveraging this dataset, we investigate the potential of LLMs to engage in questioning effectively. Our approach involves providing scene descriptions embedded with uncertainties to stimulate the generation of reasoning and queries. The queries are then classified according to multi-dimensional criteria. All procedures are facilitated by a collaborative system involving both LLMs and human researchers. Our results demonstrate that GPT-4 can effectively generate pertinent questions and grasp their nuances, particularly when given appropriate context and instructions. The study suggests that incorporating human-like questioning into AI models improves their ability to manage uncertainties, paving the way for future advancements in Artificial Intelligence (AI).
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# FLDM-VTON:仮想試行のための忠実潜在拡散モデル

FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on ( http://arxiv.org/abs/2404.14162v3 )

ライセンス: Link先を確認
Chenhui Wang, Tao Chen, Zhihao Chen, Zhizhong Huang, Taoran Jiang, Qi Wang, Hongming Shan, (参考訳) 優れた生成性能にもかかわらず、潜伏拡散モデルに基づく仮想試行法(VTON)は、スタイル、パターン、テキストなどの衣服の重要な詳細に忠実さを欠いている。 拡散確率的性質と潜伏監視によるこれらの問題を緩和するために, FLDM-VTON と呼ばれる新しい VTON のFhithful Latent Diffusion Model を提案する。 FLDM-VTONは従来の潜伏拡散過程を3つの面で改善する。 まず, ゆがんだ衣服を出発点と局所状態の両方に取り入れ, 忠実な衣服をモデルとして提供することを提案する。 第2に、生成した試着画像を拘束する新しい衣服フラット化ネットワークを導入し、着物に一貫性のある忠実な監視を提供する。 第3に,忠実な推論のための衣服後サンプリングを考案し,従来の衣服非依存型ガウスサンプリングよりもモデル性能を向上する。 ベンチマークVITON-HDとDress Codeのデータセットによる大規模な実験結果から、FLDM-VTONは最先端のベースラインより優れており、忠実な衣服の詳細で写真リアルな試行画像を生成することができることが示された。

Despite their impressive generative performance, latent diffusion model-based virtual try-on (VTON) methods lack faithfulness to crucial details of the clothes, such as style, pattern, and text. To alleviate these issues caused by the diffusion stochastic nature and latent supervision, we propose a novel Faithful Latent Diffusion Model for VTON, termed FLDM-VTON. FLDM-VTON improves the conventional latent diffusion process in three major aspects. First, we propose incorporating warped clothes as both the starting point and local condition, supplying the model with faithful clothes priors. Second, we introduce a novel clothes flattening network to constrain generated try-on images, providing clothes-consistent faithful supervision. Third, we devise a clothes-posterior sampling for faithful inference, further enhancing the model performance over conventional clothes-agnostic Gaussian sampling. Extensive experimental results on the benchmark VITON-HD and Dress Code datasets demonstrate that our FLDM-VTON outperforms state-of-the-art baselines and is able to generate photo-realistic try-on images with faithful clothing details.
翻訳日:2024-05-21 22:31:13 公開日:2024-05-19
# 自己教師付き学習における普遍性の明示的モデリング

Explicitly Modeling Universality into Self-Supervised Learning ( http://arxiv.org/abs/2405.01053v2 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Changwen Zheng, (参考訳) 自己教師付き学習(SSL)における普遍性の目標は、ラベルのないデータから普遍的な表現を学習し、すべてのサンプルやタスクにおいて優れたパフォーマンスを達成することである。 しかし、これらの手法は学習目的における普遍性の明示的なモデリングを欠いているため、関連する理論的理解は限られている。 これにより、モデルはデータスカースな状況に過度に適合し、現実の生活であまり一般化しない可能性がある。 これらの問題に対処するため、SSLモデルの学習と評価の普遍性の両方を、識別可能性、転送可能性、一般化の観点から制約する、SSLにおける普遍性の理論的定義を提供する。 そこで我々は,あるSSLモデルの普遍性のスコアの定量化を支援するために,$\sigma$-measurementを提案する。 定義と測定に基づいて、汎用性をSSLに明示的にモデル化する、GeSSLと呼ばれる一般的なSSLフレームワークを提案する。 これは$\sigma$-measurementに基づく自己動機的ターゲットを導入し、モデルが普遍性に対する最適な更新方向を見つけることを可能にする。 広範囲な理論的および経験的評価は、GeSSLの優れた性能を示している。

The goal of universality in self-supervised learning (SSL) is to learn universal representations from unlabeled data and achieve excellent performance on all samples and tasks. However, these methods lack explicit modeling of the universality in the learning objective, and the related theoretical understanding remains limited. This may cause models to overfit in data-scarce situations and generalize poorly in real life. To address these issues, we provide a theoretical definition of universality in SSL, which constrains both the learning and evaluation universality of the SSL models from the perspective of discriminability, transferability, and generalization. Then, we propose a $\sigma$-measurement to help quantify the score of one SSL model's universality. Based on the definition and measurement, we propose a general SSL framework, called GeSSL, to explicitly model universality into SSL. It introduces a self-motivated target based on $\sigma$-measurement, which enables the model to find the optimal update direction towards universality. Extensive theoretical and empirical evaluations demonstrate the superior performance of GeSSL.
翻訳日:2024-05-21 22:21:29 公開日:2024-05-19
# Ryderg-Atomアレーの相互作用による高輝度化

Interaction-Enhanced Superradiance of a Ryderg-Atom Array ( http://arxiv.org/abs/2405.01945v2 )

ライセンス: Link先を確認
Yiwen Han, Haowei Li, Wei Yi, (参考訳) マイクロ波共振器内のレイドバーグ原子配列の超放射相転移について検討した。 空洞場と長距離リドベルク相互作用の相互作用の下では、系の定常状態は相互作用の増強された超放射性を示し、相互作用強度の離散的な集合において臨界原子空洞結合速度は消滅する。 この現象は、連続した全対全相互作用において解析的に理解できるが、増強された超放射能は、空間依存的な相互作用を持つ典型的な実験パラメータの下で持続するが、修正された臨界相互作用強度では持続する。 これらの臨界点における発散感受性は、それぞれ異なる数の原子励起を持つ一対の原子状態からなる創発的量子ラビモデルによって捉えられる。 これらの集合状態は臨界相互作用強度で縮退し、任意に小さな原子空洞結合の超放射相となる。

We study the superradiant phase transition of an array of Rydberg atoms in a dissipative microwave cavity. Under the interplay of the cavity field and the long-range Rydberg interaction, the steady state of the system exhibits an interaction-enhanced superradiance, with vanishing critical atom-cavity coupling rates at a discrete set of interaction strengths. We find that, while the phenomenon can be analytically understood in the case of a constant all-to-all interaction, the enhanced superradiance persists under typical experimental parameters with spatially dependent interactions, but at modified critical interaction strengths. The diverging susceptibility at these critical points is captured by emergent quantum Rabi models, each of which comprises a pair of collective atomic states with different numbers of atomic excitations. These collective states become degenerate at the critical interaction strengths, resulting in a superradiant phase for an arbitrarily small atom-cavity coupling.
翻訳日:2024-05-21 22:21:29 公開日:2024-05-19
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v5 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのかを解析計算により明らかにする。 簡単なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子優位性は$\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-05-21 20:25:40 公開日:2024-05-19
# プロキシに基づく不確実性推定による言語モデルにおける命令追従の改善

Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation ( http://arxiv.org/abs/2405.06424v2 )

ライセンス: Link先を確認
JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang, JuYoun Son, Sima Didari, Baruch Gutow, Heng Hao, Hankyu Moon, Wenjun Hu, Yeong-Dae Kwon, Taehee Lee, Seungjai Min, (参考訳) 言語モデルにおける命令に対する応答品質の評価は不可欠だが、異なるコンテキストにわたる人間の言語が複雑になるため困難である。 この複雑さはしばしば曖昧または矛盾した解釈をもたらし、正確な評価を困難にする。 この問題に対処するために,ベイズ近似に基づくペア応答の品質に対する確実な不確実性推定を導入した新しい不確実性認識リワードモデル(URM)を提案する。 好みのデータセットでトレーニングされた我々の不確実性対応プロキシは、応答に対する報酬をスコアするだけでなく、その固有の不確実性を評価する。 実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。 提案手法は,学習用データキュレーションを改良し,政策最適化の目標を改良することにより,言語モデルの命令追従能力を向上し,VicunaやMT-benchといったベンチマークにおいて既存の手法をはるかに上回っている。 これらの結果から,提案手法は言語モデルトレーニングを大幅に進歩させ,言語モデル内の不確実性を活用する新たな手法を舗装することを示す。

Assessing response quality to instructions in language models is vital but challenging due to the complexity of human language across different contexts. This complexity often results in ambiguous or inconsistent interpretations, making accurate assessment difficult. To address this issue, we propose a novel Uncertainty-aware Reward Model (URM) that introduces a robust uncertainty estimation for the quality of paired responses based on Bayesian approximation. Trained with preference datasets, our uncertainty-enabled proxy not only scores rewards for responses but also evaluates their inherent uncertainty. Empirical results demonstrate significant benefits of incorporating the proposed proxy into language model training. Our method boosts the instruction following capability of language models by refining data curation for training and improving policy optimization objectives, thereby surpassing existing methods by a large margin on benchmarks such as Vicuna and MT-bench. These findings highlight that our proposed approach substantially advances language model training and paves a new way of harnessing uncertainty within language models.
翻訳日:2024-05-21 20:15:46 公開日:2024-05-19
# EthereumスマートコントラクトにおけるPietrzakの検証遅延関数のコスト効果検証の実装検討

Implementation Study of Cost-Effective Verification for Pietrzak's Verifiable Delay Function in Ethereum Smart Contracts ( http://arxiv.org/abs/2405.06498v3 )

ライセンス: Link先を確認
Suhyeon Lee, Euisin Gee, Junghee Lee, (参考訳) Verifiable Delay Function (VDF) は、並列処理に耐性のある逐次処理による出力の最小遅延を保証する暗号概念である。 WesolowskiとPietrzakの2つのよく知られたVDFプロトコルの中で、私たちはブロックチェーン環境の計算効率と適合性から、Pietrzak VDFに注力しています。 Pietrzak のアプローチは、Wesolowski のアプローチよりも長い証明長にもかかわらず、実際的な代替手段を提供する。 本稿では, 実用的なVDF検証実装, 特にスマートコントラクトにおける研究の不足を踏まえ, VDF検証の完全性と信頼性を損なうことなく, Ethereumベースの環境でPietrzak VDFの費用対効果検証を実現することを目的とする。 まず,潜在的効率向上のための一般化された証明生成と検証アルゴリズムを提案する。 第2に、VDF検証のためのトランザクションにおいて、各部分のガスコストを分類し、測定する。 第3に、解析に基づいて、最適化された証明構成を理論的に予測する。 最後に,理論予測が実装結果と一致することを示す。 さらに,Pietrzak VDFの証明長は2048ビットRSA鍵長の8KB以下であり,従来の予想よりもはるかに小さいことを示す。 これは、Pietrzak VDFがブロックチェーン上の暗号化アプリケーションに実用的に使用できることを意味している。

Verifiable Delay Function (VDF) is a cryptographic concept that ensures a minimum delay before output through sequential processing, which is resistant to parallel computing. Among the two well-known VDF protocols, Wesolowski and Pietrzak VDF, we focus on the Pietrzak VDF due to its computational efficiency and suitability for blockchain environments. Pietrzak's approach uses a recursive proof verification with the halving protocol, offering a practical alternative despite the longer proof length than Wesolowski's approach. Given the scarcity of research on practical VDF verification implementation, especially within smart contracts, this paper aims to implement cost-effective verification for the Pietrzak VDF in an Ethereum-based environment without compromising the VDF verification's integrity and reliability. Firstly, we propose generalized proof generation and verification algorithms for potential efficiency improvement. Secondly, we categorize and measure the gas cost of each part in a transaction for VDF verification. Thirdly, based on the analysis, we theoretically predict the optimized proof construction. Finally, we demonstrate the theoretical prediction matches the implementation results. Furthermore, our research shows that the proof length of the Pietrzak VDF is generated under 8 KB with the 2048-bit RSA key length, much smaller than the previous expectation. This implies that the Pietrzak VDF can be practically used for cryptographic applications on blockchains.
翻訳日:2024-05-21 20:15:46 公開日:2024-05-19
# 作物育種におけるゲノム選択におけるトランスフォーマー性能向上のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding ( http://arxiv.org/abs/2405.09585v2 )

ライセンス: Link先を確認
Renqi Chen, Wenwei Han, Haohao Zhang, Haoyang Su, Zhefan Wang, Xiaolei Liu, Hao Jiang, Wanli Ouyang, Nanqing Dong, (参考訳) 遺伝的選抜(GS)は、重要な作物育成戦略として、食糧生産の増強と世界の飢餓危機への対処に重要な役割を果たしている。 現在、GSの主要なアプローチは、予測に統計手法を採用することである。 しかし、統計手法には強い統計的前提と線形仮定の2つの主要な制限がある。 最近のトレンドは、ディープラーニングによってマーカー間の非線形関係を捉えることである。 しかし、作物のデータセットは通常、限られたサンプルを持つ長いシーケンスであるため、ディープラーニングモデル、特にトランスフォーマーの堅牢性は依然として課題である。 本研究では,興味ある課題に対する未探索の注意機構の可能性を解き放つために,シーケンス全体のエンドツーエンドトレーニングを可能にする,シンプルで効果的なトランスフォーマーベースのフレームワークを提案する。 水稲3kと小麦3kのデータセットを実験した結果,k-merのトークン化やランダムマスキングといった簡単な手法によって,TransformerはGSタスクのセミナルメソッドに対して,全体的な優れたパフォーマンスを達成できることが判明した。

Genomic selection (GS), as a critical crop breeding strategy, plays a key role in enhancing food production and addressing the global hunger crisis. The predominant approaches in GS currently revolve around employing statistical methods for prediction. However, statistical methods often come with two main limitations: strong statistical priors and linear assumptions. A recent trend is to capture the non-linear relationships between markers by deep learning. However, as crop datasets are commonly long sequences with limited samples, the robustness of deep learning models, especially Transformers, remains a challenge. In this work, to unleash the unexplored potential of attention mechanism for the task of interest, we propose a simple yet effective Transformer-based framework that enables end-to-end training of the whole sequence. Via experiments on rice3k and wheat3k datasets, we show that, with simple tricks such as k-mer tokenization and random masking, Transformer can achieve overall superior performance against seminal methods on GS tasks of interest.
翻訳日:2024-05-21 20:06:02 公開日:2024-05-19
# オンラインバイパーティイトマッチングと不完全なアドバイス

Online bipartite matching with imperfect advice ( http://arxiv.org/abs/2405.09784v2 )

ライセンス: Link先を確認
Davin Choo, Themis Gouleakis, Chun Kai Ling, Arnab Bhattacharyya, (参考訳) オンラインの非重み付き二部マッチングと$n$オフラインの頂点と$n$オンラインの頂点との問題は、最適なオフラインアルゴリズムと競合することを望んでいる。 Karp et al [1990] の古典的 RANKing アルゴリズムは、1-1/e > 1/2$ の競合比を確実に達成するが、1-一貫性と1/2$-robust よりも厳密に優れた学習拡張法は存在しないことを示す。 一方, ランダム到着モデルでは, オンライン頂点に対する外部アドバイスを取り入れ, アドバイスフリーで達成可能な任意の比率と, アドバイス品質に応じて最適な1の比率を補間するアルゴリズムを設計するために, 分散テストの手法をいかに活用できるかを示す。

We study the problem of online unweighted bipartite matching with $n$ offline vertices and $n$ online vertices where one wishes to be competitive against the optimal offline algorithm. While the classic RANKING algorithm of Karp et al. [1990] provably attains competitive ratio of $1-1/e > 1/2$, we show that no learning-augmented method can be both 1-consistent and strictly better than $1/2$-robust under the adversarial arrival model. Meanwhile, under the random arrival model, we show how one can utilize methods from distribution testing to design an algorithm that takes in external advice about the online vertices and provably achieves competitive ratio interpolating between any ratio attainable by advice-free methods and the optimal ratio of 1, depending on the advice quality.
翻訳日:2024-05-21 20:06:02 公開日:2024-05-19
# IBD-PSC:パラメータ指向スケーリング一貫性による入力レベルのバックドア検出

IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency ( http://arxiv.org/abs/2405.09786v2 )

ライセンス: Link先を確認
Linshan Hou, Ruili Feng, Zhongyun Hua, Wei Luo, Leo Yu Zhang, Yiming Li, (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、モデルトレーニング中に隠れたバックドアを埋め込むことで、敵が悪意を持ってモデルミス分類をトリガーすることができる。 本稿では,悪意のあるテスト画像のフィルタリングを行うため,簡易かつ効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を「ファイアウォール」として提案する。 本手法は, モデルパラメータを増幅する際, 有毒試料の予測信頼度が良性試料の予測値と著しく一致している, パラメータ指向スケーリング一貫性(PSC)という興味深い現象によって動機付けられている。 特に,PSC現象の基礎を守るために理論的解析を行う。 また, BN層を選択する適応的手法を設計し, 有効検出のためにスケールアップする。 IBD-PSC法の有効性と,適応攻撃に対する耐性を検証した。

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where adversaries can maliciously trigger model misclassifications by implanting a hidden backdoor during model training. This paper proposes a simple yet effective input-level backdoor detection (dubbed IBD-PSC) as a 'firewall' to filter out malicious testing images. Our method is motivated by an intriguing phenomenon, i.e., parameter-oriented scaling consistency (PSC), where the prediction confidences of poisoned samples are significantly more consistent than those of benign ones when amplifying model parameters. In particular, we provide theoretical analysis to safeguard the foundations of the PSC phenomenon. We also design an adaptive method to select BN layers to scale up for effective detection. Extensive experiments are conducted on benchmark datasets, verifying the effectiveness and efficiency of our IBD-PSC method and its resistance to adaptive attacks.
翻訳日:2024-05-21 20:06:02 公開日:2024-05-19
# グラフ生成のための離散状態連続時間拡散

Discrete-state Continuous-time Diffusion for Graph Generation ( http://arxiv.org/abs/2405.11416v1 )

ライセンス: Link先を確認
Zhe Xu, Ruizhong Qiu, Yuzhong Chen, Huiyuan Chen, Xiran Fan, Menghai Pan, Zhichen Zeng, Mahashweta Das, Hanghang Tong, (参考訳) グラフは一般的な離散データ構造であり、その生成には薬物発見や回路設計といった幅広い応用がある。 拡散生成モデルは、新たな研究焦点として、グラフ生成タスクに適用されている。 全体として、状態と時間ステップの空間により、拡散生成モデルは離散/連続状態の離散/連続時間ファッションに分類される。 本稿では,従来のグラフ拡散モデルでは研究されていない離散状態連続時間におけるグラフ拡散生成を定式化する。 このような定式化の理論的根拠は、グラフ構造化データの離散的な性質を保存し、一方、サンプルの品質と効率の間の柔軟なサンプリングトレードオフを提供することである。 分析の結果、我々の学習目標が生成品質と密接に関連していることが示され、提案した生成フレームワークはノード順序の置換に関する理想的な不変/等価な特性を享受する。 提案モデルでは, 各種ベンチマークにおいて, 最先端のグラフ生成ソリューションと競合する経験的性能を示し, 同時に, サンプリングフェーズにおける生成品質と効率を柔軟にトレードオフすることができる。

Graph is a prevalent discrete data structure, whose generation has wide applications such as drug discovery and circuit design. Diffusion generative models, as an emerging research focus, have been applied to graph generation tasks. Overall, according to the space of states and time steps, diffusion generative models can be categorized into discrete-/continuous-state discrete-/continuous-time fashions. In this paper, we formulate the graph diffusion generation in a discrete-state continuous-time setting, which has never been studied in previous graph diffusion models. The rationale of such a formulation is to preserve the discrete nature of graph-structured data and meanwhile provide flexible sampling trade-offs between sample quality and efficiency. Analysis shows that our training objective is closely related to generation quality, and our proposed generation framework enjoys ideal invariant/equivariant properties concerning the permutation of node ordering. Our proposed model shows competitive empirical performance against state-of-the-art graph generation solutions on various benchmarks and, at the same time, can flexibly trade off the generation quality and efficiency in the sampling phase.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 遅延フィードバックによる予算的勧告

Budgeted Recommendation with Delayed Feedback ( http://arxiv.org/abs/2405.11417v1 )

ライセンス: Link先を確認
Kweiguu Liu, Setareh Maghsudi, (参考訳) 従来のマルチアームバンディット問題では、フィードバック(あるいは報酬)はアクションの直後に観測可能である。 それでも、遅延フィードバックは多くの現実の状況で発生し、特に時間に敏感なアプリケーションにおいて重要である。 このような条件下では、探査・探査のジレンマは特に困難となり、遅延と限られた資源の相互作用と相容れない。 加えて、限られた予算は、探索可能性を制限することで問題を悪化させることが多い。 モチベーションの例としては、新型コロナウイルスの初期段階における医療用品の流通が挙げられる。 テスト結果のフィードバックが遅れ、学習に十分な情報が得られなかったため、リソース割り当ての効率が低下した。 このような応用を動機として,遅延フィードバックが制約付きコンテキスト帯域に与える影響について検討する。 我々は、アーム依存の遅延フィードバックを伴うコンテキスト型マルチアームバンディット問題において、リソース支出を最適化するために、意思決定ポリシー、学習による遅延指向リソース割り当て(DORAL)を開発する。

In a conventional contextual multi-armed bandit problem, the feedback (or reward) is immediately observable after an action. Nevertheless, delayed feedback arises in numerous real-life situations and is particularly crucial in time-sensitive applications. The exploration-exploitation dilemma becomes particularly challenging under such conditions, as it couples with the interplay between delays and limited resources. Besides, a limited budget often aggravates the problem by restricting the exploration potential. A motivating example is the distribution of medical supplies at the early stage of COVID-19. The delayed feedback of testing results, thus insufficient information for learning, degraded the efficiency of resource allocation. Motivated by such applications, we study the effect of delayed feedback on constrained contextual bandits. We develop a decision-making policy, delay-oriented resource allocation with learning (DORAL), to optimize the resource expenditure in a contextual multi-armed bandit problem with arm-dependent delayed feedback.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 局所差分プライバシー下におけるケッチに基づく接合サイズ推定

Sketches-based join size estimation under local differential privacy ( http://arxiv.org/abs/2405.11419v1 )

ライセンス: Link先を確認
Meifan Zhang, Xin Liu, Lihua Yin, (参考訳) 機密データの結合サイズ推定は、プライバシー漏洩のリスクをもたらす。 ローカルディファレンシャルプライバシ(LDP)は、機密データを収集しながらプライバシを保存するソリューションであるが、大きなドメインを持つ機密結合属性を扱う場合、大きなノイズが発生する。 スケッチのような確率的構造を採用することは、大きなドメインを扱う方法であるが、ハッシュコリジョンエラーにつながる。 正確な推定を行うには,ノイズ誤差とハッシュ衝突誤差の両方を削減する必要がある。 そこで本研究では,LDP を用いたジョインサイズ推定のための LDPJoinSketch という新しいアルゴリズムを提案する。 さらに, LDP下でのスケッチにおけるハッシュ照合エラーに対処するため, LDPJoinSketch+と呼ばれる拡張手法を提案する。 プライバシーを損なうことなく、高周波および低周波のアイテムを効果的に分離する周波数認識摂動機構を利用する。 提案手法は LDP を満足し,推定誤差は有界である。 実験の結果,提案手法は既存の手法よりも優れており,LDPにおける結合サイズ推定の精度を効果的に向上することがわかった。

Join size estimation on sensitive data poses a risk of privacy leakage. Local differential privacy (LDP) is a solution to preserve privacy while collecting sensitive data, but it introduces significant noise when dealing with sensitive join attributes that have large domains. Employing probabilistic structures such as sketches is a way to handle large domains, but it leads to hash-collision errors. To achieve accurate estimations, it is necessary to reduce both the noise error and hash-collision error. To tackle the noise error caused by protecting sensitive join values with large domains, we introduce a novel algorithm called LDPJoinSketch for sketch-based join size estimation under LDP. Additionally, to address the inherent hash-collision errors in sketches under LDP, we propose an enhanced method called LDPJoinSketch+. It utilizes a frequency-aware perturbation mechanism that effectively separates high-frequency and low-frequency items without compromising privacy. The proposed methods satisfy LDP, and the estimation error is bounded. Experimental results show that our method outperforms existing methods, effectively enhancing the accuracy of join size estimation under LDP.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 社会福祉最適化によるグループフェアネスの評価

Assessing Group Fairness with Social Welfare Optimization ( http://arxiv.org/abs/2405.11421v1 )

ライセンス: Link先を確認
Violet Chen, J. N. Hooker, Derek Leben, (参考訳) 統計的パリティの指標は、公正性を達成する手段として、AIコミュニティで広く研究され、支持されているが、少なくとも2つの弱点に悩まされている。 彼らは決定の実際の福祉結果を無視しており、不利な集団に望まれる公平性を達成できない可能性がある。 加えて、それらはしばしば互いに相容れないものであり、他のものを選ぶのに説得力のある正当化は存在しない。 本稿では、社会福祉機能(SWF)の最適化に基づく、より広範な社会的正義の概念が、パーティの定義の多様さを評価するのに有用かどうかを考察する。 我々は,70年間の公理的議論と交渉によって守られている有名なアルファフェアネスSWFに焦点をあてる。 最適解を解析し、特定の条件下での人口統計学的パリティや均等化オッズを正当化できることを示すが、しばしばこのようなパリティから離脱する必要がある。 さらに,予測率パリティは有用性に限界があることが判明した。 これらの結果から、最適化理論は、AIにおけるグループフェアネスの達成方法に関する議論の激しい疑問に光を当てることができることが示唆された。

Statistical parity metrics have been widely studied and endorsed in the AI community as a means of achieving fairness, but they suffer from at least two weaknesses. They disregard the actual welfare consequences of decisions and may therefore fail to achieve the kind of fairness that is desired for disadvantaged groups. In addition, they are often incompatible with each other, and there is no convincing justification for selecting one rather than another. This paper explores whether a broader conception of social justice, based on optimizing a social welfare function (SWF), can be useful for assessing various definitions of parity. We focus on the well-known alpha fairness SWF, which has been defended by axiomatic and bargaining arguments over a period of 70 years. We analyze the optimal solution and show that it can justify demographic parity or equalized odds under certain conditions, but frequently requires a departure from these types of parity. In addition, we find that predictive rate parity is of limited usefulness. These results suggest that optimization theory can shed light on the intensely discussed question of how to achieve group fairness in AI.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 大規模言語モデルはバイアス付き強化学習者である

Large Language Models are Biased Reinforcement Learners ( http://arxiv.org/abs/2405.11422v1 )

ライセンス: Link先を確認
William M. Hayes, Nicolas Yax, Stefano Palminteri, (参考訳) インコンテキスト学習により、大規模言語モデル(LLM)は、単純なバンディットタスクで報酬を最大化する選択を学習するなど、さまざまなタスクを実行できる。 自己決定エージェントとしての可能性を考えると、これらのモデルがどのように強化学習(RL)タスクを実行し、バイアスの影響を受けやすい範囲を理解することが重要である。 ヒトでは、結果の価値が他の局所的な結果とどのように比較されるかに大きく依存しているという事実から、本研究では、LCMが報酬の成果をエンコードする方法に類似した値の符号化バイアスが適用されるかどうかに焦点を当てた。 複数のバンドイットタスクとモデルを用いた実験の結果、LLMは相対値バイアスの行動的シグネチャを示すことが示された。 プロンプトに明確な結果比較を加えると、性能に反する効果が生じ、訓練された選択集合の最大化が向上するが、新しい選択集合への一般化を損なう。 計算認知モデルにより、LLMの挙動は、結果エンコーディング段階で相対値を含む単純なRLアルゴリズムによってよく記述されていることが明らかになった。 最後に、観測されたバイアスは微調整LDMに限らず、相対値処理は生の事前学習モデルの最終的な隠蔽層活性化において検出可能であるという予備的証拠を示す。 これらの知見は、意思決定にLLMを使うことに重要な意味を持つ。

In-context learning enables large language models (LLMs) to perform a variety of tasks, including learning to make reward-maximizing choices in simple bandit tasks. Given their potential use as (autonomous) decision-making agents, it is important to understand how these models perform such reinforcement learning (RL) tasks and the extent to which they are susceptible to biases. Motivated by the fact that, in humans, it has been widely documented that the value of an outcome depends on how it compares to other local outcomes, the present study focuses on whether similar value encoding biases apply to how LLMs encode rewarding outcomes. Results from experiments with multiple bandit tasks and models show that LLMs exhibit behavioral signatures of a relative value bias. Adding explicit outcome comparisons to the prompt produces opposing effects on performance, enhancing maximization in trained choice sets but impairing generalization to new choice sets. Computational cognitive modeling reveals that LLM behavior is well-described by a simple RL algorithm that incorporates relative values at the outcome encoding stage. Lastly, we present preliminary evidence that the observed biases are not limited to fine-tuned LLMs, and that relative value processing is detectable in the final hidden layer activations of a raw, pretrained model. These findings have important implications for the use of LLMs in decision-making applications.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# ジャカード空間の計量次元と可解性

Metric Dimension and Resolvability of Jaccard Spaces ( http://arxiv.org/abs/2405.11424v1 )

ライセンス: Link先を確認
Manuel E. Lladser, Alexander J. Paradise, (参考訳) 計量空間内の点の部分集合は、空間内の各点が部分集合内の各点への距離によって一意に特徴づけられるとき、それを解くと言われる。 特に、解集合は抽象計量空間の点をユークリッドベクトルとして表すのに使うことができる。 重要なことに、三角形の不等式のため、空間の近傍の点は同様の座標を持つベクトルとして表現され、適度に選択された測度の下で記号的対象の分類問題に応用できる。 この写本では、ジャカード空間の可解性、すなわち、$(2^X,\text{Jac})$ という形の計量空間に対処し、$2^X$ は有限集合 $X$ のパワー集合であり、$\text{Jac}$ は$X$ の部分集合の間のジャカード距離である。 具体的には、異なる$a,b\in 2^X$, $\text{Jac}(a,b)=\frac{|a\Delta b|}{|a\cup b|}$に対して、$|\cdot|$はサイズ(すなわち濃度)を表し、$\Delta$は集合の対称差を表す。 確率的および線型代数的引数を組み合わさって、非常に確率的だがほぼ最適(最小サイズ)な$(2^X,\text{Jac})$の解集合を構成する。 特に、計量次元が$(2^X,\text{Jac})$、すなわち、この空間の解集合の最小サイズは$\Theta(|X|/\ln|X|)$であることを示す。

A subset of points in a metric space is said to resolve it if each point in the space is uniquely characterized by its distance to each point in the subset. In particular, resolving sets can be used to represent points in abstract metric spaces as Euclidean vectors. Importantly, due to the triangle inequality, points close by in the space are represented as vectors with similar coordinates, which may find applications in classification problems of symbolic objects under suitably chosen metrics. In this manuscript, we address the resolvability of Jaccard spaces, i.e., metric spaces of the form $(2^X,\text{Jac})$, where $2^X$ is the power set of a finite set $X$, and $\text{Jac}$ is the Jaccard distance between subsets of $X$. Specifically, for different $a,b\in 2^X$, $\text{Jac}(a,b)=\frac{|a\Delta b|}{|a\cup b|}$, where $|\cdot|$ denotes size (i.e., cardinality) and $\Delta$ denotes the symmetric difference of sets. We combine probabilistic and linear algebra arguments to construct highly likely but nearly optimal (i.e., of minimal size) resolving sets of $(2^X,\text{Jac})$. In particular, we show that the metric dimension of $(2^X,\text{Jac})$, i.e., the minimum size of a resolving set of this space, is $\Theta(|X|/\ln|X|)$.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 超伝導量子ビット回路における電磁結合について

On the electromagnetic couplings in superconducting qubit circuits ( http://arxiv.org/abs/2405.11426v1 )

ライセンス: Link先を確認
Ebrahim Forati, Brandon W. Langley, Ani Nersisyan, (参考訳) 共振器と伝送線路間の電磁結合について論じる。 Nポートマイクロ波ネットワークに結合した単一共振器を定式化する。 共振器の運動方程式とネットワークの入出力関係を求める。 電磁溶液からカップリングを抽出する方法についても論じる。

The electromagnetic couplings among resonators and transmission lines are discussed. A single resonator coupled to an N-port microwave network is formulated. The equation of motion of the resonator and the input-output relations of the network are obtained. Methods of extracting the couplings from electromagnetic solutions are also discussed.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 電力系統過渡シミュレーション問題の解法のための量子ニューラルネットワーク

Quantum Neural Networks for Solving Power System Transient Simulation Problem ( http://arxiv.org/abs/2405.11427v1 )

ライセンス: Link先を確認
Mohammadreza Soltaninia, Junpeng Zhan, (参考訳) 量子力学の原理を活用する量子コンピューティングは、計算方法論における変革的なアプローチであり、従来の古典的システムよりも大幅に拡張されている。 本研究では、微分代数方程式(DAE)を解くことにより、電力系統の過渡現象をシミュレーションする複雑で計算的に要求される課題に取り組む。 本稿では,Sinusoidal-Friendly QNNとPolynomial-Friendly QNNの2つの新しい量子ニューラルネットワークを提案する。 これらのQNNの応用は、2つの小さな電力系統をシミュレートし、その可能性を実証する。 さらに、時間間隔、トレーニングポイント、古典最適化器の選択など様々な構成を検討し、QNNを用いたDAEの解法を最適化する。 この研究は、量子コンピューティングを電力システムシミュレーションに適用する先駆的な取り組みであるだけでなく、複雑なエンジニアリング課題に対処する量子技術の可能性も拡大している。

Quantum computing, leveraging principles of quantum mechanics, represents a transformative approach in computational methodologies, offering significant enhancements over traditional classical systems. This study tackles the complex and computationally demanding task of simulating power system transients through solving differential algebraic equations (DAEs). We introduce two novel Quantum Neural Networks (QNNs): the Sinusoidal-Friendly QNN and the Polynomial-Friendly QNN, proposing them as effective alternatives to conventional simulation techniques. Our application of these QNNs successfully simulates two small power systems, demonstrating their potential to achieve good accuracy. We further explore various configurations, including time intervals, training points, and the selection of classical optimizers, to optimize the solving of DAEs using QNNs. This research not only marks a pioneering effort in applying quantum computing to power system simulations but also expands the potential of quantum technologies in addressing intricate engineering challenges.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# MHPP: 基本コード生成を超える言語モデルの能力と限界を探る

MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation ( http://arxiv.org/abs/2405.11430v1 )

ライセンス: Link先を確認
Jianbo Dai, Jianqiao Lu, Yunlong Feng, Rongju Ruan, Ming Cheng, Haochen Tan, Zhijiang Guo, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特に関数レベルでコード生成を大幅に改善した。 例えば、GPT-4はHumanEvalで88.4%のパスレートを達成した。 しかし、これは関数レベルのコード生成能力を徹底的に評価する既存のベンチマークの妥当性に疑問を呈する。 本研究では,HumanEval と MBPP の2つの共通ベンチマークを解析し,LLM のコード生成能力は品質,難易度,粒度に制限があるため,十分に評価できないことを示した。 この問題を解決するために、140のユニークな人為的問題からなるMHPPデータセットを導入する。 自然言語とコード推論の組み合わせに焦点を当てることで、MHPPはLLMの仕様と制約を理解し、多段階推論を行い、コーディング知識を効果的に適用する能力を評価する。 MHPPを用いた22LLMの初期評価では、HumanEval上での高性能モデルは、MHPPでも同様に成功しなかった。 さらに、MHPPは、これまで発見されていなかった様々な LLM の制限を強調し、LLM の能力と限界をよりよく理解するための道を開くことができると信じた。 データセットとコードはhttps://github.com/SparksofAGI/MHPPで入手できる。

Recent advancements in large language models (LLMs) have greatly improved code generation, specifically at the function level. For instance, GPT-4 has achieved an 88.4% pass rate on HumanEval. However, this draws into question the adequacy of existing benchmarks in thoroughly assessing function-level code generation capabilities. Our study analyzed two common benchmarks, HumanEval and MBPP, and found that these might not thoroughly evaluate LLMs' code generation capacities due to limitations in quality, difficulty, and granularity. To resolve this, we introduce the Mostly Hard Python Problems (MHPP) dataset, consisting of 140 unique human-curated problems. By focusing on the combination of natural language and code reasoning, MHPP gauges LLMs' abilities to comprehend specifications and restrictions, engage in multi-step reasoning, and apply coding knowledge effectively. Initial evaluations of 22 LLMs using MHPP showed many high-performing models on HumanEval failed to achieve similar success on MHPP. Moreover, MHPP highlighted various previously undiscovered limitations within various LLMs, leading us to believe that it could pave the way for a better understanding of LLMs' capabilities and limitations. Dataset and code are available at https://github.com/SparksofAGI/MHPP.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# 暗号価格予測のためのディープラーニングモデルの実装と評価

Review of deep learning models for crypto price prediction: implementation and evaluation ( http://arxiv.org/abs/2405.11431v1 )

ライセンス: Link先を確認
Jingyang Wu, Xinyi Zhang, Fangyixuan Huang, Haochen Zhou, Rohtiash Chandra, (参考訳) 投資家や研究者による正確な暗号通貨価格予測モデルには、多くの関心が寄せられている。 ディープラーニングモデル(Deep Learning model)は、さまざまな分野を変革し、金融と経済学の可能性を示してきた、卓越した機械学習技術である。 暗号通貨価格の予測には様々なディープラーニングモデルが研究されているが、高い市場のボラティリティのためにどのモデルが適切かは明らかではない。 本研究では,暗号通貨価格予測のためのディープラーニングに関する文献をレビューし,暗号通貨価格予測のための新しいディープラーニングモデルを評価する。 我々のディープラーニングモデルには、長い短期記憶(LSTM)リカレントニューラルネットワークの変種、畳み込みニューラルネットワーク(CNN)の変種、トランスフォーマーモデルが含まれています。 暗号通貨の近接価格予測のための多段階事前予測のための一変量および多変量アプローチの評価を行う。 その結果,一変量LSTMモデルの変種は暗号通貨の予測に最適であることが示唆された。 また、新型コロナウイルスのパンデミックを通じて価格の大幅な変動を示す4つの暗号通貨のボラティリティ分析を実施している。 さらに,モデルの異なるトレーニングセットによって識別される2つのシナリオの予測精度について検討した。 まず、COVID-19以前のデータセットを使用して、COVID-19の初期段階における暗号通貨のクローズプライス予測をモデル化します。 第2に、2023年から2024年の価格を予測するために、新型コロナウイルス時代のデータを活用します。

There has been much interest in accurate cryptocurrency price forecast models by investors and researchers. Deep Learning models are prominent machine learning techniques that have transformed various fields and have shown potential for finance and economics. Although various deep learning models have been explored for cryptocurrency price forecasting, it is not clear which models are suitable due to high market volatility. In this study, we review the literature about deep learning for cryptocurrency price forecasting and evaluate novel deep learning models for cryptocurrency stock price prediction. Our deep learning models include variants of long short-term memory (LSTM) recurrent neural networks, variants of convolutional neural networks (CNNs), and the Transformer model. We evaluate univariate and multivariate approaches for multi-step ahead predicting of cryptocurrencies close-price. Our results show that the univariate LSTM model variants perform best for cryptocurrency predictions. We also carry out volatility analysis on the four cryptocurrencies which reveals significant fluctuations in their prices throughout the COVID-19 pandemic. Additionally, we investigate the prediction accuracy of two scenarios identified by different training sets for the models. First, we use the pre-COVID-19 datasets to model cryptocurrency close-price forecasting during the early period of COVID-19. Secondly, we utilise data from the COVID-19 period to predict prices for 2023 to 2024.
翻訳日:2024-05-21 17:49:33 公開日:2024-05-19
# リプシッツ境界政策ネットワークを用いたロバスト強化学習について

On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks ( http://arxiv.org/abs/2405.11432v1 )

ライセンス: Link先を確認
Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester, (参考訳) 本稿では, 深層強化学習におけるロバストな政策ネットワークについて考察する。 リプシッツ境界上の制約を自然に満たす政策パラメータ化の利点を考察し、その経験的性能と2つの代表的な問題(振り子揺らぎとアタリポン)の堅牢性について分析する。 そこで本研究では,小さなリプシッツ境界を持つポリシネットワークが,バニラ多層パーセプトロンや畳み込みニューラルネットワークで構成された制約のないポリシよりも,障害やランダムノイズ,ターゲットの敵攻撃に対して著しく堅牢であることを示す。 さらに,非保守的なリプシッツ境界と表現性のある非線形層アーキテクチャによるポリシーパラメータ化を選択することで,スペクトル正規化に基づく既存の最先端手法よりも,ユーザによる性能損益性トレードオフの制御がよりきめ細やかになることがわかった。

This paper presents a study of robust policy networks in deep reinforcement learning. We investigate the benefits of policy parameterizations that naturally satisfy constraints on their Lipschitz bound, analyzing their empirical performance and robustness on two representative problems: pendulum swing-up and Atari Pong. We illustrate that policy networks with small Lipschitz bounds are significantly more robust to disturbances, random noise, and targeted adversarial attacks than unconstrained policies composed of vanilla multi-layer perceptrons or convolutional neural networks. Moreover, we find that choosing a policy parameterization with a non-conservative Lipschitz bound and an expressive, nonlinear layer architecture gives the user much finer control over the performance-robustness trade-off than existing state-of-the-art methods based on spectral normalization.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 量子状態準備と行列ブロック符号化のための量子サンプリングアルゴリズム

Quantum sampling algorithms for quantum state preparation and matrix block-encoding ( http://arxiv.org/abs/2405.11436v1 )

ライセンス: Link先を確認
Jessica Lemieux, Matteo Lostaglio, Sam Pallister, William Pol, Karthik Seetharam, Sukin Sim, Burak Şahinoğlu, (参考訳) 量子状態準備と行列ブロック符号化の問題は量子コンピューティングにおいて、初期状態準備と関連するデータのロードのために様々な量子アルゴリズムの重要な部分である。 まず、量子状態 $|\psi_f\rangle \propto \sum^N_{x=1} f(x)|x\rangle$ を作成するQRSに基づくアルゴリズムを提案する。 効率的な参照状態と組み合わせると、f$の特定の基準が満たされれば、アルゴリズムは量子状態の準備コストを大幅に削減する。 参照状態の生成が支配的コストではなく、関数$f$および関連プロパティが効率的に計算可能でなければコスト$o(N)$が提供される場合、QRSベースの手法は、コスト$O(N)$であるジェネリック状態準備アルゴリズムより優れている。 量子応用において一般的に現れる量子状態に対するQRSベースのアルゴリズムの詳細な性能(トフォリゲートの数)、例えば、電力法則の減衰、ガウス、双曲的接点に従う係数を例に示し、他の方法と比較する。 次に、QRS手法を行列ブロック符号化問題に適用し、与えられた行列$A = \sum_{ij} A_{ij} |i\rangle \langle j|$ をブロック符号化するための QRS アルゴリズムを導入する。 我々は、行列に関する情報が量子コンピュータにどのように提供されるかをエンコードする、異なるアクセスモデルに対する再スケーリング因子について検討する。 A_{{\mathbf{ij}}}= 1/\|{\mathbf{i}}-{\mathbf{j}}\|^2$ は量子化学において現れ、クーロン相互作用が関与する場合のPDE応用である。 我々の研究は、様々な量子状態の準備と行列ブロックエンコード法を融合し、量子アプリケーションに現れる重要な事例の詳細な性能解析を行う。

The problems of quantum state preparation and matrix block-encoding are ubiquitous in quantum computing: they are crucial parts of various quantum algorithms for the purpose for initial state preparation as well as loading problem relevant data. We first present an algorithm based on QRS that prepares a quantum state $|\psi_f\rangle \propto \sum^N_{x=1} f(x)|x\rangle$. When combined with efficient reference states the algorithm reduces the cost of quantum state preparation substantially, if certain criteria on $f$ are met. When the preparation of the reference state is not the dominant cost, and the function $f$ and relevant properties are efficiently computable or provided otherwise with cost $o(N)$, the QRS-based method outperforms the generic state preparation algorithm, which has cost $O(N)$. We demonstrate the detailed performance (in terms of the number of Toffoli gates) of the QRS-based algorithm for quantum states commonly appearing in quantum applications, e.g., those with coefficients that obey power law decay, Gaussian, and hyperbolic tangent, and compare it with other methods. Then, we adapt QRS techniques to the matrix block-encoding problem and introduce a QRS-based algorithm for block-encoding a given matrix $A = \sum_{ij} A_{ij} |i\rangle \langle j|$. We work out rescaling factors for different access models, which encode how the information about the matrix is provided to the quantum computer. We exemplify these results for a particular Toeplitz matrix with elements $A_{{\mathbf{ij}}}= 1/\|{\mathbf{i}}-{\mathbf{j}}\|^2$, which appears in quantum chemistry, and PDE applications, e.g., when the Coulomb interaction is involved. Our work unifies, and in certain ways goes beyond, various quantum state preparation and matrix block-encoding methods in the literature, and gives detailed performance analysis of important examples that appear in quantum applications.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 第1回スワヒリ語シーンテキストの検出と認識データセット

The First Swahili Language Scene Text Detection and Recognition Dataset ( http://arxiv.org/abs/2405.11437v1 )

ライセンス: Link先を確認
Fadila Wendigoundi Douamba, Jianjun Song, Ling Fu, Yuliang Liu, Xiang Bai, (参考訳) シーンテキスト認識は、自動翻訳、情報検索、運転支援、視覚障害者のアクセシビリティ向上など、多くのアプリケーションにおいて不可欠である。 シーンテキストの検出と認識モデルの精度と性能を改善するために、多くの研究がなされている。 しかし、この研究の大部分は英語や中国語など、最も一般的な言語で行われている。 低リソース言語、特にスワヒリ語には大きなギャップがある。 スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。 スワヒリ語の自然シーンのテキストの検出と認識に明示的に焦点を絞った研究は行われておらず、スワヒリ語のシーンのテキストの検出と認識のためのデータセットは公開されていない。 本研究では,スワヒリシーンテキスト画像の包括的データセットを提案し,異なるシーンテキストの検出と認識モデルに基づくデータセットの評価を行う。 データセットには、さまざまな状況下で、さまざまな場所で収集された966のイメージが含まれている。 各画像は単語レベルでアノテーションを持っている。 提案されたデータセットは、異なるアプローチを評価し、比較し、将来の研究活動を促進するために、Swahili言語固有のベンチマークデータセットとしても機能する。 データセットはGitHubでこのリンクから入手できる。

Scene text recognition is essential in many applications, including automated translation, information retrieval, driving assistance, and enhancing accessibility for individuals with visual impairments. Much research has been done to improve the accuracy and performance of scene text detection and recognition models. However, most of this research has been conducted in the most common languages, English and Chinese. There is a significant gap in low-resource languages, especially the Swahili Language. Swahili is widely spoken in East African countries but is still an under-explored language in scene text recognition. No studies have been focused explicitly on Swahili natural scene text detection and recognition, and no dataset for Swahili language scene text detection and recognition is publicly available. We propose a comprehensive dataset of Swahili scene text images and evaluate the dataset on different scene text detection and recognition models. The dataset contains 976 images collected in different places and under various circumstances. Each image has its annotation at the word level. The proposed dataset can also serve as a benchmark dataset specific to the Swahili language for evaluating and comparing different approaches and fostering future research endeavors. The dataset is available on GitHub via this link: https://github.com/FadilaW/Swahili-STR-Dataset
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# GANによるフェデレーション学習システムに対するデータ中毒攻撃とその対策

A GAN-Based Data Poisoning Attack Against Federated Learning Systems and Its Countermeasure ( http://arxiv.org/abs/2405.11440v1 )

ライセンス: Link先を確認
Wei Sun, Bo Gao, Ke Xiong, Yuwei Wang, Pingyi Fan, Khaled Ben Letaief, (参考訳) 分散機械学習パラダイムとして、フェデレートラーニング(FL)は、個人所有のデータセット上で協調的に実行されるが、直接的なデータアクセスは行われない。 元々の意図は、データのプライバシに関する懸念を緩和することにあるが、FL内の"可利用だが見えない"データは、新たなセキュリティ脅威をもたらす可能性がある。 FLシステムに対するデータ中毒攻撃を最初に試みたが、統計異常を引き起こす可能性が高く、完全には成功しない。 真に「見えない」攻撃の可能性を解き、より抑止的な脅威モデルを構築するために、VagGANと呼ばれる新しいデータ中毒モデルが提案されている。 VagueGANは、需要に応じて有毒データの品質を操作できるため、攻撃の有効性とステルスネスのトレードオフを可能にする。 さらに,GAN出力の整合性を見出した上で,GANを注入したデータやモデルを特定するために,MCD(Model Consistency-Based Defense)という費用対効果が提案されている。 複数のデータセットに対する大規模な実験により、我々の攻撃方法は概してステルス性が高く、複雑性の低いFL性能の劣化に有効であることが示唆された。 また,本手法は,GAN中毒データやモデルを特定する上で,より有能であることを示す。 ソースコードは \href{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure} で公開されている。

As a distributed machine learning paradigm, federated learning (FL) is collaboratively carried out on privately owned datasets but without direct data access. Although the original intention is to allay data privacy concerns, "available but not visible" data in FL potentially brings new security threats, particularly poisoning attacks that target such "not visible" local data. Initial attempts have been made to conduct data poisoning attacks against FL systems, but cannot be fully successful due to their high chance of causing statistical anomalies. To unleash the potential for truly "invisible" attacks and build a more deterrent threat model, in this paper, a new data poisoning attack model named VagueGAN is proposed, which can generate seemingly legitimate but noisy poisoned data by untraditionally taking advantage of generative adversarial network (GAN) variants. Capable of manipulating the quality of poisoned data on demand, VagueGAN enables to trade-off attack effectiveness and stealthiness. Furthermore, a cost-effective countermeasure named Model Consistency-Based Defense (MCD) is proposed to identify GAN-poisoned data or models after finding out the consistency of GAN outputs. Extensive experiments on multiple datasets indicate that our attack method is generally much more stealthy as well as more effective in degrading FL performance with low complexity. Our defense method is also shown to be more competent in identifying GAN-poisoned data or models. The source codes are publicly available at \href{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# EmbSum: コンテンツベースのレコメンデーションのための大規模言語モデルの要約機能を活用する

EmbSum: Leveraging the Summarization Capabilities of Large Language Models for Content-Based Recommendations ( http://arxiv.org/abs/2405.11441v1 )

ライセンス: Link先を確認
Chiyu Zhang, Yifei Sun, Minghao Wu, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Rong Jin, Angli Liu, Ji Zhu, Sem Park, Ning Yao, Bo Long, (参考訳) コンテンツベースのレコメンデーションシステムは、デジタル世界のユーザにパーソナライズされたコンテンツを届ける上で重要な役割を果たす。 本研究では,ユーザエンゲージメント履歴内のインタラクションをキャプチャしながら,ユーザと候補項目のオフライン事前計算を可能にする新しいフレームワークであるEmbSumを紹介する。 EmbSumは、事前訓練されたエンコーダデコーダモデルとポリアテンション層を利用して、ユーザポリエンベッドディング(UPE)とコンテンツポリエンベッドディング(CPE)を導出し、ユーザと候補アイテム間の関連スコアを算出する。 EmbSumは,大規模言語モデル(LLM)からユーザと関心の要約を生成することによって,長いユーザエンゲージメント履歴を積極的に学習する。 EmbSumの有効性は、異なるドメインの2つのデータセットで検証され、より正確で少ないパラメータで最先端(SoTA)メソッドを上回る。 さらに、モデルがユーザ興味の要約を生成する能力は価値ある副産物となり、パーソナライズされたコンテンツレコメンデーションに有用性を高める。

Content-based recommendation systems play a crucial role in delivering personalized content to users in the digital world. In this work, we introduce EmbSum, a novel framework that enables offline pre-computations of users and candidate items while capturing the interactions within the user engagement history. By utilizing the pretrained encoder-decoder model and poly-attention layers, EmbSum derives User Poly-Embedding (UPE) and Content Poly-Embedding (CPE) to calculate relevance scores between users and candidate items. EmbSum actively learns the long user engagement histories by generating user-interest summary with supervision from large language model (LLM). The effectiveness of EmbSum is validated on two datasets from different domains, surpassing state-of-the-art (SoTA) methods with higher accuracy and fewer parameters. Additionally, the model's ability to generate summaries of user interests serves as a valuable by-product, enhancing its usefulness for personalized content recommendations.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# Promptable Queriesによる3次元視覚言語理解の統一

Unifying 3D Vision-Language Understanding via Promptable Queries ( http://arxiv.org/abs/2405.11442v1 )

ライセンス: Link先を確認
Ziyu Zhu, Zhuofan Zhang, Xiaojian Ma, Xuesong Niu, Yixin Chen, Baoxiong Jia, Zhidong Deng, Siyuan Huang, Qing Li, (参考訳) 3次元視覚言語(3D-VL)理解のための統一モデルでは,様々なシーン表現を取り入れ,多種多様なタスクを3Dシーンで実行することが期待される。 しかし、3次元マルチタスクトレーニングの独立的な適用と不十分な探索のため、既存の手法とそのような統一モデルとの間には大きなギャップがある。 本稿では,PQ3Dについて紹介する。PQ3Dは,低レベルなインスタンスセグメンテーションから高レベルな推論,計画に至るまで,Promptable Queriesを使用して広範囲な3D-VLタスクに対処できる統一モデルである。 これは,(1) 様々な3次元シーン表現(ボクセル,点雲,マルチビュー画像)をセグメントレベルグルーピングにより共有3次元座標空間に統一すること,(2) プロンプトで案内されるタスク固有情報検索のための注目型クエリデコーダ,(3) マルチタスクトレーニングをサポートするための共通出力ヘッド,の3つの重要なイノベーションによって達成される。 10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクで素晴らしいパフォーマンスを示し、ほとんどのベンチマークで新しいレコードを設定している。 特に、PQ3DはScanNet200の最先端を1.8%(AP)、ScanReferを5.4%(acc@0.5)、Multi3DReferを11.7%(F1@0.5)、Scan2Capを13.4%(CIDEr@0.5)改善している。 さらに、PQ3Dは、個々のまたは組み合わせた3D表現、例えば、単にボクセル入力による柔軟な推論をサポートする。

A unified model for 3D vision-language (3D-VL) understanding is expected to take various scene representations and perform a wide range of tasks in a 3D scene. However, a considerable gap exists between existing methods and such a unified model, due to the independent application of representation and insufficient exploration of 3D multi-task training. In this paper, we introduce PQ3D, a unified model capable of using Promptable Queries to tackle a wide range of 3D-VL tasks, from low-level instance segmentation to high-level reasoning and planning. This is achieved through three key innovations: (1) unifying various 3D scene representations (i.e., voxels, point clouds, multi-view images) into a shared 3D coordinate space by segment-level grouping, (2) an attention-based query decoder for task-specific information retrieval guided by prompts, and (3) universal output heads for different tasks to support multi-task training. Tested across ten diverse 3D-VL datasets, PQ3D demonstrates impressive performance on these tasks, setting new records on most benchmarks. Particularly, PQ3D improves the state-of-the-art on ScanNet200 by 1.8% (AP), ScanRefer by 5.4% (acc@0.5), Multi3DRefer by 11.7% (F1@0.5), and Scan2Cap by 13.4% (CIDEr@0.5). Moreover, PQ3D supports flexible inference with individual or combined forms of available 3D representations, e.g., solely voxel input.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# MAML-en-LLM:改良型インコンテキスト学習のためのLLMのモデル非依存メタトレーニング

MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning ( http://arxiv.org/abs/2405.11446v1 )

ライセンス: Link先を確認
Sanchit Sinha, Yuguang Yue, Victor Soto, Mayank Kulkarni, Jianhua Lu, Aidong Zhang, (参考訳) 大規模言語モデル(LLM)をコンテキスト内トレーニングサンプルで未確認のタスクに適用することは、依然として重要な研究課題である。 目立たないタスクに順応するロバストなLLMを学習するために,メタICLやメタICTといった多種多様なタスクにおいて,メタトレーニング済みのLLMを多種多様なタスクに適用するメタトレーニング手法が提案されている。 これらのメタトレーニングアプローチは、本質的にはコンテキスト内マルチタスクの微調整を行い、非結合なテストセットで評価する。 彼らは素晴らしいパフォーマンスを達成したとしても、真に一般的なパラメータの集合を計算することは決してない。 本稿では,メタ学習のための新しい手法であるMAML-en-LLMを提案する。 パフォーマンスの未確認領域では平均2%,適応性能では4%の大幅な改善が見られた。 さらに、MAML-en-LLMは、目視領域と目視領域の両方でトレーニングデータが少ない設定において、平均2%の精度でベースラインを上回ります。 最後に,メタ学習における課題の種類,最適化要因,タスク複雑性の影響について考察する。 7つのタスク設定にわたる排他的実験と2つのデータ設定は、MAML-en-LLMでトレーニングされたモデルがSOTAメタトレーニングアプローチより優れていることを示す。

Adapting large language models (LLMs) to unseen tasks with in-context training samples without fine-tuning remains an important research problem. To learn a robust LLM that adapts well to unseen tasks, multiple meta-training approaches have been proposed such as MetaICL and MetaICT, which involve meta-training pre-trained LLMs on a wide variety of diverse tasks. These meta-training approaches essentially perform in-context multi-task fine-tuning and evaluate on a disjointed test set of tasks. Even though they achieve impressive performance, their goal is never to compute a truly general set of parameters. In this paper, we propose MAML-en-LLM, a novel method for meta-training LLMs, which can learn truly generalizable parameters that not only perform well on disjointed tasks but also adapts to unseen tasks. We see an average increase of 2% on unseen domains in the performance while a massive 4% improvement on adaptation performance. Furthermore, we demonstrate that MAML-en-LLM outperforms baselines in settings with limited amount of training data on both seen and unseen domains by an average of 2%. Finally, we discuss the effects of type of tasks, optimizers and task complexity, an avenue barely explored in meta-training literature. Exhaustive experiments across 7 task settings along with two data settings demonstrate that models trained with MAML-en-LLM outperform SOTA meta-training approaches.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 量子計測における外乱評価回路

Disturbance Evaluation Circuit in Quantum Measurement ( http://arxiv.org/abs/2405.11447v1 )

ライセンス: Link先を確認
Haruki Emori, Masanao Ozawa, Akihisa Tomita, (参考訳) 不確実性原理によれば、全ての量子測定は外乱を伴う。 特に、正確なシーケンシャルな測定は、障害の正確な制御を必要とする。 しかし、不確実性原理における乱れの正しい役割は、最近まで知られていた。 この外乱を理解することは物理学の基礎を理解するために重要であり、その外乱を正確に評価することは量子情報処理や量子気象学のような量子技術にとって重要である。 したがって、これらの分野では、障害の実験的評価が重要な課題である。 本研究では,量子ルート平均二乗乱(QRMS)の新たな評価法を提案し,その性能を三状態法(TSM)と弱測定法(WMM)と呼ばれる既存手法と比較した。 本手法は, 測定値のQRMS乱れと, 新たに導入された弱いプローブ系において誘導されるデコヒーレンスの2次微分との対応関係を, ゼロ限界における弱い相互作用の結合強度に対して確立する。 さらに,シミュレーションと量子コンピュータを用いた実験により,提案手法の有効性を他の2つと比較した。 その結果,TSM,WMM,本手法の重要な特徴を把握し,これらの手法の長所と短所について考察した。

According to the uncertainty principle, every quantum measurement accompanies disturbance. In particular, accurate sequential measurements need the accurate control of disturbance. However, the correct role of disturbance in the uncertainty principle has been known only recently. Understanding the disturbance is crucial for understanding the fundamentals of physics, and accurately evaluating the disturbance is important for quantum technologies such as quantum information processing and quantum metrology. Therefore, the experimental evaluation of the disturbance is a significant challenge in those fields. In this study, we propose a novel evaluation method for the quantum root-mean-square (QRMS) disturbance and compare its performance with the existing approaches, known as the three-state method (TSM) and the weak measurement method (WMM). Our method establishes a correspondence between the QRMS disturbance of the measurement and the second-order derivative of the decoherence induced in a newly introduced weak probe system with respect to the coupling strength of the weak interaction at its zero-limit. Furthermore, we demonstrate the effectiveness of our method in comparison with the other two through a simulation and experiment using a quantum computer. The results capture the key features of the TSM, WMM, and our method, providing insights into the strengths and limitations of these methods.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 低分解能ヒューマンポース推定のためのクロスドメイン知識蒸留

Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation ( http://arxiv.org/abs/2405.11448v1 )

ライセンス: Link先を確認
Zejun Gu, Zhong-Qiu Zhao, Henghui Ding, Hao Shen, Zhao Zhang, De-Shuang Huang, (参考訳) 人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。 本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。 しかし、異なる入力解像度のネットワークに知識蒸留を適用する際に、特徴量ミスマッチとクラス数ミスマッチの課題に直面している。 そこで本研究では,新しいクロスドメイン知識蒸留(CDKD)フレームワークを提案する。 本研究では,入力解像度の異なるモデル間で特徴写像を空間的に整合させるSAPEモジュールを構築する。 プロジェクターアンサンブルを採用し、複数の共通空間に低解像度特徴をマッピングし、高解像度特徴にマッチするマルチスケール情報に基づいてそれらを適応的にマージする。 さらに,クラス数のミスマッチの問題を解決するために,クラス間アライメント(CCA)モジュールを構築した。 CCAモジュールは、簡単なハードトレーニング(ETHT)戦略を組み合わせることで、蒸留性能をさらに向上させる。 提案手法の有効性と有効性は,MPII と COCO の2つの一般的なベンチマークデータセットに対する広範な実験により実証された。 コードは補足資料で利用可能である。

In practical applications of human pose estimation, low-resolution inputs frequently occur, and existing state-of-the-art models perform poorly with low-resolution images. This work focuses on boosting the performance of low-resolution models by distilling knowledge from a high-resolution model. However, we face the challenge of feature size mismatch and class number mismatch when applying knowledge distillation to networks with different input resolutions. To address this issue, we propose a novel cross-domain knowledge distillation (CDKD) framework. In this framework, we construct a scale-adaptive projector ensemble (SAPE) module to spatially align feature maps between models of varying input resolutions. It adopts a projector ensemble to map low-resolution features into multiple common spaces and adaptively merges them based on multi-scale information to match high-resolution features. Additionally, we construct a cross-class alignment (CCA) module to solve the problem of the mismatch of class numbers. By combining an easy-to-hard training (ETHT) strategy, the CCA module further enhances the distillation performance. The effectiveness and efficiency of our approach are demonstrated by extensive experiments on two common benchmark datasets: MPII and COCO. The code is made available in supplementary material.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# NetMamba: 事前トレーニングによるネットワークトラフィックの効率的な分類

NetMamba: Efficient Network Traffic Classification via Pre-training Unidirectional Mamba ( http://arxiv.org/abs/2405.11449v1 )

ライセンス: Link先を確認
Tongze Wang, Xiaohui Xie, Wenduo Wang, Chuyi Wang, Youjian Zhao, Yong Cui, (参考訳) ネットワークトラフィックの分類は、サービス品質の向上、ネットワーク管理の効率化、サイバーセキュリティの強化を目的とした重要な研究分野である。 送信暗号化技術の複雑さの増大に対処するため、様々な機械学習とディープラーニング手法が提案されている。 しかし、既存のアプローチは2つの大きな課題に直面している。 まず、広く使われているTransformerアーキテクチャの2次複雑さのため、モデル非効率に苦しむ。 第二に、重要なバイト情報を捨て、望ましくないバイアスを保ちながら、信頼できないトラフィック表現に悩まされる。 これらの課題に対処するために,包括的トラフィック表現方式を備えた効率的な線形時間状態空間モデルであるNetMambaを提案する。 我々はTransformerを、ネットワークの効率問題に対処するために、特別に選択され改良されたMambaアーキテクチャに置き換える。 さらに,大量のトラフィックから有効な情報を抽出し,バイアス情報を取り除き,トラフィック表現のためのスキームを設計する。 3つの主要な分類タスクを含む6つの公開データセットの評価実験は、最先端のベースラインと比較して、NetMambaの優れた分類性能を示している。 暗号化されたトラフィック分類タスクにおいて、最大4.83\%の精度と4.64\%のf1スコアを達成する。 さらに、NetMambaは優れた効率を示し、推論速度を2.24倍改善し、メモリ使用量も相容れないほど低い。 さらに、NetMambaは、ラベル付きデータの少ない分類性能で、より優れた数ショット学習能力を示す。 私たちの知る限りでは、NetMambaはネットワーク用にMambaアーキテクチャをカスタマイズする最初のモデルです。

Network traffic classification is a crucial research area aiming to enhance service quality, streamline network management, and bolster cybersecurity. To address the growing complexity of transmission encryption techniques, various machine learning and deep learning methods have been proposed. However, existing approaches encounter two main challenges. Firstly, they struggle with model inefficiency due to the quadratic complexity of the widely used Transformer architecture. Secondly, they suffer from unreliable traffic representation because of discarding important byte information while retaining unwanted biases. To address these challenges, we propose NetMamba, an efficient linear-time state space model equipped with a comprehensive traffic representation scheme. We replace the Transformer with our specially selected and improved Mamba architecture for the networking field to address efficiency issues. In addition, we design a scheme for traffic representation, which is used to extract valid information from massive traffic while removing biased information. Evaluation experiments on six public datasets encompassing three main classification tasks showcase NetMamba's superior classification performance compared to state-of-the-art baselines. It achieves up to 4.83\% higher accuracy and 4.64\% higher f1 score on encrypted traffic classification tasks. Additionally, NetMamba demonstrates excellent efficiency, improving inference speed by 2.24 times while maintaining comparably low memory usage. Furthermore, NetMamba exhibits superior few-shot learning abilities, achieving better classification performance with fewer labeled data. To the best of our knowledge, NetMamba is the first model to tailor the Mamba architecture for networking.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# イオンベースの量子コンピューティング・ハードウェア:性能とエンドユーザー・パースペクティブ

Ion-Based Quantum Computing Hardware: Performance and End-User Perspective ( http://arxiv.org/abs/2405.11450v1 )

ライセンス: Link先を確認
Thomas Strohm, Karen Wintersperger, Florian Dommert, Daniel Basilewitsch, Georg Reuber, Andrey Hoursanov, Thomas Ehmer, Davide Vodola, Sebastian Luber, (参考訳) これは、産業のエンドユーザーの視点から異なる量子コンピューティングハードウェアプラットフォームの概要を提供する一連の論文の2番目の論文である。 これは、中性原子量子コンピューティングに関する私たちの最初の論文に続くものです。 本稿では,トラップイオン量子コンピューティングにおける現状に関する調査を行い,産業用エンドユーザーの視点から再考する。 この目的のために,本論文では,トラップイオン量子コンピュータの操作において重要な役割を担う物理基盤と機構を包括的に紹介する。 一方、我々は、そのようなデバイスの現在のコンピューティング能力について、最もよく記述し特徴付ける重要なパフォーマンス指標について概説する。 これらの指標には、キュービット数、ゲート時間とエラー、ネイティブゲートセット、キュービット安定性とスケーラビリティ、一般的なキュービットタイプとトラップアーキテクチャに関する考慮など、パフォーマンス指標が含まれる。 これらのメトリクスが、トラップイオン量子コンピューティングの現在の状態を可能な限り正確に反映することを保証するため、最近の文献の広範なレビューと、この分野の様々な量子ハードウェアベンダーとの議論の両方によって得られた。 これらの要因を組み合わせることで、産業のエンドユーザーの観点からも、現在トラップオン量子コンピュータで何が可能であるのか、このプラットフォームに特に適しているアルゴリズムと問題は何か、計算に関係するエンドツーエンドのクロック時間は何なのか、そして、将来のフォールトトレラントなトラップオン量子コンピュータで何ができるのかを概観する。

This is the second paper in a series of papers providing an overview of different quantum computing hardware platforms from an industrial end-user perspective. It follows our first paper on neutral-atom quantum computing. In the present paper, we provide a survey on the current state-of-the-art in trapped-ion quantum computing, taking up again the perspective of an industrial end-user. To this end, our paper covers, on the one hand, a comprehensive introduction to the physical foundations and mechanisms that play an important role in operating a trapped-ion quantum computer. On the other hand, we provide an overview of the key performance metrics that best describe and characterise such a device's current computing capability. These metrics encompass performance indicators such as qubit numbers, gate times and errors, native gate sets, qubit stability and scalability as well as considerations regarding the general qubit types and trap architectures. In order to ensure that these metrics reflect the current state of trapped-ion quantum computing as accurate as possible, they have been obtained by both an extensive review of recent literature and, more importantly, from discussions with various quantum hardware vendors in the field. We combine these factors and provide - again from an industrial end-user perspective - an overview of what is currently possible with trapped-ion quantum computers, which algorithms and problems are especially suitable for this platform, what are the relevant end-to-end wall clock times for calculations, and what might be possible with future fault-tolerant trapped-ion quantum computers.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# PGDを用いたディープリッツ法における3層ニューラルネットワークの誤差解析

Error Analysis of Three-Layer Neural Network Trained with PGD for Deep Ritz Method ( http://arxiv.org/abs/2405.11451v1 )

ライセンス: Link先を確認
Yuling Jiao, Yanming Lai, Yang Wang, (参考訳) 機械学習は、様々な領域にまたがる多様なアプリケーションを持つ、急速に進歩する分野である。 研究の顕著な領域は、偏微分方程式(PDE)を解くためのディープラーニング技術の利用である。 本研究では,三種類の境界条件を持つ二階楕円方程式を解くために,ディープ・リッツ法(DRM)の枠組み内に3層タンニューラルネットを用いることに着目する。 我々は3層ネットワークをトレーニングするために、プロジェクテッド勾配降下(PDG)を行い、そのグローバル収束を確立する。 我々の知る限りでは、近似誤差、一般化誤差、最適化誤差の見積もりを同時に含むため、我々はPDE問題を解決するために過パラメータネットワークを用いた包括的なエラー解析を初めて提供する。 サンプルサイズ$n$の誤差を提示し、ネットワーク深さ、幅、ステップサイズ、および予測勾配降下アルゴリズムの反復数の設定方法についてのガイダンスを提供する。 重要なことに、この研究における我々の仮定は古典的であり、方程式の解に関する追加の仮定は不要である。 これにより、我々の結果の幅広い適用性と一般化が保証される。

Machine learning is a rapidly advancing field with diverse applications across various domains. One prominent area of research is the utilization of deep learning techniques for solving partial differential equations(PDEs). In this work, we specifically focus on employing a three-layer tanh neural network within the framework of the deep Ritz method(DRM) to solve second-order elliptic equations with three different types of boundary conditions. We perform projected gradient descent(PDG) to train the three-layer network and we establish its global convergence. To the best of our knowledge, we are the first to provide a comprehensive error analysis of using overparameterized networks to solve PDE problems, as our analysis simultaneously includes estimates for approximation error, generalization error, and optimization error. We present error bound in terms of the sample size $n$ and our work provides guidance on how to set the network depth, width, step size, and number of iterations for the projected gradient descent algorithm. Importantly, our assumptions in this work are classical and we do not require any additional assumptions on the solution of the equation. This ensures the broad applicability and generality of our results.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# スムース関数の最適化に必要な比較

Comparisons Are All You Need for Optimizing Smooth Functions ( http://arxiv.org/abs/2405.11454v1 )

ライセンス: Link先を確認
Chenyi Zhang, Tongyang Li, (参考訳) 機械学習モデルを最適化する場合、勾配計算が困難である、あるいは不可能である、さまざまなシナリオが存在する。 さらに、強化学習(RL)においては、選択肢間の比較のみを行う嗜好に基づくRLは、大規模言語モデルにおける人間からのフィードバックによる強化学習を含む幅広い応用がある。 本稿では,滑らかな関数 $f\colon\mathbb{R}^n\to\mathbb{R}$ の最適化について,二つの点における関数値を比較してより大きい値を示すオラクルを仮定して,体系的に研究する。 f$が凸であるとき、それぞれ$\tilde{O}(n/\epsilon)$と$\tilde{O}(n^{2})$比較クエリを使って、$\epsilon$-optimalソリューションを見つける。 f$が非凸である場合、我々のアルゴリズムは$\tilde{O}(n/\epsilon^2)$の比較クエリを使って$\epsilon$-approximateの定常点を求める。 これらの結果は、よく知られたゼロ階述語アルゴリズムと$n$依存の関数評価クエリに一致し、従って \emph{comparisons は微分自由な手法で滑らかな関数を最適化するのに必要なすべてである。 さらに、サドルポイントをエスケープし、$\epsilon$-secondの非凸$f$の定常点に到達するためのアルゴリズムを、$\tilde{O}(n^{1.5}/\epsilon^{2.5})$比較クエリを使って提供する。

When optimizing machine learning models, there are various scenarios where gradient computations are challenging or even infeasible. Furthermore, in reinforcement learning (RL), preference-based RL that only compares between options has wide applications, including reinforcement learning with human feedback in large language models. In this paper, we systematically study optimization of a smooth function $f\colon\mathbb{R}^n\to\mathbb{R}$ only assuming an oracle that compares function values at two points and tells which is larger. When $f$ is convex, we give two algorithms using $\tilde{O}(n/\epsilon)$ and $\tilde{O}(n^{2})$ comparison queries to find an $\epsilon$-optimal solution, respectively. When $f$ is nonconvex, our algorithm uses $\tilde{O}(n/\epsilon^2)$ comparison queries to find an $\epsilon$-approximate stationary point. All these results match the best-known zeroth-order algorithms with function evaluation queries in $n$ dependence, thus suggest that \emph{comparisons are all you need for optimizing smooth functions using derivative-free methods}. In addition, we also give an algorithm for escaping saddle points and reaching an $\epsilon$-second order stationary point of a nonconvex $f$, using $\tilde{O}(n^{1.5}/\epsilon^{2.5})$ comparison queries.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 多要素ファジィエクストラクタを用いたバイオメトリックスに基づく認証鍵交換

Biometrics-Based Authenticated Key Exchange with Multi-Factor Fuzzy Extractor ( http://arxiv.org/abs/2405.11456v1 )

ライセンス: Link先を確認
Hong Yen Tran, Jiankun Hu, Wen Hu, (参考訳) 既存のファジィ抽出器や類似の手法は、ユーザーの生体データから秘密鍵を抽出する効果的な方法を提供するが、偽造攻撃を受けやすい。 暗号鍵の生成・復元過程において,ユーザの秘密(例えばパスワード)とユーザの生体情報の両方を統合する新しい多要素ファジィ抽出器を提案する。 次に、この多要素ファジィ抽出器を用いて、複数の重要な特徴を持つ新しい多要素認証鍵交換プロトコルで使用できる個人認証情報を構築する。 まず、プロトコルは相互認証を提供する。 第2に、ユーザとサービスプロバイダは、認証権限の関与なしに認証を行うことができる。 第3に、このプロトコルは、利用者の身元認証の侵害を防ぐことができる。 最後に、生体認証サンプルとシークレットの両方をキャプチャしても、ユーザーは新しいシークレット(再使用/再発行可能なID認証)を使用して新しいクレデンシャルを登録することができる。 多要素認証キー交換に関する既存の研究の多くは、これらの機能のサブセットしか持っていない。 提案プロトコルが意味論的に安全であることを正式に証明する。 指静脈データセットSDUMLAを用いて行った実験は, 0.04%の低等速誤差率(EER)を達成し, ユーザとサービスプロバイダが共有セッションキーを認証, 確立するのに適切な平均計算時間は0.93秒, 通信オーバーヘッドは448バイトに留まった。

Existing fuzzy extractors and similar methods provide an effective way for extracting a secret key from a user's biometric data, but are susceptible to impersonation attack: once a valid biometric sample is captured, the scheme is no longer secure. We propose a novel multi-factor fuzzy extractor that integrates both a user's secret (e.g., a password) and a user's biometrics in the generation and reconstruction process of a cryptographic key. We then employ this multi-factor fuzzy extractor to construct personal identity credentials which can be used in a new multi-factor authenticated key exchange protocol that possesses multiple important features. First, the protocol provides mutual authentication. Second, the user and service provider can authenticate each other without the involvement of the identity authority. Third, the protocol can prevent user impersonation from a compromised identity authority. Finally, even when both a biometric sample and the secret are captured, the user can re-register to create a new credential using a new secret (reusable/reissued identity credentials). Most existing works on multi-factor authenticated key exchange only have a subset of these features. We formally prove that the proposed protocol is semantically secure. Our experiments carried out on the finger vein dataset SDUMLA achieved a low equal error rate (EER) of 0.04%, a reasonable averaged computation time of 0.93 seconds for the user and service provider to authenticate and establish a shared session key, and a small communication overhead of only 448 bytes.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# 生物・ロボットシステムのためのモデルフリー強化学習への深い取り組み:理論と実践

Deep Dive into Model-free Reinforcement Learning for Biological and Robotic Systems: Theory and Practice ( http://arxiv.org/abs/2405.11457v1 )

ライセンス: Link先を確認
Yusheng Jiao, Feng Ling, Sina Heydari, Nicolas Heess, Josh Merel, Eva Kanso, (参考訳) 動物やロボットは物理的な世界で存在しており、行動目的を達成するために身体を調整しなければならない。 近年の深層強化学習の進展により、科学者や技術者は、物理的にシミュレートされた身体や環境を用いて、特定のタスクに対する知覚的戦略(政治)を得ることが可能になった。 しかし、これらの手法の実用性は特定のタスクの制約を越えており、動物感覚運動器システムの形態や環境との物理的相互作用に関する構造を理解するためのエキサイティングな枠組みを提供し、ロボットシステムにおける感覚と運動の一般的な設計規則を導出する。 学習エージェントと環境の両方を実装するアルゴリズムとコードは、ますます利用できるようになるが、深い強化学習を用いた具体的フィードバック制御問題の定式化につながる基本的な仮定と選択は、すぐには明らかではないかもしれない。 本稿では, モデルフリー強化学習の数学的・アルゴリズム的側面の簡潔な表現について, 特に, 動物とロボットの行動に対するフィードバック制御のツールとして, textit{actor-critic} 法を用いて述べる。

Animals and robots exist in a physical world and must coordinate their bodies to achieve behavioral objectives. With recent developments in deep reinforcement learning, it is now possible for scientists and engineers to obtain sensorimotor strategies (policies) for specific tasks using physically simulated bodies and environments. However, the utility of these methods goes beyond the constraints of a specific task; they offer an exciting framework for understanding the organization of an animal sensorimotor system in connection to its morphology and physical interaction with the environment, as well as for deriving general design rules for sensing and actuation in robotic systems. Algorithms and code implementing both learning agents and environments are increasingly available, but the basic assumptions and choices that go into the formulation of an embodied feedback control problem using deep reinforcement learning may not be immediately apparent. Here, we present a concise exposition of the mathematical and algorithmic aspects of model-free reinforcement learning, specifically through the use of \textit{actor-critic} methods, as a tool for investigating the feedback control underlying animal and robotic behavior.
翻訳日:2024-05-21 17:37:55 公開日:2024-05-19
# CPS-LLM:大規模言語モデルに基づくヒューマン・イン・ザ・ループ・ヒューマン・イン・ザ・プラット・サイバー物理システムのための安全な使用計画生成装置

CPS-LLM: Large Language Model based Safe Usage Plan Generator for Human-in-the-Loop Human-in-the-Plant Cyber-Physical System ( http://arxiv.org/abs/2405.11458v1 )

ライセンス: Link先を確認
Ayan Banerjee, Aranyak Maity, Payal Kamboj, Sandeep K. S. Gupta, (参考訳) 我々は、人間とループの人間によるサイバー物理システム(CPS)における大規模言語モデル(LLM)の利用について検討し、ハイレベルなプロンプトをパーソナライズされた行動計画に変換するとともに、その計画を現実世界のCPSコントローラによる逐次的意思決定の自動推論に変換し、制御目標を達成する。 LLMのコンテキスト化は比較的容易であり,ドメイン固有のプランを生成することができることを示す。 しかし、これらの計画は物理的なシステムが実行できない場合や、計画が人間のユーザーにとって安全でない場合もあります。 そこで本研究では,命令チューニングフレームワークを用いて再訓練したLCMであるCPS-LLMを提案する。 CPS-LLMは2つの革新的なコンポーネントから構成されている。 a) 測定されていない状態変数を有する力学モデルの係数を導出することができる液時定数ニューラルネットワークに基づく物理力学係数推定器 b) モデル係数を用いて、力学系及び対応するモデル係数からのトレースを具現化したプロンプトでLPMを訓練する。 CPS-LLMがBARDなどのコンテキスト対応チャットボットと統合された場合,Type 1糖尿病患者が使用するインスリン自動デリバリーシステムにおいて,食事などの外部イベントを管理するための,実用的で安全なプランを作成できることを示す。

We explore the usage of large language models (LLM) in human-in-the-loop human-in-the-plant cyber-physical systems (CPS) to translate a high-level prompt into a personalized plan of actions, and subsequently convert that plan into a grounded inference of sequential decision-making automated by a real-world CPS controller to achieve a control goal. We show that it is relatively straightforward to contextualize an LLM so it can generate domain-specific plans. However, these plans may be infeasible for the physical system to execute or the plan may be unsafe for human users. To address this, we propose CPS-LLM, an LLM retrained using an instruction tuning framework, which ensures that generated plans not only align with the physical system dynamics of the CPS but are also safe for human users. The CPS-LLM consists of two innovative components: a) a liquid time constant neural network-based physical dynamics coefficient estimator that can derive coefficients of dynamical models with some unmeasured state variables; b) the model coefficients are then used to train an LLM with prompts embodied with traces from the dynamical system and the corresponding model coefficients. We show that when the CPS-LLM is integrated with a contextualized chatbot such as BARD it can generate feasible and safe plans to manage external events such as meals for automated insulin delivery systems used by Type 1 Diabetes subjects.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# Du-IN:頭蓋内神経信号からの音声復号のための離散単位誘導マスクモデリング

Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals ( http://arxiv.org/abs/2405.11459v1 )

ライセンス: Link先を確認
Hui Zheng, Hai-Teng Wang, Wei-Bang Jiang, Zhong-Tao Chen, Li He, Pei-Yang Lin, Peng-Hu Wei, Guo-Guang Zhao, Yun-Zhe Liu, (参考訳) 侵入型脳-コンピュータインタフェースは、高い性能のために大きな注目を集めている。 現在の頭蓋内ステレオElectroEncephaloGraphy (sEEG)基盤モデルは、通常、1つのチャネルに基づいて単変量表現を構築する。 さらにTransformerを使ってチャンネル間の関係をモデル化する人もいる。 しかし、脳計算の局所性と特異性のため、特定の脳領域で複雑な処理を必要とする音声復号処理など、より困難なタスクにおける性能については、まだ完全には研究されていない。 我々は、特定の脳領域内で多変量表現を構築することで、特定のニューラル処理をよりよく捉えることができると仮定する。 この仮説を探索するため、12人以上の被験者を対象に、言語関連脳ネットワークを対象とする、よく注釈付き中国語単語読解データセットを収集した。 このベンチマークデータセットを活用することで、個別のコードブック誘導マスクモデリングにより、特定の脳領域からコンテキスト埋め込みを抽出できるDu-INモデルを開発した。 本モデルでは, 下流61ワード分類タスクにおけるSOTA性能が, 全ベースラインモデルを上回っている。 モデル比較とアブレーション分析により、我々の設計選択が明らかになる i)vSMC領域とSTG領域の融合チャネルによる多変量表現 (II)離散コードブック誘導マスクモデリングによる自己監督は,これらの性能に大きく寄与する。 神経科学的な知見にインスパイアされた我々のアプローチは、特定の脳領域から多変量神経表現に乗じて、侵襲的な脳モデリングに適している。 これは、BCIにおける有望な神経インスパイアされたAIアプローチである。

Invasive brain-computer interfaces have garnered significant attention due to their high performance. The current intracranial stereoElectroEncephaloGraphy (sEEG) foundation models typically build univariate representations based on a single channel. Some of them further use Transformer to model the relationship among channels. However, due to the locality and specificity of brain computation, their performance on more difficult tasks, e.g., speech decoding, which demands intricate processing in specific brain regions, is yet to be fully investigated. We hypothesize that building multi-variate representations within certain brain regions can better capture the specific neural processing. To explore this hypothesis, we collect a well-annotated Chinese word-reading sEEG dataset, targeting language-related brain networks, over 12 subjects. Leveraging this benchmark dataset, we developed the Du-IN model that can extract contextual embeddings from specific brain regions through discrete codebook-guided mask modeling. Our model achieves SOTA performance on the downstream 61-word classification task, surpassing all baseline models. Model comparison and ablation analysis reveal that our design choices, including (i) multi-variate representation by fusing channels in vSMC and STG regions and (ii) self-supervision by discrete codebook-guided mask modeling, significantly contribute to these performances. Collectively, our approach, inspired by neuroscience findings, capitalizing on multi-variate neural representation from specific brain regions, is suitable for invasive brain modeling. It marks a promising neuro-inspired AI approach in BCI.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# DocReLM: 言語モデルによるドキュメント検索のマスタリング

DocReLM: Mastering Document Retrieval with Language Model ( http://arxiv.org/abs/2405.11461v1 )

ライセンス: Link先を確認
Gengchen Wei, Xinle Pang, Tianning Zhang, Yu Sun, Xun Qian, Chen Lin, Han-Sen Zhong, Wanli Ouyang, (参考訳) 毎年2億件以上の学術文書と何百万もの新しい文書が作成されており、学術研究者はこの膨大なコーパス内で情報を探すという課題に直面している。 しかし,既存の検索システムは,学術論文における意味や知識の理解に苦慮している。 本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現し,既存システムよりも大幅に優れることを示す。 我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。 さらに,大規模言語モデルを用いて,検索した論文の参照から候補を同定し,さらなる性能向上を図る。 我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。 その結果、DocReLMはコンピュータビジョンで44.12%、Google Scholarの15.69%、量子物理学で36.21%、Google Scholarの12.96%の精度を達成した。

With over 200 million published academic documents and millions of new documents being written each year, academic researchers face the challenge of searching for information within this vast corpus. However, existing retrieval systems struggle to understand the semantics and domain knowledge present in academic papers. In this work, we demonstrate that by utilizing large language models, a document retrieval system can achieve advanced semantic understanding capabilities, significantly outperforming existing systems. Our approach involves training the retriever and reranker using domain-specific data generated by large language models. Additionally, we utilize large language models to identify candidates from the references of retrieved papers to further enhance the performance. We use a test set annotated by academic researchers in the fields of quantum physics and computer vision to evaluate our system's performance. The results show that DocReLM achieves a Top 10 accuracy of 44.12% in computer vision, compared to Google Scholar's 15.69%, and an increase to 36.21% in quantum physics, while that of Google Scholar is 12.96%.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# マルチスペース投影とプロンプト融合による効率的なプロンプトチューニング

Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion ( http://arxiv.org/abs/2405.11464v1 )

ライセンス: Link先を確認
Pengxiang Lan, Enneng Yang, Yuting Liu, Guibing Guo, Linying Jiang, Jianzhe Zhao, Xingwei Wang, (参考訳) プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。 代わりに、入力テキストにソフトプロンプトを付加することで、単にプロンプトトークンの埋め込みを学習することで、下流タスクをうまく適応させることができる。 それでも、既存の方法は2つの課題に苦しむ。 (i)正確性と効率性のバランスが難しいこと。 より長い(頑丈な)ソフトプロンプトは、一般的に、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間のコストがかかる。 (ii) 異なる下流タスクに適応する場合、パフォーマンスは一貫性がない可能性がある。 私たちは、同じ埋め込みスペースに特化していますが、下流タスクの異なる要求に責任があります。 これらの問題に対処するため,多空間投影と即時融合によるEPT(Efficient Prompt Tuning Method)を提案する。 具体的には、与えられたソフトプロンプトを短いプロンプトと2つの低ランク行列に分解し、パラメータの数を大幅に削減し、トレーニング時間を短縮する。 また、低ランク行列とショートプロンプトを付加的な知識源として活用して、元のショートプロンプトのセマンティクスを強化することにより、精度も向上する。 さらに,ソフトプロンプトを複数のサブスペースに投影し,性能の整合性を向上させるとともに,ゲーティングネットワークを通じて異なる空間の重み付けを適応的に学習する。 13の自然言語処理ダウンストリームタスクに対する実験結果から,提案手法は改良率28.8%,訓練時間は14%と,11つの比較手法を著しく上回る結果となった。

Prompt tuning is a promising method to fine-tune a pre-trained language model without retraining its large-scale parameters. Instead, it attaches a soft prompt to the input text, whereby downstream tasks can be well adapted by merely learning the embeddings of prompt tokens. Nevertheless, existing methods still suffer from two challenges: (i) they are hard to balance accuracy and efficiency. A longer (shorter) soft prompt generally leads to a better (worse) accuracy but at the cost of more (less) training time. (ii) The performance may not be consistent when adapting to different downstream tasks. We attribute it to the same embedding space but responsible for different requirements of downstream tasks. To address these issues, we propose an Efficient Prompt Tuning method (EPT) by multi-space projection and prompt fusion. Specifically, it decomposes a given soft prompt into a shorter prompt and two low-rank matrices, whereby the number of parameters is greatly reduced as well as the training time. The accuracy is also enhanced by leveraging low-rank matrices and the short prompt as additional knowledge sources to enrich the semantics of the original short prompt. In addition, we project the soft prompt into multiple subspaces to improve the performance consistency, and then adaptively learn the combination weights of different spaces through a gating network. Experimental experiments on 13 natural language processing downstream tasks show that our method significantly and consistently outperforms 11 comparison methods with the relative percentage of improvements up to 28.8%, and training time decreased by 14%.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# データ圧縮による効果的な実例選択

Effective In-Context Example Selection through Data Compression ( http://arxiv.org/abs/2405.11465v1 )

ライセンス: Link先を確認
Zhongxiang Sun, Kepu Zhang, Haoyu Wang, Xiao Zhang, Jun Xu, (参考訳) インコンテキスト学習は、大規模な言語モデルで広く検証されている。 しかし、本手法において重要な要素である文脈内サンプル選択のメカニズムと選択戦略は、体系的かつ詳細な研究を欠いている。 本稿では,テキスト内サンプルの選択に対するデータ圧縮手法を提案する。 そこで本研究では,実例を効果的に選択し,トレーニングデータセットに関する十分な情報を保持するための2段階の手法を提案する。 提案手法は,4つの言語モデルを用いて,5つの実世界のデータセットに対して平均5.90%の大幅な改善を示す。

In-context learning has been extensively validated in large language models. However, the mechanism and selection strategy for in-context example selection, which is a crucial ingredient in this approach, lacks systematic and in-depth research. In this paper, we propose a data compression approach to the selection of in-context examples. We introduce a two-stage method that can effectively choose relevant examples and retain sufficient information about the training dataset within the in-context examples. Our method shows a significant improvement of an average of 5.90% across five different real-world datasets using four language models.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# コード大言語モデルのモデルパラメータと埋め込みに対するポジショニングの影響の測定

Measuring Impacts of Poisoning on Model Parameters and Embeddings for Large Language Models of Code ( http://arxiv.org/abs/2405.11466v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour, (参考訳) 大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性、特に隠れたバックドア、いわゆるトロイの木馬に関する懸念が生まれている。 バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。 本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。 具体的には、注意重みとバイアス、およびクリーンで有毒なCodeBERTとCodeT5モデルのコンテキスト埋め込みについて検討する。 以上の結果から,両モデルとも有毒試料のコンテキスト埋め込みにおける顕著なパターンが示唆されたが,注意重みと偏見は有意差は認められなかった。 この研究は、パラメータと埋め込みの分析を通じて、コードのLLMにおけるバックドア信号のホワイトボックス検出の継続的な取り組みに寄与する。

Large language models (LLMs) have revolutionized software development practices, yet concerns about their safety have arisen, particularly regarding hidden backdoors, aka trojans. Backdoor attacks involve the insertion of triggers into training data, allowing attackers to manipulate the behavior of the model maliciously. In this paper, we focus on analyzing the model parameters to detect potential backdoor signals in code models. Specifically, we examine attention weights and biases, and context embeddings of the clean and poisoned CodeBERT and CodeT5 models. Our results suggest noticeable patterns in context embeddings of poisoned samples for both the poisoned models; however, attention weights and biases do not show any significant differences. This work contributes to ongoing efforts in white-box detection of backdoor signals in LLMs of code through the analysis of parameters and embeddings.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# AdaAugment: チューニング不要で適応的なデータ拡張アプローチ

AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation ( http://arxiv.org/abs/2405.11467v1 )

ライセンス: Link先を確認
Suorong Yang, Peijia Li, Xin Xiong, Furao Shen, Jian Zhao, (参考訳) データ拡張(DA)は深層モデルの一般化性能を向上させるために広く用いられている。 しかし、既存のDA手法の多くは訓練を通して無作為な大きさの拡張演算を使用する。 これは多様性を育む一方で、必然的に強化されたデータに制御不能な変数を導入し、ターゲットモデルのトレーニング状態の悪化と不一致を引き起こす可能性がある。 理論的および実証的な結果は、このミスアライメントが不適合と過適合のリスクを高めることを示唆している。 これらの制約に対処するため,AdaAugmentを提案する。AdaAugmentは,強化学習を利用して,対象ネットワークからのリアルタイムフィードバックに基づいて,個別のトレーニングサンプルに対する適応度を動的に調整する,革新的でチューニング不要な適応拡張手法である。 特に、AdaAugmentはポリシーネットワークとターゲットネットワークで構成されるデュアルモデルアーキテクチャを備えており、拡張の規模を効果的に適応するために共同最適化されている。 ポリシーネットワークは、トレーニングに適応的に強化されたサンプルを利用する一方、拡張データ内の変動性を最適化する。 ベンチマークデータセットとディープアーキテクチャにわたる大規模な実験は、AdaAugmentが目覚ましい効率を維持しながら、他の最先端のDAメソッドを一貫して上回っていることを示している。

Data augmentation (DA) is widely employed to improve the generalization performance of deep models. However, most existing DA methods use augmentation operations with random magnitudes throughout training. While this fosters diversity, it can also inevitably introduce uncontrolled variability in augmented data, which may cause misalignment with the evolving training status of the target models. Both theoretical and empirical findings suggest that this misalignment increases the risks of underfitting and overfitting. To address these limitations, we propose AdaAugment, an innovative and tuning-free Adaptive Augmentation method that utilizes reinforcement learning to dynamically adjust augmentation magnitudes for individual training samples based on real-time feedback from the target network. Specifically, AdaAugment features a dual-model architecture consisting of a policy network and a target network, which are jointly optimized to effectively adapt augmentation magnitudes. The policy network optimizes the variability within the augmented data, while the target network utilizes the adaptively augmented samples for training. Extensive experiments across benchmark datasets and deep architectures demonstrate that AdaAugment consistently outperforms other state-of-the-art DA methods in effectiveness while maintaining remarkable efficiency.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# 効率的な画像復元のための地殻特性の強調

Emphasizing Crucial Features for Efficient Image Restoration ( http://arxiv.org/abs/2405.11468v1 )

ライセンス: Link先を確認
Hu Gao, Bowen Ma, Ying Zhang, Jingfan Yang, Jing Yang, Depeng Dang, (参考訳) 画像復元は、劣化した画像から潜伏したシャープ画像を推定する、困難な不適切な問題である。 既存の手法はモジュールの新規性アーキテクチャを設計することで有望な性能を達成したが、劣化した画像内の異なる領域が様々な劣化の程度にあるという事実を無視している。 本稿では,画像復元のために,地域によって異なる劣化度に適応する効率的かつ効果的な枠組みを提案する。 具体的には、修復の重要な特徴を強調するために、空間的・周波数的注意機構(SFAM)を設計する。 SFAMは空間領域注意モジュール(SDAM)と周波数領域注意モジュール(FDAM)の2つのモジュールから構成される。 SFAMは、空間選択的な注意と空間領域におけるチャネル選択的な注意を通して劣化位置を識別し、FDAMは、スペクトル領域における鋭い画像対と劣化した画像対の差を増幅するために高周波信号を強化する。 さらに,グローバルレンジ情報を取得するために,複数の簡易チャネルアテンションブロック (SCABlock) とマルチスケールフィードフォワードブロック (MSFBlock) を含む3つのスケールブランチからなるマルチスケールブロック (MSBlock) を導入する。 最後に、上述のコンポーネントをU字型のバックボーンに統合し、高品質な画像を復元するECFNetを提案する。 ECFNetは,合成データセットと実世界のデータセットの両方において,最先端のSOTA(State-of-the-art)手法より優れていることを示す。

Image restoration is a challenging ill-posed problem which estimates latent sharp image from its degraded counterpart. Although the existing methods have achieved promising performance by designing novelty architecture of module, they ignore the fact that different regions in a corrupted image undergo varying degrees of degradation. In this paper, we propose an efficient and effective framework to adapt to varying degrees of degradation across different regions for image restoration. Specifically, we design a spatial and frequency attention mechanism (SFAM) to emphasize crucial features for restoration. SFAM consists of two modules: the spatial domain attention module (SDAM) and the frequency domain attention module (FDAM). The SFAM discerns the degradation location through spatial selective attention and channel selective attention in the spatial domain, while the FDAM enhances high-frequency signals to amplify the disparities between sharp and degraded image pairs in the spectral domain. Additionally, to capture global range information, we introduce a multi-scale block (MSBlock) that consists of three scale branches, each containing multiple simplified channel attention blocks (SCABlocks) and a multi-scale feed-forward block (MSFBlock). Finally, we propose our ECFNet, which integrates the aforementioned components into a U-shaped backbone for recovering high-quality images. Extensive experimental results demonstrate the effectiveness of ECFNet, outperforming state-of-the-art (SOTA) methods on both synthetic and real-world datasets.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# VCformer:多変量時系列予測のための逐次ラグ相関付き可変相関変換器

VCformer: Variable Correlation Transformer with Inherent Lagged Correlation for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2405.11470v1 )

ライセンス: Link先を確認
Yingnan Yang, Qingling Zhu, Jianyong Chen, (参考訳) 多変量時系列(MTS)予測は、天気予報やエネルギー消費など、様々な領域で広く適用されている。 しかし、近年の研究は、変数間の複雑な相互相関を抽出するのに不十分な、変数間の依存関係を捕捉するバニラ点的自己認識機構に依存している。 このギャップを埋めるために、変数間の相関をマイニングするためにVCAモジュールを利用する可変相関変換器(VCformer)を提案する。 具体的には、確率過程理論に基づいて、VCAはクエリとキー間の異なる遅延に対応する相互相関スコアを計算し、統合し、多変量関係を明らかにする能力を高める。 さらに、クープマン力学理論にインスパイアされ、時系列の非定常性に対処するためにクープマン時間検出器(KTD)を開発した。 2つの重要なコンポーネントは、VCformerが多変量相関と時間依存性の両方を抽出することを可能にする。 実世界の8つのデータセットに関する大規模な実験は、VCformerの有効性を示し、他の最先端のベースラインモデルと比較して最高レベルのパフォーマンスを実現しています。 コードは、このリポジトリで入手できる。

Multivariate time series (MTS) forecasting has been extensively applied across diverse domains, such as weather prediction and energy consumption. However, current studies still rely on the vanilla point-wise self-attention mechanism to capture cross-variable dependencies, which is inadequate in extracting the intricate cross-correlation implied between variables. To fill this gap, we propose Variable Correlation Transformer (VCformer), which utilizes Variable Correlation Attention (VCA) module to mine the correlations among variables. Specifically, based on the stochastic process theory, VCA calculates and integrates the cross-correlation scores corresponding to different lags between queries and keys, thereby enhancing its ability to uncover multivariate relationships. Additionally, inspired by Koopman dynamics theory, we also develop Koopman Temporal Detector (KTD) to better address the non-stationarity in time series. The two key components enable VCformer to extract both multivariate correlations and temporal dependencies. Our extensive experiments on eight real-world datasets demonstrate the effectiveness of VCformer, achieving top-tier performance compared to other state-of-the-art baseline models. Code is available at this repository: https://github.com/CSyyn/VCformer.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# CMA-ESによる乗算雑音の適応的再評価

CMA-ES with Adaptive Reevaluation for Multiplicative Noise ( http://arxiv.org/abs/2405.11471v1 )

ライセンス: Link先を確認
Kento Uchida, Kenta Nishihara, Shinichi Shirakawa, (参考訳) 共分散行列適応進化戦略(CMA-ES)は、連続ブラックボックス最適化問題に対する強力な最適化手法である。 雑音対象関数に対するCMA-ESの最適化性能を実現するために,いくつかのノイズハンドリング手法が提案されている。 集団の大きさと学習率の適応は、加法的ガウス雑音下でうまく機能する2つの主要なアプローチである。 再評価手法は、各解を複数回評価する別の手法である。 本稿では,期待される実用関数の最大化を考慮した確率緩和の観点から,これらの手法の違いについて論じる。 再評価手法で使用される雑音非依存ユーティリティの最大値集合は、確実に最適解を含むが、人口規模や傾き率の適応に使用される雑音依存ユーティリティは乗法ノイズ下では満足しない。 本研究は,再評価適応CMA-ES (RA-CMA-ES) を開発し,その半分を用いて2つの更新方向を計算し,その2つの更新方向の推定相関に基づいて再評価数を適応させる。 数値シミュレーションにより, RA-CMA-ESは乗算雑音下で比較法より優れ, 加算雑音下での競争性能が維持されることがわかった。

The covariance matrix adaptation evolution strategy (CMA-ES) is a powerful optimization method for continuous black-box optimization problems. Several noise-handling methods have been proposed to bring out the optimization performance of the CMA-ES on noisy objective functions. The adaptations of the population size and the learning rate are two major approaches that perform well under additive Gaussian noise. The reevaluation technique is another technique that evaluates each solution multiple times. In this paper, we discuss the difference between those methods from the perspective of stochastic relaxation that considers the maximization of the expected utility function. We derive that the set of maximizers of the noise-independent utility, which is used in the reevaluation technique, certainly contains the optimal solution, while the noise-dependent utility, which is used in the population size and leaning rate adaptations, does not satisfy it under multiplicative noise. Based on the discussion, we develop the reevaluation adaptation CMA-ES (RA-CMA-ES), which computes two update directions using half of the evaluations and adapts the number of reevaluations based on the estimated correlation of those two update directions. The numerical simulation shows that the RA-CMA-ES outperforms the comparative method under multiplicative noise, maintaining competitive performance under additive noise.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# FIFO拡散: トレーニングなしのテキストから無限のビデオを生成する

FIFO-Diffusion: Generating Infinite Videos from Text without Training ( http://arxiv.org/abs/2405.11473v1 )

ライセンス: Link先を確認
Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han, (参考訳) テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。 FIFO拡散(FIFO-Diffusion)と呼ばれるこの手法は、無限に長いビデオを訓練せずに生成することができる。 この手法は,複数連続するフレームを同時に処理し,待ち行列のノイズレベルを増大させる対角的デノベーションを反復的に行うことで実現される。 しかし、尾部付近の枠は前方参照でより清潔なものを活用できるため、対角装飾は二重刃の剣であるが、そのような戦略は訓練と推論の相違を招きかねない。 したがって、トレーニングと推論のギャップを減らし、フォワード参照の利点を活かすために、遅延分割を導入する。 提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。

We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# NubbleDrop: プロンプトワンショットセグメンテーションのマッチング戦略を改善するための簡単な方法

NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation ( http://arxiv.org/abs/2405.11476v1 )

ライセンス: Link先を確認
Zhiyu Xu, Qingliang Chen, (参考訳) SAMのような大規模なデータトレーニングセグメンテーションモデルによって駆動され、ワンショットセグメンテーションの研究は大きな進歩を遂げた。 ICLR 2024で発表されたPerSAMやMATCHERといった最近のコントリビューションでは、SAMを1つまたは数個の参照画像で活用して、ターゲット画像の高品質なセグメンテーションマスクを生成するという、同様のアプローチを採用している。 具体的には、チャネル次元に沿った参照画像とターゲット画像のパッチ間のコサイン類似性を計算するために、生のエンコードされた特徴を利用し、マッチング戦略と呼ばれる手法でターゲット画像のプロンプトポイントやボックスを効果的に生成する。 しかしながら、生の機能のみに依存すると、バイアスが発生し、そのような複雑なタスクに対して堅牢性が欠如する可能性がある。 この問題に対処するために、私たちは、生のフィーチャベースのマッチングに固有の機能相互作用と不均一な分布の問題を掘り下げる。 本稿では,新たな計算コスト(NubbleDrop)を伴わずに,マッチング戦略の有効性とロバスト性を高めるための,単純かつトレーニング不要な手法を提案する。 中心となる概念は、マッチングプロセス中に特徴チャネル(0に設定する)をランダムにドロップすることであり、それによってモデルが偽情報を含むチャネルの影響を受けないようにする。 この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。 提案手法の有効性と妥当性を示すため,幅広い要因を考慮した総合的な実験を行う。 我々の結果は、この単純で簡単なアプローチによって達成された大きな改善を示している。

Driven by large data trained segmentation models, such as SAM , research in one-shot segmentation has experienced significant advancements. Recent contributions like PerSAM and MATCHER , presented at ICLR 2024, utilize a similar approach by leveraging SAM with one or a few reference images to generate high quality segmentation masks for target images. Specifically, they utilize raw encoded features to compute cosine similarity between patches within reference and target images along the channel dimension, effectively generating prompt points or boxes for the target images a technique referred to as the matching strategy. However, relying solely on raw features might introduce biases and lack robustness for such a complex task. To address this concern, we delve into the issues of feature interaction and uneven distribution inherent in raw feature based matching. In this paper, we propose a simple and training-free method to enhance the validity and robustness of the matching strategy at no additional computational cost (NubbleDrop). The core concept involves randomly dropping feature channels (setting them to zero) during the matching process, thereby preventing models from being influenced by channels containing deceptive information. This technique mimics discarding pathological nubbles, and it can be seamlessly applied to other similarity computing scenarios. We conduct a comprehensive set of experiments, considering a wide range of factors, to demonstrate the effectiveness and validity of our proposed method. Our results showcase the significant improvements achieved through this simmple and straightforward approach.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# 協調木による添加効果と相互作用効果の解析

Analyze Additive and Interaction Effects via Collaborative Trees ( http://arxiv.org/abs/2405.11477v1 )

ライセンス: Link先を確認
Chien-Ming Chi, (参考訳) 本稿では,回帰予測を目的とした新しい木モデルであるCollaborative Treesと,そのバッグバージョンについて述べる。 提案した木モデルからの平均不純物減少量を分解して,応答変数に対する特徴の加法効果と相互作用効果を解析する。 さらに、各機能がどのように応答に付加的に寄与するか、また2つの機能の組み合わせが相互作用効果にどのように寄与するかを視覚的に表現するために、ネットワークダイアグラムを導入します。 胚成長データセットを用いた詳細な実演を通して、新しい統計ツールが、視覚的にも数値的にも、どのようにデータ分析に役立つかを説明する。 さらに、予測性能、推論安定性、特徴重要度尺度の偏りなどのツリーモデリングの重要な側面を掘り下げ、実際のデータセットとシミュレーション実験を総合的な議論に活用する。 理論面では、高次元独立二分数入力特徴(または1ホット特徴群)を前提として、我々の革新的ツリーモデル正規化による'sum of Tree'アプローチに基づいて構築された協調木は、マッチング追従に類似した特性を示す。 この新発見リンクは, 正確な相互作用効果推定のための重要な要素である, 特徴の加法効果を推定する上で, 木モデルの優れた能力に光を当てる。

We present Collaborative Trees, a novel tree model designed for regression prediction, along with its bagging version, which aims to analyze complex statistical associations between features and uncover potential patterns inherent in the data. We decompose the mean decrease in impurity from the proposed tree model to analyze the additive and interaction effects of features on the response variable. Additionally, we introduce network diagrams to visually depict how each feature contributes additively to the response and how pairs of features contribute interaction effects. Through a detailed demonstration using an embryo growth dataset, we illustrate how the new statistical tools aid data analysis, both visually and numerically. Moreover, we delve into critical aspects of tree modeling, such as prediction performance, inference stability, and bias in feature importance measures, leveraging real datasets and simulation experiments for comprehensive discussions. On the theory side, we show that Collaborative Trees, built upon a ``sum of trees'' approach with our own innovative tree model regularization, exhibit characteristics akin to matching pursuit, under the assumption of high-dimensional independent binary input features (or one-hot feature groups). This newfound link sheds light on the superior capability of our tree model in estimating additive effects of features, a crucial factor for accurate interaction effect estimation.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# プロンプト学習とCLIPセマンティックガイダンスによる低照度画像強調のための教師なし画像優先

Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement ( http://arxiv.org/abs/2405.11478v1 )

ライセンス: Link先を確認
Igor Morawski, Kai He, Shusil Dangi, Winston H. Hsu, (参考訳) 現在、低照度条件は機械認識にとって大きな課題となっている。 本稿では、人間と機械の認知が相関していると仮定してモデルを最適化するのではなく、ゼロ参照低照度化を用いて下流タスクモデルの性能を向上させる。 本稿では,ペアやアンペアのノーマルライトデータを必要とすることなく,よりリッチな視覚言語CLIPを活用することで,ゼロ参照低照度化手法の改善を提案する。 本研究では,通常光データを必要としない方法で学習したプロンプトが画像コントラストを改善し,オーバーエンハンスメントを低減し,ノイズオーバーアンプリフィケーションを低減できることを実験的に示す。 次に、ゼロショットオープン語彙分類によるセマンティックガイダンスのためのCLIPモデルを再利用し、人間の視覚的知覚よりもタスクベース性能の低照度向上を最適化する。 提案手法はタスクベース性能に関する様々なデータセットに一貫した改善をもたらすことを示すとともに,提案手法を最先端の手法と比較し,様々な低照度データセットに対して良好な結果を示す。

Currently, low-light conditions present a significant challenge for machine cognition. In this paper, rather than optimizing models by assuming that human and machine cognition are correlated, we use zero-reference low-light enhancement to improve the performance of downstream task models. We propose to improve the zero-reference low-light enhancement method by leveraging the rich visual-linguistic CLIP prior without any need for paired or unpaired normal-light data, which is laborious and difficult to collect. We propose a simple but effective strategy to learn prompts that help guide the enhancement method and experimentally show that the prompts learned without any need for normal-light data improve image contrast, reduce over-enhancement, and reduce noise over-amplification. Next, we propose to reuse the CLIP model for semantic guidance via zero-shot open vocabulary classification to optimize low-light enhancement for task-based performance rather than human visual perception. We conduct extensive experimental results showing that the proposed method leads to consistent improvements across various datasets regarding task-based performance and compare our method against state-of-the-art methods, showing favorable results across various low-light datasets.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# 物理対応型ハンドオブジェクトインタラクション

Physics-aware Hand-object Interaction Denoising ( http://arxiv.org/abs/2405.11481v1 )

ライセンス: Link先を確認
Haowen Luo, Yunze Liu, Li Yi, (参考訳) 再構成されたオブジェクト間相互作用シーケンスの信頼性と実用性は、その物理的妥当性に大きく依存する。 しかしながら、手動物体の相互作用における高い閉塞性のため、身体的可視性は純粋に視覚に基づく追跡法にとって難しい基準である。 そこで本研究では,この課題に対処し,既存のハンドトラッカーの成果を高めるために,手の動きを物理的に認識する新しい手法を提案する。 具体的には、信頼性の把握と操作可能性の操作という、物理的妥当性の2つの重要な側面を明示的に把握する2つの学習的損失項を導入する。 これらの用語は、物理的に認識されたノイズ除去ネットワークのトレーニングに使用される。 定性的および定量的実験により,本手法は,現在最先端のノイズ除去手法を超越して,微細な物理的可視性と全体的なポーズ精度の両方を著しく向上させることが示された。

The credibility and practicality of a reconstructed hand-object interaction sequence depend largely on its physical plausibility. However, due to high occlusions during hand-object interaction, physical plausibility remains a challenging criterion for purely vision-based tracking methods. To address this issue and enhance the results of existing hand trackers, this paper proposes a novel physically-aware hand motion de-noising method. Specifically, we introduce two learned loss terms that explicitly capture two crucial aspects of physical plausibility: grasp credibility and manipulation feasibility. These terms are used to train a physically-aware de-noising network. Qualitative and quantitative experiments demonstrate that our approach significantly improves both fine-grained physical plausibility and overall pose accuracy, surpassing current state-of-the-art de-noising methods.
翻訳日:2024-05-21 17:28:11 公開日:2024-05-19
# MICap: アイデンティティを意識した映画記述のための統一モデル

MICap: A Unified Model for Identity-aware Movie Descriptions ( http://arxiv.org/abs/2405.11483v1 )

ライセンス: Link先を確認
Haran Raajesh, Naveen Reddy Desanur, Zeeshan Khan, Makarand Tapaswi, (参考訳) キャラクタはあらゆるストーリーラインの重要な側面であり、ストーリー理解にはそれらを含むことが不可欠である。 以前の作業では、アイデンティティを無視し、誰か(匿名名)とキャプションを生成していたが、最近の作業では、フィリング・イン・ザ・ブランク(FITB)タスクとしてid-awareキャプションを定式化しており、空白のキャプションが与えられた場合、そのゴールは人物のIDラベルを予測することである。 しかし、キャプションをIDで予測するには、まず誰かとキャプションを予測し、次にIDを埋める2段階のアプローチが必要である。 本研究では,空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。 我々のモデルであるMICapは、FITBとフルキャプション生成目標のトレーニングの恩恵を受ける共有自動回帰デコーダを使用し、エンコーダは入力として空白の字幕の恩恵を受けるか無視することができる。 id対応キャプションのもう1つの課題は、個人ID間の微妙な違いを捉えるためのメートル法が欠如していることである。 そこで本研究では,中間シーングラフから生成したアイデンティティタプルに着目したキャプション評価指標iSPICEを紹介する。 MICap on Large-Scale Movie Description Challenge (LSMDC) では,FITBの精度が4.2%向上し,古典的なキャプションの指標が1-2%向上した。

Characters are an important aspect of any storyline and identifying and including them in descriptions is necessary for story understanding. While previous work has largely ignored identity and generated captions with someone (anonymized names), recent work formulates id-aware captioning as a fill-in-the-blanks (FITB) task, where, given a caption with blanks, the goal is to predict person id labels. However, to predict captions with ids, a two-stage approach is required: first predict captions with someone, then fill in identities. In this work, we present a new single stage approach that can seamlessly switch between id-aware caption generation or FITB when given a caption with blanks. Our model, Movie-Identity Captioner (MICap), uses a shared auto-regressive decoder that benefits from training with FITB and full-caption generation objectives, while the encoder can benefit from or disregard captions with blanks as input. Another challenge with id-aware captioning is the lack of a metric to capture subtle differences between person ids. To this end, we introduce iSPICE, a caption evaluation metric that focuses on identity tuples created through intermediate scene graphs. We evaluate MICap on Large-Scale Movie Description Challenge (LSMDC), where we show a 4.2% improvement in FITB accuracy, and a 1-2% bump in classic captioning metrics.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 『前述』から『物語要約』へ

"Previously on ..." From Recaps to Story Summarization ( http://arxiv.org/abs/2405.11487v1 )

ライセンス: Link先を確認
Aditya Kumar Singh, Dhruv Srivastava, Makarand Tapaswi, (参考訳) 本稿では,テレビエピソードの要約を利用したマルチモーダルストーリーの要約について紹介する。 PlotSnapは、2つの犯罪スリラーテレビ番組と40分間の長いエピソードを収録したデータセットである。 ストーリー要約ラベルは、エピソード内の対応するサブストーリーにリキャップショットを合わせることでアンロックされる。 本稿では,コンパクトなショットとダイアログ表現を作成することでエピソード全体を処理し,ローカルなストーリーグループ間のインタラクションを可能とすることにより,各ビデオショットとダイアログ発話の重要度を予測できる階層型モデルTalamaSummを提案する。 従来の要約とは異なり、長いビデオから複数のプロットポイントを抽出する。 本稿では,将来的なクロスシリーズの一般化を含む,ストーリー要約の徹底的な評価について述べる。 TaleSummは、古典的なビデオ要約ベンチマークでも良い結果を示している。

We introduce multimodal story summarization by leveraging TV episode recaps - short video sequences interweaving key story moments from previous episodes to bring viewers up to speed. We propose PlotSnap, a dataset featuring two crime thriller TV shows with rich recaps and long episodes of 40 minutes. Story summarization labels are unlocked by matching recap shots to corresponding sub-stories in the episode. We propose a hierarchical model TaleSumm that processes entire episodes by creating compact shot and dialog representations, and predicts importance scores for each video shot and dialog utterance by enabling interactions between local story groups. Unlike traditional summarization, our method extracts multiple plot points from long videos. We present a thorough evaluation on story summarization, including promising cross-series generalization. TaleSumm also shows good results on classic video summarization benchmarks.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# BOSC: 合成画像属性をオープンセットするためのバックドアベースのフレームワーク

BOSC: A Backdoor-based Framework for Open Set Synthetic Image Attribution ( http://arxiv.org/abs/2405.11491v1 )

ライセンス: Link先を確認
Jun Wang, Benedetta Tondi, Mauro Barni, (参考訳) 合成画像属性は、生成モデルによって生成された画像の起源をトレースする問題に対処する。 生成モデルのユニークな表現を探索し、それを生成したモデルに合成画像の属性付けに利用するために、広範囲な努力がなされている。 ほとんどの手法は、システムが未知のアーキテクチャによって生成されたサンプルで供給される可能性を考慮せずに、クローズドなセット内のモデルやアーキテクチャを分類する。 AI技術の継続的な進歩により、新しい生成アーキテクチャが継続的に出現し、研究者がオープンなシナリオで作業可能なツールの開発に注意を向けるようになる。 本稿では, バックドア攻撃の概念に頼って, 拒否オプション付き分類器を設計する, BOSC (Backdoor-based Open Set Classification) という合成画像のオープンセット属性のフレームワークを提案する。 BOSCは、トレーニングセット内の画像の一部にクラス固有のトリガを意図的に注入することで、ネットワークを誘導し、クラス機能とトリガー機能とのマッチングを確立する。 次に、トリガサンプルに対する訓練されたモデルの挙動をテスト時に利用し、アドホックスコアを用いてサンプル拒絶を行う。 実験の結果,提案手法は高い性能を示し,常に最先端の手法を超越していることがわかった。 画像処理に対するロバスト性も非常に優れている。 提案手法は,合成画像帰属処理のために設計されているが,提案手法は一般的なもので,他の画像法医学的応用にも利用できる。

Synthetic image attribution addresses the problem of tracing back the origin of images produced by generative models. Extensive efforts have been made to explore unique representations of generative models and use them to attribute a synthetic image to the model that produced it. Most of the methods classify the models or the architectures among those in a closed set without considering the possibility that the system is fed with samples produced by unknown architectures. With the continuous progress of AI technology, new generative architectures continuously appear, thus driving the attention of researchers towards the development of tools capable of working in open-set scenarios. In this paper, we propose a framework for open set attribution of synthetic images, named BOSC (Backdoor-based Open Set Classification), that relies on the concept of backdoor attacks to design a classifier with rejection option. BOSC works by purposely injecting class-specific triggers inside a portion of the images in the training set to induce the network to establish a matching between class features and trigger features. The behavior of the trained model with respect to triggered samples is then exploited at test time to perform sample rejection using an ad-hoc score. Experiments show that the proposed method has good performance, always surpassing the state-of-the-art. Robustness against image processing is also very good. Although we designed our method for the task of synthetic image attribution, the proposed framework is a general one and can be used for other image forensic applications.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# ボクセル化モデルにおける深部強化学習による自動車空力の強化

Enhancing Vehicle Aerodynamics with Deep Reinforcement Learning in Voxelised Models ( http://arxiv.org/abs/2405.11492v1 )

ライセンス: Link先を確認
Jignesh Patel, Yannis Spyridis, Vasileios Argyriou, (参考訳) 空力設計の最適化は、自動車の性能と効率を向上させる上で重要な役割を果たす。 本稿では,深部強化学習(DRL)を用いた自動車設計における空力最適化の新しい手法を提案する。 従来の最適化手法は、設計空間の複雑さに対処し、設計パラメータと空力性能メトリクスの間の非線形関係をキャプチャする際の課題に直面することが多い。 本研究は, 酸化モデル表現における最適空力設計戦略の学習にDRLを用いることにより, これらの課題に対処する。 提案手法は, 車両形状をボクセルの格子に識別するためにボクセルモデルを用いており, 空力場を詳細に表現することができる。 次に、PPOアルゴリズムを用いてDRLエージェントを訓練し、ドラッグ力、運動エネルギー、ボクセル衝突数に関する車両の設計パラメータを最適化する。 実験により, 空力性能において, 提案手法の有効性と効率性を実証した。 この結果は、自動車工学における複雑な空力設計最適化問題に対処するためのDRL技術の可能性を強調し、車の性能、燃料効率、環境の持続可能性の向上に寄与する。

Aerodynamic design optimisation plays a crucial role in improving the performance and efficiency of automotive vehicles. This paper presents a novel approach for aerodynamic optimisation in car design using deep reinforcement learning (DRL). Traditional optimisation methods often face challenges in handling the complexity of the design space and capturing non-linear relationships between design parameters and aerodynamic performance metrics. This study addresses these challenges by employing DRL to learn optimal aerodynamic design strategies in a voxelised model representation. The proposed approach utilises voxelised models to discretise the vehicle geometry into a grid of voxels, allowing for a detailed representation of the aerodynamic flow field. The Proximal Policy Optimisation (PPO) algorithm is then employed to train a DRL agent to optimise the design parameters of the vehicle with respect to drag force, kinetic energy, and voxel collision count. Experimental results demonstrate the effectiveness and efficiency of the proposed approach in achieving significant results in aerodynamic performance. The findings highlight the potential of DRL techniques for addressing complex aerodynamic design optimisation problems in automotive engineering, with implications for improving vehicle performance, fuel efficiency, and environmental sustainability.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 暗黙のニューラル表現によるポイントクラウド圧縮:統一フレームワーク

Point Cloud Compression with Implicit Neural Representations: A Unified Framework ( http://arxiv.org/abs/2405.11493v1 )

ライセンス: Link先を確認
Hongning Ruan, Yulin Shao, Qianqian Yang, Liang Zhao, Dusit Niyato, (参考訳) ポイントクラウドは、3Dオブジェクトやシーンをリアルに描写する能力のおかげで、様々なアプリケーションでますます重要になっている。 それでも、非構造化で高精度なクラウドデータを効果的に圧縮することは大きな課題である。 本稿では,幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。 従来のアプローチや既存の学習ベースの手法とは異なり、我々のフレームワークは2つの座標ベースのニューラルネットワークを使用して、voxelized point cloudを暗黙的に表現する。 第1のネットワークはボクセルの占有状態を生成し、第2のネットワークは占有されたボクセルの属性を決定する。 体積空間内の膨大な数のボクセルに取り組むために、空間をより小さな立方体に分割し、空でない立方体内のボクセルのみにフォーカスする。 これらのボクセルの座標を各ネットワークに供給することにより、元の点雲の幾何成分と属性成分を再構成する。 ニューラルネットワークパラメータはさらに量子化され、圧縮される。 その結果,最新のG-PCC標準で採用されているオクツリー方式と比較して,提案手法の優れた性能が示された。 さらに,本手法は既存の学習手法と対比した場合,高い普遍性を示す。

Point clouds have become increasingly vital across various applications thanks to their ability to realistically depict 3D objects and scenes. Nevertheless, effectively compressing unstructured, high-precision point cloud data remains a significant challenge. In this paper, we present a pioneering point cloud compression framework capable of handling both geometry and attribute components. Unlike traditional approaches and existing learning-based methods, our framework utilizes two coordinate-based neural networks to implicitly represent a voxelized point cloud. The first network generates the occupancy status of a voxel, while the second network determines the attributes of an occupied voxel. To tackle an immense number of voxels within the volumetric space, we partition the space into smaller cubes and focus solely on voxels within non-empty cubes. By feeding the coordinates of these voxels into the respective networks, we reconstruct the geometry and attribute components of the original point cloud. The neural network parameters are further quantized and compressed. Experimental results underscore the superior performance of our proposed method compared to the octree-based approach employed in the latest G-PCC standards. Moreover, our method exhibits high universality when contrasted with existing learning-based techniques.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# エッジ検出アルゴリズムを用いた海岸線の自動抽出

Automated Coastline Extraction Using Edge Detection Algorithms ( http://arxiv.org/abs/2405.11494v1 )

ライセンス: Link先を確認
Conor O'Sullivan, Seamus Coveney, Xavier Monteys, Soumyabrata Dev, (参考訳) 衛星画像から海岸線を自動的に抽出するためのエッジ検出アルゴリズムの有効性を解析する。 Canny、Sobel、Scharr、Prewittの4つのアルゴリズムは視覚的に比較され、メトリクスを使用する。 平均SSIMは0.8で、カニーは基準エッジに最も近いエッジを検出した。 しかし、このアルゴリズムは、例えば海岸線エッジから発達のためにノイズの多いエッジを区別するのが困難であった。 さらに, ヒストグラムの等化とガウスのぼかしにより, エッジ検出アルゴリズムの有効性を最大1.5倍, 1.6倍に向上させることを示した。

We analyse the effectiveness of edge detection algorithms for the purpose of automatically extracting coastlines from satellite images. Four algorithms - Canny, Sobel, Scharr and Prewitt are compared visually and using metrics. With an average SSIM of 0.8, Canny detected edges that were closest to the reference edges. However, the algorithm had difficulty distinguishing noisy edges, e.g. due to development, from coastline edges. In addition, histogram equalization and Gaussian blur were shown to improve the effectiveness of the edge detection algorithms by up to 1.5 and 1.6 times respectively.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 誘電体薄膜における非弾性電子-光散乱

Inelastic electron-light scattering at dielectric thin films ( http://arxiv.org/abs/2405.11495v1 )

ライセンス: Link先を確認
Niklas Müller, Gerrit Vosse, Ferdinand Evers, Sascha Schäfer, (参考訳) 最近開発された光子誘導近接電顕法(PINEM)では、照射されたナノ構造からの電子の非弾性散乱は、光近接電場モードの構造とその個体群への直接的な実験的アクセスを提供する。 非弾性散乱確率は近接場分布に定量的に関連付けることができるが、単純な光散乱ジオメトリーの解析結果は少ない。 ここでは、誘電体薄膜を表す平面幾何学における自由電子と光近接場との結合強度の完全な解析式を導出する。 上記の電場から試料内および試料内における全体的なカップリングへの寄与を詳細に分析する。 電子ビーム, 光, 薄膜間の相対角を慎重に選択し, 光子エネルギーの広いスペクトルを考慮し, 反射率などの光学材料特性を電子エネルギー分布に印加できることを実証した。

In a recently developed methodology termed photon induced near-field electron microscopy (PINEM), the inelastic scattering of electrons off illuminated nanostructures provides direct experimental access to the structure of optical near-field modes and their population. Whereas the inelastic scattering probability can be quantitatively linked to the near field distribution, analytical results for simple light scattering geometries are scarce. Here we derive a fully analytical expression for the coupling strength between free electrons and optical near-fields in planar geometries representing dielectric thin films. Contributions to the overall coupling from the electric field above, below and within the sample are analyzed in detail. By carefully choosing the relative angles between electron beam, light and thin film and by accounting for a broad spectrum of photon energies, we demonstrate that one can imprint optical material properties like the reflectivity onto the electron energy distribution.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# DEMO: 効率的な画像テキストマッチングの統計的展望

DEMO: A Statistical Perspective for Efficient Image-Text Matching ( http://arxiv.org/abs/2405.11496v1 )

ライセンス: Link先を確認
Fan Zhang, Xian-Sheng Hua, Chong Chen, Xiao Luo, (参考訳) 画像テキストマッチングは、視覚と言語をセマンティックな理解を通じて結びつけることを目指す、長年にわたる問題である。 大規模な生データを管理する能力のため、教師なしハッシュベースのアプローチが最近人気を集めている。 彼らは通常、自然な距離を使って意味的類似性構造を構築し、モデル最適化プロセスへのガイダンスを提供する。 しかし、類似性構造は意味分布の境界に偏りがあり、逐次最適化の際にエラーの蓄積を引き起こす可能性がある。 そこで本研究では,効率的な画像テキストマッチングを実現するために,分散ベース構造マイニング(DEMO)と呼ばれる新しいハッシュ手法を提案する。 統計的視点から、DEMOは複数の拡張ビューを用いて各画像を特徴付け、本質的な意味分布から抽出されたサンプルと見なされる。 そして、ロバストで正確な類似性構造を確保するために、非パラメトリック分布のばらつきを用いる。 さらに,ハミング空間における類似性構造を保存するだけでなく,自己管理的な方法で異なる方向からの検索分布間の整合性も促進する協調的整合性学習を導入する。 3つのベンチマーク画像テキストマッチングデータセットの広範な実験を通して、DeMOが多くの最先端手法と比較して優れた性能を発揮することを示す。

Image-text matching has been a long-standing problem, which seeks to connect vision and language through semantic understanding. Due to the capability to manage large-scale raw data, unsupervised hashing-based approaches have gained prominence recently. They typically construct a semantic similarity structure using the natural distance, which subsequently provides guidance to the model optimization process. However, the similarity structure could be biased at the boundaries of semantic distributions, causing error accumulation during sequential optimization. To tackle this, we introduce a novel hashing approach termed Distribution-based Structure Mining with Consistency Learning (DEMO) for efficient image-text matching. From a statistical view, DEMO characterizes each image using multiple augmented views, which are considered as samples drawn from its intrinsic semantic distribution. Then, we employ a non-parametric distribution divergence to ensure a robust and precise similarity structure. In addition, we introduce collaborative consistency learning which not only preserves the similarity structure in the Hamming space but also encourages consistency between retrieval distribution from different directions in a self-supervised manner. Through extensive experiments on three benchmark image-text matching datasets, we demonstrate that DEMO achieves superior performance compared with many state-of-the-art methods.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 動的に生成された偽装環境を利用したサイバー犯罪者のその場心理学的プロファイリング

Towards in-situ Psychological Profiling of Cybercriminals Using Dynamically Generated Deception Environments ( http://arxiv.org/abs/2405.11497v1 )

ライセンス: Link先を確認
Jacob Quibell, (参考訳) サイバー犯罪の規模は年間10兆ドル近くと見積もられ、企業や政府はサイバー攻撃の成功の度重なる増加を報告し、サイバーセキュリティ戦略の再考を求める声が高まっている。 サイバー犯罪の脅威と戦うには、これまでのところ、サイバー防衛に対する従来型のセキュリティアプローチが不十分であることが証明されている。 サイバー詐欺は、動的な防衛環境を作ることによって、有望な代替手段を提供する。 詐欺的手法は、攻撃者を誤解させ、重要な資産から切り離し、同時に脅威俳優にサイバー脅威情報を収集することを目的としている。 本稿では,サイバー攻撃のシミュレーションにおいて,攻撃者の身元をリアルタイムで把握するために開発された概念実証(POC)サイバー詐欺システムについて述べる。 観察された攻撃行動に基づいて、動的かつ自律的に偽装材料を生成し、攻撃者が偽装材料とどのように相互作用するかを分析することにより、システムは攻撃者の動機に関する予測を出力する。 この記事はまた、このPOCをどのように拡張して、心理的特徴などの攻撃者のプロファイルの他の特徴を推測するかについても検討している。 観察された攻撃行動に基づいて、動的かつ自律的に偽装材料を生成し、攻撃者が偽装材料とどのように相互作用するかを分析することにより、システムは攻撃者の動機に関する述語を出力する。 この記事はまた、このPOCをどのように拡張して、心理的特徴などの攻撃者のプロファイルの他の特徴を推測するかについても検討している。

Cybercrime is estimated to cost the global economy almost \$10 trillion annually and with businesses and governments reporting an ever-increasing number of successful cyber-attacks there is a growing demand to rethink the strategy towards cyber security. The traditional, perimeter security approach to cyber defence has so far proved inadequate to combat the growing threat of cybercrime. Cyber deception offers a promising alternative by creating a dynamic defence environment. Deceptive techniques aim to mislead attackers, diverting them from critical assets whilst simultaneously gathering cyber threat intelligence on the threat actor. This article presents a proof-of-concept (POC) cyber deception system that has been developed to capture the profile of an attacker in-situ, during a simulated cyber-attack in real time. By dynamically and autonomously generating deception material based on the observed attacker behaviour and analysing how the attacker interacts with the deception material, the system outputs a prediction on the attacker's motive. The article also explores how this POC can be expanded to infer other features of the attacker's profile such as psychological characteristics. By dynamically and autonomously generating deception material based on observed attacker behaviour and analysing how the attacker interacts with the deception material, the system outputs a prediciton on the attacker's motive. The article also explores how this POC can be expanded to infer other features of the attacker's profile such as psychological characteristics.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 海岸線自動検出におけるエッジ検出評価指標の有効性

The Effectiveness of Edge Detection Evaluation Metrics for Automated Coastline Detection ( http://arxiv.org/abs/2405.11498v1 )

ライセンス: Link先を確認
Conor O'Sullivan, Seamus Coveney, Xavier Monteys, Soumyabrata Dev, (参考訳) 自動海岸線検出に用いるエッジ検出アルゴリズムの評価において,RMSE,PSNR,SSIM,FOMの有効性を解析した。 通常、検出された海岸線の精度は視覚的に評価される。 これは大規模で非現実的であり、客観的評価指標の必要性につながる可能性がある。 したがって、信頼性のあるメトリクスを見つける実験を行う。 我々は、49の試験地点にわたる95の海岸線衛星画像にCannyエッジ検出を適用した。 我々はヒステリシス閾値を変化させ、測定値と検出されたエッジの視覚的分析を比較する。 その結果,FOMが最良閾値を選択する上で最も信頼性の高い指標であることが判明した。 92.6%の値と66.3%の値を選択することができる。 これはRMSE、PSNR、SSIMを比較し、それぞれ最高の閾値6.3%、6.3%、11.6%を選択できる。 我々は、RMSE、PSNR、SSIMを混乱行列の尺度で再構成することで、これらの結果の理由を提供する。 これは、これらの指標が実験に失敗するだけでなく、一般的にエッジ検出を評価するのに有用ではないことを示唆している。

We analyse the effectiveness of RMSE, PSNR, SSIM and FOM for evaluating edge detection algorithms used for automated coastline detection. Typically, the accuracy of detected coastlines is assessed visually. This can be impractical on a large scale leading to the need for objective evaluation metrics. Hence, we conduct an experiment to find reliable metrics. We apply Canny edge detection to 95 coastline satellite images across 49 testing locations. We vary the Hysteresis thresholds and compare metric values to a visual analysis of detected edges. We found that FOM was the most reliable metric for selecting the best threshold. It could select a better threshold 92.6% of the time and the best threshold 66.3% of the time. This is compared RMSE, PSNR and SSIM which could select the best threshold 6.3%, 6.3% and 11.6% of the time respectively. We provide a reason for these results by reformulating RMSE, PSNR and SSIM in terms of confusion matrix measures. This suggests these metrics not only fail for this experiment but are not useful for evaluating edge detection in general.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 海岸線検出のためのセマンティックセグメンテーションモデルの解釈

Interpreting a Semantic Segmentation Model for Coastline Detection ( http://arxiv.org/abs/2405.11500v1 )

ライセンス: Link先を確認
Conor O'Sullivan, Seamus Coveney, Xavier Monteys, Soumyabrata Dev, (参考訳) 海岸線衛星画像から陸水への分類に使用される深層学習セマンティックセマンティックセマンティックセマンティクスモデルを解釈する。 これは、モデルに対する信頼を築き、沿岸水域抽出のプロセスに関する新たな洞察を得るためである。 具体的には,どのスペクトル帯がセグメンテーションマスクの予測に重要であるかを明らかにする。 これは置換の重要性のアプローチを用いて行われる。 結果は、NIRが最も重要なスペクトルバンドであることを示している。 このバンドの変奏により、38.12ポイントの精度が低下した。 水蒸気、SWIR 1、ブルーのバンドはそれぞれ2.58、0.78、0.19である。 水蒸気は典型的には水蒸気の指標には使われず,水蒸気の抽出に有用である可能性が示唆された。 コースタルエアロゾル、グリーン、レッド、RE1、RE2、RE3、RE4、SWIR 2は精度は低下しなかった。 これは、複雑さと計算要求を減らす将来のモデルビルドから除外される可能性があることを示唆している。

We interpret a deep-learning semantic segmentation model used to classify coastline satellite images into land and water. This is to build trust in the model and gain new insight into the process of coastal water body extraction. Specifically, we seek to understand which spectral bands are important for predicting segmentation masks. This is done using a permutation importance approach. Results show that the NIR is the most important spectral band. Permuting this band lead to a decrease in accuracy of 38.12 percentage points. This is followed by Water Vapour, SWIR 1, and Blue bands with 2.58, 0.78 and 0.19 respectively. Water Vapour is not typically used in water indices and these results suggest it may be useful for water body extraction. Permuting, the Coastal Aerosol, Green, Red, RE1, RE2, RE3, RE4, and SWIR 2 bands did not decrease accuracy. This suggests they could be excluded from future model builds reducing complexity and computational requirements.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# DogFLW:野生のデータセットにある犬の顔のランドマーク

DogFLW: Dog Facial Landmarks in the Wild Dataset ( http://arxiv.org/abs/2405.11501v1 )

ライセンス: Link先を確認
George Martvel, Greta Abele, Annika Bremhorst, Chiara Canori, Nareed Farhat, Giulia Pedretti, Ilan Shimshoni, Anna Zamansky, (参考訳) 動物に対する影響コンピューティングは、痛みや感情といった動物の内部状態に対処するために、自動的な運動追跡よりも深くなっている研究領域として急速に拡大している。 表情は哺乳類のこれらの状態に関する情報を伝えるのに役立つ。 しかし、人間に関する研究とは異なり、動物の表情の自動分析を可能にするデータセットが著しく不足している。 最近導入されたWildデータセットのCat Facial Landmarksにインスパイアされ、48の顔解剖に基づくランドマークでアノテートされた猫の顔を呈示し、この論文では犬の3,274のアノテート画像を含む類似したデータセットを開発した。 我々のデータセットは、46の顔解剖に基づくランドマークのスキームに基づいている。 DogFLWデータセットは、適切な要求に従って、対応する著者から入手可能である。

Affective computing for animals is a rapidly expanding research area that is going deeper than automated movement tracking to address animal internal states, like pain and emotions. Facial expressions can serve to communicate information about these states in mammals. However, unlike human-related studies, there is a significant shortage of datasets that would enable the automated analysis of animal facial expressions. Inspired by the recently introduced Cat Facial Landmarks in the Wild dataset, presenting cat faces annotated with 48 facial anatomy-based landmarks, in this paper, we develop an analogous dataset containing 3,274 annotated images of dogs. Our dataset is based on a scheme of 46 facial anatomy-based landmarks. The DogFLW dataset is available from the corresponding author upon a reasonable request.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 機械学習とWi-Fi: AI/ML-Native IEEE 802.11ネットワークへの道を開く

Machine Learning & Wi-Fi: Unveiling the Path Towards AI/ML-Native IEEE 802.11 Networks ( http://arxiv.org/abs/2405.11504v1 )

ライセンス: Link先を確認
Francesc Wilhelmi, Szymon Szott, Katarzyna Kosek-Szott, Boris Bellalta, (参考訳) 人工知能(AI)と機械学習(ML)は、現在、未来の通信システムの進化を駆動するために欠かせない技術と考えられている成熟した技術である。 同時に、Wi-Fi技術は過去30年にわたって常に進化し、新しい機能を世代ごとに導入し、複雑さを増している。 そのため、研究者たちは、従来のアプローチでは解決が難しい今後のWi-Fi課題に対処するために、AI/MLの機能が必要かもしれないことを見てきた。 本稿では,現在および将来のWi-FiネットワークにおけるAI/MLの役割について論じ,今後の展開について述べる。 AI/MLネイティブWi-Fi、主要な課題、標準化の取り組み、主要なイネーブラーへのロードマップも議論されている。 異なる採用段階において、Wi-FiにおけるAI/MLの可能性を示すための模範的なユースケースが提供される。

Artificial intelligence (AI) and machine learning (ML) are nowadays mature technologies considered essential for driving the evolution of future communications systems. Simultaneously, Wi-Fi technology has constantly evolved over the past three decades and incorporated new features generation after generation, thus gaining in complexity. As such, researchers have observed that AI/ML functionalities may be required to address the upcoming Wi-Fi challenges that will be otherwise difficult to solve with traditional approaches. This paper discusses the role of AI/ML in current and future Wi-Fi networks and depicts the ways forward. A roadmap towards AI/ML-native Wi-Fi, key challenges, standardization efforts, and major enablers are also discussed. An exemplary use case is provided to showcase the potential of AI/ML in Wi-Fi at different adoption stages.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# 変化検出と記号プログラミングを用いたオンライン行動表現

Online Action Representation using Change Detection and Symbolic Programming ( http://arxiv.org/abs/2405.11511v1 )

ライセンス: Link先を確認
Vishnu S Nair, Sneha Sree, Jayaraj Joseph, Mohanasankar Sivaprakasam, (参考訳) 本稿では, リハビリテーション, 監視など, 様々な応用に不可欠なオンライン行動表現の必要性について論じる。 このタスクは、将来ビデオフレームにアクセスすることなく、ストリーミングビデオで発生したアクションの表現として定義することができる。 既存の手法のほとんどは、ビデオセグメントの事前定義されたウィンドウサイズを使用しており、ダイナミックスに対する制限的な仮定である。 提案手法は, 意味のあるサブアクションを形成し, そして, クリッピングされたセグメントにシンボル生成動作プログラムを適合させる, 動作シーケンスを自動的に分割する変更検出アルゴリズムを用いている。 関節角度と骨長列に対する一方向線形適合アルゴリズムを用いて, セグメントの開始時刻と終了時刻を変化検出により決定する。 ドメイン固有の記号プリミティブは、より高いレベルの意味表現を得るために、抽出されたセグメントのキーポイントトラジェクトリに適合する。 この表現は部分ベースであるため、人間の行動を構成する性質を補完するものであり、複雑な活動は基本的なサブアクションに分解することができる。 クラス非依存反復検出における下流タスクにおけるこの表現の有効性を示す。 本稿では,オンライン反復カウントを行うプリミティブの連続的類似性マッチングに基づく反復カウントアルゴリズムを提案する。 また、この結果と、類似しているがオフラインの繰り返しカウントアルゴリズムを比較した。 実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。

This paper addresses the critical need for online action representation, which is essential for various applications like rehabilitation, surveillance, etc. The task can be defined as representation of actions as soon as they happen in a streaming video without access to video frames in the future. Most of the existing methods use predefined window sizes for video segments, which is a restrictive assumption on the dynamics. The proposed method employs a change detection algorithm to automatically segment action sequences, which form meaningful sub-actions and subsequently fit symbolic generative motion programs to the clipped segments. We determine the start time and end time of segments using change detection followed by a piece-wise linear fit algorithm on joint angle and bone length sequences. Domain-specific symbolic primitives are fit to pose keypoint trajectories of those extracted segments in order to obtain a higher level semantic representation. Since this representation is part-based, it is complementary to the compositional nature of human actions, i.e., a complex activity can be broken down into elementary sub-actions. We show the effectiveness of this representation in the downstream task of class agnostic repetition detection. We propose a repetition counting algorithm based on consecutive similarity matching of primitives, which can do online repetition counting. We also compare the results with a similar but offline repetition counting algorithm. The results of the experiments demonstrate that, despite operating online, the proposed method performs better or on par with the existing method.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# LLMによる実世界のコード翻訳に向けて:Rustへの翻訳について

Towards Translating Real-World Code with LLMs: A Study of Translating to Rust ( http://arxiv.org/abs/2405.11514v1 )

ライセンス: Link先を確認
Hasan Ferit Eniser, Hanliang Zhang, Cristina David, Meng Wang, Brandon Paulsen, Joey Dodds, Daniel Kroening, (参考訳) 大きな言語モデル(LLM)は、あるプログラミング言語で書かれたコードを他の言語に翻訳するタスクであるコード翻訳の約束を示す。 しかし、LLMの現実世界のコードを翻訳する効果はほとんど研究されていない。 本研究では,5つの最先端LLM,GPT4,Claude 3,Claude 2.1,Gemini Pro,Mixtralの能力を評価することにより,RustへのLLMベースの翻訳に関する最初の実質的研究を行う。 実世界のオープンソースプロジェクトから抽出したコードについて検討する。 そこで本研究では,Rust翻訳が元のソースコードと同等のI/Oであるかどうかを確認するために差分ファジィを利用するエンドツーエンドのコード翻訳ツールであるFLOURINEを開発し,既存のテストケースの必要性を排除した。 調査の一環として,LSMが最初に成功した翻訳を生成できる能力と,以前に生成されたバグの修正能力の両方を評価した。 元のプログラムと翻訳プログラムがI/O同値でない場合、逆例によるLLMへのフィードバックを含む一連の自動フィードバック戦略を適用する。 我々の結果は、最も成功したLLMがベンチマークの47%を翻訳できることを示し、また、改善のための次のステップについての洞察を提供する。

Large language models (LLMs) show promise in code translation - the task of translating code written in one programming language to another language - due to their ability to write code in most programming languages. However, LLM's effectiveness on translating real-world code remains largely unstudied. In this work, we perform the first substantial study on LLM-based translation to Rust by assessing the ability of five state-of-the-art LLMs, GPT4, Claude 3, Claude 2.1, Gemini Pro, and Mixtral. We conduct our study on code extracted from real-world open source projects. To enable our study, we develop FLOURINE, an end-to-end code translation tool that uses differential fuzzing to check if a Rust translation is I/O equivalent to the original source program, eliminating the need for pre-existing test cases. As part of our investigation, we assess both the LLM's ability to produce an initially successful translation, as well as their capacity to fix a previously generated buggy one. If the original and the translated programs are not I/O equivalent, we apply a set of automated feedback strategies, including feedback to the LLM with counterexamples. Our results show that the most successful LLM can translate 47% of our benchmarks, and also provides insights into next steps for improvements.
翻訳日:2024-05-21 17:18:28 公開日:2024-05-19
# MSNER: 名前付きエンティティ認識のための多言語音声データセット

MSNER: A Multilingual Speech Dataset for Named Entity Recognition ( http://arxiv.org/abs/2405.11519v1 )

ライセンス: Link先を確認
Quentin Meeus, Marie-Francine Moens, Hugo Van hamme, (参考訳) テキストベースのタスクでは広く研究されているが、名前付きエンティティ認識(NER)は音声言語理解では無視されている。 既存のリソースは、単一の英語のみのデータセットに限られている。 本論文は,MSNERという,名前付きエンティティを付加した多言語音声コーパスを導入することで,このギャップに対処する。 これはVoxPopuliデータセットに4つの言語(オランダ語、フランス語、ドイツ語、スペイン語)でアノテーションを提供する。 また、自動事前アノテーションを利用して手作業による改善を高速化する効率的なアノテーションツールもリリースしました。 その結果,590時間15時間の銀アノテート音声によるトレーニングと検証が可能となり,手動アノテート評価セットが17時間に短縮された。 さらに、銀と金のアノテーションの比較分析も行います。 最後に、この新たに利用可能なデータセットに関するさらなる研究を促進するために、ベースラインNERモデルを提示する。

While extensively explored in text-based tasks, Named Entity Recognition (NER) remains largely neglected in spoken language understanding. Existing resources are limited to a single, English-only dataset. This paper addresses this gap by introducing MSNER, a freely available, multilingual speech corpus annotated with named entities. It provides annotations to the VoxPopuli dataset in four languages (Dutch, French, German, and Spanish). We have also releasing an efficient annotation tool that leverages automatic pre-annotations for faster manual refinement. This results in 590 and 15 hours of silver-annotated speech for training and validation, alongside a 17-hour, manually-annotated evaluation set. We further provide an analysis comparing silver and gold annotations. Finally, we present baseline NER models to stimulate further research on this newly available dataset.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 拡散に基づく階層型画像ステレオグラフィー

Diffusion-Based Hierarchical Image Steganography ( http://arxiv.org/abs/2405.11523v1 )

ライセンス: Link先を確認
Youmin Xu, Xuanyu Zhang, Jiwen Yu, Chong Mou, Xiandong Meng, Jian Zhang, (参考訳) 本稿では,拡散モデルを用いて複数のイメージを単一のコンテナに埋め込む際のセキュリティとキャパシティを高める新しい手法である階層画像ステガノグラフィを提案する。 HISは、その重要性に基づいて画像に様々なレベルの堅牢性を割り当て、操作に対する保護の強化を保証する。 フローモデルの可逆性とともに拡散モデルの堅牢性を適応的に活用する。 Embed-FlowとEnhance-Flowの統合により、従来のマルチイメージステガノグラフィー技術とは違い、埋め込み効率と画像回復品質が向上する。 この革新的な構造は、コンテナイメージを自律的に生成し、複数の画像やテキストを安全かつ効率的に隠蔽することができる。 厳格な主観的および客観的評価は、分析的抵抗性、堅牢性、能力の優位性を示し、コンテンツ保護とプライバシーの強化におけるその拡張可能性を示している。

This paper introduces Hierarchical Image Steganography, a novel method that enhances the security and capacity of embedding multiple images into a single container using diffusion models. HIS assigns varying levels of robustness to images based on their importance, ensuring enhanced protection against manipulation. It adaptively exploits the robustness of the Diffusion Model alongside the reversibility of the Flow Model. The integration of Embed-Flow and Enhance-Flow improves embedding efficiency and image recovery quality, respectively, setting HIS apart from conventional multi-image steganography techniques. This innovative structure can autonomously generate a container image, thereby securely and efficiently concealing multiple images and text. Rigorous subjective and objective evaluations underscore our advantage in analytical resistance, robustness, and capacity, illustrating its expansive applicability in content safeguarding and privacy fortification.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# テキスト分類におけるコントラスト学習の再バランスのためのプロトタイプを用いた簡易サンプリングとハードミクスアップ

Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification ( http://arxiv.org/abs/2405.11524v1 )

ライセンス: Link先を確認
Mengyu Li, Yonghao Liu, Fausto Giunchiglia, Xiaoyue Feng, Renchu Guan, (参考訳) テキスト分類は自然言語処理において重要かつ基本的な課題である。 クロスエントロピー損失による事前学習と微調整という従来の学習パラダイムと比較すると,最近提案された教師付きコントラスト学習アプローチは,その強力な特徴学習能力と堅牢性から大きな注目を集めている。 いくつかの研究がこの技法をテキスト分類に取り入れているが、いくつかの制限が残っている。 まず、多くのテキストデータセットは不均衡であり、教師付きコントラスト学習の学習メカニズムはデータ不均衡に敏感であり、モデルの性能を損なう可能性がある。 さらに,これらのモデルでは,相互指導を伴わずに,クロスエントロピーと教師付きコントラスト学習の分枝を別々に活用する。 そこで本研究では,不均衡テキスト分類タスクのためのSharpReCLという新しいモデルを提案する。 まず、バランスの取れた分類分岐における各クラスのプロトタイプベクトルを取得し、各クラスの表現として機能する。 そして, プロトタイプベクトルをさらに明示的に活用することにより, 教師付きコントラスト学習手順を実行するために, クラス毎に同じ大きさの適切な, 十分なターゲットセットを構築する。 実験結果から,複数のデータセットにまたがるポピュラーな大規模言語モデルよりも優れるモデルの有効性が示された。

Text classification is a crucial and fundamental task in natural language processing. Compared with the previous learning paradigm of pre-training and fine-tuning by cross entropy loss, the recently proposed supervised contrastive learning approach has received tremendous attention due to its powerful feature learning capability and robustness. Although several studies have incorporated this technique for text classification, some limitations remain. First, many text datasets are imbalanced, and the learning mechanism of supervised contrastive learning is sensitive to data imbalance, which may harm the model performance. Moreover, these models leverage separate classification branch with cross entropy and supervised contrastive learning branch without explicit mutual guidance. To this end, we propose a novel model named SharpReCL for imbalanced text classification tasks. First, we obtain the prototype vector of each class in the balanced classification branch to act as a representation of each class. Then, by further explicitly leveraging the prototype vectors, we construct a proper and sufficient target sample set with the same size for each class to perform the supervised contrastive learning procedure. The empirical results show the effectiveness of our model, which even outperforms popular large language models across several datasets.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 合成アンカーによる分散化フェデレーション学習におけるデータとモデル不均一性の克服

Overcoming Data and Model Heterogeneities in Decentralized Federated Learning via Synthetic Anchors ( http://arxiv.org/abs/2405.11525v1 )

ライセンス: Link先を確認
Chun-Yin Huang, Kartik Srinivas, Xin Zhang, Xiaoxiao Li, (参考訳) 従来のフェデレートラーニング(FL)には、ユーザデータのプライバシを維持しながら、グローバルモデルの協調的なトレーニングが含まれる。 ひとつのブランチである分散FLは、クライアントが異なるローカルモデルを個別に所有し、最適化できるサーバーレスネットワークで、管理と通信リソースの節約に繋がる。 分散FLの有望な進歩にもかかわらず、グローバルモデルが欠如しているため、モデルの一般化性が低下する可能性がある。 このシナリオでは、クライアント間のデータ管理とモデルの不均一性は決定的な問題となり、克服しなければならないユニークな課題を引き起こします。 この課題に対処するため,DeSAと呼ばれる合成アンカーを導入し,新しい分散FL手法を提案する。 ドメイン適応と知識蒸留(KD)の理論に基づき,生データ分布に基づくグローバルアンカーの合成が相互知識伝達を促進することを理論的かつ実証的に示す。 さらに、局所訓練のための2つの効果的な正規化用語を設計する。 1)クライアントの潜伏したエンディングの分布をアンカーに調整するREG損失 2) クライアントが他人から学ぶことができるKD損失。 多様なクライアントデータ分散に関する広範な実験を通じて、各クライアントのドメイン間精度とドメイン内精度を両立させるDeSAの有効性を示す。

Conventional Federated Learning (FL) involves collaborative training of a global model while maintaining user data privacy. One of its branches, decentralized FL, is a serverless network that allows clients to own and optimize different local models separately, which results in saving management and communication resources. Despite the promising advancements in decentralized FL, it may reduce model generalizability due to lacking a global model. In this scenario, managing data and model heterogeneity among clients becomes a crucial problem, which poses a unique challenge that must be overcome: How can every client's local model learn generalizable representation in a decentralized manner? To address this challenge, we propose a novel Decentralized FL technique by introducing Synthetic Anchors, dubbed as DeSA. Based on the theory of domain adaptation and Knowledge Distillation (KD), we theoretically and empirically show that synthesizing global anchors based on raw data distribution facilitates mutual knowledge transfer. We further design two effective regularization terms for local training: 1) REG loss that regularizes the distribution of the client's latent embedding with the anchors and 2) KD loss that enables clients to learn from others. Through extensive experiments on diverse client data distributions, we showcase the effectiveness of DeSA in enhancing both inter- and intra-domain accuracy of each client.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 視覚的位置認識のための登録支援アグリゲーション

Register assisted aggregation for Visual Place Recognition ( http://arxiv.org/abs/2405.11526v1 )

ライセンス: Link先を確認
Xuan Yu, Zhenyong Fu, (参考訳) 視覚的場所認識(VPR)とは、コンピュータビジョンを用いて現在のクエリ画像の位置を認識する過程を指す。 検索用クエリ画像とデータベース画像の間に季節,照明,時間的間隔による出現の著しい変化により,これらの差は位置認識の困難さを増す。 従来の方法では、空、道路、車両などの役に立たない特徴を破棄する一方で、認識精度(建物、木など)を改善するために制御されていない特徴を破棄することもあった。 これらの有用な特徴を保存するために,この問題に対処する新しい特徴集約手法を提案する。 具体的には,識別位置情報を含むグローバル・ローカルな特徴を得るため,モデルの学習を支援するために,元の画像トークンの上にいくつかのレジスタを追加した。 再配置後、これらのレジスタは破棄された。 実験の結果、これらのレジスタは、元の画像表現と、最先端の手法とを驚くほど分離していることがわかった。

Visual Place Recognition (VPR) refers to the process of using computer vision to recognize the position of the current query image. Due to the significant changes in appearance caused by season, lighting, and time spans between query images and database images for retrieval, these differences increase the difficulty of place recognition. Previous methods often discarded useless features (such as sky, road, vehicles) while uncontrolled discarding features that help improve recognition accuracy (such as buildings, trees). To preserve these useful features, we propose a new feature aggregation method to address this issue. Specifically, in order to obtain global and local features that contain discriminative place information, we added some registers on top of the original image tokens to assist in model training. After reallocating attention weights, these registers were discarded. The experimental results show that these registers surprisingly separate unstable features from the original image representation and outperform state-of-the-art methods.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# マイクロサービスのためのデータ管理システムのベンチマーク

Benchmarking Data Management Systems for Microservices ( http://arxiv.org/abs/2405.11529v1 )

ライセンス: Link先を確認
Rodrigo Laigner, Yongluan Zhou, (参考訳) マイクロサービスアーキテクチャは、大規模なデータ集約型アプリケーションをデプロイするための一般的な選択肢である。 このアーキテクチャスタイルにより、マイクロサービスの実践者は、疎結合、障害競合、ワークロード分離、高可用性、スケーラビリティ、独立スキーマの進化に関連する要件を達成できる。 業界はマイクロサービスを10年以上採用してきたが、既存のマイクロサービスベンチマークには、分散トランザクション処理、一貫性のあるデータクエリとレプリケーション、イベント処理、データ整合性制約の適用など、実際に観察される重要なデータ管理上の課題が欠如している。 このギャップは、データ集約型マイクロサービスの複雑な性質を取り入れた、新たなデータシステムの開発を妨げます。 この講演では、現実世界のマイクロサービスに固有のコアデータ管理要件を取り入れた、新たなベンチマークであるOnline Marketplaceの設計の経験について紹介します。 最先端のデータプラットフォームでベンチマークを実装することで、さまざまな異種コンポーネントを組み立てて要件を実現する上で、実践者が直面する苦痛を経験します。 評価では,マイクロサービス実践者が求めている重要な特性を実験することで,新たなデータ管理システムの設計を阻害することができる。

Microservice architectures are a popular choice for deploying large-scale data-intensive applications. This architectural style allows microservice practitioners to achieve requirements related to loose coupling, fault contention, workload isolation, higher data availability, scalability, and independent schema evolution. Although the industry has been employing microservices for over a decade, existing microservice benchmarks lack essential data management challenges observed in practice, including distributed transaction processing, consistent data querying and replication, event processing, and data integrity constraint enforcement. This gap jeopardizes the development of novel data systems that embrace the complex nature of data-intensive microservices. In this talk, we share our experience in designing Online Marketplace, a novel benchmark that embraces core data management requirements intrinsic to real-world microservices. By implementing the benchmark in state-of-the-art data platforms, we experience the pain practitioners face in assembling several heterogeneous components to realize their requirements. Our evaluation demonstrates Online Marketplace allows experimenting key properties sought by microservice practitioners, thus fomenting the design of novel data management systems.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 専門知識の融合によるより一般化されたエキスパートの学習

Learning More Generalized Experts by Merging Experts in Mixture-of-Experts ( http://arxiv.org/abs/2405.11530v1 )

ライセンス: Link先を確認
Sejik Park, (参考訳) 共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを観察する。 このことは、共有する機能の学習が深層学習の課題を生じさせる、と仮定する。 この問題に対処するために、各専門家の使用頻度を追跡し、最も頻繁に選択された2人の専門家をマージする。 次に、専門家の組み合わせを使って、最も頻度の低い専門家を更新します。 このアプローチは、その後のルータのエキスパート選択の学習と組み合わせて、最も頻繁に選択された専門家が同じ機能を異なる方法で学習したかどうかをモデルが判断することを可能にする。 もしそれがあれば、統合された専門家はより一般的な機能を学ぶためにさらに訓練することができる。 その結果,本アルゴリズムは伝達学習を強化し,多領域タスクインクリメンタル学習に適用した場合の破滅的な忘れを緩和する。

We observe that incorporating a shared layer in a mixture-of-experts can lead to performance degradation. This leads us to hypothesize that learning shared features poses challenges in deep learning, potentially caused by the same feature being learned as various different features. To address this issue, we track each expert's usage frequency and merge the two most frequently selected experts. We then update the least frequently selected expert using the combination of experts. This approach, combined with the subsequent learning of the router's expert selection, allows the model to determine if the most frequently selected experts have learned the same feature differently. If they have, the combined expert can be further trained to learn a more general feature. Consequently, our algorithm enhances transfer learning and mitigates catastrophic forgetting when applied to multi-domain task incremental learning.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# レコメンデーションのための知識グラフプルーニング

Knowledge Graph Pruning for Recommendation ( http://arxiv.org/abs/2405.11531v1 )

ライセンス: Link先を確認
Fake Lin, Xi Zhu, Ziwei Zhao, Deqiang Huang, Yu Yu, Xueying Li, Tong Xu, Enhong Chen, (参考訳) 近年,知識グラフに基づくレコメンデーションシステム(KGRS)の興隆が見られ,ユーザ,アイテム,エンティティの表現を目覚ましい改善を伴う構造的知識によって強化している。 それでも、その計算コストは、研究者がより洗練されたモデルを探索することを妨げている。 学習効率のボトルネックは知識グラフから生じており、知識爆発のよく知られた問題に悩まされている。 近年, 膨らませたKGを要約法によりスリム化しようとする研究もある。 しかし、これらの要約されたノードは協調的な信号を無視し、知識グラフのノードが現実世界の実体の象徴的な抽象を表現しているという事実から逸脱する可能性がある。 そこで本稿では,KGTrimmerという新しい手法を提案し,性能劣化を最小限に抑えつつ,有意なノードを除去する。 具体的には、両視点から重要な評価器を設計する。 集合的な視点では,多くのユーザを惹きつければ,ノードが重要と考えられるような,豊富な協調的な信号に基づいてコミュニティのコンセンサスを抽出することで,集合的知性の概念を取り入れる。 全体論的な観点から、我々はグローバルマスクを学習し、それらの特性や全体的な人気から価値のないノードを識別する。 次に、エンド・ツー・エンドの重要度を意識したグラフニューラルネットワークを構築し、フィルタされた知識を注入し、貴重なユーザ・イテム協調信号の蒸留を強化する。 最終的に、我々は、フォローアップレコメンデーションタスクを容易にするために、軽量で安定で堅牢な特性を持つプルーンドナレッジグラフを生成します。 KGTrimmerの有効性と一般化能力を証明するために、3つの公開データセットで大規模な実験が行われた。

Recent years have witnessed the prosperity of knowledge graph based recommendation system (KGRS), which enriches the representation of users, items, and entities by structural knowledge with striking improvement. Nevertheless, its unaffordable computational cost still limits researchers from exploring more sophisticated models. We observe that the bottleneck for training efficiency arises from the knowledge graph, which is plagued by the well-known issue of knowledge explosion. Recently, some works have attempted to slim the inflated KG via summarization techniques. However, these summarized nodes may ignore the collaborative signals and deviate from the facts that nodes in knowledge graph represent symbolic abstractions of entities from the real-world. To this end, in this paper, we propose a novel approach called KGTrimmer for knowledge graph pruning tailored for recommendation, to remove the unessential nodes while minimizing performance degradation. Specifically, we design an importance evaluator from a dual-view perspective. For the collective view, we embrace the idea of collective intelligence by extracting community consensus based on abundant collaborative signals, i.e. nodes are considered important if they attract attention of numerous users. For the holistic view, we learn a global mask to identify the valueless nodes from their inherent properties or overall popularity. Next, we build an end-to-end importance-aware graph neural network, which injects filtered knowledge to enhance the distillation of valuable user-item collaborative signals. Ultimately, we generate a pruned knowledge graph with lightweight, stable, and robust properties to facilitate the following-up recommendation task. Extensive experiments are conducted on three publicly available datasets to prove the effectiveness and generalization ability of KGTrimmer.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 階層的選択分類

Hierarchical Selective Classification ( http://arxiv.org/abs/2405.11533v1 )

ライセンス: Link先を確認
Shani Goren, Ido Galil, Ran El-Yaniv, (参考訳) リスクに敏感なタスクにディープニューラルネットワークをデプロイするには、不確実性推定メカニズムが必要である。 本稿では,階層型選択分類を導入し,階層型選択分類を階層型に拡張する。 提案手法はクラス関係の固有構造を利用して,不確実性に直面した場合の予測の特異性を低減する。 本稿では,まず階層的リスクとカバレッジを定式化し,階層的リスクカバレッジ曲線を導入する。 次に、階層的選択分類のためのアルゴリズム("推論規則"と呼ぶ)を開発し、高い確率で目標精度の制約を保証する効率的なアルゴリズムを提案する。 最後に,1000以上のImageNet分類器について広範な実証的研究を行い,CLIP,ImageNet21kの事前訓練,知識蒸留などにより階層的選択性能が向上することを明らかにする。

Deploying deep neural networks for risk-sensitive tasks necessitates an uncertainty estimation mechanism. This paper introduces hierarchical selective classification, extending selective classification to a hierarchical setting. Our approach leverages the inherent structure of class relationships, enabling models to reduce the specificity of their predictions when faced with uncertainty. In this paper, we first formalize hierarchical risk and coverage, and introduce hierarchical risk-coverage curves. Next, we develop algorithms for hierarchical selective classification (which we refer to as "inference rules"), and propose an efficient algorithm that guarantees a target accuracy constraint with high probability. Lastly, we conduct extensive empirical studies on over a thousand ImageNet classifiers, revealing that training regimes such as CLIP, pretraining on ImageNet21k and knowledge distillation boost hierarchical selective performance.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# RobMOT:LiDARポイントクラウド上の観測ノイズと状態推定ドリフトによるロバスト3次元多物体追跡

RobMOT: Robust 3D Multi-Object Tracking by Observational Noise and State Estimation Drift Mitigation on LiDAR PointCloud ( http://arxiv.org/abs/2405.11536v1 )

ライセンス: Link先を確認
Mohamed Nagy, Naoufel Werghi, Bilal Hassan, Jorge Dias, Majid Khonji, (参考訳) この研究は、現在最先端の3Dマルチオブジェクトトラッキング(MOT)手法における継承された制限に対処する。 さらに,適切な軌道正当性検証がなければ,ゴーストトラックの蓄積が生じる。 これらの問題に対処するために、私たちは2倍のイノベーションを導入します。 まず, 軌道方向のドリフトノイズの低減を図ったカルマンフィルタの高精細化を提案し, 閉塞物体のより堅牢な状態推定を行う。 第2に,複数段階の観測ゲーティングプロセスと合わせて,正当性とゴーストのトラックを識別する新しいオンライントラック妥当性機構を提案する。 この機構はゴーストトラックを最大80\%削減し、HOTAを7\%改善する。 そこで,オンライン3DMOTフレームワークであるRobMOTを提案する。このフレームワークは,MOTAの最大3.28倍,HOTAの2.36倍の差を持つ様々な検出器にわたって,ディープラーニングアプローチを含む最先端の最先端手法よりも優れた性能を示す。 RobMOTは、長いオクルージョンや遠い物体の追跡といった困難な条件下では優れており、処理レイテンシが最大で59\%向上している。

This work addresses the inherited limitations in the current state-of-the-art 3D multi-object tracking (MOT) methods that follow the tracking-by-detection paradigm, notably trajectory estimation drift for long-occluded objects in LiDAR point cloud streams acquired by autonomous cars. In addition, the absence of adequate track legitimacy verification results in ghost track accumulation. To tackle these issues, we introduce a two-fold innovation. Firstly, we propose refinement in Kalman filter that enhances trajectory drift noise mitigation, resulting in more robust state estimation for occluded objects. Secondly, we propose a novel online track validity mechanism to distinguish between legitimate and ghost tracks combined with a multi-stage observational gating process for incoming observations. This mechanism substantially reduces ghost tracks by up to 80\% and improves HOTA by 7\%. Accordingly, we propose an online 3D MOT framework, RobMOT, that demonstrates superior performance over the top-performing state-of-the-art methods, including deep learning approaches, across various detectors with up to 3.28\% margin in MOTA and 2.36\% in HOTA. RobMOT excels under challenging conditions, such as prolonged occlusions and the tracking of distant objects, with up to 59\% enhancement in processing latency.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# VR-GPT:インテリジェント仮想現実アプリケーションのためのビジュアル言語モデル

VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications ( http://arxiv.org/abs/2405.11537v1 )

ライセンス: Link先を確認
Mikhail Konenkov, Artem Lykov, Daria Trinitatova, Dzmitry Tsetserukou, (参考訳) 没入型バーチャルリアリティアプリケーションの出現は、さまざまな領域を変えてきたが、Visual Language Modelsのような先進的な人工知能技術との統合はまだ検討されていない。 本研究は,VR環境におけるVLMを活用したユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。 本システムは,Unityエンジンとカスタム開発VLMを活用することで,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム,直感的なユーザインタラクションを実現する。 音声・テキスト・テキスト・音声技術の導入により、ユーザとVLM間のシームレスなコミュニケーションが可能となり、複雑なタスクを効果的に導くことができる。 予備実験の結果, VLMの使用は, 作業完了時間を短縮するだけでなく, 従来のVRインタラクション手法と比較して, ユーザの快適さやタスクエンゲージメントを向上させることが示唆された。

The advent of immersive Virtual Reality applications has transformed various domains, yet their integration with advanced artificial intelligence technologies like Visual Language Models remains underexplored. This study introduces a pioneering approach utilizing VLMs within VR environments to enhance user interaction and task efficiency. Leveraging the Unity engine and a custom-developed VLM, our system facilitates real-time, intuitive user interactions through natural language processing, without relying on visual text instructions. The incorporation of speech-to-text and text-to-speech technologies allows for seamless communication between the user and the VLM, enabling the system to guide users through complex tasks effectively. Preliminary experimental results indicate that utilizing VLMs not only reduces task completion times but also improves user comfort and task engagement compared to traditional VR interaction methods.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# FourierからNeural ODEへ:複雑なシステムのモデリングのためのフローマッチング

From Fourier to Neural ODEs: Flow matching for modeling complex systems ( http://arxiv.org/abs/2405.11542v1 )

ライセンス: Link先を確認
Xin Li, Jingdong Zhang, Qunxi Zhu, Chengli Zhao, Xue Zhang, Xiaojun Duan, Wei Lin, (参考訳) 標準的なニューラル常微分方程式(NODE)を用いた複雑なシステムのモデリングは、高い計算コストや局所最適性への感受性など、いくつかの重要な課題に直面している。 これらの課題に対処するために、フーリエ解析に基づいてターゲットベクトル場を直接マッチングすることにより、効果的にNODEを訓練するFourier NODEs (FNODEs) と呼ばれるシミュレーションフリーフレームワークを提案する。 具体的には、フーリエ解析を用いて、ノイズの多い観測データから時間的および潜在的高次空間勾配を推定する。 次に、推定空間勾配をニューラルネットワークへの追加入力として組み込む。 さらに、推定時間勾配をニューラルネットワークの出力の最適化目的として利用する。 その後、トレーニングされたニューラルネットワークは、計算グラフに参加せずにODEソルバを介してより多くのデータポイントを生成し、フーリエ解析に基づくより正確な勾配推定を容易にする。 これら2つのステップは肯定的なフィードバックループを形成し、フレームワーク内で正確な動的モデリングを可能にします。 その結果,本手法は,トレーニング時間,動的予測,堅牢性の観点から,最先端の手法よりも優れていた。 最後に、複数の代表的な複雑なシステムを用いて、フレームワークの優れた性能を実証する。

Modeling complex systems using standard neural ordinary differential equations (NODEs) often faces some essential challenges, including high computational costs and susceptibility to local optima. To address these challenges, we propose a simulation-free framework, called Fourier NODEs (FNODEs), that effectively trains NODEs by directly matching the target vector field based on Fourier analysis. Specifically, we employ the Fourier analysis to estimate temporal and potential high-order spatial gradients from noisy observational data. We then incorporate the estimated spatial gradients as additional inputs to a neural network. Furthermore, we utilize the estimated temporal gradient as the optimization objective for the output of the neural network. Later, the trained neural network generates more data points through an ODE solver without participating in the computational graph, facilitating more accurate estimations of gradients based on Fourier analysis. These two steps form a positive feedback loop, enabling accurate dynamics modeling in our framework. Consequently, our approach outperforms state-of-the-art methods in terms of training time, dynamics prediction, and robustness. Finally, we demonstrate the superior performance of our framework using a number of representative complex systems.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# ベイズ誤差によるニューラルネットワークのロバスト認証精度

Certified Robust Accuracy of Neural Networks Are Bounded due to Bayes Errors ( http://arxiv.org/abs/2405.11547v1 )

ライセンス: Link先を確認
Ruihan Zhang, Jun Sun, (参考訳) 敵対的な例は、ニューラルネットワーク上に構築された多くのクリティカルシステムにセキュリティ上の脅威をもたらす。 認定トレーニングは堅牢性を改善するが、精度も著しく低下する。 この問題に対処するための様々な提案にもかかわらず、かなりの精度の低下が残っている。 さらに重要なことは、正確性を維持しながら堅牢性を達成するための一定の基本的限界があるかどうかである。 本研究ではベイズ誤差に基づく新しい視点を提供する。 ベイズ誤差をロバスト性解析に適用することにより、データ分布の不確実性を考慮した認証されたロバスト精度の限界について検討する。 まず,変化したデータ分布におけるベイズ誤差の変化によるロバスト性追求の精度が必然的に低下することを示す。 その後、個々のクラスとその境界の分布を考慮し、証明された堅牢な精度の上限を確立する。 我々の理論結果は実世界のデータセットで実証的に評価され、CIFAR10の既存の認定トレーニング結果である‘emph{e g }’の限られた成功と一致していることが示され、分析結果は67.49\%の上限に達し、一方既存の手法では2017年の53.89\%から2023年の62.84\%にしか増加できない。

Adversarial examples pose a security threat to many critical systems built on neural networks. While certified training improves robustness, it also decreases accuracy noticeably. Despite various proposals for addressing this issue, the significant accuracy drop remains. More importantly, it is not clear whether there is a certain fundamental limit on achieving robustness whilst maintaining accuracy. In this work, we offer a novel perspective based on Bayes errors. By adopting Bayes error to robustness analysis, we investigate the limit of certified robust accuracy, taking into account data distribution uncertainties. We first show that the accuracy inevitably decreases in the pursuit of robustness due to changed Bayes error in the altered data distribution. Subsequently, we establish an upper bound for certified robust accuracy, considering the distribution of individual classes and their boundaries. Our theoretical results are empirically evaluated on real-world datasets and are shown to be consistent with the limited success of existing certified training results, \emph{e.g.}, for CIFAR10, our analysis results in an upper bound (of certified robust accuracy) of 67.49\%, meanwhile existing approaches are only able to increase it from 53.89\% in 2017 to 62.84\% in 2023.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 因果発見のための適応型オンライン実験設計

Adaptive Online Experimental Design for Causal Discovery ( http://arxiv.org/abs/2405.11548v1 )

ライセンス: Link先を確認
Muhammad Qasim Elahi, Lai Wei, Murat Kocaoglu, Mahsa Ghasemi, (参考訳) 因果発見は、観察データ、介入データ、またはそれらの組み合わせを利用して因果グラフに符号化された因果関係を明らかにすることを目的としている。 既存の因果発見法の大部分は、無限の介入データを想定して開発されている。 我々は、データ介入効率に重点を置き、オンライン学習の観点から因果発見を形式化し、バンドイット問題における純粋な探索から着想を得た。 グラフのすべてのエッジを少なくとも一度は切断する介入からなるグラフ分離システムは、最悪の場合であっても無限の介入データが利用できる場合に因果グラフを学習するのに十分である。 本稿では,グラフ分離システムからの介入をアロケーションマッチングにより適応的に選択し,サンプリング履歴に基づいて因果グラフを学習するトラック・アンド・ストップ因果探索アルゴリズムを提案する。 任意の信頼度が与えられた場合、アルゴリズムは終了条件を決定し、それを満たすまで実行させる。 本稿では,提案アルゴリズムを解析し,必要な介入サンプルの期待数に基づいて問題依存上界を確立する。 提案アルゴリズムは,様々なランダムに生成した因果グラフのシミュレーションにおいて,既存の手法よりも優れている。 学習した因果グラフと地上の真理の間の構造的ハミング距離(SHD)によって測定され、試料は著しく少ない。

Causal discovery aims to uncover cause-and-effect relationships encoded in causal graphs by leveraging observational, interventional data, or their combination. The majority of existing causal discovery methods are developed assuming infinite interventional data. We focus on data interventional efficiency and formalize causal discovery from the perspective of online learning, inspired by pure exploration in bandit problems. A graph separating system, consisting of interventions that cut every edge of the graph at least once, is sufficient for learning causal graphs when infinite interventional data is available, even in the worst case. We propose a track-and-stop causal discovery algorithm that adaptively selects interventions from the graph separating system via allocation matching and learns the causal graph based on sampling history. Given any desired confidence value, the algorithm determines a termination condition and runs until it is met. We analyze the algorithm to establish a problem-dependent upper bound on the expected number of required interventional samples. Our proposed algorithm outperforms existing methods in simulations across various randomly generated causal graphs. It achieves higher accuracy, measured by the structural hamming distance (SHD) between the learned causal graph and the ground truth, with significantly fewer samples.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# 意味的特徴に基づく見えないバックドア攻撃

An Invisible Backdoor Attack Based On Semantic Feature ( http://arxiv.org/abs/2405.11551v1 )

ライセンス: Link先を確認
Yangming Chen, (参考訳) 過去数年間、バックドア攻撃はディープニューラルネットワーク(DNN)モデルに深刻な脅威を与えてきた。 これらの攻撃は、ディープラーニングパイプラインのほぼすべての段階で起こりうる。 攻撃されたモデルは、通常、良性サンプルで振る舞うが、トリガーを含むサンプルに対して間違った予測を行う。 しかし、既存の攻撃のほとんどは目に見えるパターン(パッチや画像変換など)をトリガーとして使用しており、人間の検査に弱い。 本稿では,新たなバックドア攻撃を提案する。 具体的には、まず、訓練済みの被害者モデルを用いて、クリーンな画像から低レベル、高レベルな意味的特徴を抽出し、チャネルの注意に基づく高レベルな特徴に関連するトリガーパターンを生成する。 そして、そのトリガーに基づいて有毒画像を生成し、特徴損失を生じさせることなく低レベルの意味特徴を抽出する。 3つの標準データセットにわたる3つの画像分類DNNに対する攻撃を評価する。 その結果,バックドア防御に対する堅牢性を保ちながら高い攻撃成功率を達成できた。 さらに,攻撃戦略のステルス性を強調するため,画像類似性実験を実施している。

Backdoor attacks have severely threatened deep neural network (DNN) models in the past several years. These attacks can occur in almost every stage of the deep learning pipeline. Although the attacked model behaves normally on benign samples, it makes wrong predictions for samples containing triggers. However, most existing attacks use visible patterns (e.g., a patch or image transformations) as triggers, which are vulnerable to human inspection. In this paper, we propose a novel backdoor attack, making imperceptible changes. Concretely, our attack first utilizes the pre-trained victim model to extract low-level and high-level semantic features from clean images and generates trigger pattern associated with high-level features based on channel attention. Then, the encoder model generates poisoned images based on the trigger and extracted low-level semantic features without causing noticeable feature loss. We evaluate our attack on three prominent image classification DNN across three standard datasets. The results demonstrate that our attack achieves high attack success rates while maintaining robustness against backdoor defenses. Furthermore, we conduct extensive image similarity experiments to emphasize the stealthiness of our attack strategy.
翻訳日:2024-05-21 15:22:21 公開日:2024-05-19
# SemEval-2024 Task 9: Few-shot prompting GPT-3.5 for Unconventional Reasoning (英語)

DaVinci at SemEval-2024 Task 9: Few-shot prompting GPT-3.5 for Unconventional Reasoning ( http://arxiv.org/abs/2405.11559v1 )

ライセンス: Link先を確認
Suyash Vardhan Mathur, Akshett Rai Jindal, Manish Shrivastava, (参考訳) 垂直思考に関するNLPの分野では、主に論理的思考を含む重要な研究がなされているが、非伝統的な視点から問題を考察し、既存の概念や概念を否定する側面的思考への取り組みはほとんど行われていない。 この方向に向かって、SemEval 2024はBRAINTEASERのタスクを導入している。これは、従来の常識的推論と制約に反する2つのタイプの質問であるSentence PuzzlesとWord Puzzlesだ。 本稿では,GPT-3.5における小文字プロンプトを用いた2種類の質問に対処し,両者の性質の違いについて考察する。 弊社のプロンプト戦略は、Sentence Puzzleのリーダーボードで26位、Word Puzzleのタスクで15位だった。

While significant work has been done in the field of NLP on vertical thinking, which involves primarily logical thinking, little work has been done towards lateral thinking, which involves looking at problems from an unconventional perspective and defying existing conceptions and notions. Towards this direction, SemEval 2024 introduces the task of BRAINTEASER, which involves two types of questions -- Sentence Puzzles and Word Puzzles that defy conventional common-sense reasoning and constraints. In this paper, we tackle both types of questions using few-shot prompting on GPT-3.5 and gain insights regarding the difference in the nature of the two types. Our prompting strategy placed us 26th on the leaderboard for the Sentence Puzzle and 15th on the Word Puzzle task.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# CRF360D:球状完全連結CRFによる単分子360度深度推定

CRF360D: Monocular 360 Depth Estimation via Spherical Fully-Connected CRFs ( http://arxiv.org/abs/2405.11564v1 )

ライセンス: Link先を確認
Zidong Cao, Lin Wang, (参考訳) 等角射影(ERP)の固有の歪みのため、単眼の360度深度推定は困難である。 球面隣接点は、特に極域においてERP平面に投影された後に分離される。 この問題に対処するため、近年の手法は接領域における球面近傍を計算する。 しかし、接パッチと球面は1つの共通点しか持たないため、これらの手法は共通点の周りに隣接する球面関係を構成する。 本稿では,球状完全連結CRF(SF-CRF)を提案する。 まず、通常の窓でERP画像を均等に分割し、赤道の窓は極の窓よりも広い球面の隣人を含む。 球面関係を改善するため、SF-CRFには2つの重要な要素がある。 まず,SWT(Spherical Window Transform)モジュールを提案する。 このモジュールは、赤道窓の球面関係を他のすべての窓に再現することを目的としており、球面の回転不変性を活用している。 注目すべきは、変換プロセスが非常に効率的で、CPU上で0.038秒の512X1024 ERPですべてのウィンドウの変換を完了していることだ。 第2に、局所的な詳細を格納するだけでなく、グローバルな構造をキャプチャする、正規なウィンドウと変換されたウィンドウの関係を容易にするためのPlanar-Spherical Interaction (PSI) モジュールを提案する。 SF-CRFブロックをベースとしたデコーダの構築により,多様なデータセットにまたがる最先端性能を実現する新しい360度深度推定フレームワークであるCRF360Dを提案する。 私たちのCRF360Dは、異なる視点で訓練されたバックボーン(例えば、EfficientNet)と互換性があり、エンコーダとして機能します。

Monocular 360 depth estimation is challenging due to the inherent distortion of the equirectangular projection (ERP). This distortion causes a problem: spherical adjacent points are separated after being projected to the ERP plane, particularly in the polar regions. To tackle this problem, recent methods calculate the spherical neighbors in the tangent domain. However, as the tangent patch and sphere only have one common point, these methods construct neighboring spherical relationships around the common point. In this paper, we propose spherical fully-connected CRFs (SF-CRFs). We begin by evenly partitioning an ERP image with regular windows, where windows at the equator involve broader spherical neighbors than those at the poles. To improve the spherical relationships, our SF-CRFs enjoy two key components. Firstly, to involve sufficient spherical neighbors, we propose a Spherical Window Transform (SWT) module. This module aims to replicate the equator window's spherical relationships to all other windows, leveraging the rotational invariance of the sphere. Remarkably, the transformation process is highly efficient, completing the transformation of all windows in a 512X1024 ERP with 0.038 seconds on CPU. Secondly, we propose a Planar-Spherical Interaction (PSI) module to facilitate the relationships between regular and transformed windows, which not only preserves the local details but also captures global structures. By building a decoder based on the SF-CRFs blocks, we propose CRF360D, a novel 360 depth estimation framework that achieves state-of-the-art performance across diverse datasets. Our CRF360D is compatible with different perspective image-trained backbones (e.g., EfficientNet), serving as the encoder.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# 拡散モデルを用いた心血管診断のための不確かさを意識したPTG-2-ECG

Uncertainty-Aware PPG-2-ECG for Enhanced Cardiovascular Diagnosis using Diffusion Models ( http://arxiv.org/abs/2405.11566v1 )

ライセンス: Link先を確認
Omer Belhasin, Idan Kligvasser, George Leifman, Regev Cohen, Erin Rainaldi, Li-Fang Cheng, Nishant Verma, Paul Varghese, Ehud Rivlin, Michael Elad, (参考訳) 心電図(ECG)を用いて心血管系の状態を解析することは、一般的な、非常に効果的なアプローチであり、長年にわたって実践され、完成されてきた。 ECGの検知は非侵襲的であり、比較的容易に取得できるが、何時間も何日もかかるホルターのモニタリングテストは、いまだに面倒だ。 この文脈で考えられる代替手段はフォトプレチスモグラフィ (PPG: Photoplethysmography) である。 PPGは、買収、利便性、コスト効率において明らかな優位性を示すが、ECGはより包括的な情報を提供し、より正確な心臓状態の検出を可能にしている。 これは PPG から ECG への変換が、文献で最近論じられたように、本質的には避けられないレベルの不確実性を伴うことを意味する。 本稿では, PPG-2-ECG変換に対処する新しい手法を提案するとともに, 変換過程から生じる不確実性を考慮して, PPG-2-ECG変換を用いて心血管状態の高次分類を行う。 本稿では,提案手法の数学的正当性について述べるとともに,その性能を最先端のベースライン法と比較した実証的研究を行う。

Analyzing the cardiovascular system condition via Electrocardiography (ECG) is a common and highly effective approach, and it has been practiced and perfected over many decades. ECG sensing is non-invasive and relatively easy to acquire, and yet it is still cumbersome for holter monitoring tests that may span over hours and even days. A possible alternative in this context is Photoplethysmography (PPG): An optically-based signal that measures blood volume fluctuations, as typically sensed by conventional ``wearable devices''. While PPG presents clear advantages in acquisition, convenience, and cost-effectiveness, ECG provides more comprehensive information, allowing for a more precise detection of heart conditions. This implies that a conversion from PPG to ECG, as recently discussed in the literature, inherently involves an unavoidable level of uncertainty. In this paper we introduce a novel methodology for addressing the PPG-2-ECG conversion, and offer an enhanced classification of cardiovascular conditions using the given PPG, all while taking into account the uncertainties arising from the conversion process. We provide a mathematical justification for our proposed computational approach, and present empirical studies demonstrating its superior performance compared to state-of-the-art baseline methods.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# 密度ベース基底集合補正による化学計算の高精度化

Shortcut to Chemically Accurate Quantum Computing via Density-based Basis-set Correction ( http://arxiv.org/abs/2405.11567v1 )

ライセンス: Link先を確認
Diata Traore, Olivier Adjoua, César Feniou, Ioanna-Maria Lygatsika, Yvon Maday, Evgeny Posenitskiy, Kerstin Hammernik, Alberto Peruzzo, Julien Toulouse, Emmanuel Giner, Jean-Philip Piquemal, (参考訳) 量子コンピューティングは、電子構造計算における古典的手法よりも計算上の優位性を約束する。 量子ビット数などの量子資源を最小化しながら化学系の定量的記述にアクセスすることは、現在の量子プロセッサの限られた能力を考えると、重要な課題である。 本稿では, 密度汎関数理論を量子アルゴリズムに統合することにより, 量子計算を化学精度で行うためのショートカットを提案し, 与えられたシステム/ユーザ定義量子ビット予算に特異的に適応する。 このアプローチはベースセット収束を自己整合的に加速し、電子密度、基底状態エネルギー、双極子モーメントのような一階特性を改善する。 古典的な「textit{a reari}」、量子ハードウェアの計算に対するエネルギー補正としても機能する。 この戦略は、GPUアクセラレーションされた状態ベクトルエミュレーションを使用して32キュービットまで評価される。 我々はCBSフルコンフィグレーション-相互作用参照の化学的精度に4つの系(He, Be, H$_2$, LiH)の基底状態エネルギーを収束させ, H$_8$水素鎖までの様々な分子の二重ゼータ品質を超える精度を体系的に向上させる。 また、CBS限界に達するH$_2$とLiHの解離曲線も得られるが、N$_2$三重結合破壊の挑戦的なシミュレーションでは、最小基底セットのコストでほぼ三重ゼータ品質が得られる。 このハイブリッド戦略により、100以上の論理量子ビットを用いたブルートフォース量子シミュレーションを必要とする定量的な結果が得られるので、合理的な計算資源で現実世界の化学を探索する機会が開ける。

Quantum computing promises a computational advantage over classical methods in electronic-structure calculations, with expected applications in drug design and materials science. Accessing a quantitative description of chemical systems while minimizing quantum resources, such as the number of qubits, is an essential challenge given the limited capabilities of current quantum processors. We provide a shortcut towards quantum computations at chemical accuracy by approaching the complete-basis-set limit (CBS) through integrating density-functional theory into quantum algorithms via density-based basis-set corrections coupled to basis-sets crafted on-the-fly and specifically adapted to a given system/user-defined qubit budget. The approach self-consistently accelerates the basis-set convergence, improving electronic densities, ground-state energies, and first-order properties such as dipole moments. It can also serve as a classical, \textit{a posteriori}, energy correction to quantum hardware calculations. The strategy is assessed using GPU-accelerated state-vector emulation up to 32 qubits. We converge the ground-state energies of four systems (He, Be, H$_2$, LiH) within chemical accuracy of the CBS full-configuration-interaction reference, while offering a systematic increase of accuracy beyond a double-zeta quality for various molecules up to the H$_8$ hydrogen chain. We also obtain dissociation curves for H$_2$ and LiH that reach the CBS limit whereas for the challenging simulation of the N$_2$ triple-bond breaking, we achieve a near-triple-zeta quality at the cost of a minimal basis-set. This hybrid strategy allows us to obtain quantitative results that would otherwise require brute-force quantum simulations using far more than 100 logical qubits, thereby opening up opportunities to explore real-world chemistry with reasonable computational resources.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# 量子活性化:歪みをまたいだより良い一般化のための単一点推定から逸脱する

Quantile Activation: departing from single point estimation for better generalization across distortions ( http://arxiv.org/abs/2405.11573v1 )

ライセンス: Link先を確認
Aditya Challa, Sravan Danda, Laurent Najman, Snehanshu Saha, (参考訳) 分類器は本質的には、入力を受け取り、入力のクラスを返却し、基盤となる分布を暗黙的に仮定する関数である。 この記事では、分布をまたいだ一般化を得るためには、この基本概念から離れなければならないと論じる。 具体的には、サンプルのクラスは、分布をまたいだより良い一般化のために、そのコンテキスト分布の点に依存するべきである。 これを実現するにはどうすればいいのか? 鍵となる考え方は、ネットワークの各ニューロンの出力を、そのコンテキスト分布に適応させることである。 本稿では、従来のネットワークの実際の値の代わりに、サンプルの相対的な量子化をその文脈分布で出力する量子化活性化QACTを提案する。 本研究の目的は,いくつかの実験環境において提案される活性化を検証し,従来の手法と比較することである。 そこで本研究では,CIFAR10C,CIFAR100C,MNISTC,TinyImagenetCの歪みに対するロバスト性をテストするために開発されたデータセットを用いて,従来の分類器よりもはるかに高い一般化を実現していることを示す。 この論文は単なる概念実証に過ぎないが、DINOv2ははるかに大きなデータセット上で、はるかに大きなネットワークで訓練されているにもかかわらず、大きな歪みでDINOv2(小)よりも優れているという驚くべき結果が得られた。

A classifier is, in its essence, a function which takes an input and returns the class of the input and implicitly assumes an underlying distribution. We argue in this article that one has to move away from this basic tenet to obtain generalisation across distributions. Specifically, the class of the sample should depend on the points from its context distribution for better generalisation across distributions. How does one achieve this? The key idea is to adapt the outputs of each neuron of the network to its context distribution. We propose quantile activation, QACT, which, in simple terms, outputs the relative quantile of the sample in its context distribution, instead of the actual values in traditional networks. The scope of this article is to validate the proposed activation across several experimental settings, and compare it with conventional techniques. For this, we use the datasets developed to test robustness against distortions CIFAR10C, CIFAR100C, MNISTC, TinyImagenetC, and show that we achieve a significantly higher generalisation across distortions than the conventional classifiers, across different architectures. Although this paper is only a proof of concept, we surprisingly find that this approach outperforms DINOv2(small) at large distortions, even though DINOv2 is trained with a far bigger network on a considerably larger dataset.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# マルチラベル画像分類のためのCLIP駆動型教師なし学習CDULの再現性の検討

Reproducibility Study of CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification ( http://arxiv.org/abs/2405.11574v1 )

ライセンス: Link先を確認
Manan Shah, Yash Bhalgat, (参考訳) 本稿では,CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification (Abdelfattah et al, ICCV 2023)の再現性について述べる。 本報告では,(1)本論文で規定された全メソッドに対して,再現性が高く,よくコメントされ,オープンソースなコード実装を提供する。 2) 擬似ラベルを初期化するためにCLIPモデルを用いた新たな集約戦略の有効性を検証する。 (3) ネットワークパラメータと擬似ラベルを更新するための勾配調整訓練手法の有効性を検証する。 コードはhttps://github.com/cs-mshah/CDULで確認できる。

This report is a reproducibility study of the paper "CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification" (Abdelfattah et al, ICCV 2023). Our report makes the following contributions: (1) We provide a reproducible, well commented and open-sourced code implementation for the entire method specified in the original paper. (2) We try to verify the effectiveness of the novel aggregation strategy which uses the CLIP model to initialize the pseudo labels for the subsequent unsupervised multi-label image classification task. (3) We try to verify the effectiveness of the gradient-alignment training method specified in the original paper, which is used to update the network parameters and pseudo labels. The code can be found at https://github.com/cs-mshah/CDUL
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# SEEP: バックドア攻撃の軽減のための遅延表現検索のためのトレーニングダイナミクス

SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks ( http://arxiv.org/abs/2405.11575v1 )

ライセンス: Link先を確認
Xuanli He, Qiongkai Xu, Jun Wang, Benjamin I. P. Rubinstein, Trevor Cohn, (参考訳) 現代のNLPモデルは、様々なソースから抽出されたパブリックデータセットでトレーニングされることが多く、データ中毒攻撃に対して脆弱である。 これらの攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。 そのような戦術の1つは、特定のトレーニングインスタンスにテキストトリガーとターゲットクラスラベルで毒を盛ることによって達成されるバックドアの注入である。 バックドア攻撃に関連するリスクを軽減すべく、疑わしい毒のサンプルを特定・除去するいくつかの戦略が提案されている。 しかし、これらの戦略は、いくつかの先進的なバックドア攻撃に対して効果的な防御を提供していない。 この障害を治療するために、まず、トレーニング力学を利用して、高い精度で有毒試料を識別し、次いで、リコールを改善し、ほとんどの有毒試料を除去するラベル形成手順を新たに提案する。 近年の先進防衛法と比較して,クリーンテストセットにおける高い分類精度を維持しつつ,バックドア攻撃の成功率を大幅に低減する。

Modern NLP models are often trained on public datasets drawn from diverse sources, rendering them vulnerable to data poisoning attacks. These attacks can manipulate the model's behavior in ways engineered by the attacker. One such tactic involves the implantation of backdoors, achieved by poisoning specific training instances with a textual trigger and a target class label. Several strategies have been proposed to mitigate the risks associated with backdoor attacks by identifying and removing suspected poisoned examples. However, we observe that these strategies fail to offer effective protection against several advanced backdoor attacks. To remedy this deficiency, we propose a novel defensive mechanism that first exploits training dynamics to identify poisoned samples with high precision, followed by a label propagation step to improve recall and thus remove the majority of poisoned instances. Compared with recent advanced defense methods, our method considerably reduces the success rates of several backdoor attacks while maintaining high classification accuracy on clean test sets.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# 大規模言語モデルにおける記憶のマルチパースペクティブ解析

A Multi-Perspective Analysis of Memorization in Large Language Models ( http://arxiv.org/abs/2405.11577v1 )

ライセンス: Link先を確認
Bowen Chen, Namgi Han, Yusuke Miyao, (参考訳) 数十億のパラメータを持つ巨大なコーパスで訓練された大規模言語モデル(LLM)は、様々な分野で前例のない性能を示している。 優れた性能には驚きましたが、研究者たちはこれらのLSMの特別な振る舞いにも気づきました。 これらの行動の1つは記憶であり、LLMはそれらをトレーニングするのと同じ内容を生成することができる。 過去の研究では暗記について論じられていたが、LLMの暗記は、特に暗記の原因とそれらを生成するダイナミックスについての説明を欠いている。 本研究では,様々な視点から記憶を包括的に議論し,議論対象を記憶されたコンテンツだけでなく,記憶されていないコンテンツにも拡張した。 実験により, モデルサイズ, 継続サイズ, 文脈サイズの関係を明らかにすることができた。 さらに,暗記文が暗記文にどのように移行するかを示した。 2) 組込み解析により, 暗記スコアの異なる文の埋め込み空間において, モデルサイズにまたがる分布と復号化のダイナミクスを示した。 n-gram統計解析では, モデルが暗記文や暗記文を生成し始めると, n-gramおよびエントロピー復号力学の解析により境界効果が発見された。 (4) 異なるモデルの暗記を予測するためにトランスフォーマーモデルを訓練し, 文脈による暗記の予測が可能であった。

Large Language Models (LLMs), trained on massive corpora with billions of parameters, show unprecedented performance in various fields. Though surprised by their excellent performances, researchers also noticed some special behaviors of those LLMs. One of those behaviors is memorization, in which LLMs can generate the same content used to train them. Though previous research has discussed memorization, the memorization of LLMs still lacks explanation, especially the cause of memorization and the dynamics of generating them. In this research, we comprehensively discussed memorization from various perspectives and extended the discussion scope to not only just the memorized content but also less and unmemorized content. Through various studies, we found that: (1) Through experiments, we revealed the relation of memorization between model size, continuation size, and context size. Further, we showed how unmemorized sentences transition to memorized sentences. (2) Through embedding analysis, we showed the distribution and decoding dynamics across model size in embedding space for sentences with different memorization scores. The n-gram statistics analysis presents d (3) An analysis over n-gram and entropy decoding dynamics discovered a boundary effect when the model starts to generate memorized sentences or unmemorized sentences. (4)We trained a Transformer model to predict the memorization of different models, showing that it is possible to predict memorizations by context.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# 教育・評価分野におけるプロンプト付き大言語モデルの活用可能性を探る

Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applications ( http://arxiv.org/abs/2405.11579v1 )

ライセンス: Link先を確認
Subhankar Maity, Aniket Deroy, Sudeshna Sarkar, (参考訳) 生成人工知能(AI)の時代、大規模言語モデル(LLM)の融合は、近代教育の分野で革新の先例のない機会を提供する。 我々は、その可能性を明らかにするために、教育・アセスメント応用の文脈におけるLLMの活用を探究する。 本研究は,学校レベルの教科書からオープンエンド質問を生成する上でのプロンプトベースの手法の有効性を検討するとともに,学部レベルの技術教科書からオープンエンド質問を生成する際の効率を評価し,言語に依存しない多段階質問(MCQ)生成にチェーン・オブ・インスパイアされたマルチステージ・プロンプト・アプローチを採用する可能性を検討する。 さらに,低資源インド語ベンガル語を事例として,ベンガル語の文法的誤りを説明するために,LLMを言語学習に駆り立てる能力を評価する。 また,人的資源 (HR) 音声によるインタビューの書き起こしを評価するため, LLM を誘導する可能性についても検討した。 様々な教育課題や領域において,LLMの能力と人間専門家の能力を両立させることで,LLMの教育実践の変革における可能性と限界を明らかにすることを目的としている。

In the era of generative artificial intelligence (AI), the fusion of large language models (LLMs) offers unprecedented opportunities for innovation in the field of modern education. We embark on an exploration of prompted LLMs within the context of educational and assessment applications to uncover their potential. Through a series of carefully crafted research questions, we investigate the effectiveness of prompt-based techniques in generating open-ended questions from school-level textbooks, assess their efficiency in generating open-ended questions from undergraduate-level technical textbooks, and explore the feasibility of employing a chain-of-thought inspired multi-stage prompting approach for language-agnostic multiple-choice question (MCQ) generation. Additionally, we evaluate the ability of prompted LLMs for language learning, exemplified through a case study in the low-resource Indian language Bengali, to explain Bengali grammatical errors. We also evaluate the potential of prompted LLMs to assess human resource (HR) spoken interview transcripts. By juxtaposing the capabilities of LLMs with those of human experts across various educational tasks and domains, our aim is to shed light on the potential and limitations of LLMs in reshaping educational practices.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# ブロックチェーン上の健康データをセキュアに - 異なるプライバシとフェデレーション学習フレームワーク

Securing Health Data on the Blockchain: A Differential Privacy and Federated Learning Framework ( http://arxiv.org/abs/2405.11580v1 )

ライセンス: Link先を確認
Daniel Commey, Sena Hounsinou, Garth V. Crosby, (参考訳) 本研究では,医療分野で使用されているブロックチェーンベースのモノのインターネット(Internet of Things,BIoT)システムのプライバシ向上のためのフレームワークを提案する。 このフレームワークは、患者のプライバシーを保護しながら、分析に健康データを活用するという課題に対処する。 これを達成するために、この研究は差分プライバシー(DP)とフェデレートラーニング(FL)を統合し、IoTノードが収集した機密健康データを保護する。 提案フレームワークは、動的パーソナライズと適応型ノイズ分配戦略を利用して、プライバシとデータユーティリティのバランスをとる。 さらに、ブロックチェーン技術は、モデル更新のセキュアで透明な集約とストレージを保証する。 SVHNデータセットによる実験結果から,提案フレームワークは各種攻撃シナリオに対して強力なプライバシ保証を実現し,健康分析タスクの精度を維持した。 エプシロン値8.0の15ラウンドのフェデレーション学習では、64.50%の精度が得られる。 Ethereum、Ganache、Web3.py、IPFSを利用するブロックチェーン統合は、ラウンド全体の平均トランザクションレイテンシと一貫したガス消費量を示し、提案されたアプローチの実用性と実現可能性を検証する。

This study proposes a framework to enhance privacy in Blockchain-based Internet of Things (BIoT) systems used in the healthcare sector. The framework addresses the challenge of leveraging health data for analytics while protecting patient privacy. To achieve this, the study integrates Differential Privacy (DP) with Federated Learning (FL) to protect sensitive health data collected by IoT nodes. The proposed framework utilizes dynamic personalization and adaptive noise distribution strategies to balance privacy and data utility. Additionally, blockchain technology ensures secure and transparent aggregation and storage of model updates. Experimental results on the SVHN dataset demonstrate that the proposed framework achieves strong privacy guarantees against various attack scenarios while maintaining high accuracy in health analytics tasks. For 15 rounds of federated learning with an epsilon value of 8.0, the model obtains an accuracy of 64.50%. The blockchain integration, utilizing Ethereum, Ganache, Web3.py, and IPFS, exhibits an average transaction latency of around 6 seconds and consistent gas consumption across rounds, validating the practicality and feasibility of the proposed approach.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# DOLLmC: 大規模言語モデルのカスタマイズのためのDevOP

DOLLmC: DevOPs for Large Language model Customization ( http://arxiv.org/abs/2405.11581v1 )

ライセンス: Link先を確認
Panos Fitsilis, Vyron Damasiotis, Vasileios Kyriatzis, Paraskevi Tsoutsa, (参考訳) LLM(Large Language Models)の様々な産業への迅速な統合は、革命的な機会とユニークな課題の両方を提示する。 この研究は、LLMカスタマイズの特定の要求を満たすためにDevOpsプラクティスをどのように適応すべきかを探求する、スケーラブルで効率的なLLMカスタマイズフレームワークを確立することを目的としている。 オントロジ、ナレッジマップ、エンジニアリングをDevOpsパイプラインに統合することで、継続的学習、シームレスなデプロイメント、厳密なバージョン管理を強化する堅牢なフレームワークを提案します。 この手法は、農業分野のためのドメイン固有のチャットボットの開発を通じて実証され、異種データを利用して実行可能な洞察を提供する。 提案手法はDOLLmCと呼ばれ、LCMのカスタマイズの直接的な課題に対処するだけでなく、スケーラビリティと運用効率も促進する。 しかしながら、方法論の主な制限は、広範囲なテスト、検証、異なるドメインにまたがる広範な採用の必要性にある。

The rapid integration of Large Language Models (LLMs) into various industries presents both revolutionary opportunities and unique challenges. This research aims to establish a scalable and efficient framework for LLM customization, exploring how DevOps practices should be adapted to meet the specific demands of LLM customization. By integrating ontologies, knowledge maps, and prompt engineering into the DevOps pipeline, we propose a robust framework that enhances continuous learning, seamless deployment, and rigorous version control of LLMs. This methodology is demonstrated through the development of a domain-specific chatbot for the agricultural sector, utilizing heterogeneous data to deliver actionable insights. The proposed methodology, so called DOLLmC, not only addresses the immediate challenges of LLM customization but also promotes scalability and operational efficiency. However, the methodology's primary limitation lies in the need for extensive testing, validation, and broader adoption across different domains.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# SLAB: 線形注意とプログレッシブ再パラメータ化バッチ正規化を簡略化した効率的な変圧器

SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization ( http://arxiv.org/abs/2405.11582v1 )

ライセンス: Link先を確認
Jialong Guo, Xinghao Chen, Yehui Tang, Yunhe Wang, (参考訳) トランスフォーマーは自然言語とコンピュータビジョンの両方のタスクの基盤となるアーキテクチャとなっている。 しかし、計算コストが高いため、リソース制約のあるデバイスへのデプロイは非常に困難である。 本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。 LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。 しかし、トランスフォーマーでLayerNormをより効率的なBatchNormに置き換えると、しばしばパフォーマンスが低下し、トレーニングが崩壊する。 そこで本研究では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。 さらに,単純化された線形アテンション(SLA)モジュールを提案する。 画像分類および物体検出に関する大規模な実験により,提案手法の有効性が示された。 例えば、私たちのSLAB-Swinは、ImageNet-1K上で16.2$msのレイテンシで8,3.6\%のTop-1精度を得ることができ、これはFlatten-Swinよりも2.4$ms安く、精度は0.1$%の精度である。 また、言語モデリングタスクの手法を評価し、同等のパフォーマンスと低レイテンシを得る。コードはhttps://github.com/xinghaochen/SLABとhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLABで公開されています。

Transformers have become foundational architectures for both natural language and computer vision tasks. However, the high computational cost makes it quite challenging to deploy on resource-constraint devices. This paper investigates the computational bottleneck modules of efficient transformer, i.e., normalization layers and attention modules. LayerNorm is commonly used in transformer architectures but is not computational friendly due to statistic calculation during inference. However, replacing LayerNorm with more efficient BatchNorm in transformer often leads to inferior performance and collapse in training. To address this problem, we propose a novel method named PRepBN to progressively replace LayerNorm with re-parameterized BatchNorm in training. Moreover, we propose a simplified linear attention (SLA) module that is simple yet effective to achieve strong performance. Extensive experiments on image classification as well as object detection demonstrate the effectiveness of our proposed method. For example, our SLAB-Swin obtains $83.6\%$ top-1 accuracy on ImageNet-1K with $16.2$ms latency, which is $2.4$ms less than that of Flatten-Swin with $0.1\%$ higher accuracy. We also evaluated our method for language modeling task and obtain comparable performance and lower latency.Codes are publicly available at https://github.com/xinghaochen/SLAB and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# スティフェル多様体上の分散リトラクションフリー最適化のグローバル収束性

Global Convergence of Decentralized Retraction-Free Optimization on the Stiefel Manifold ( http://arxiv.org/abs/2405.11590v1 )

ライセンス: Link先を確認
Youbang Sun, Shixiang Chen, Alfredo Garcia, Shahin Shahrampour, (参考訳) 多くの古典的および近代的な機械学習アルゴリズムは、直交制約の下で最適化タスクを解く必要がある。 これらのタスクを解くには、計算コストのかかる対応するリーマン多様体上のリトラクションベースの勾配降下更新を計算する必要がある。 最近、Ablinらは、はるかに効率のよい非実現不可能なリトラクションフリーアルゴリズムを提案した。 本稿では,Stiefel多様体上のエージェントネットワーク上の分散非凸最適化タスクについて,リトラクションフリー更新を用いて検討する。 本稿では, DRFGT が ergodic $\mathcal{O}(1/K)$ convergence rate を示すことを示す。 また, DRFGTが計算オーバーヘッドを大幅に低減した最先端リトラクション法と同等に動作することを示す数値実験を行った。

Many classical and modern machine learning algorithms require solving optimization tasks under orthogonal constraints. Solving these tasks often require calculating retraction-based gradient descent updates on the corresponding Riemannian manifold, which can be computationally expensive. Recently Ablin et al. proposed an infeasible retraction-free algorithm, which is significantly more efficient. In this paper, we study the decentralized non-convex optimization task over a network of agents on the Stiefel manifold with retraction-free updates. We propose \textbf{D}ecentralized \textbf{R}etraction-\textbf{F}ree \textbf{G}radient \textbf{T}racking (DRFGT) algorithm, and show that DRFGT exhibits ergodic $\mathcal{O}(1/K)$ convergence rate, the same rate of convergence as the centralized, retraction-based methods. We also provide numerical experiments demonstrating that DRFGT performs on par with the state-of-the-art retraction based methods with substantially reduced computational overhead.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# fMRIデータを用いた脳波予測符号化による言語再構成

Language Reconstruction with Brain Predictive Coding from fMRI Data ( http://arxiv.org/abs/2405.11597v1 )

ライセンス: Link先を確認
Congchi Yin, Ziyi Ye, Piji Li, (参考訳) 最近の多くの研究は、音声の知覚が脳信号から復号化され、その後連続言語として再構成されることを示した。 しかし、脳信号に埋め込まれた意味情報をより効果的に活用して言語再建を導く方法については、神経学的根拠が欠如している。 予測符号化の理論は、人間の脳が自然に複数の時間スケールにまたがる未来の単語表現を継続的に予測していることを示唆している。 これは、脳信号の復号化が予測可能な未来と結びつく可能性を示唆している。 本稿では,言語再構成の文脈における予測符号化理論を探索するため,ニューラルデコーディングと脳の予測を共同でモデル化する新しいモデルであるtextsc{PredFT}を提案する。 言語再構成のためのメインデコードネットワークと予測符号化のためのサイドネットワークで構成されている。 側ネットワークは、マルチヘッド自己認識モジュールを用いて、関連脳領域から脳予測符号化表現を得る。 この表現は、言語モデルの生成プロセスを促進するために、クロスアテンションを持つメインデコードネットワークに融合される。 実験は、fMRIデータセットNarrativesにおける最大の自然言語理解実験である。 \textsc{PredFT} は現在の最先端のデコード性能を実現し、最大 BLEU-1 スコアは 27.8 %$ である。

Many recent studies have shown that the perception of speech can be decoded from brain signals and subsequently reconstructed as continuous language. However, there is a lack of neurological basis for how the semantic information embedded within brain signals can be used more effectively to guide language reconstruction. The theory of predictive coding suggests that human brain naturally engages in continuously predicting future word representations that span multiple timescales. This implies that the decoding of brain signals could potentially be associated with a predictable future. To explore the predictive coding theory within the context of language reconstruction, this paper proposes a novel model \textsc{PredFT} for jointly modeling neural decoding and brain prediction. It consists of a main decoding network for language reconstruction and a side network for predictive coding. The side network obtains brain predictive coding representation from related brain regions of interest with a multi-head self-attention module. This representation is fused into the main decoding network with cross-attention to facilitate the language models' generation process. Experiments are conducted on the largest naturalistic language comprehension fMRI dataset Narratives. \textsc{PredFT} achieves current state-of-the-art decoding performance with a maximum BLEU-1 score of $27.8\%$.
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# Covid-19 CXRスクリーニングのためのAI支援診断:データ収集から臨床検査まで

AI-Assisted Diagnosis for Covid-19 CXR Screening: From Data Collection to Clinical Validation ( http://arxiv.org/abs/2405.11598v1 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Riccardo Renzulli, Marco Grosso, Domenico Basile, Marco Busso, Marco Grangetto, (参考訳) 本稿では,イタリアで実施されたAI(Co.R.S.A.)プロジェクトに基づくコビッド・ラジオグラフィー・システムの主な成果について述べる。 このプロジェクトの目的は、Chest X-ray(CXR)画像からCovid-19肺炎を診断する最先端のAIベースのシステムを開発することである。 この研究の貢献は、公開CORDAデータセットのリリース、Covid-19検出のためのディープラーニングパイプライン、専門家の放射線学者による開発ソリューションの臨床的検証など、多岐にわたる。 提案した検出モデルは、最先端のデバイアスと組み合わせた2段階のアプローチに基づいて、信頼性の高い結果を提供する。 最も重要なことは、放射線科医による診断支援ツールの実際の使用を含み、精度と時間効率の点で実際の利点を評価できることです。 プロジェクトホームページ: https://corsa.di.unito.it/

In this paper, we present the major results from the Covid Radiographic imaging System based on AI (Co.R.S.A.) project, which took place in Italy. This project aims to develop a state-of-the-art AI-based system for diagnosing Covid-19 pneumonia from Chest X-ray (CXR) images. The contributions of this work are manyfold: the release of the public CORDA dataset, a deep learning pipeline for Covid-19 detection, and the clinical validation of the developed solution by expert radiologists. The proposed detection model is based on a two-step approach that, paired with state-of-the-art debiasing, provides reliable results. Most importantly, our investigation includes the actual usage of the diagnosis aid tool by radiologists, allowing us to assess the real benefits in terms of accuracy and time efficiency. Project homepage: https://corsa.di.unito.it/
翻訳日:2024-05-21 15:12:36 公開日:2024-05-19
# クラウドサービス、データ分析、機械学習の技術を統合して、現代的なクラウドベースのインフラに関連するサイバーリスクを減らす方法

How to integrate cloud service, data analytic and machine learning technique to reduce cyber risks associated with the modern cloud based infrastructure ( http://arxiv.org/abs/2405.11601v1 )

ライセンス: Link先を確認
Upakar Bhatta, (参考訳) クラウド技術、機械学習、データ可視化技術の組み合わせにより、ハイブリッドエンタープライズネットワークは大量のデータを保持し、従業員や顧客がこれらのクラウドデータを容易にアクセスできるようにする。 複雑なデータセットの大規模なコレクションは、セキュリティ上の課題に直面している。 クラウドプラットフォームは、セキュリティの脅威に対してより脆弱であり、従来のセキュリティ技術は、クラウドプラットフォームの急激なデータ爆発に対処できない一方で、機械学習によるセキュリティソリューションとデータ可視化技術は、セキュリティの脅威の検出、データ漏洩、ソフトウェア脆弱性の自動検出において重要な役割を担っている。 本研究の目的は、クラウドサービス、機械学習技術、データ可視化アプローチを広く利用し、現代のクラウド基盤インフラストラクチャに関連するサイバーリスクの検出と低減に使用できるクラウドサービス、データ分析、機械学習技術をいかに統合するかを実証することである。 本稿では、機械学習教師付き分類器を用いて、よく知られたUNSW-NB15データセットに基づくモデルの設計を行い、ネットワークトラフィックの可視化にデータ分析技術をどのように統合できるかを実証する。

The combination of cloud technology, machine learning, and data visualization techniques allows hybrid enterprise networks to hold massive volumes of data and provide employees and customers easy access to these cloud data. These massive collections of complex data sets are facing security challenges. While cloud platforms are more vulnerable to security threats and traditional security technologies are unable to cope with the rapid data explosion in cloud platforms, machine learning powered security solutions and data visualization techniques are playing instrumental roles in detecting security threat, data breaches, and automatic finding software vulnerabilities. The purpose of this paper is to present some of the widely used cloud services, machine learning techniques and data visualization approach and demonstrate how to integrate cloud service, data analytic and machine learning techniques that can be used to detect and reduce cyber risks associated with the modern cloud based infrastructure. In this paper I applied the machine learning supervised classifier to design a model based on well-known UNSW-NB15 dataset to predict the network behavior metrics and demonstrated how data analytics techniques can be integrated to visualize network traffics.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# Switched Flow Matching:Singing ODEによる特異点の除去

Switched Flow Matching: Eliminating Singularities via Switching ODEs ( http://arxiv.org/abs/2405.11605v1 )

ライセンス: Link先を確認
Qunxi Zhu, Wei Lin, (参考訳) フローマッチング(FM)のような連続時間生成モデルは、ニューラル常微分方程式(ODE)のシミュレーションなし学習を通じて、ある分布と別の分布の間を移動する確率経路を構築する。 しかし、推論の間、学習したモデルはフローを正確に統合するために複数のニューラルネットワーク評価を必要とすることが多く、結果としてサンプリング速度が遅くなる。 我々は、ソースおよび/またはターゲット分布の固有の(結合した)不均一性、すなわち特異性問題に起因し、ニューラルODEを効果的に訓練する上での課題を提起する。 この問題に対処するために,一様ODEをFMで使用するのに対して,一様ODEを切り替えることにより特異性を排除した,より一般的なフレームワークであるSwitched FM(SFM)を提案する。 重要なことは、理論上、FMはODEの初期値問題の存在と特異性のために2つの単純な分布間では移動できないが、これらの制限はSFMによってうまく取り扱えることである。 直交的な観点から,我々のフレームワークは, 最適輸送などの既存の技術とシームレスに統合し, 流れの直線性をさらに向上し, コストの低減を図り, より効率的なサンプリングプロセスを実現する。 本稿では, 新たに提案したSFMの有効性をいくつかの数値例で示す。

Continuous-time generative models, such as Flow Matching (FM), construct probability paths to transport between one distribution and another through the simulation-free learning of the neural ordinary differential equations (ODEs). During inference, however, the learned model often requires multiple neural network evaluations to accurately integrate the flow, resulting in a slow sampling speed. We attribute the reason to the inherent (joint) heterogeneity of source and/or target distributions, namely the singularity problem, which poses challenges for training the neural ODEs effectively. To address this issue, we propose a more general framework, termed Switched FM (SFM), that eliminates singularities via switching ODEs, as opposed to using a uniform ODE in FM. Importantly, we theoretically show that FM cannot transport between two simple distributions due to the existence and uniqueness of initial value problems of ODEs, while these limitations can be well tackled by SFM. From an orthogonal perspective, our framework can seamlessly integrate with the existing advanced techniques, such as minibatch optimal transport, to further enhance the straightness of the flow, yielding a more efficient sampling process with reduced costs. We demonstrate the effectiveness of the newly proposed SFM through several numerical examples.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# OFHE:離散化TFHE用電気光学加速器

OFHE: An Electro-Optical Accelerator for Discretized TFHE ( http://arxiv.org/abs/2405.11607v1 )

ライセンス: Link先を確認
Mengxin Zheng, Cheng Chu, Qian Lou, Nathan Youngblood, Mo Li, Sajjad Moazeni, Lei Jiang, (参考訳) 本稿では、多ビットメッセージを暗号化し、同型乗算、ルックアップテーブル演算、フルドメイン機能ブートストラップをサポートする、離散化TFHE(DTFHE)演算を処理するための電気光学アクセラレータである「textit{OFHE}」を提案する。 DTFHEは他の完全同型暗号方式よりも効率的で汎用性が高いが、32ビット、64ビット、および128ビットの多項式乗算を必要とする。 既存のTFHEアクセラレータは、限られたデータパス、データパスビット幅再構成の欠如、FFTおよび逆FFT(IFFT)カーネルの処理時の電力不効率により、DTFHE操作をサポートするために容易にアップグレードできない。 以前のTFHEアクセラレータと比較すると、DTFHEの動作遅延を8.7 %改善し、DTFHEの動作スループットを5,7 %、Watt当たりのDTFHEの動作スループットを9,4 %改善することで、これらの課題に対処している。

This paper presents \textit{OFHE}, an electro-optical accelerator designed to process Discretized TFHE (DTFHE) operations, which encrypt multi-bit messages and support homomorphic multiplications, lookup table operations and full-domain functional bootstrappings. While DTFHE is more efficient and versatile than other fully homomorphic encryption schemes, it requires 32-, 64-, and 128-bit polynomial multiplications, which can be time-consuming. Existing TFHE accelerators are not easily upgradable to support DTFHE operations due to limited datapaths, a lack of datapath bit-width reconfigurability, and power inefficiencies when processing FFT and inverse FFT (IFFT) kernels. Compared to prior TFHE accelerators, OFHE addresses these challenges by improving the DTFHE operation latency by 8.7\%, the DTFHE operation throughput by $57\%$, and the DTFHE operation throughput per Watt by $94\%$.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# ユーザーから業界に合わせた完全プライベートな量子コンピューティング

Full private delegated quantum computing tailored from user to industry ( http://arxiv.org/abs/2405.11608v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, Adriano Mauricio Lusso, Edgar Mencia, (参考訳) 本稿では,クライアントに利用可能な計算資源,特定のプライバシ要件,アルゴリズムの種類に応じて,ユーザレベルおよび業界レベルのユースケースに合わせた,プライベートかつセキュアな量子コンピューティングプロトコルとテクニックのセットを提案する。 我々のプロトコルは、暗号化や復号処理に使用される特定のアルゴリズムとは独立しているため、高いレベルで表現される。 さらに,外部サーバによる操作の正しい実行を検証する手法を提案する。

In this paper, we present a set of private and secure delegated quantum computing protocols and techniques tailored to user-level and industry-level use cases, depending on the computational resources available to the client, the specific privacy needs required, and the type of algorithm. Our protocols are presented at a high level as they are independent of the particular algorithm used for such encryption and decryption processes. Additionally, we propose a method to verify the correct execution of operations by the external server.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 情報アクセスのための生成人工知能の社会学的意味

Sociotechnical Implications of Generative Artificial Intelligence for Information Access ( http://arxiv.org/abs/2405.11612v1 )

ライセンス: Link先を確認
Bhaskar Mitra, Henriette Cramer, Olya Gurevich, (参考訳) 信頼できる情報へのロバストなアクセスは、知識生産、公衆衛生教育、民主社会における情報市民の促進といった社会にとって重要な必要性である。 生成的AI技術は、情報にアクセスし、既存の情報検索システムの有効性を改善する新しい方法を可能にするかもしれませんが、私たちはその長期的な社会的意味を理解し、理解し始めています。 本章では、情報アクセスの文脈において、生成AIを採用する際のシステム的結果とリスクについて概説する。 また,評価と緩和の勧告も提供し,今後の研究課題について論じる。

Robust access to trustworthy information is a critical need for society with implications for knowledge production, public health education, and promoting informed citizenry in democratic societies. Generative AI technologies may enable new ways to access information and improve effectiveness of existing information retrieval systems but we are only starting to understand and grapple with their long-term social implications. In this chapter, we present an overview of some of the systemic consequences and risks of employing generative AI in the context of information access. We also provide recommendations for evaluation and mitigation, and discuss challenges for future research.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 知識の対比によるデコーディング:LLMの編集要素への信頼を高める

Decoding by Contrasting Knowledge: Enhancing LLMs' Confidence on Edited Facts ( http://arxiv.org/abs/2405.11613v1 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Lingrui Mei, Yiwei Wang, Pengliang Ji, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)における知識は、急速に時代遅れになる可能性がある。 インコンテキスト編集(ICE)は現在、知識編集(KE)において最も効果的な方法であるが、LCMのブラックボックスモデリングに制約されているため、解釈性に欠ける。 本研究の目的は,トークン単位の分布に対する文脈内知識の影響を分析することで,KEにおけるICEの優れた性能を解明することである。 新たな知識のロジットが著しく向上したにもかかわらず、そのパフォーマンスはいまだに頑健な知識によって妨げられている。 スタブボーン知識(Stubborn knowledge)は、事前訓練中に過剰な信頼を得た事実であり、効果的に編集することが困難である。 この問題に対処し、ICEの性能をさらに向上するために、$\textbf{De}$coding by $\textbf{C}$ontrasting $\textbf{K}$nowledge (DeCK) という新しいアプローチを提案する。 DeCKは、ICEによってガイドされた新しく編集された知識と、未編集のパラメトリックな知識から得られたログを対比することにより、次のトークンの分布を導出する。 我々の実験は、DeCKが編集事実におけるLLMの信頼性を高めることを一貫して示している。 例えば、MQuAKE上でのLLaMA3-8Bインストラクタの性能を最大219%向上させ、スタブボーン知識の編集においてICEを強化する能力を示す。 我々の研究は、LLMの効果的なKE手法と説明可能なKE手法の両方を開発するための道を開いた。 (ソースコードは以下の通り。 $\href{https://github.com/byronBBL/DeCK}{\text{this https URL。 }}$)。

The knowledge within large language models (LLMs) may become outdated quickly. While in-context editing (ICE) is currently the most effective method for knowledge editing (KE), it is constrained by the black-box modeling of LLMs and thus lacks interpretability. Our work aims to elucidate the superior performance of ICE on the KE by analyzing the impacts of in-context new knowledge on token-wise distributions. We observe that despite a significant boost in logits of the new knowledge, the performance of is still hindered by stubborn knowledge. Stubborn knowledge refers to as facts that have gained excessive confidence during pretraining, making it hard to edit effectively. To address this issue and further enhance the performance of ICE, we propose a novel approach termed $\textbf{De}$coding by $\textbf{C}$ontrasting $\textbf{K}$nowledge (DeCK). DeCK derives the distribution of the next token by contrasting the logits obtained from the newly edited knowledge guided by ICE with those from the unedited parametric knowledge. Our experiments consistently demonstrate that DeCK enhances the confidence of LLMs in edited facts. For instance, it improves the performance of LLaMA3-8B-instruct on MQuAKE by up to 219%, demonstrating its capability to strengthen ICE in the editing of stubborn knowledge. Our work paves the way to develop the both effective and accountable KE methods for LLMs. (The source code is available at: $\href{https://github.com/byronBBL/DeCK}{\text{this https URL.}}$ )
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# Nickel and Diming Your GAN: 知識蒸留によるGAN効率向上のためのデュアルメソッドアプローチ

Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation ( http://arxiv.org/abs/2405.11614v1 )

ライセンス: Link先を確認
Sangyeop Yeo, Yoojin Jang, Jaejun Yoo, (参考訳) 本稿では,資源制約された環境におけるGAN(Generative Adversarial Network)を圧縮する上での課題として,DiME(Dis Distribution Matching for Efficient compression)とNICKEL(Network Interactive Compression)の2つの新しい手法を提案する。 DiMEは、効率的な分布マッチングのための埋め込みカーネルとして基礎モデルを採用し、効率的な知識蒸留を促進するために最大平均誤差を活用している。 NICKELは、学生ジェネレータと識別器との通信を強化するインタラクティブ圧縮方式を採用し、バランスよく安定した圧縮プロセスを実現する。 FFHQデータセットによるStyleGAN2アーキテクチャの包括的な評価は、NICKELとDiMEがそれぞれ95.73%と98.92%の圧縮速度で10.45と15.93のFIDスコアを達成し、我々のアプローチの有効性を示している。 本手法は, 圧縮率99.69%でも生成品質を保ち, 従来の最先端性能を大きく上回っている。 これらの知見は,GANの計算要求を大幅に低減する方法論の能力を示すだけでなく,限られたリソースで高品質なGANモデルを配置する方法も示している。 私たちのコードはまもなくリリースされるでしょう。

In this paper, we address the challenge of compressing generative adversarial networks (GANs) for deployment in resource-constrained environments by proposing two novel methodologies: Distribution Matching for Efficient compression (DiME) and Network Interactive Compression via Knowledge Exchange and Learning (NICKEL). DiME employs foundation models as embedding kernels for efficient distribution matching, leveraging maximum mean discrepancy to facilitate effective knowledge distillation. Simultaneously, NICKEL employs an interactive compression method that enhances the communication between the student generator and discriminator, achieving a balanced and stable compression process. Our comprehensive evaluation on the StyleGAN2 architecture with the FFHQ dataset shows the effectiveness of our approach, with NICKEL & DiME achieving FID scores of 10.45 and 15.93 at compression rates of 95.73% and 98.92%, respectively. Remarkably, our methods sustain generative quality even at an extreme compression rate of 99.69%, surpassing the previous state-of-the-art performance by a large margin. These findings not only demonstrate our methodologies' capacity to significantly lower GANs' computational demands but also pave the way for deploying high-quality GAN models in settings with limited resources. Our code will be released soon.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 効率的なRow-wise Attentionを用いた高分解能マルチビュー拡散

Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention ( http://arxiv.org/abs/2405.11616v1 )

ライセンス: Link先を確認
Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo, (参考訳) 本稿では,単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 マルチビュー生成の大幅な進歩にもかかわらず、既存の手法はカメラ前のミスマッチ、非効率性、解像度の低さに悩まされ、結果として画質の悪いマルチビュー画像となる。 具体的には、入力画像は予め定義されたカメラタイプ、例えば焦点距離が一定である視点カメラに従わなければならないと仮定し、仮定が失敗すると歪んだ形状になる。 さらに、彼らが採用しているフルイメージまたは高密度なマルチビューの注目は、画像解像度が増大するにつれて、計算複雑性が指数関数的に爆発的に増加し、非常に高価なトレーニングコストをもたらす。 仮定と現実のギャップを埋めるために、Era3Dはまず拡散型カメラ予測モジュールを提案し、入力画像の焦点長と高さを推定し、形状歪みのない画像を生成する。 さらに,多視点拡散の先駆的先行を強制するために,行ワイドアテンションと呼ばれるシンプルだが効率的なアテンション層が用いられ,効率的なクロスビュー情報融合が実現されている。 その結果、最先端の手法と比較して、Era3Dは最大512*512解像度の高品質なマルチビュー画像を生成し、計算複雑性を12倍に削減した。 総合的な実験により、Era3Dは様々な単一ビューの入力画像から高品質で詳細な3Dメッシュを再構築でき、ベースラインのマルチビュー拡散法よりも大幅に優れていることが示された。

In this paper, we introduce Era3D, a novel multiview diffusion method that generates high-resolution multiview images from a single-view image. Despite significant advancements in multiview generation, existing methods still suffer from camera prior mismatch, inefficacy, and low resolution, resulting in poor-quality multiview images. Specifically, these methods assume that the input images should comply with a predefined camera type, e.g. a perspective camera with a fixed focal length, leading to distorted shapes when the assumption fails. Moreover, the full-image or dense multiview attention they employ leads to an exponential explosion of computational complexity as image resolution increases, resulting in prohibitively expensive training costs. To bridge the gap between assumption and reality, Era3D first proposes a diffusion-based camera prediction module to estimate the focal length and elevation of the input image, which allows our method to generate images without shape distortions. Furthermore, a simple but efficient attention layer, named row-wise attention, is used to enforce epipolar priors in the multiview diffusion, facilitating efficient cross-view information fusion. Consequently, compared with state-of-the-art methods, Era3D generates high-quality multiview images with up to a 512*512 resolution while reducing computation complexity by 12x times. Comprehensive experiments demonstrate that Era3D can reconstruct high-quality and detailed 3D meshes from diverse single-view input images, significantly outperforming baseline multiview diffusion methods.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 極小ラクナリティのポリアディックカントールポテンシャル:超周期一般化カントールポテンシャルの特別な例

Polyadic Cantor potential of minimum lacunarity: Special case of super periodic generalized unified Cantor potential ( http://arxiv.org/abs/2405.11617v1 )

ライセンス: Link先を確認
Mohammad Umar, Mohammad Hasan, Vibhav Narayan Singh, Bhabani Prasad Mandal, (参考訳) フラクタルポテンシャルと非フラクタルポテンシャルをブリッジするために、新しい一般化された統一カントールポテンシャル (GUCP) を提案する。 特に、極小ラクナリティを持つポリアディックカントールポテンシャル(PCP)は、GUCPパラダイムの特定の例である。 超周期ポテンシャル(SPP)形式を用いることで、送信確率$T_{S}(k, N)$の閉形式表現を$q$-Pochhammerシンボルを用いて計算する。 さらに,従来の量子システムと異なり,GUCP系は鋭い伝送共鳴を示すことを示す。 解析により, 進行段階のS$による伝達プロファイルの飽和が明らかになり, 解析的導出による反射確率と波動ベクトル(k$)の顕著なスケーリング関係が確立される。

To bridge the fractal and non-fractal potentials we propose a new generalised version of unified Cantor potential (GUCP), where $\frac{1}{\rho^{\mu+\nu G}}\ \ \ (\mu,\ \nu $ are real numbers) portion of the potential is removed and is characterised by a integer N which represents the potential count at the stage $S=1$. Notably, the polyadic Cantor potential (PCP) with minimal lacunarity is a specific instance within the GUCP paradigm. Employing the super periodic potential (SPP) formalism, we calculate a closed-form expression for transmission probability $T_{S}(k, N)$ using the $q$-Pochhammer symbol. We further show that GUCP system exhibits sharp transmission resonances, differing from traditional quantum systems. Our analysis reveals saturation in the transmission profile with evolving stages $S$ and establishes a significant scaling relationship between reflection probability and wave-vector ($k$) through analytical derivations.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 計算病理学におけるトランスクリプトミクス誘導型スライド表現学習

Transcriptomics-guided Slide Representation Learning in Computational Pathology ( http://arxiv.org/abs/2405.11618v1 )

ライセンス: Link先を確認
Guillaume Jaume, Lukas Oldenburg, Anurag Vaidya, Richard J. Chen, Drew F. K. Williamson, Thomas Peeters, Andrew H. Song, Faisal Mahmood, (参考訳) 自己教師付き学習(SSL)は、小さなヒストロジー画像(例:224x224ピクセル)のパッチ埋め込みを構築するのに成功しているが、これらのモデルをスケールして、ギガピクセル全体スライディング画像(WSI)全体からスライド埋め込みを学ぶことは、依然として困難である。 ここでは、遺伝子発現プロファイルからの補完情報を利用して、マルチモーダル事前学習を用いたスライド表現学習をガイドする。 表現プロファイルは、スライド埋め込みを学習するための強力なタスク非依存の訓練信号を提供すると仮定した組織について、非常に詳細な分子的記述を構成する。 我々のSlide and Expression(S+E)事前学習戦略はTangleと呼ばれ、モダリティ固有のエンコーダを用いており、その出力はコントラスト学習によって整列される。 肝臓 (n=6,597 S+Eペア), 乳房 (n=1,020), 肺 (n=1,012) の3種類の異なる臓器 (Homo sapiens と Rattus Norvegicus) から採取した。 1,265個の乳房WSI,1,946個の肺WSI,4,584個の肝WSIからなる独立した3つのテストデータセットにおいて、Tangleは教師付きおよびSSLベースラインと比較して、極めて優れた数ショット性能を示した。 プロトタイプベースの分類とスライド検索を用いて評価すると、Tangleはすべてのベースラインに対して大幅なパフォーマンス向上を示している。 コードはhttps://github.com/mahmoodlab/TANGLE.comで公開されている。

Self-supervised learning (SSL) has been successful in building patch embeddings of small histology images (e.g., 224x224 pixels), but scaling these models to learn slide embeddings from the entirety of giga-pixel whole-slide images (WSIs) remains challenging. Here, we leverage complementary information from gene expression profiles to guide slide representation learning using multimodal pre-training. Expression profiles constitute highly detailed molecular descriptions of a tissue that we hypothesize offer a strong task-agnostic training signal for learning slide embeddings. Our slide and expression (S+E) pre-training strategy, called Tangle, employs modality-specific encoders, the outputs of which are aligned via contrastive learning. Tangle was pre-trained on samples from three different organs: liver (n=6,597 S+E pairs), breast (n=1,020), and lung (n=1,012) from two different species (Homo sapiens and Rattus norvegicus). Across three independent test datasets consisting of 1,265 breast WSIs, 1,946 lung WSIs, and 4,584 liver WSIs, Tangle shows significantly better few-shot performance compared to supervised and SSL baselines. When assessed using prototype-based classification and slide retrieval, Tangle also shows a substantial performance improvement over all baselines. Code available at https://github.com/mahmoodlab/TANGLE.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# フィッシングメール検出のための新しい解釈可能でロバストなWebベースAIプラットフォーム

Novel Interpretable and Robust Web-based AI Platform for Phishing Email Detection ( http://arxiv.org/abs/2405.11619v1 )

ライセンス: Link先を確認
Abdulla Al-Subaiey, Mohammed Al-Thani, Naser Abdullah Alam, Kaniz Fatema Antora, Amith Khandakar, SM Ashfaq Uz Zaman, (参考訳) フィッシングメールは依然として重大な脅威となり、財政的損失とセキュリティ侵害を引き起こしている。 本研究は、電子メール分類のための高性能機械学習モデルを提案することにより、プロプライエタリなデータセットへの依存や現実世界のアプリケーションの欠如など、既存の研究の限界に対処する。 包括的で最大の公開データセットを利用することで、f1スコアの0.99を達成し、関連するアプリケーションへのデプロイメント用に設計されている。 さらに、ユーザ信頼を高めるために、説明可能なAI(XAI)が統合されている。 本研究は、リアルタイムなWebベースのフィッシングメール検出アプリケーションを提供することにより、フィッシングとの戦いに寄与する、実用的で高精度なソリューションを提供する。

Phishing emails continue to pose a significant threat, causing financial losses and security breaches. This study addresses limitations in existing research, such as reliance on proprietary datasets and lack of real-world application, by proposing a high-performance machine learning model for email classification. Utilizing a comprehensive and largest available public dataset, the model achieves a f1 score of 0.99 and is designed for deployment within relevant applications. Additionally, Explainable AI (XAI) is integrated to enhance user trust. This research offers a practical and highly accurate solution, contributing to the fight against phishing by empowering users with a real-time web-based application for phishing email detection.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 食品産業におけるコンピュータビジョン:事前訓練されたMobileNetV2による高精度・リアルタイム・自動食品認識

Computer Vision in the Food Industry: Accurate, Real-time, and Automatic Food Recognition with Pretrained MobileNetV2 ( http://arxiv.org/abs/2405.11621v1 )

ライセンス: Link先を確認
Shayan Rokhva, Babak Teimourpour, Amir Hossein Soltani, (参考訳) 現代の社会において、人工知能の食品自動認識への応用は、栄養追跡、食品廃棄物の削減、食品生産および消費シナリオにおける生産性の向上にかなりの可能性をもたらす。 コンピュータビジョンやディープラーニングのような現代の技術は、機械が自動的に学習し、それによって自動的な視覚認識を容易にする。 この分野ではいくつかの研究があるが、正確な自動食品認識を実現するという課題は、依然として大きな研究ギャップである。 いくつかのモデルは開発され、実装されているが、高速な性能を維持し、計算コストが低く、高価なハードウェアアクセラレーターへのアクセスも低いため、さらなる探索と研究が必要である。 本研究は,16643画像からなる公共食品11データセット上での食品認識において,効率的かつ高速な事前訓練されたMobileNetV2モデルを用いる。 また、データセット理解、転送学習、データ拡張、正規化、動的学習率、ハイパーパラメータチューニング、さまざまなサイズの画像の考慮など、さまざまな技術を活用して、パフォーマンスと堅牢性を高めている。 これらの技術は、適切なメトリクスの選択、より良いパフォーマンスの達成、過剰適合や精度の変動の回避、モデルの高速化、発見の一般化の促進に役立ち、その研究とその成果を実用的な応用に適用することができる。 より単純な構造を持ち、深層学習領域の深部・密度モデルと比較して訓練可能なパラメータが少ない光モデルを採用するが、短時間で計算可能な精度を達成した。 このことは,本研究の主目的である実践的実装の可能性を強調している。

In contemporary society, the application of artificial intelligence for automatic food recognition offers substantial potential for nutrition tracking, reducing food waste, and enhancing productivity in food production and consumption scenarios. Modern technologies such as Computer Vision and Deep Learning are highly beneficial, enabling machines to learn automatically, thereby facilitating automatic visual recognition. Despite some research in this field, the challenge of achieving accurate automatic food recognition quickly remains a significant research gap. Some models have been developed and implemented, but maintaining high performance swiftly, with low computational cost and low access to expensive hardware accelerators, still needs further exploration and research. This study employs the pretrained MobileNetV2 model, which is efficient and fast, for food recognition on the public Food11 dataset, comprising 16643 images. It also utilizes various techniques such as dataset understanding, transfer learning, data augmentation, regularization, dynamic learning rate, hyperparameter tuning, and consideration of images in different sizes to enhance performance and robustness. These techniques aid in choosing appropriate metrics, achieving better performance, avoiding overfitting and accuracy fluctuations, speeding up the model, and increasing the generalization of findings, making the study and its results applicable to practical applications. Despite employing a light model with a simpler structure and fewer trainable parameters compared to some deep and dense models in the deep learning area, it achieved commendable accuracy in a short time. This underscores the potential for practical implementation, which is the main intention of this study.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 患者の健康記録における臨床ノートとICD符号の連続予測モデル

Continuous Predictive Modeling of Clinical Notes and ICD Codes in Patient Health Records ( http://arxiv.org/abs/2405.11622v1 )

ライセンス: Link先を確認
Mireia Hernandez Caralt, Clarence Boon Liang Ng, Marek Rei, (参考訳) 電子健康記録 (Electronic Health Records, EHR) は、患者の情報の貴重な情報源であり、医療史、治療、結果に関する洞察を提供する。 従来の研究では、病院滞在の終わりに書かれた放電サマリーを中心に、所定の EHR 文書を書きながら割り当てられるべきICD コードを検出するシステムを開発した。 本研究は, 臨床医に正式に割り当てられる前であっても, 患者全員の在院時間帯を予測できる可能性について検討する。 早期に診断や治療を予測する手法の開発は、病気のリスクの早期発見、治療の提案、資源配分の最適化など、予測医療の機会を開く可能性がある。 本実験では,入試後2日で最終ICD符号の予測が可能であることを示し,この早期予測タスクの性能を向上させるカスタムモデルを提案する。

Electronic Health Records (EHR) serve as a valuable source of patient information, offering insights into medical histories, treatments, and outcomes. Previous research has developed systems for detecting applicable ICD codes that should be assigned while writing a given EHR document, mainly focusing on discharge summaries written at the end of a hospital stay. In this work, we investigate the potential of predicting these codes for the whole patient stay at different time points during their stay, even before they are officially assigned by clinicians. The development of methods to predict diagnoses and treatments earlier in advance could open opportunities for predictive medicine, such as identifying disease risks sooner, suggesting treatments, and optimizing resource allocation. Our experiments show that predictions regarding final ICD codes can be made already two days after admission and we propose a custom model that improves performance on this early prediction task.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 雑音パラメータ化量子回路の普遍スペクトル

Universal spectra of noisy parameterized quantum circuits ( http://arxiv.org/abs/2405.11625v1 )

ライセンス: Link先を確認
Kristian Wold, Pedro Ribeiro, Sergey Denisov, (参考訳) ランダムユニタリは量子情報処理の重要なリソースである。 彼らの普遍的性質は徹底的に分析されているが、現在のノイズの多い中間スケール量子(NISQ)コンピュータでユニタリがサンプリングされたとき、これらの性質がどうなるかは分かっていない。 本稿では、トランスモンプラットフォーム上でランダムなユニタリを生成する手段として提案されているパラメータ化回路を実装し、これらの実装を量子マップとしてモデル化する。 地図を検索するには、機械学習支援トモグラフィを使用する。 地図のスペクトルは、回路の深さに依存する環状または円盤のいずれかであり、環状-円盤遷移を検出する。 それらのスペクトル特性により、得られた写像は、スペクトル密度を解析的に評価できる、最近導入されたランダムマップのアンサンブルと非常によく似ているように見える。

Random unitaries are an important resource for quantum information processing. While their universal properties have been thoroughly analyzed, it is not known what happens to these properties when the unitaries are sampled on the present-day noisy intermediate-scale quantum (NISQ) computers. We implement parameterized circuits, which have been proposed as a means to generate random unitaries, on a transmon platform and model these implementations as quantum maps. To retrieve the maps, a machine-learning assisted tomography is used. We find the spectrum of a map to be either an annulus or a disk depending on the circuit depth and detect an annulus-disk transition. By their spectral properties, the retrieved maps appear to be very similar to a recently introduced ensemble of random maps, for which spectral densities can be analytically evaluated.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 自律走行システムのための現実的な対向物体の探索

Searching Realistic-Looking Adversarial Objects For Autonomous Driving Systems ( http://arxiv.org/abs/2405.11629v1 )

ライセンス: Link先を確認
Shengxiang Sun, Shenzhe Zhu, (参考訳) 自動運転政策を標的とする敵攻撃に関する多くの研究は、現実的に見える敵の物体を組み込むことができず、現実の応用性を制限している。 シミュレーションから現実的な応用への逆対象の移行を促進する先行研究を基礎として,現実的な対向対象を探索する修正勾配に基づくテクスチャ最適化手法について考察する。 先行研究のコアアーキテクチャとテクニックを維持しながら、提案された追加には、"Judge"と呼ばれるエンティティが含まれる。 このエージェントは、レンダリング対象のテクスチャを評価し、そのリアリズムを反映した確率スコアを割り当てる。 このスコアは損失関数に統合され、NeRFオブジェクトレンダラーがリアルで対向的なテクスチャを同時に学習するように促される。 本論文は、ロバストな「ジャッジ」を開発するための4つの戦略を分析する。 1)最先端の視覚言語モデルを活用する。 2)細調整のオープンソースビジョン言語モデル。 3)ニューロシンボリックシステムの事前学習 4) 従来の画像処理技術を活用すること。 以上の結果から戦略が示唆される。 1)と 4)戦略を指差して信頼性の低い結果を得る 2)? 3)今後の研究の道筋として有望である。

Numerous studies on adversarial attacks targeting self-driving policies fail to incorporate realistic-looking adversarial objects, limiting real-world applicability. Building upon prior research that facilitated the transition of adversarial objects from simulations to practical applications, this paper discusses a modified gradient-based texture optimization method to discover realistic-looking adversarial objects. While retaining the core architecture and techniques of the prior research, the proposed addition involves an entity termed the 'Judge'. This agent assesses the texture of a rendered object, assigning a probability score reflecting its realism. This score is integrated into the loss function to encourage the NeRF object renderer to concurrently learn realistic and adversarial textures. The paper analyzes four strategies for developing a robust 'Judge': 1) Leveraging cutting-edge vision-language models. 2) Fine-tuning open-sourced vision-language models. 3) Pretraining neurosymbolic systems. 4) Utilizing traditional image processing techniques. Our findings indicate that strategies 1) and 4) yield less reliable outcomes, pointing towards strategies 2) or 3) as more promising directions for future research.
翻訳日:2024-05-21 15:02:50 公開日:2024-05-19
# 量子複雑性への注意

Attention to Quantum Complexity ( http://arxiv.org/abs/2405.11632v1 )

ライセンス: Link先を確認
Hyejin Kim, Yiqing Zhou, Yichen Xu, Kaarthik Varma, Amir H. Karamlou, Ilan T. Rosen, Jesse C. Hoke, Chao Wan, Jin Peng Zhou, William D. Oliver, Yuri D. Lensky, Kilian Q. Weinberger, Eun-Ah Kim, (参考訳) 誤り訂正量子コンピューティングの差し迫った時代は、制限されたノイズのある測定からでも、複雑な量子状態を特徴づけるための頑健な手法を緊急に要求している。 量子複雑性を学習する際のユニークな課題に対処するために,特に注意機構のパワーを活用する,汎用的な古典的AIフレームワークであるQuantum Attention Network(QuAN)を紹介した。 大規模な言語モデルにインスパイアされたQuANは、測定スナップショットをトークンとして扱い、置換不変性を尊重する。 新たなパラメータ効率のミニセット自己アテンションブロック(MSSAB)と組み合わせたデータ構造により、QuANはビットストリング分布の高次モーメントにアクセスでき、ノイズの少ないスナップショットに優先的に対応できる。 我々はQuANを、ハードコアBose-Hubbardモデル、ランダム量子回路、コヒーレントで不整合な雑音下でのトーリックコードという、3つの異なる量子シミュレーション設定で厳格にテストした。 QuANは、実験によって得られた計算ベース測定から、絡み合いと状態の複雑さの増大を直接学習する。 特に、ノイズのある実験データから深度を増大させると、ランダム回路データの複雑さが増大するのを学習する。 既存の理論では到達不能な体制に移行したQuANは、両方のノイズ型の関数として、ノイズの多いトーリック符号データのための完全な位相図を公開している。 このブレークスルーは、意図的に設計されたAI駆動ソリューションを使用して量子ハードウェアを支援する、変革の可能性を浮き彫りにしている。

The imminent era of error-corrected quantum computing urgently demands robust methods to characterize complex quantum states, even from limited and noisy measurements. We introduce the Quantum Attention Network (QuAN), a versatile classical AI framework leveraging the power of attention mechanisms specifically tailored to address the unique challenges of learning quantum complexity. Inspired by large language models, QuAN treats measurement snapshots as tokens while respecting their permutation invariance. Combined with a novel parameter-efficient mini-set self-attention block (MSSAB), such data structure enables QuAN to access high-order moments of the bit-string distribution and preferentially attend to less noisy snapshots. We rigorously test QuAN across three distinct quantum simulation settings: driven hard-core Bose-Hubbard model, random quantum circuits, and the toric code under coherent and incoherent noise. QuAN directly learns the growth in entanglement and state complexity from experimentally obtained computational basis measurements. In particular, it learns the growth in complexity of random circuit data upon increasing depth from noisy experimental data. Taken to a regime inaccessible by existing theory, QuAN unveils the complete phase diagram for noisy toric code data as a function of both noise types. This breakthrough highlights the transformative potential of using purposefully designed AI-driven solutions to assist quantum hardware.
翻訳日:2024-05-21 14:53:05 公開日:2024-05-19
# 幾何学的機器可変回帰

Geometry-Aware Instrumental Variable Regression ( http://arxiv.org/abs/2405.11633v1 )

ライセンス: Link先を確認
Heiner Kremer, Bernhard Schölkopf, (参考訳) 機器変数(IV)回帰は、条件モーメント制限(CMR)の観点から、その定式化を通じてアプローチすることができる。 一般化されたモーメントの方法の変種に基づいて、ほとんどのCMR推定器は、経験的サンプルの再重み付けによる人口データ分布の近似に基づいて暗黙的に評価される。 大規模なサンプルサイズでは、独立した同一分散(IID)設定では、再重み付けは十分な柔軟性を提供することができるが、破損したデータや敵の攻撃によるデータの存在下では、関連する情報を捕捉できない可能性がある。 これらの欠点に対処するために,データ導出情報によるデータ多様体の幾何学を考慮した最適輸送ベースIV推定器であるSinkhorn Method of Momentsを提案する。 本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定値と同等に動作するが,データ破損や敵攻撃に対する堅牢性は向上する。

Instrumental variable (IV) regression can be approached through its formulation in terms of conditional moment restrictions (CMR). Building on variants of the generalized method of moments, most CMR estimators are implicitly based on approximating the population data distribution via reweightings of the empirical sample. While for large sample sizes, in the independent identically distributed (IID) setting, reweightings can provide sufficient flexibility, they might fail to capture the relevant information in presence of corrupted data or data prone to adversarial attacks. To address these shortcomings, we propose the Sinkhorn Method of Moments, an optimal transport-based IV estimator that takes into account the geometry of the data manifold through data-derivative information. We provide a simple plug-and-play implementation of our method that performs on par with related estimators in standard settings but improves robustness against data corruption and adversarial attacks.
翻訳日:2024-05-21 14:53:05 公開日:2024-05-19
# LLMを用いた文脈データ生成によるゼロショットスタンス検出

Zero-Shot Stance Detection using Contextual Data Generation with LLMs ( http://arxiv.org/abs/2405.11637v1 )

ライセンス: Link先を確認
Ghazaleh Mahmoudi, Babak Behkamkia, Sauleh Eetemadi, (参考訳) 特定のトピックに対するテキストで表現された態度の分類であるスタンス検出は、偽ニュースの検出や意見マイニングといった応用には不可欠である。 しかし、ラベル付きデータの不足は依然としてこの課題である。 そこで本研究では,Few-Shot LearningとLarge Language Modelを組み合わせた動的モデル適応とコンテキストデータ生成(DyMoAdapt)を提案する。 このアプローチでは、テスト時に既存のモデルを微調整することを目的としています。 GPT-3を用いてトピック固有の新しいデータを生成する。 この方法は、モデルの新たなトピックへの適応を可能にすることで、性能を向上させることができる。 しかし、結果は予想通りには増加しなかった。 さらに,GPT-3を用いてVASTを拡張するMulti Generated Topic VAST(MGT-VAST)データセットについても紹介する。 このデータセットでは、各コンテキストは複数のトピックに関連付けられ、モデルがコンテキストと様々な潜在的トピックの関係を理解することができる。

Stance detection, the classification of attitudes expressed in a text towards a specific topic, is vital for applications like fake news detection and opinion mining. However, the scarcity of labeled data remains a challenge for this task. To address this problem, we propose Dynamic Model Adaptation with Contextual Data Generation (DyMoAdapt) that combines Few-Shot Learning and Large Language Models. In this approach, we aim to fine-tune an existing model at test time. We achieve this by generating new topic-specific data using GPT-3. This method could enhance performance by allowing the adaptation of the model to new topics. However, the results did not increase as we expected. Furthermore, we introduce the Multi Generated Topic VAST (MGT-VAST) dataset, which extends VAST using GPT-3. In this dataset, each context is associated with multiple topics, allowing the model to understand the relationship between contexts and various potential topics
翻訳日:2024-05-21 14:53:05 公開日:2024-05-19
# Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning

Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning ( http://arxiv.org/abs/2405.11640v1 )

ライセンス: Link先を確認
Zishan Gu, Fenglin Liu, Changchang Yin, Ping Zhang, (参考訳) 医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。 しかし、医療における彼らの業績は未定であり、潜在的に制限されている。 一 豊かな専門知識及び医学的推論能力がないこと。 二 最先端のLLMのほとんどは、直接マルチモーダル入力を処理できない、非モーダルでテキストのみのモデルである。 そこで本研究では,学習エージェントを組み込んだマルチモーダル医療協力型推論フレームワークである「textbf{MultiMedRes}」を提案する。 私たちの方法には3つのステップがあります。 i) \textbf{Inquire}: 学習者はまず、与えられた複雑な医学的推論問題を複数のドメイン固有のサブプロブレムに分解する。 ii) \textbf{Interact}: エージェントは 'ask-answer' プロセスを繰り返してドメイン固有の専門家モデルと対話し、異なるドメイン固有の知識を段階的に取得する。 iii) \textbf{Integrate}: エージェントは取得したドメイン固有の知識をすべて統合し、医学的推論問題に正確に対処する。 我々は,X線画像の差分視覚質問応答における手法の有効性を検証した。 実験により、ゼロショット予測は最先端の性能を達成し、完全に教師された手法よりも優れることを示した。 さらに,本手法を各種LLMおよびマルチモーダルLLMに組み込むことにより,性能を大幅に向上させることができる。

The adoption of large language models (LLMs) in healthcare has attracted significant research interest. However, their performance in healthcare remains under-investigated and potentially limited, due to i) they lack rich domain-specific knowledge and medical reasoning skills; and ii) most state-of-the-art LLMs are unimodal, text-only models that cannot directly process multimodal inputs. To this end, we propose a multimodal medical collaborative reasoning framework \textbf{MultiMedRes}, which incorporates a learner agent to proactively gain essential information from domain-specific expert models, to solve medical multimodal reasoning problems. Our method includes three steps: i) \textbf{Inquire}: The learner agent first decomposes given complex medical reasoning problems into multiple domain-specific sub-problems; ii) \textbf{Interact}: The agent then interacts with domain-specific expert models by repeating the ``ask-answer'' process to progressively obtain different domain-specific knowledge; iii) \textbf{Integrate}: The agent finally integrates all the acquired domain-specific knowledge to accurately address the medical reasoning problem. We validate the effectiveness of our method on the task of difference visual question answering for X-ray images. The experiments demonstrate that our zero-shot prediction achieves state-of-the-art performance, and even outperforms the fully supervised methods. Besides, our approach can be incorporated into various LLMs and multimodal LLMs to significantly boost their performance.
翻訳日:2024-05-21 14:53:05 公開日:2024-05-19
# コンピュータ病理学における教師なしスライド表現学習のための形態的プロトタイピング

Morphological Prototyping for Unsupervised Slide Representation Learning in Computational Pathology ( http://arxiv.org/abs/2405.11643v1 )

ライセンス: Link先を確認
Andrew H. Song, Richard J. Chen, Tong Ding, Drew F. K. Williamson, Guillaume Jaume, Faisal Mahmood, (参考訳) 病理画像全体(WSI)の表現学習は、主にMIL(Multiple Instance Learning)による弱い監督に依存してきた。 しかし、このアプローチによるスライド表現は、特に限られたデータを持つシナリオにおいて、その表現性と一般化を制限する特定の臨床タスクに非常に適している。 代わりに、組織の形態的冗長性を利用して、教師なしの方法でタスク非依存のスライド表現を構築することができると仮定する。 この目的のために, ガウス混合モデルに根ざしたプロトタイプベースのアプローチであるPANTHERを導入し, WSI パッチの集合をより小さな形態素のプロトタイプにまとめる。 具体的には、各パッチは、各混合物成分がモルフォロジーの例を示す混合分布から生成されたと仮定される。 推定混合パラメータを用いて、幅広い下流タスクに容易に使用できるコンパクトなスライド表現を構築する。 13個のデータセットを用いたサブタイプおよびサバイバルタスクにおけるPANTHERの広範囲な評価を行うことにより、そのことを示す。 1)PANTHERは、監督されたMILベースラインと同等、又は同等である。 2) 形態素プロトタイプの解析は, モデル解釈可能性に新たな質的, 定量的な洞察をもたらす。

Representation learning of pathology whole-slide images (WSIs) has been has primarily relied on weak supervision with Multiple Instance Learning (MIL). However, the slide representations resulting from this approach are highly tailored to specific clinical tasks, which limits their expressivity and generalization, particularly in scenarios with limited data. Instead, we hypothesize that morphological redundancy in tissue can be leveraged to build a task-agnostic slide representation in an unsupervised fashion. To this end, we introduce PANTHER, a prototype-based approach rooted in the Gaussian mixture model that summarizes the set of WSI patches into a much smaller set of morphological prototypes. Specifically, each patch is assumed to have been generated from a mixture distribution, where each mixture component represents a morphological exemplar. Utilizing the estimated mixture parameters, we then construct a compact slide representation that can be readily used for a wide range of downstream tasks. By performing an extensive evaluation of PANTHER on subtyping and survival tasks using 13 datasets, we show that 1) PANTHER outperforms or is on par with supervised MIL baselines and 2) the analysis of morphological prototypes brings new qualitative and quantitative insights into model interpretability.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# Hummer: 限定的な競合的推論データセットを目指して

Hummer: Towards Limited Competitive Preference Dataset ( http://arxiv.org/abs/2405.11647v1 )

ライセンス: Link先を確認
Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng, (参考訳) 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。 しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。 本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。 次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。 texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。 さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。 このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。

Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 機械学習モデルを用いた映画収益予測

Movie Revenue Prediction using Machine Learning Models ( http://arxiv.org/abs/2405.11651v1 )

ライセンス: Link先を確認
Vikranth Udandarao, Pratyush Gupta, (参考訳) 現代映画業界では、映画の利益を正確に予測することが利益率を最大化するための最優先事項である。 本研究の目的は、映画名、MPAA評価、映画のジャンル、映画の公開年、IMDbレーティング、ウォッチャー、監督、脚本家、主演キャストの投票、映画の製作国、映画の予算、製作会社、映画のランタイムなど、映画収益を予測する機械学習モデルを開発することである。 データ収集、前処理、分析、モデル選択、評価、改善を含む構造化された方法論により、堅牢な予測モデルを構築する。 線形回帰、決定木、ランダムフォレスト回帰、バグ、XGBoosting、グラディエントブースティングが訓練され、テストされている。 モデル改善戦略には、ハイパーパラメータチューニングとクロスバリデーションが含まれる。 得られたモデルは、有望な精度と一般化を提供し、映画業界における情報的意思決定が利益を最大化するのに役立つ。

In the contemporary film industry, accurately predicting a movie's earnings is paramount for maximizing profitability. This project aims to develop a machine learning model for predicting movie earnings based on input features like the movie name, the MPAA rating of the movie, the genre of the movie, the year of release of the movie, the IMDb Rating, the votes by the watchers, the director, the writer and the leading cast, the country of production of the movie, the budget of the movie, the production company and the runtime of the movie. Through a structured methodology involving data collection, preprocessing, analysis, model selection, evaluation, and improvement, a robust predictive model is constructed. Linear Regression, Decision Trees, Random Forest Regression, Bagging, XGBoosting and Gradient Boosting have been trained and tested. Model improvement strategies include hyperparameter tuning and cross-validation. The resulting model offers promising accuracy and generalization, facilitating informed decision-making in the film industry to maximize profits.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# Track Anything Rapter (TAR)

Track Anything Rapter(TAR) ( http://arxiv.org/abs/2405.11655v1 )

ライセンス: Link先を確認
Tharun V. Puthanveettil, Fnu Obaid ur Rahman, (参考訳) 物体追跡はコンピュータビジョンにおける基本的なタスクであり、交通監視、ロボット工学、自律走行車追跡など、様々な領域にまたがる幅広い実用的応用がある。 本研究の目的は,テキスト,画像,クリックなどのユーザが提供するマルチモーダルクエリに基づいて,関心のあるオブジェクトを検出し,セグメンテーションし,追跡することを目的とした,TAR(Track Anything Raptor)と呼ばれる高度な航空車両システムを開発することである。 TARは、DINO、CLIP、SAMといった最先端の事前訓練モデルを使用して、クエリされたオブジェクトの相対的なポーズを推定する。 トラッキング問題はVisual Servoingタスクとしてアプローチされており、UAVは高度なモーションプランニングと制御アルゴリズムを通じてオブジェクトに一貫してフォーカスすることができる。 我々は、これらの基礎モデルとカスタムの高レベル制御アルゴリズムの統合によって、カスタムビルドされたPX4 Autopilot対応のVoxl2 M500ドローンに、高度に安定して正確なトラッキングシステムを構築する方法を紹介する。 追従アルゴリズムの性能を検証するために,Vicon ベースの基底真理と比較した。 さらに,オクルージョンを含むシナリオにおける追跡支援における基礎モデルの信頼性を評価する。 最後に、クリック、バウンディングボックス、イメージテンプレートなど、複数のモードでシームレスに機能するモデルの能力をテストし、検証する。

Object tracking is a fundamental task in computer vision with broad practical applications across various domains, including traffic monitoring, robotics, and autonomous vehicle tracking. In this project, we aim to develop a sophisticated aerial vehicle system known as Track Anything Raptor (TAR), designed to detect, segment, and track objects of interest based on user-provided multimodal queries, such as text, images, and clicks. TAR utilizes cutting-edge pre-trained models like DINO, CLIP, and SAM to estimate the relative pose of the queried object. The tracking problem is approached as a Visual Servoing task, enabling the UAV to consistently focus on the object through advanced motion planning and control algorithms. We showcase how the integration of these foundational models with a custom high-level control algorithm results in a highly stable and precise tracking system deployed on a custom-built PX4 Autopilot-enabled Voxl2 M500 drone. To validate the tracking algorithm's performance, we compare it against Vicon-based ground truth. Additionally, we evaluate the reliability of the foundational models in aiding tracking in scenarios involving occlusions. Finally, we test and validate the model's ability to work seamlessly with multiple modalities, such as click, bounding box, and image templates.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# URDFormer: 実世界の画像から人工シミュレーション環境を構築するパイプライン

URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images ( http://arxiv.org/abs/2405.11656v1 )

ライセンス: Link先を確認
Zoey Chen, Aaron Walsman, Marius Memmel, Kaichun Mo, Alex Fang, Karthikeya Vemuri, Alan Wu, Dieter Fox, Abhishek Gupta, (参考訳) 視覚的にも身体的にも現実的にもシミュレーションシーンを構築することは、ロボット工学からコンピュータビジョンまで、領域における実践的な関心の問題である。 この問題は、大規模なデータハングリー学習手法が物理的な意思決定システムのための新たなトレーニングデータソースを求める研究者によってさらに重要になっている。 しかし、シミュレーションモデルの構築は依然として手作業で行われていることが多い。 グラフィックデザイナとシミュレーションエンジニアは、事前に定義された資産を使って、リアルな動的およびキネマティックな特性を持つリッチなシーンを構築する。 これは、データ駆動型ロボット制御に必要な一般化特性を達成するために、少数のシーンにスケールする可能性があるが、我々は「自然」キネマティック構造と動的構造を完備した、多数の現実的なシーンを合成できるパイプラインが必要である。 この問題に対処するため、我々は自然画像から構造を推論しシミュレーションシーンを生成するモデルを開発し、Webスケールのデータセットからスケーラブルなシーン生成を可能にした。 これらのイメージ・トゥ・シミュレートモデルをトレーニングするために、現実的な画像から完全なシーンモデルへのマッピング、逆問題のモデル化を可能にするペア化トレーニングデータを生成するために、制御可能なテキスト・ツー・イメージ生成モデルをどのように利用できるかを示す。 このパラダイムによって、セマンティックおよび物理リアリズムを用いたシミュレーションにおいて、大規模なシーンデータセットを構築することができることを示す。 本稿では,実世界の画像から機械的・動的構造を表現したシミュレーションシーンを生成し,ロボット制御ポリシのトレーニングに使用する統合エンドツーエンドパイプラインを提案する。 そして、オブジェクトの操作のようなタスクのために、現実世界にしっかりとデプロイします。 そこで本研究は,シミュレーション環境を大規模に生成するためのパイプラインと,ロバストなロボット制御ポリシをトレーニングする統合システムの両方を提供する。

Constructing simulation scenes that are both visually and physically realistic is a problem of practical interest in domains ranging from robotics to computer vision. This problem has become even more relevant as researchers wielding large data-hungry learning methods seek new sources of training data for physical decision-making systems. However, building simulation models is often still done by hand. A graphic designer and a simulation engineer work with predefined assets to construct rich scenes with realistic dynamic and kinematic properties. While this may scale to small numbers of scenes, to achieve the generalization properties that are required for data-driven robotic control, we require a pipeline that is able to synthesize large numbers of realistic scenes, complete with 'natural' kinematic and dynamic structures. To attack this problem, we develop models for inferring structure and generating simulation scenes from natural images, allowing for scalable scene generation from web-scale datasets. To train these image-to-simulation models, we show how controllable text-to-image generative models can be used in generating paired training data that allows for modeling of the inverse problem, mapping from realistic images back to complete scene models. We show how this paradigm allows us to build large datasets of scenes in simulation with semantic and physical realism. We present an integrated end-to-end pipeline that generates simulation scenes complete with articulated kinematic and dynamic structures from real-world images and use these for training robotic control policies. We then robustly deploy in the real world for tasks like articulated object manipulation. In doing so, our work provides both a pipeline for large-scale generation of simulation environments and an integrated system for training robust robotic control policies in the resulting environments.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 同一性を有する繰り返しニューラルカスケードの表現性について

On the Expressivity of Recurrent Neural Cascades with Identity ( http://arxiv.org/abs/2405.11657v1 )

ライセンス: Link先を確認
Nadezda A. Knorozova, Alessandro Ronca, (参考訳) リカレントニューラルカスケード(Recurrent Neural Cascades、RNC)は、リカレントニューラル・ネットワークの一種で、リカレント・ニューラル・ネットワーク間の循環的依存を持たない。 正の繰り返し重みを持つそれらのサブクラス RNC+ は、多くの確立された時間論理の表現性である星のない正規言語と密接に関連していることが示されている。 既存の表現性の結果は、RCC+が取得した正規言語が星のない言語であることを示し、RCC+が正規言語以外の言語を捕捉する可能性を明らかにしている。 我々は、単位元を含む言語、すなわち、出力に影響を与えることなく任意の回数を発生させることができる入力について、この可能性を排除する。 すなわち、アイデンティティー要素の存在下では、RCC+によって取得された言語は、まさにスターフリーな正規言語であることを示す。 アイデンティティ要素は時間的パターンにおいてユビキタスであり、その結果は多数のアプリケーションに適用できる。 私たちの結果の意味は、表現力を超えます。 RNC+とセミオートマタのカスケード間の密接な構造対応を確立し、全てのニューロンが3状態のセミオートマトンで等価に捕捉可能であることを示した。 この結果の顕著な結果は、RCC+が三状態半オートマタのカスケードほど簡潔ではないことである。

Recurrent Neural Cascades (RNC) are the class of recurrent neural networks with no cyclic dependencies among recurrent neurons. Their subclass RNC+ with positive recurrent weights has been shown to be closely connected to the star-free regular languages, which are the expressivity of many well-established temporal logics. The existing expressivity results show that the regular languages captured by RNC+ are the star-free ones, and they leave open the possibility that RNC+ may capture languages beyond regular. We exclude this possibility for languages that include an identity element, i.e., an input that can occur an arbitrary number of times without affecting the output. Namely, in the presence of an identity element, we show that the languages captured by RNC+ are exactly the star-free regular languages. Identity elements are ubiquitous in temporal patterns, and hence our results apply to a large number of applications. The implications of our results go beyond expressivity. At their core, we establish a close structural correspondence between RNC+ and semiautomata cascades, showing that every neuron can be equivalently captured by a three-state semiautomaton. A notable consequence of this result is that RNC+ are no more succinct than cascades of three-state semiautomata.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# オートプラトン : 例による軽量化

Auto-Platoon : Freight by example ( http://arxiv.org/abs/2405.11659v1 )

ライセンス: Link先を確認
Tharun V. Puthanveettil, Abhijay Singh, Yashveer Jain, Vinay Bukka, Sameer Arjun S, (参考訳) この研究は、ソフトウェアラッチとして提案された革新的なメカニズムに基づいて、バイオインスパイアされたリーダーフォロワシステムを導入し、リーダーエージェントと関連する自律的フォロワーとのコラボレーションと調整を改善することを目的としている。 このシステムは、ソフトウェアラッチを利用して、リーダーとフォロワー間のリアルタイムのコミュニケーションと同期を確立する。 認識、意思決定、制御モジュールを含む階層アーキテクチャが提案されている。 不確実性、動的環境、通信遅延といった課題には、ディープラーニングとリアルタイムデータ処理パイプラインを使用して対処する。 追従ロボットは、興味のあるエージェントを追跡し追跡したり、障害物を回避できるセンサーと通信モジュールを備えている。 フォロワーはリーダーを追跡し、そこから安全な距離を維持しながら障害を動的に回避します。 実験の結果,提案手法の有効性を実証し,複雑な動的環境をナビゲートできるマルチロボットシステムを必要とするタスクを成功させるための有望なソリューションとなった。

The work introduces a bio-inspired leader-follower system based on an innovative mechanism proposed as software latching that aims to improve collaboration and coordination between a leader agent and the associated autonomous followers. The system utilizes software latching to establish real-time communication and synchronization between the leader and followers. A layered architecture is proposed, encompassing perception, decision-making, and control modules. Challenges such as uncertainty, dynamic environments, and communication latency are addressed using Deep learning and real-time data processing pipelines. The follower robot is equipped with sensors and communication modules that enable it to track and trace the agent of interest or avoid obstacles. The followers track the leader and dynamically avoid obstacles while maintaining a safe distance from it. The experimental results demonstrate the proposed system's effectiveness, making it a promising solution for achieving success in tasks that demand multi-robot systems capable of navigating complex dynamic environments.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 量子バッテリの双曲的増強

Hyperbolic enhancement of a quantum battery ( http://arxiv.org/abs/2405.11662v1 )

ライセンス: Link先を確認
C. A. Downing, M. S. Ukhtary, (参考訳) エネルギーを蓄えることができ、そこから有用な仕事を抽出できる量子系は、量子電池として知られている。 このようなデバイスは、量子物理学が量子バッテリーの充電、エネルギー貯蔵、放電において、古典的な等価性と比較して、どのような利点をもたらすかという興味深い問題を提起する。 しかし、消散による悪影響は、現実的な電池の性能を低下させる。 ここでは、量子スクイーズ(quantum squeezing)の恩恵を受ける量子バッテリモデルを提案することにより、このエネルギー損失の問題を回避する方法を示す。 すなわち、短時間の時間パルスで電池を2次に充電すると、蓄えられたエネルギーの双曲的増強が誘導され、消散状態は本質的に無視される。 さらに、駆動が十分に強い場合、エルゴトロピーである量子電池から抽出できる有用な作業は、保存されたエネルギーと全く同じであることを示す。 これらの印象的な性質は、大量のエルゴトロピーを持つ高効率な量子エネルギーデバイスを暗示している。 理論的には, 量子連続変数を利用した多種多様なプラットフォームで実現可能な, 高性能な量子電池の実現への道筋が示唆された。

A quantum system which can store energy, and from which one can extract useful work, is known as a quantum battery. Such a device raises interesting issues surrounding how quantum physics can provide certain advantages in the charging, energy storage or discharging of the quantum battery as compared to their classical equivalents. However, the pernicious effect of dissipation degrades the performance of any realistic battery. Here we show how one can circumvent this problem of energy loss by proposing a quantum battery model which benefits from quantum squeezing. Namely, charging the battery quadratically with a short temporal pulse induces a hyperbolic enhancement in the stored energy, such that the dissipation present becomes essentially negligible in comparison. Furthermore, we show that when the driving is strong enough the useful work which can be extracted from the quantum battery, that is the ergotropy, is exactly equal to the stored energy. These impressive properties imply a highly efficient quantum energetic device with abundant amounts of ergotropy. Our theoretical results suggest a possible route to realizing high-performance quantum batteries, which could be realized in a variety of platforms exploiting quantum continuous variables.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 間欠的コミュニケーションを用いた分散異種学習におけるローカルSGDの限界と可能性

The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication ( http://arxiv.org/abs/2405.11667v1 )

ライセンス: Link先を確認
Kumar Kshitij Patel, Margalit Glasgow, Ali Zindari, Lingxiao Wang, Sebastian U. Stich, Ziheng Cheng, Nirmit Joshi, Nathan Srebro, (参考訳) ローカルSGDは分散学習において一般的な最適化手法であり、ミニバッチSGDなど他のアルゴリズムよりも優れていることが多い。 この成功にもかかわらず、理論上は妥当なデータ不均一性を持つ設定における局所的なSGDの優位性を証明することは困難であり、理論と実践の間に大きなギャップが生じた。 本稿では、既存の一階データ不均一性仮定に基づいて、局所的なSGDの新たな下位境界を提供し、これらの仮定が局所的な更新手順の有効性を証明するには不十分であることを示す。 さらに、これらの仮定の下で、高速化されたミニバッチSGDの min-max 最適性を実証し、いくつかの問題クラスに対する分散最適化の理解を完全に解決する。 本研究は,実運用における局所的なSGDの有効性を理解するために,データヘテロジニティのモデルの改善の必要性を強調した。 この目的のために、データ不均一性が低い場合、局所SGDがミニバッチSGDよりも優位であることを示す新しい上限を与える、高次滑らか性および不均一性仮定を検討する。

Local SGD is a popular optimization method in distributed learning, often outperforming other algorithms in practice, including mini-batch SGD. Despite this success, theoretically proving the dominance of local SGD in settings with reasonable data heterogeneity has been difficult, creating a significant gap between theory and practice. In this paper, we provide new lower bounds for local SGD under existing first-order data heterogeneity assumptions, showing that these assumptions are insufficient to prove the effectiveness of local update steps. Furthermore, under these same assumptions, we demonstrate the min-max optimality of accelerated mini-batch SGD, which fully resolves our understanding of distributed optimization for several problem classes. Our results emphasize the need for better models of data heterogeneity to understand the effectiveness of local SGD in practice. Towards this end, we consider higher-order smoothness and heterogeneity assumptions, providing new upper bounds that imply the dominance of local SGD over mini-batch SGD when data heterogeneity is low.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 機械翻訳クリティカルエラーのサイバーリスク : アラビア人のメンタルヘルスツイートを事例として

Cyber Risks of Machine Translation Critical Errors : Arabic Mental Health Tweets as a Case Study ( http://arxiv.org/abs/2405.11668v1 )

ライセンス: Link先を確認
Hadeel Saadany, Ashraf Tantawy, Constantin Orasan, (参考訳) ニューラルネットワーク翻訳(NMT)システムの出現により、MT出力は前例のない精度に達し、多言語コンテンツを持つほぼ全てのオンラインプラットフォーム上でMTツールが多用された。 しかし、NMTシステムは、他の最先端のAI生成システムと同様に、機械の幻覚と見なされるエラーを起こしやすい。 NMT幻覚の問題は、それらが驚くほど textit{fluent} 幻覚であることである。 文法的に正しい発話を生成するように訓練されているため、NTTシステムでは、MTツールの双方の利用者が認識できないような誤訳や、その性能を測定するために使用される自動品質指標を生成できる。 本稿では,MTの共通使用に関わる倫理的・安全性上の問題に言及するために,機械翻訳クリティカルエラーの真正データセットを導入する。このデータセットは,クリティカルエラータイプを手動で注釈付けしたアラビアのメンタルヘルスポストの誤訳を含む。 また、一般的に使われている品質指標が重大なエラーをペナルティにしないことを示すとともに、研究者のさらなる注意を喚起する重要な問題として強調する。

With the advent of Neural Machine Translation (NMT) systems, the MT output has reached unprecedented accuracy levels which resulted in the ubiquity of MT tools on almost all online platforms with multilingual content. However, NMT systems, like other state-of-the-art AI generative systems, are prone to errors that are deemed machine hallucinations. The problem with NMT hallucinations is that they are remarkably \textit{fluent} hallucinations. Since they are trained to produce grammatically correct utterances, NMT systems are capable of producing mistranslations that are too fluent to be recognised by both users of the MT tool, as well as by automatic quality metrics that are used to gauge their performance. In this paper, we introduce an authentic dataset of machine translation critical errors to point to the ethical and safety issues involved in the common use of MT. The dataset comprises mistranslations of Arabic mental health postings manually annotated with critical error types. We also show how the commonly used quality metrics do not penalise critical errors and highlight this as a critical issue that merits further attention from researchers.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# Do No Harm: 安全な強化学習への対効果的なアプローチ

Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning ( http://arxiv.org/abs/2405.11669v1 )

ライセンス: Link先を確認
Sean Vaskov, Wilko Schwarting, Chris L. Baker, (参考訳) 制御のための強化学習(RL)は、環境の不確実性や複雑な表現を考慮に入れたリッチなフィードバックポリシーを学習する能力によって、ますます人気が高まっている。 安全性の制約を考慮すると、エージェントが制約違反に対して罰せられるような制約付き最適化アプローチが一般的である。 このような方法では、エージェントが初期化されるか、あるいは訪れなければならない場合、制約違反が避けられない状態であれば、どの程度罰せられるかは不明確である。 我々は,この課題に対して,既定の安全政策と比較して,学習した政策の事実的害に対する制約を定式化することによって対処する。 哲学的な意味では、この定式化は学習者にそれが引き起こした制約違反を罰するだけであり、実際的な意味では最適な制御問題の実現可能性を維持する。 本稿では,道路摩擦が不確実なローバーと,我々の制約定式化を実証するトラクタ・トレーラーの駐車環境についてシミュレーションを行った。

Reinforcement Learning (RL) for control has become increasingly popular due to its ability to learn rich feedback policies that take into account uncertainty and complex representations of the environment. When considering safety constraints, constrained optimization approaches, where agents are penalized for constraint violations, are commonly used. In such methods, if agents are initialized in, or must visit, states where constraint violation might be inevitable, it is unclear how much they should be penalized. We address this challenge by formulating a constraint on the counterfactual harm of the learned policy compared to a default, safe policy. In a philosophical sense this formulation only penalizes the learner for constraint violations that it caused; in a practical sense it maintains feasibility of the optimal control problem. We present simulation studies on a rover with uncertain road friction and a tractor-trailer parking environment that demonstrate our constraint formulation enables agents to learn safer policies than contemporary constrained RL methods.
翻訳日:2024-05-21 14:53:04 公開日:2024-05-19
# 解釈可能な機械学習は病気の予後を高める:COVID-19と今後の応用

Interpretable Machine Learning Enhances Disease Prognosis: Applications on COVID-19 and Onward ( http://arxiv.org/abs/2405.11672v1 )

ライセンス: Link先を確認
Ke Ma, Jinzhi Shen, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、解釈可能な機械学習技術の統合は大きな注目を集め、情報的な臨床的意思決定に不可欠な透明で理解可能な洞察を提供してきた。 本論文は,呼吸器疾患の予後予測における解釈可能な機械学習の応用,特に新型コロナウイルスとその今後の研究・臨床実践への意義を考察する。 我々は、既存の臨床領域の知識を組み込むだけでなく、データから新たな情報を探索する学習能力を持つ各種機械学習モデルについてレビューした。 これらのモデルと経験は、現在の危機の管理を助けるだけでなく、将来の病気の流行に対応するための約束も持つ。 解釈可能な機械学習を活用することで、医療システムは、その準備と応答能力を高め、患者の成果を改善し、今後数年間の呼吸器疾患の影響を軽減することができる。

In response to the COVID-19 pandemic, the integration of interpretable machine learning techniques has garnered significant attention, offering transparent and understandable insights crucial for informed clinical decision making. This literature review delves into the applications of interpretable machine learning in predicting the prognosis of respiratory diseases, particularly focusing on COVID-19 and its implications for future research and clinical practice. We reviewed various machine learning models that are not only capable of incorporating existing clinical domain knowledge but also have the learning capability to explore new information from the data. These models and experiences not only aid in managing the current crisis but also hold promise for addressing future disease outbreaks. By harnessing interpretable machine learning, healthcare systems can enhance their preparedness and response capabilities, thereby improving patient outcomes and mitigating the impact of respiratory diseases in the years to come.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# ディープ・アンサンブル・アート・スタイル認識

Deep Ensemble Art Style Recognition ( http://arxiv.org/abs/2405.11675v1 )

ライセンス: Link先を確認
Orfeas Menis-Mastromichalakis, Natasa Sofou, Giorgos Stamou, (参考訳) 過去数十年間のアートワークの大規模なデジタル化は、抽象概念に関連する膨大な量のデータの分類、分析、管理の必要性を生み出し、コンピュータ科学の分野における課題を浮き彫りにした。 人工知能とニューラルネットワークの急速な進歩は、挑戦に値するツールや技術を提供してきた。 美術作品における様々な芸術的特徴の認識は、深層学習社会において注目されている。 本稿では,深層ネットワークを用いた美術スタイル認識の問題について考察する。 VGG16, VGG19, ResNet50, ResNet152, Inception-V3, DenseNet121, DenseNet201, Inception-ResNet-V2)の2つの異なるアートデータセットのパフォーマンスを比較した。 深層学習モデルを適用する前に,データ前処理の効果について検討する。 メタ分類器による第1段分類器の結果と、入力の特徴を抽出し認識する複数のモデルに基づく多元的アプローチの革新を組み合わせ、既存の作品と比較してより一貫性のあるモデルを作成し、利用可能な最大のアートデータセット(WikiArt-68,55%)で最先端の精度を達成するスタックングアンサンブル法を提案する。 また,データとアートスタイル自体が,問題に対する多様体的視点を形成するモデルの性能に与える影響についても論じる。

The massive digitization of artworks during the last decades created the need for categorization, analysis, and management of huge amounts of data related to abstract concepts, highlighting a challenging problem in the field of computer science. The rapid progress of artificial intelligence and neural networks has provided tools and technologies that seem worthy of the challenge. Recognition of various art features in artworks has gained attention in the deep learning society. In this paper, we are concerned with the problem of art style recognition using deep networks. We compare the performance of 8 different deep architectures (VGG16, VGG19, ResNet50, ResNet152, Inception-V3, DenseNet121, DenseNet201 and Inception-ResNet-V2), on two different art datasets, including 3 architectures that have never been used on this task before, leading to state-of-the-art performance. We study the effect of data preprocessing prior to applying a deep learning model. We introduce a stacking ensemble method combining the results of first-stage classifiers through a meta-classifier, with the innovation of a versatile approach based on multiple models that extract and recognize different characteristics of the input, creating a more consistent model compared to existing works and achieving state-of-the-art accuracy on the largest art dataset available (WikiArt - 68,55%). We also discuss the impact of the data and art styles themselves on the performance of our models forming a manifold perspective on the problem.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# 可変X線イメージング測地における6-DoF計測値の精度向上

Advancing 6-DoF Instrument Pose Estimation in Variable X-Ray Imaging Geometries ( http://arxiv.org/abs/2405.11677v1 )

ライセンス: Link先を確認
Christiaan G. A. Viviers, Lena Filatova, Maurice Termeer, Peter H. N. de With, Fons van der Sommen, (参考訳) 低侵襲手術における手術器具の正確な6-DoFポーズ推定は、治療戦略と最終的な手術結果を大幅に改善することができる。 既存のディープラーニング手法は正確な結果を得たが、各オブジェクトに対してカスタムアプローチが必要であり、リアルタイム計算を欠きながら、しばしば広範囲のシミュレーションにまで拡張される。 我々は,X線システムにおける6-DoFポーズ推定タスクの汎用的アプローチ,高精度かつ高速なオブジェクトポーズ推定のための新規かつ汎用的なYOLOv5-6Dポーズアーキテクチャ,および単眼円錐ビームX線画像からの取得幾何を考慮した外科的スクリューポーズ推定の完全な方法を提案する。 提案したYOLOv5-6Dのポーズモデルは、GPU上で42FPSでかなり高速ながら、公開ベンチマーク上での競合的な結果を達成する。 さらに, 異なる領域に対して正確なポーズ推定を可能にするために, 様々なX線取得形状と意味画像の複雑さを一般化する。 最後に,脊椎手術におけるコンピュータ支援指導のための骨スクリューポーズ推定法について検討した。 このモデルはADD-S測定値の0.1倍の92.41%を達成し,手術精度の向上と患者の予後向上に有望なアプローチを示す。 YOLOv5-6Dのコードはhttps://github.com/cviviers/YOLOv5-6D-Poseで公開されている。

Accurate 6-DoF pose estimation of surgical instruments during minimally invasive surgeries can substantially improve treatment strategies and eventual surgical outcome. Existing deep learning methods have achieved accurate results, but they require custom approaches for each object and laborious setup and training environments often stretching to extensive simulations, whilst lacking real-time computation. We propose a general-purpose approach of data acquisition for 6-DoF pose estimation tasks in X-ray systems, a novel and general purpose YOLOv5-6D pose architecture for accurate and fast object pose estimation and a complete method for surgical screw pose estimation under acquisition geometry consideration from a monocular cone-beam X-ray image. The proposed YOLOv5-6D pose model achieves competitive results on public benchmarks whilst being considerably faster at 42 FPS on GPU. In addition, the method generalizes across varying X-ray acquisition geometry and semantic image complexity to enable accurate pose estimation over different domains. Finally, the proposed approach is tested for bone-screw pose estimation for computer-aided guidance during spine surgeries. The model achieves a 92.41% by the 0.1 ADD-S metric, demonstrating a promising approach for enhancing surgical precision and patient outcomes. The code for YOLOv5-6D is publicly available at https://github.com/cviviers/YOLOv5-6D-Pose
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# FADet:局所的特徴注意に基づくマルチセンサ3Dオブジェクト検出ネットワーク

FADet: A Multi-sensor 3D Object Detection Network based on Local Featured Attention ( http://arxiv.org/abs/2405.11682v1 )

ライセンス: Link先を確認
Ziang Guo, Zakhar Yagudin, Selamawit Asfaw, Artem Lykov, Dzmitry Tsetserukou, (参考訳) カメラ、LiDAR、レーダーは自律走行タスクのための一般的な知覚センサーである。 3次元物体検出のロバストな予測は、これらのセンサの融合に基づいて最適である。 これらのセンサーにはそれぞれ独自の特徴があるため、賢くその能力を活用することは依然として課題である。 本稿では,マルチセンサ3D検出ネットワークであるFADetを提案する。 カメラ画像に対して,デュアルアテンションに基づくサブモジュールを提案する。 LiDAR点雲では、三重アテンションベースのサブモジュールが使われ、混合アテンションベースのサブモジュールがレーダポイントの特徴に適用される。 局所的な注目サブモジュールにより、FADetはカメラ、LiDAR、レーダー入力から、長い尾と複雑なシーンを効果的に検出できる。 NuScenesの検証データセットでは、FADetは71.8% NDSと69.0% mAPのLiDARカメラオブジェクト検出タスクに対して、51.7% NDSと40.3% mAPのレーダーカメラオブジェクト検出タスクに対して、最先端のパフォーマンスを達成する。 コードはhttps://github.com/ZionGo6/FADet.comでリリースされる。

Camera, LiDAR and radar are common perception sensors for autonomous driving tasks. Robust prediction of 3D object detection is optimally based on the fusion of these sensors. To exploit their abilities wisely remains a challenge because each of these sensors has its own characteristics. In this paper, we propose FADet, a multi-sensor 3D detection network, which specifically studies the characteristics of different sensors based on our local featured attention modules. For camera images, we propose dual-attention-based sub-module. For LiDAR point clouds, triple-attention-based sub-module is utilized while mixed-attention-based sub-module is applied for features of radar points. With local featured attention sub-modules, our FADet has effective detection results in long-tail and complex scenes from camera, LiDAR and radar input. On NuScenes validation dataset, FADet achieves state-of-the-art performance on LiDAR-camera object detection tasks with 71.8% NDS and 69.0% mAP, at the same time, on radar-camera object detection tasks with 51.7% NDS and 40.3% mAP. Code will be released at https://github.com/ZionGo6/FADet.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# データ拡張によるスパイク数データの条件共役ガウス過程因子解析

Conditionally-Conjugate Gaussian Process Factor Analysis for Spike Count Data via Data Augmentation ( http://arxiv.org/abs/2405.11683v1 )

ライセンス: Link先を確認
Yididiya Y. Nadew, Xuhui Fan, Christopher J. Quinn, (参考訳) GPFA (Gaussian Process Factor Analysis) は、高次元神経記録の基礎となる滑らかで低次元の潜在軌道の同定に一般的に用いられる潜在変数モデリング手法である。 具体的には、研究者はスパイキング速度をガウス観測としてモデル化し、抽出可能な推論をもたらす。 近年、GPFAはスパイクカウントデータをモデル化するために拡張されている。 しかし、確率の非共役性のため、推論は難解になる。 以前の研究は、ブラックボックス推論技術、数値積分法、あるいは難解性を扱う可能性の多項式近似のいずれかに依存していた。 この課題を克服するために、スパイクカウントデータからニューラルアクティビティをモデル化するための解析的および計算学的に抽出可能な推論をもたらす条件共役型ガウス過程因子分析(ccGPFA)を提案する。 特に、モデルに条件付き共役を施す新しいデータ拡張ベースの手法を開発する。 そこで本モデルでは,変分EMアルゴリズムを用いた単純なクローズドフォーム更新の利点を享受する。 さらに, 条件共役性から, スパースガウス過程と自然勾配による推論の高速化により, モデルを容易にスケールできることを示す。 本手法の有効性を実証するために実験を行った。

Gaussian process factor analysis (GPFA) is a latent variable modeling technique commonly used to identify smooth, low-dimensional latent trajectories underlying high-dimensional neural recordings. Specifically, researchers model spiking rates as Gaussian observations, resulting in tractable inference. Recently, GPFA has been extended to model spike count data. However, due to the non-conjugacy of the likelihood, the inference becomes intractable. Prior works rely on either black-box inference techniques, numerical integration or polynomial approximations of the likelihood to handle intractability. To overcome this challenge, we propose a conditionally-conjugate Gaussian process factor analysis (ccGPFA) resulting in both analytically and computationally tractable inference for modeling neural activity from spike count data. In particular, we develop a novel data augmentation based method that renders the model conditionally conjugate. Consequently, our model enjoys the advantage of simple closed-form updates using a variational EM algorithm. Furthermore, due to its conditional conjugacy, we show our model can be readily scaled using sparse Gaussian Processes and accelerated inference via natural gradients. To validate our method, we empirically demonstrate its efficacy through experiments.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# スパイキング関数を用いたデータから正規性を学ぶ:理論

Learning Regularities from Data using Spiking Functions: A Theory ( http://arxiv.org/abs/2405.11684v1 )

ライセンス: Link先を確認
Canlin Zhang, Xiuwen Liu, (参考訳) エンドツーエンドでトレーニングされたディープニューラルネットワークは、幅広い機械学習タスクにおいて効率的であることが証明されている。 学習された特徴と情報はニューラルネットワークパラメータで暗黙的に表現されるため、データの確率分布を明示的に表現するための規則性、概念、知識として使用することはできない。 この問題を解決するために,本論文では,正則性が何であるかを数学で定義する新しい機械学習理論を提案する。 簡単に言えば、正規性は非ランダムな特徴の簡潔な表現であり、データ確率分布における「非ランダム性」である。 情報理論と組み合わさって、正規性は大量の情報を符号化する少数の情報ともみなすことができる。 私たちの理論はスパイク関数に基づいている。 すなわち、関数がランダムなノイズ入力よりも頻繁に特定のデータサンプルに反応またはスパイクできる場合、そのような関数はデータ分布から非ランダム性を発見し、非ランダム性を正規性にエンコードする。 また、同じデータ分布に複数のスパイキング関数を適用することについても論じる。 このプロセスでは、最適なスパイク関数である「ベスト」規則は、データ分布から最も多くの情報をキャプチャし、取得した情報を最も簡潔にエンコードできるものであると主張する。 定理と仮説は数学において「最良の」正則性と最適なスパイク関数を記述するために提供される。 最後に、与えられたデータセットに関する最適スパイク関数を実際に取得できる機械学習手法を提案する。

Deep neural networks trained in an end-to-end manner are proven to be efficient in a wide range of machine learning tasks. However, there is one drawback of end-to-end learning: The learned features and information are implicitly represented in neural network parameters, which cannot be used as regularities, concepts or knowledge to explicitly represent the data probability distribution. To resolve this issue, we propose in this paper a new machine learning theory, which defines in mathematics what are regularities. Briefly, regularities are concise representations of the non-random features, or 'non-randomness' in the data probability distribution. Combining with information theory, we claim that regularities can also be regarded as a small amount of information encoding a large amount of information. Our theory is based on spiking functions. That is, if a function can react to, or spike on specific data samples more frequently than random noise inputs, we say that such a function discovers non-randomness from the data distribution, and encodes the non-randomness into regularities. Our theory also discusses applying multiple spiking functions to the same data distribution. In this process, we claim that the 'best' regularities, or the optimal spiking functions, are those who can capture the largest amount of information from the data distribution, and then encode the captured information in the most concise way. Theorems and hypotheses are provided to describe in mathematics what are 'best' regularities and optimal spiking functions. Finally, we propose a machine learning approach, which can potentially obtain the optimal spiking functions regarding the given dataset in practice.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# ColorFoil: 大規模視覚と言語モデルにおける色盲点の調査

ColorFoil: Investigating Color Blindness in Large Vision and Language Models ( http://arxiv.org/abs/2405.11685v1 )

ライセンス: Link先を確認
Ahnaf Mozib Samin, M. Firoz Ahmed, Md. Mushtaq Shahriyar Rafee, (参考訳) Transformerアーキテクチャの利用により、大きなビジョン・アンド・ランゲージ(V&L)モデルはゼロショット設定でも有望な性能を示している。 しかし、いくつかの研究は、複雑な言語学や視覚的属性を扱う際に、モデルの堅牢性の欠如を示唆している。 本研究では、赤、白、緑などの色を検出するモデルの知覚能力を評価するために、色に関連したホイルを作成することで、新しいV&LベンチマークであるColorFoilを導入する。 ゼロショット設定でCLIP, ViLT, GroupViT, BridgeTowerなど7種類の最先端V&Lモデルを評価し, V&Lモデルから興味深い知見を得た。 実験により、VLTとBridgeTowerは、CLIPとその変異体とGroupViTと比較して、より優れた色知覚能力を示すことが示された。 さらに、CLIPベースのモデルとGroupViTは、通常の色知覚能力を持つ人間と視覚的に異なる色を区別するのに苦労している。

With the utilization of Transformer architecture, large Vision and Language (V&L) models have shown promising performance in even zero-shot settings. Several studies, however, indicate a lack of robustness of the models when dealing with complex linguistics and visual attributes. In this work, we introduce a novel V&L benchmark - ColorFoil, by creating color-related foils to assess the models' perception ability to detect colors like red, white, green, etc. We evaluate seven state-of-the-art V&L models including CLIP, ViLT, GroupViT, and BridgeTower, etc. in a zero-shot setting and present intriguing findings from the V&L models. The experimental evaluation indicates that ViLT and BridgeTower demonstrate much better color perception capabilities compared to CLIP and its variants and GroupViT. Moreover, CLIP-based models and GroupViT struggle to distinguish colors that are visually distinct to humans with normal color perception ability.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# 変量量子固有解器を用いたギャップの交差:比較研究

Crossing The Gap Using Variational Quantum Eigensolver: A Comparative Study ( http://arxiv.org/abs/2405.11687v1 )

ライセンス: Link先を確認
I-Chi Chen, Nouhaila Innan, Suman Kumar Roy, Jason Saroni, (参考訳) 量子化学の進化領域の中で、変分量子固有解法(VQE)は基底状態だけでなく分子の励起状態も探索するために開発された。 本研究では,変分量子デフレレーション(VQD)法とサブスペース探索変分量子固有解法(SSVQE)法を比較し,LiH$の低い励起状態を決定する。 我々の研究は、VQDは精度においてわずかに有利であるが、SSVQEはその効率を際立っており、単一のパラメータ最適化手順によって全ての低励起状態を決定することができることを示した。 我々はさらに、最少繰り返しを必要とする場合に優れた効率性を示すAdamオプティマイザを用いて、LiH$の最初の励起状態を得る際に、グラディエント・ディクチュア(GD)、量子自然グラディエント(QNG)、アダム・オプティマイザ(Adam Optimizationr)などのオプティマイザの有効性を評価する。 さらに、Folded Spectrum VQE (FS-VQE) とVQDまたはSSVQEを組み合わせ、高励起状態の探索を可能にする新しいアプローチを提案する。 我々は3つのH_4$の励起状態を見つけるための新しいアプローチをテストする。 Folded Spectrum SSVQE (FS-SSVQE) は、1つの最適化手順しか持たない$-1.0$Ha付近で3つの高励起状態を見つけることができるが、手順は緩やかに収束する。 対照的に、Folded spectrum VQD (FS-VQD) は個々の最適化手順で高い励起状態を得るが、最適化手順はより速く収束する。

Within the evolving domain of quantum computational chemistry, the Variational Quantum Eigensolver (VQE) has been developed to explore not only the ground state but also the excited states of molecules. In this study, we compare the performance of Variational Quantum Deflation (VQD) and Subspace-Search Variational Quantum Eigensolver (SSVQE) methods in determining the low-lying excited states of $LiH$. Our investigation reveals that while VQD exhibits a slight advantage in accuracy, SSVQE stands out for its efficiency, allowing the determination of all low-lying excited states through a single parameter optimization procedure. We further evaluate the effectiveness of optimizers, including Gradient Descent (GD), Quantum Natural Gradient (QNG), and Adam optimizer, in obtaining $LiH$'s first excited state, with the Adam optimizer demonstrating superior efficiency in requiring the fewest iterations. Moreover, we propose a novel approach combining Folded Spectrum VQE (FS-VQE) with either VQD or SSVQE, enabling the exploration of highly excited states. We test the new approaches for finding all three $H_4$'s excited states. Folded Spectrum SSVQE (FS-SSVQE) can find all three highly excited states near $-1.0$ Ha with only one optimizing procedure, but the procedure converges slowly. In contrast, although Folded spectrum VQD (FS-VQD) gets highly excited states with individual optimizing procedures, the optimizing procedure converges faster.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# InterAct: 日常シナリオにおける2人の現実的・表現的・対話的活動の獲得とモデル化

InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios ( http://arxiv.org/abs/2405.11690v1 )

ライセンス: Link先を確認
Yinghao Huang, Leo Ho, Dafei Qin, Mingyi Shi, Taku Komura, (参考訳) 本研究では,日常シナリオにおける2人の対話行動の正確なキャプチャと表現的モデリングの問題に対処する。 対話行動にのみ焦点をあてる以前の作品とは違い,2人の活動のモデル化と,長期にわたる客観的・動的・一貫性の相互作用を目標とすることを提案する。 この目的のために、我々はInterActと呼ばれる新しいデータセットをキャプチャし、241のモーションシーケンスで構成され、2人がシーケンス全体にわたって現実的なシナリオを実行する。 両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。 また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。 論文が受理されると、すべてのデータとコードは研究目的に利用できるようになる。

We address the problem of accurate capture and expressive modelling of interactive behaviors happening between two persons in daily scenarios. Different from previous works which either only consider one person or focus on conversational gestures, we propose to simultaneously model the activities of two persons, and target objective-driven, dynamic, and coherent interactions which often span long duration. To this end, we capture a new dataset dubbed InterAct, which is composed of 241 motion sequences where two persons perform a realistic scenario over the whole sequence. The audios, body motions, and facial expressions of both persons are all captured in our dataset. We also demonstrate the first diffusion model based approach that directly estimates the interactive motions between two persons from their audios alone. All the data and code will be available for research purposes upon acceptance of the paper.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# ニューラルネットワークによる近似とグラディエントDescent Training

Approximation and Gradient Descent Training with Neural Networks ( http://arxiv.org/abs/2405.11696v1 )

ライセンス: Link先を確認
G. Welper, (参考訳) 注意深い手書き重みを持つニューラルネットワークは強力な関数近似を提供し、過度にパラメータ化された状態下でうまくトレーニングできることはよく理解されている。 オーバーパラメトリゼーションはトレーニングエラーをゼロにするので、これらの2つの理論はすぐには互換性がない。 最近の研究は、近似結果に必要な滑らかさを用いて、ニューラルネットワークカーネル(NTK)最適化引数を過度なパラメータ化された状態に拡張し、勾配流で訓練されたネットワークに対して直接近似境界を示す。 勾配流は実際的な手法の理想化にすぎないため,勾配降下法で訓練したネットワークに対して,類似した結果が得られた。

It is well understood that neural networks with carefully hand-picked weights provide powerful function approximation and that they can be successfully trained in over-parametrized regimes. Since over-parametrization ensures zero training error, these two theories are not immediately compatible. Recent work uses the smoothness that is required for approximation results to extend a neural tangent kernel (NTK) optimization argument to an under-parametrized regime and show direct approximation bounds for networks trained by gradient flow. Since gradient flow is only an idealization of a practical method, this paper establishes analogous results for networks trained by gradient descent.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# AMMeBa:メディアベースの誤報の大規模調査とデータセット

AMMeBa: A Large-Scale Survey and Dataset of Media-Based Misinformation In-The-Wild ( http://arxiv.org/abs/2405.11697v1 )

ライセンス: Link先を確認
Nicholas Dufour, Arkanath Pathak, Pouya Samangouei, Nikki Hariri, Shashi Deshetti, Andrew Dudfield, Christopher Guess, Pablo Hernández Escayola, Bobby Tran, Mevan Babakar, Christoph Bregler, (参考訳) オンライン誤報の流行と害は、インターネットプラットフォーム、機関、社会全体に対する長年にわたる懸念である。 時間が経つにつれ、オンラインで共有される情報はメディアが重くなり、誤報はこれらの新しいモダリティに容易に適応するようになった。 現実的なオーディオ、画像、ビデオ、人間のようなテキストを合成するための、広くアクセス可能な方法を提供する、生成AIベースのツールの台頭は、これらの懸念を増幅した。 大衆や重要な報道機関に強い関心が寄せられているが、メディアベースの誤報の頻度とモダリティに関する定量的情報は乏しいままである。 本稿では,CraimReviewマークアップを用いた公開可能なファクトチェックの大規模なサンプルから評価したクレームに基づいて,オンラインメディアベースの誤情報に注釈を付けるために,人間のレーダを用いた2年間の研究結果を示す。 本稿では,画像の側面を捉え,誤情報請求における画像の役割に関係した操作を行うイメージタイプポロジーを提案する。 これらのタイプの分布を時間とともに可視化する。 我々は、偽情報主張における生成的AIベースのコンテンツの増加を示し、その共通性は比較的最近の現象であり、重い報道報道の後に顕著に起こることを示した。 また、歴史的、特にコンテキスト操作において支配的な"単純な"手法を示し、2023年11月のデータ収集の終了時点でも多数を占め続けています。 このデータセットであるAMMeBa(Annotated Misinformation, Media-Based)は、公開されており、現実的な環境で緩和方法を評価する手段としても、オンライン誤情報のタイプとモダリティのファースト・オブ・ザ・キンド・センサスとしても機能したいと思っています。

The prevalence and harms of online misinformation is a perennial concern for internet platforms, institutions and society at large. Over time, information shared online has become more media-heavy and misinformation has readily adapted to these new modalities. The rise of generative AI-based tools, which provide widely-accessible methods for synthesizing realistic audio, images, video and human-like text, have amplified these concerns. Despite intense interest on the part of the public and significant press coverage, quantitative information on the prevalence and modality of media-based misinformation remains scarce. Here, we present the results of a two-year study using human raters to annotate online media-based misinformation, mostly focusing on images, based on claims assessed in a large sample of publicly-accessible fact checks with the ClaimReview markup. We present an image typology, designed to capture aspects of the image and manipulation relevant to the image's role in the misinformation claim. We visualize the distribution of these types over time. We show the the rise of generative AI-based content in misinformation claims, and that it's commonality is a relatively recent phenomenon, occurring significantly after heavy press coverage. We also show "simple" methods dominated historically, particularly context manipulations, and continued to hold a majority as of the end of data collection in November 2023. The dataset, Annotated Misinformation, Media-Based (AMMeBa), is publicly-available, and we hope that these data will serve as both a means of evaluating mitigation methods in a realistic setting and as a first-of-its-kind census of the types and modalities of online misinformation.
翻訳日:2024-05-21 14:43:16 公開日:2024-05-19
# PillarNeXt: Voxel2Pillar特徴符号化とマルチスケール特徴抽出による3D検出器の改良

PillarNeXt: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features ( http://arxiv.org/abs/2405.09828v2 )

ライセンス: Link先を確認
Xusheng Li, Chengliang Wang, Shumao Wang, Zhuo Zeng, Ji Liu, (参考訳) マルチラインのLiDARは自動運転車で広く使われているため、ポイントクラウドベースの3D検出器は自動運転に不可欠である。 リッチなマルチスケール特徴の抽出は、様々な種類の物体のサイズに大きな違いがあるため、自律運転におけるポイントクラウドベースの3D検出器にとって重要である。 しかし、リアルタイムの要求のため、大規模な畳み込みカーネルはバックボーンで大規模な特徴を引き出すのにはほとんど使われない。 現行の3D検出器は、大規模な特徴を得るために特徴ピラミッドネットワークを一般的に使用しているが、ダウンサンプリング中に点雲が少ないいくつかの物体が失われ、性能が低下する。 柱ベースのスキームはボクセルベースのスキームよりもはるかに少ない計算を必要とするため、リアルタイム3D検出器の構築に適している。 そこで本研究では,柱型スキームであるPillarNeXtを提案する。 われわれは3Dディテクターのエンコーディング、バックボーン、ネックを再設計した。 本稿では、スパース畳み込みコンストラクタを用いて、よりリッチなポイントクラウド機能、特に高さ機能を備えた柱を構築するVoxel2Pillar機能符号化法を提案する。 Voxel2Pillarは、機能のエンコーディングにより学習可能なパラメータを追加し、初期ピラーのパフォーマンスを向上する。 提案する完全スパースバックボーンでは,大規模な畳み込みカーネルを使用せず,マルチスケールかつ大規模に特徴を抽出し,そのバックボーンはマルチスケール特徴抽出モジュールで構成されている。 ネックは提案されたスパースConvNeXtで構成されており、単純な構造で性能が大幅に向上している。 Waymo Open DatasetにおけるPillarNeXtの有効性を検証し,車両,歩行者,自転車の物体検出精度を改善した。 また,各モジュールの有効性をアブレーション研究により詳細に検証した。

The multi-line LiDAR is widely used in autonomous vehicles, so point cloud-based 3D detectors are essential for autonomous driving. Extracting rich multi-scale features is crucial for point cloud-based 3D detectors in autonomous driving due to significant differences in the size of different types of objects. However, because of the real-time requirements, large-size convolution kernels are rarely used to extract large-scale features in the backbone. Current 3D detectors commonly use feature pyramid networks to obtain large-scale features; however, some objects containing fewer point clouds are further lost during down-sampling, resulting in degraded performance. Since pillar-based schemes require much less computation than voxel-based schemes, they are more suitable for constructing real-time 3D detectors. Hence, we propose the PillarNeXt, a pillar-based scheme. We redesigned the feature encoding, the backbone, and the neck of the 3D detector. We propose the Voxel2Pillar feature encoding, which uses a sparse convolution constructor to construct pillars with richer point cloud features, especially height features. The Voxel2Pillar adds more learnable parameters to the feature encoding, enabling the initial pillars to have higher performance ability. We extract multi-scale and large-scale features in the proposed fully sparse backbone, which does not utilize large-size convolutional kernels; the backbone consists of the proposed multi-scale feature extraction module. The neck consists of the proposed sparse ConvNeXt, whose simple structure significantly improves the performance. We validate the effectiveness of the proposed PillarNeXt on the Waymo Open Dataset, and the object detection accuracy for vehicles, pedestrians, and cyclists is improved. We also verify the effectiveness of each proposed module in detail through ablation studies.
翻訳日:2024-05-21 12:15:54 公開日:2024-05-19
# FPDIoU損失: 回転物体検出の効率的なバウンディングボックス回帰のための損失関数

FPDIoU Loss: A Loss Function for Efficient Bounding Box Regression of Rotated Object Detection ( http://arxiv.org/abs/2405.09942v2 )

ライセンス: Link先を確認
Siliang Ma, Yong Xu, (参考訳) 境界ボックス回帰は、オブジェクト検出の重要なステップの1つである。 しかし、回転検出器は勾配に基づく訓練に不都合なSkewIoUに基づくより複雑な損失を伴うことが多い。 回転物体検出のための既存の損失関数の多くは、領域の偏差と各点距離(例えば、$\mathcal{L}_{Smooth-\ell 1}$、$\mathcal{L}_{RotatedIoU}$、$\mathcal{L}_{PIoU}$)にのみフォーカスする2つの境界ボックス間の差を計算する。 損失関数の計算プロセスは非常に複雑である(例: $\mathcal{L}_{KFIoU}$)。 回転物体検出における境界ボックス回帰の効率と精度を向上させるため,回転物体検出のための既存の損失関数,すなわち重複領域や非重複領域,中心点距離,回転角を考慮に入れた,最小点距離に基づく任意の形状比較のための新しい指標を提案した。 また,高速かつ高品質なアンカーボックスに着目した正確なバウンディングボックス回帰のための4点距離に基づいて,$\mathcal{L}_{FPDIoU}$という損失関数を提案した。 FPDIoU$損失は、DOTA、DIOR、HRSC2016を含む回転オブジェクト検出の3つの一般的なベンチマークと、ICDAR 2017 RRC-MLTとICDAR 2019 RRC-MLTを含む任意の向きのシーンテキスト検出の2つのベンチマークを用いた、最先端の回転オブジェクト検出(例えば、RTMDET、H2RBox)モデルに適用される。

Bounding box regression is one of the important steps of object detection. However, rotation detectors often involve a more complicated loss based on SkewIoU which is unfriendly to gradient-based training. Most of the existing loss functions for rotated object detection calculate the difference between two bounding boxes only focus on the deviation of area or each points distance (e.g., $\mathcal{L}_{Smooth-\ell 1}$, $\mathcal{L}_{RotatedIoU}$ and $\mathcal{L}_{PIoU}$). The calculation process of some loss functions is extremely complex (e.g. $\mathcal{L}_{KFIoU}$). In order to improve the efficiency and accuracy of bounding box regression for rotated object detection, we proposed a novel metric for arbitrary shapes comparison based on minimum points distance, which takes most of the factors from existing loss functions for rotated object detection into account, i.e., the overlap or nonoverlapping area, the central points distance and the rotation angle. We also proposed a loss function called $\mathcal{L}_{FPDIoU}$ based on four points distance for accurate bounding box regression focusing on faster and high quality anchor boxes. In the experiments, $FPDIoU$ loss has been applied to state-of-the-art rotated object detection (e.g., RTMDET, H2RBox) models training with three popular benchmarks of rotated object detection including DOTA, DIOR, HRSC2016 and two benchmarks of arbitrary orientation scene text detection including ICDAR 2017 RRC-MLT and ICDAR 2019 RRC-MLT, which achieves better performance than existing loss functions.
翻訳日:2024-05-21 12:15:54 公開日:2024-05-19