このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240917となっている論文です。

PDF登録状況(公開日: 20240917)

TitleAuthorsAbstract論文公表日・翻訳日
# 半導体材料科学における人工知能(AGI)の火花 : 生成型AI支援電子顕微鏡解析の次のフロンティアを探る

Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis ( http://arxiv.org/abs/2409.12244v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Geethan Sannidhi, Sreeja Gangasani, Chidaksh Ravuru, Venkataramana Runkana, (参考訳) 電子マイクログラフを用いた材料の特徴付けは、ナノマテリアル構造の複雑な性質のため、自動ラベリングにおいて重要な課題となる。 これを解決するために、Generative AIの最近の進歩を活用する、完全に自動化されたエンドツーエンドパイプラインを導入しました。 半導体材料の微細構造を人間の専門家と同等に分析・理解するために設計され、ナノ材料識別における人工知能(AGI)の追求に寄与している。 提案手法では,GPT-4V などの大規模マルチモーダルモデル (LMM) と DALLE-3 のようなテキスト・ツー・イメージモデルを用いる。 我々は、GPT-4ガイド付き視覚質問応答法(VQA)を統合し、ナノマテリアル画像を解析し、DALLE-3を介して合成ナノマテリアル画像を生成し、GPT-4Vで数発のプロンプトによるインコンテクスト学習を用いて正確なナノマテリアル識別を行う。 本手法は, ナノ材料識別の精度を高め, 高スループットスクリーニングプロセスの最適化により, 従来の技術を超えている。

Characterizing materials with electron micrographs poses significant challenges for automated labeling due to the complex nature of nanomaterial structures. To address this, we introduce a fully automated, end-to-end pipeline that leverages recent advances in Generative AI. It is designed for analyzing and understanding the microstructures of semiconductor materials with effectiveness comparable to that of human experts, contributing to the pursuit of Artificial General Intelligence (AGI) in nanomaterial identification. Our approach utilizes Large MultiModal Models (LMMs) such as GPT-4V, alongside text-to-image models like DALLE-3. We integrate a GPT-4 guided Visual Question Answering (VQA) method to analyze nanomaterial images, generate synthetic nanomaterial images via DALLE-3, and employ in-context learning with few-shot prompting in GPT-4V for accurate nanomaterial identification. Our method surpasses traditional techniques by enhancing the precision of nanomaterial identification and optimizing the process for high-throughput screening.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-17
# 小言語モデルによるモバイルヘルスイベントの効率的・個人化予測

Efficient and Personalized Mobile Health Event Prediction via Small Language Models ( http://arxiv.org/abs/2409.18987v1 )

ライセンス: Link先を確認
Xin Wang, Ting Dang, Vassilis Kostakos, Hong Jia, (参考訳) 医療モニタリングは早期発見、タイムリーな介入、健康状態の継続的な管理に不可欠であり、究極的には個人の生活の質を向上させる。 最近の研究によると、Large Language Models (LLMs) は、医療タスクをサポートする上で素晴らしいパフォーマンスを示している。 しかし、既存のLCMベースのヘルスケアソリューションは、一般的にクラウドベースのシステムに依存しており、プライバシーの懸念を高め、個人情報漏洩のリスクを増大させる。 その結果、ユーザのプライバシを保護するために、これらのモデルを携帯電話やウェアラブルなどのデバイス上でローカルに実行することへの関心が高まっている。 小言語モデル(SLM)は、より効率的で、よりローカルなデプロイメントに適しているため、プライバシーと計算上の問題を解決する潜在的な候補である。 しかし、医療領域におけるSLMの性能についてはまだ調査されていない。 本稿では、ステップ、カロリー、睡眠時間、その他の重要な統計データなどの健康データを正確に分析し、個人の健康状態を評価する能力について検討する。 我々の結果によると、12億のパラメータを持つTinyLlamaは4.31GBのメモリを使用し、0.48sのレイテンシを持ち、他の4つの最先端(SOTA)SLMと比較して、最高のパフォーマンスを示している。 以上の結果から,SLMはウェアラブルやモバイルデバイス上でリアルタイムの健康モニタリングに活用できる可能性が示唆された。

Healthcare monitoring is crucial for early detection, timely intervention, and the ongoing management of health conditions, ultimately improving individuals' quality of life. Recent research shows that Large Language Models (LLMs) have demonstrated impressive performance in supporting healthcare tasks. However, existing LLM-based healthcare solutions typically rely on cloud-based systems, which raise privacy concerns and increase the risk of personal information leakage. As a result, there is growing interest in running these models locally on devices like mobile phones and wearables to protect users' privacy. Small Language Models (SLMs) are potential candidates to solve privacy and computational issues, as they are more efficient and better suited for local deployment. However, the performance of SLMs in healthcare domains has not yet been investigated. This paper examines the capability of SLMs to accurately analyze health data, such as steps, calories, sleep minutes, and other vital statistics, to assess an individual's health status. Our results show that, TinyLlama, which has 1.1 billion parameters, utilizes 4.31 GB memory, and has 0.48s latency, showing the best performance compared other four state-of-the-art (SOTA) SLMs on various healthcare applications. Our results indicate that SLMs could potentially be deployed on wearable or mobile devices for real-time health monitoring, providing a practical solution for efficient and privacy-preserving healthcare.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-17
# 循環経済のための大規模言語モデルによるビジネス活動の国際標準産業分類への統一化フレームワーク

A Unified Framework to Classify Business Activities into International Standard Industrial Classification through Large Language Models for Circular Economy ( http://arxiv.org/abs/2409.18988v1 )

ライセンス: Link先を確認
Xiang Li, Lan Zhao, Junhao Ren, Yajuan Sun, Chuan Fu Tan, Zhiquan Yeo, Gaoxi Xiao, (参考訳) 循環経済の実践を促進するレコメンデーションシステムの開発には,効果的な情報収集と知識の体系化が重要である。 有望なアプローチの1つは、歴史的廃棄物から資源へのトランザクションをカタログ化する集中型知識リポジトリの作成であり、これはその後、過去の成功に基づいてレコメンデーションの生成を可能にする。 しかし、そのような知識リポジトリを構築する上で重要な障壁は、地域によって異なるビジネス活動を表す普遍的な標準化された枠組みが存在しないことである。 この課題に対処するために,本稿では,大規模言語モデル(LLM)を用いて,経済活動を記述するテキストデータを国際標準産業分類(ISIC)に分類する。 このアプローチにより、世界中の企業が提供している経済活動の記述をISIC標準に分類することが可能となり、集中型知識リポジトリの作成が容易になる。 提案手法は, GPT-2モデルを微調整した182ラベルテストデータセットに対して95%の精度で達成する。 本研究は、地域間で展開可能な知識体系化・推薦システムのための標準化された基盤を提供することにより、持続可能な循環経済プラクティスを育成するグローバルな取り組みに寄与する。

Effective information gathering and knowledge codification are pivotal for developing recommendation systems that promote circular economy practices. One promising approach involves the creation of a centralized knowledge repository cataloguing historical waste-to-resource transactions, which subsequently enables the generation of recommendations based on past successes. However, a significant barrier to constructing such a knowledge repository lies in the absence of a universally standardized framework for representing business activities across disparate geographical regions. To address this challenge, this paper leverages Large Language Models (LLMs) to classify textual data describing economic activities into the International Standard Industrial Classification (ISIC), a globally recognized economic activity classification framework. This approach enables any economic activity descriptions provided by businesses worldwide to be categorized into the unified ISIC standard, facilitating the creation of a centralized knowledge repository. Our approach achieves a 95% accuracy rate on a 182-label test dataset with fine-tuned GPT-2 model. This research contributes to the global endeavour of fostering sustainable circular economy practices by providing a standardized foundation for knowledge codification and recommendation systems deployable across regions.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-17
# SC-Phi2: StarCraft II マクロ管理タスクのための微調整された小言語モデル

SC-Phi2: A Fine-tuned Small Language Model for StarCraft II Macromanagement Tasks ( http://arxiv.org/abs/2409.18989v1 )

ライセンス: Link先を確認
Muhammad Junaid Khan, Gita Sukthankar, (参考訳) 本稿では,マクロ管理タスクのための小型言語モデルであるSC-Phi2を紹介する。 Phi2、Gemma、DistilBERTのような小さな言語モデルは、大きな言語モデル(LLM)の合理化バージョンであり、実行に必要な電力とメモリを少なくする。 StarCraftについてMicrosoftのPhi2モデルを教えるために、StarCraftのレース、ロール、アクションに関する情報を備えた新しいSC2テキストデータセットを作成し、それを自己教師型学習でPhi-2を微調整するために使用します。 この言語モデルと、事前訓練されたBLIP-2(Bootstrapping Language Image Pre-training)モデルからVit(ViT)を組み合わせ、MSCリプレイデータセットで微調整する。 これにより、視覚的なゲーム状態情報を含む動的プロンプトを構築することができる。 GPT-3.5などのStarCraft LLMで使用される大型モデルとは異なり、Phi2は主に教科書データに基づいて訓練されており、トレーニングプロセスによって提供されるもの以上のStarCraft IIの固有の知識はほとんど含まれていない。 LoRA(Low-rank Adaptation)と量子化によって、我々のモデルは単一のGPUでトレーニングできる。 我々は,ビルド順序や大域的状態予測などのマイクロマネジメントタスクにおいて,少数のパラメータを用いたモデルの有効性を実証した。

This paper introduces SC-Phi2, a fine-tuned StarCraft II small language model for macromanagement tasks. Small language models, like Phi2, Gemma, and DistilBERT, are streamlined versions of large language models (LLMs) with fewer parameters that require less power and memory to run. To teach Microsoft's Phi2 model about StarCraft, we create a new SC2 text dataset with information about StarCraft races, roles, and actions and use it to fine-tune Phi-2 with self-supervised learning. We pair this language model with a Vision Transformer (ViT) from the pre-trained BLIP-2 (Bootstrapping Language Image Pre-training) model, fine-tuning it on the MSC replay dataset. This enables us to construct dynamic prompts that include visual game state information. Unlike the large models used in StarCraft LLMs such as GPT-3.5, Phi2 is trained primarily on textbook data and contains little inherent knowledge of StarCraft II beyond what is provided by our training process. By using LoRA (Low-rank Adaptation) and quantization, our model can be trained on a single GPU. We demonstrate that our model performs well at micromanagement tasks such as build order and global state prediction with a small number of parameters.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-17
# MLLMランドスケープのサーベイ : 最近のサーベイのメタレビュー

Surveying the MLLM Landscape: A Meta-Review of Current Surveys ( http://arxiv.org/abs/2409.18991v1 )

ライセンス: Link先を確認
Ming Li, Keyu Chen, Ziqian Bi, Ming Liu, Benji Peng, Qian Niu, Junyu Liu, Jinlang Wang, Sen Zhang, Xuanhe Pan, Jiawei Xu, Pohsun Feng, (参考訳) MLLM(Multimodal Large Language Models)の台頭は、人工知能の分野で革新的な力となり、機械はテキスト、画像、オーディオ、ビデオなど、複数のモードにわたるコンテンツを処理し、生成することができるようになった。 これらのモデルは、自律エージェントから医療診断まで、さまざまな分野で新たなフロンティアを開拓する、従来の一助制システムよりも大幅に進歩したことを示している。 複数のモダリティを統合することで、MLLMはより総合的な情報理解を実現し、人間の知覚を忠実に模倣する。 MLLMの能力が拡大するにつれ、包括的かつ正確な性能評価の必要性が高まっている。 本調査は,基礎概念,アプリケーション,評価方法論,倫理的懸念,セキュリティ,効率,ドメイン固有のアプリケーションなど,MLLMのベンチマークテストと評価方法の体系的レビューを提供することを目的とする。 既存の文献の分類と分析を通じて,各種調査の主な貢献と方法論を要約し,詳細な比較分析を行い,学術コミュニティにおけるその影響について検討する。 さらに,MLLM研究の進展傾向と未探索領域を同定し,今後の研究に向けた潜在的方向性を提案する。 この調査は、研究者や実践者がMLLM評価の現状を包括的に理解することを目的としており、この急速に発展する分野におけるさらなる進歩を促進することを目的としている。

The rise of Multimodal Large Language Models (MLLMs) has become a transformative force in the field of artificial intelligence, enabling machines to process and generate content across multiple modalities, such as text, images, audio, and video. These models represent a significant advancement over traditional unimodal systems, opening new frontiers in diverse applications ranging from autonomous agents to medical diagnostics. By integrating multiple modalities, MLLMs achieve a more holistic understanding of information, closely mimicking human perception. As the capabilities of MLLMs expand, the need for comprehensive and accurate performance evaluation has become increasingly critical. This survey aims to provide a systematic review of benchmark tests and evaluation methods for MLLMs, covering key topics such as foundational concepts, applications, evaluation methodologies, ethical concerns, security, efficiency, and domain-specific applications. Through the classification and analysis of existing literature, we summarize the main contributions and methodologies of various surveys, conduct a detailed comparative analysis, and examine their impact within the academic community. Additionally, we identify emerging trends and underexplored areas in MLLM research, proposing potential directions for future studies. This survey is intended to offer researchers and practitioners a comprehensive understanding of the current state of MLLM evaluation, thereby facilitating further progress in this rapidly evolving field.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-17
# 事象理解の力学モデルの検討

A Review of Mechanistic Models of Event Comprehension ( http://arxiv.org/abs/2409.18992v1 )

ライセンス: Link先を確認
Tan T. Nguyen, (参考訳) 本稿では、談話理解理論から現代のイベント認知フレームワークへの進化を辿り、事象理解理論の理論的仮定と計算モデルについて考察する。 このレビューでは、コンストラクション・インテグレーション、イベントインデクシング、コーサルネットワーク、共鳴モデルなど、主要な談話理解アカウントを取り上げ、理解における認知プロセス理解への貢献を強調している。 次に、イベントセグメンテーション理論(Zacks et al , 2007)、イベントホライゾンモデル(Radvansky & Zacks, 2014)、階層生成フレームワーク(Kuperberg, 2021)など、イベント理解における予測、因果性、多段階表現など、イベント理解の現代的な理論的枠組みについて議論する。 これらの理論に基づいて、REPRISE (Butz et al , 2019), Structured Event Memory (SEM; Franklin et al , 2020), Lu model (Lu et al , 2022), Gumbsch model (Gumbsch et al , 2022), Elman and McRae model (2019)の5つのイベント理解モデルを評価する。 この分析は階層処理、予測機構、表現学習へのアプローチに焦点を当てている。 主要なテーマは、帰納的バイアスとしての階層構造の使用、理解における予測の重要性、イベントダイナミクスを学ぶための多様な戦略である。 このレビューでは、構造化表現を学習するためのより洗練されたアプローチの必要性、エピソード記憶機構の統合、作業イベントモデルのための適応更新アルゴリズムの開発など、将来の研究における重要な領域を明らかにしている。 理論的枠組みと計算的実装の両方から洞察を合成することにより、人間の事象理解の理解を深め、認知科学における未来のモデリングの取り組みを導くことを目的としている。

This review examines theoretical assumptions and computational models of event comprehension, tracing the evolution from discourse comprehension theories to contemporary event cognition frameworks. The review covers key discourse comprehension accounts, including Construction-Integration, Event Indexing, Causal Network, and Resonance models, highlighting their contributions to understanding cognitive processes in comprehension. I then discuss contemporary theoretical frameworks of event comprehension, including Event Segmentation Theory (Zacks et al., 2007), the Event Horizon Model (Radvansky & Zacks, 2014), and Hierarchical Generative Framework (Kuperberg, 2021), which emphasize prediction, causality, and multilevel representations in event understanding. Building on these theories, I evaluate five computational models of event comprehension: REPRISE (Butz et al., 2019), Structured Event Memory (SEM; Franklin et al., 2020), the Lu model (Lu et al., 2022), the Gumbsch model (Gumbsch et al., 2022), and the Elman and McRae model (2019). The analysis focuses on their approaches to hierarchical processing, prediction mechanisms, and representation learning. Key themes that emerge include the use of hierarchical structures as inductive biases, the importance of prediction in comprehension, and diverse strategies for learning event dynamics. The review identifies critical areas for future research, including the need for more sophisticated approaches to learning structured representations, integrating episodic memory mechanisms, and developing adaptive updating algorithms for working event models. By synthesizing insights from both theoretical frameworks and computational implementations, this review aims to advance our understanding of human event comprehension and guide future modeling efforts in cognitive science.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-17
# AutoFlow: トラフィック分類に最小限の影響を与えるIPフロー記録圧縮のためのオートエンコーダベースのアプローチ

AutoFlow: An Autoencoder-based Approach for IP Flow Record Compression with Minimal Impact on Traffic Classification ( http://arxiv.org/abs/2410.00030v1 )

ライセンス: Link先を確認
Adrian Pekar, (参考訳) 本稿では,深層学習,特にオートエンコーダを用いたIPフローレコードの圧縮手法を提案する。 本手法は,下流解析タスクにおける圧縮データの有用性を維持しつつ,データ量を大幅に削減することを目的としている。 本研究では,大規模な実世界のネットワークトラフィックデータセットを用いた大規模な実験を通じて,本手法の有効性を実証する。 提案したオートエンコーダをベースとした圧縮は、圧縮されていないデータに対して99.77%の精度で、マルチクラストラフィック分類タスクにおいて99.20%の精度を維持しながら、データサイズを3.28倍に削減する。 この性能の限界低下は、ストレージ効率の大幅な向上と、処理速度の潜在的な改善によって相殺される。 本手法は,一般的なサービスからの暗号化トラフィックを含む,最新のアプリケーションプロトコルを区別する上で,特に有望であることを示す。 この作業の影響は、より効率的なネットワーク監視、リソース制約のある環境でのリアルタイム分析、スケーラブルなネットワーク管理ソリューションにまで及んでいる。

This paper presents a novel approach to compressing IP flow records using deep learning techniques, specifically autoencoders. Our method aims to significantly reduce data volume while maintaining the utility of the compressed data for downstream analysis tasks. We demonstrate the effectiveness of our approach through extensive experiments on a large-scale, real-world network traffic dataset. The proposed autoencoder-based compression achieves a 3.28x reduction in data size while preserving 99.20% accuracy in a multi-class traffic classification task, compared to 99.77% accuracy with uncompressed data. This marginal decrease in performance is offset by substantial gains in storage efficiency and potential improvements in processing speed. Our method shows particular promise in distinguishing between various modern application protocols, including encrypted traffic from popular services. The implications of this work extend to more efficient network monitoring, real-time analysis in resource-constrained environments, and scalable network management solutions.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-17
# IBM Quantum Computers:進化、パフォーマンス、今後の方向性

IBM Quantum Computers: Evolution, Performance, and Future Directions ( http://arxiv.org/abs/2410.00916v1 )

ライセンス: Link先を確認
M. AbuGhanem, (参考訳) 量子コンピュータは計算技術の変革的なフロンティアであり、古典的な計算限界を超える指数的なスピードアップを約束する。 IBM Quantumはハードウェアとソフトウェアの両面で大きな進歩を遂げており、2016年以来、IBM Cloudを通じて量子ハードウェアへのアクセスを提供しており、世界で初めてアクセス可能な量子コンピュータでマイルストーンを達成している。 この記事では、実用的な量子コンピュータの開発に焦点を当てた、IBMの量子コンピューティングの旅について説明する。 我々は、IBM Quantumのプロセッサの進化と進化を、1000キュービットの障壁を超えた最近のブレークスルーを含む世代にわたって要約する。 この論文は、様々なハードウェアのパフォーマンス指標の詳細をレビューし、時間とともにその進化をトレースし、IBM Quantumがノイズの多い中間スケール量子(NISQ)コンピューティング時代からフォールトトレラントな量子コンピューティング能力へ移行したことを強調した。

Quantum computers represent a transformative frontier in computational technology, promising exponential speedups beyond classical computing limits. IBM Quantum has led significant advancements in both hardware and software, providing access to quantum hardware via IBM Cloud since 2016, achieving a milestone with the world's first accessible quantum computer. This article explores IBM's quantum computing journey, focusing on the development of practical quantum computers. We summarize the evolution and advancements of IBM Quantum's processors across generations, including their recent breakthrough surpassing the 1,000-qubit barrier. The paper reviews detailed performance metrics across various hardware, tracing their evolution over time and highlighting IBM Quantum's transition from the noisy intermediate-scale quantum (NISQ) computing era towards fault-tolerant quantum computing capabilities.
翻訳日:2024-11-05 00:09:47 公開日:2024-09-17
# 畳み込みニューラルネットワークによる画像分類の分析:多機能イネ葉病予測と農家への勧告

Analysis of Convolutional Neural Network-based Image Classifications: A Multi-Featured Application for Rice Leaf Disease Prediction and Recommendations for Farmers ( http://arxiv.org/abs/2410.01827v1 )

ライセンス: Link先を確認
Biplov Paneru, Bishwash Paneru, Krishna Bikram Shah, (参考訳) 本研究では,8つの異なる畳み込みニューラルネットワーク(CNN)アルゴリズムを用いてイネ病の分類を改善する方法を提案する。 機能豊富なインターフェースを提供するTkinterベースのアプリケーション。 この最先端のアプリケーションの助けを借りて、農家はリアルタイムの病気予測を可能にし、パーソナライズされたレコメンデーションを提供することで、タイムリーでインフォームドな意思決定ができる。 ユーザフレンドリーなTkinterインターフェースとともに、ResNet-50、InceptionV3、VGG16、MobileNetv2といった最先端CNNトランスファー学習アルゴリズムベースの技術をUCIデータセットとスムーズに統合することは、農業プラクティスの近代化と持続可能な作物管理を保証するための大きな進歩である。 注目すべき結果は、ResNet-50の75%の精度、DenseNet121の90%の精度、VGG16の84%の精度、MobileNetV2の95.83%の精度、DenseNet169の91.61%の精度、InceptionV3の86%の精度である。 これらの結果はモデルの性能を簡潔に要約し、正確な稲作病の特定のための適切な戦略を研究者が選択するのに役立つ。 VGG19では70%の精度で、Nasnetでは80.02%の精度で厳しいオーバーフィッティングが見られた。 Renset101では54%の精度しか達成できず、NetB0では33%しか達成できなかった。 MobileNetV2でトレーニングされたモデルがTKinter GUIアプリケーションにうまくデプロイされ、画像やリアルタイムのビデオキャプチャを使って予測を行うことができた。

This study presents a novel method for improving rice disease classification using 8 different convolutional neural network (CNN) algorithms, which will further the field of precision agriculture. Tkinter-based application that offers farmers a feature-rich interface. With the help of this cutting-edge application, farmers will be able to make timely and well-informed decisions by enabling real-time disease prediction and providing personalized recommendations. Together with the user-friendly Tkinter interface, the smooth integration of cutting-edge CNN transfer learning algorithms-based technology that include ResNet-50, InceptionV3, VGG16, and MobileNetv2 with the UCI dataset represents a major advancement toward modernizing agricultural practices and guaranteeing sustainable crop management. Remarkable outcomes include 75% accuracy for ResNet-50, 90% accuracy for DenseNet121, 84% accuracy for VGG16, 95.83% accuracy for MobileNetV2, 91.61% accuracy for DenseNet169, and 86% accuracy for InceptionV3. These results give a concise summary of the models' capabilities, assisting researchers in choosing appropriate strategies for precise and successful rice crop disease identification. A severe overfitting has been seen on VGG19 with 70% accuracy and Nasnet with 80.02% accuracy. On Renset101, only an accuracy of 54% could be achieved, along with only 33% on efficientNetB0. A MobileNetV2-trained model was successfully deployed on a TKinter GUI application to make predictions using image or real-time video capture.
翻訳日:2024-11-04 14:45:01 公開日:2024-09-17
# 放射線治療合成データセット作成のための深部生成モデルに基づく画像から画像への変換

Image-to-Image Translation Based on Deep Generative Modeling for Radiotherapy Synthetic Dataset Creation ( http://arxiv.org/abs/2410.01828v1 )

ライセンス: Link先を確認
Olga Glazunova, Cecile J. A. Wolfs, Frank Verhaegen, (参考訳) 目的:放射線療法はがん治療に正確な放射線線量を使用し、例えば電子ポータルイメージングデバイス(EPID)を使用して治療をガイドする。 エラー検出・処理検証に有効な人工知能(AI)モデルを開発するには,EPID画像の大規模かつ高精度なデータセットが必要であるが,そのような高品質な実データを取得することは困難である。 合成EPIDデータは有効な代替手段になり得るが、正確で信頼性の高いAIモデルを効果的にトレーニングするためには、このデータが可能な限り現実的であることを保証することが不可欠である。 EPID予測ではモデル化されていないが、実測EPID画像上に存在する測定の不確実性は、エラー検出や分類などの下流タスクを妨げる可能性がある。 本研究の目的は,画像から画像への変換(I2I)によって合成EPIDデータを改善することである。 アプローチ: 989個のEPID画像とそれに対応するEPID画像を用いた。 本稿では,この課題に対するペアモデルとペアモデルの両方の評価を行う。 前者に対しては,従来検討されていなかったI2Iに,変分オートエンコーダ(VAE)を改良した手法を導入する。 後者ではUNIT (UNsupervised Image-to- Image Translation Networks) を用いる。 結果: 両モデルともI2I翻訳の程度を達成し, UNITモデルよりも優れたVAEモデル (平均絶対誤差: 4.1 cGy vs 6.4 cGy, 相対線量差: 2.5% vs 5.5%, 絶対線量差: 5.3 cGy vs 10.8 cGy) が得られた。 意義: この強化された合成データは、自動エラー検出と放射線治療におけるエラー分類のためのニューラルネットワークのトレーニングなどの下流タスクを改善することが期待されている。

Objective: Radiotherapy uses precise doses of radiation to treat cancer, requiring accurate verification, e.g. using the Electronic Portal Imaging Device (EPID), to guide treatment. To develop an effective artificial intelligence (AI) model for error detection and treatment verification, a large and well-annotated dataset of EPID images is needed, however, acquiring such high quality real data is difficult. While synthetic EPID data could be a viable alternative, it is critical to ensure that this data is as realistic as possible to effectively train an accurate and reliable AI model. The measurement uncertainty that is not modeled in EPID predictions but is present on real measured EPID images can hinder downstream tasks such as error detection and classification. Our research aims to improve synthetic EPID data through image-to-image (I2I) translation based on deep generative modeling. Approach: A dataset of 989 predicted EPID images and corresponding measured EPID images was used. We evaluate both paired and unpaired generative modeling approaches for this task. For the former, we introduce a novel modification of Variational Autoencoder (VAE) to I2I, a method that, to the best of our knowledge, has not been previously explored for this task. For the latter, we use UNsupervised Image-to-Image Translation Networks (UNIT). Results: Our results show that both models achieved some degree of I2I translation, with our novel modification of the VAE model outperforming the UNIT model in improving key metrics (mean absolute error: 4.1 cGy vs 6.4 cGy; relative dose difference in-field: 2.5% vs 5.5%; absolute dose difference in-field: 5.3 cGy vs 10.8 cGy). Significance: This enhanced synthetic data is expected to improve downstream tasks such as training neural networks for automated error detection and error classification in radiotherapy.
翻訳日:2024-11-04 14:45:01 公開日:2024-09-17
# BoViLA:LLMによる自己探究と回答によるビデオ言語アライメントのブートストラップ

BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering ( http://arxiv.org/abs/2410.02768v1 )

ライセンス: Link先を確認
Jin Chen, Kaijing Ma, Haojian Huang, Jiayu Shen, Han Fang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, Yanmei Kang, (参考訳) マルチモーダルモデルの開発は急速に進展しており、いくつかの顕著な機能がある。 しかし、ビデオテキストペアの注釈付けは高価で不十分である。 ビデオ質問応答(VideoQA)タスクを例にとると、人間の注釈付き質問や回答はビデオの一部だけをカバーし、似たような意味論は異なるテキスト形式で表現することもでき、ビデオの未利用につながる。 そこで本研究では,ビデオ情報とLLMの内部知識をより徹底的に活用し,モダリティアライメントの向上に寄与する自己学習フレームワークであるBoViLAを提案する。 有害な自己生成質問をフィルタリングするために,不確実性を推定し,文脈内におけるモダリティアライメントを評価することで自己生成質問の品質を評価するために,EDL(Evidential Deep Learning)を導入する。 我々の知る限りでは、この研究はLLMベースのモダリティアライメントのための自己学習フレームワークを初めて探求したものです。 我々は,BoViLAを5つの強力なVideoQAベンチマークで評価し,その有効性と汎用性を実証した。 さらに,自己学習フレームワークとEDLに基づく不確実性フィルタリング機構の広範な解析を行った。 コードはhttps://github.com/dunknsabsw/BoViLA.comで公開される。

The development of multi-modal models has been rapidly advancing, with some demonstrating remarkable capabilities. However, annotating video-text pairs remains expensive and insufficient. Take video question answering (VideoQA) tasks as an example, human annotated questions and answers often cover only part of the video, and similar semantics can also be expressed through different text forms, leading to underutilization of video. To address this, we propose BoViLA, a self-training framework that augments question samples during training through LLM-based self-questioning and answering, which help model exploit video information and the internal knowledge of LLMs more thoroughly to improve modality alignment. To filter bad self-generated questions, we introduce Evidential Deep Learning (EDL) to estimate uncertainty and assess the quality of self-generated questions by evaluating the modality alignment within the context. To the best of our knowledge, this work is the first to explore LLM-based self-training frameworks for modality alignment. We evaluate BoViLA on five strong VideoQA benchmarks, where it outperforms several state-of-the-art methods and demonstrate its effectiveness and generality. Additionally, we provide extensive analyses of the self-training framework and the EDL-based uncertainty filtering mechanism. The code will be made available at https://github.com/dunknsabsw/BoViLA.
翻訳日:2024-11-03 06:04:22 公開日:2024-09-17
# 自律型人工知能システムの制定法の基礎

Fundamentals of legislation for autonomous artificial intelligence systems ( http://arxiv.org/abs/2410.02769v1 )

ライセンス: Link先を確認
Anna Romanova, (参考訳) 本稿では、取締役会における自律システムの実例に基づいて、自律型企業管理システムの開発と実施の過程で、専用の運用コンテキストを形成する方法を提案する。 自律型企業管理システムの運用状況の重要な部分は、企業が運営する規制と法的環境である。 自律型人工知能システムのための特別な運用コンテキストを作成するために、ローカルな規制文書のワード化は、人による使用と自律型システムによる使用の2つのバージョンで同時に表示することができる。 この場合、人工知能システムは、そのようなシステムが要求される標準内で機能を実行することができるように、明確に定義された運用コンテキストを得る。 個人と自律人工知能システムの共同作業の詳細を提供する地方規制は、自律システムの開発と実施を規定する関連する法律の基礎を作ることができる。

The article proposes a method for forming a dedicated operational context in course of development and implementation of autonomous corporate management systems based on example of autonomous systems for a board of directors. The significant part of the operational context for autonomous company management systems is the regulatory and legal environment within which corporations operate. In order to create a special operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide for the specifics of the joint work of individuals and autonomous artificial intelligence systems can create the basis of the relevant legislation governing the development and implementation of autonomous systems.
翻訳日:2024-11-03 06:04:22 公開日:2024-09-17
# インサイトフル鉄道軌道評価:NARX特徴解釈の活用

Insightful Railway Track Evaluation: Leveraging NARX Feature Interpretation ( http://arxiv.org/abs/2410.02770v1 )

ライセンス: Link先を確認
P. H. O. Silva, A. S. Cerqueira, E. G. Nepomuceno, (参考訳) 時系列の分類は、意味のある洞察を抽出し、エンジニアリング領域における意思決定を支援するために不可欠である。 NARXのようなパラメトリックモデリング技術は、容易に解釈可能で透明な構造のため、環境時系列のような複雑なプロセスを理解するのに有用である。 本稿では,NARX手法とロジスティック回帰を融合した分類アルゴリズム,ロジスティック・NARX Multinomialを紹介する。 このアプローチは解釈可能なモデルを生成するだけでなく、マルチクラス分類に関連する課題に効果的に取り組む。 さらに, 鉄道分野に適した革新的な手法を導入し, NARXモデルを用いて, 搭載センサから得られる特徴の多様さを解釈するツールを提供する。 このソリューションは、機能の重要性の分析を通じて深い洞察を与え、安全性とメンテナンスに関する情報的な意思決定を可能にします。

The classification of time series is essential for extracting meaningful insights and aiding decision-making in engineering domains. Parametric modeling techniques like NARX are invaluable for comprehending intricate processes, such as environmental time series, owing to their easily interpretable and transparent structures. This article introduces a classification algorithm, Logistic-NARX Multinomial, which merges the NARX methodology with logistic regression. This approach not only produces interpretable models but also effectively tackles challenges associated with multiclass classification. Furthermore, this study introduces an innovative methodology tailored for the railway sector, offering a tool by employing NARX models to interpret the multitude of features derived from onboard sensors. This solution provides profound insights through feature importance analysis, enabling informed decision-making regarding safety and maintenance.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# レーダ画像からの手の動きの複雑な畳み込みニューラルネットワーク分類

Complex-valued convolutional neural network classification of hand gesture from radar images ( http://arxiv.org/abs/2410.02771v1 )

ライセンス: Link先を確認
Shokooh Khandan, (参考訳) ハンドジェスチャー認識システムは、過去10年間に多くのエキサイティングな進歩をもたらし、安全とセキュリティのアプリケーションから自動車分野まで、いくつかのアプリケーション分野とHCI(ヒューマンコンピュータインタラクション)で人気を博している。 マルチレイヤパーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、CNN-RNNとして知られる最後の2つのアーキテクチャのカスケードなど、さまざまなディープニューラルネットワークアーキテクチャが手動認識システムのためにすでに検査されている。 しかし、既存のMLアルゴリズムのほとんどは、実数値(RV)のためのビルディングブロックとテクニックを設計・開発している。 研究者らは、複素数値(CV)レーダー画像に対して、複素数を実数と虚数に分割することで、CV最適化問題をRV画像に変換するなど、様々なRV技術を適用した。 しかし、この手法の大きな欠点は、結果のアルゴリズムがネットワーク次元を2倍にすることである。 近年の RNN およびその他の基本的な理論解析により,CV の数値は表現能力に富むことが示唆されているが,そのようなモデルの設計に必要なビルディングブロックが欠如しているため,CV ネットワークの性能は損なわれている。 本稿では,すべてのビルディングブロック,前方操作,後方操作,および複雑な領域におけるデリバティブを含む,完全なCV-CNNを提案する。 本稿では,2組のCVハンドジェスチャーレーダ画像の分類モデルについて,等価なRVモデルと比較検討する。 第5章では,2組のCVハンドジェスチャーレーダデータセットのバイナリ分類を目的としたCVフォワード残差ネットワークを提案し,その性能を,提案したCV-CNNとベースラインCV-フォワードCNNと比較した。

Hand gesture recognition systems have yielded many exciting advancements in the last decade and become more popular in HCI (human-computer interaction) with several application areas, which spans from safety and security applications to automotive field. Various deep neural network architectures have already been inspected for hand gesture recognition systems, including multi-layer perceptron (MLP), convolutional neural network (CNN), recurrent neural network (RNN) and a cascade of the last two architectures known as CNN-RNN. However, a major problem still exists, which is most of the existing ML algorithms are designed and developed the building blocks and techniques for real-valued (RV). Researchers applied various RV techniques on the complex-valued (CV) radar images, such as converting a CV optimisation problem into a RV one, by splitting the complex numbers into their real and imaginary parts. However, the major disadvantage of this method is that the resulting algorithm will double the network dimensions. Recent work on RNNs and other fundamental theoretical analysis suggest that CV numbers have a richer representational capacity, but due to the absence of the building blocks required to design such models, the performance of CV networks are marginalised. In this report, we propose a fully CV-CNN, including all building blocks, forward and backward operations, and derivatives all in complex domain. We explore our proposed classification model on two sets of CV hand gesture radar images in comparison with the equivalent RV model. In chapter five, we propose a CV-forward residual network, for the purpose of binary classification of the two sets of CV hand gesture radar datasets and compare its performance with our proposed CV-CNN and a baseline CV-forward CNN.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 短絡ハイドラント試験による給水網の効率的な校正

Efficient Numerical Calibration of Water Delivery Network Using Short-Burst Hydrant Trials ( http://arxiv.org/abs/2410.02772v1 )

ライセンス: Link先を確認
Katarzyna Kołodziej, Michał Cholewa, Przemysław Głomb, Wojciech Koral, Michał Romaszewski, (参考訳) 水分配ネットワーク水圧モデル(WDN HM)におけるキャリブレーションは不確実性を低減するための重要なプロセスである。 しかし、過大なパイプラインのようなある種のWDNの特徴は、通常の日常的な条件下での浅い圧力勾配をもたらし、効果的なキャリブレーションの課題となっている。 本研究は,WDNの圧力勾配を増大させる短時間水和剤試験を用いたキャリブレーション法を提案する。 データは、時間単位の消費パターンに合わせて再サンプリングされる。 WDNゾーンのユニークな実世界のケーススタディでは、日々の使用量に基づくキャリブレーションと比較して、我々の手法の統計的に有意な優位性を示す。 この実験手法は、機械学習のクロスバリデーションフレームワークにインスパイアされ、2つの最先端のキャリブレーションアルゴリズムを利用し、最高のシナリオで最大45%の絶対誤差を減少させる。

Calibration is a critical process for reducing uncertainty in Water Distribution Network Hydraulic Models (WDN HM). However, features of certain WDNs, such as oversized pipelines, lead to shallow pressure gradients under normal daily conditions, posing a challenge for effective calibration. This study proposes a calibration methodology using short hydrant trials conducted at night, which increase the pressure gradient in the WDN. The data is resampled to align with hourly consumption patterns. In a unique real-world case study of a WDN zone, we demonstrate the statistically significant superiority of our method compared to calibration based on daily usage. The experimental methodology, inspired by a machine learning cross-validation framework, utilises two state-of-the-art calibration algorithms, achieving a reduction in absolute error of up to 45% in the best scenario.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 人間の不確かさを意識する:VQAにおけるモデル予測と人間の反応の相違性の評価

Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA ( http://arxiv.org/abs/2410.02773v1 )

ライセンス: Link先を確認
Jian Lan, Diego Frassinelli, Barbara Plank, (参考訳) 大規模な視覚言語モデルは、特に人間の不確実性を示す場合、複数の人間のアノテータによって提供される応答を正確に予測するのにしばしば苦労する。 本研究では,視覚質問応答(VQA)タスクに着目し,現状の視覚言語モデルが人間の反応の分布とどのように相関するかを包括的に評価する。 そこで本研究では,不一致(HUD)における人体不確実性のレベル(低,中,高)に基づいて試料を分類し,精度だけでなく,VQAにおいて新たに3つの人体関連指標を用いてHUDの影響を調査した。 また,モデルと人間との整合性を向上するために,共通校正と人間校正の効果を検証する。 本研究の結果から,現在このタスクの最適モデルであるBEiT3でさえ,多様な人間の反応に固有のマルチラベル分布を捉えるのに苦労していることが明らかとなった。 さらに、一般的に使われている精度指向キャリブレーション技術は、BEiT3がHUDを捕捉する能力に悪影響を及ぼし、モデル予測と人的分布のギャップをさらに広げる。 対照的に、VQAにおける人間の分布に対するモデルの校正の利点が示され、モデルの信頼性と人間の不確実性との整合性が向上した。 我々の研究は、VQAでは、人間の反応とモデル予測の整合性が検討され、今後の研究の次の重要なターゲットとなることを示唆している。

Large vision-language models frequently struggle to accurately predict responses provided by multiple human annotators, particularly when those responses exhibit human uncertainty. In this study, we focus on the Visual Question Answering (VQA) task, and we comprehensively evaluate how well the state-of-the-art vision-language models correlate with the distribution of human responses. To do so, we categorize our samples based on their levels (low, medium, high) of human uncertainty in disagreement (HUD) and employ not only accuracy but also three new human-correlated metrics in VQA, to investigate the impact of HUD. To better align models with humans, we also verify the effect of common calibration and human calibration. Our results show that even BEiT3, currently the best model for this task, struggles to capture the multi-label distribution inherent in diverse human responses. Additionally, we observe that the commonly used accuracy-oriented calibration technique adversely affects BEiT3's ability to capture HUD, further widening the gap between model predictions and human distributions. In contrast, we show the benefits of calibrating models towards human distributions for VQA, better aligning model confidence with human uncertainty. Our findings highlight that for VQA, the consistent alignment between human responses and model predictions is understudied and should become the next crucial target of future studies.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 逆最適化による電力需要応答の観測不能成分の推定

Estimating the Unobservable Components of Electricity Demand Response with Inverse Optimization ( http://arxiv.org/abs/2410.02774v1 )

ライセンス: Link先を確認
Adrian Esteban-Perez, Derek Bunn, Yashar Ghiassi-Farrokhfal, (参考訳) 価格に対する電力需要の反応を理解し予測することは、システムオペレーター、小売業者、規制当局にとって重要な活動である。 従来の機械学習や時系列分析は、長年にわたって緩やかに適応してきた日常的な需要パターンには適しているが、ソーラー・プラス・ストレージ・システムや電気自動車といった柔軟な資産を持つアクティブ・コンシューマーの出現は、新たな課題をもたらす。 これらのアクティブな消費者は、より複雑な消費パターンを示しており、そのドライバは小売業者やシステムオペレーターにとって観測不可能であることが多い。 実際には、システムオペレータや小売業者は、グリッドと交換される全体のエネルギー消費や生産を反映する(グリッド接続ポイントで測定される)純需要のみを監視することができる。 結果として、すべての"behind-the-meter"アクティビティ、例えば、これらのエンティティから隠された柔軟性の残りの使用が実現します。 いずれの場合も、小売業者の収入とシステム負荷は、メーターの背後にあるこれらの活動に影響されるが、その詳細は推測されるのみである。 我々は、需要の主成分であるベースロード、フレキシブル、セルフジェネレーションを定義し、それぞれが市場価格信号に対する非線形応答を持つ。 フレキシブルな需要応答と自己生成が増加するにつれて、既存の手法がまだうまく機能しているか、そうでなければ、観測されていない振る舞いの構成要素を理解して投影する別の方法があるのかという疑問が浮き彫りになる。 この実践的課題に対応して,データ駆動逆最適化(IO)手法の可能性を評価する。 この手法は, 後方動作やデバイスレベルの測定を直接観察することなく, 分解した消費パターンを特徴付ける [in Japanese]

Understanding and predicting the electricity demand responses to prices are critical activities for system operators, retailers, and regulators. While conventional machine learning and time series analyses have been adequate for the routine demand patterns that have adapted only slowly over many years, the emergence of active consumers with flexible assets such as solar-plus-storage systems, and electric vehicles, introduces new challenges. These active consumers exhibit more complex consumption patterns, the drivers of which are often unobservable to the retailers and system operators. In practice, system operators and retailers can only monitor the net demand (metered at grid connection points), which reflects the overall energy consumption or production exchanged with the grid. As a result, all "behind-the-meter" activities-such as the use of flexibility-remain hidden from these entities. Such behind-the-meter behavior may be controlled by third party agents or incentivized by tariffs; in either case, the retailer's revenue and the system loads would be impacted by these activities behind the meter, but their details can only be inferred. We define the main components of net demand, as baseload, flexible, and self-generation, each having nonlinear responses to market price signals. As flexible demand response and self generation are increasing, this raises a pressing question of whether existing methods still perform well and, if not, whether there is an alternative way to understand and project the unobserved components of behavior. In response to this practical challenge, we evaluate the potential of a data-driven inverse optimization (IO) methodology. This approach characterizes decomposed consumption patterns without requiring direct observation of behind-the-meter behavior or device-level metering [...]
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# セルフリーMIMOシステムにおけるユーザ中心クラスタリングのための深層学習手法

A Deep Learning Approach for User-Centric Clustering in Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2410.02775v1 )

ライセンス: Link先を確認
Giovanni Di Gennaro, Amedeo Buonanno, Gianmarco Romano, Stefano Buzzi, Francesco A. N Palmieri, (参考訳) セル間干渉に悩まされる従来のMIMOセル構成とは対照的に、セルフリーのMIMOシステムはネットワークリソースをカバー範囲全体に分散し、複数のアクセスポイント(AP)と接続し、システムキャパシティとユーザ間の公正性を高めることができる。 このようなシステムでは、APとユーザの間の関連が重要な機能である: 最適な関連を決定することは、確かに禁制的な複雑さの組合せ問題である。 そこで本研究では,アクティブ接続数を制御しながら,スペクトルの総和効率を最大化することを目的としたユーザクラスタリング問題を解決するために,ディープラーニングに基づくソリューションを提案する。 提案手法は,ユーザ数に応じて効果的に拡張可能であり,長期のメモリセルを再トレーニングを必要とせずに動作させることができる。 その結果,パイロット汚染による不完全なチャネル状態情報が存在する場合でも,提案手法の有効性が示された。

Contrary to conventional massive MIMO cellular configurations plagued by inter-cell interference, cell-free massive MIMO systems distribute network resources across the coverage area, enabling users to connect with multiple access points (APs) and boosting both system capacity and fairness across user. In such systems, one critical functionality is the association between APs and users: determining the optimal association is indeed a combinatorial problem of prohibitive complexity. In this paper, a solution based on deep learning is thus proposed to solve the user clustering problem aimed at maximizing the sum spectral efficiency while controlling the number of active connections. The proposed solution can scale effectively with the number of users, leveraging long short-term memory cells to operate without the need for retraining. Numerical results show the effectiveness of the proposed solution, even in the presence of imperfect channel state information due to pilot contamination.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 人気バイアスをバイパスする:より優れたロングテール勧告のためのリパースモデル

Bypassing the Popularity Bias: Repurposing Models for Better Long-Tail Recommendation ( http://arxiv.org/abs/2410.02776v1 )

ライセンス: Link先を確認
Václav Blahut, Karel Koupil, (参考訳) リコメンダシステムは、ソーシャルメディアであろうとコンテンツプラットフォームであろうと、オンライン上で遭遇する情報を形作る上で重要な役割を担います。 近年の多くの研究は、リコメンデータシステムにおける公正性の問題に対処しており、一般的には、情報への平等なアクセスを保証すること、全ユーザまたはユーザグループの機会を確保すること、フィルターバブルやエコーチャンバーを避けるために多様なコンテンツを促進すること、透明性と説明可能性を高めること、倫理的かつ持続可能なプラクティスに固執すること、といったトピックに焦点を当てている。 本研究では,オンラインコンテンツプラットフォーム上でのパブリッシャ間の露出の均等な分布を実現することを目的としており,特に不当に不公平である可能性のある高品質のロングテールコンテンツを制作する人たちに焦点を当てている。 産業レコメンデーションシステムの既存コンポーネントを再利用し,レコメンデーション品質を維持しつつ,未表示のパブリッシャーに価値ある露出を提供する手法を提案する。 提案手法の有効性を示すため,大規模オンラインAB実験を行い,望ましい結果を示す報告を行い,生産環境におけるアプローチの長期的適用からいくつかの知見を共有した。

Recommender systems play a crucial role in shaping information we encounter online, whether on social media or when using content platforms, thereby influencing our beliefs, choices, and behaviours. Many recent works address the issue of fairness in recommender systems, typically focusing on topics like ensuring equal access to information and opportunities for all individual users or user groups, promoting diverse content to avoid filter bubbles and echo chambers, enhancing transparency and explainability, and adhering to ethical and sustainable practices. In this work, we aim to achieve a more equitable distribution of exposure among publishers on an online content platform, with a particular focus on those who produce high quality, long-tail content that may be unfairly disadvantaged. We propose a novel approach of repurposing existing components of an industrial recommender system to deliver valuable exposure to underrepresented publishers while maintaining high recommendation quality. To demonstrate the efficiency of our proposal, we conduct large-scale online AB experiments, report results indicating desired outcomes and share several insights from long-term application of the approach in the production setting.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# OATH: エンドツーエンドMLフェアネスの効率的かつ柔軟なゼロ知識証明

OATH: Efficient and Flexible Zero-Knowledge Proofs of End-to-End ML Fairness ( http://arxiv.org/abs/2410.02777v1 )

ライセンス: Link先を確認
Olive Franzese, Ali Shahin Shamsabadi, Hamed Haddadi, (参考訳) 公正なAIシステムには多くの関心があるが、フェアネス非コンプライアンス(フェアモデルが実際に使用されているかどうかを懸念する)の問題は、あまり注目されていない。 Zero-Knowledge Proofs of Fairness (ZKPoF)は、サービスプロバイダが、独自のモデルパラメータとデータに対する機密性を保証するとともに、モデルが同等に多様な人口層を提供することを、外部の当事者に検証できるようにすることによって、公正性に対処する。 それらは、公的な信頼と効果的なAI規制を構築する大きな可能性を持っているが、ZKPoFのこれまでのテクニックは、現実世界のデプロイメントに適していない。 我々は、最初のZKPoFフレームワークであるOATHを提示する。 i) サービスクエリ応答としてのMLに匹敵するクライアント対面通信と,漸近的に一定量の応答クエリを検証するオフライン監査フェーズを,デプロイ可能な効率で実現する。 (ii) 正しい推論のゼロ知識証明が与えられた任意のスコアベースの分類器に対して、モジュラリティで柔軟に展開可能であること。 三 トレーニング、推論、監査の秘密性及び公正性を保証するエンドツーエンドのセキュリティモデルで、デプロイ可能を確保すること。 OATHは、具体的なパラメータ設定において、悪意のある敵に対して強い堅牢性が得られることを示す。 特に、OATHは、ニューラルネットワークZKPoFの以前の作業よりも、ランタイムを1343倍改善し、数千万のパラメータを持つDNNでさえ、はるかに大きなモデルにスケールする。

Though there is much interest in fair AI systems, the problem of fairness noncompliance -- which concerns whether fair models are used in practice -- has received lesser attention. Zero-Knowledge Proofs of Fairness (ZKPoF) address fairness noncompliance by allowing a service provider to verify to external parties that their model serves diverse demographics equitably, with guaranteed confidentiality over proprietary model parameters and data. They have great potential for building public trust and effective AI regulation, but no previous techniques for ZKPoF are fit for real-world deployment. We present OATH, the first ZKPoF framework that is (i) deployably efficient with client-facing communication comparable to in-the-clear ML as a Service query answering, and an offline audit phase that verifies an asymptotically constant quantity of answered queries, (ii) deployably flexible with modularity for any score-based classifier given a zero-knowledge proof of correct inference, (iii) deployably secure with an end-to-end security model that guarantees confidentiality and fairness across training, inference, and audits. We show that OATH obtains strong robustness against malicious adversaries at concretely efficient parameter settings. Notably, OATH provides a 1343x improvement to runtime over previous work for neural network ZKPoF, and scales up to much larger models -- even DNNs with tens of millions of parameters.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 電子商取引Webサイト構造からの異種製品関係と変種特性の学習

Learning variant product relationship and variation attributes from e-commerce website structures ( http://arxiv.org/abs/2410.02779v1 )

ライセンス: Link先を確認
Pedro Herrero-Vidal, You-Lin Chen, Cris Liu, Prithviraj Sen, Lichao Wang, (参考訳) 我々は,電子商取引カタログにおける変種商品のペアを特定するために,変種関係マッチング戦略であるVARMを導入する。 従来のエンティティ解決の定義は、製品の言及が同じ製品を指すかどうかに関係している。 しかし、これはeコマースアプリケーションにとって重要な製品関係を捉えるのに失敗する。 ここでは、これらの類似のeコマース製品リンクをキャプチャするために、変種製品関係における新しいタイプのエンティティ解決を定式化する。 従来の定義とは対照的に、新しい定義では、2つの積が互いに異なるマッチであるかどうかと、それらの間に異なる属性があるのかを識別する必要がある。 これら2つの要件を満たすため、エンコーディングと生成AIモデルの長所を活用する戦略を開発した。 まず、Webページの製品リンクをキャプチャし、従って異なる製品関係をキャプチャーするデータセットを構築し、コーディング LLM をトレーニングして、任意の製品に対する変動マッチングを予測する。 第2に,RAGを誘導する生成LDMを用いて,異種製品群間の変異や共通属性を抽出する。 当社の戦略を検証するため,世界有数のeコマース小売業者の実際のデータを用いて,モデル性能を評価した。 その結果、私たちの戦略は代替ソリューションよりも優れており、これらの新しいタイプの製品関係を活用する方法を舗装していることがわかった。

We introduce VARM, variant relationship matcher strategy, to identify pairs of variant products in e-commerce catalogs. Traditional definitions of entity resolution are concerned with whether product mentions refer to the same underlying product. However, this fails to capture product relationships that are critical for e-commerce applications, such as having similar, but not identical, products listed on the same webpage or share reviews. Here, we formulate a new type of entity resolution in variant product relationships to capture these similar e-commerce product links. In contrast with the traditional definition, the new definition requires both identifying if two products are variant matches of each other and what are the attributes that vary between them. To satisfy these two requirements, we developed a strategy that leverages the strengths of both encoding and generative AI models. First, we construct a dataset that captures webpage product links, and therefore variant product relationships, to train an encoding LLM to predict variant matches for any given pair of products. Second, we use RAG prompted generative LLMs to extract variation and common attributes amongst groups of variant products. To validate our strategy, we evaluated model performance using real data from one of the world's leading e-commerce retailers. The results showed that our strategy outperforms alternative solutions and paves the way to exploiting these new type of product relationships.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 潜時拡散モデルによる脳波画像生成の合理化

Guess What I Think: Streamlined EEG-to-Image Generation with Latent Diffusion Models ( http://arxiv.org/abs/2410.02780v1 )

ライセンス: Link先を確認
Eleonora Lopez, Luigi Sigillo, Federica Colonnese, Massimo Panella, Danilo Comminiello, (参考訳) 脳波から画像を生成することは、脳の信号がどのように視覚的手がかりをコードしているかを理解することによって、脳とコンピュータのインターフェース(BCI)を進化させる可能性によって、注目を集めている。 文献の多くは、fMRIが高空間分解能を特徴とするfMRI-to-Imageタスクに焦点を当てている。 しかし、fMRIは高価な神経画像モダリティであり、リアルタイムBCIを許さない。 一方、脳波検査(EEG)は低コストで非侵襲的でポータブルなニューロイメージング技術であり、将来のリアルタイム応用には魅力的な選択肢である。 しかし、脳波は空間分解能が低く、ノイズやアーティファクトへの感受性が低いため、脳波から画像を生成するのがより難しくなるため、固有の課題を提示している。 本稿では,脳波信号を介して潜在拡散モデル(LDM)を条件付けるための制御ネットアダプタをベースとした合理化フレームワークを用いて,これらの問題に対処する。 我々は,提案手法が他の最先端モデルに勝っていることを示すために,一般的なベンチマークの実験とアブレーション研究を行う。 大規模な事前処理、事前訓練、異なる損失、キャプションモデルを必要とするこれらの方法とは異なり、我々のアプローチは効率的で簡単であり、最小限の事前処理と少数のコンポーネントしか必要としない。 コードは公開後利用可能になる。

Generating images from brain waves is gaining increasing attention due to its potential to advance brain-computer interface (BCI) systems by understanding how brain signals encode visual cues. Most of the literature has focused on fMRI-to-Image tasks as fMRI is characterized by high spatial resolution. However, fMRI is an expensive neuroimaging modality and does not allow for real-time BCI. On the other hand, electroencephalography (EEG) is a low-cost, non-invasive, and portable neuroimaging technique, making it an attractive option for future real-time applications. Nevertheless, EEG presents inherent challenges due to its low spatial resolution and susceptibility to noise and artifacts, which makes generating images from EEG more difficult. In this paper, we address these problems with a streamlined framework based on the ControlNet adapter for conditioning a latent diffusion model (LDM) through EEG signals. We conduct experiments and ablation studies on popular benchmarks to demonstrate that the proposed method beats other state-of-the-art models. Unlike these methods, which often require extensive preprocessing, pretraining, different losses, and captioning models, our approach is efficient and straightforward, requiring only minimal preprocessing and a few components. Code will be available after publication.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# ホスピタリティ産業におけるICTリテラシーの強化と持続的実践:Mnquma市町村の視点から

Enhancing ICT Literacy and Sustainable Practices in the Hospitality Industry: Insights from Mnquma Municipality ( http://arxiv.org/abs/2410.02781v1 )

ライセンス: Link先を確認
Jose Lukose, Abayomi Agbeyangi, (参考訳) レジャーとホスピタリティ産業は、サービス提供と顧客エクスペリエンスを変革する新しい技術を採用することで、世界経済の重要な原動力となっている。 テクノロジーの採用に伴う変革の可能性と利益にもかかわらず、農村部、特に小規模のプレイヤーの間では採用のレベルは低い。 本研究は,南アフリカ共和国ケープ州東部農村部におけるICTリテラシーとICT導入の意義について,特にMnquma市町村を中心に検討した。 本研究は,実証主義的パラダイム内でのケーススタディデザインを活用した,非確率サンプリングとパーポーブ技術を用いている。 21名の小人数選手(BnBs,ゲストハウス,非サービス施設)をランダムに選別し,質問紙による対面インタビューと質問紙によるデータ収集を行った。 データを記述統計とKruskal-Wallis H Testを用いて解析し,ICT使用率の差について検討した。 試験の結果、Kruskal-Wallis Hは2.57で、p値は0.277である。 その結果、より教育的な労働力を持つ企業はICT採用率が高いことが判明した。 さらに、ICTリテラシー、持続可能なプラクティスの認識、ICTリソースへのアクセス、文脈上の課題といった重要な要素がICT導入に大きな影響を与えている。 ICTリテラシーとサステナビリティ教育をトレーニングプログラムに統合し、ICT統合を強化するための目標方針と支援メカニズムを開発することを推奨する。

The leisure and hospitality industry is a significant driver of the global economy, with the adoption of new technologies transforming service delivery and customer experience. Despite the transformative potential and benefits associated with adopting technology, there remains a low level of adoption in rural areas, particularly among small-scale players. This study explores the role of ICT literacy and sustainable practices in influencing ICT adoption among small-scale players in the hospitality industry in rural Eastern Cape Province, South Africa, specifically focusing on Mnquma Municipality. The study employs a non-probability sampling and purposive technique, utilising a case study research design within a positivist paradigm. A random sample of 21 small-scale players (BnBs, guest houses, and non-serviced accommodations) was selected, and data were collected through a face-to-face interview and questionnaire featuring closed-ended questions. The data were analysed using descriptive statistics and the Kruskal-Wallis H Test to examine differences in ICT usage levels. The test yielded a Kruskal-Wallis H of 2.57 with a p-value of 0.277. The findings reveal that businesses with more educated workforces demonstrate higher ICT adoption levels. Moreover, key factors such as ICT literacy, awareness of sustainable practices, access to ICT resources, and contextual challenges significantly impact ICT adoption. Recommendations include integrating ICT literacy and sustainability education into training programs and developing targeted policies and support mechanisms to enhance ICT integration.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 高校のサマーキャンプは、コーディング、データサイエンス、ディープラーニングの民主化を支援する

High School Summer Camps Help Democratize Coding, Data Science, and Deep Learning ( http://arxiv.org/abs/2410.02782v1 )

ライセンス: Link先を確認
Rosemarie Santa Gonzalez, Tsion Fitsum, Michael Butros, (参考訳) 本研究は,高校生がコーディング,データサイエンス,深層学習に導入するサマーキャンプシリーズの影響について報告する。 キャンプでは没入的な大学経験を提供し、メンターや教員との交流を通じて技術スキル、コラボレーション、インスピレーションを育成している。 キャンピングカーの経験は、インタビューやキャンプ前およびキャンプ後の調査を通じて記録されている。 主な教訓は、パーソナライズされたフィードバックの重要性、多様なメンターシップ、構造化されたコラボレーションである。 サーベイデータは、AIとデータサイエンスのキャリアへの関心を示す68.6%という、コーディングに対する自信の高まりを明らかにしている。 キャンプは、少数民族のSTEM教育における格差に対処する上でも重要な役割を担っている。 これらの知見は、将来の技術教育を形作り、STEM分野の多様性を促進する上で、こうした取り組みの価値を浮き彫りにしている。

This study documents the impact of a summer camp series that introduces high school students to coding, data science, and deep learning. Hosted on-campus, the camps provide an immersive university experience, fostering technical skills, collaboration, and inspiration through interactions with mentors and faculty. Campers' experiences are documented through interviews and pre- and post-camp surveys. Key lessons include the importance of personalized feedback, diverse mentorship, and structured collaboration. Survey data reveals increased confidence in coding, with 68.6\% expressing interest in AI and data science careers. The camps also play a crucial role in addressing disparities in STEM education for underrepresented minorities. These findings underscore the value of such initiatives in shaping future technology education and promoting diversity in STEM fields.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# 人間とAIのコラボレーションによるメンタルヘルスサポートの強化 - セキュアで共感的なAI対応チャットボットを目指して

Enhancing Mental Health Support through Human-AI Collaboration: Toward Secure and Empathetic AI-enabled chatbots ( http://arxiv.org/abs/2410.02783v1 )

ライセンス: Link先を確認
Rawan AlMakinah, Andrea Norcini-Pala, Lindsey Disney, M. Abdullah Canbaz, (参考訳) メンタルヘルスサポートへのアクセスは依然として限られており、特に構造的・文化的障壁がタイムリーなケアを妨げている地域社会では限られている。 本稿では、AI対応チャットボットをスケーラブルなソリューションとしての可能性について検討し、高度な大規模言語モデル(LLM)-GPT v4、Mistral Large、LLama V3.1に焦点を当て、メンタルヘルスの文脈において共感的で有意義な応答を提供する能力を評価する。 これらのモデルでは、構造化された反応を生成することは約束されるが、人間のセラピストの感情的な深さと適応性を再現するには不十分である。 さらに、信頼できないデータセットとメンタルヘルスの専門家との限定的なコラボレーションにより、信頼性、バイアス、プライバシの課題が持続する。 これらの制約に対処するため,データプライバシを確保し,バイアスを低減し,臨床医による継続的検証を統合して応答品質を向上させるためのフェデレート学習フレームワークを提案する。 このアプローチは、信頼できる、共感的でバイアスによって引き起こされたメンタルヘルスサポートを提供する、セキュアでエビデンスベースのAIチャットボットを開発することを目的としており、デジタルメンタルヘルスにおけるAIの役割を前進させることを目的としている。

Access to mental health support remains limited, particularly in marginalized communities where structural and cultural barriers hinder timely care. This paper explores the potential of AI-enabled chatbots as a scalable solution, focusing on advanced large language models (LLMs)-GPT v4, Mistral Large, and LLama V3.1-and assessing their ability to deliver empathetic, meaningful responses in mental health contexts. While these models show promise in generating structured responses, they fall short in replicating the emotional depth and adaptability of human therapists. Additionally, trustworthiness, bias, and privacy challenges persist due to unreliable datasets and limited collaboration with mental health professionals. To address these limitations, we propose a federated learning framework that ensures data privacy, reduces bias, and integrates continuous validation from clinicians to enhance response quality. This approach aims to develop a secure, evidence-based AI chatbot capable of offering trustworthy, empathetic, and bias-reduced mental health support, advancing AI's role in digital mental health care.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-17
# ウェアラブルIMUを用いた手洗い検出のためのマルチモーダル大気センシング

Multi-modal Atmospheric Sensing to Augment Wearable IMU-Based Hand Washing Detection ( http://arxiv.org/abs/2410.03549v1 )

ライセンス: Link先を確認
Robin Burchard, Kristof Van Laerhoven, (参考訳) 手洗いは個人の衛生上重要な部分である。 手洗い検出は、医療分野や専門分野の応用によるウェアラブルセンシングにおいて、関連するトピックである。 手洗い検出は、労働者が衛生規則に従うのを助けるために用いられる。 身体に装着したIMUセンサシステムを用いた手洗い検出は実現可能なアプローチであることが示されているが、いくつかの報告では、検出の特異性は低く、偽陽性率が高いことが報告されている。 本研究では,湿度,温度,気圧センサを付加した,オープンソースの新しいプロトタイプ装置を提案する。 10名の参加者と43名のハンドウォッシングイベントのベンチマークデータセットをコントリビュートし,センサのメリットを評価する。 さらに、アノテーションパイプラインと機械学習モデルの両方における追加センサーの有用性について概説する。 視覚検査により、特に湿度センサは、手洗い活動中に相対湿度が強く上昇していることが分かる。 機械学習によるデータの解析から、このような相対湿度パターンから恩恵を受ける特徴がまだ特定されていないことが分かる。

Hand washing is a crucial part of personal hygiene. Hand washing detection is a relevant topic for wearable sensing with applications in the medical and professional fields. Hand washing detection can be used to aid workers in complying with hygiene rules. Hand washing detection using body-worn IMU-based sensor systems has been shown to be a feasible approach, although, for some reported results, the specificity of the detection was low, leading to a high rate of false positives. In this work, we present a novel, open-source prototype device that additionally includes a humidity, temperature, and barometric sensor. We contribute a benchmark dataset of 10 participants and 43 hand-washing events and perform an evaluation of the sensors' benefits. Added to that, we outline the usefulness of the additional sensor in both the annotation pipeline and the machine learning models. By visual inspection, we show that especially the humidity sensor registers a strong increase in the relative humidity during a hand-washing activity. A machine learning analysis of our data shows that distinct features benefiting from such relative humidity patterns remain to be identified.
翻訳日:2024-11-02 21:29:56 公開日:2024-09-17
# コンストラクティブ・アプラキシア--人間の認知障害の予測不可能なビジョン・ランゲージモデルとアナロジー-

Constructive Apraxia: An Unexpected Limit of Instructible Vision-Language Models and Analog for Human Cognitive Disorders ( http://arxiv.org/abs/2410.03551v1 )

ライセンス: Link先を確認
David Noever, Samantha E. Miller Noever, (参考訳) 本研究は、視覚言語モデル(VLM)と人間の認知障害、特に建設的失語症との予期せぬ平行関係を明らかにする。 GPT-4 Vision, DALL-E 3, Midjourney v5を含む25種類の最先端のVLMを, 基本的空間的推論を必要とするPonzoイリュージョンの画像を生成する能力について検討した。 注目すべきは、25モデル中24モデルが2本の水平線を視界の背景に対して正しくレンダリングできなかったことだ。 モデルは常に空間的な指示を誤って解釈し、傾いた線や不整合線を生み出す。 この行動は、視力や運動能力に欠けるにもかかわらず、アプラキシア患者が単純な人物のコピーや構成に苦しむのと著しく似ている。 以上の結果から,現在のVLMは,他の領域の高度な機能にもかかわらず,建設的失語症と類似した空間的推論能力が欠如していることが示唆された。 このAIシステムの制限は、空間認知障害を研究するための新しい計算モデルを提供し、VLMアーキテクチャとトレーニング方法論の改善のための重要な領域を強調している。

This study reveals an unexpected parallel between instructible vision-language models (VLMs) and human cognitive disorders, specifically constructive apraxia. We tested 25 state-of-the-art VLMs, including GPT-4 Vision, DALL-E 3, and Midjourney v5, on their ability to generate images of the Ponzo illusion, a task that requires basic spatial reasoning and is often used in clinical assessments of constructive apraxia. Remarkably, 24 out of 25 models failed to correctly render two horizontal lines against a perspective background, mirroring the deficits seen in patients with parietal lobe damage. The models consistently misinterpreted spatial instructions, producing tilted or misaligned lines that followed the perspective of the background rather than remaining horizontal. This behavior is strikingly similar to how apraxia patients struggle to copy or construct simple figures despite intact visual perception and motor skills. Our findings suggest that current VLMs, despite their advanced capabilities in other domains, lack fundamental spatial reasoning abilities akin to those impaired in constructive apraxia. This limitation in AI systems provides a novel computational model for studying spatial cognition deficits and highlights a critical area for improvement in VLM architecture and training methodologies.
翻訳日:2024-11-02 21:29:56 公開日:2024-09-17
# LATAM AIスタートアップにおける投資リスクの評価:投資可能性のランキングと評価フレームワーク

Evaluating Investment Risks in LATAM AI Startups: Ranking of Investment Potential and Framework for Valuation ( http://arxiv.org/abs/2410.03552v1 )

ライセンス: Link先を確認
Abraham Ramos-Torres, Laura N. Montoya, (参考訳) ラテンアメリカのテックスタートアップエコシステム(LATAM)の成長は、さまざまな分野の市場ニーズに対処する革新的な起業家たちによって支えられている。 しかし、これらのスタートアップは、特定の管理アプローチを必要とするユニークな課題とリスクに直面している。 本稿では,LATAMのオンラインフードデリバリー産業の文脈において,TAM,SAM,SOMの指標を用いて事例スタディを行い,DCF(Discounted Cash Flow)手法を用いてスタートアップを評価するモデルとして機能する。 この研究は、アルゼンチン、コロンビア、ウルグアイ、コスタリカ、パナマ、エクアドルといった主要新興国を分析し、ラテンアメリカにおけるテックスタートアップ投資の新興国ランキングの開発を通じて、この地域におけるAI駆動スタートアップの可能性と利益性を強調している。 本稿は、スタートアップが直面する政治的、経済的、競争的なリスクについても検討し、投資リターンを最大化するためにこれらのリスクを軽減するための戦略的洞察を提供する。 さらにこの研究は、新興市場のスタートアップと投資ポートフォリオの多様化の価値を強調し、固有のリスクにもかかわらず、実質的な成長とリターンの機会を強調している。

The growth of the tech startup ecosystem in Latin America (LATAM) is driven by innovative entrepreneurs addressing market needs across various sectors. However, these startups encounter unique challenges and risks that require specific management approaches. This paper explores a case study with the Total Addressable Market (TAM), Serviceable Available Market (SAM), and Serviceable Obtainable Market (SOM) metrics within the context of the online food delivery industry in LATAM, serving as a model for valuing startups using the Discounted Cash Flow (DCF) method. By analyzing key emerging powers such as Argentina, Colombia, Uruguay, Costa Rica, Panama, and Ecuador, the study highlights the potential and profitability of AI-driven startups in the region through the development of a ranking of emerging powers in Latin America for tech startup investment. The paper also examines the political, economic, and competitive risks faced by startups and offers strategic insights on mitigating these risks to maximize investment returns. Furthermore, the research underscores the value of diversifying investment portfolios with startups in emerging markets, emphasizing the opportunities for substantial growth and returns despite inherent risks.
翻訳日:2024-11-02 21:29:56 公開日:2024-09-17
# 衛星通信における知的最適化の現状と課題

Trends, Advancements and Challenges in Intelligent Optimization in Satellite Communication ( http://arxiv.org/abs/2410.03674v1 )

ライセンス: Link先を確認
Philippe Krajsic, Viola Suess, Zehong Cao, Ryszard Kowalczyk, Bogdan Franczyk, (参考訳) 効率的な衛星通信は、我々の日常生活において非常に重要な役割を担っている。 これには、通信目的のデータ送信、IoTアプリケーションの運用、地上局のデータ提供が含まれる。 ますます、AIベースの手法が、これらの分野への道を見つけつつある。 本稿では、衛星通信のインテリジェントな最適化分野における現在の研究の概要について述べる。 そこで本研究では,テキストマイニングに基づく文献レビューを行い,本論文を数学的にクラスタ化して分析した。 特定されたクラスタは、ルーティング、リソース割り当て、ロードバランシングの主なトピックをカバーしている。 このような文献のクラスター化を通じて、研究論文の構造解析が可能となり、最新の技術やアプローチの同定と、衛星通信のインテリジェントな最適化のための研究ニーズが実現された。

Efficient satellite communications play an enormously important role in all of our daily lives. This includes the transmission of data for communication purposes, the operation of IoT applications or the provision of data for ground stations. More and more, AI-based methods are finding their way into these areas. This paper gives an overview of current research in the field of intelligent optimization of satellite communication. For this purpose, a text-mining based literature review was conducted and the identified papers were thematically clustered and analyzed. The identified clusters cover the main topics of routing, resource allocation and, load balancing. Through such a clustering of the literature in overarching topics, a structured analysis of the research papers was enabled, allowing the identification of latest technologies and approaches as well as research needs for intelligent optimization of satellite communication.
翻訳日:2024-11-02 20:48:16 公開日:2024-09-17
# 統一グローバルローカルコンテキストを用いた適応畳み込みによるスケール不変物体検出

Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context ( http://arxiv.org/abs/2410.05274v1 )

ライセンス: Link先を確認
Amrita Singh, Snehasis Mukherjee, (参考訳) 画像中の微小物体を検出するには、Denseの特徴が重要である。 残念なことに、CNNモデルが大規模オブジェクト検出において顕著に有効であるにもかかわらず、CNNモデルはプールプロセス中に高密度な特徴が失われるため、画像内の小さなオブジェクトを検出することができないことが多い。 Atrous Convolutionはスパースカーネルを適用してこの問題に対処する。 しかし、スパースカーネルはしばしばCNNモデルのマルチスケール検出の有効性を失う。 本稿では,効率的なDetモデルに基づく,スイッチブル(適応型)アトラス畳み込みネットワーク(SAC-Net)を用いたオブジェクト検出モデルを提案する。 固定アラスレートは、畳み込み層におけるCNNモデルの性能を制限する。 この制限を克服するために、前方通過時のアラスレートを動的に調整できる切換え可能な機構を導入する。 提案したSAC-Netは,低レベル機能と高レベル機能の両方の利点をカプセル化して,高密度機能を失うことなく,マルチスケールオブジェクト検出タスクの性能向上を実現する。 さらに,提案したネットワークに深度スイッチング可能なアラスレートを適用し,スケール不変性を改善する。 最後に,提案モデルにグローバルコンテキストを適用した。 ベンチマークデータセットに関する広範な実験により、提案したSAC-Netは、精度の点で最先端モデルよりも優れていることが示された。

Dense features are important for detecting minute objects in images. Unfortunately, despite the remarkable efficacy of the CNN models in multi-scale object detection, CNN models often fail to detect smaller objects in images due to the loss of dense features during the pooling process. Atrous convolution addresses this issue by applying sparse kernels. However, sparse kernels often can lose the multi-scale detection efficacy of the CNN model. In this paper, we propose an object detection model using a Switchable (adaptive) Atrous Convolutional Network (SAC-Net) based on the efficientDet model. A fixed atrous rate limits the performance of the CNN models in the convolutional layers. To overcome this limitation, we introduce a switchable mechanism that allows for dynamically adjusting the atrous rate during the forward pass. The proposed SAC-Net encapsulates the benefits of both low-level and high-level features to achieve improved performance on multi-scale object detection tasks, without losing the dense features. Further, we apply a depth-wise switchable atrous rate to the proposed network, to improve the scale-invariant features. Finally, we apply global context on the proposed model. Our extensive experiments on benchmark datasets demonstrate that the proposed SAC-Net outperforms the state-of-the-art models by a significant margin in terms of accuracy.
翻訳日:2024-11-01 19:47:38 公開日:2024-09-17
# スペクトル-時間関係思考に基づく音響モデリングフレームワーク

A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework ( http://arxiv.org/abs/2409.15357v1 )

ライセンス: Link先を確認
Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed, (参考訳) リレーショナルシンキング(Relational Thinking)とは、感覚信号と先行知識の関係について、人間の心的印象を形成する能力のこと。 リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。 近年、この監視を修正する試みがいくつかあるが、これらは時間領域内でのみ動作する粗い発話レベルモデルに限定されている。 人工システムと人間の能力のギャップを狭めるために, スペクトル時間的リレーショナル思考に基づく音響モデリングフレームワークを提案する。 具体的には、時間領域と周波数領域の両方にわたる音声セグメント間の関係をモデル化するために、まず多数の確率グラフを生成する。 これらのグラフ内の各ノードに根付いた関係情報は集約され、下流タスクで利用できる潜在表現に埋め込まれる。 このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82倍の音素認識タスクを改善した最先端システムより優れている。 In-deepth analysisにより、我々の提案した関係思考モデルが主に、音素認識器によって混同される可能性が最も高い母音を認識するモデルの能力を改善することが明らかとなった。

Relational thinking refers to the inherent ability of humans to form mental impressions about relations between sensory signals and prior knowledge, and subsequently incorporate them into their model of their world. Despite the crucial role relational thinking plays in human understanding of speech, it has yet to be leveraged in any artificial speech recognition systems. Recently, there have been some attempts to correct this oversight, but these have been limited to coarse utterance-level models that operate exclusively in the time domain. In an attempt to narrow the gap between artificial systems and human abilities, this paper presents a novel spectro-temporal relational thinking based acoustic modeling framework. Specifically, it first generates numerous probabilistic graphs to model the relationships among speech segments across both time and frequency domains. The relational information rooted in every pair of nodes within these graphs is then aggregated and embedded into latent representations that can be utilized by downstream tasks. Models built upon this framework outperform state-of-the-art systems with a 7.82\% improvement in phoneme recognition tasks over the TIMIT dataset. In-depth analyses further reveal that our proposed relational thinking modeling mainly improves the model's ability to recognize vowels, which are the most likely to be confused by phoneme recognizers.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-17
# 目で見る: 観察可能な、そしてモジュール型の思考の連鎖

Watch Your Steps: Observable and Modular Chains of Thought ( http://arxiv.org/abs/2409.15359v1 )

ライセンス: Link先を確認
Cassandra A. Cohen, William W. Cohen, (参考訳) 我々は,CoTのパワー,一般性,柔軟性を保ちつつ,説明をより観測可能なものにするプログラムトレース・プロンプト(Program Trace Prompting)と呼ばれる,思考の連鎖(CoT)の変種を提案する。 このアプローチでは,いくつかのCoTデモをPythonベースの形式構文でラップし,各プロンプトでステップを特定し,ステップの入力/出力動作を定義し,コンテキスト内例のCoT説明を,これらの形式化されたステップのチェーンに置き換える。 Program Trace Promptingは多くのタスクに適用でき、BIG-Bench Hardベンチマークの23種類のタスクに対して強力な結果が得られる。 さらに重要なことは、この方法で説明を行うことによって、我々は新しいタイプの分析を可能にします。 特に,CoT学習における非局所的誤り(実演で示される推論方法の誤学習に対応する)を未適応問題として同定し,CoTの説明においてステップのモジュラリティを検証する方法を提案する。

We propose a variant of chain of thought (CoT) prompting called Program Trace Prompting that makes explanations more observable while preserving the power, generality and flexibility of CoT. In our approach, few-shot CoT demonstrations are wrapped in a formal syntax based on Python, and each prompt: identifies and names steps; defines the input/output behavior of steps; and replaces CoT explanations of in-context examples with chains of these formalized steps on the same examples. Program Trace Prompting is applicable to many tasks, achieving strong results on the 23 diverse tasks in the BIG-Bench Hard benchmark. More importantly, by instrumenting explanations in this way, we enable new types of analysis. In particular, we identify "non-local errors" (which correspond to incorrectly learning the reasoning method illustrated in the demonstrations) as an unaddressed issue in CoT learning, and we present methods for verifying the modularity of steps in a CoT explanation.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-17
# ROOT-SGD:1つのアルゴリズムにおけるシャープ非漸近と準最適漸近

ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm ( http://arxiv.org/abs/2008.12690v4 )

ライセンス: Link先を確認
Chris Junchi Li, Wenlong Mou, Martin J. Wainwright, Michael I. Jordan, (参考訳) 確率的一階法アルゴリズムを用いて,厳密な凸と滑らかな非拘束最適化問題の解法について検討する。 本稿では,従来の確率勾配を再現可能な再帰的平均化に基づいて,再帰的1-Over-T SGD (ROOT-SGD) と呼ばれる新しいアルゴリズムを考案する。 有限サンプル, 漸近感覚, 漸近感覚の両方において, 同時に最先端の演奏を達成できることを実証する。 非漸近的な面において、ROOT-SGD の最終反復項に、最適統計リスクとユニティ事前因子とを一致させる先行項と、ヘッセン行列上のリプシッツ条件の下では$O(n^{-3/2})$の急速でスケールする高次項とのリスク境界を証明している。 漸近的側面から、軽度で一点のヘッセン連続性条件が課されると、(多重エポック) ROOT-SGD の再スケールされた最後の反復は、幅広いステップサイズの選択に対して、Cram\'er-Rao 最適漸近共分散を伴うガウス極限に漸近的に収束することを示す。

We study the problem of solving strongly convex and smooth unconstrained optimization problems using stochastic first-order algorithms. We devise a novel algorithm, referred to as Recursive One-Over-T SGD (ROOT-SGD), based on an easily implementable, recursive averaging of past stochastic gradients. We prove that it simultaneously achieves state-of-the-art performance in both a finite-sample, nonasymptotic sense and an asymptotic sense. On the non-asymptotic side, we prove risk bounds on the last iterate of ROOT-SGD with leading-order terms that match the optimal statistical risk with a unity pre-factor, along with a higher-order term that scales at the sharp rate of $O(n^{-3/2})$ under the Lipschitz condition on the Hessian matrix. On the asymptotic side, we show that when a mild, one-point Hessian continuity condition is imposed, the rescaled last iterate of (multi-epoch) ROOT-SGD converges asymptotically to a Gaussian limit with the Cram\'er-Rao optimal asymptotic covariance, for a broad range of step-size choices.
翻訳日:2024-09-20 00:13:22 公開日:2024-09-17
# Jaynes-Cummingsモデルとその子孫

The Jaynes-Cummings model and its descendants ( http://arxiv.org/abs/2202.00330v4 )

ライセンス: Link先を確認
Jonas Larson, Th. K. Mavrogordatos, (参考訳) Jaynes-Cummings (JC) モデルは、現在まで約60年間量子光学の最前線にあり、現代の物理学において最も単純だが複雑な非線形な光物質相互作用の定式化の1つとなっている。 このモノグラフは、様々な分野にわたるモデルの全義性に重点を置いており、原子物理学、量子光学、固体物理学、量子情報科学など、いくつかの領域における特定の物理系における幅広い応用を考察して、その形式主義の基本的な一般化をもたらす。 さまざまな部品をまとめて物語を組み立てる際、私たちは主に量子物理学と量子光学の研究者を標的にしてきました。 このモノグラフはまた、非平衡量子相転移、量子コンピューティングとシミュレーション、および量子多体物理学に携わる大学院生向けのアクセス可能な導入を含んでいる。 この枠組みでは、物理学と応用の共通基盤を文献に散らばり、様々な技術進歩を明らかにすることを目的としている。 この展示は、量子光学と凝縮物質物理学をインターレースする活気のある場を通して読者を導く。 全てのセクションは理論と実験の強い相互接続に特化しており、歴史的にはJC物理学から派生した様々な近代的な研究方向の開発に関係している。 これは1960年代初めからその進化を形作った主要な出版物への包括的な参照リストを伴っている。 最後に,このような多面的素材の提示を可能な限り簡潔に維持し,数学的表現の経済的利用とともに,様々な図形で連続的なテキストを散在させてきた。

The Jaynes-Cummings (JC) model has been at the forefront of quantum optics for almost six decades to date, providing one of the simplest yet intricately nonlinear formulations of light-matter interaction in modern physics. Laying most of the emphasis on the omnipresence of the model across a range of disciplines, this monograph brings up the fundamental generality of its formalism, looking at a wide gamut of applications in specific physical systems among several realms, including atomic physics, quantum optics, solid-state physics and quantum information science. When bringing the various pieces together to assemble our narrative, we have primarily targeted researchers in quantum physics and quantum optics. The monograph also comprises an accessible introduction for graduate students engaged with non-equilibrium quantum phase transitions, quantum computing and simulation, and quantum many-body physics. In that framework, we aim to reveal the common ground between physics and applications scattered across literature and different technological advancements. The exposition guides the reader through a vibrant field interlacing quantum optics and condensed-matter physics. All sections are devoted to the strong interconnection between theory and experiment, historically linked to the development of the various modern research directions stemming from JC physics. This is accompanied by a comprehensive list of references to the key publications that have shaped its evolution since the early 1960s. Finally, we have endeavored to keep the presentation of such a multi-sided material as concise as possible, interspersing continuous text with various illustrations alongside an economical use of mathematical expressions.
翻訳日:2024-09-20 00:13:22 公開日:2024-09-17
# Bagged Polynomial Regression and Neural Networks

Bagged Polynomial Regression and Neural Networks ( http://arxiv.org/abs/2205.08609v2 )

ライセンス: Link先を確認
Sylvia Klosin, Jaume Vives-i-Bastida, (参考訳) 直列回帰と多項式回帰は、ニューラルネットワークと同じ関数クラスを近似することができる。 しかし、これらの手法は実際にはほとんど使われないが、ニューラルネットワークよりも解釈可能性が高い。 本稿では, 多項式回帰推定器の収束速度が遅いこと, ニューラルネットワークの代替として, textit{bagged} polynomial regression (BPR) を提案する。 理論的には、直列推定器に対する新しい有限標本と漸近$L^2$収束率を導出する。 特徴空間を分割し、分割毎に多項式特徴を別々に生成することにより、スムーズな設定で改善できることを示す。 実験により,提案した推定器であるBPRが,より多くのパラメータを持つより複雑なモデルでも実行可能であることを示す。 我々の推定器は、ベンチマークMNIST手書き桁データセットにおいて、最先端の予測手法にも近づいた。 我々は,BPRが作物分類において,衛星データを用いたニューラルネットワークと同様に,予測精度が重要であり,研究課題に対処するためには解釈可能性を必要とする場合が多いことを実証した。

Series and polynomial regression are able to approximate the same function classes as neural networks. However, these methods are rarely used in practice, although they offer more interpretability than neural networks. In this paper, we show that a potential reason for this is the slow convergence rate of polynomial regression estimators and propose the use of \textit{bagged} polynomial regression (BPR) as an attractive alternative to neural networks. Theoretically, we derive new finite sample and asymptotic $L^2$ convergence rates for series estimators. We show that the rates can be improved in smooth settings by splitting the feature space and generating polynomial features separately for each partition. Empirically, we show that our proposed estimator, the BPR, can perform as well as more complex models with more parameters. Our estimator also performs close to state-of-the-art prediction methods in the benchmark MNIST handwritten digit dataset. We demonstrate that BPR performs as well as neural networks in crop classification using satellite data, a setting where prediction accuracy is critical and interpretability is often required for addressing research questions.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-17
# Bayan アルゴリズム: モジュール性の排他的および近似最適化によるネットワーク内のコミュニティの検出

The Bayan Algorithm: Detecting Communities in Networks Through Exact and Approximate Optimization of Modularity ( http://arxiv.org/abs/2209.04562v4 )

ライセンス: Link先を確認
Samin Aref, Mahdi Mostajabdaveh, Hriday Chheda, (参考訳) コミュニティ検出は、様々な分野で広範囲に応用された古典的なネットワーク問題である。 その最も一般的な方法はモジュラリティ最大化ヒューリスティック(英語版)を使い、最適分割や同様のものを返すことは滅多にない。 グローバルな最適モジュラリティを持つ分割は計算が困難であり、従って探索が過小評価されている。 構造的に多様性のあるネットワークを用いて,最適化と近似を保証するアルゴリズムを含む30のコミュニティ検出手法を比較した。 既存の方法とは異なり、ベイアンはモジュラリティを世界規模で最大化するか、あるいはその因子内で近似する。 その結果,2つの標準ベンチマークにおいて,最大モジュラリティパーティションの精度と安定性は,多くの代替品よりも高い値を示した。 他の29のアルゴリズムのパーティションと比較すると、最大モジュラリティパーティションは、記述の長さ、カバレッジ、パフォーマンス、平均コンダクタンス、クラスタ度に最も適している。 これらのアドバンテージは、Bayan氏が小さなネットワーク(最大の接続コンポーネントで3000のエッジを持つネットワーク)で実現した計算の追加コストによるものである。 Bayanは、モジュラリティの最大化のためにオープンソースや商用のソルバを使用するよりも数倍高速で、既存の方法では最適化できないインスタンスの最適なパーティションを見つけることができる。 この結果から,小ネットワークにおいてベイアンが最も信頼性の高い手法として注目されているアルゴリズムがいくつか示された。 Bayanアルゴリズム(bayanpy)のPython実装は、Pythonのパッケージインストーラ(pip)を通じて公開されている。

Community detection is a classic network problem with extensive applications in various fields. Its most common method is using modularity maximization heuristics which rarely return an optimal partition or anything similar. Partitions with globally optimal modularity are difficult to compute, and therefore have been underexplored. Using structurally diverse networks, we compare 30 community detection methods including our proposed algorithm that offers optimality and approximation guarantees: the Bayan algorithm. Unlike existing methods, Bayan globally maximizes modularity or approximates it within a factor. Our results show the distinctive accuracy and stability of maximum-modularity partitions in retrieving planted partitions at rates higher than most alternatives for a wide range of parameter settings in two standard benchmarks. Compared to the partitions from 29 other algorithms, maximum-modularity partitions have the best medians for description length, coverage, performance, average conductance, and well clusteredness. These advantages come at the cost of additional computations which Bayan makes possible for small networks (networks that have up to 3000 edges in their largest connected component). Bayan is several times faster than using open-source and commercial solvers for modularity maximization, making it capable of finding optimal partitions for instances that cannot be optimized by any other existing method. Our results point to a few well performing algorithms, among which Bayan stands out as the most reliable method for small networks. A Python implementation of the Bayan algorithm (bayanpy) is publicly available through the package installer for Python (pip).
翻訳日:2024-09-20 00:07:34 公開日:2024-09-17
# 未学習のネットワークはどんなクラスを好むか?

Initial Guessing Bias: How Untrained Networks Favor Some Classes ( http://arxiv.org/abs/2306.00809v5 )

ライセンス: Link先を確認
Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi, (参考訳) ニューラルネットワークにおけるバイアス効果の理解と制御は、正確で公正なモデル性能を保証するために不可欠である。 分類問題の文脈において、深層ニューラルネットワーク(DNN)の構造が、訓練の開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 我々は,データセット特性以外にも,データセット前処理手法を含むモデル選択や,アクティベーション関数,最大プール層,ネットワーク深さなどのアーキテクチャ決定の影響を受け,この現象の存在を<textit{initial Guessing Bias} (IGB) と呼ぶ。 IGBの分析は、アーキテクチャの選択とモデル初期化のための情報を提供する。 また、ノード置換対称性の崩壊、自己破壊の違反、深さが現象に与える非自明な影響など、理論的な結果も強調する。

Understanding and controlling biasing effects in neural networks is crucial for ensuring accurate and fair model performance. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a deep neural network (DNN) can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We prove that, besides dataset properties, the presence of this phenomenon, which we call \textit{Initial Guessing Bias} (IGB), is influenced by model choices including dataset preprocessing methods, and architectural decisions, such as activation functions, max-pooling layers, and network depth. Our analysis of IGB provides information for architecture selection and model initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging and the non-trivial effects that depth has on the phenomenon.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-17
# デモグラフィー・スカース・レジームによるフェアネス

Fairness Under Demographic Scarce Regime ( http://arxiv.org/abs/2307.13081v2 )

ライセンス: Link先を確認
Patrik Joslin Kenfack, Samira Ebrahimi Kahou, Ulrich Aïvodji, (参考訳) フェアネスに関する既存の研究のほとんどは、モデルが人口統計情報に完全にアクセスできると仮定している。 しかし、データ収集全体やプライバシー上の理由から記録が維持されていないため、人口統計情報が部分的に利用できるシナリオが存在する。 この設定は人口減少体制として知られている。 以前の研究では、欠落した機密属性(プロキシ)を置き換えるために属性分類器をトレーニングすることは、それでも公平性を向上させることが示されている。 しかし、プロキシ・センシティブな属性を使用すると、真のセンシティブな属性に比べて公平さと正確さのトレードオフが悪化する。 この制限に対処するため、フェアネスと精度のトレードオフを改善する属性分類器を構築するためのフレームワークを提案する。 本手法は属性分類器における不確実性認識を導入し,最も低い不確実性で推定される人口統計情報を用いたサンプルに公平性を付与する。 不確実な感度特性を持つ試料に公正性制約を課すことは、公平性と精度のトレードオフに悪影響を及ぼすことを実証的に示す。 5つのデータセットに対する実験により,提案手法は古典的属性分類器よりも,フェアネス・精度のトレードオフが著しく優れたモデルが得られることが示された。 驚いたことに、我々のフレームワークは、ほとんどのベンチマークで真に敏感な属性に対して公正な制約で訓練されたモデルより優れている。 また,これらの知見は共形予測などの他の不確実性指標と一致していることを示す。

Most existing works on fairness assume the model has full access to demographic information. However, there exist scenarios where demographic information is partially available because a record was not maintained throughout data collection or for privacy reasons. This setting is known as demographic scarce regime. Prior research has shown that training an attribute classifier to replace the missing sensitive attributes (proxy) can still improve fairness. However, using proxy-sensitive attributes worsens fairness-accuracy tradeoffs compared to true sensitive attributes. To address this limitation, we propose a framework to build attribute classifiers that achieve better fairness-accuracy tradeoffs. Our method introduces uncertainty awareness in the attribute classifier and enforces fairness on samples with demographic information inferred with the lowest uncertainty. We show empirically that enforcing fairness constraints on samples with uncertain sensitive attributes can negatively impact the fairness-accuracy tradeoff. Our experiments on five datasets showed that the proposed framework yields models with significantly better fairness-accuracy tradeoffs than classic attribute classifiers. Surprisingly, our framework can outperform models trained with fairness constraints on the true sensitive attributes in most benchmarks. We also show that these findings are consistent with other uncertainty measures such as conformal prediction.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-17
# Wolfram Alpha および Code Interpreter プラグインを用いた GPT-4 の数学および科学問題に対する検証

Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems ( http://arxiv.org/abs/2308.05713v3 )

ライセンス: Link先を確認
Ernest Davis, Scott Aaronson, (参考訳) 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。 以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。 つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。 これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。

This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-17
# グラフニューラルネットワークにおけるランク崩壊による過度なスムース化と過度相関

Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks ( http://arxiv.org/abs/2308.16800v3 )

ライセンス: Link先を確認
Andreas Roth, Thomas Liebig, (参考訳) 本研究は,グラフニューラルネットワークにおけるオーバー・スムーシングとオーバー・相関性に関する新たな理論的知見を明らかにする。 具体的には,ノード表現が深度を増すにつれて,集合関数に依存するが特徴変換には依存しない低次元部分空間に支配されることを示す。 すべてのアグリゲーション関数について、ノード表現のランクは崩壊し、特定のアグリゲーション関数に対して過度に滑らかになる。 本研究は, 過度なスムーシングよりも, 階級崩壊に焦点を当てた今後の研究の重要性を強調した。 この理論を導いたクロネッカー積の和は、過度なスムース、過度な相関、ランク崩壊を確実に防止する有益な性質として提案する。 ノード分類タスクの目標関数に適合する既存モデルの欠点を実証的に示す。

Our study reveals new theoretical insights into over-smoothing and feature over-correlation in graph neural networks. Specifically, we demonstrate that with increased depth, node representations become dominated by a low-dimensional subspace that depends on the aggregation function but not on the feature transformations. For all aggregation functions, the rank of the node representations collapses, resulting in over-smoothing for particular aggregation functions. Our study emphasizes the importance for future research to focus on rank collapse rather than over-smoothing. Guided by our theory, we propose a sum of Kronecker products as a beneficial property that provably prevents over-smoothing, over-correlation, and rank collapse. We empirically demonstrate the shortcomings of existing models in fitting target functions of node classification tasks.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-17
# 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる

Image Hijacks: Adversarial Images can Control Generative Models at Runtime ( http://arxiv.org/abs/2309.00236v4 )

ライセンス: Link先を確認
Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons, (参考訳) ファンデーションモデルは悪意のあるアクターに対して安全か? 本研究では,視覚言語モデル(VLM)への画像入力に着目した。 我々は、画像ハイジャックや、VLMの動作を推論時に制御する逆画像を発見し、画像ハイジャックを訓練するための一般的なビヘイビアマッチングアルゴリズムを導入する。 これにより、任意のユーザ定義のテキストプロンプト(例えば、Eiffel Towerは現在ローマにある)の振る舞いにマッチしたハイジャックを、プロンプトの選択とは無関係な汎用的なオフザシェルフデータセットを使ってトレーニングすることができる。 我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。 CLIPとLLaMA-2をベースとした最先端のVLMであるLLaVAに対するこれらの攻撃について検討し、すべての攻撃タイプが80%以上の成功率を達成することを発見した。 さらに、我々の攻撃は自動化されており、小さな画像摂動しか必要としない。

Are foundation models secure against malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control the behaviour of VLMs at inference time, and introduce the general Behaviour Matching algorithm for training image hijacks. From this, we derive the Prompt Matching method, allowing us to train hijacks matching the behaviour of an arbitrary user-defined text prompt (e.g. 'the Eiffel Tower is now located in Rome') using a generic, off-the-shelf dataset unrelated to our choice of prompt. We use Behaviour Matching to craft hijacks for four types of attack, forcing VLMs to generate outputs of the adversary's choice, leak information from their context window, override their safety training, and believe false statements. We study these attacks against LLaVA, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all attack types achieve a success rate of over 80%. Moreover, our attacks are automated and require only small image perturbations.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-17
# 深層学習による計測のための可観測物の設計

Designing Observables for Measurements with Deep Learning ( http://arxiv.org/abs/2310.08717v2 )

ライセンス: Link先を確認
Owen Long, Benjamin Nachman, (参考訳) 粒子物理学や核物理学における多くの分析は、基礎となる物理モデルの基本的な、効果的な、または現象論的パラメータを推測するためにシミュレーションを使用する。 展開された断面で推論を行う場合、観測対象は物理直観とヒューリスティックスを用いて設計される。 機械学習を用いて,対象とする観測対象を設計することを提案する。 ニューラルネットワーク出力における微分断面積は、興味のあるパラメータに関する最も多くの情報を含み、構築によって適切に測定できる。 ネットワークは、関心のパラメータに敏感な出力を報奨するカスタム損失関数を使用してトレーニングされ、同時に粒子レベルと検出器レベルの異なる出力をペナルティ化する(検出器歪みを最小限に抑える)。 深部非弾性散乱の包括的測定に2つの物理モデルを用いたシミュレーションでこのアイデアを実証する。 この新しい手法は2つのモデルを区別する従来の観測値よりも感度が高く,また検出歪みの低減による展開不確実性も低減されていることがわかった。

Many analyses in particle and nuclear physics use simulations to infer fundamental, effective, or phenomenological parameters of the underlying physics models. When the inference is performed with unfolded cross sections, the observables are designed using physics intuition and heuristics. We propose to design targeted observables with machine learning. Unfolded, differential cross sections in a neural network output contain the most information about parameters of interest and can be well-measured by construction. The networks are trained using a custom loss function that rewards outputs that are sensitive to the parameter(s) of interest while simultaneously penalizing outputs that are different between particle-level and detector-level (to minimize detector distortions). We demonstrate this idea in simulation using two physics models for inclusive measurements in deep inelastic scattering. We find that the new approach is more sensitive than classical observables at distinguishing the two models and also has a reduced unfolding uncertainty due to the reduced detector distortions.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-17
# 微粒化LDMエージェント:微粒化作用フィードバックによる大規模言語モデルのピンポイント化と精細化

Fine-grained LLM Agent: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback ( http://arxiv.org/abs/2311.09336v4 )

ライセンス: Link先を確認
Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang, Zhongtao Liu, William Yang Wang, Lei Li, Markus Freitag, (参考訳) 最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 しかし、人間からのフィードバックは、特に推論時に得られるのに費用がかかる。 本研究では, LLMの出力を最適化するための推定時間最適化法である, 微粒化LDMエージェントを提案する。 中心となる考え方は、学習したきめ細かいフィードバックモデルを使用して欠陥を特定し、LCMを反復的に洗練させることです。 オリジナルの LLM を編集の提案として使用し、微粒な LLM エージェントがシミュレートされたアニールを用いて欠陥のないテキストを検索し、探索とエクスプロイトのトレードオフを行う。 機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMエージェントは、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lまで改善された。

Recent large language models (LLM) are leveraging human feedback to improve their generation quality. However, human feedback is costly to obtain, especially during inference. In this work, we propose Fine-grained LLM agent, an inference time optimization method to refine LLM's output. The core idea is to use a learned fine-grained feedback model to pinpoint defects and guide LLM to refine them iteratively. Using original LLM as a proposal of edits, Fine-grained LLM agent searches for defect-less text via simulated annealing, trading off the exploration and exploitation. We conduct experiments on three text generation tasks, including machine translation, long-form question answering (QA), and topical summarization. Fine-grained LLM agent consistently outperforms all baseline approaches, achieving improvements up to 1.7 MetricX points on translation tasks, 8.1 ROUGE-L on ASQA, 2.2 ROUGE-L on topical summarization.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-17
# 量子ウォークによる異常頂点のスコーリング

Scoring Anomalous Vertices Through Quantum Walks ( http://arxiv.org/abs/2311.09855v3 )

ライセンス: Link先を確認
Andrew Vlasic, Anh Pham, (参考訳) 過去数十年間、膨大な情報源からのデータの流れが絶え間なく流れてきたため、ラベル付きデータ、準ラベル付きデータ、ラベルなしのラベル付きデータなど、さまざまなデータタイプから関連情報を抽出する高度な分析技術が数多く開発されてきた。 少なくとも準ラベルを持つデータにとって、グラフはこれらのデータ型の自然な表現であり、多くの産業や科学分野において重要な応用がある。 具体的には、ラベルのないデータに対して、グラフ上の異常検出は、どのデータポイントが他のほとんどのデータに存在する潜伏特性に当てはまらないかを決定する方法である。 ノードの局所的なトポロジ、ランダムウォーク、複雑なニューラルネットワークなど、尊敬されたグラフの個々の頂点に対する異常スコアを計算するための古典的な方法が数多く存在する。 グラフの構造を応用して,各ノードの異常スコアを各ノードの均一な開始位置で連続的にトラバースすることで計算する,最初の量子アルゴリズムを提案する。 提案アルゴリズムは、量子ランダムウォークのよく知られた特徴を取り入れ、NISQ時代とその後のISQ時代を考慮して、回路の深さの増大を緩和するためにアルゴリズムの調整を与える。 このアルゴリズムは、初期条件に関して、期待される確率に厳密に収束するように示される。

With the constant flow of data from vast sources over the past decades, a plethora of advanced analytical techniques have been developed to extract relevant information from different data types ranging from labeled data, quasi-labeled data, and data with no labels known a priori. For data with at best quasi-labels, graphs are a natural representation of these data types and have important applications in many industries and scientific disciplines. Specifically, for unlabeled data, anomaly detection on graphs is a method to determine which data points do not posses the latent characteristics that is present in most other data. There have been a variety of classical methods to compute an anomalous score for the individual vertices of a respected graph, such as checking the local topology of a node,random walks, and complex neural networks. Leveraging the structure of the graph, we propose a first quantum algorithm to calculate the anomaly score of each node by continuously traversing the graph with a uniform starting position of all nodes. The proposed algorithm incorporates well-known characteristics of quantum random walks, and, taking into consideration the NISQ era and subsequent ISQ era, an adjustment to the algorithm is given to mitigate the increasing depth of the circuit. This algorithm is rigorously shown to converge to the expected probability, with respect to the initial condition.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-17
# Hyper-STTN:ハイパーグラフ推論を用いた人軌道予測のためのソーシャルグループ対応時空間変圧器ネットワーク

Hyper-STTN: Social Group-aware Spatial-Temporal Transformer Network for Human Trajectory Prediction with Hypergraph Reasoning ( http://arxiv.org/abs/2401.06344v2 )

ライセンス: Link先を確認
Weizheng Wang, Chaowei Wang, Baijian Yang, Guohua Chen, Byung-Cheol Min, (参考訳) 混み合った意図や軌道の予測は、サービスロボットや自動運転車を含む現実世界の応用において不可欠だ。 環境力学を理解することは、ペアワイドな空間的相互作用と時間的相互作用のモデル化の複雑さだけでなく、グループワイドな相互作用の多様な影響によって困難である。 混み合ったシナリオにおける包括的ペアワイドとグループワイドの相互作用をデコードするために,ハイパーグラフベースの空間時間変換ネットワークHyper-STTNを導入する。 Hyper-STTNでは、ランダムウォークロビビリティに基づくハイパーグラフスペクトル畳み込みにより、様々なグループサイズを持つマルチスケールハイパーグラフの集合を用いて、群ワイドな相関関係を構築する。 さらに、空間時間変換器は、歩行者の空間時間次元における一対の相対的相互作用を捉えるように適応される。 これらの不均一な群と対を融合し、マルチモーダル変圧器ネットワークで整列する。 Hyper-STTNは、5つの現実の歩行者運動データセット上で、最先端のベースラインやアブレーションモデルよりも優れています。

Predicting crowded intents and trajectories is crucial in varouls real-world applications, including service robots and autonomous vehicles. Understanding environmental dynamics is challenging, not only due to the complexities of modeling pair-wise spatial and temporal interactions but also the diverse influence of group-wise interactions. To decode the comprehensive pair-wise and group-wise interactions in crowded scenarios, we introduce Hyper-STTN, a Hypergraph-based Spatial-Temporal Transformer Network for crowd trajectory prediction. In Hyper-STTN, crowded group-wise correlations are constructed using a set of multi-scale hypergraphs with varying group sizes, captured through random-walk robability-based hypergraph spectral convolution. Additionally, a spatial-temporal transformer is adapted to capture pedestrians' pair-wise latent interactions in spatial-temporal dimensions. These heterogeneous group-wise and pair-wise are then fused and aligned though a multimodal transformer network. Hyper-STTN outperformes other state-of-the-art baselines and ablation models on 5 real-world pedestrian motion datasets.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-17
# 認知領域における量子機械学習 : アルツハイマー病研究

Quantum Machine Learning in the Cognitive Domain: Alzheimer's Disease Study ( http://arxiv.org/abs/2401.06697v3 )

ライセンス: Link先を確認
Emine Akpinar, (参考訳) アルツハイマー病(英語: Alzheimer's disease, AD)は、主に高齢者に影響を及ぼし、認知機能低下を引き起こす神経変性疾患である。 この低下は、注意、記憶、高次認知機能などの様々な精神機能に現れ、個人が情報を理解し、新しい知識を取得し、効果的にコミュニケーションする能力に深刻な影響を及ぼす。 認知障害に影響されるタスクの1つは手書きである。 圧力、速度、空間的な組織など、手書きの特定の特徴を分析することで、研究者は早期の認知障害、特にADを示す微妙な変化を検出することができる。 古典的人工知能(AI)手法の最近の進歩は、手書き解析によるADの検出において有望であることを示している。 しかし、データセットのサイズが大きくなるにつれて、これらのAIアプローチはより大きな計算資源を必要とし、診断はしばしば古典的なベクトル空間や特徴相関によって影響を受ける。 近年の研究では、重ね合わせや絡み合いのような量子粒子のユニークな性質を利用して開発された量子コンピューティング技術が、上記の問題に対処するだけでなく、複雑なデータ解析を加速し、大規模データセットのより効率的な処理を可能にすることが示されている。 本研究では,手書きデータに基づく早期AD診断を容易にする回路要素の少ない変分量子分類器を提案する。 我々のモデルは、古典的手法に匹敵する分類性能を示し、認知問題に対処する量子コンピューティングモデルの可能性を強調し、この領域における将来の研究の道を開く。

Alzheimer's disease (AD) is the most prevalent neurodegenerative disorder, primarily affecting the elderly population and leading to significant cognitive decline. This decline manifests in various mental faculties such as attention, memory, and higher-order cognitive functions, severely impacting an individual's ability to comprehend information, acquire new knowledge, and communicate effectively. One of the tasks influenced by cognitive impairments is handwriting. By analyzing specific features of handwriting, including pressure, velocity, and spatial organization, researchers can detect subtle changes that may indicate early-stage cognitive impairments, particularly AD. Recent developments in classical artificial intelligence (AI) methods have shown promise in detecting AD through handwriting analysis. However, as the dataset size increases, these AI approaches demand greater computational resources, and diagnoses are often affected by limited classical vector spaces and feature correlations. Recent studies have shown that quantum computing technologies, developed by harnessing the unique properties of quantum particles such as superposition and entanglement, can not only address the aforementioned problems but also accelerate complex data analysis and enable more efficient processing of large datasets. In this study, we propose a variational quantum classifier with fewer circuit elements to facilitate early AD diagnosis based on handwriting data. Our model has demonstrated comparable classification performance to classical methods and underscores the potential of quantum computing models in addressing cognitive problems, paving the way for future research in this domain.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-17
# Gaussian Object: ガウススメッティングによる4視点からの高品質3次元オブジェクト再構成

GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting ( http://arxiv.org/abs/2402.10259v3 )

ライセンス: Link先を確認
Chen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian, (参考訳) 高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進し、ユーザエクスペリエンスを向上させる上で非常に重要である。 しかし、スパースビューの画像は、非常に限られた3D情報しか含まないため、2つの大きな課題に繋がる。 1) マッチングのための画像として多視点整合性を構築することの難しさは少なすぎる。 2)ビューカバレッジが不十分なため,部分的省略や高度に圧縮されたオブジェクト情報は不十分である。 これらの課題に対処するため,GaussianObjectを提案する。Gaussian splattingで3Dオブジェクトを表現・描画するフレームワークで,入力画像4枚だけで高いレンダリング品質を実現する。 まず,初期最適化プロセスに構造先行を明示的に注入し,多視点整合性の構築を支援し,粗い3次元ガウス表現をもたらす視覚的船体とフロータの除去技術を紹介する。 次に,拡散モデルに基づくガウス補修モデルを構築し,省略された対象情報を補う。 修復モデルを訓練するための画像ペアを得るための自己生成戦略を設計する。 我々はさらに、COLMAPのないバージョンを設計し、事前に用意された正確なカメラポーズは必要とせず、競争的な品質を実現し、より広範なアプリケーションを容易にする。 ガウシアンオブジェクトは、MipNeRF360、OmniObject3D、OpenIllumination、我々の収集した未提示画像など、いくつかの挑戦的なデータセットで評価され、わずか4つのビューで優れたパフォーマンスを実現し、従来のSOTA手法よりも大幅に優れていた。

Reconstructing and rendering 3D objects from highly sparse views is of critical importance for promoting applications of 3D vision techniques and improving user experience. However, images from sparse views only contain very limited 3D information, leading to two significant challenges: 1) Difficulty in building multi-view consistency as images for matching are too few; 2) Partially omitted or highly compressed object information as view coverage is insufficient. To tackle these challenges, we propose GaussianObject, a framework to represent and render the 3D object with Gaussian splatting that achieves high rendering quality with only 4 input images. We first introduce techniques of visual hull and floater elimination, which explicitly inject structure priors into the initial optimization process to help build multi-view consistency, yielding a coarse 3D Gaussian representation. Then we construct a Gaussian repair model based on diffusion models to supplement the omitted object information, where Gaussians are further refined. We design a self-generating strategy to obtain image pairs for training the repair model. We further design a COLMAP-free variant, where pre-given accurate camera poses are not required, which achieves competitive quality and facilitates wider applications. GaussianObject is evaluated on several challenging datasets, including MipNeRF360, OmniObject3D, OpenIllumination, and our-collected unposed images, achieving superior performance from only four views and significantly outperforming previous SOTA methods.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-17
# フェルミオン代数上のラジアル乗数として作用するいくつかのチャネルの絡み合い支援古典的容量

Entanglement-assisted classical capacities of some channels acting as radial multipliers on fermion algebras ( http://arxiv.org/abs/2402.15440v3 )

ライセンス: Link先を確認
Cédric Arhancet, (参考訳) 行列代数 $\mathrm{M}_{2^k}$ を有限次元フェルミオン代数で識別するときに、半径乗数として作用する、$\mathrm{M}_{2^k}$ 上の新しいユニタリ量子チャネルのクラスについて検討する。 我々の主な貢献は、無制限の絡み合いを共有する際に、送信者から受信者へこれらのチャネルを通して古典的な情報を伝達できる(最適)レートの正確な計算である。 このアプローチは、フェルミオン代数と$n$次元離散ハイパーキューブ $\{-1,1\}^n$ の間の新たな接続に依存する。 重要なことに、我々の計算はフェルミオンオルンシュタイン-ウレンベック半群の作用素に適用できる正確な値を得る。 この進歩は、これらのチャネルの構造と振舞いに関する深い洞察を提供するだけでなく、次元に依存しない文脈における量子情報理論の理解を深める。

We investigate a new class of unital quantum channels on $\mathrm{M}_{2^k}$, acting as radial multipliers when we identify the matrix algebra $\mathrm{M}_{2^k}$ with a finite-dimensional fermion algebra. Our primary contribution lies in the precise computation of the (optimal) rate at which classical information can be transmitted through these channels from a sender to a receiver when they share an unlimited amount of entanglement. Our approach relies on new connections between fermion algebras with the $n$-dimensional discrete hypercube $\{-1,1\}^n$. Significantly, our calculations yield exact values applicable to the operators of the fermionic Ornstein-Uhlenbeck semigroup. This advancement not only provides deeper insights into the structure and behaviour of these channels but also enhances our understanding of Quantum Information Theory in a dimension-independent context.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-17
# オンライン選挙干渉における生成人工知能の悪用景観の図表化

Charting the Landscape of Nefarious Uses of Generative Artificial Intelligence for Online Election Interference ( http://arxiv.org/abs/2406.01862v3 )

ライセンス: Link先を確認
Emilio Ferrara, (参考訳) Generative Artificial Intelligence (GenAI) と Large Language Models (LLMs) は、特にオンライン選挙干渉の領域において大きなリスクをもたらす。 本稿では、GenAIの悪用を探求し、ディープフェイク、ボットネット、偽情報キャンペーン、合成IDを通じて民主的プロセスを破壊できる可能性を明らかにする。 近年のケーススタディや公的な事件を調べることで、悪意あるアクターがこれらの技術を悪用し、有権者の行動に影響を与え、偽情報を広め、選挙制度に対する公的な信頼を損なう様子を説明している。 また、これらの脅威の社会的含意についても論じ、民主的完全性を守るための堅牢な緩和戦略と国際協力の必要性を強調した。

Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) pose significant risks, particularly in the realm of online election interference. This paper explores the nefarious applications of GenAI, highlighting their potential to disrupt democratic processes through deepfakes, botnets, targeted misinformation campaigns, and synthetic identities. By examining recent case studies and public incidents, we illustrate how malicious actors exploit these technologies to try influencing voter behavior, spread disinformation, and undermine public trust in electoral systems. The paper also discusses the societal implications of these threats, emphasizing the urgent need for robust mitigation strategies and international cooperation to safeguard democratic integrity.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-17
# Wallyを使ったスケーラブルなプライベート検索

Scalable Private Search with Wally ( http://arxiv.org/abs/2406.06761v4 )

ライセンス: Link先を確認
Hilal Asi, Fabian Boemer, Nicholas Genise, Muhammad Haris Mughees, Tabitha Ogilvie, Rehan Rishi, Guy N. Rothblum, Kunal Talwar, Karl Tarbe, Ruiyu Zhu, Marco Zuliani, (参考訳) 本稿では,大規模データベースに対する効率的なセマンティック検索およびキーワード検索クエリをサポートする,プライベート検索システムであるWallyを提案する。 十分な数のクライアントがクエリを作成している場合、Wallyのパフォーマンスは以前のシステムよりも大幅に向上する。 従来のプライベート検索システムでは、各クライアントクエリに対して、サーバはデータベースのエントリごとに少なくとも1つの高価な暗号処理を実行する必要がある。 その結果、データベース内のエントリ数に比例して性能が低下した。 Wallyでは、この制限を取り除きます。 具体的には、クエリ毎に、サーバはいくつかのデータベースエントリに対してのみ暗号化操作を実行する。 これらの結果は、クライアントにいくつかの偽のクエリを追加し、匿名ネットワークを介して、独立に選択されたランダムな瞬間に各クエリをサーバに送ることで達成される。 さらに、各クライアントは、クエリが本物か偽かを隠すために、何らかの同型暗号化(SHE)を使用する。 Wallyは$(\epsilon, \delta)$-differential privacy guaranteeを提供する。 各クライアントが行う偽クエリの数は、クエリを作成するクライアントの数に依存する。 そのため、クライアント数が増えるにつれてフェイククエリのオーバーヘッドがなくなり、数百万のクエリや大規模データベースにスケーラビリティが実現される。 具体的には、Wallyはわずか117分で800万のクエリを処理できる。 これは最先端のものよりも4桁ほど少ない。

This paper presents Wally, a private search system that supports efficient semantic and keyword search queries against large databases. When sufficiently many clients are making queries, Wally's performance is significantly better than previous systems. In previous private search systems, for each client query, the server must perform at least one expensive cryptographic operation per database entry. As a result, performance degraded proportionally with the number of entries in the database. In Wally, we get rid of this limitation. Specifically, for each query the server performs cryptographic operations only against a few database entries. We achieve these results by requiring each client to add a few fake queries and send each query via an anonymous network to the server at independently chosen random instants. Additionally, each client also uses somewhat homomorphic encryption (SHE) to hide whether a query is real or fake. Wally provides $(\epsilon, \delta)$-differential privacy guarantee, which is an accepted standard for strong privacy. The number of fake queries each client makes depends inversely on the number of clients making queries. Therefore, the fake queries' overhead vanishes as the number of clients increases, enabling scalability to millions of queries and large databases. Concretely, Wally can process eight million queries in just 117 mins. That is around four orders of magnitude less than the state of the art.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-17
# MEMO-QCD:量子回路設計のためのメメティック最適化による量子密度推定

MEMO-QCD: Quantum Density Estimation through Memetic Optimisation for Quantum Circuit Design ( http://arxiv.org/abs/2406.08591v3 )

ライセンス: Link先を確認
Juan E. Ardila-García, Vladimir Vargas-Calderón, Fabio A. González, Diego H. Useche, Herbert Vinck-Posada, (参考訳) 本稿では,密度推定のための効率的な量子回路設計手法を提案する。 この戦略は、密度推定のための量子インスパイアされたアルゴリズムと、メメティックアルゴリズムに基づく回路最適化ルーチンに基づいている。 このモデルは、トレーニングデータセットを密度行列で表される量子状態に量子特徴写像を通してマッピングする。 このトレーニング状態は、対応する量子状態をトレーニング状態に投影することにより、新しいサンプルの密度を推定できるように、データセットの確率分布を量子状態に符号化する。 本稿では,量子特徴写像を実装した変分量子回路のアーキテクチャとパラメータを見つけるためのメメティックアルゴリズムと,トレーニング状態を作成するための変分学習戦略を提案する。 提案手法の実証は, 近距離量子ハードウェアにおけるアルゴリズムの実現可能性を示す浅量子回路によるガウス核密度推定法の正確な近似を示す。

This paper presents a strategy for efficient quantum circuit design for density estimation. The strategy is based on a quantum-inspired algorithm for density estimation and a circuit optimisation routine based on memetic algorithms. The model maps a training dataset to a quantum state represented by a density matrix through a quantum feature map. This training state encodes the probability distribution of the dataset in a quantum state, such that the density of a new sample can be estimated by projecting its corresponding quantum state onto the training state. We propose the application of a memetic algorithm to find the architecture and parameters of a variational quantum circuit that implements the quantum feature map, along with a variational learning strategy to prepare the training state. Demonstrations of the proposed strategy show an accurate approximation of the Gaussian kernel density estimation method through shallow quantum circuits illustrating the feasibility of the algorithm for near-term quantum hardware.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-17
# 正常化ICA変換インプラントによるコサイン類似性の再検討

Revisiting Cosine Similarity via Normalized ICA-transformed Embeddings ( http://arxiv.org/abs/2406.10984v2 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Momose Oyama, Hidetoshi Shimodaira, (参考訳) コサイン類似度は2つの埋め込みの類似度を測定するために広く用いられ、角度と相関係数に基づく解釈は一般的である。 本研究では,独立成分分析(ICA)によって変換された埋め込みの解釈可能な軸に着目し,軸上の意味的類似性の和としてコサイン類似性の新たな解釈を提案する。 正規化ICA変換埋め込みは各軸の解釈可能性を高め、成分の積によって定義される意味的類似性は、各軸に沿った2つの埋め込み間の共有意味を表す。 この手法の有効性は直感的な数値例と徹底的な数値実験によって実証される。 それぞれの成分と成分の積を管理する確率分布を導出することにより,統計的に有意な軸を選択する方法を提案する。

Cosine similarity is widely used to measure the similarity between two embeddings, while interpretations based on angle and correlation coefficient are common. In this study, we focus on the interpretable axes of embeddings transformed by Independent Component Analysis (ICA), and propose a novel interpretation of cosine similarity as the sum of semantic similarities over axes. The normalized ICA-transformed embeddings exhibit sparsity, enhancing the interpretability of each axis, and the semantic similarity defined by the product of the components represents the shared meaning between the two embeddings along each axis. The effectiveness of this approach is demonstrated through intuitive numerical examples and thorough numerical experiments. By deriving the probability distributions that govern each component and the product of components, we propose a method for selecting statistically significant axes.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# 臨床報告訂正のための知識検索と大規模言語モデルの統合

Integrating Knowledge Retrieval and Large Language Models for Clinical Report Correction ( http://arxiv.org/abs/2406.15045v2 )

ライセンス: Link先を確認
Jinge Wu, Zhaolong Wu, Ruizhe Li, Abul Hasan, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu, (参考訳) 本研究では,大規模言語モデル (LLM) と検索拡張生成技術 (RAG) を利用した放射線学報告における誤り訂正手法を提案する。 提案フレームワークは,新たな内外的検索機構を用いて,関心事報告と外部知識ソースから関連する医療機関と関係を抽出する。 3段階の推論プロセスを導入し、タスクをエラー検出、ローカライゼーション、修正サブタスクに分解することで、システムの説明可能性と性能を向上させる。 アプローチの有効性は、ドメインの専門家がガイドした現実的なエラーで実世界の放射線学レポートを破損させたベンチマークデータセットを用いて評価される。 実験により, 提案手法の利点を実証し, 内部および外部検索の組み合わせにより, 誤り検出, 局所化, 補正の精度を大幅に向上させることができた。 この知見は、より堅牢で信頼性の高い臨床文書の誤り訂正システムの開発に寄与する。

This study proposes an approach for error correction in radiology reports, leveraging large language models (LLMs) and retrieval-augmented generation (RAG) techniques. The proposed framework employs a novel internal+external retrieval mechanism to extract relevant medical entities and relations from the report of interest and an external knowledge source. A three-stage inference process is introduced, decomposing the task into error detection, localization, and correction subtasks, which enhances the explainability and performance of the system. The effectiveness of the approach is evaluated using a benchmark dataset created by corrupting real-world radiology reports with realistic errors, guided by domain experts. Experimental results demonstrate the benefits of the proposed methods, with the combination of internal and external retrieval significantly improving the accuracy of error detection, localization, and correction across various state-of-the-art LLMs. The findings contribute to the development of more robust and reliable error correction systems for clinical documentation.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# QuADTool:アタックディフェンストレーの合成、分析、検証のための橋

QuADTool: Attack-Defense-Tree Synthesis, Analysis and Bridge to Verification ( http://arxiv.org/abs/2406.15605v3 )

ライセンス: Link先を確認
Florian Dorfhuber, Julia Eisentraut, Katharina Klioba, Jan Kretinsky, (参考訳) ランク付けリスクと対策は、量的セキュリティ分析の最も大きな目標の1つである。 工業的にも使われている一般的なフレームワークの1つは、攻撃防御木である。 攻撃防御木に利用可能な標準的な定量的分析は、潜在的な脆弱性と区別することができる。 私たちはこれらのモデルの簡易な合成と分析を可能にするツールを提供し、確率、コスト、時間も備えています。 さらに、既存のモデルチェッカーや分析ツールにさまざまなインターフェースを提供する。 残念ながら、現在利用可能なツールは正確な量的入力(確率、タイミング、攻撃コスト)に依存しており、ほとんど利用できない。 その代わり、統計的で不正確な情報のみが一般に利用可能であり、実際の量のほぼ正しい(PAC)推定が残されている。 ツールの一部として、標準解析手法を拡張して、PAC入力を処理し、解析の最終結果の精度と不確実性について厳密な境界が得られるようにします。

Ranking risks and countermeasures is one of the foremost goals of quantitative security analysis. One of the popular frameworks, used also in industrial practice, for this task are attack-defense trees. Standard quantitative analyses available for attack-defense trees can distinguish likely from unlikely vulnerabilities. We provide a tool that allows for easy synthesis and analysis of those models, also featuring probabilities, costs and time. Furthermore, it provides a variety of interfaces to existing model checkers and analysis tools. Unfortunately, currently available tools rely on precise quantitative inputs (probabilities, timing, or costs of attacks), which are rarely available. Instead, only statistical, imprecise information is typically available, leaving us with probably approximately correct (PAC) estimates of the real quantities. As a part of our tool, we extend the standard analysis techniques so they can handle the PAC input and yield rigorous bounds on the imprecision and uncertainty of the final result of the analysis.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# SEDMamba: ロボット支援手術における効率的なエラー検出のためのボツネック機構と微細から粗い時間融合による選択的状態空間モデルの実現

SEDMamba: Enhancing Selective State Space Modelling with Bottleneck Mechanism and Fine-to-Coarse Temporal Fusion for Efficient Error Detection in Robot-Assisted Surgery ( http://arxiv.org/abs/2406.15920v3 )

ライセンス: Link先を確認
Jialang Xu, Nazir Sirajudeen, Matthew Boal, Nader Francis, Danail Stoyanov, Evangelos Mazomenos, (参考訳) 外科的エラーの自動検出は、ロボット支援手術を改善することができる。 期待された進歩にもかかわらず、既存の手法は計算効率を保ちながら長期的な依存関係を確立するために、豊富な時間的コンテキストを捉えるという課題に直面している。 本稿では,選択状態空間モデル(SSM)を外科的エラー検出に組み込んだSEDMambaという新しい階層モデルを提案する。 SEDMambaは、長期ビデオにおける外科的エラーの検出と時間的局所化のために、ボトルネック機構と微細から粗い時間的融合(FCTF)を備えた選択的SSMを強化する。 ボトルネック機構は空間次元内の特徴を圧縮して復元し、計算複雑性を低減させる。 FCTFは、複数の拡張された1D畳み込み層を使用して、様々なスケール範囲にわたる時間情報をマージし、様々な期間のエラーを調節する。 我々の研究は、実際の手術症例におけるエラー検出を支援するために、第一種、フレームレベル、生存中の外科的エラーデータセットにも貢献する。 具体的には、オープンソースの根治的前立腺切除術データセット(SAR-RARP50)において、縫合作業中のエラーをアノテートするために、臨床的に検証された人体信頼性評価ツール(OCHRA)をデプロイする。 実験の結果,SEDMambaはAUCが1.82%以上,AP性能が3.80%,計算複雑性が大幅に低下した状態で,最先端の手法よりも優れていた。 対応するエラーアノテーション、コード、モデルはhttps://github.com/wzjialang/SEDMamba.comでリリースされる。

Automated detection of surgical errors can improve robotic-assisted surgery. Despite promising progress, existing methods still face challenges in capturing rich temporal context to establish long-term dependencies while maintaining computational efficiency. In this paper, we propose a novel hierarchical model named SEDMamba, which incorporates the selective state space model (SSM) into surgical error detection, facilitating efficient long sequence modelling with linear complexity. SEDMamba enhances selective SSM with a bottleneck mechanism and fine-to-coarse temporal fusion (FCTF) to detect and temporally localize surgical errors in long videos. The bottleneck mechanism compresses and restores features within their spatial dimension, thereby reducing computational complexity. FCTF utilizes multiple dilated 1D convolutional layers to merge temporal information across diverse scale ranges, accommodating errors of varying duration. Our work also contributes the first-of-its-kind, frame-level, in-vivo surgical error dataset to support error detection in real surgical cases. Specifically, we deploy the clinically validated observational clinical human reliability assessment tool (OCHRA) to annotate the errors during suturing tasks in an open-source radical prostatectomy dataset (SAR-RARP50). Experimental results demonstrate that our SEDMamba outperforms state-of-the-art methods with at least 1.82% AUC and 3.80% AP performance gains with significantly reduced computational complexity. The corresponding error annotations, code and models will be released at https://github.com/wzjialang/SEDMamba.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# 高次不均質をナビゲートする - 航空・宇宙ネットワークにおけるフェデレーションラーニング

Navigating High-Degree Heterogeneity: Federated Learning in Aerial and Space Networks ( http://arxiv.org/abs/2406.17951v2 )

ライセンス: Link先を確認
Fan Dong, Henry Leung, Steve Drew, (参考訳) フェデレーション学習は、ドローン、気球、衛星を介してアクセス可能な巨大なプライベートエッジデータとコンピューティング能力を利用することによって、空と宇宙ネットワーク内のネットワークとデータプライバシの課題に対する魅力的な解決策を提供する。 現在の研究では、学習過程の最適化、計算効率の向上、通信オーバーヘッドの最小化に焦点が当てられているが、不均一性問題とクラス不均衡は、迅速なモデル収束にとって重要な障壁である。 本稿では,Aerial and Space Networks(ASN)に基づくフェデレーション学習の性能を低下させるクラス不均衡に対する不均一性の影響について検討する。 本稿では,グループ化データにおける不均一性とクラス不均衡の相関について述べるとともに,電池寿命などの制約がクラス不均衡をいかに悪化させるかを示す。 以上の結果から, ASNs をベースとしたFLは, 異種性のレベルが他のシナリオと同等であっても, クラス不均衡の問題に直面することが示唆された。 最後に,様々な異種度がFLトレーニングに与える影響を分析し,これらの条件下での現在の最先端アルゴリズムの有効性を評価する。 この結果から, ASNsに基づくフェデレーション学習では不均一性の課題が顕著であり, アルゴリズムが高次不均一性に効果的に対処できないことが示唆された。

Federated learning offers a compelling solution to the challenges of networking and data privacy within aerial and space networks by utilizing vast private edge data and computing capabilities accessible through drones, balloons, and satellites. While current research has focused on optimizing the learning process, computing efficiency, and minimizing communication overhead, the heterogeneity issue and class imbalance remain a significant barrier to rapid model convergence. In this paper, we explore the influence of heterogeneity on class imbalance, which diminishes performance in Aerial and Space Networks (ASNs)-based federated learning. We illustrate the correlation between heterogeneity and class imbalance within grouped data and show how constraints such as battery life exacerbate the class imbalance challenge. Our findings indicate that ASNs-based FL faces heightened class imbalance issues even with similar levels of heterogeneity compared to other scenarios. Finally, we analyze the impact of varying degrees of heterogeneity on FL training and evaluate the efficacy of current state-of-the-art algorithms under these conditions. Our results reveal that the heterogeneity challenge is more pronounced in ASNs-based federated learning and that prevailing algorithms often fail to effectively address high levels of heterogeneity.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# インポスタをアンマキングする: 検閲とドメイン適応がマシン生成ツイートの検出にどのように影響するか

Unmasking the Imposters: How Censorship and Domain Adaptation Affect the Detection of Machine-Generated Tweets ( http://arxiv.org/abs/2406.17967v2 )

ライセンス: Link先を確認
Bryan E. Tuck, Rakesh M. Verma, (参考訳) 大規模言語モデル(LLM)の急速な開発により、流動的で説得力のあるテキストの生成が大幅に向上し、ソーシャルメディアプラットフォームでの誤用の可能性への懸念が高まった。 Llama, Mistral, Qwen2, GPT4oの4つの有名なLLMの生成能力を調べるために, 9つのTwitterデータセットを作成するための包括的な方法論を提案する。 これらのデータセットは、3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを含む、検閲されていない4つの5つのモデル構成を含んでいる。 さらに,人間,検閲された」「検閲されていない」モデルからのテキスト出力の特性を評価するためにデータ品質分析を行い,意味的意味,語彙的豊かさ,構造パターン,コンテンツ特性,および検出性能指標を用いて違いと類似性を識別する。 評価の結果,「アンセンソルド」モデルが自動検出手法の有効性を著しく損なうことが明らかとなった。 本研究は、より小さなオープンソースモデルと「アンセンサリング(uncensoring)」がもたらす影響を探求し、ドメイン適応とコンテンツモデレーション戦略が、機械生成テキストの検知可能性と構造的特性の両方にどのように影響するかについての貴重な知見を提供する。

The rapid development of large language models (LLMs) has significantly improved the generation of fluent and convincing text, raising concerns about their potential misuse on social media platforms. We present a comprehensive methodology for creating nine Twitter datasets to examine the generative capabilities of four prominent LLMs: Llama 3, Mistral, Qwen2, and GPT4o. These datasets encompass four censored and five uncensored model configurations, including 7B and 8B parameter base-instruction models of the three open-source LLMs. Additionally, we perform a data quality analysis to assess the characteristics of textual outputs from human, "censored," and "uncensored" models, employing semantic meaning, lexical richness, structural patterns, content characteristics, and detector performance metrics to identify differences and similarities. Our evaluation demonstrates that "uncensored" models significantly undermine the effectiveness of automated detection methods. This study addresses a critical gap by exploring smaller open-source models and the ramifications of "uncensoring," providing valuable insights into how domain adaptation and content moderation strategies influence both the detectability and structural characteristics of machine-generated text.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-17
# 衛星をベースとした地層属性予測による世界規模の画像ジオロケーションの強化

Enhancing Worldwide Image Geolocation by Ensembling Satellite-Based Ground-Level Attribute Predictors ( http://arxiv.org/abs/2407.13862v2 )

ライセンス: Link先を確認
Michael J. Bianco, David Eigen, Michael Gormish, (参考訳) 本稿では,GPSなどの位置情報が存在しない場合の地上画像の位置を推定することの課題について検討する。 現在、位置情報システムは、予測された位置と地上の真実の間の大円距離を測定することで評価されている。 この測定は1点のみを使用するため、位置情報システムによる予測の分布を評価できない。 位置をさらに絞り込んだり、検証したりする手順がある場合には、潜在的な位置(エリア)の分布を評価する必要がある。 これは特に、田園部や荒野など、サンプルの不足地域において重要である。 本稿では,推定位置分布の精度を計測する新しい指標であるリコール対エリア(Recall vs Area, RvA)を提案する。 RvAは、文書検索と同様に画像位置情報の結果を処理し、リコールを領域の関数として測定する。 この曲線は「精度」を平方キロメートルの領域に置き換え、異なる下流の検索エリアの予算を評価できる精度・リコール曲線に類似した曲線を生成する。 この観点から,複数のソースからの情報を組み込んで,複数のモデルや属性予測器,データソースを容易に組み込むことのできる,グローバルな画像位置決め手法について検討する。 オークリッジ国立研究所ランドスキャンと欧州宇宙機関(ESA)の気候変動イニシアチブランドカバーに基づいて,ジオエステレーションモデルと現状のGeoCLIPを属性予測器と組み合わせて,その有効性を検討した。 Im2GPS3k画像とStreet View画像の両方において、トレーニングセット、特に非都市領域で表現されていない領域に対する画像位置情報の大幅な改善が見られた。

We examine the challenge of estimating the location of a single ground-level image in the absence of GPS or other location metadata. Currently, geolocation systems are evaluated by measuring the Great Circle Distance between the predicted location and ground truth. Because this measurement only uses a single point, it cannot assess the distribution of predictions by geolocation systems. Evaluation of a distribution of potential locations (areas) is required when there are follow-on procedures to further narrow down or verify the location. This is especially important in poorly-sampled regions e.g. rural and wilderness areas. In this paper, we introduce a novel metric, Recall vs Area (RvA), which measures the accuracy of estimated distributions of locations. RvA treats image geolocation results similarly to document retrieval, measuring recall as a function of area: For a ranked list of (possibly discontiguous) predicted regions, we measure the area required for accumulated regions to contain the ground truth coordinate. This produces a curve similar to a precision-recall curve, where "precision" is replaced by square kilometers area, enabling evaluation for different downstream search area budgets. Following from this view of the problem, we then examine an ensembling approach to global-scale image geolocation, which incorporates information from multiple sources, and can readily incorporate multiple models, attribute predictors, and data sources. We study its effectiveness by combining the geolocation models GeoEstimation and the current state-of-the-art, GeoCLIP, with attribute predictors based on Oak Ridge National Laboratory LandScan and European Space Agency Climate Change Initiative Land Cover. We find significant improvements in image geolocation for areas that are under-represented in the training set, particularly non-urban areas, on both Im2GPS3k and Street View images.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-17
# EmoBack:感情韻律を用いた話者識別に対するバックドア攻撃

EmoBack: Backdoor Attacks Against Speaker Identification Using Emotional Prosody ( http://arxiv.org/abs/2408.01178v2 )

ライセンス: Link先を確認
Coen Schoof, Stefanos Koffas, Mauro Conti, Stjepan Picek, (参考訳) 話者識別(SI)は、話者の発話に基づいて話者の身元を決定する。 これまでの研究は、SIディープニューラルネットワーク(DNN)がバックドア攻撃に対して脆弱であることを示している。 バックドア攻撃は、DNNのトレーニングデータに隠れたトリガを埋め込むことで、推論中にこれらのトリガが存在する場合、DNNは誤った出力を生成する。 これは、SI DNNのバックドア攻撃に対する脆弱性を話者の感情的韻律を用いて探求する最初の作品であり、動的で目立たないトリガーをもたらす。 3つの異なるデータセットとDNNアーキテクチャを用いてパラメータスタディを行い、SIシステムの正確性に対するバックドアトリガーとしての感情の影響を調べた。 さらに、プルーニング、STRIP-ViTA、および量子化、中央値フィルタリング、スクイーズという3つの一般的な前処理技術による攻撃の堅牢性についても検討した。 以上の結果から, 上記のモデルでは攻撃の傾向が強く, 感情的トリガー(サドと中性韻律)がSIシステムの整合性を損なうのに有効であることが示唆された。 しかし, プルーニング実験の結果から, 攻撃に対するモデル強化の潜在的な解決策が示唆され, 攻撃成功率は40%まで低下した。

Speaker identification (SI) determines a speaker's identity based on their spoken utterances. Previous work indicates that SI deep neural networks (DNNs) are vulnerable to backdoor attacks. Backdoor attacks involve embedding hidden triggers in DNNs' training data, causing the DNN to produce incorrect output when these triggers are present during inference. This is the first work that explores SI DNNs' vulnerability to backdoor attacks using speakers' emotional prosody, resulting in dynamic, inconspicuous triggers. We conducted a parameter study using three different datasets and DNN architectures to determine the impact of emotions as backdoor triggers on the accuracy of SI systems. Additionally, we have explored the robustness of our attacks by applying defenses like pruning, STRIP-ViTA, and three popular preprocessing techniques: quantization, median filtering, and squeezing. Our findings show that the aforementioned models are prone to our attack, indicating that emotional triggers (sad and neutral prosody) can be effectively used to compromise the integrity of SI systems. However, the results of our pruning experiments suggest potential solutions for reinforcing the models against our attacks, decreasing the attack success rate up to 40%.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-17
# ポイント・クラウド・グラウンド・セグメンテーションの加速 - メカニカルからソリッドステート・ライダーへ

Accelerating Point Cloud Ground Segmentation: From Mechanical to Solid-State Lidars ( http://arxiv.org/abs/2408.10404v2 )

ライセンス: Link先を確認
Xiao Zhang, Zhanhong Huang, Garcia Gonzalez Antony, Xinming Huang, (参考訳) 本研究では,メカニカルからソリッドステート・ライダー (SSL) への技術進化を目的とした,ポイント・クラウド・グラウンド・セグメンテーションのための並列処理手法を提案する。 我々はまず,SemanticKITTIデータセットを用いて,点ベース,グリッドベース,範囲画像ベースグラウンドセグメンテーションアルゴリズムのベンチマークを行った。 提案手法は,特にフレームスライシングに対するレジリエンスにおいて,優れた性能とロバスト性を提供することを示す。 提案したアルゴリズムをFPGA上で実装することにより,処理速度と資源使用量のスケーラビリティが大幅に向上したことを示す。 さらに,テスト車両上でカメラ・SSL機器を用いたカスタムデータセットを構築し,実環境におけるSSLフレームの並列処理手法の有効性を検証し,CPU実装の最大30.9倍の処理速度を達成する。 これらの知見は、自動運転車やロボット工学における高度な認識タスクのためのLidar技術を強化するための並列処理戦略の可能性を強調している。 データとコードはGitHubリポジトリで公開後公開される。 \url{https://github.com/WPI-APA-Lab/GroundSeg-Solid-State-Lidar-Parallel-Processing}

In this study, we propose a novel parallel processing method for point cloud ground segmentation, aimed at the technology evolution from mechanical to solid-state Lidar (SSL). We first benchmark point-based, grid-based, and range image-based ground segmentation algorithms using the SemanticKITTI dataset. Our results indicate that the range image-based method offers superior performance and robustness, particularly in resilience to frame slicing. Implementing the proposed algorithm on an FPGA demonstrates significant improvements in processing speed and scalability of resource usage. Additionally, we develop a custom dataset using camera-SSL equipment on our test vehicle to validate the effectiveness of the parallel processing approach for SSL frames in real world, achieving processing rates up to 30.9 times faster than CPU implementations. These findings underscore the potential of parallel processing strategies to enhance Lidar technologies for advanced perception tasks in autonomous vehicles and robotics. The data and code will be available post-publication on our GitHub repository: \url{https://github.com/WPI-APA-Lab/GroundSeg-Solid-State-Lidar-Parallel-Processing}
翻訳日:2024-09-19 22:32:32 公開日:2024-09-17
# 深層学習を用いた微分方程式の解法に関する実践的側面:プライマー

Practical Aspects on Solving Differential Equations Using Deep Learning: A Primer ( http://arxiv.org/abs/2408.11266v2 )

ライセンス: Link先を確認
Georgios Is. Detorakis, (参考訳) 深層学習は、微分方程式、特に偏微分方程式の研究を含む、多くの科学分野において一般的な道具となっている。 本研究では、ディープラーニングの基本原理と、ディープニューラルネットワークを用いて微分方程式を解くディープ・ガレルキン法を紹介する。 このプライマーは、Deep Galerkin 法とその実装に関する技術的および実践的な洞察を提供することを目的としている。 一次元の熱方程式を段階的に解く方法を示す。 また、通常の微分方程式や第二種のフレドホルムのような積分方程式の系にディープ・ガレルキン法を適用する方法を示す。 さらに、テキスト内のコードスニペットと、Githubの完全なソースコードも提供しています。 サンプルは、GPUを必要とせずに、単純なコンピュータ上で実行できるように設計されている。

Deep learning has become a popular tool across many scientific fields, including the study of differential equations, particularly partial differential equations. This work introduces the basic principles of deep learning and the Deep Galerkin method, which uses deep neural networks to solve differential equations. This primer aims to provide technical and practical insights into the Deep Galerkin method and its implementation. We demonstrate how to solve the one-dimensional heat equation step-by-step. We also show how to apply the Deep Galerkin method to solve systems of ordinary differential equations and integral equations, such as the Fredholm of the second kind. Additionally, we provide code snippets within the text and the complete source code on Github. The examples are designed so that one can run them on a simple computer without needing a GPU.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-17
# ガウスモデルからベイズネットワークを学習するための漸近的最適座標決定アルゴリズム

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models ( http://arxiv.org/abs/2408.11977v2 )

ライセンス: Link先を確認
Tong Xu, Simge Küçükyavuz, Ali Shojaie, Armeen Taeb, (参考訳) 本稿では,線形ガウス構造方程式モデルに基づいて連続観測データからベイズネットワークを学習する問題を考察する。 我々は,この問題に対する$\ell_0$-penalized max max estimatorを考える。 アルゴリズムは, 損失関数の非凸性に対して, サンプルサイズが無限大になる傾向にあるにもかかわらず, 座標降下解の目的値は, $\ell_0$-penalized maximum max max estimatorの最適目的値に収束する。 有限サンプル統計整合性保証も確立されている。 我々の知る限りでは、ベイズネットワーク学習の文脈において最適性と統計的保証が与えられた最初の座標降下手順である。 合成および実データに関する数値実験により,我々の座標降下法は,スケーラビリティを保ちながらほぼ最適解が得られることを示した。

This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-17
# CoTリライラ:誤り検出と補正による複雑な推論タスクにおける大規模言語モデルの信頼性向上

CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction ( http://arxiv.org/abs/2408.13940v2 )

ライセンス: Link先を確認
Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li, (参考訳) CoT(Chain-of-Thought)により、中間ステップを生成することで、LLM(Large Language Models)の複雑な推論能力が向上する。 しかし、これらのステップは幻覚を導入し、エラーを蓄積することができる。 我々は,これらの課題に対処するためにCoTリライラを提案し,自己整合性とマルチエージェントの議論システムを用いて推論過程における誤りを特定し,修正する。 CoT Rerailerは、整合性チェックと自動エージェントによる臨界評価を用いて、最も論理的に正しいReasoning Path(RP)を選択する。 その後、エラーのない中間論理経路の生成を保証するために、修正の提案と検証を行うためのマルチエージェントの議論システムに携わる。 修正されたステップは、さらに幻覚を減らし、回答の品質を高めるために修正された推論連鎖を生成するために使用される。 様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。 CoT RerailerはLLM生成推論の信頼性を高め、より信頼性の高いAI駆動意思決定プロセスに寄与する。

Chain-of-Thought (CoT) prompting enhances Large Language Models (LLMs) complex reasoning abilities by generating intermediate steps. However, these steps can introduce hallucinations and accumulate errors. We propose the CoT Rerailer to address these challenges, employing self-consistency and multi-agent debate systems to identify and rectify errors in the reasoning process. The CoT Rerailer first selects the most logically correct Reasoning Path (RP) using consistency checks and critical evaluation by automated agents. It then engages a multi-agent debate system to propose and validate corrections to ensure the generation of an error-free intermediate logical path. The corrected steps are then used to generate a revised reasoning chain to further reduce hallucinations and enhance answer quality. We demonstrate the effectiveness of our approach across diverse question-answering datasets in various knowledge domains. The CoT Rerailer enhances the reliability of LLM-generated reasoning, contributing to more trustworthy AI driven decision-making processes.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-17
# 多スピン系における周期的古典的軌跡と量子傷

Periodic classical trajectories and quantum scars in many-spin systems ( http://arxiv.org/abs/2409.00258v2 )

ライセンス: Link先を確認
Igor Ermakov, Oleg Lychkovskiy, Boris V. Fine, (参考訳) 比較的一般的なカオス多体系における例外的周期的古典的軌跡の安定性を数値的に研究し、これらの軌跡と「量子多体傷」として知られる例外的非熱量子固有状態との間の関連性を探る。 考慮された系は、古典的および量子的両方の短距離相互作用を持つカオススピン鎖である。 古典的な側面では、選択された周期軌道は、すべてのスピンが時間関数として進化する同じ方向を瞬時に指すようなものである。 これらの軌道の安定度を特徴づける最大のリャプノフ指数は、相互作用定数と鎖長に対する驚くほど強い非自明な依存を持つ。 特に、上述の周期軌道が、カオス運動によって圧倒的に支配される多体エネルギーシェル上でリアプノフ安定であるような、かなり長いスピン鎖を同定する。 また、緩やかな大きなスピン鎖における周期軌道の不安定性は、半周期的に近い準周期的非エルゴード的状態へと発展する。 場合によっては、この状態の寿命は非常に長く、積分力学の近傍におけるアーノルド拡散の顕在化であると解釈する場合もある。 量子側では、全てのスピンが最初に同じ方向を向いている量子状態の力学を数値的に研究する。 本研究は,スピン3/2以上の数値的にアクセス可能な有限鎖に対する量子多体傷の存在を明らかにする。 量子傷が支配する動的熱化過程は、同じエネルギーにおける一般的な熱化と比較して遅くなることが示されている。 最後に、周期運動の古典的なセパラトリクスに近接する量子シグネチャを同定する。

We numerically investigate the stability of exceptional periodic classical trajectories in rather generic chaotic many-body systems and explore a possible connection between these trajectories and exceptional nonthermal quantum eigenstates known as "quantum many-body scars". The systems considered are chaotic spin chains with short-range interactions, both classical and quantum. On the classical side, the chosen periodic trajectories are such that all spins instantaneously point in the same direction, which evolves as a function of time. We find that the largest Lyapunov exponents characterising the stabillity of these trajectories have surprisingly strong and nontrivial dependencies on the interaction constants and chain lengths. In particular, we identify rather long spin chains, where the above periodic trajectories are Lyapunov-stable on many-body energy shells overwhelmingly dominated by chaotic motion. We also find that instabilities around periodic trajectories in modestly large spin chains develop into a transient nearly quasiperiodic non-ergodic regime. In some cases, the lifetime of this regime is extremely long, which we interpret as a manifestation of Arnold diffusion in the vicinity of integrable dynamics. On the quantum side, we numerically investigate the dynamics of quantum states starting with all spins initially pointing in the same direction: these are the quantum counterparts of the initial conditions for the above periodic classical trajectories. Our investigation reveals the existence of quantum many-body scars for numerically accessible finite chains of spins 3/2 and higher. The dynamic thermalisation process dominated by quantum scars is shown to exhibit a slowdown in comparison with generic thermalisation at the same energy. Finally, we identify quantum signatures of the proximity to a classical separatrix of the periodic motion.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# 安全な3Dアセットを目指して:自動可視な透かしのための新しいフレームワーク

Towards Secure and Usable 3D Assets: A Novel Framework for Automatic Visible Watermarking ( http://arxiv.org/abs/2409.00314v2 )

ライセンス: Link先を確認
Gursimran Singh, Tianxi Hu, Mohammad Akbari, Qiang Tang, Yong Zhang, (参考訳) 3Dモデル(特にAI生成モデル)は、エンターテイメントなどさまざまな業界で最近急増している。 したがって、知的財産を保護し、これらの貴重な資産の誤用を避ける必要がある。 これらの問題に対処するための有効なソリューションとして,透かしの品質と有用性という2つの競合する側面の観点から,自動3D透かしの新たなタスクを厳格に定義する。 また, 透かしの適切な位置, 向き, 数を自動的に決定する可視透かしの埋め込み方式を提案する。 提案手法は,バックプロパゲーションを用いて最適なウォーターマーク配置のための変換を自動的に学習する,新しい剛体最適化に基づく。 さらに,透かしを3次元モデルに融合する新しい曲率マッチング手法を提案する。 最後に,2つのベンチマーク3Dデータセットについて,ベースラインと比較して,アプローチの優れた性能を検証した詳細な実験分析を行った。 コードとデモが公開されている。

3D models, particularly AI-generated ones, have witnessed a recent surge across various industries such as entertainment. Hence, there is an alarming need to protect the intellectual property and avoid the misuse of these valuable assets. As a viable solution to address these concerns, we rigorously define the novel task of automated 3D visible watermarking in terms of two competing aspects: watermark quality and asset utility. Moreover, we propose a method of embedding visible watermarks that automatically determines the right location, orientation, and number of watermarks to be placed on arbitrary 3D assets for high watermark quality and asset utility. Our method is based on a novel rigid-body optimization that uses back-propagation to automatically learn transforms for ideal watermark placement. In addition, we propose a novel curvature-matching method for fusing the watermark into the 3D model that further improves readability and security. Finally, we provide a detailed experimental analysis on two benchmark 3D datasets validating the superior performance of our approach in comparison to baselines. Code and demo are available.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# ブラックボックス・ビジョン・ランゲージ・モデルの優先画像分布の決定法

How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? ( http://arxiv.org/abs/2409.02253v2 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Joseph Lambourne, Alana Mongkhounsavath, (参考訳) 大規模な基盤モデルはこの分野に革命をもたらしたが、専門的な視覚タスクのためのマルチモーダルモデルの最適化には依然として課題が残っている。 本稿では,様々な入力プロンプト間で出力の整合性を測定することによって,ブラックボックスビジョンランゲージモデル(VLM)の優先画像分布を同定する,新しい一般化可能な手法を提案する。 これを異なる3Dオブジェクトのレンダリングタイプに適用することにより、コンピュータ支援設計(CAD)を模範分野として、複雑な構造を正確に解釈する必要のある様々な領域で有効性を示す。 我々は、人間のフィードバックで文脈内学習を用いてVLM出力をさらに洗練し、説明品質を著しく向上させる。 特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。 CAD-VQA 上での最先端 VLM の評価は,様々な分野にわたる複雑な視覚的推論タスクにおける VLM 機能向上のための基盤となる性能レベルを確立する。 データセットと評価コードは \url{https://github.com/asgsaeid/cad_vqa} で公開しています。

Large foundation models have revolutionized the field, yet challenges remain in optimizing multi-modal models for specialized visual tasks. We propose a novel, generalizable methodology to identify preferred image distributions for black-box Vision-Language Models (VLMs) by measuring output consistency across varied input prompts. Applying this to different rendering types of 3D objects, we demonstrate its efficacy across various domains requiring precise interpretation of complex structures, with a focus on Computer-Aided Design (CAD) as an exemplar field. We further refine VLM outputs using in-context learning with human feedback, significantly enhancing explanation quality. To address the lack of benchmarks in specialized domains, we introduce CAD-VQA, a new dataset for evaluating VLMs on CAD-related visual question answering tasks. Our evaluation of state-of-the-art VLMs on CAD-VQA establishes baseline performance levels, providing a framework for advancing VLM capabilities in complex visual reasoning tasks across various fields requiring expert-level visual interpretation. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/cad_vqa}.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# MMLU-Pro+:LLMにおける高次推論とショートカット学習の評価

MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs ( http://arxiv.org/abs/2409.02257v2 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi, (参考訳) 大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労しており、より困難な評価フレームワークの必要性を強調している。 LLMにおけるショートカット学習と高次推論を評価するために,MMLU-Proをベースとした拡張ベンチマークであるMMLU-Pro+を導入する。 MMLU-Pro+は、様々な領域にまたがる複数の正解の質問を組み込むことで、複雑な推論にLLMの能力をテストし、単純化された問題解決戦略に抵抗する。 以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,モデル判別の厳密な検証を行ない,特に複数の正解シナリオにおいて行うことが示唆された。 ショートカット選択比や正しいペア識別比といった新しい指標を導入し、モデルの振る舞いとバイアスのアンカーについてより深い洞察を提供する。 最先端の6つのLCMの評価は、推論能力とバイアス感受性のばらつきを顕著に示し、大きなパフォーマンスギャップを浮き彫りにした。 データセットと評価コードは \url{https://github.com/asgsaeid/mmlu-pro-plus} で公開しています。

Existing benchmarks for large language models (LLMs) increasingly struggle to differentiate between top-performing models, underscoring the need for more challenging evaluation frameworks. We introduce MMLU-Pro+, an enhanced benchmark building upon MMLU-Pro to assess shortcut learning and higher-order reasoning in LLMs. By incorporating questions with multiple correct answers across diverse domains, MMLU-Pro+ tests LLMs' ability to engage in complex reasoning and resist simplistic problem-solving strategies. Our results show that MMLU-Pro+ maintains MMLU-Pro's difficulty while providing a more rigorous test of model discrimination, particularly in multi-correct answer scenarios. We introduce novel metrics like shortcut selection ratio and correct pair identification ratio, offering deeper insights into model behavior and anchoring bias. Evaluations of six state-of-the-art LLMs reveal significant performance gaps, highlighting variations in reasoning abilities and bias susceptibility. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/mmlu-pro-plus}.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# ランダム化による量子アルゴリズムのコスト削減

Halving the Cost of Quantum Algorithms with Randomization ( http://arxiv.org/abs/2409.03744v2 )

ライセンス: Link先を確認
John M. Martyn, Patrick Rall, (参考訳) 量子信号処理(QSP)は、線形作用素の多項式変換を実装するための体系的なフレームワークを提供し、ほとんどすべての既知の量子アルゴリズムを統一する。 並行して、最近の研究はランダム化されたコンパイルを開発した。これはユニタリゲートを量子チャネルにプロモートし、誤りの二次的な抑制を可能にする技術である($\epsilon \rightarrow O(\epsilon^2)$)。 ここでは、確率量子信号処理によるランダム化コンパイルをQSPに統合する。 提案アルゴリズムは, 平均進化が対象関数に収束するように戦略的に選択された多項式の確率的混合を実装し, 誤差は等価な個々の多項式よりも2次的に小さい。 ほとんど全てのQSPベースのアルゴリズムは、$O(\log(1/\epsilon))$ -- 関数解析の結果から生じる -- のクエリ複雑さを示すので、このエラーは、漸近的に1/2$に近づいた要因によって、クエリの複雑さを減少させる。 QSPの統一能力により、この削減は量子アルゴリズムにまで拡張され、実時間と想像の時間進化、位相推定、基底状態の準備、行列逆転のアルゴリズムで示される。

Quantum signal processing (QSP) provides a systematic framework for implementing a polynomial transformation of a linear operator, and unifies nearly all known quantum algorithms. In parallel, recent works have developed randomized compiling, a technique that promotes a unitary gate to a quantum channel and enables a quadratic suppression of error (i.e., $\epsilon \rightarrow O(\epsilon^2)$) at little to no overhead. Here we integrate randomized compiling into QSP through Stochastic Quantum Signal Processing. Our algorithm implements a probabilistic mixture of polynomials, strategically chosen so that the average evolution converges to that of a target function, with an error quadratically smaller than that of an equivalent individual polynomial. Because nearly all QSP-based algorithms exhibit query complexities scaling as $O(\log(1/\epsilon))$ -- stemming from a result in functional analysis -- this error suppression reduces their query complexity by a factor that asymptotically approaches $1/2$. By the unifying capabilities of QSP, this reduction extends broadly to quantum algorithms, which we demonstrate on algorithms for real and imaginary time evolution, phase estimation, ground state preparation, and matrix inversion.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# ミスマッチ実行時のワンショット模倣

One-Shot Imitation under Mismatched Execution ( http://arxiv.org/abs/2409.06615v2 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Sanjiban Choudhury, (参考訳) プロンプトとしての人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。 しかしながら、これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力における実行ミスマッチによる重大な課題を呈する。 既存の方法は、スケールが不可能なロボットとデモレータのペアデータに依存するか、あるいは実際に故障することが多いフレームレベルの視覚的類似性に強く依存する。 これらの課題に対処するために,ロボットとデモレータのタスク実行を最適な輸送コストで自動調整する新しいフレームワークであるRHyMEを提案する。 ロングホライズンロボットのデモが与えられた後、RHyMEはショートホライズン・デモンストレーターのクリップを検索して合成することで意味論的に等価なデモンストレータービデオを合成する。 このアプローチは、ペアデータを必要としない効果的なポリシートレーニングを促進する。 我々は,RHyMEが,従来よりもタスクリコールが52%増加したことを実証した。 コードとデータセットはhttps://portal-cornell.github.io/rhyme/で公開しています。

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on robot-demonstrator paired data, which is infeasible to scale, or rely too heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns robot and demonstrator task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent demonstrator videos by retrieving and composing short-horizon demonstrator clips. This approach facilitates effective policy training without the need for paired data. We demonstrate that RHyME outperforms a range of baselines across cross-embodiment datasets, showing a 52% increase in task recall over prior cross-embodiment learning methods. We release our code and datasets at https://portal-cornell.github.io/rhyme/.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-17
# 干渉計測のクラスタに基づくモニタリングモジュールによる故障検出と検出

Fault Detection and Identification via Monitoring Modules Based on Clusters of Interacting Measurements ( http://arxiv.org/abs/2409.11444v1 )

ライセンス: Link先を確認
Enrique Luna Villagomez, Vladimir Mahalec, (参考訳) 本研究は,対話的計測のクラスタからなるモジュールをベースとした,制御対応の分散プロセス監視手法を提案する。 この方法論は、プロセスフロー図(PFD)と制御システム構造に依存しており、モニタリングモジュールを作成するために相互相関データを必要としない。 この手法は、モニタリングモジュールの完全な主成分分析(f-PCA)を使用して、テネシー・イーストマン・プロセスのベンチマークで検証されている。 結果は、Kernel PCA(KPCA)、オートエンコーダ(AE)、リカレントニューラルネットワーク(RNN)といった集中型手法や、分散正準相関解析(DCCA)のような分散技術に匹敵する。 異なるモジュールによる障害検出の時間的プロットは、各モジュールにおける障害の大きさと伝播を明確に示し、障害が発するモジュールを特定し、他の障害から制御可能な障害を分離する。 この情報とPCAコントリビューションプロットが組み合わさって、より複雑な非線形集中型あるいは分散型の方法と同様に、検出と識別を効果的に行う。

This work introduces a novel control-aware distributed process monitoring methodology based on modules comprised of clusters of interacting measurements. The methodology relies on the process flow diagram (PFD) and control system structure without requiring cross-correlation data to create monitoring modules. The methodology is validated on the Tennessee Eastman Process benchmark using full Principal Component Analysis (f-PCA) in the monitoring modules. The results are comparable to nonlinear techniques implemented in a centralized manner such as Kernel PCA (KPCA), Autoencoders (AE), and Recurrent Neural Networks (RNN), or distributed techniques like the Distributed Canonical Correlation Analysis (DCCA). Temporal plots of fault detection by different modules show clearly the magnitude and propagation of the fault through each module, pinpointing the module where the fault originates, and separating controllable faults from other faults. This information, combined with PCA contribution plots, helps detection and identification as effectively as more complex nonlinear centralized or distributed methods.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-17
# 記号数学を用いた大規模言語モデルのジェイルブレイク

Jailbreaking Large Language Models with Symbolic Mathematics ( http://arxiv.org/abs/2409.11445v1 )

ライセンス: Link先を確認
Emet Bethany, Mazal Bethany, Juan Arturo Nolazco Flores, Sumit Kumar Jha, Peyman Najafirad, (参考訳) AI安全性の最近の進歩は、安全でないコンテンツ生成を緩和するために、大規模な言語モデル(LLM)のトレーニングと再チームの強化につながっている。 しかし、これらの安全性メカニズムは包括的ではなく、潜在的な脆弱性は未調査のままである。 本稿では, シンボル数学におけるLLMの高度な能力を利用して, 安全機構を回避した新しいジェイルブレイク手法であるMathPromptを紹介する。 有害な自然言語プロンプトを数学的問題にエンコードすることにより、現在のAI安全対策において重大な脆弱性を示す。 13の最先端のLSMを対象とした実験では、73.6\%の平均攻撃成功率が示され、数学的に符号化された入力を一般化する既存の安全訓練機構の欠如が浮かび上がっている。 埋め込みベクトルの解析は、元のプロンプトとエンコードされたプロンプトの間に意味的な変化を示し、攻撃の成功を説明するのに役立つ。 この研究は、AIの安全性に対する全体的アプローチの重要性を強調しており、あらゆる潜在的な入力タイプとその関連するリスクに対して堅牢なセーフガードを開発するための、レッドチーム活動の拡大を求めている。

Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6\%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-17
# ECML-PKDD 2024におけるボルボ発見チャレンジ

Volvo Discovery Challenge at ECML-PKDD 2024 ( http://arxiv.org/abs/2409.11446v1 )

ライセンス: Link先を確認
Mahmoud Rahat, Peyman Sheikholharam Mashhadi, Sławomir Nowaczyk, Shamik Choudhury, Leo Petrin, Thorsteinn Rognvaldsson, Andreas Voskou, Carlo Metta, Claudio Savelli, (参考訳) 本稿では,ECML-PKDD 2024カンファレンスで開催されたVolvo Discovery Challengeの概要を紹介する。 課題の目標は、新たに公開されたデータセットを使用して、Volvoトラックの匿名コンポーネントの障害リスクを予測することだった。 試験データには、成分の2世代(gen1とgen2)の観測結果が含まれ、トレーニングデータはgen1にのみ提供された。 この挑戦は、世界中から52人のデータサイエンティストを集め、合計761のエントリーを提出した。 本稿では,課題定義,課題設定,提出内容の統計について簡潔に述べる。 受賞方法に関するセクションでは、コンペティションの第1、第2、第3の勝者が提案されたメソッドを簡潔に説明し、実装されたコードへのGitHubリンクを提供している。 共有コードは、予測メンテナンス領域の研究者のための高度な方法論として興味深い。 コンペティションはCodabenchプラットフォーム上で開催された。

This paper presents an overview of the Volvo Discovery Challenge, held during the ECML-PKDD 2024 conference. The challenge's goal was to predict the failure risk of an anonymized component in Volvo trucks using a newly published dataset. The test data included observations from two generations (gen1 and gen2) of the component, while the training data was provided only for gen1. The challenge attracted 52 data scientists from around the world who submitted a total of 791 entries. We provide a brief description of the problem definition, challenge setup, and statistics about the submissions. In the section on winning methodologies, the first, second, and third-place winners of the competition briefly describe their proposed methods and provide GitHub links to their implemented code. The shared code can be interesting as an advanced methodology for researchers in the predictive maintenance domain. The competition was hosted on the Codabench platform.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 結び目不変量と不定因数順序

Knot invariants and indefinite causal order ( http://arxiv.org/abs/2409.11448v1 )

ライセンス: Link先を確認
Samuel Fedida, Anne-Catherine de la Hamette, Viktoria Kabel, Časlav Brukner, (参考訳) 準古典的時空の文脈における事象間の不確定因果順序について検討する。 任意の有限個の事象に対する因果順序の不確定性の度合いと、重ね合わせにおける時空構成を測定するために、いくつかの新しい量化器を導入する。 事象間の因果次数の図式的および結び目論的表現を構築することにより、因果次数の定性または最大不定性は位相不変であることが分かる。 これは量子因果関係の場と結び目理論の間の興味深い関係を明らかにしている。 さらに、不確定因果順序の操作的符号化を提供し、量子コヒーレンスの測定を分類に組み込む方法について論じる。

We explore indefinite causal order between events in the context of quasiclassical spacetimes in superposition. We introduce several new quantifiers to measure the degree of indefiniteness of the causal order for an arbitrary finite number of events and spacetime configurations in superposition. By constructing diagrammatic and knot-theoretic representations of the causal order between events, we find that the definiteness or maximal indefiniteness of the causal order is topologically invariant. This reveals an intriguing connection between the field of quantum causality and knot theory. Furthermore, we provide an operational encoding of indefinite causal order and discuss how to incorporate a measure of quantum coherence into our classification.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 音楽理解における事前学習言語モデルの評価

Evaluation of pretrained language models on music understanding ( http://arxiv.org/abs/2409.11449v1 )

ライセンス: Link先を確認
Yannis Vasilakis, Rachel Bittner, Johan Pauwels, (参考訳) 音楽テキストマルチモーダルシステムは,音声テキスト検索やテキスト音声検索,テキストベースの楽曲生成,音楽キャプションなど,音楽情報研究(MIR)の新たなアプローチを可能にしている。 報告された成功にもかかわらず、Large Language Models (LLM)の音楽的知識を評価する努力はほとんど行われていない。 本稿では LLM が苦しむことを実証する。 1) 敏感性, 敏感性 2)否定をモデル化できない(例:「ギターなしのロックソング」)、 3)特定の単語の存在に対する感受性。 我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。 我々はAudiosetオントロジーを利用して、アンカー、正(関連)ラベル、およびジャンルと楽器のサブツリーの負(無関係)ラベルからなる三つ子を生成する。 6つの汎用トランスフォーマーモデルに対する三重奏法に基づく音楽知識の評価を行った。 この手法によって得られた三重項は、判定が困難であり、評価の目的に比較的役に立たないものもあったため、フィルタリングを必要とした。 比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。

Music-text multimodal systems have enabled new approaches to Music Information Research (MIR) applications such as audio-to-text and text-to-audio retrieval, text-based song generation, and music captioning. Despite the reported success, little effort has been put into evaluating the musical knowledge of Large Language Models (LLM). In this paper, we demonstrate that LLMs suffer from 1) prompt sensitivity, 2) inability to model negation (e.g. 'rock song without guitar'), and 3) sensitivity towards the presence of specific words. We quantified these properties as a triplet-based accuracy, evaluating the ability to model the relative similarity of labels in a hierarchical ontology. We leveraged the Audioset ontology to generate triplets consisting of an anchor, a positive (relevant) label, and a negative (less relevant) label for the genre and instruments sub-tree. We evaluated the triplet-based musical knowledge for six general-purpose Transformer-based models. The triplets obtained through this methodology required filtering, as some were difficult to judge and therefore relatively uninformative for evaluation purposes. Despite the relatively high accuracy reported, inconsistencies are evident in all six models, suggesting that off-the-shelf LLMs need adaptation to music before use.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 自律移動ロボットナビゲーションのための地形・ロボット認識ダイナミクスモデル学習

Learning a Terrain- and Robot-Aware Dynamics Model for Autonomous Mobile Robot Navigation ( http://arxiv.org/abs/2409.11452v1 )

ライセンス: Link先を確認
Jan Achterhold, Suresh Guttikonda, Jens U. Kreber, Haolong Li, Joerg Stueckler, (参考訳) 移動ロボットは、自律ナビゲーションのための費用効率の良い経路を計画できるはずである。 通常、地形とロボットの特性は変動する。 例えば、摩擦のような地形の性質は場所によって異なることがある。 また、ロボットの特性はペイロードや摩耗、涙などの変化があり、アクチュエータの利得の変化や関節摩擦を引き起こす。 したがって、自律的なナビゲーションアプローチは、このようなバリエーションに適応できるはずである。 本稿では,確率的,地形的,ロボット対応のフォワードダイナミクスモデル(TRADYN)の学習手法を提案する。 我々の学習アプローチは、移動ロボットナビゲーションのためのニューラルプロセスに基づくメタラーニングフォワードダイナミクスモデルの最近の進歩を拡張している。 本研究では, 空間的に異なる摩擦係数を持つ地形特性を持つ一サイクル動的ロボットの2次元ナビゲーションシミュレーションにおいて, 提案手法の評価を行った。 実験では,TRADYNはロボットや地形の変化に適応しないモデルアブレーションよりも,長時間水平線上での予測誤差が低いことを示した。 また,モデル予測制御フレームワークと各種ノイズ源下でのナビゲーション計画モデルの評価を行った。 提案手法は,ロボットと地形特性を考慮した制御効率の高い経路を計画する際の性能向上を実証する。

Mobile robots should be capable of planning cost-efficient paths for autonomous navigation. Typically, the terrain and robot properties are subject to variations. For instance, properties of the terrain such as friction may vary across different locations. Also, properties of the robot may change such as payloads or wear and tear, e.g., causing changing actuator gains or joint friction. Autonomous navigation approaches should thus be able to adapt to such variations. In this article, we propose a novel approach for learning a probabilistic, terrain- and robot-aware forward dynamics model (TRADYN) which can adapt to such variations and demonstrate its use for navigation. Our learning approach extends recent advances in meta-learning forward dynamics models based on Neural Processes for mobile robot navigation. We evaluate our method in simulation for 2D navigation of a robot with uni-cycle dynamics with varying properties on terrain with spatially varying friction coefficients. In our experiments, we demonstrate that TRADYN has lower prediction error over long time horizons than model ablations which do not adapt to robot or terrain variations. We also evaluate our model for navigation planning in a model-predictive control framework and under various sources of noise. We demonstrate that our approach yields improved performance in planning control-efficient paths by taking robot and terrain properties into account.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# Golden Ratio Search: ディープラーニングに基づく変調分類のための低消費電力逆アタック

Golden Ratio Search: A Low-Power Adversarial Attack for Deep Learning based Modulation Classification ( http://arxiv.org/abs/2409.11454v1 )

ライセンス: Link先を確認
Deepsayan Sadhukhan, Nitin Priyadarshini Shankar, Sheetal Kalyani, (参考訳) 本稿では,ディープラーニングに基づく自動修正分類(AMC)のための最小限のパワー・ホワイトボックス対逆攻撃を提案する。 提案した攻撃は、Golden Ratio Search (GRS) 法を用いて、最小限の電力で強力な攻撃を見つける。 提案手法の有効性を,既存の攻撃手法との比較により評価した。 さらに, 対人訓練, 双対化, アンサンブル法などの防衛機構を含む, 最先端アーキテクチャに対する攻撃の堅牢性についても検証した。 実験により,提案した攻撃は強力で,最小限の電力を必要とし,少ない時間で発生できることが示され,現在のAMC手法のレジリエンスを著しく困難にしている。

We propose a minimal power white box adversarial attack for Deep Learning based Automatic Modulation Classification (AMC). The proposed attack uses the Golden Ratio Search (GRS) method to find powerful attacks with minimal power. We evaluate the efficacy of the proposed method by comparing it with existing adversarial attack approaches. Additionally, we test the robustness of the proposed attack against various state-of-the-art architectures, including defense mechanisms such as adversarial training, binarization, and ensemble methods. Experimental results demonstrate that the proposed attack is powerful, requires minimal power, and can be generated in less time, significantly challenging the resilience of current AMC methods.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# PocketNet を用いた頸部腫瘍の2段階分離

Two Stage Segmentation of Cervical Tumors using PocketNet ( http://arxiv.org/abs/2409.11456v1 )

ライセンス: Link先を確認
Awj Twam, Megan Jacobsen, Rachel Glenn, Ann Klopp, Aradhana M. Venkatesan, David Fuentes, (参考訳) 頸部がんは世界で4番目に多い悪性腫瘍である。 CRT(Concurrent chemoradiotherapy)は局所進行子宮頸癌に対する主治的治療薬であり, 放射線照射, ブラキセラピーを併用する。 放射線治療療法計画とは, 子宮頸部, 関連婦人科解剖学, 隣接臓器(OAR)の両腫瘍の定期的な構成である。 しかしながら、これらの構造を手動で構成することは時間と労力の両方に重きを置いており、治療結果に影響を及ぼす可能性のある既知のオブザーバ間の変動と関連している。 CT画像(3,4,5,6)を用いてOARと高リスク臨床腫瘍容積(HR-CTV)を自動的に分離する複数のツールが開発されているが,T2-weighted (T2w) MRIを用いた深層学習ベースの腫瘍分割ツールの開発は,解剖学的構造と頚部癌の両方の定期的構成を改善するために,未治療の臨床的ニーズに対処し,放射線治療計画の品質と整合性を高める。 この研究は、新しいディープラーニングモデル(PocketNet)を用いて、T2w MRI上の頸部、血管、子宮、腫瘍を分割した。 PocketNetアーキテクチャのパフォーマンスは、5倍のクロスバリデーションによるデータトレーニングによって評価された。 PocketNetはDice-Sorensen類似度係数 (DSC) を70%以上, 臓器分節率 (80%) で達成した。 これらの結果は、PocketNetはコントラストプロトコルのバリエーションに対して堅牢であり、ROIの信頼性の高いセグメンテーションを提供することを示唆している。

Cervical cancer remains the fourth most common malignancy amongst women worldwide.1 Concurrent chemoradiotherapy (CRT) serves as the mainstay definitive treatment regimen for locally advanced cervical cancers and includes external beam radiation followed by brachytherapy.2 Integral to radiotherapy treatment planning is the routine contouring of both the target tumor at the level of the cervix, associated gynecologic anatomy and the adjacent organs at risk (OARs). However, manual contouring of these structures is both time and labor intensive and associated with known interobserver variability that can impact treatment outcomes. While multiple tools have been developed to automatically segment OARs and the high-risk clinical tumor volume (HR-CTV) using computed tomography (CT) images,3,4,5,6 the development of deep learning-based tumor segmentation tools using routine T2-weighted (T2w) magnetic resonance imaging (MRI) addresses an unmet clinical need to improve the routine contouring of both anatomical structures and cervical cancers, thereby increasing quality and consistency of radiotherapy planning. This work applied a novel deep-learning model (PocketNet) to segment the cervix, vagina, uterus, and tumor(s) on T2w MRI. The performance of the PocketNet architecture was evaluated, when trained on data via 5-fold cross validation. PocketNet achieved a mean Dice-Sorensen similarity coefficient (DSC) exceeding 70% for tumor segmentation and 80% for organ segmentation. These results suggest that PocketNet is robust to variations in contrast protocols, providing reliable segmentation of the ROIs.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 真空から魔法を放つ

Harvesting magic from the vacuum ( http://arxiv.org/abs/2409.11473v1 )

ライセンス: Link先を確認
Ron Nyström, Nicola Pranzini, Esko Keski-Vakkuri, (参考訳) Magic(マジック)は、量子コンピュータが古典的な計算によって効率的にシミュレートできない操作を実行できる量子リソースである。 そのため、量子システムにおける魔法の生成は、量子上の優位性を達成するために不可欠である。 この手紙は、初期真空状態の量子場と相互作用する3レベルのUnruh-DeWitt検出器(量子ビット)によって魔法を収穫できることを示している。 量子場理論(QFT)から資源を抽出するという考え方は、絡み合いの収穫から生まれたものであるが、この結果は、石英を非魔法の状態から魔法状態へと進化させるプロトコルを拡張し、QFTから魔法を生成することができる。

Magic is the quantum resource allowing a quantum computer to perform operations that cannot be simulated efficiently by classical computation. As such, generating magic in a quantum system is crucial for achieving quantum advantage. This letter shows that magic can be harvested by a three-level Unruh-DeWitt detector (a qutrit) interacting with a quantum field in an initial vacuum state. While the idea of extracting resources from Quantum Field Theories (QFT) was born from the harvesting of entanglement, our result extends the protocol to evolve a qutrit from a non-magical state to a magical one, making it possible to generate magic from QFT.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 単一空間モード量子ウォークにおける多光子干渉

Multiphoton interference in a single-spatial-mode quantum walk ( http://arxiv.org/abs/2409.11483v1 )

ライセンス: Link先を確認
Kate L. Fenwick, Jonathan Baker, Guillaume S. Thekkadath, Aaron Z. Goldberg, Khabat Heshami, Philip J. Bustard, Duncan England, Frédéric Bouchard, Benjamin Sussman, (参考訳) 多光子干渉は多くのフォトニック量子技術にとって重要である。 特に、干渉は光量子情報処理プラットフォームの基礎を形成し、大きな計算上の優位性をもたらす可能性がある。 したがって、大規模な干渉計ネットワークにおける様々な光状態からの干渉を研究することは興味深い。 ここでは、最大24個の超高速時間ビンを備えた、高度に安定で低損失なマルチポート干渉計で量子ウォークを実装した。 この時間ビン干渉計は、単一の光軸に沿って4.3\,psで分離されたパルスを生成する複屈折結晶からなる。 光ファイバ中の超高速カーゲーティングは、量子ウォークからの出力を時間分解するために用いられる。 我々は,1つ以上の入力ポートにおける1つ,2つ,3つの光子干渉を,有意な単一光子状態,熱状態,減衰コヒーレント状態を含む様々な入力状態の組み合わせから測定した。 以上の結果から,超高速時間ビンは大規模多光子干渉を観測する上で有望なプラットフォームであることが示された。

Multiphoton interference is crucial to many photonic quantum technologies. In particular, interference forms the basis of optical quantum information processing platforms and can lead to significant computational advantages. It is therefore interesting to study the interference arising from various states of light in large interferometric networks. Here, we implement a quantum walk in a highly stable, low-loss, multiport interferometer with up to 24 ultrafast time bins. This time-bin interferometer comprises a sequence of birefringent crystals which produce pulses separated by 4.3\,ps, all along a single optical axis. Ultrafast Kerr gating in an optical fiber is employed to time-demultiplex the output from the quantum walk. We measure one-, two-, and three-photon interference arising from various input state combinations, including a heralded single-photon state, a thermal state, and an attenuated coherent state at one or more input ports. Our results demonstrate that ultrafast time bins are a promising platform to observe large-scale multiphoton interference.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# アルゴリズムフェアネスを超えて - 倫理的AIで実現可能な意思決定ツールの開発とデプロイガイド

Beyond Algorithmic Fairness: A Guide to Develop and Deploy Ethical AI-Enabled Decision-Support Tools ( http://arxiv.org/abs/2409.11489v1 )

ライセンス: Link先を確認
Rosemarie Santa Gonzalez, Ryan Piansky, Sue M Bae, Justin Biddle, Daniel Molzahn, (参考訳) 人工知能(AI)と最適化の統合は、エンジニアリングシステムの効率性、信頼性、レジリエンスを向上させるための大きな約束を持っている。 多くのエンジニアリングされたシステムのネットワークの性質のため、この交差点に倫理的に方法論を配置することは、他のAI設定とは異なる課題を生じさせ、AI対応最適化に適した倫理的ガイドラインの開発を動機付けている。 本稿では、モデリング、データキュレーション、結果分析、最適化に基づく意思決定支援ツールの実装といった段階にまたがる倫理的決定を体系的に解決するために、公平性に基づくアルゴリズムを超える必要があることを強調する。 そこで本稿では,AIの交差点にアルゴリズムを配置する際の倫理的考察と,電源系統やロジスティクスのケーススタディによる最適化について述べる。 本論文は、規範的なルールのセットを提供するのではなく、研究者間のリフレクションと意識を高め、意思決定プロセスのすべてのステップにおける倫理的意味の考察を促進することを目的としている。

The integration of artificial intelligence (AI) and optimization hold substantial promise for improving the efficiency, reliability, and resilience of engineered systems. Due to the networked nature of many engineered systems, ethically deploying methodologies at this intersection poses challenges that are distinct from other AI settings, thus motivating the development of ethical guidelines tailored to AI-enabled optimization. This paper highlights the need to go beyond fairness-driven algorithms to systematically address ethical decisions spanning the stages of modeling, data curation, results analysis, and implementation of optimization-based decision support tools. Accordingly, this paper identifies ethical considerations required when deploying algorithms at the intersection of AI and optimization via case studies in power systems as well as supply chain and logistics. Rather than providing a prescriptive set of rules, this paper aims to foster reflection and awareness among researchers and encourage consideration of ethical implications at every step of the decision-making process.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 大規模言語モデルによるデータセットとデモグラフィックの強化: 名前には何があるのか?

Enriching Datasets with Demographics through Large Language Models: What's in a Name? ( http://arxiv.org/abs/2409.11491v1 )

ライセンス: Link先を確認
Khaled AlNuaimi, Gautier Marti, Mathieu Ravaut, Abdulla AlKetbi, Andreas Henschel, Raed Jaradat, (参考訳) 性別、人種、年齢などの人口統計情報によるデータセットの充実は、医療、公共政策、社会科学といった分野において重要な課題である。 このような人口統計の洞察は、より正確で効果的なターゲットの集団との関わりを可能にする。 隠れマルコフモデルとリカレントニューラルネットワークを使用して名前から人口統計を予測するというこれまでの取り組みにもかかわらず、大きな制限が続いている。 この不足により、従来の教師付き学習手法の開発が妨げられている。 本稿では,Large Language Models (LLMs) のゼロショット能力が,特殊データに基づいて訓練されたベスポークモデルよりも優れているかどうかを実証する。 香港の認可された金融専門家の実際のデータセットを含む、さまざまなデータセットにこれらのLCMを適用し、これらのモデル固有の人口統計バイアスを批判的に評価する。 我々の研究は、人口密度向上の最先端を推し進めるだけでなく、LCMのバイアス軽減に向けた今後の研究の道を開く。

Enriching datasets with demographic information, such as gender, race, and age from names, is a critical task in fields like healthcare, public policy, and social sciences. Such demographic insights allow for more precise and effective engagement with target populations. Despite previous efforts employing hidden Markov models and recurrent neural networks to predict demographics from names, significant limitations persist: the lack of large-scale, well-curated, unbiased, publicly available datasets, and the lack of an approach robust across datasets. This scarcity has hindered the development of traditional supervised learning approaches. In this paper, we demonstrate that the zero-shot capabilities of Large Language Models (LLMs) can perform as well as, if not better than, bespoke models trained on specialized data. We apply these LLMs to a variety of datasets, including a real-life, unlabelled dataset of licensed financial professionals in Hong Kong, and critically assess the inherent demographic biases in these models. Our work not only advances the state-of-the-art in demographic enrichment but also opens avenues for future research in mitigating biases in LLMs.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 未知の共分散を持つガウスの分解

Decomposing Gaussians with Unknown Covariance ( http://arxiv.org/abs/2409.11497v1 )

ライセンス: Link先を確認
Ameer Dharamshi, Anna Neufeld, Lucy L. Gao, Jacob Bien, Daniela Witten, (参考訳) 機械学習と統計学における一般的なワークフローは、データセット内の情報を独立した部分に分割する能力に依存している。 最近の研究では、従来のサンプル分割ができない場合(例えば、サンプルの数が$n=1$である場合や、観測が独立で同一に分散していない場合)でも、このことが可能であることが示されている。 しかし、現在多変量ガウスデータを分解できるアプローチは共分散行列の知識を必要とする。 多くの重要な問題(空間的・縦断的なデータ解析やグラフィカルモデリングなど)において、共分散行列は未知であり、一次的関心事でさえある。 したがって、この研究において、未知の共分散を持つガウス群を分解する新しいアプローチを開発する。 まず,ガウスデータの過去の分解アプローチをすべて特殊ケースとして包含し,未知の共分散の場合をさらに処理できる一般アルゴリズムを提案する。 これは$n>1$の場合にサンプル分割に代わる、より柔軟でフレキシブルな代替となる。 n=1$のとき、共分散行列を知らずに多変量ガウスの情報を独立部分に分割することは不可能である。 したがって、一般アルゴリズムを用いて、未知の共分散を持つ1つの多変量ガウスを、トラクタブルな条件分布を持つ依存部分に分解し、推論と検証に使用することを示す。 提案された分解戦略はガウス過程に自然に拡張される。 シミュレーションおよび脳波データにおいて、これらの分解を、代替戦略が利用できない環境でのモデル選択および選択後推論のタスクに適用する。

Common workflows in machine learning and statistics rely on the ability to partition the information in a data set into independent portions. Recent work has shown that this may be possible even when conventional sample splitting is not (e.g., when the number of samples $n=1$, or when observations are not independent and identically distributed). However, the approaches that are currently available to decompose multivariate Gaussian data require knowledge of the covariance matrix. In many important problems (such as in spatial or longitudinal data analysis, and graphical modeling), the covariance matrix may be unknown and even of primary interest. Thus, in this work we develop new approaches to decompose Gaussians with unknown covariance. First, we present a general algorithm that encompasses all previous decomposition approaches for Gaussian data as special cases, and can further handle the case of an unknown covariance. It yields a new and more flexible alternative to sample splitting when $n>1$. When $n=1$, we prove that it is impossible to partition the information in a multivariate Gaussian into independent portions without knowing the covariance matrix. Thus, we use the general algorithm to decompose a single multivariate Gaussian with unknown covariance into dependent parts with tractable conditional distributions, and demonstrate their use for inference and validation. The proposed decomposition strategy extends naturally to Gaussian processes. In simulation and on electroencephalography data, we apply these decompositions to the tasks of model selection and post-selection inference in settings where alternative strategies are unavailable.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# Augment, Drop and Swap: 効率的な音楽テキスト表現学習のためのLCMキャプションの多様性向上

Augment, Drop & Swap: Improving Diversity in LLM Captions for Efficient Music-Text Representation Learning ( http://arxiv.org/abs/2409.11498v1 )

ライセンス: Link先を確認
Ilaria Manco, Justin Salamon, Oriol Nieto, (参考訳) 音声テキストのコントラストモデルは、音楽表現学習において強力なアプローチとなっている。 しかし、その経験的成功にもかかわらず、この枠組みを通じて学んだ音楽文表現の質に対する重要な設計選択の影響についてはほとんど分かっていない。 本研究では、これらの設計選択を、限られたデータと計算予算の制約の中で公開し、ベースエンコーダの選択、トレーニングデータにおけるキュレーションのレベル、およびテキスト拡張の使用という、3つの軸に沿った経験的観察に基づく影響のより確かな理解を確立する。 データキュレーションは、リソース制約のあるシナリオにおいて、音楽文のコントラストトレーニングにおいて最も重要な要素であることがわかった。 この知見に触発されて、トレーニングで見られるテキスト入力の多様性と記述性を向上するAugmented View DropoutとTextSwapという2つの新しいテクニックを紹介した。 実験を通じて、これらは、より高い計算コストや追加のトレーニングデータを必要とすることなく、様々な事前学習体制、モデルアーキテクチャ、下流データ分散のパフォーマンス向上に有効であることを示した。

Audio-text contrastive models have become a powerful approach in music representation learning. Despite their empirical success, however, little is known about the influence of key design choices on the quality of music-text representations learnt through this framework. In this work, we expose these design choices within the constraints of limited data and computation budgets, and establish a more solid understanding of their impact grounded in empirical observations along three axes: the choice of base encoders, the level of curation in training data, and the use of text augmentation. We find that data curation is the single most important factor for music-text contrastive training in resource-constrained scenarios. Motivated by this insight, we introduce two novel techniques, Augmented View Dropout and TextSwap, which increase the diversity and descriptiveness of text inputs seen in training. Through our experiments we demonstrate that these are effective at boosting performance across different pre-training regimes, model architectures, and downstream data distributions, without incurring higher computational costs or requiring additional training data.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 多文書接地型マルチTurn合成ダイアログ生成

Multi-Document Grounded Multi-Turn Synthetic Dialog Generation ( http://arxiv.org/abs/2409.11500v1 )

ライセンス: Link先を確認
Young-Suk Lee, Chulaka Gunasekara, Danish Contractor, Ramón Fernandez Astudillo, Radu Florian, (参考訳) 本稿では,3つの主要なアイデアを取り入れたマルチドキュメント・グラウンド・マルチターン合成ダイアログ生成手法を提案する。 まず,Chain-of-Thought(CoT)プロンプトによって生成される分類によるユーザクエリを用いて,ダイアログ全体のフローを制御する。 第2に,複数文書のグラウンドドダイアログの生成を支援するため,ユーザがダイアログを切り替えるたびに,実際のリトリバーを使ってグラウンドドドキュメントを更新する手法を提案する。 第3に,LLM-as-a-Judge を用いて,誤った回答でクエリをフィルタリングする。 合成ダイアログデータの人間による評価は、データが多様で一貫性があり、ほとんど正しい回答を含んでいることを示唆している。 回答可能なクエリの人的および自動評価は、合成ダイアログに微調整されたモデルが、利用可能な4つのマルチターン文書グラウンドドベンチマークテストセットにおいて、既存の人為的なトレーニングデータに微調整されたモデルよりも一貫して優れていることを示している。

We introduce a technique for multi-document grounded multi-turn synthetic dialog generation that incorporates three main ideas. First, we control the overall dialog flow using taxonomy-driven user queries that are generated with Chain-of-Thought (CoT) prompting. Second, we support the generation of multi-document grounded dialogs by mimicking real-world use of retrievers to update the grounding documents after every user-turn in the dialog. Third, we apply LLM-as-a-Judge to filter out queries with incorrect answers. Human evaluation of the synthetic dialog data suggests that the data is diverse, coherent, and includes mostly correct answers. Both human and automatic evaluations of answerable queries indicate that models fine-tuned on synthetic dialogs consistently out-perform those fine-tuned on existing human generated training data across four publicly available multi-turn document grounded benchmark test sets.
翻訳日:2024-09-19 20:09:46 公開日:2024-09-17
# 言語モデルにおける平等的言語表現--トーケナイザーとの関わり-

Egalitarian Language Representation in Language Models: It All Begins with Tokenizers ( http://arxiv.org/abs/2409.11501v1 )

ライセンス: Link先を確認
Menan Velayuthan, Kengatharaiyer Sarveswaran, (参考訳) トケナイザーは人間の言語と言語モデルの潜在空間の間の橋渡しとして働き、これらのモデルで言語がどのように表現されるかに影響を与える。 英語中心の大規模言語モデル(LLM)は非常に人気があるため、他の言語に適応するための努力が続けられている。 しかし、トークン化の観点からは、すべてのトークン化者がタミル語、シンハラ語、ヒンディー語などの複雑なスクリプト言語に対して公正な表現を提供するわけではない。 さらに、これらの複雑なスクリプト言語の平等表現を達成する上で、トークン化アルゴリズム自体よりも、事前トークン化がより重要な役割を担っていることを示す。 この問題に対処するため,我々はGrapheme Pair Encoding (GPE) と呼ばれるグラフエムを組み込んだByte Pair Encoding (BPE) アルゴリズムの改良を行った。 実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。 このアプローチは、Tamil、Sinhala、Hindiの実験を通じて検証する。

Tokenizers act as a bridge between human language and the latent space of language models, influencing how language is represented in these models. Due to the immense popularity of English-Centric Large Language Models (LLMs), efforts are being made to adapt them for other languages. However, we demonstrate that, from a tokenization standpoint, not all tokenizers offer fair representation for complex script languages such as Tamil, Sinhala, and Hindi, primarily due to the choice of pre-tokenization methods. We go further to show that pre-tokenization plays a more critical role than the tokenization algorithm itself in achieving an egalitarian representation of these complex script languages. To address this, we introduce an improvement to the Byte Pair Encoding (BPE) algorithm by incorporating graphemes, which we term Grapheme Pair Encoding (GPE). Our experiments show that grapheme-based character extraction outperforms byte-level tokenizers for complex scripts. We validate this approach through experiments on Tamil, Sinhala, and Hindi.
翻訳日:2024-09-19 20:09:45 公開日:2024-09-17
# 世界の天気予報に関するスーパーレゾリューション

Super Resolution On Global Weather Forecasts ( http://arxiv.org/abs/2409.11502v1 )

ライセンス: Link先を確認
Bryan Zhang, Dhruv Rao, Adam Yang, Lawrence Zhang, Rodz Andrie Amor, (参考訳) 天気予報は、日中活動から災害対応計画まで、タスクにとって極めて重要なツールである。 しかし、そのカオス的かつ予測不能な性質のため、気象のモデリングは難しい課題であることが証明されている。 温度から降水から風まで、各変数は環境がもたらす経路に影響を与える。 その結果、予測の時間範囲が大きくなるにつれて、全てのモデルでは精度が急速に低下する傾向にある。 古典的な予測手法は、時間とともに変化する気象の変化を予測するために、物理学、数値、確率的なテクニックを多用している。 しかし、そのような予測は、しばしば非常に大量のデータを必要とし、非常に計算コストが高い。 さらに、気候や地球規模の気象パターンが変化するにつれて、古典的なモデルは環境の変化のために更新するのにかなり困難で時間がかかります。 幸いなことに、ディープラーニングの最近の進歩と、公開可能な高品質気象データセットにより、これらの複雑なシステムを推定するための学習方法のデプロイが実現可能になった。 現在の最先端のディープラーニングモデルは、業界標準の数値モデルに匹敵する精度を持ち、適応性のために実践的によりユビキタスになりつつある。 本研究グループは,地球規模の気象予測の空間分解能を高めることにより,既存の深層学習に基づく予測手法の改善を目指す。 具体的には,大域的精度を1度から0.5度に上げ,それぞれ約111kmと55kmとすることで,グラフCast温度予測における超解像(SR)の実行に関心がある。

Weather forecasting is a vitally important tool for tasks ranging from planning day to day activities to disaster response planning. However, modeling weather has proven to be challenging task due to its chaotic and unpredictable nature. Each variable, from temperature to precipitation to wind, all influence the path the environment will take. As a result, all models tend to rapidly lose accuracy as the temporal range of their forecasts increase. Classical forecasting methods use a myriad of physics-based, numerical, and stochastic techniques to predict the change in weather variables over time. However, such forecasts often require a very large amount of data and are extremely computationally expensive. Furthermore, as climate and global weather patterns change, classical models are substantially more difficult and time-consuming to update for changing environments. Fortunately, with recent advances in deep learning and publicly available high quality weather datasets, deploying learning methods for estimating these complex systems has become feasible. The current state-of-the-art deep learning models have comparable accuracy to the industry standard numerical models and are becoming more ubiquitous in practice due to their adaptability. Our group seeks to improve upon existing deep learning based forecasting methods by increasing spatial resolutions of global weather predictions. Specifically, we are interested in performing super resolution (SR) on GraphCast temperature predictions by increasing the global precision from 1 degree of accuracy to 0.5 degrees, which is approximately 111km and 55km respectively.
翻訳日:2024-09-19 20:09:45 公開日:2024-09-17
# 計算グラフ分割によるMPNNの表現ランク崩壊防止

Preventing Representational Rank Collapse in MPNNs by Splitting the Computational Graph ( http://arxiv.org/abs/2409.11504v1 )

ライセンス: Link先を確認
Andreas Roth, Franka Bause, Nils M. Kriege, Thomas Liebig, (参考訳) グラフ上の複雑な関数に適合するメッセージパッシングニューラルネットワーク(MPNN)の能力は、単純なメッセージパッシングの反復ごとに制限され、より類似している。 オーバースムース化を緩和するためのほとんどのアプローチは、残留接続、ゲーティング機構、正規化、正規化技術を利用することで、グラフ畳み込みネットワークのような共通のメッセージパッシングスキームを拡張している。 本研究は,マルチリレーショナルグラフを用いてメッセージパス方式を変更し,異なるタイプのメッセージを交換することで,この問題の原因を直接解決することを提案する。 線形独立ノード表現を保証するために必要かつ十分な条件を同定する。 1つの瞬間として、多重有向非巡回グラフ上での操作が常に我々の条件を満たすことを示し、ノードの厳密な部分順序付けを定義することによってそれらを取得することを提案する。 我々は、より情報的なノード表現を実現するために、マルチリレーショナルグラフ上での操作の利点を確認する包括的な実験を行う。

The ability of message-passing neural networks (MPNNs) to fit complex functions over graphs is limited each iteration of message-passing over a simple makes representations more similar, a phenomenon known as rank collapse, and over-smoothing as a special case. Most approaches to mitigate over-smoothing extend common message-passing schemes, e.g., the graph convolutional network, by utilizing residual connections, gating mechanisms, normalization, or regularization techniques. Our work contrarily proposes to directly tackle the cause of this issue by modifying the message-passing scheme and exchanging different types of messages using multi-relational graphs. We identify the necessary and sufficient condition to ensure linearly independent node representations. As one instantion, we show that operating on multiple directed acyclic graphs always satisfies our condition and propose to obtain these by defining a strict partial ordering of the nodes. We conduct comprehensive experiments that confirm the benefits of operating on multi-relational graphs to achieve more informative node representations.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# CNN-LSTMによるモブとクロックタイムのチェスレーティング推定

Chess Rating Estimation from Moves and Clock Times Using a CNN-LSTM ( http://arxiv.org/abs/2409.11506v1 )

ライセンス: Link先を確認
Michael Omori, Prasad Tadepalli, (参考訳) 現在の格付けシステムは段階的に格付けを更新し、プレイヤーの真の強さを常に正確に反映するとは限らない。 これを解決するために,ゲームの動きや時計時間から直接プレイヤーの格付けを推定する方法を探索する。 Lichessからベンチマークデータセットをコンパイルし、さまざまな時間制御、移動シーケンスとクロック時間を含む。 我々のモデルアーキテクチャは、CNNを用いて位置特徴を学習し、クロックタイムデータを双方向LSTMに統合し、各移動後のプレイヤーのレーティングを予測する。 このモデルはテストデータにおいて182のレーティングポイントのMAEを達成した。 さらに、私たちのモデルをIEEE Big Data Cup Chess Puzzle Difficulty Competitionデータセットに適用し、パズルのレーティングを予測し、競争結果を得た。 このモデルは、手作りの機能を使わずにチェスのレーティングを推定し、また、各動きのレーティング予測を出力した最初のモデルである。 提案手法は,評価システムの向上に移動に基づく評価評価を用いる可能性や,不正検出など他の応用の可能性を強調した。

Current rating systems update ratings incrementally and may not always accurately reflect a player's true strength at all times, especially for rapidly improving players or very rusty players. To overcome this, we explore a method to estimate player ratings directly from game moves and clock times. We compiled a benchmark dataset from Lichess, encompassing various time controls and including move sequences and clock times. Our model architecture comprises a CNN to learn positional features, which are then integrated with clock-time data into a bidirectional LSTM, predicting player ratings after each move. The model achieved an MAE of 182 rating points in the test data. Additionally, we applied our model to the 2024 IEEE Big Data Cup Chess Puzzle Difficulty Competition dataset, predicted puzzle ratings and achieved competitive results. This model is the first to use no hand-crafted features to estimate chess ratings and also the first to output a rating prediction for each move. Our method highlights the potential of using move-based rating estimation for enhancing rating systems and potentially other applications such as cheating detection.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# Deep Graph and Capsule Reasoning を用いた網膜血管分割術

Retinal Vessel Segmentation with Deep Graph and Capsule Reasoning ( http://arxiv.org/abs/2409.11508v1 )

ライセンス: Link先を確認
Xinxu Wei, Xi Lin, Haiyun Liu, Shixuan Zhao, Yongjie Li, (参考訳) 効果的な網膜血管セグメンテーションは、グローバルな文脈認識と局所的な血管連続性を高度に統合する必要がある。 この課題に対処するために、ローカルとグローバル両方の機能をキャプチャするために、カプセル畳み込みをCNNにマージするGraph Capsule Convolution Network (GCC-UNet)を提案する。 Graph Capsule Convolutionオペレータは、グローバルコンテキストの表現を強化するように設計されており、Selective Graph Attention Fusionモジュールは、ローカルおよびグローバル情報のシームレスな統合を保証する。 船舶の連続性をさらに向上するために,チャネルワイドおよび空間グラフアテンション機構を組み込んだBottleneck Graph Attentionモジュールを導入する。 Multi-Scale Graph Fusionモジュールは、さまざまなスケールの機能を組み合わせたものだ。 我々のアプローチは広く使われている公開データセットの実験を通じて厳格に検証され、アブレーション研究は各コンポーネントの有効性を確認している。 比較結果は、GCC-UNetが既存の方法よりも優れた性能を示し、網膜血管セグメンテーションの新しいベンチマークを設定した。 特に、この研究は、医療画像セグメンテーションの領域におけるバニラ、グラフ、カプセル畳み込み技術の最初の統合である。

Effective retinal vessel segmentation requires a sophisticated integration of global contextual awareness and local vessel continuity. To address this challenge, we propose the Graph Capsule Convolution Network (GCC-UNet), which merges capsule convolutions with CNNs to capture both local and global features. The Graph Capsule Convolution operator is specifically designed to enhance the representation of global context, while the Selective Graph Attention Fusion module ensures seamless integration of local and global information. To further improve vessel continuity, we introduce the Bottleneck Graph Attention module, which incorporates Channel-wise and Spatial Graph Attention mechanisms. The Multi-Scale Graph Fusion module adeptly combines features from various scales. Our approach has been rigorously validated through experiments on widely used public datasets, with ablation studies confirming the efficacy of each component. Comparative results highlight GCC-UNet's superior performance over existing methods, setting a new benchmark in retinal vessel segmentation. Notably, this work represents the first integration of vanilla, graph, and capsule convolutional techniques in the domain of medical image segmentation.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# FedNE: 寸法低減のためのサロゲート補助隣人埋め込み

FedNE: Surrogate-Assisted Federated Neighbor Embedding for Dimensionality Reduction ( http://arxiv.org/abs/2409.11509v1 )

ライセンス: Link先を確認
Ziwei Li, Xiaoqi Wang, Hong-You Chen, Han-Wei Shen, Wei-Lun Chao, (参考訳) フェデレートラーニング(FL)は、ローカルデータを交換することなく、分散参加者間で協調的なモデルトレーニングを可能にする、有望なパラダイムとして急速に進化してきた。 コンピュータビジョン、グラフ学習、自然言語処理などの分野に広く応用されているにもかかわらず、FLのコンテキストでデータを視覚化するのに効果的に使用できるデータプロジェクションモデルの開発は極めて重要であり、まだ過小評価されている。 近接埋め込み(NE)は複雑な高次元データの可視化に不可欠な手法であるが,共同学習は困難である。 NEのような効果的な視覚化アルゴリズムは、ペアのデータ間での計算損失関数を必要とするため、主な課題は目的関数にある。 本稿では,共有可能なデータを必要としない,対照的な NE 技術と \textsc{FedAvg} フレームワークを統合した新しいアプローチである \textsc{FedNE} を紹介する。 グローバルな埋め込み空間におけるアライメントに不可欠なクライアント間反発の欠如に対処するため,各クライアントが学習し,共有するサロゲート損失関数を開発した。 さらに、ローカルなデータを増やすためのデータ混合戦略を提案し、ローカルな$k$NNグラフによって構築された見えない隣人や偽の隣人の問題を緩和することを目的としている。 我々は、合成データセットと実世界のデータセットの両方について包括的な実験を行う。 その結果,我々の<textsc{FedNE} は近傍のデータ構造を効果的に保存し,グローバルな埋め込み空間のアライメントを向上させることができることを示した。

Federated learning (FL) has rapidly evolved as a promising paradigm that enables collaborative model training across distributed participants without exchanging their local data. Despite its broad applications in fields such as computer vision, graph learning, and natural language processing, the development of a data projection model that can be effectively used to visualize data in the context of FL is crucial yet remains heavily under-explored. Neighbor embedding (NE) is an essential technique for visualizing complex high-dimensional data, but collaboratively learning a joint NE model is difficult. The key challenge lies in the objective function, as effective visualization algorithms like NE require computing loss functions among pairs of data. In this paper, we introduce \textsc{FedNE}, a novel approach that integrates the \textsc{FedAvg} framework with the contrastive NE technique, without any requirements of shareable data. To address the lack of inter-client repulsion which is crucial for the alignment in the global embedding space, we develop a surrogate loss function that each client learns and shares with each other. Additionally, we propose a data-mixing strategy to augment the local data, aiming to relax the problems of invisible neighbors and false neighbors constructed by the local $k$NN graphs. We conduct comprehensive experiments on both synthetic and real-world datasets. The results demonstrate that our \textsc{FedNE} can effectively preserve the neighborhood data structures and enhance the alignment in the global embedding space compared to several baseline methods.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# グッドグラスプのみ:検証のためのグリップポーズを用いたポーズ推定の自己教師型微調整のためのデータエンジン

Good Grasps Only: A data engine for self-supervised fine-tuning of pose estimation using grasp poses for verification ( http://arxiv.org/abs/2409.11512v1 )

ライセンス: Link先を確認
Frederik Hagelskjær, (参考訳) 本稿では,ビンピッキングにおけるポーズ推定の自己教師型微調整手法を提案する。 ゼロショットポーズ推定を活用することで,ロボットは手動ラベリングなしでトレーニングデータを自動的に取得できる。 ポーズ推定後、オブジェクトを把握し、データ検証に手動ポーズ推定を使用する。 私たちのパイプラインは、プロセス実行中にシステムを微調整し、学習フェーズの必要性を排除します。 私たちの仕事の背後にあるモチベーションは、ポーズ推定ソリューションの迅速なセットアップの必要性にあります。 具体的には、柔軟なロボットのセットアップにおいて重要な役割を果たすビンピックの課題に対処する。 本手法はロボットのワークセル上に実装され,4つの異なるオブジェクトでテストする。 全てのオブジェクトに対して、本手法はパフォーマンスを高め、オブジェクトのCADモデルに基づいて訓練された最先端のメソッドより優れる。

In this paper, we present a novel method for self-supervised fine-tuning of pose estimation for bin-picking. Leveraging zero-shot pose estimation, our approach enables the robot to automatically obtain training data without manual labeling. After pose estimation the object is grasped, and in-hand pose estimation is used for data validation. Our pipeline allows the system to fine-tune while the process is running, removing the need for a learning phase. The motivation behind our work lies in the need for rapid setup of pose estimation solutions. Specifically, we address the challenging task of bin picking, which plays a pivotal role in flexible robotic setups. Our method is implemented on a robotics work-cell, and tested with four different objects. For all objects, our method increases the performance and outperforms a state-of-the-art method trained on the CAD model of the objects.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# Mamba Fusion: 質問を通じて行動を学ぶ

Mamba Fusion: Learning Actions Through Questioning ( http://arxiv.org/abs/2409.11513v1 )

ライセンス: Link先を確認
Zhikang Dong, Apoorva Beedu, Jason Sheinkopf, Irfan Essa, (参考訳) ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。 トランスフォーマーベースのアーキテクチャは視覚言語トレーニングのデファクトだが、二次計算の複雑さ、高いGPUメモリ使用量、長期依存の難しさといった課題に直面している。 これらの制約に対処するため、我々は、近頃の選択状態空間のモダリティ融合の進歩を活用して、長距離依存を効率的に捕捉し、視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介した。 MambaVLは両方のモードで共有状態遷移行列を使用し、モデルがシーン内の複数の視点からアクションに関する情報をキャプチャすることができる。 さらに,本論文では,モデルが関連する手がかりへ導くのに役立つ質問応答タスクを提案する。 これらの質問は、アクション、オブジェクト、環境コンテキストに関する重要な情報を提供し、パフォーマンスの向上につながります。 結果として、MambaVLはEpic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成し、アクション予測におけるベースラインメソッドよりも優れている。

Video Language Models (VLMs) are crucial for generalizing across diverse tasks and using language cues to enhance learning. While transformer-based architectures have been the de facto in vision-language training, they face challenges like quadratic computational complexity, high GPU memory usage, and difficulty with long-term dependencies. To address these limitations, we introduce MambaVL, a novel model that leverages recent advancements in selective state space modality fusion to efficiently capture long-range dependencies and learn joint representations for vision and language data. MambaVL utilizes a shared state transition matrix across both modalities, allowing the model to capture information about actions from multiple perspectives within the scene. Furthermore, we propose a question-answering task that helps guide the model toward relevant cues. These questions provide critical information about actions, objects, and environmental context, leading to enhanced performance. As a result, MambaVL achieves state-of-the-art performance in action recognition on the Epic-Kitchens-100 dataset and outperforms baseline methods in action anticipation.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# スライディングウインドウにおける学習強化周波数推定

Learning-Augmented Frequency Estimation in Sliding Windows ( http://arxiv.org/abs/2409.11516v1 )

ライセンス: Link先を確認
Rana Shahout, Ibrahim Sabek, Michael Mitzenmacher, (参考訳) 本稿では,機械学習の手法を応用して,近似周波数推定問題に対するスライディングウインドウアルゴリズムの改良手法について,<algorithms with Predictions'フレームワークを用いて述べる。 この動的環境下では、スライディングウインドウの解像度特性がストリーム全体の特性と大きく異なるため、従来の学習強化アルゴリズムは効果が低い。 私たちの焦点は、次の大きな到着時間でアイテムを予測し、フィルタリングするメリット — すなわち、ストリームから次の出現まで、大きなギャップがある — に重点を置いています。 我々は,スライドウインドウアルゴリズムをどの程度改善できるか,また実世界のデータセットを用いた実験結果について考察する。 我々の研究は、予測器が難易度の高いスライディングウインドウ設定に有用であることを示す。

We show how to utilize machine learning approaches to improve sliding window algorithms for approximate frequency estimation problems, under the ``algorithms with predictions'' framework. In this dynamic environment, previous learning-augmented algorithms are less effective, since properties in sliding window resolution can differ significantly from the properties of the entire stream. Our focus is on the benefits of predicting and filtering out items with large next arrival times -- that is, there is a large gap until their next appearance -- from the stream, which we show improves the memory-accuracy tradeoffs significantly. We provide theorems that provide insight into how and by how much our technique can improve the sliding window algorithm, as well as experimental results using real-world data sets. Our work demonstrates that predictors can be useful in the challenging sliding window setting.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 画像セグメンテーションと幾何学的制約の参照による視覚視覚のロボットマニピュレーション

Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints ( http://arxiv.org/abs/2409.11518v1 )

ライセンス: Link先を確認
Chen Jiang, Allie Luo, Martin Jagersand, (参考訳) 本稿では,ロボットの知覚モジュールにコンパクトな参照画像セグメンテーションモデルを統合することで,実環境におけるロボット操作を言語コンテキストで行う。 まず,CLIPU$^2$Netを提案する。これは,言語表現からの微細粒界と構造セグメンテーションのために設計された,軽量な参照画像セグメンテーションモデルである。 そして,実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。 このシステムの鍵となるのは、視覚情報を幾何学的制約として表現し、ロボットの視覚を動作可能なコマンドに結びつけることである。 実世界の46個のロボット操作タスクの実験結果から,作業集約型特徴アノテーションによる従来の視覚サーボ手法よりも優れ,コンパクトデコーダサイズ6.6MBの細粒参照画像セグメンテーションに優れ,多様なコンテキストでロボット制御をサポートすることが示された。

In this paper, we perform robot manipulation activities in real-world environments with language contexts by integrating a compact referring image segmentation model into the robot's perception module. First, we propose CLIPU$^2$Net, a lightweight referring image segmentation model designed for fine-grain boundary and structure segmentation from language expressions. Then, we deploy the model in an eye-in-hand visual servoing system to enact robot control in the real world. The key to our system is the representation of salient visual information as geometric constraints, linking the robot's visual perception to actionable commands. Experimental results on 46 real-world robot manipulation tasks demonstrate that our method outperforms traditional visual servoing methods relying on labor-intensive feature annotations, excels in fine-grain referring image segmentation with a compact decoder size of 6.6 MB, and supports robot control across diverse contexts.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 非平衡過程に対する粗粒分子動力学モデルの一般化能力について

On the generalization ability of coarse-grained molecular dynamics models for non-equilibrium processes ( http://arxiv.org/abs/2409.11519v1 )

ライセンス: Link先を確認
Liyao Lyu, Huan Lei, (参考訳) 粗粒度分子動力学(CGMD)モデルを構築するための重要なゴールは、原子スケールを超えた非平衡過程を正確に予測することである。 CGモデルは、解決された変数の集合にフルダイナミックスを投影することで構成できるが、未解決変数の条件分布が特定の射影作用素に関連付けられたものに近い場合に限り、CG変数のダイナミクスはフルダイナミックスを回復することができる。 特に、モデルが様々な非平衡過程に適用可能であることは、条件分布の不整合のため、一般的には保証されない。 本稿では,非平衡過程の一般化能力を維持するCGMDモデルを構築するためのデータ駆動型手法を提案する。 予備選択されたCG変数(例えば質量の中心)に基づく従来のCGモデルとは異なり、現在のCGモデルは、未解決変数のエントロピー寄与を最小限に抑えるために、時間付き独立成分分析に基づく補助的なCG変数のセットを求める。 これにより、広い範囲の非平衡条件下での未解決変数の分布が、平衡条件下での変数に近づくことが保証される。 高分子溶融系の数値計算結果から, モデル一般化能力に対するこの広く見過ごされた指標の意義と, 各種非平衡流下での複素粘弾性応答を予測するためのCGモデルの有効性が示された。

One essential goal of constructing coarse-grained molecular dynamics (CGMD) models is to accurately predict non-equilibrium processes beyond the atomistic scale. While a CG model can be constructed by projecting the full dynamics onto a set of resolved variables, the dynamics of the CG variables can recover the full dynamics only when the conditional distribution of the unresolved variables is close to the one associated with the particular projection operator. In particular, the model's applicability to various non-equilibrium processes is generally unwarranted due to the inconsistency in the conditional distribution. Here, we present a data-driven approach for constructing CGMD models that retain certain generalization ability for non-equilibrium processes. Unlike the conventional CG models based on pre-selected CG variables (e.g., the center of mass), the present CG model seeks a set of auxiliary CG variables based on the time-lagged independent component analysis to minimize the entropy contribution of the unresolved variables. This ensures the distribution of the unresolved variables under a broad range of non-equilibrium conditions approaches the one under equilibrium. Numerical results of a polymer melt system demonstrate the significance of this broadly-overlooked metric for the model's generalization ability, and the effectiveness of the present CG model for predicting the complex viscoelastic responses under various non-equilibrium flows.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 線形ペイオフによる部分観測可能なコンテキスト帯域

Partially Observable Contextual Bandits with Linear Payoffs ( http://arxiv.org/abs/2409.11521v1 )

ライセンス: Link先を確認
Sihan Zeng, Sujay Bhatt, Alec Koppel, Sumitra Ganesh, (参考訳) 標準的なコンテキスト帯域幅フレームワークは、完全に観測可能で実行可能なコンテキストを前提としている。 本研究では,時間的相関を示し,十分に観察されていない市場情報に基づいて意思決定を行う金融のアプリケーションによって動機付けられた,部分的に観測可能な相関コンテキストと線形ペイオフを備えた新たなバンディット設定について考察する。 統計的信号処理のアイデアと包帯との結合に以下の貢献をする。 i)提案するEMKF-Banditというアルゴリズムパイプラインは,システム同定,フィルタリング,古典的文脈帯域幅アルゴリズムを,潜在パラメータ推定と意思決定を交互に行う反復的手法に統合する。 (II)トンプソンサンプリングをバンディットアルゴリズムとして選択した場合にEMKF-Banditを解析し,フィルタ条件下でのサブ線形後悔を生じさせることを示す。 3) 提案したパイプラインの利点と実用性を示す数値シミュレーションを行う。

The standard contextual bandit framework assumes fully observable and actionable contexts. In this work, we consider a new bandit setting with partially observable, correlated contexts and linear payoffs, motivated by the applications in finance where decision making is based on market information that typically displays temporal correlation and is not fully observed. We make the following contributions marrying ideas from statistical signal processing with bandits: (i) We propose an algorithmic pipeline named EMKF-Bandit, which integrates system identification, filtering, and classic contextual bandit algorithms into an iterative method alternating between latent parameter estimation and decision making. (ii) We analyze EMKF-Bandit when we select Thompson sampling as the bandit algorithm and show that it incurs a sub-linear regret under conditions on filtering. (iii) We conduct numerical simulations that demonstrate the benefits and practical applicability of the proposed pipeline.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 分析と処理の強化を目的としたOpenAIによるNACE分類のアンロック

Unlocking NACE Classification Embeddings with OpenAI for Enhanced Analysis and Processing ( http://arxiv.org/abs/2409.11524v1 )

ライセンス: Link先を確認
Andrea Vidali, Nicola Jean, Giacomo Le Pera, (参考訳) 欧州共同体における経済活動の統計分類(英: Statistical Classification of Economic Activity in the European Community, NACE)は、欧州連合内の経済活動と産業活動の分類の標準分類である。 本稿では,NACE分類を低次元埋め込みに変換するための新しい手法を提案する。 主な課題は、元の NACE 分類に固有の階層構造を保存しつつ、次元の数を減少させることである。 この問題に対処するために、埋め込みおよび縮小プロセスを通して階層的関係の保持を定量化するカスタムメトリクスを導入する。 これらの指標の評価は、洞察力のある分析に不可欠な構造情報の保持において提案手法の有効性を示すものである。 このアプローチは、経済活動関係の視覚的な探索を促進するだけでなく、クラスタリング、分類、他の分類との統合など、下流タスクの有効性を高める。 実験により,NACE分類における階層構造を保存するためのフレームワークの有用性が示され,研究者や政策立案者が階層データを理解し,活用するための貴重なツールが提供される。

The Statistical Classification of Economic Activities in the European Community (NACE) is the standard classification system for the categorization of economic and industrial activities within the European Union. This paper proposes a novel approach to transform the NACE classification into low-dimensional embeddings, using state-of-the-art models and dimensionality reduction techniques. The primary challenge is the preservation of the hierarchical structure inherent within the original NACE classification while reducing the number of dimensions. To address this issue, we introduce custom metrics designed to quantify the retention of hierarchical relationships throughout the embedding and reduction processes. The evaluation of these metrics demonstrates the effectiveness of the proposed methodology in retaining the structural information essential for insightful analysis. This approach not only facilitates the visual exploration of economic activity relationships, but also increases the efficacy of downstream tasks, including clustering, classification, integration with other classifications, and others. Through experimental validation, the utility of our proposed framework in preserving hierarchical structures within the NACE classification is showcased, thereby providing a valuable tool for researchers and policymakers to understand and leverage any hierarchical data.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# マルチエージェントツリー・オブ・ソートバリケータ・エージェントによるLCM推論の改善

Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent ( http://arxiv.org/abs/2409.11527v1 )

ライセンス: Link先を確認
Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad, (参考訳) 大規模言語モデル(LLM)の推論能力を高めるために,問題解決プロセスにおいて特別な役割を割り当てることによって,多エージェント戦略が有望なアプローチとして登場した。 同時に、Tree of Thoughts (ToT)法は、多様な推論経路を探索することによって、複雑な質問応答タスクの推論を改善する可能性を示している。 マルチエージェント推論における重要な制限は、'Reasoner'エージェントによる推論経路の浅い探索である。 ToT戦略はこの問題を緩和するのに役立つが、それらが欠陥のある推論ブランチを生成し、最終回答の信頼性を損なう可能性がある。 ToTをベースとしたReasonerエージェントとThought Validatorエージェントを組み合わせた新しいアプローチを提案する。 複数のReasonerエージェントが並列に動作し、ToTを使用して多様な推論経路を探索する。 思考検証者はこれらの経路を精査し、推論が妥当である場合に限り、推論者の結論を考える。 この方法では、不良推論経路を破棄し、体系的で信頼できる推論を必要とする課題に対処するシステムの能力を高めることで、より堅牢な投票戦略を可能にする。 提案手法は,GSM8Kデータセットを用いた場合と比較して,従来の手法よりも優れた性能を示し,標準のToT戦略を4つのLLMで平均5.6\%上回る性能を示した。

Multi-agent strategies have emerged as a promising approach to enhance the reasoning abilities of Large Language Models (LLMs) by assigning specialized roles in the problem-solving process. Concurrently, Tree of Thoughts (ToT) methods have shown potential in improving reasoning for complex question-answering tasks by exploring diverse reasoning paths. A critical limitation in multi-agent reasoning is the 'Reasoner' agent's shallow exploration of reasoning paths. While ToT strategies could help mitigate this problem, they may generate flawed reasoning branches, which could harm the trustworthiness of the final answer. To leverage the strengths of both multi-agent reasoning and ToT strategies, we introduce a novel approach combining ToT-based Reasoner agents with a Thought Validator agent. Multiple Reasoner agents operate in parallel, employing ToT to explore diverse reasoning paths. The Thought Validator then scrutinizes these paths, considering a Reasoner's conclusion only if its reasoning is valid. This method enables a more robust voting strategy by discarding faulty reasoning paths, enhancing the system's ability to tackle tasks requiring systematic and trustworthy reasoning. Our method demonstrates superior performance compared to existing techniques when evaluated on the GSM8K dataset, outperforming the standard ToT strategy by an average 5.6\% across four LLMs.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 低域テンソル分割と深部アンロールによるネットワーク流れの適応的異常検出

Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling ( http://arxiv.org/abs/2409.11529v1 )

ライセンス: Link先を確認
Lukas Schynol, Marius Pesavento, (参考訳) 異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。 ディープラーニングは、最先端のADパフォーマンスを示しているが、重要なシステムにおけるその応用は、トレーニングデータ効率、ドメイン適応、解釈可能性に関する懸念によって妨げられている。 この研究は、不完全測定を用いてネットワークフローにおけるADを考慮し、これらの課題に対処するために頑健なテンソル分解アプローチとディープアンローリング手法を活用する。 まず, 正規フローを低ランクテンソルとしてモデル化し, 異常をスパースとしてモデル化する, 正規化モデル適合目標に基づくブロック帰納的凸近似アルゴリズムを提案する。 計算コストを低減するために、目的の増強を導入する。 本稿では,提案アルゴリズムに基づく新しいディープ・ネットワーク・アーキテクチャの導出にディープ・アンローリングを適用し,正規化パラメータを学習可能な重みとして扱う。 ベイジアンアプローチに触発されて、モデルアーキテクチャを拡張し、フローごとのオンライン適応とステップ毎の統計処理を行い、低パラメータ数を維持しながらAD性能を改善し、問題の置換等式を保存する。 検出性能を最適化するために,受信機動作特性曲線の下での領域の効率的な近似に基づくホモトピー最適化手法を用いる。 合成および実世界のデータに関する大規模な実験により、提案したディープネットワークアーキテクチャは、高いトレーニングデータ効率を示し、参照手法より優れ、様々なネットワークトポロジにシームレスに適応することを示した。

Anomaly detection (AD) is increasingly recognized as a key component for ensuring the resilience of future communication systems. While deep learning has shown state-of-the-art AD performance, its application in critical systems is hindered by concerns regarding training data efficiency, domain adaptation and interpretability. This work considers AD in network flows using incomplete measurements, leveraging a robust tensor decomposition approach and deep unrolling techniques to address these challenges. We first propose a novel block-successive convex approximation algorithm based on a regularized model-fitting objective where the normal flows are modeled as low-rank tensors and anomalies as sparse. An augmentation of the objective is introduced to decrease the computational cost. We apply deep unrolling to derive a novel deep network architecture based on our proposed algorithm, treating the regularization parameters as learnable weights. Inspired by Bayesian approaches, we extend the model architecture to perform online adaptation to per-flow and per-time-step statistics, improving AD performance while maintaining a low parameter count and preserving the problem's permutation equivariances. To optimize the deep network weights for detection performance, we employ a homotopy optimization approach based on an efficient approximation of the area under the receiver operating characteristic curve. Extensive experiments on synthetic and real-world data demonstrate that our proposed deep network architecture exhibits a high training data efficiency, outperforms reference methods, and adapts seamlessly to varying network topologies.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# アニマリー検出(HAND)のための教師なしハイブリッドフレームワーク-スクリーニングマンモグラフィーへの応用

Unsupervised Hybrid framework for ANomaly Detection (HAND) -- applied to Screening Mammogram ( http://arxiv.org/abs/2409.11534v1 )

ライセンス: Link先を確認
Zhemin Zhang, Bhavika Patel, Bhavik Patel, Imon Banerjee, (参考訳) マンモグラムスクリーニングに使用されるAIモデルの一般化を促進するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。 外部データセットにおけるOODサンプルに関する事前知識の制限という課題を考えると、教師なし生成学習は、モデルに分布内データ(ID)の通常の特性を識別するように訓練する好適な方法である。 仮説は, モデルがIDサンプルを正確に再構成することを目的としているのに対して, OODサンプルは正常性から逸脱しているため, より貧弱な再構成を示すというものである。 CNNとトランスフォーマーを組み合わせたSOTA(State-of-the-art)ハイブリッドアーキテクチャに着想を得て,大規模デジタル検診マンモグラフィーからOODを検出する新しいバックボーンHANDを開発した。 学習効率を向上させるため,IDとOODを識別するために,合成OODサンプルと並列識別器を潜時空間に組み込んだ。 OOD再建損失に対するグラディエント逆転は、OOD再建の学習モデルにペナルティを与える。 再構成と判別器損失を重み付けして異常スコアを算出する。 内部のRSNAマンモグラムホールドアウトテストとマヨクリニックの手計算データセットでは、提案されたHANDモデルはエンコーダベースおよびGANベースラインより優れており、興味深いことに、ハイブリッドCNN+トランスフォーマーベースラインよりも優れていた。 したがって,提案したHANDパイプラインは,外部検診における領域固有の品質チェックを自動で効率よく計算し,医用画像データに直接曝露することなく,実用的な洞察を得られる。

Out-of-distribution (OOD) detection is crucial for enhancing the generalization of AI models used in mammogram screening. Given the challenge of limited prior knowledge about OOD samples in external datasets, unsupervised generative learning is a preferable solution which trains the model to discern the normal characteristics of in-distribution (ID) data. The hypothesis is that during inference, the model aims to reconstruct ID samples accurately, while OOD samples exhibit poorer reconstruction due to their divergence from normality. Inspired by state-of-the-art (SOTA) hybrid architectures combining CNNs and transformers, we developed a novel backbone - HAND, for detecting OOD from large-scale digital screening mammogram studies. To boost the learning efficiency, we incorporated synthetic OOD samples and a parallel discriminator in the latent space to distinguish between ID and OOD samples. Gradient reversal to the OOD reconstruction loss penalizes the model for learning OOD reconstructions. An anomaly score is computed by weighting the reconstruction and discriminator loss. On internal RSNA mammogram held-out test and external Mayo clinic hand-curated dataset, the proposed HAND model outperformed encoder-based and GAN-based baselines, and interestingly, it also outperformed the hybrid CNN+transformer baselines. Therefore, the proposed HAND pipeline offers an automated efficient computational solution for domain-specific quality checks in external screening mammograms, yielding actionable insights without direct exposure to the private medical imaging data.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 最適性と多様性のバランスをとる:生成的キュレーションによる人間中心の意思決定

Balancing Optimality and Diversity: Human-Centered Decision Making through Generative Curation ( http://arxiv.org/abs/2409.11535v1 )

ライセンス: Link先を確認
Michael Lingzhi Li, Shixiang Zhu, (参考訳) データ可用性の急上昇は、圧倒的な選択肢で決定を下す要因となった。 既存のアプローチでは、定量化メトリクスに基づいた意思決定の最適化に重点を置いているが、実際的な意思決定では、測定不可能な定量化基準と、より広い文脈に埋め込まれた測定不可能な定性的要因とのバランスを必要とすることが多い。 このような場合、アルゴリズムは高品質なレコメンデーションを生成することができるが、最終的な決定は、両方の次元を測る必要がある人間に委ねられる。 我々は、この文脈におけるアルゴリズムレコメンデーションの最適セットを選択する過程を、人間中心の意思決定として定義する。 この課題に対処するために,量的・質的両面を統合することにより,決定オプションの真の望ましさを最適化する生成的キュレーション(generative curation)という新しい枠組みを導入する。 我々のフレームワークは、未知の質的因子をモデル化するためにガウス過程を使用し、定量最適度と質的多様性のバランスをとる多様性指標を導出する。 このトレードオフにより、未知の定性的嗜好に対して堅牢な、多種多様な、ほぼ最適な行動の管理可能なサブセットの生成が可能になる。 このフレームワークを運用するために、分布を$\pi$で効率よくサンプリングする生成ニューラルネットワークアーキテクチャと、複雑な最適化定式化に容易に組み込めるソリューションを反復的に生成する逐次最適化手法の2つの実装手法を提案する。 当社のアプローチを広範なデータセットで検証し,さまざまな複雑な環境における意思決定プロセスの強化の有効性を実証し,政策と管理に大きな影響を与える。

The surge in data availability has inundated decision-makers with an overwhelming array of choices. While existing approaches focus on optimizing decisions based on quantifiable metrics, practical decision-making often requires balancing measurable quantitative criteria with unmeasurable qualitative factors embedded in the broader context. In such cases, algorithms can generate high-quality recommendations, but the final decision rests with the human, who must weigh both dimensions. We define the process of selecting the optimal set of algorithmic recommendations in this context as human-centered decision making. To address this challenge, we introduce a novel framework called generative curation, which optimizes the true desirability of decision options by integrating both quantitative and qualitative aspects. Our framework uses a Gaussian process to model unknown qualitative factors and derives a diversity metric that balances quantitative optimality with qualitative diversity. This trade-off enables the generation of a manageable subset of diverse, near-optimal actions that are robust to unknown qualitative preferences. To operationalize this framework, we propose two implementation approaches: a generative neural network architecture that produces a distribution $\pi$ to efficiently sample a diverse set of near-optimal actions, and a sequential optimization method to iteratively generates solutions that can be easily incorporated into complex optimization formulations. We validate our approach with extensive datasets, demonstrating its effectiveness in enhancing decision-making processes across a range of complex environments, with significant implications for policy and management.
翻訳日:2024-09-19 19:59:44 公開日:2024-09-17
# 周辺情報を用いた難読化に基づくプライバシ保護表現の検索

Obfuscation Based Privacy Preserving Representations are Recoverable Using Neighborhood Information ( http://arxiv.org/abs/2409.11536v1 )

ライセンス: Link先を確認
Kunal Chelani, Assia Benbihi, Fredrik Kahl, Torsten Sattler, Zuzana Kukelova, (参考訳) AR/VR/MRアプリケーションやクラウドベースの視覚的ローカライゼーションシステムの人気が急速に高まり、ローカライゼーションプロセスにおけるユーザコンテンツのプライバシに注目が集まっている。 このプライバシー上の懸念は、ディープニューラルネットワークが3Dまたは2Dポイントのスパースセットとその記述子(いわゆる反転攻撃)からシーンの詳細なイメージを復元する能力によってさらにエスカレートされている。 そのため、プライバシ保護ローカライゼーションの研究は、画像キーポイントとシーンマップの3Dポイントの両方に対する逆攻撃を防ぐことに重点を置いている。 この目的のために、高次元空間(線や平面など)に点を持ち上げる幾何難読化法や、点%間の座標を交換する手法が提案されている。 本稿では,これらの難読化の共通する弱点を指摘し,既知近傍の仮定の下で元の点位置の近似を復元する。 さらに、これらの地区は、近隣で共起する記述子を識別する学習によって計算可能であることを示す。 大規模実験により, 既存のすべての幾何学的難解化スキームに対して, ポイントリカバリのアプローチが実際に適用可能であることが示された。 以上の結果から,プライバシ保護を主張されているにもかかわらず,これらのスキームはプライバシ保護とはみなしてはならないことが示唆された。 コードは \url{https://github.com/kunalchelani/RecoverPointsNeighborhood} で入手できる。

Rapid growth in the popularity of AR/VR/MR applications and cloud-based visual localization systems has given rise to an increased focus on the privacy of user content in the localization process. This privacy concern has been further escalated by the ability of deep neural networks to recover detailed images of a scene from a sparse set of 3D or 2D points and their descriptors - the so-called inversion attacks. Research on privacy-preserving localization has therefore focused on preventing these inversion attacks on both the query image keypoints and the 3D points of the scene map. To this end, several geometry obfuscation techniques that lift points to higher-dimensional spaces, i.e., lines or planes, or that swap coordinates between points % have been proposed. In this paper, we point to a common weakness of these obfuscations that allows to recover approximations of the original point positions under the assumption of known neighborhoods. We further show that these neighborhoods can be computed by learning to identify descriptors that co-occur in neighborhoods. Extensive experiments show that our approach for point recovery is practically applicable to all existing geometric obfuscation schemes. Our results show that these schemes should not be considered privacy-preserving, even though they are claimed to be privacy-preserving. Code will be available at \url{https://github.com/kunalchelani/RecoverPointsNeighborhood}.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 音声翻訳におけるChain-of-Thought Prompting

Chain-of-Thought Prompting for Speech Translation ( http://arxiv.org/abs/2409.11538v1 )

ライセンス: Link先を確認
Ke Hu, Zhehuai Chen, Chao-Han Huck Yang, Piotr Żelasko, Oleksii Hrinchuk, Vitaly Lavrukhin, Jagadeesh Balam, Boris Ginsburg, (参考訳) 大規模言語モデル(LLM)は言語理解と生成において顕著な進歩を見せている。 テキストベースのLLMの成功に基づいて、近年の研究ではこれらのモデルを音声埋め込みに応用し、自動音声認識(ASR)や自動音声翻訳(AST)において高い性能を示す音声-LLMモデルを実現している。 本研究では,エンコーダ-デコーダテキスト LLM 上に構築された音声-LLM において,AST のプロンプトとして ASR 転写を利用する新しい手法を提案する。 Speech-LLMモデルは、音声エンコーダとエンコーダ・デコーダ構造Megatron-T5からなる。 まず、音声をデコードしてASRの転写文を生成し、その後、これらの転写文と符号化された音声文を用いてプロンプトを誘導することにより、チェーン・オブ・シークレット(CoT)プロンプトのような2段階のプロセスで音声翻訳を導出する。 低ランク適応(LoRA)はモデル適応のためのT5 LLMに使われ、フルモデルファインチューニングよりも優れた性能を示す。 実験結果から,提案したCoTはAST性能を向上し,音声のみよりも平均2.4BLEU点を6En->XまたはX->En ASTタスクで向上させることがわかった。 さらに, ASR と AST の連結配列を予測する CoT 予測法と比較して, 平均 2 BLEU 点の性能が向上した。

Large language models (LLMs) have demonstrated remarkable advancements in language understanding and generation. Building on the success of text-based LLMs, recent research has adapted these models to use speech embeddings for prompting, resulting in Speech-LLM models that exhibit strong performance in automatic speech recognition (ASR) and automatic speech translation (AST). In this work, we propose a novel approach to leverage ASR transcripts as prompts for AST in a Speech-LLM built on an encoder-decoder text LLM. The Speech-LLM model consists of a speech encoder and an encoder-decoder structure Megatron-T5. By first decoding speech to generate ASR transcripts and subsequently using these transcripts along with encoded speech for prompting, we guide the speech translation in a two-step process like chain-of-thought (CoT) prompting. Low-rank adaptation (LoRA) is used for the T5 LLM for model adaptation and shows superior performance to full model fine-tuning. Experimental results show that the proposed CoT prompting significantly improves AST performance, achieving an average increase of 2.4 BLEU points across 6 En->X or X->En AST tasks compared to speech prompting alone. Additionally, compared to a related CoT prediction method that predicts a concatenated sequence of ASR and AST transcripts, our method performs better by an average of 2 BLEU points.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# VALO:LiDARに基づく物体検出ディープニューラルネットワークのための有能な随時フレームワーク

VALO: A Versatile Anytime Framework for LiDAR-based Object Detection Deep Neural Networks ( http://arxiv.org/abs/2409.11542v1 )

ライセンス: Link先を確認
Ahmet Soyyigit, Shuochao Yao, Heechul Yun, (参考訳) この研究は、LDARオブジェクト検出ディープニューラルネットワーク(DNN)の動的デッドライン要件を適用するという課題に対処する。 オブジェクト検出の計算遅延は、安全かつ効率的なナビゲーションを保証するために極めて重要である。 しかし、最先端のLiDARオブジェクト検出DNNは、リソース制約のあるエッジプラットフォーム上でのリアルタイムパフォーマンスを妨げるため、大きな遅延を生じることが多い。 したがって、検出精度とレイテンシのトレードオフは、実行時に動的に管理して最適な結果を得る必要がある。 本稿では, VALO(Versatile Anytime Algorithm for LiDAR Object Detection)を提案する。 VALOはデッドライン対応のスケジューラを使用して入力領域を選択的に処理し、アーキテクチャの変更なしに実行時間と精度のトレードオフを行う。 さらに、過去の検出結果の効率的な予測を利用して、入力の一部処理による精度の損失を軽減している。 最後に、検出ヘッド内に新しい入力低減技術を用いて、精度を犠牲にすることなく実行を大幅に高速化する。 本研究では,最先端3次元LiDARオブジェクト検出ネットワーク,すなわちCenterPointとVoxelNextにVALOを実装し,その動的適応性を広範囲の時間制約に適用し,先行技術よりも高い精度を実現していることを示す。 コードはhttps://github.com/CSL-KU/VALO}{github.com/CSL-KU/VALOで公開されている。

This work addresses the challenge of adapting dynamic deadline requirements for LiDAR object detection deep neural networks (DNNs). The computing latency of object detection is critically important to ensure safe and efficient navigation. However, state-of-the-art LiDAR object detection DNNs often exhibit significant latency, hindering their real-time performance on resource-constrained edge platforms. Therefore, a tradeoff between detection accuracy and latency should be dynamically managed at runtime to achieve optimum results. In this paper, we introduce VALO (Versatile Anytime algorithm for LiDAR Object detection), a novel data-centric approach that enables anytime computing of 3D LiDAR object detection DNNs. VALO employs a deadline-aware scheduler to selectively process input regions, making execution time and accuracy tradeoffs without architectural modifications. Additionally, it leverages efficient forecasting of past detection results to mitigate possible loss of accuracy due to partial processing of input. Finally, it utilizes a novel input reduction technique within its detection heads to significantly accelerate execution without sacrificing accuracy. We implement VALO on state-of-the-art 3D LiDAR object detection networks, namely CenterPoint and VoxelNext, and demonstrate its dynamic adaptability to a wide range of time constraints while achieving higher accuracy than the prior state-of-the-art. Code is available athttps://github.com/CSL-KU/VALO}{github.com/CSL-KU/VALO.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# NCT-CRC-HE:すべての病理的データセットが等しく有用ではない

NCT-CRC-HE: Not All Histopathological Datasets Are Equally Useful ( http://arxiv.org/abs/2409.11546v1 )

ライセンス: Link先を確認
Andrey Ignatov, Grigory Malivenko, (参考訳) 近年,病理組織学的画像解析のための深層学習型ソリューションが数多く提案されている。 通常、非常に高い精度を示すが、重要な疑問は、その精度が病理組織学とは関係なく、顕微鏡画像処理と前処理によって引き起こされる低レベルの画像特性に影響されるかどうかである。 本稿では,多くの先行研究で使用されているNCT-CRC-HE-100K大腸癌データセットを分析し,このデータセットと得られた結果の両方が,データ固有のバイアスの影響を受けていることを示す。 最も顕著なデータセットの問題は、不適切な色正規化、異なるクラス間で不一致なJPEGアーティファクト、不適切な画像ダイナミックレンジハンドリングによる完全に破損した組織サンプルである。 画像あたりの3つの特徴(赤,緑,青)のみを用いた最も単純なモデルであっても,この9クラスデータセットでは50%以上の精度が示され,セル形態を明示的に捉えない色ヒストグラムでは82%以上の精度が得られた。 さらに、このデータセットにおいて、基礎的なEfficientNet-B0 ImageNet事前学習モデルが97.7%以上の精度を達成できることを示し、このタスクのために開発された全ての提案されたソリューション、例えば、専用の基礎組織モデルや大きな細胞形態認識ニューラルネットワークよりも優れていることを示す。 NCT-CRC-HEデータセットは公開されており、提示された結果を自由に再現することができる。 本論文で使用されるコードと事前訓練済みモデルはhttps://github.com/gmalivenko/NCT-CRC-HE-experimentsで公開されている。

Numerous deep learning-based solutions have been proposed for histopathological image analysis over the past years. While they usually demonstrate exceptionally high accuracy, one key question is whether their precision might be affected by low-level image properties not related to histopathology but caused by microscopy image handling and pre-processing. In this paper, we analyze a popular NCT-CRC-HE-100K colorectal cancer dataset used in numerous prior works and show that both this dataset and the obtained results may be affected by data-specific biases. The most prominent revealed dataset issues are inappropriate color normalization, severe JPEG artifacts inconsistent between different classes, and completely corrupted tissue samples resulting from incorrect image dynamic range handling. We show that even the simplest model using only 3 features per image (red, green and blue color intensities) can demonstrate over 50% accuracy on this 9-class dataset, while using color histogram not explicitly capturing cell morphology features yields over 82% accuracy. Moreover, we show that a basic EfficientNet-B0 ImageNet pretrained model can achieve over 97.7% accuracy on this dataset, outperforming all previously proposed solutions developed for this task, including dedicated foundation histopathological models and large cell morphology-aware neural networks. The NCT-CRC-HE dataset is publicly available and can be freely used to replicate the presented results. The codes and pre-trained models used in this paper are available at https://github.com/gmalivenko/NCT-CRC-HE-experiments
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 小言語モデルによる短い創造的文章作成における人間よりも優れる:SLMと人間とLLMの比較研究

Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs ( http://arxiv.org/abs/2409.11547v1 )

ライセンス: Link先を確認
Guillermo Marco, Luz Rello, Julio Gonzalo, (参考訳) 本稿では、細調整された小言語モデル(SLM)、BART Largeの創作創作能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較する。 評価は2つの実験から成っている。 一 読者がSLMで生み出した物語を人書きの物語と比較して評価する人的評価、及び (二)異なるモデルにより生成された物語のテクスト的特徴を比較する定性的な言語分析。 最初の実験では、68人の参加者に、文法性、妥当性、創造性、魅力といった次元に沿ってモデルと人間によって生成された短いストーリーを評価するように頼みました。 BARTはクリエイティビティを除くほとんどの面で人文作家より優れており、全体のスコアは2.11で、人文テキストは1.85で、改善は14%だった。 第2の実験では、GPT-4oは内部と外部のコヒーレンスにほぼ完全であるにもかかわらず、より予測可能な物語を産み出す傾向にあり、物語のわずか3%が小説と見なされている。 対照的に、BARTの物語の15%は新しいものと考えられており、モデルのサイズが小さいにもかかわらず創造性が高いことを示している。 この研究は、モデルのサイズと微調整が創造性、流布性、コヒーレンスの間のバランスにどのように影響するかに関する定量的および定性的な洞察を提供する。

In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART Large, and compare its performance to humans and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human evaluation where readers assess the stories generated by the SLM compared to human-written stories, and (ii) a qualitative linguistic analysis comparing the textual characteristics of the stories generated by the different models. In the first experiment, we asked 68 participants to rate short stories generated by the models and humans along dimensions such as grammaticality, relevance, creativity, and attractiveness. BART Large outperformed human writers in most aspects, except creativity, with an overall score of 2.11 compared to 1.85 for human-written texts -- a 14% improvement. In the second experiment, the qualitative analysis revealed that, while GPT-4o exhibited near-perfect internal and external coherence, it tended to produce more predictable narratives, with only 3% of its stories seen as novel. In contrast, 15% of BART's stories were considered novel, indicating a higher degree of creativity despite its smaller model size. This study provides both quantitative and qualitative insights into how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 組織像における軸索・ミエリン分画のマルチドメインデータアグリゲーション

Multi-Domain Data Aggregation for Axon and Myelin Segmentation in Histology Images ( http://arxiv.org/abs/2409.11552v1 )

ライセンス: Link先を確認
Armand Collin, Arthur Boschet, Mathieu Boudreau, Julien Cohen-Adad, (参考訳) 組織像における軸索とミエリンの性質(例えば、軸索径、ミエリン厚、g比)の定量化は、神経変性疾患による微細構造変化に関する有用な情報を提供することができる。 組織の自動セグメンテーションはこれらのデータセットにとって重要なツールであり、単一の染色されたセクションは最大数千の軸索を含むことができる。 ディープラーニングの進歩により、このタスクは最小限のオーバーヘッドで迅速かつ信頼性が高くなっているが、ある研究グループによってトレーニングされたディープラーニングモデルは、その組織学のトレーニングデータの違いにより、他のグループによって利用されなくなることはほとんどない。 これは部分的には、対象の多様性(異種、種、遺伝学、病理学)と、画像の特徴(コントラスト、解像度)の幅広いばらつきをもたらす現代の顕微鏡画像技術に起因している。 AIを神経科学研究者に利用しやすくし、ワークフローを加速させる必要性が強まっているが、一般公開されたモデルは乏しく、メンテナンスが不十分である。 我々のアプローチは、複数の画像モダリティ(明視野、電子顕微鏡、ラマン分光法)と種(マウス、ラット、ウサギ、人間)からデータを収集し、軸索とミエリンセグメンテーションのためのオープンソースで耐久性のあるツールを作成することである。 我々のジェネラリストモデルは、研究者がデータを処理しやすくし、特定のドメインのパフォーマンスを改善するために微調整できる。 異なるアグリゲーションスキームの利点について検討する。 このマルチドメインセグメンテーションモデルは、単一モダリティ専用の学習者(p=0.03077)よりも優れ、配布外データに最適化され、使いやすく、メンテナンスしやすい。 重要なのは、セグメンテーションツールを、十分にメンテナンスされたオープンソースソフトウェアエコシステムにパッケージ化することです(https://github.com/axondeepseg/axondeepseg参照)。

Quantifying axon and myelin properties (e.g., axon diameter, myelin thickness, g-ratio) in histology images can provide useful information about microstructural changes caused by neurodegenerative diseases. Automatic tissue segmentation is an important tool for these datasets, as a single stained section can contain up to thousands of axons. Advances in deep learning have made this task quick and reliable with minimal overhead, but a deep learning model trained by one research group will hardly ever be usable by other groups due to differences in their histology training data. This is partly due to subject diversity (different body parts, species, genetics, pathologies) and also to the range of modern microscopy imaging techniques resulting in a wide variability of image features (i.e., contrast, resolution). There is a pressing need to make AI accessible to neuroscience researchers to facilitate and accelerate their workflow, but publicly available models are scarce and poorly maintained. Our approach is to aggregate data from multiple imaging modalities (bright field, electron microscopy, Raman spectroscopy) and species (mouse, rat, rabbit, human), to create an open-source, durable tool for axon and myelin segmentation. Our generalist model makes it easier for researchers to process their data and can be fine-tuned for better performance on specific domains. We study the benefits of different aggregation schemes. This multi-domain segmentation model performs better than single-modality dedicated learners (p=0.03077), generalizes better on out-of-distribution data and is easier to use and maintain. Importantly, we package the segmentation tool into a well-maintained open-source software ecosystem (see https://github.com/axondeepseg/axondeepseg).
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# グラフニューラルネットワークのためのプロパティエンコーダ

A Property Encoder for Graph Neural Networks ( http://arxiv.org/abs/2409.11554v1 )

ライセンス: Link先を確認
Anwar Said, Xenofon Koutsoukos, (参考訳) グラフ機械学習、特にグラフニューラルネットワークは、基本的にノード機能に依存している。 それでも、社会的および生物学的ネットワークのような多くの現実世界のシステムは、プライバシー上の懸念、不完全または欠落したデータ、データ収集の制限など、様々な理由でノードの特徴を欠いていることが多い。 このようなシナリオでは、研究者は通常、ノードの特徴を構築するために構造的および位置的エンコーディングのような方法を利用する。 しかし、そのような特徴の長さは、例えば、スケールフリーネットワークのようなアプリケーションで非常に大きなノード次数のように、符号化されているプロパティ内の最大値に基づいて決定される。 さらに、これらの符号化方式は分類データに限定されており、他の種類の値を返すメトリクスをエンコードすることはできない。 本稿では,任意のグラフメトリックから表現ノードを埋め込んだ表現型エンコーダPropEncを紹介する。 PropEncは、ヒストグラム構造とリバースインデックス符号化を組み合わせて、ノード特徴の初期化のための柔軟な方法を提供する。 ディメンタリティと入力のタイプの両方の観点からフレキシブルなエンコーディングをサポートし、様々なアプリケーションにまたがってその有効性を示す。 PropEncは低次元空間におけるメトリクスの符号化を可能にする。 Emph{PropEnc}は1ホットエンコーディングを正確に再現するノード機能や、様々な設定下で近似したインデックスを構築できることを示す。 ノード機能に欠ける複数のソーシャルネットワークを対象としたグラフ分類設定における広範囲な評価は、我々の仮説を支持している。 実験の結果、PropEncはグラフメトリクスの多様なセットからノード特徴を構築するための効率的かつ効果的なメカニズムであることが示された。

Graph machine learning, particularly using graph neural networks, fundamentally relies on node features. Nevertheless, numerous real-world systems, such as social and biological networks, often lack node features due to various reasons, including privacy concerns, incomplete or missing data, and limitations in data collection. In such scenarios, researchers typically resort to methods like structural and positional encoding to construct node features. However, the length of such features is contingent on the maximum value within the property being encoded, for example, the highest node degree, which can be exceedingly large in applications like scale-free networks. Furthermore, these encoding schemes are limited to categorical data and might not be able to encode metrics returning other type of values. In this paper, we introduce a novel, universally applicable encoder, termed PropEnc, which constructs expressive node embedding from any given graph metric. PropEnc leverages histogram construction combined with reverse index encoding, offering a flexible method for node features initialization. It supports flexible encoding in terms of both dimensionality and type of input, demonstrating its effectiveness across diverse applications. PropEnc allows encoding metrics in low-dimensional space which effectively avoids the issue of sparsity and enhances the efficiency of the models. We show that \emph{PropEnc} can construct node features that either exactly replicate one-hot encoding or closely approximate indices under various settings. Our extensive evaluations in graph classification setting across multiple social networks that lack node features support our hypothesis. The empirical results conclusively demonstrate that PropEnc is both an efficient and effective mechanism for constructing node features from diverse set of graph metrics.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# オープンセットセマンティック不確かさを意識したメトリセマンティックグラフマッチング

Open-Set Semantic Uncertainty Aware Metric-Semantic Graph Matching ( http://arxiv.org/abs/2409.11555v1 )

ライセンス: Link先を確認
Kurran Singh, John J. Leonard, (参考訳) 水中のオブジェクトレベルのマッピングでは、海洋シナリオで遭遇した珍しい、以前は目に見えないオブジェクトクラスを扱うために、視覚的基盤モデルを組み込む必要がある。 本研究では,視覚基盤モデルにより生成されたオープンセットオブジェクト検出のための意味的不確実性尺度を算出し,対象レベルの不確実性追跡フレームワークに組み込む。 オブジェクト間のオブジェクトレベルの不確実性と幾何学的関係は、未知のオブジェクトクラスに対して堅牢なオブジェクトレベルのループクロージャ検出を可能にするために使用される。 上記のループ閉包検出問題をグラフマッチング問題として定式化する。 グラフマッチングは、一般にNP-Completeであるが、グラフ編集問題として提案されたグラフマッチング問題の等価な定式化のための解法は、複数の挑戦的な水中シーンでテストされる。 この解法と他の3つの解法により, 提案手法は, 海洋環境において, 頑健で, オープンな, マルチオブジェクト, セマンティック不確かさを意識したループ閉鎖検出のために, リアルタイムに使用することが可能であることを実証した。 KITTIデータセットのさらなる実験結果から,本手法が大規模地球環境に一般化されることが示されている。

Underwater object-level mapping requires incorporating visual foundation models to handle the uncommon and often previously unseen object classes encountered in marine scenarios. In this work, a metric of semantic uncertainty for open-set object detections produced by visual foundation models is calculated and then incorporated into an object-level uncertainty tracking framework. Object-level uncertainties and geometric relationships between objects are used to enable robust object-level loop closure detection for unknown object classes. The above loop closure detection problem is formulated as a graph-matching problem. While graph matching, in general, is NP-Complete, a solver for an equivalent formulation of the proposed graph matching problem as a graph editing problem is tested on multiple challenging underwater scenes. Results for this solver as well as three other solvers demonstrate that the proposed methods are feasible for real-time use in marine environments for the robust, open-set, multi-object, semantic-uncertainty-aware loop closure detection. Further experimental results on the KITTI dataset demonstrate that the method generalizes to large-scale terrestrial scenes.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 離散単位に基づく音声変換におけるアンタングル改善のためのマスキング

Discrete Unit based Masking for Improving Disentanglement in Voice Conversion ( http://arxiv.org/abs/2409.11560v1 )

ライセンス: Link先を確認
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman, (参考訳) 音声変換(VC)は、言語コンテンツを保存しながら話者のアイデンティティを変更することを目的としている。 一般的に、VCメソッドはエンコーダ・デコーダアーキテクチャを使用し、話者のアイデンティティを言語情報から切り離すことが重要である。 しかし, 話者の特徴が発話の音声内容に依存しているため, 絡み合いが制限され, 絡み合いが悪化する。 この依存は注意に基づく手法で増幅される。 これを解決するために,話者符号化前の入力に新しいマスキング機構を導入し,音素クラスと高い対応性を持つ特定の個別音声単位をマスキングする。 本研究は,一部の音声情報へのアクセスを制限することで,話者特徴の音素依存性を低減することを目的としている。 さらに,本手法は入力レベルであるため,任意のエンコーダデコーダベースのVCフレームワークに適用可能である。 提案手法は,複数のVC手法間の絡み合いや変換性能を向上し,特に注意に基づく手法では,客観的なインテリジェンスにおいて44%の相対的な改善が見られた。

Voice conversion (VC) aims to modify the speaker's identity while preserving the linguistic content. Commonly, VC methods use an encoder-decoder architecture, where disentangling the speaker's identity from linguistic information is crucial. However, the disentanglement approaches used in these methods are limited as the speaker features depend on the phonetic content of the utterance, compromising disentanglement. This dependency is amplified with attention-based methods. To address this, we introduce a novel masking mechanism in the input before speaker encoding, masking certain discrete speech units that correspond highly with phoneme classes. Our work aims to reduce the phonetic dependency of speaker features by restricting access to some phonetic information. Furthermore, since our approach is at the input level, it is applicable to any encoder-decoder based VC framework. Our approach improves disentanglement and conversion performance across multiple VC methods, showing significant effectiveness, particularly in attention-based method, with 44% relative improvement in objective intelligibility.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 言語・音声・視覚課題に対する人間のフィードバックによる嗜好調整:調査

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey ( http://arxiv.org/abs/2409.11564v1 )

ライセンス: Link先を確認
Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu, (参考訳) 優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。 この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。 論文は3つの主要なセクションに分けられる。 1)導入と前提:強化学習フレームワーク,嗜好調整タスク,モデル,さまざまなモダリティ – 言語,スピーチ,ビジョン – および異なる政策アプローチ – に対するデータセットの導入。 2)各選好調律手法の詳細な検討:選好調律における方法の詳細な分析、及び 3)適用,議論,今後の方向性:下流タスクにおける選好調整の適用を探究する。 我々の目的は、好み調整とモデルアライメントにおける最新の方法論を提示し、研究者や実践者にとってこの分野の理解を深めることである。 この領域では、さらなるエンゲージメントとイノベーションを奨励したいと考えています。

Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth examination of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# Inferno: ニューラルネットワークをスパイクするための拡張可能なフレームワーク

Inferno: An Extensible Framework for Spiking Neural Networks ( http://arxiv.org/abs/2409.11567v1 )

ライセンス: Link先を確認
Marissa Dominijanni, (参考訳) 本稿では,PyTorch上に構築されたソフトウェアライブラリであるInfernoについて紹介する。 Infernoのアーキテクチャと、これらのタスクに一意に適合する重要な差別化要因について説明する。 InfernoがCPUとGPUの両方でトレーニング可能なヘテロジニアス遅延をどのようにサポートしているか、また、新しいモデルやテクニックに対して、いかにしてInfernoが"書き込み1回、適用至るところで"開発方法論を可能にするかを示す。 我々は、Infernoのパフォーマンスを、SNNによる機械学習を目的としたライブラリであるBindsNETと、神経科学で人気のあるBrian2/Brian2CUDAと比較する。 いくつかの例の中で,Infernoの設計決定が,スパイク刺激依存塑性を用いた遅延学習において,Nadafian と Ganjtabesh の新たな手法を容易に実装できることを示す。

This paper introduces Inferno, a software library built on top of PyTorch that is designed to meet distinctive challenges of using spiking neural networks (SNNs) for machine learning tasks. We describe the architecture of Inferno and key differentiators that make it uniquely well-suited to these tasks. We show how Inferno supports trainable heterogeneous delays on both CPUs and GPUs, and how Inferno enables a "write once, apply everywhere" development methodology for novel models and techniques. We compare Inferno's performance to BindsNET, a library aimed at machine learning with SNNs, and Brian2/Brian2CUDA which is popular in neuroscience. Among several examples, we show how the design decisions made by Inferno facilitate easily implementing the new methods of Nadafian and Ganjtabesh in delay learning with spike-timing dependent plasticity.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 政策勾配に基づく深部強化学習を用いた頭頸部癌に対するプロトンPBS治療計画の自動化

Automating proton PBS treatment planning for head and neck cancers using policy gradient-based deep reinforcement learning ( http://arxiv.org/abs/2409.11576v1 )

ライセンス: Link先を確認
Qingqing Wang, Chang Chang, (参考訳) 頭頸部癌(H&N)に対するプロトン鉛筆ビームスキャン(PBS)治療計画(英語版)は、多くの計画目標が関与する時間的・経験的な課題である。 深部強化学習(DRL)は近年,前立腺癌,肺がん,頸がんに対する強度変調放射線療法と気管支内療法の計画プロセスに導入されている。 しかし、既存のアプローチはQラーニングフレームワークと臨床メトリクスの重み付けされた線形結合の上に構築されており、スケーラビリティと柔軟性が貧弱で、個別のアクション空間において限られた数の計画目標を調整できるだけである。 H&N癌に対するプロトンPBS治療計画のためのPPOアルゴリズムと線量分布に基づく報酬関数を用いた自動治療計画モデルを提案する。 具体的には、実験的なルールのセットを使用して、対象のボリュームとオルガン・アット・リスク(OAR)から、関連する計画目的とともに補助的な計画構造を作成する。 これらの計画目標は、スポットモニタユニット(MU)値を生成するために、社内最適化エンジンに供給される。 PPOを用いて訓練された意思決定ポリシーネットワークを開発し、連続的な行動空間における計画目標パラメータを反復的に調整し、新しい線量分布に基づく報酬関数を用いてPBS処理計画を洗練させる。 モデルにより生成されたプロトンH&N処理計画は、人為的な計画と比較して、OARスペーリングを同等または優れた目標範囲で改善した。 さらに, 肝癌に対する追加実験により, 提案手法を他の治療部位に応用できることが示唆された。 我々の知る限りでは、H&N癌に対するヒトレベルのパフォーマンスを達成することができるDRLベースの自動治療計画モデルとしてはこれが初めてである。

Proton pencil beam scanning (PBS) treatment planning for head and neck (H&N) cancers is a time-consuming and experience-demanding task where a large number of planning objectives are involved. Deep reinforcement learning (DRL) has recently been introduced to the planning processes of intensity-modulated radiation therapy and brachytherapy for prostate, lung, and cervical cancers. However, existing approaches are built upon the Q-learning framework and weighted linear combinations of clinical metrics, suffering from poor scalability and flexibility and only capable of adjusting a limited number of planning objectives in discrete action spaces. We propose an automatic treatment planning model using the proximal policy optimization (PPO) algorithm and a dose distribution-based reward function for proton PBS treatment planning of H&N cancers. Specifically, a set of empirical rules is used to create auxiliary planning structures from target volumes and organs-at-risk (OARs), along with their associated planning objectives. These planning objectives are fed into an in-house optimization engine to generate the spot monitor unit (MU) values. A decision-making policy network trained using PPO is developed to iteratively adjust the involved planning objective parameters in a continuous action space and refine the PBS treatment plans using a novel dose distribution-based reward function. Proton H&N treatment plans generated by the model show improved OAR sparing with equal or superior target coverage when compared with human-generated plans. Moreover, additional experiments on liver cancer demonstrate that the proposed method can be successfully generalized to other treatment sites. To the best of our knowledge, this is the first DRL-based automatic treatment planning model capable of achieving human-level performance for H&N cancers.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# HEARTS: 説明可能で持続可能でロバストなテキストステレオタイプ検出のための全体的フレームワーク

HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection ( http://arxiv.org/abs/2409.11579v1 )

ライセンス: Link先を確認
Theo King, Zekun Wu, Adriano Koshiyama, Emre Kazim, Philip Treleaven, (参考訳) ステレオタイプは、社会的グループに関する一般的な仮定であり、文脈内学習を用いた最先端のLLMでさえ、それらを正確に識別するのに苦労する。 ステレオタイプを構成するものが文化的、社会的、個人的視点によって大きく異なるという主観的な性質のため、堅牢な説明可能性は非常に重要である。 説明可能なモデルは、これらの曖昧な判断が人間によって理解され、検証され、信頼と説明責任を促進することを保証する。 HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデルの性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。 我々は、LGBTQ+や地域ステレオタイプなど、6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype Dataset)を確立する。 アブレーション研究により、BERTモデルはEMGSDで微調整され、個々のコンポーネントで訓練されたモデルよりも優れていたことが確認された。 次に、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解との整合性を確保し、SHAPとLIMEの出力を比較して説明可能性の信頼性スコアを算出する。 最後に、HEARTSを12LLM出力のステレオタイプバイアス評価に適用し、モデルファミリー内の時間的バイアスを徐々に減少させることを示した。

Stereotypes are generalised assumptions about societal groups, and even state-of-the-art LLMs using in-context learning struggle to identify them accurately. Due to the subjective nature of stereotypes, where what constitutes a stereotype can vary widely depending on cultural, social, and individual perspectives, robust explainability is crucial. Explainable models ensure that these nuanced judgments can be understood and validated by human users, promoting trust and accountability. We address these challenges by introducing HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection), a framework that enhances model performance, minimises carbon footprint, and provides transparent, interpretable explanations. We establish the Expanded Multi-Grain Stereotype Dataset (EMGSD), comprising 57,201 labeled texts across six groups, including under-represented demographics like LGBTQ+ and regional stereotypes. Ablation studies confirm that BERT models fine-tuned on EMGSD outperform those trained on individual components. We then analyse a fine-tuned, carbon-efficient ALBERT-V2 model using SHAP to generate token-level importance values, ensuring alignment with human understanding, and calculate explainability confidence scores by comparing SHAP and LIME outputs. Finally, HEARTS is applied to assess stereotypical bias in 12 LLM outputs, revealing a gradual reduction in bias over time within model families.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# 定量的超音波による均一K分布の不確かさ分解と誤差マージン検出

Uncertainty Decomposition and Error Margin Detection of Homodyned-K Distribution in Quantitative Ultrasound ( http://arxiv.org/abs/2409.11583v1 )

ライセンス: Link先を確認
Dorsa Ameri, Ali K. Z. Tehrani, Ivan M. Rosado-Mendez, Hassan Rivaz, (参考訳) 定量的超音波(QUS)におけるHK分布パラメータ推定をベイズニューラルネットワーク(BNN)を用いて最近検討した。 BNNは、精度と精度を損なうことなく、スペックル統計に基づくQUSの計算時間を著しく短縮することが示されている。 さらに、彼らは、報告された特徴値に対する臨床医の信頼を導くことができる特徴不確実性の推定を提供する。 ベイズモデルにおける総予測の不確実性は、エピステミック(モデルパラメータに対する不確実性)とアレラトリック(データに固有の不確実性)に分解できる。 予測の不確実性を分解することにより、全体の不確実性に寄与する要因についての洞察を得ることができる。 本研究では,BNN が推定した HK 分布パラメータ ($\alpha$ および $k$) について,シミュレーションデータと実験データの両方で認識不確実性を計算する手法を提案する。 さらに,予測誤差と両不確かさの関係について検討し,これらの不確かさとHKパラメータとの相互作用に光を当てる。

Homodyned K-distribution (HK-distribution) parameter estimation in quantitative ultrasound (QUS) has been recently addressed using Bayesian Neural Networks (BNNs). BNNs have been shown to significantly reduce computational time in speckle statistics-based QUS without compromising accuracy and precision. Additionally, they provide estimates of feature uncertainty, which can guide the clinician's trust in the reported feature value. The total predictive uncertainty in Bayesian modeling can be decomposed into epistemic (uncertainty over the model parameters) and aleatoric (uncertainty inherent in the data) components. By decomposing the predictive uncertainty, we can gain insights into the factors contributing to the total uncertainty. In this study, we propose a method to compute epistemic and aleatoric uncertainties for HK-distribution parameters ($\alpha$ and $k$) estimated by a BNN, in both simulation and experimental data. In addition, we investigate the relationship between the prediction error and both uncertainties, shedding light on the interplay between these uncertainties and HK parameters errors.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# APPFLの進歩: 包括的で拡張可能なフェデレーションラーニングフレームワーク

Advances in APPFL: A Comprehensive and Extensible Federated Learning Framework ( http://arxiv.org/abs/2409.11585v1 )

ライセンス: Link先を確認
Zilinghan Li, Shilan He, Ze Yang, Minseok Ryu, Kibaek Kim, Ravi Madduri, (参考訳) Federated Learning(FL)は、データプライバシを保持しながら協調的なモデルトレーニングを可能にする分散機械学習パラダイムである。 現在の状況では、ほとんどのデータがプロプライエタリで、機密で、分散されているため、FLは、特に医療や電力網のような機密性の高い領域において、そのようなデータを効果的に活用するための有望なアプローチになっています。 しかし、不均一性とセキュリティはFLの主要な課題である。既存のFLフレームワークの多くは、これらの課題に適切に対処できなかったり、新しいソリューションを組み込む柔軟性に欠けていたりしている。 この目的のために,新しいアルゴリズムの統合や新しいアプリケーションへの適応のためのユーザフレンドリなインターフェースだけでなく,不均一性やセキュリティ問題に対する包括的ソリューションを提供する,連邦学習のための拡張可能なフレームワークとベンチマークスイートであるAPPFLの最近の進歩を紹介する。 本稿では, 通信効率, プライバシー保護, 計算性能, 資源利用など, FLの様々な側面を評価する広範な実験を通じて, APPFLの能力を実証する。 さらに,垂直,階層,分散FLのケーススタディを通じてAPPFLの拡張性を強調した。 APPFLはhttps://github.com/APPFL/APPFLでオープンソース化されている。

Federated learning (FL) is a distributed machine learning paradigm enabling collaborative model training while preserving data privacy. In today's landscape, where most data is proprietary, confidential, and distributed, FL has become a promising approach to leverage such data effectively, particularly in sensitive domains such as medicine and the electric grid. Heterogeneity and security are the key challenges in FL, however; most existing FL frameworks either fail to address these challenges adequately or lack the flexibility to incorporate new solutions. To this end, we present the recent advances in developing APPFL, an extensible framework and benchmarking suite for federated learning, which offers comprehensive solutions for heterogeneity and security concerns, as well as user-friendly interfaces for integrating new algorithms or adapting to new applications. We demonstrate the capabilities of APPFL through extensive experiments evaluating various aspects of FL, including communication efficiency, privacy preservation, computational performance, and resource utilization. We further highlight the extensibility of APPFL through case studies in vertical, hierarchical, and decentralized FL. APPFL is open-sourced at https://github.com/APPFL/APPFL.
翻訳日:2024-09-19 19:49:52 公開日:2024-09-17
# ProSLM : 説明可能なドメイン固有知識に基づく質問応答のための Prolog Synergized Language Model

ProSLM : A Prolog Synergized Language Model for explainable Domain Specific Knowledge Based Question Answering ( http://arxiv.org/abs/2409.11589v1 )

ライセンス: Link先を確認
Priyesh Vakharia, Abigail Kufeldt, Max Meyers, Ian Lane, Leilani Gilpin, (参考訳) ニューロシンボリックアプローチは説明可能なシンボル表現を取り入れることで、不透明な神経系に堅牢性を加えることができる。 しかし,従来のアプローチでは,大規模言語モデル(LLM)の出力に対するクエリのコンテキスト化や検証に形式論理を使用していなかった。 質問応答タスクにおけるLLMの堅牢性と信頼性を向上させるために,新しいニューロシンボリック・フレームワークである‘systemname{}’を提案する。 ドメイン固有の知識ベース、論理的推論システム、既存のLLMとの統合を備えたシステム名{}を提供する。 本フレームワークは,(1) コンテキスト収集: 所定のクエリに対して説明可能なコンテキストを生成し,(2) 検証: 知識ベース(KB)に応じて文の事実的正確性を確認し検証する。 我々の研究は、ニューロシンボリックな生成AIテキスト検証とユーザパーソナライゼーションの新しい領域を開く。

Neurosymbolic approaches can add robustness to opaque neural systems by incorporating explainable symbolic representations. However, previous approaches have not used formal logic to contextualize queries to and validate outputs of large language models (LLMs). We propose \systemname{}, a novel neurosymbolic framework, to improve the robustness and reliability of LLMs in question-answering tasks. We provide \systemname{} with a domain-specific knowledge base, a logical reasoning system, and an integration to an existing LLM. This framework has two capabilities (1) context gathering: generating explainable and relevant context for a given query, and (2) validation: confirming and validating the factual accuracy of a statement in accordance with a knowledge base (KB). Our work opens a new area of neurosymbolic generative AI text validation and user personalization.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# CountChain: カウントシステムのための分散型Oracleネットワーク

CountChain: A Decentralized Oracle Network for Counting Systems ( http://arxiv.org/abs/2409.11592v1 )

ライセンス: Link先を確認
Behkish Nassirzadeh, Stefanos Leonardos, Albert Heinle, Anwar Hasan, Vijay Ganesh, (参考訳) オンライン広告のような業界におけるブロックチェーンの統合は、オフチェーンデータへの接続制限によって妨げられている。 これらの産業は、オフチェーンデータの収集と分析に正確なカウントシステムに大きく依存している。 これは、オフチェーンデータをスマートコントラクトに供給するために、しばしばオークルと呼ばれるメカニズムを必要とする。 しかし、現在のオラクルソリューションは、オラクルがいつデータを期待するかを知らないため、システムをカウントするのに不適である。 そこで本研究では,システムカウントのための分散型オラクルネットワークであるCountChainを提案する。 CountChainでは、データはすべてのオラクルノードから受信され、任意のノードが命題要求を送信できる。 各命題には、イベントの発生を評価するのに十分なデータが含まれている。 ランダムに選択されたノードのみが、証明といくつかの利害関係を提供することで、各命題の真偽を評価するゲームに参加します。 最後に、Trueの結果による提案は、スマートコントラクトでカウンタをインクリメントする。 したがって、データのためのオーラクルを呼び出すコントラクトの代わりに、CountChainでは、オーラクルがデータが利用可能になったときにスマートコントラクトを呼び出す。 さらに,50万以上のデータポイント上で,システムパラメータの形式的解析と実験的評価を行い,最適なシステムパラメータを求める。 このような条件下では、ゲーム理論解析により、すべての合理的な当事者が誠実に参加するナッシュ均衡が存在することを示す。

Blockchain integration in industries like online advertising is hindered by its connectivity limitations to off-chain data. These industries heavily rely on precise counting systems for collecting and analyzing off-chain data. This requires mechanisms, often called oracles, to feed off-chain data into smart contracts. However, current oracle solutions are ill-suited for counting systems since the oracles do not know when to expect the data, posing a significant challenge. To address this, we present CountChain, a decentralized oracle network for counting systems. In CountChain, data is received by all oracle nodes, and any node can submit a proposition request. Each proposition contains enough data to evaluate the occurrence of an event. Only randomly selected nodes participate in a game to evaluate the truthfulness of each proposition by providing proof and some stake. Finally, the propositions with the outcome of True increment the counter in a smart contract. Thus, instead of a contract calling oracles for data, in CountChain, the oracles call a smart contract when the data is available. Furthermore, we present a formal analysis and experimental evaluation of the system's parameters on over half a million data points to obtain optimal system parameters. In such conditions, our game-theoretical analysis demonstrates that a Nash equilibrium exists wherein all rational parties participate with honesty.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# 自己コントラストフォワードアルゴリズム

Self-Contrastive Forward-Forward Algorithm ( http://arxiv.org/abs/2409.11593v1 )

ライセンス: Link先を確認
Xing Chen, Dongshu Liu, Jeremie Laydevant, Julie Grollier, (参考訳) The Forward-Forward (FF) algorithm is a recent, purely forward-mode learning method。 これらの機能は、脳にインスパイアされた学習、低消費電力のハードウェアニューラルネットワーク、大規模モデルでの分散学習などのアプリケーションに理想的だ。 しかし、FFは手書きの数字認識タスクを約束しているが、自然画像や時系列のパフォーマンスは依然として課題である。 鍵となる制限は、対照的な学習のための高品質なネガティブな例を生成する必要があることである。 そこで本研究では,自己指導型コントラスト学習に触発された自己コントラストフォワード(SCFF)手法を提案する。 SCFFは、MNIST(MLP:98.7%)、CIFAR-10(CNN:80.75%)、STL-10(CNN:77.3%)で、既存のローカルフォワードアルゴリズムを上回り、様々なデータセットに適用可能な正および負の例を生成する。 さらに、SCFFは、リカレントニューラルネットワークのFFトレーニングを有効にし、より複雑なタスクへの扉を開き、ビデオとテキストの連続処理を可能にする最初のものである。

The Forward-Forward (FF) algorithm is a recent, purely forward-mode learning method, that updates weights locally and layer-wise and supports supervised as well as unsupervised learning. These features make it ideal for applications such as brain-inspired learning, low-power hardware neural networks, and distributed learning in large models. However, while FF has shown promise on written digit recognition tasks, its performance on natural images and time-series remains a challenge. A key limitation is the need to generate high-quality negative examples for contrastive learning, especially in unsupervised tasks, where versatile solutions are currently lacking. To address this, we introduce the Self-Contrastive Forward-Forward (SCFF) method, inspired by self-supervised contrastive learning. SCFF generates positive and negative examples applicable across different datasets, surpassing existing local forward algorithms for unsupervised classification accuracy on MNIST (MLP: 98.7%), CIFAR-10 (CNN: 80.75%), and STL-10 (CNN: 77.3%). Additionally, SCFF is the first to enable FF training of recurrent neural networks, opening the door to more complex tasks and continuous-time video and text processing.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# 量子計測システムとホログラフィック原理

A remark on quantum measuring systems and the holographic principle ( http://arxiv.org/abs/2409.11594v1 )

ライセンス: Link先を確認
Eiji Konishi, (参考訳) 量子測定対象の連続性を理論的に検討することは、ある種の究極の問題であり、科学的枠組みの中ではまだ解決されていない。 本稿では、この問題にアプローチし、量子測定対象の連続性は、バルク空間の量子状態の古典化後のホログラフィック原理の基本的な結果として従うことを議論する。

It is a sort of ultimate question to examine the continuity of a quantum measurement subject theoretically and has not yet been resolved within a scientific framework. In this article, we approach this question and argue that the continuity of a quantum measurement subject follows as a fundamental consequence of the holographic principle after the classicalization of the quantum state of the bulk space.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# クラスタ・キャッシュ・ダイグラフによる外乱検出

Outlier Detection with Cluster Catch Digraphs ( http://arxiv.org/abs/2409.11596v1 )

ライセンス: Link先を確認
Rui Shi, Nedret Billor, Elvan Ceyhan, (参考訳) 本稿では,クラスタ・キャッシュ・ダイグラフ(CCD)に基づく新しい外乱検出アルゴリズム群について紹介する。 本研究では,Mutual Catch Graphを用いたUniformity-based CCD (U-MCCD),Uniformity- and Neighbor-based CCD with Mutual Catch Graph (UN-MCCD)を提案する。 これらのアルゴリズムの利点と欠点を示し、それぞれのアルゴリズムを定義するモチベーションや必要性を提供する。 総合的なモンテカルロシミュレーションを通じて,その性能を評価し,様々な設定や汚染レベルにまたがるアルゴリズムの堅牢性と有効性を示す。 また,様々な実生活データセット上でのアルゴリズムの利用についても解説する。 U-MCCDアルゴリズムは、高い真の負のレートを維持しつつ、効率よく外れ値の同定を行い、SU-MCCDアルゴリズムは、非一様クラスタの処理における大幅な改善を示す。 さらに、UN-MCCDとSUN-MCCDのアルゴリズムは、クラスタリングと外れ値検出にNearest Neighbor Distances(NND)を用いることで、高次元空間における既存の手法の限界に対処する。 以上の結果から,これらのアルゴリズムは,外乱検出の精度と適応性を大幅に向上させ,様々な実世界のアプリケーションに有用なツールを提供することが示唆された。 キーワード:outlier Detection, Graph-based clustering, Cluster catch digraphs, $k$-nearest-neighborhood, Mutual catch graphs, Nearest neighbor distance。

This paper introduces a novel family of outlier detection algorithms based on Cluster Catch Digraphs (CCDs), specifically tailored to address the challenges of high dimensionality and varying cluster shapes, which deteriorate the performance of most traditional outlier detection methods. We propose the Uniformity-Based CCD with Mutual Catch Graph (U-MCCD), the Uniformity- and Neighbor-Based CCD with Mutual Catch Graph (UN-MCCD), and their shape-adaptive variants (SU-MCCD and SUN-MCCD), which are designed to detect outliers in data sets with arbitrary cluster shapes and high dimensions. We present the advantages and shortcomings of these algorithms and provide the motivation or need to define each particular algorithm. Through comprehensive Monte Carlo simulations, we assess their performance and demonstrate the robustness and effectiveness of our algorithms across various settings and contamination levels. We also illustrate the use of our algorithms on various real-life data sets. The U-MCCD algorithm efficiently identifies outliers while maintaining high true negative rates, and the SU-MCCD algorithm shows substantial improvement in handling non-uniform clusters. Additionally, the UN-MCCD and SUN-MCCD algorithms address the limitations of existing methods in high-dimensional spaces by utilizing Nearest Neighbor Distances (NND) for clustering and outlier detection. Our results indicate that these novel algorithms offer substantial advancements in the accuracy and adaptability of outlier detection, providing a valuable tool for various real-world applications. Keyword: Outlier detection, Graph-based clustering, Cluster catch digraphs, $k$-nearest-neighborhood, Mutual catch graphs, Nearest neighbor distance.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# スムーズブースティングのサンプル複雑さとハードコア理論の厚さ

The Sample Complexity of Smooth Boosting and the Tightness of the Hardcore Theorem ( http://arxiv.org/abs/2409.11597v1 )

ライセンス: Link先を確認
Guy Blanc, Alexandre Hayderi, Caleb Koch, Li-Yang Tan, (参考訳) スムースブースターは任意の例にあまり重みを付けない分布を生成する。 もともとは耐雑音性のために導入されたが、そのようなブースターは微分プライバシー、再現性、量子学習理論にも応用されている。 均一分布に対する強い学習には$\tilde{\Omega}(1/\gamma^2)\cdot m$サンプルが必要である。 これは既存の滑らかなブースターのオーバーヘッドと一致し、分布に依存しないブースターの設定から最初の分離を提供し、対応するオーバーヘッドは$O(1/\gamma)$である。 私たちの研究は、Impagliazzoのハードコア定理に、複雑性理論から新たな光を当てています。 関数 $f$ は、サイズに対してわずかに難しい-$s$ 回路に対して、ハードコアの定理は、$f$ がサイズに対して非常に難しい入力セットを提供する-$s'$ 回路である。 この重要な結果の欠点は、回路サイズの損失、すなわち、その$s' \ll s$である。 Trevisan の質問に答えると、このサイズ損失は必要であり、事実、既知の証明によって達成されたパラメータが最善であることを示す。

Smooth boosters generate distributions that do not place too much weight on any given example. Originally introduced for their noise-tolerant properties, such boosters have also found applications in differential privacy, reproducibility, and quantum learning theory. We study and settle the sample complexity of smooth boosting: we exhibit a class that can be weak learned to $\gamma$-advantage over smooth distributions with $m$ samples, for which strong learning over the uniform distribution requires $\tilde{\Omega}(1/\gamma^2)\cdot m$ samples. This matches the overhead of existing smooth boosters and provides the first separation from the setting of distribution-independent boosting, for which the corresponding overhead is $O(1/\gamma)$. Our work also sheds new light on Impagliazzo's hardcore theorem from complexity theory, all known proofs of which can be cast in the framework of smooth boosting. For a function $f$ that is mildly hard against size-$s$ circuits, the hardcore theorem provides a set of inputs on which $f$ is extremely hard against size-$s'$ circuits. A downside of this important result is the loss in circuit size, i.e. that $s' \ll s$. Answering a question of Trevisan, we show that this size loss is necessary and in fact, the parameters achieved by known proofs are the best possible.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# フェアRAGへ向けて--検索強化世代におけるフェアランキングの影響について

Towards Fair RAG: On the Impact of Fair Ranking in Retrieval-Augmented Generation ( http://arxiv.org/abs/2409.11598v1 )

ライセンス: Link先を確認
To Eun Kim, Fernando Diaz, (参考訳) 現在では多くの言語モデルが検索機能により応答を高めており、検索拡張生成システム(RAG)が広く採用されている。 しかしながら、検索はRAGの中核的な要素であるにもかかわらず、この分野の研究の多くは、関係するすべての利害関係者を考慮することの重要性を無視して、公正なランク付けに関する広範な仕事の体系を見落としている。 本稿では,公正ランキングと統合されたRAGシステムの最初の体系的評価について述べる。 本研究は、RAGシステム(項目側公正性)が活用するランキングにおいて、各項目の公正な露出を測定することに焦点を当て、関連項目提供者に対する公平な成長を促進することを目的としている。 RAGの文脈におけるアイテムフェアネス,ランキング品質,生成品質の関係を深く理解するために,7つの異なるデータセットに公平なランキングを組み込んだ9種類のRAGシステムを分析した。 その結果, 公平性確保とシステム効率維持のトレードオフの一般的な傾向にもかかわらず, 高い世代品質を維持し, 従来のRAGシステムよりも優れていることが示唆された。 我々は、我々の洞察が責任と公平なRAGシステムの基盤となり、将来の研究のための新たな道を開くと信じている。 コードベースとデータセットはhttps://github.com/kimdanny/Fair-RAG.comで公開しています。

Many language models now enhance their responses with retrieval capabilities, leading to the widespread adoption of retrieval-augmented generation (RAG) systems. However, despite retrieval being a core component of RAG, much of the research in this area overlooks the extensive body of work on fair ranking, neglecting the importance of considering all stakeholders involved. This paper presents the first systematic evaluation of RAG systems integrated with fair rankings. We focus specifically on measuring the fair exposure of each relevant item across the rankings utilized by RAG systems (i.e., item-side fairness), aiming to promote equitable growth for relevant item providers. To gain a deep understanding of the relationship between item-fairness, ranking quality, and generation quality in the context of RAG, we analyze nine different RAG systems that incorporate fair rankings across seven distinct datasets. Our findings indicate that RAG systems with fair rankings can maintain a high level of generation quality and, in many cases, even outperform traditional RAG systems, despite the general trend of a tradeoff between ensuring fairness and maintaining system-effectiveness. We believe our insights lay the groundwork for responsible and equitable RAG systems and open new avenues for future research. We publicly release our codebase and dataset at https://github.com/kimdanny/Fair-RAG.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# No Saved Kaleidosope:Pythonの構文を持つ100%ジットニューラルネットワーク符号化言語

No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax ( http://arxiv.org/abs/2409.11600v1 )

ライセンス: Link先を確認
Augusto Seben da Rosa, Marlon Daniel Angeli, Jorge Aikes Junior, Alef Iury Ferreira, Lucas Rafael Gris, Anderson da Silva Soares, Arnaldo Candido Junior, Frederico Santos de Oliveira, Gabriel Trevisan Damke, Rafael Teixeira Sousa, (参考訳) 我々は,C++,LLVM,Cudaを用いてニューラルネットワークを学習するためのjittedコンパイラを開発した。 オブジェクト指向の特徴、強い型付け、データ前処理のための並列ワーカー、式のためのピソニック構文、PyTorchのようなモデル宣言、自動微分などが特徴である。 VRAM, cuBLAS, 畳み込み層のためのcuDNN, 高速行列乗算のためのキャッシュとプールの機構を実装した。 ImageNet上のResidual Convolutional Neural Networksを用いた実験では、同様の速度で性能が低下する。 また、GRUネットワーク実験も同様の精度を示すが、我々のコンパイラはその処理の速度を劣化させた。 しかし、コンパイラーはCIFAR-10ベンチマークで有望な結果を示し、PyTorchと同じ性能とほぼ同じ速度に到達した。 https://github.com/NoSavedDATA/NoSavedKaleidoscope

We developed a jitted compiler for training Artificial Neural Networks using C++, LLVM and Cuda. It features object-oriented characteristics, strong typing, parallel workers for data pre-processing, pythonic syntax for expressions, PyTorch like model declaration and Automatic Differentiation. We implement the mechanisms of cache and pooling in order to manage VRAM, cuBLAS for high performance matrix multiplication and cuDNN for convolutional layers. Our experiments with Residual Convolutional Neural Networks on ImageNet, we reach similar speed but degraded performance. Also, the GRU network experiments show similar accuracy, but our compiler have degraded speed in that task. However, our compiler demonstrates promising results at the CIFAR-10 benchmark, in which we reach the same performance and about the same speed as PyTorch. We make the code publicly available at: https://github.com/NoSavedDATA/NoSavedKaleidoscope
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# DiffESM:3次元拡散モデルを用いた地球系モデルにおける温度と沈降の条件付きエミュレーション

DiffESM: Conditional Emulation of Temperature and Precipitation in Earth System Models with 3D Diffusion Models ( http://arxiv.org/abs/2409.11601v1 )

ライセンス: Link先を確認
Seth Bassetti, Brian Hutchinson, Claudia Tebaldi, Ben Kravitz, (参考訳) 地球系モデル(Earth System Models、ESM)は、人間の活動と地球の気候の間の相互作用を理解するために不可欠である。 しかしながら、ESMの計算要求は、しばしば実行可能なシミュレーションの数を制限し、極端な気象事象に関連するリスクの堅牢な分析を妨げる。 低コストのエミュレータはESMをエミュレートし、将来の気候の迅速な分析を可能にする代替手段として登場したが、これらのエミュレータの多くは、少なくとも1ヶ月の頻度でしか出力を提供しない。 この時間分解能は、熱波や激しい降水のような日々の特性を必要とする事象を分析するには不十分である。 生成型ディープラーニングモデルのクラスである拡散モデルを用いて、毎月のESM出力を1日あたりの周波数に効果的にダウンスケールする。 我々のDiffESMモデルは、少数のESM実現を訓練し、幅広い放射性強制を反映し、月平均降水量または温度を入力とし、ESM出力に近い統計特性を持つ日々の値を生成することができる。 月々の手段を提供する安価なエミュレータと組み合わせることで、大規模なアンサンブルを実行するのに必要な計算リソースはごくわずかである。 DiffESMは, 熱波, ドライスペル, 降雨強度などの現象の周波数および空間特性から推定したESM出力の時空間的挙動と密に一致していることを示す。

Earth System Models (ESMs) are essential for understanding the interaction between human activities and the Earth's climate. However, the computational demands of ESMs often limit the number of simulations that can be run, hindering the robust analysis of risks associated with extreme weather events. While low-cost climate emulators have emerged as an alternative to emulate ESMs and enable rapid analysis of future climate, many of these emulators only provide output on at most a monthly frequency. This temporal resolution is insufficient for analyzing events that require daily characterization, such as heat waves or heavy precipitation. We propose using diffusion models, a class of generative deep learning models, to effectively downscale ESM output from a monthly to a daily frequency. Trained on a handful of ESM realizations, reflecting a wide range of radiative forcings, our DiffESM model takes monthly mean precipitation or temperature as input, and is capable of producing daily values with statistical characteristics close to ESM output. Combined with a low-cost emulator providing monthly means, this approach requires only a small fraction of the computational resources needed to run a large ensemble. We evaluate model behavior using a number of extreme metrics, showing that DiffESM closely matches the spatio-temporal behavior of the ESM output it emulates in terms of the frequency and spatial characteristics of phenomena such as heat waves, dry spells, or rainfall intensity.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# 気候貢献のためのAIデータ駆動グローバル気象モデルの構築:2017年オロビルダム超高気圧川の解析

Harnessing AI data-driven global weather models for climate attribution: An analysis of the 2017 Oroville Dam extreme atmospheric river ( http://arxiv.org/abs/2409.11605v1 )

ライセンス: Link先を確認
Jorge Baño-Medina, Agniv Sengupta, Allison Michaelis, Luca Delle Monache, Julie Kalansky, Duncan Watson-Parris, (参考訳) AIデータ駆動モデル(Graphcast、Pangu Weather、Fourcastnet、SFNO)は、短い推論時間によるストーリーラインベースの気候属性を探索し、調査されたイベントの数を加速し、公共の注意が高められたときのリアルタイム属性を提供する。 この分析は、2017年2月、カリフォルニア州北部で起きたオロビルダムの流出事故に繋がった、極端に大気中の川のエピソードに基づいている。 過去と将来のシミュレーションは、それぞれ、工業以前の気候変化信号と21世紀後半の気温変化信号で初期条件を摂動することによって生成される。 シミュレーションは,両気候環境下での擬似現実性を示す力学モデルの結果と比較される。 全体として、AIモデルは有望な結果を示し、現在のオロビルダム上の統合水蒸気は、動力学的モデルと一致して、工業以前のものに比べて5-6%増加したと予測している。 テスト対象のAIモデル毎に異なる測地-水分-温度依存性を公開し、属性応答の物理的性を理解するための貴重な情報を提供する。 しかし、AIモデルは、動的モデルによって想像される擬似現実性よりも弱い帰属値をシミュレートする傾向があり、特に21世紀後半の体制において、外挿能力の低下を示唆している。 AIモデル(500人以上)で生成された大規模なアンサンブルは、動的モデルからの20人未満のアンサンブルとは異なり、現在の統計学的に重要な帰属結果を生み出した。 この分析は、AIモデルが帰属分析を行う可能性を強調し、説明可能な人工知能の今後の研究ラインを強調して、これらのツールへの信頼を高め、リアルタイムで信頼できる帰属研究を可能にする。

AI data-driven models (Graphcast, Pangu Weather, Fourcastnet, and SFNO) are explored for storyline-based climate attribution due to their short inference times, which can accelerate the number of events studied, and provide real time attributions when public attention is heightened. The analysis is framed on the extreme atmospheric river episode of February 2017 that contributed to the Oroville dam spillway incident in Northern California. Past and future simulations are generated by perturbing the initial conditions with the pre-industrial and the late-21st century temperature climate change signals, respectively. The simulations are compared to results from a dynamical model which represents plausible pseudo-realities under both climate environments. Overall, the AI models show promising results, projecting a 5-6 % increase in the integrated water vapor over the Oroville dam in the present day compared to the pre-industrial, in agreement with the dynamical model. Different geopotential-moisture-temperature dependencies are unveiled for each of the AI-models tested, providing valuable information for understanding the physicality of the attribution response. However, the AI models tend to simulate weaker attribution values than the pseudo-reality imagined by the dynamical model, suggesting some reduced extrapolation skill, especially for the late-21st century regime. Large ensembles generated with an AI model (>500 members) produced statistically significant present-day to pre-industrial attribution results, unlike the >20-member ensemble from the dynamical model. This analysis highlights the potential of AI models to conduct attribution analysis, while emphasizing future lines of work on explainable artificial intelligence to gain confidence in these tools, which can enable reliable attribution studies in real-time.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# マルチモーダルPDEファンデーションモデルにおける時系列予測, 知識蒸留, 精製

Time-Series Forecasting, Knowledge Distillation, and Refinement within a Multimodal PDE Foundation Model ( http://arxiv.org/abs/2409.11609v1 )

ライセンス: Link先を確認
Derek Jollie, Jingmin Sun, Zecheng Zhang, Hayden Schaeffer, (参考訳) 記号符号化は、異なる時系列データに対する追加情報を埋め込む手段として、マルチオペレータ学習で使われている。 時間依存偏微分方程式によって記述される時空間系に対しては、方程式自体が系を特定するための追加のモダリティを与える。 サイド時系列サンプルに沿った記号表現の利用により、マルチモーダル予測ニューラルネットワークの開発が可能となる。 現在のアプローチにおける重要な課題は、特に新しい微分方程式を扱う場合、コストを増大させ柔軟性を低下させる既存のトークンライブラリに適合し、関連付けるために、記号情報、すなわち方程式を手作業で前処理(単純化、再配置など)しなければならないことである。 我々は,SymPyに基づく新しいトークンライブラリを提案し,時系列モデルに対する追加のモダリティとして微分方程式を符号化する。 提案手法は、最小限のコストを発生させ、自動化し、タスク予測のための高い予測精度を維持する。 さらに、学習方程式を洗練させるために異なるモジュラリティを接続するベイズフィルタモジュールも含んでいる。 これにより、学習したシンボル表現と予測された時系列の精度が向上する。

Symbolic encoding has been used in multi-operator learning as a way to embed additional information for distinct time-series data. For spatiotemporal systems described by time-dependent partial differential equations, the equation itself provides an additional modality to identify the system. The utilization of symbolic expressions along side time-series samples allows for the development of multimodal predictive neural networks. A key challenge with current approaches is that the symbolic information, i.e. the equations, must be manually preprocessed (simplified, rearranged, etc.) to match and relate to the existing token library, which increases costs and reduces flexibility, especially when dealing with new differential equations. We propose a new token library based on SymPy to encode differential equations as an additional modality for time-series models. The proposed approach incurs minimal cost, is automated, and maintains high prediction accuracy for forecasting tasks. Additionally, we include a Bayesian filtering module that connects the different modalities to refine the learned equation. This improves the accuracy of the learned symbolic representation and the predicted time-series.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-17
# NSSR-DIL:Deep Identity Learningを用いたNull-Shot Image Super-Resolution

NSSR-DIL: Null-Shot Image Super-Resolution Using Deep Identity Learning ( http://arxiv.org/abs/2409.12165v1 )

ライセンス: Link先を確認
Sree Rama Vamsidhar S, Rama Krishna Gorthi, (参考訳) The present-of-the-Art (SotA) Image Super-Resolution (ISR) method using Deep Learning (DL) techniques using a amount of image data。 既存のSotA ISRを実世界のインスタンスに拡張する主な制限は、計算量と時間の複雑さである。 本稿では,既存の手法とは対照的に,画像データセットから独立してISRタスクを学習する,新しい計算効率の高いISRアルゴリズムを提案する。 提案アルゴリズムは、超解像(SR)画像から劣化空間にまたがるカーネルの逆数を計算するまでのISRタスクを再構成する。 本稿では,劣化モデルと逆劣化モデルとの同一性を利用したDeep Identity Learningを紹介する。 提案手法は、ISRデータセットにも、SRタスクをモデル化するための単一入力低解像度(LR)画像にも依存しない。 そこで我々は,このモデルをディープアイデンティティラーニング(NSSR-DIL)を用いたNull-Shot Super-Resolution(Null-Shot Super-Resolution)と呼ぶ。 提案したNSSR-DILモデルは、少なくとも10のオーダーで計算資源を少なくし、ベンチマークISRデータセット上での競合性能を示す。 NSSR-DILフレームワークは、モデルを再トレーニングし、X2、X3、X4のような様々なスケール要因で同じ状態のままである。 これにより、実世界のアプリケーションに非常に効率的なISRモデルがより適しています。

The present State-of-the-Art (SotA) Image Super-Resolution (ISR) methods employ Deep Learning (DL) techniques using a large amount of image data. The primary limitation to extending the existing SotA ISR works for real-world instances is their computational and time complexities. In this paper, contrary to the existing methods, we present a novel and computationally efficient ISR algorithm that is independent of the image dataset to learn the ISR task. The proposed algorithm reformulates the ISR task from generating the Super-Resolved (SR) images to computing the inverse of the kernels that span the degradation space. We introduce Deep Identity Learning, exploiting the identity relation between the degradation and inverse degradation models. The proposed approach neither relies on the ISR dataset nor on a single input low-resolution (LR) image (like the self-supervised method i.e. ZSSR) to model the ISR task. Hence we term our model as Null-Shot Super-Resolution Using Deep Identity Learning (NSSR-DIL). The proposed NSSR-DIL model requires fewer computational resources, at least by an order of 10, and demonstrates a competitive performance on benchmark ISR datasets. Another salient aspect of our proposition is that the NSSR-DIL framework detours retraining the model and remains the same for varying scale factors like X2, X3, and X4. This makes our highly efficient ISR model more suitable for real-world applications.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-17
# MARS: 車両損傷事例セグメンテーションのためのシークエンシャル・クアドツリーノードを用いたマスク注意保持

MARS: Mask Attention Refinement with Sequential Quadtree Nodes for Car Damage Instance Segmentation ( http://arxiv.org/abs/2305.04743v5 )

ライセンス: Link先を確認
Teerapong Panboonyuen, Naphat Nithisopa, Panin Pienroj, Laphonchai Jirachuphun, Chaiwasut Watthanasirikrit, Naruepon Pornwiriyakul, (参考訳) 自動車保険業界にとって、不運による自動車被害の評価が重要である。 しかし、深層学習ネットワークは車両の損傷画像を入力として設計されておらず、その分割マスクはいまだに粗いため、現実世界のアプリケーションでは精度は依然として不十分である。 本稿では,自動車損傷事例分割のためのMARS(Mask Attention Refinement with Sequential quadtree node)を提案する。 我々のMARSは、シーケンシャルなクアッドツリーノード層とクアッドツリートランスフォーマーの間のグローバルな依存関係を引き出す自己注意機構を表現し、チャネル重みを補正し、高精度なインスタンスマスクを予測する。 大規模な実験により、MARSはMask R-CNN [9]、PointRend [13]、Mask Transfiner [12]の3つの人気のあるベンチマークで、+1.3マスクAPベースのR50-FPNバックボーンと+2.3マスクAPベースのR101-FPNバックボーンで、SOTA(State-of-the-art)インスタンスセグメンテーションメソッドよりも優れていることが示された。 デモはhttps://github.com/kaopanboonyuen/MARS.comで公開しています。

Evaluating car damages from misfortune is critical to the car insurance industry. However, the accuracy is still insufficient for real-world applications since the deep learning network is not designed for car damage images as inputs, and its segmented masks are still very coarse. This paper presents MARS (Mask Attention Refinement with Sequential quadtree nodes) for car damage instance segmentation. Our MARS represents self-attention mechanisms to draw global dependencies between the sequential quadtree nodes layer and quadtree transformer to recalibrate channel weights and predict highly accurate instance masks. Our extensive experiments demonstrate that MARS outperforms state-of-the-art (SOTA) instance segmentation methods on three popular benchmarks such as Mask R-CNN [9], PointRend [13], and Mask Transfiner [12], by a large margin of +1.3 maskAP-based R50-FPN backbone and +2.3 maskAP-based R101-FPN backbone on Thai car-damage dataset. Our demos are available at https://github.com/kaopanboonyuen/MARS.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-17
# メッシュを用いたマルチスケールグラフニューラルネットワークによる流体の超解法

Mesh-based Super-Resolution of Fluid Flows with Multiscale Graph Neural Networks ( http://arxiv.org/abs/2409.07769v2 )

ライセンス: Link先を確認
Shivam Barwey, Pinaki Pal, Saumil Patel, Riccardo Balin, Bethany Lusch, Venkatram Vishwanath, Romit Maulik, Ramesh Balakrishnan, (参考訳) メッシュベースの流体の3次元超解像を可能にするグラフニューラルネットワーク(GNN)アプローチが本研究で導入された。 このフレームワークでは、GNNは一度に完全なメッシュベースのフィールドでではなく、要素(またはセル)の局所的なメッシュで動くように設計されている。 スペクトル(または有限)要素の離散化に類似したメッシュベースのGNN表現を容易にするため、共通グラフノードの同期を考慮したベースラインGNN層(ローカルノード特性を更新するメッセージパッシング層)が修正され、一般的に使用される要素ベースのメッシュ接続性との整合性が向上する。 アーキテクチャは本質的にマルチスケールであり、グラフアンプール層によって分離された粗大なメッセージパッシング層シーケンスと微細なメッセージパッシング層シーケンス(終端プロセッサ)の組み合わせで構成されている。 粗いスケールのプロセッサは、クエリ要素(近隣の粗い要素のセット数とともに)を1つの潜伏グラフ表現に埋め込み、粗いスケールの同期メッセージが素子近傍を通過し、微細なスケールのプロセッサは、この潜伏グラフ上の追加のメッセージパッシング操作を利用して補間エラーを補正する。 レイノルズ数1600, 3200におけるテイラー・グリーン・ボルテックス流シミュレーションのヘキサヘドラルメッシュに基づくデータを用いて実証実験を行った。 グローバルとローカルの両方のエラーを分析することで、GNNが粗大なモデル構成とマルチスケールのモデル構成の両方のターゲットと比較して、いかに正確な超解フィールドを生成できるかを最終的に示す。

A graph neural network (GNN) approach is introduced in this work which enables mesh-based three-dimensional super-resolution of fluid flows. In this framework, the GNN is designed to operate not on the full mesh-based field at once, but on localized meshes of elements (or cells) directly. To facilitate mesh-based GNN representations in a manner similar to spectral (or finite) element discretizations, a baseline GNN layer (termed a message passing layer, which updates local node properties) is modified to account for synchronization of coincident graph nodes, rendering compatibility with commonly used element-based mesh connectivities. The architecture is multiscale in nature, and is comprised of a combination of coarse-scale and fine-scale message passing layer sequences (termed processors) separated by a graph unpooling layer. The coarse-scale processor embeds a query element (alongside a set number of neighboring coarse elements) into a single latent graph representation using coarse-scale synchronized message passing over the element neighborhood, and the fine-scale processor leverages additional message passing operations on this latent graph to correct for interpolation errors. Demonstration studies are performed using hexahedral mesh-based data from Taylor-Green Vortex flow simulations at Reynolds numbers of 1600 and 3200. Through analysis of both global and local errors, the results ultimately show how the GNN is able to produce accurate super-resolved fields compared to targets in both coarse-scale and multiscale model configurations.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-17
# SIG:顔認識のための評価データセットを生成するための合成アイデンティティ生成パイプライン

SIG: A Synthetic Identity Generation Pipeline for Generating Evaluation Datasets for Face Recognition ( http://arxiv.org/abs/2409.08345v2 )

ライセンス: Link先を確認
Kassi Nzalasse, Rishav Raj, Eli Laird, Corey Clark, (参考訳) 人工知能の応用が拡大するにつれて、モデルの評価は厳しい監視に直面している。 公的準備の確保には評価データセットが必要であるが、これはプライバシー規制に従わなかったり倫理的に原因付けられたりすることで、トレーニングデータとは異なる。 顔認識システムの性能と公平性は、これらの評価データセットの品質と代表性に大きく依存する。 このデータは、ユーザーの同意なしにインターネットから取り除かれ、適切なリリースなしに使用を禁止できる倫理上の懸念を引き起こすことがある。 まれに、データは制御された環境で同意を得て収集されるが、このプロセスは時間がかかり、高価であり、論理的には実行が困難である。 このことは、倫理的にソースされた評価データセットを集めるのに必要な膨大なリソースを活用できない人々にとって、障壁となる。 これらの課題に対処するために、顔認識評価のための倫理的バランスの取れたデータセットをターゲットとするSIG(Synthetic Identity Generation Pipeline)を導入する。 提案したパイプラインは, 人種, 性別, 年齢など, 表情, 顔の特徴, 人口特性を制御可能な合成アイデンティティの高品質な画像を生成する。 また、提案したSIGパイプラインを用いて、人種、性別、年齢のバランスのとれた3,336のユニークな合成アイデンティティの10,008枚の顔画像からなる、ControlFace10kというオープンソースの評価データセットもリリースした。 ControlFace10kと、最先端の顔認識アルゴリズムを用いて、非合成BUPTデータセットを分析し、その評価ツールとしての有効性を実証する。 この分析は、異なる人口集団間でアルゴリズムバイアスを評価する際のデータセットの特徴とその有用性を強調している。

As Artificial Intelligence applications expand, the evaluation of models faces heightened scrutiny. Ensuring public readiness requires evaluation datasets, which differ from training data by being disjoint and ethically sourced in compliance with privacy regulations. The performance and fairness of face recognition systems depend significantly on the quality and representativeness of these evaluation datasets. This data is sometimes scraped from the internet without user's consent, causing ethical concerns that can prohibit its use without proper releases. In rare cases, data is collected in a controlled environment with consent, however, this process is time-consuming, expensive, and logistically difficult to execute. This creates a barrier for those unable to conjure the immense resources required to gather ethically sourced evaluation datasets. To address these challenges, we introduce the Synthetic Identity Generation pipeline, or SIG, that allows for the targeted creation of ethical, balanced datasets for face recognition evaluation. Our proposed and demonstrated pipeline generates high-quality images of synthetic identities with controllable pose, facial features, and demographic attributes, such as race, gender, and age. We also release an open-source evaluation dataset named ControlFace10k, consisting of 10,008 face images of 3,336 unique synthetic identities balanced across race, gender, and age, generated using the proposed SIG pipeline. We analyze ControlFace10k along with a non-synthetic BUPT dataset using state-of-the-art face recognition algorithms to demonstrate its effectiveness as an evaluation tool. This analysis highlights the dataset's characteristics and its utility in assessing algorithmic bias across different demographic groups.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-17
# 残響環境におけるマルチマイクロホンとマルチモーダル感情認識

Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment ( http://arxiv.org/abs/2409.09545v2 )

ライセンス: Link先を確認
Ohad Cohen, Gershon Hazan, Sharon Gannot, (参考訳) 本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。 提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。 本稿では,Ryersonによる感情音声・歌声データベース(RAVDESS)の残響バージョンについて,実世界の室内インパルス応答(RIR)を用いて評価した。 以上の結果から,音声とビデオのモダリティの統合は,特に難易度の高い音響条件において,ユニモーダルアプローチよりも優れた性能が得られることが示された。 さらに,複数のマイクロホンを用いたマルチモーダル(音響)アプローチは,マイクロホンの単体よりも優れていることを示す。

This paper presents a Multi-modal Emotion Recognition (MER) system designed to enhance emotion recognition accuracy in challenging acoustic conditions. Our approach combines a modified and extended Hierarchical Token-semantic Audio Transformer (HTS-AT) for multi-channel audio processing with an R(2+1)D Convolutional Neural Networks (CNN) model for video analysis. We evaluate our proposed method on a reverberated version of the Ryerson audio-visual database of emotional speech and song (RAVDESS) dataset using synthetic and real-world Room Impulse Responsess (RIRs). Our results demonstrate that integrating audio and video modalities yields superior performance compared to uni-modal approaches, especially in challenging acoustic conditions. Moreover, we show that the multimodal (audiovisual) approach that utilizes multiple microphones outperforms its single-microphone counterpart.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-17
# Hugging Face上でのオープントレーニング済み言語モデルのセマンティックバージョニングに向けて

Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face ( http://arxiv.org/abs/2409.10472v2 )

ライセンス: Link先を確認
Adekunle Ajibode, Abdul Ali Bangash, Filipe Roseiro Cogo, Bram Adams, Ahmed E. Hassan, (参考訳) Hugging Face (HF)のようなモデルレジストリプラットフォーム上でのオープンな事前学習言語モデル(PTLM)の普及は、その周辺で製品を開発する企業にとっての機会と課題の両方を提示している。 従来のソフトウェア依存関係と同様に、PTLMはリリース後も進化を続けている。 しかし、モデルレジストリプラットフォームにおけるPTLMのリリースプラクティスの現状は、曖昧な命名規則やアクセシブルなモデルトレーニングドキュメントなど、さまざまな不整合に悩まされている。 現在のPTLMリリースの知識ギャップを考えると、実験的な研究は、52,227個のPTLMのリリースを、最もよく知られたモデルレジストリであるHFで分析するために、混合メソッドのアプローチを用いています。 その結果,PTLMリリースの命名法は148種類あり,モデルウェイトファイルの変更の40.87%が採用されている名前ベースのバージョニングやドキュメントに含まれていないことが明らかとなった。 さらに,52,227のPTLMは299の異なるベースモデル(52,227のPTLMを作成するために使用される修正元のモデル)から派生したものであることが確認された。 トレーニングデータセットの仕様とモデルカードの可用性に関して、リリースの透明性における重要なギャップは依然として存在し、標準化されたドキュメントの必要性を強調している。 我々は,PTLMのメジャーバージョンとマイナーバージョンを明示的に区別するモデル命名法を特定したが,いずれのリリースでも変更の種類に大きな違いは見つからず,PTLMのメジャー/マイナーバージョン番号が任意に選択されることが示唆された。 我々の研究はPTLMリリースの実践を改善する上で貴重な洞察を与え、より形式的なセマンティックバージョニングの実践に力を入れている。

The proliferation of open Pre-trained Language Models (PTLMs) on model registry platforms like Hugging Face (HF) presents both opportunities and challenges for companies building products around them. Similar to traditional software dependencies, PTLMs continue to evolve after a release. However, the current state of release practices of PTLMs on model registry platforms are plagued by a variety of inconsistencies, such as ambiguous naming conventions and inaccessible model training documentation. Given the knowledge gap on current PTLM release practices, our empirical study uses a mixed-methods approach to analyze the releases of 52,227 PTLMs on the most well-known model registry, HF. Our results reveal 148 different naming practices for PTLM releases, with 40.87% of changes to model weight files not represented in the adopted name-based versioning practice or their documentation. In addition, we identified that the 52,227 PTLMs are derived from only 299 different base models (the modified original models used to create 52,227 PTLMs), with Fine-tuning and Quantization being the most prevalent modification methods applied to these base models. Significant gaps in release transparency, in terms of training dataset specifications and model card availability, still exist, highlighting the need for standardized documentation. While we identified a model naming practice explicitly differentiating between major and minor PTLM releases, we did not find any significant difference in the types of changes that went into either type of releases, suggesting that major/minor version numbers for PTLMs often are chosen arbitrarily. Our findings provide valuable insights to improve PTLM release practices, nudging the field towards more formal semantic versioning practices.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-17
# 防犯カメラとERPデータマッチングシステムによる盗難防止

Security Camera Movie and ERP Data Matching System to Prevent Theft ( http://arxiv.org/abs/1706.04595v4 )

ライセンス: Link先を確認
Yoji Yamato, Yoshifumi Fukumoto, Hiroki Kumazaki, (参考訳) 本稿では,画像解析とERPを用いた万引きを防止するSaaSサービスを提案する。 日本では万引きの被害総額が450億円に達する。 クラウドとデータ分析技術に基づいて,小店舗の防犯カメラとERPデータチェックの画像解析による万引き防止サービスを提案する。 私たちは映画分析を評価した。

In this paper, we propose a SaaS service which prevents shoplifting using image analysis and ERP. In Japan, total damage of shoplifting reaches 450 billion yen. Based on cloud and data analysis technology, we propose a shoplifting prevention service with image analysis of security camera and ERP data check for small shops. We evaluated movie analysis.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# ディックモデル量子熱エンジンの効率向上

Enhancement of efficiency in the Dicke model quantum heat engine ( http://arxiv.org/abs/1906.00292v4 )

ライセンス: Link先を確認
M. Aparicio Alcalde, E. Arias, N. F. Svaiter, (参考訳) 我々は、全ディックモデルで記述された量子熱エンジンを解析する。 このシステムは特定の条件下での量子相転移を示す。 スターリング熱力学サイクルを行うシステムについて考察する。 サイクル中に結合パラメータが臨界値を越えると効率が向上する。 モデルにおける回転項と反回転項のアンバランス効果を解析する。 反回転項と回転項の寄与が等しければ最大効率が得られる。 量子相転移に関連する基底状態縮退と最大効率の関係について検討した。

We analyze a quantum heat engine described by the full Dicke model. The system exhibit quantum phase transitions under certain conditions. We consider the system performing a Stirling thermodynamic cycle. We obtain an enhancement of efficiency when during the cycle the coupling parameter cross a critical value. We analyze the effect of unbalance between rotating and counter-rotating terms in the model. The maximum efficiency is obtained when the contributions of the counter-rotating and rotating terms are equal. The relation between ground state degeneracy, related to the quantum phase transition, and maximum efficiency is investigated.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# ディディクティカル・ディバイサル・サンプルにおける深層学習表現の類似性について

On the Similarity of Deep Learning Representations Across Didactic and Adversarial Examples ( http://arxiv.org/abs/2002.06816v2 )

ライセンス: Link先を確認
Pk Douglas, Farzad Vasheghani Farahani, (参考訳) ディープニューラルネットワーク(DNN)の利用の増加は、並列的な取り組み、すなわち、誤分類の成功から利益を得る敵の設計を動機付けている。 しかし、全ての敵の例が悪質な目的のために作られたわけではない。 例えば、現実世界のシステムは、しばしば楽器間の物理的、時間的、サンプリングのばらつきを含む。 野生の敵対的な例は、正確に予測モデリングを行う上で、必然的に有害なものであることを証明している。 逆に、自然に発生する画像の特徴の共分散は、実践的な目的に役立ちうる。 そこで本研究では,MRI 取得の多様性に特徴的なドクティカル条件と逆境条件にまたがるニューロイメージング分類のためのディープラーニング表現の安定性について検討した。 入力空間における逆例の頻度に応じて,表現的類似性と性能が変化することを示す。

The increasing use of deep neural networks (DNNs) has motivated a parallel endeavor: the design of adversaries that profit from successful misclassifications. However, not all adversarial examples are crafted for malicious purposes. For example, real world systems often contain physical, temporal, and sampling variability across instrumentation. Adversarial examples in the wild may inadvertently prove deleterious for accurate predictive modeling. Conversely, naturally occurring covariance of image features may serve didactic purposes. Here, we studied the stability of deep learning representations for neuroimaging classification across didactic and adversarial conditions characteristic of MRI acquisition variability. We show that representational similarity and performance vary according to the frequency of adversarial examples in the input space.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# ニューラルネットワークロバスト性認証のための線形・半有限緩和の最適分岐に向けて

Towards Optimal Branching of Linear and Semidefinite Relaxations for Neural Network Robustness Certification ( http://arxiv.org/abs/2101.09306v3 )

ライセンス: Link先を確認
Brendon G. Anderson, Ziye Ma, Jingqi Li, Somayeh Sojoudi, (参考訳) 本稿では,ReLUニューラルネットワークの逆入力摂動に対する堅牢性を検証する。 一般の線形プログラミング (LP) と半定値プログラミング (SDP) の認証手法が抱える緩和誤差を低減させるため,入力の不確実性集合の分割と各部分の緩和の解法を分割的に提案する分岐とバウンドの手法を採用する。 提案手法は緩和誤差を低減し,ReLUアクティベーションの特性を活用するために設計されたパーティションを用いてLP緩和を行うことによって完全に誤差を除去することを示す。 提案手法を大規模ネットワークに拡張するために,分割する部分の数を削減した粗いパーティションを用いることを検討する。 LP緩和誤差を直接最小化する粗いパーティションの計算がNPハードであることを証明する。 最悪ケースのLP緩和誤差を最小化する代わりに, 単一隠れ層の場合において, 閉形式分岐方式を開発する。 解析をSDPに拡張し、実現可能な集合の幾何を利用して、最悪のSDP緩和誤差を最小限に抑える分岐スキームを設計する。 MNIST, CIFAR-10, ウィスコンシン乳がん診断分類器を用いた実験では, 検体検体の割合が有意に増加した。 入力サイズと層数を独立に増加させることで、分岐LPと分岐SDPがどの状態に最も適しているかを実証的に示す。 最後に、LP分岐法を多層分岐ヒューリスティックに拡張し、大規模なディープニューラルネットワーク認証ベンチマークにおける最先端ヒューリスティックに匹敵する性能を得る。

In this paper, we study certifying the robustness of ReLU neural networks against adversarial input perturbations. To diminish the relaxation error suffered by the popular linear programming (LP) and semidefinite programming (SDP) certification methods, we take a branch-and-bound approach to propose partitioning the input uncertainty set and solving the relaxations on each part separately. We show that this approach reduces relaxation error, and that the error is eliminated entirely upon performing an LP relaxation with a partition intelligently designed to exploit the nature of the ReLU activations. To scale this approach to large networks, we consider using a coarser partition whereby the number of parts in the partition is reduced. We prove that computing such a coarse partition that directly minimizes the LP relaxation error is NP-hard. By instead minimizing the worst-case LP relaxation error, we develop a closed-form branching scheme in the single-hidden layer case. We extend the analysis to the SDP, where the feasible set geometry is exploited to design a branching scheme that minimizes the worst-case SDP relaxation error. Experiments on MNIST, CIFAR-10, and Wisconsin breast cancer diagnosis classifiers demonstrate significant increases in the percentages of test samples certified. By independently increasing the input size and the number of layers, we empirically illustrate under which regimes the branched LP and branched SDP are best applied. Finally, we extend our LP branching method into a multi-layer branching heuristic, which attains comparable performance to prior state-of-the-art heuristics on large-scale, deep neural network certification benchmarks.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# 簡易な生成ネットワーク

A Simple Generative Network ( http://arxiv.org/abs/2106.09330v6 )

ライセンス: Link先を確認
Daniel N. Nissani, (参考訳) 生成ニューラルネットワークは、手書きテキストや自然画像などの複雑な確率分布を模倣することができる。 当初からいくつかのモデルが提案されていた。 それらの中で最も成功したのは、敵対的(GAN)、自動エンコーディング(VAE)、および比較的複雑なアーキテクチャとスキームに基づく最大平均不一致(MMD)であった。 驚くべきことに、非常に単純なアーキテクチャ(単一フィードフォワードニューラルネットワーク)と明確な最適化目標(Kullback_Leiblerの発散)が明らかに見落とされた。 本稿では,従来の最先端手法と比較して,このようなモデル(SGNと略記)が視覚的,定量的に競合できることを示す。

Generative neural networks are able to mimic intricate probability distributions such as those of handwritten text, natural images, etc. Since their inception several models were proposed. The most successful of these were based on adversarial (GAN), auto-encoding (VAE) and maximum mean discrepancy (MMD) relatively complex architectures and schemes. Surprisingly, a very simple architecture (a single feed-forward neural network) in conjunction with an obvious optimization goal (Kullback_Leibler divergence) was apparently overlooked. This paper demonstrates that such a model (denoted SGN for its simplicity) is able to generate samples visually and quantitatively competitive as compared with the fore-mentioned state of the art methods.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# ES-GNN:エッジ分割によるホモフィリーを越えたグラフニューラルネットワークの一般化

ES-GNN: Generalizing Graph Neural Networks Beyond Homophily with Edge Splitting ( http://arxiv.org/abs/2205.13700v5 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Rui Zhang, Xinping Yi, (参考訳) グラフニューラルネットワーク(GNN)は、複数のグラフ解析タスクにおいて大きな成功を収めてきたが、現代の変種は、主にホモフィリーの強い帰納バイアスに依存している。 しかし、現実世界のネットワークは通常、ホモ親和性およびヘテロ親和性リンクパターンの両方を示しており、隣接ノードは異種属性と異なるラベルを共有することができる。 したがって、ノード近接を均等に平滑化するGNNは、タスク関連情報と非有害な情報の両方を集約し、ヘテロ親和性グラフに一般化する能力を制限し、非破壊性を引き起こす可能性がある。 本研究では,学習タスクに関係のないグラフエッジを適応的に識別する新しいエッジ分割GNN(ES-GNN)フレームワークを提案する。 これは本質的に、元のグラフを同じノードセットを持つ2つの部分グラフに変換するが、相補的なエッジセットは動的である。 これを踏まえ、これらのサブグラフとエッジ分割を別々に行うことで、タスク関連・無関係な特徴を解消する。 理論的には、我々のES-GNNは、そのモチベーションをさらに具現化し、ホモフィリーを超えて改良された一般化を解釈する非交叉グラフデノナイジング問題の解とみなすことができる。 11のベンチマークと1の合成データセットに対する大規模な実験は、ES-GNNの効果的な性能を示すだけでなく、逆グラフに対する頑健さと過度に滑らかな問題の緩和を強調している。

While Graph Neural Networks (GNNs) have achieved enormous success in multiple graph analytical tasks, modern variants mostly rely on the strong inductive bias of homophily. However, real-world networks typically exhibit both homophilic and heterophilic linking patterns, wherein adjacent nodes may share dissimilar attributes and distinct labels. Therefore, GNNs smoothing node proximity holistically may aggregate both task-relevant and irrelevant (even harmful) information, limiting their ability to generalize to heterophilic graphs and potentially causing non-robustness. In this work, we propose a novel Edge Splitting GNN (ES-GNN) framework to adaptively distinguish between graph edges either relevant or irrelevant to learning tasks. This essentially transfers the original graph into two subgraphs with the same node set but complementary edge sets dynamically. Given that, information propagation separately on these subgraphs and edge splitting are alternatively conducted, thus disentangling the task-relevant and irrelevant features. Theoretically, we show that our ES-GNN can be regarded as a solution to a disentangled graph denoising problem, which further illustrates our motivations and interprets the improved generalization beyond homophily. Extensive experiments over 11 benchmark and 1 synthetic datasets not only demonstrate the effective performance of ES-GNN but also highlight its robustness to adversarial graphs and mitigation of the over-smoothing problem.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-17
# PreVENT: 運用におけるソフトウェア障害を予測するための教師なしのアプローチ

PREVENT: An Unsupervised Approach to Predict Software Failures in Production ( http://arxiv.org/abs/2208.11939v2 )

ライセンス: Link先を確認
Giovanni Denaro, Rahim Heydarov, Ali Mohebbi, Mauro Pezzè, (参考訳) 本稿では、教師なし手法を組み合わせることで、分散エンタープライズアプリケーションにおける障害の予測とローカライズのためのアプローチであるPrevENTを提案する。 ソフトウェア障害は生産において劇的な結果をもたらす可能性があるため、失敗の破壊的な結果を制限するヒーリング対策を活性化するための重要なステップは、失敗を予測し、局所化することです。 最先端では、ドメインの専門家や教師付き学習モデルが提供するルールに関して、システムメトリクスの異常な組み合わせから多くの障害を予測することができる。 しかし、どちらの手法も現行の手法の有効性を限定しており、事前定義されたルールでキャプチャしたり、監督されたモデルをトリニングしながら観察できるような、よく理解されたタイプの障害に制限する。 PreVENTは、教師なしアプローチの中核となる要素を、事前に定義されたルールや観察された障害によるトレーニングを必要とせずに、障害を予測し、失敗するリソースをローカライズするための新しいアプローチに統合する。 PreVENTを商用に準拠した分散クラウドシステムで実験した結果、PreVENTはより安定的で信頼性の高い予測を提供することを示している。

This paper presents PREVENT, an approach for predicting and localizing failures in distributed enterprise applications by combining unsupervised techniques. Software failures can have dramatic consequences in production, and thus predicting and localizing failures is the essential step to activate healing measures that limit the disruptive consequences of failures. At the state of the art, many failures can be predicted from anomalous combinations of system metrics with respect to either rules provided from domain experts or supervised learning models. However, both these approaches limit the effectiveness of current techniques to well understood types of failures that can be either captured with predefined rules or observed while trining supervised models. PREVENT integrates the core ingredients of unsupervised approaches into a novel approach to predict failures and localize failing resources, without either requiring predefined rules or training with observed failures. The results of experimenting with PREVENT on a commercially-compliant distributed cloud system indicate that PREVENT provides more stable and reliable predictions, earlier than or comparably to supervised learning approaches, without requiring long and often impractical training with failures.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# 機械学習に関する調査

A Survey of Machine Unlearning ( http://arxiv.org/abs/2209.02299v6 )

ライセンス: Link先を確認
Thanh Tam Nguyen, Thanh Trung Huynh, Zhao Ren, Phi Le Nguyen, Alan Wee-Chung Liew, Hongzhi Yin, Quoc Viet Hung Nguyen, (参考訳) 現在、コンピュータシステムは大量の個人情報を保有している。 しかし、このような大量のデータが人工知能、特に機械学習(ML)の突破口となる一方で、その存在はユーザーのプライバシーに対する脅威となり、人間とAIの信頼関係を弱める可能性がある。 最近の規制では、要求に応じて、ユーザの個人情報をコンピュータシステムとMLモデルの両方から削除する必要がある。 バックエンドデータベースからデータを削除することは簡単であるべきだが、AIコンテキストでは十分ではない。 訓練されたモデルに対する現代の敵対攻撃は、インスタンスや属性がトレーニングデータに属するかどうかを学習できることを証明している。 この現象は、機械学習モデルを特定のデータを忘れるようにするための新しいパラダイム、すなわち機械学習を求めている。 機械学習に関する最近の研究は、共通のフレームワークやリソースが欠如しているため、この問題を完全に解決できなかったことが判明した。 そこで本研究では,機械学習の概念,シナリオ,手法,応用の総合的な検討をめざす。 具体的には、最先端研究のカテゴリコレクションとして、機械学習とその定式化、設計基準、削除要求、アルゴリズム、アプリケーションの導入を求める研究者や実践者のための総合的なリソースとして機能することを目的としている。 さらに,機械学習をまだ利用していないが,そのメリットを大いに享受できるような,重要な発見や現在の傾向,新たな研究領域の紹介も目指している。 この調査が、ML研究者やプライバシー技術の革新を目指す人々にとって、貴重なリソースになることを願っています。 リソースはhttps://github.com/tamlhp/awesome-machine-unlearning.comで公開されています。

Today, computer systems hold large amounts of personal data. Yet while such an abundance of data allows breakthroughs in artificial intelligence, and especially machine learning (ML), its existence can be a threat to user privacy, and it can weaken the bonds of trust between humans and AI. Recent regulations now require that, on request, private information about a user must be removed from both computer systems and from ML models, i.e. ``the right to be forgotten''). While removing data from back-end databases should be straightforward, it is not sufficient in the AI context as ML models often `remember' the old data. Contemporary adversarial attacks on trained models have proven that we can learn whether an instance or an attribute belonged to the training data. This phenomenon calls for a new paradigm, namely machine unlearning, to make ML models forget about particular data. It turns out that recent works on machine unlearning have not been able to completely solve the problem due to the lack of common frameworks and resources. Therefore, this paper aspires to present a comprehensive examination of machine unlearning's concepts, scenarios, methods, and applications. Specifically, as a category collection of cutting-edge studies, the intention behind this article is to serve as a comprehensive resource for researchers and practitioners seeking an introduction to machine unlearning and its formulations, design criteria, removal requests, algorithms, and applications. In addition, we aim to highlight the key findings, current trends, and new research areas that have not yet featured the use of machine unlearning but could benefit greatly from it. We hope this survey serves as a valuable resource for ML researchers and those seeking to innovate privacy technologies. Our resources are publicly available at https://github.com/tamlhp/awesome-machine-unlearning.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# マルチモーダル変分オートエンコーダのベンチマーク: CdSprites+データセットとツールキット

Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit ( http://arxiv.org/abs/2209.03048v3 )

ライセンス: Link先を確認
Gabriela Sejnova, Michal Vavrecka, Karla Stepanova, Tadahiro Taniguchi, (参考訳) マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを結合表現に統合し、データ分類と生成の両方のための有望なツールとして機能できるため、過去数年間で激しい研究の対象となっている。 マルチモーダルなVAE学習へのいくつかのアプローチが提案されているが、その比較と評価は相容れない。 1つの理由は、モデルが実装レベルで異なるためであり、もう1つの問題は、これらのケースで一般的に使用されるデータセットが、当初マルチモーダル生成モデルを評価するために設計されていなかったことである。 本論文は、どちらの問題にも対処する。 まず,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。 ツールキットは現在、4つの既存のマルチモーダルVAEと6つの一般的なベンチマークデータセットと、新しいモデルやデータセットを簡単に追加する方法の指示で構成されている。 第2に,複数の難易度をまたいだ共同生成とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。 実装された最先端モデルを比較することで,データセットの有用性を実証する。

Multimodal Variational Autoencoders (VAEs) have been the subject of intense research in the past years as they can integrate multiple modalities into a joint representation and can thus serve as a promising tool for both data classification and generation. Several approaches toward multimodal VAE learning have been proposed so far, their comparison and evaluation have however been rather inconsistent. One reason is that the models differ at the implementation level, another problem is that the datasets commonly used in these cases were not initially designed to evaluate multimodal generative models. This paper addresses both mentioned issues. First, we propose a toolkit for systematic multimodal VAE training and comparison. The toolkit currently comprises 4 existing multimodal VAEs and 6 commonly used benchmark datasets along with instructions on how to easily add a new model or a dataset. Second, we present a disentangled bimodal dataset designed to comprehensively evaluate the joint generation and cross-generation capabilities across multiple difficulty levels. We demonstrate the utility of our dataset by comparing the implemented state-of-the-art models.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# リサイクルストラップ:中間チェックポイントの活用による私的学習の改善

Recycling Scraps: Improving Private Learning by Leveraging Intermediate Checkpoints ( http://arxiv.org/abs/2210.01864v2 )

ライセンス: Link先を確認
Virat Shejwalkar, Arun Ganesh, Rajiv Mathews, Yarong Mu, Shuang Song, Om Thakkar, Abhradeep Thakurta, Xinyi Zheng, (参考訳) 本研究では,最先端の差分型プライベート機械学習(DP ML)手法における精度分散トレードオフの改善に焦点をあてる。 まず,DP ML手法の精度を高めるために,中間チェックポイント<emph{during training} の集約を利用する汎用フレームワークを設計する。 具体的には,StackOverflow,CIFAR10,CIFAR100データセットの既存の最先端データに対して,集約によるトレーニングによって予測精度が大幅に向上できることを実証する。 例えば、最先端のDP StackOverflowの精度を、$\epsilon=8.2$で22.74\%(+2.06\%)、$\epsilon=18.9$で23.90\%(+2.09\%)に改善します。 さらに、これらのゲインは、定期的に異なるトレーニングデータ分布を持つ設定で増大する。 また,本手法は,プロプライエタリで生産段階のpCVRタスクにおいて,実用性および分散性の観点から相対的に 0.54 % と 62.6 % の向上を実現することを実証した。 最後に,DP MLモデルの予測においてDPノイズが付加する不確実性(ばらつき)を推定する調査を開始する。 損失関数の標準的な仮定の下で、最後の数個のチェックポイントからのサンプル分散がDPランの最終モデルの分散を適切に近似することを示した。 経験的に、最後の数個のチェックポイントは、収束DPモデルの分散に対して合理的な下限を与えることができることを示す。 本論文では,DP ML手法のemph{a single training run}を運用しているため,追加のプライバシコストは発生しない。

In this work, we focus on improving the accuracy-variance trade-off for state-of-the-art differentially private machine learning (DP ML) methods. First, we design a general framework that uses aggregates of intermediate checkpoints \emph{during training} to increase the accuracy of DP ML techniques. Specifically, we demonstrate that training over aggregates can provide significant gains in prediction accuracy over the existing state-of-the-art for StackOverflow, CIFAR10 and CIFAR100 datasets. For instance, we improve the state-of-the-art DP StackOverflow accuracies to 22.74\% (+2.06\% relative) for $\epsilon=8.2$, and 23.90\% (+2.09\%) for $\epsilon=18.9$. Furthermore, these gains magnify in settings with periodically varying training data distributions. We also demonstrate that our methods achieve relative improvements of 0.54\% and 62.6\% in terms of utility and variance, on a proprietary, production-grade pCVR task. Lastly, we initiate an exploration into estimating the uncertainty (variance) that DP noise adds in the predictions of DP ML models. We prove that, under standard assumptions on the loss function, the sample variance from last few checkpoints provides a good approximation of the variance of the final model of a DP run. Empirically, we show that the last few checkpoints can provide a reasonable lower bound for the variance of a converged DP model. Crucially, all the methods proposed in this paper operate on \emph{a single training run} of the DP ML technique, thus incurring no additional privacy cost.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# ランゲヴィンに基づく非凸サンプリングの動的システムビュー

A Dynamical System View of Langevin-Based Non-Convex Sampling ( http://arxiv.org/abs/2210.13867v3 )

ライセンス: Link先を確認
Mohammad Reza Karimi, Ya-Ping Hsieh, Andreas Krause, (参考訳) 非凸サンプリングは、機械学習における重要な課題であり、ディープラーニングにおける非凸最適化の中心であり、確率的推論を近似する。 その重要性にもかかわらず、理論上は重要な課題がいくつか残っている: 既存の保証 (1) は典型的にはより望ましい最終イテレートよりも平均イテレートのみを保ち、(2) ワッサーシュタイン距離のような変数のスケールを捉える収束測度が欠如し、(3) は主に確率勾配ランゲヴィン力学のような基本的なスキームに適用される。 本稿では,力学系の理論からいくつかのツールを活用することで,上記の問題を解消する新しい枠組みを開発する。 我々の重要な結果は、最先端のサンプリングスキームの大規模なクラスにおいて、ワッサーシュタイン距離における最終点収束は、よりよく理解された連続時間収束の研究に還元できるということである。 MCMCサンプリングの標準的な仮定と相まって、我々の理論はすぐに、近位、ランダム化中点、およびルンゲ・クッタ積分器のような多くの先進的なサンプリングスキームの最終段階のワッサーシュタイン収束をもたらす。 既存の手法以外にも、我々のフレームワークは、同じ厳格な保証を享受するより効率的なスキームを動機付けています。

Non-convex sampling is a key challenge in machine learning, central to non-convex optimization in deep learning as well as to approximate probabilistic inference. Despite its significance, theoretically there remain many important challenges: Existing guarantees (1) typically only hold for the averaged iterates rather than the more desirable last iterates, (2) lack convergence metrics that capture the scales of the variables such as Wasserstein distances, and (3) mainly apply to elementary schemes such as stochastic gradient Langevin dynamics. In this paper, we develop a new framework that lifts the above issues by harnessing several tools from the theory of dynamical systems. Our key result is that, for a large class of state-of-the-art sampling schemes, their last-iterate convergence in Wasserstein distances can be reduced to the study of their continuous-time counterparts, which is much better understood. Coupled with standard assumptions of MCMC sampling, our theory immediately yields the last-iterate Wasserstein convergence of many advanced sampling schemes such as proximal, randomized mid-point, and Runge-Kutta integrators. Beyond existing methods, our framework also motivates more efficient schemes that enjoy the same rigorous guarantees.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# ピアツーピアフェデレーション学習におけるバックドアアタック

Backdoor Attacks in Peer-to-Peer Federated Learning ( http://arxiv.org/abs/2301.09732v4 )

ライセンス: Link先を確認
Georgios Syros, Gokberk Yar, Simona Boboila, Cristina Nita-Rotaru, Alina Oprea, (参考訳) ほとんどの機械学習アプリケーションは、集中的な学習プロセスに依存しており、トレーニングデータセットが露出するリスクを開放する。 フェデレーション学習(FL)は、これらのプライバシーリスクをある程度軽減するが、共有グローバルモデルのトレーニングには信頼できる集約サーバに依存している。 近年,ピアツーピアフェデレートラーニング(P2PFL)に基づく分散学習アーキテクチャが,プライバシと信頼性の両面で優位性を提供している。 それでも、訓練中の毒殺に対する耐性は調査されていない。 本稿では,P2PFLに対する新たなバックドア攻撃を提案する。 複数のグラフトポロジ、ネットワークの限られた対角視認性、非IIDデータを持つクライアントなど、様々な現実的な条件下で攻撃を評価した。 最後に、FLから適応した既存の防御の限界を示し、モデル精度に影響を与えることなく、バックドア攻撃を軽減できる新しい防御を設計する。

Most machine learning applications rely on centralized learning processes, opening up the risk of exposure of their training datasets. While federated learning (FL) mitigates to some extent these privacy risks, it relies on a trusted aggregation server for training a shared global model. Recently, new distributed learning architectures based on Peer-to-Peer Federated Learning (P2PFL) offer advantages in terms of both privacy and reliability. Still, their resilience to poisoning attacks during training has not been investigated. In this paper, we propose new backdoor attacks for P2PFL that leverage structural graph properties to select the malicious nodes, and achieve high attack success, while remaining stealthy. We evaluate our attacks under various realistic conditions, including multiple graph topologies, limited adversarial visibility of the network, and clients with non-IID data. Finally, we show the limitations of existing defenses adapted from FL and design a new defense that successfully mitigates the backdoor attacks, without an impact on model accuracy.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# 量子因果モデルにおける因果関係のセマンティクス

A Semantics for Counterfactuals in Quantum Causal Models ( http://arxiv.org/abs/2302.11783v2 )

ライセンス: Link先を確認
Ardra Kooderi Suresh, Markus Frembs, Eric G. Cavalcanti, (参考訳) 本稿では、量子因果モデルの枠組みにおける反ファクトクエリの評価のためのフォーマリズムを導入し、古典因果モデルにおける反ファクトクエリのパールの意味論を一般化し、パールの「因果のラダー」の量子アナログにおける最後のラングを完遂する。 そこで本論文では, パールの「古典的構造因果モデル」の概念の適切な拡張を, 「量子構造因果モデル」と類似して定義し, 吸引, 作用, 予測の3段階の手順の対応する拡張を定義する。 古典的(確率的)構造因果モデルはすべて、量子構造因果モデルに拡張可能であることを示し、古典的構造因果モデル内で定式化できる反事実的クエリが、量子拡張において対応するクエリと一致することを証明するが、後者はより表現力が高い。 量子因果モデルにおけるカウンターファクトは、アクションステップで介入が行われるかどうかによって、アクティブとパッシブのカウンターファクトのクエリを区別する。 これは古典的な場合とは対照的であり、反事実は常に活発な意味で解釈される。 我々の形式主義のもう一つの特徴は、古典的な場合に存在する因果依存と反事実依存の関連を断ち切ることである: 量子反事実は因果依存を伴わずに反事実依存を許容する。 この古典的因果モデルと量子的因果モデルとの区別は、相対論的因果構造に忠実でありながらベルの不等式に反する量子相関をいかに再現できるかに光を当てる可能性がある。

We introduce a formalism for the evaluation of counterfactual queries in the framework of quantum causal models, generalising Pearl's semantics for counterfactuals in classical causal models, thus completing the last rung in the quantum analogue of Pearl's "ladder of causation". To this end, we define a suitable extension of Pearl's notion of a 'classical structural causal model', which we denote analogously by 'quantum structural causal model', and a corresponding extension of Pearl's three-step procedure of abduction, action, and prediction. We show that every classical (probabilistic) structural causal model can be extended to a quantum structural causal model, and prove that counterfactual queries that can be formulated within a classical structural causal model agree with their corresponding queries in the quantum extension -- but the latter is more expressive. Counterfactuals in quantum causal models come in different forms: we distinguish between active and passive counterfactual queries, depending on whether or not an intervention is to be performed in the action step. This is in contrast to the classical case, where counterfactuals are always interpreted in the active sense. Another distinctive feature of our formalism is that it breaks the connection between causal and counterfactual dependence that exists in the classical case: quantum counterfactuals allow for counterfactual dependence without causal dependence. This distinction between classical and quantum causal models may shed light on how the latter can reproduce quantum correlations that violate Bell inequalities while being faithful to the relativistic causal structure.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# 収縮確率近似の濃度:加算音と乗算音

Concentration of Contractive Stochastic Approximation: Additive and Multiplicative Noise ( http://arxiv.org/abs/2303.15740v2 )

ライセンス: Link先を確認
Zaiwei Chen, Siva Theja Maguluri, Martin Zubeldia, (参考訳) 本稿では,任意のノルム(例えば$\ell_\infty$-norm)に関して,確率近似(SA)アルゴリズムによって生成される反復集合に対する最大濃度境界を確立する。 本稿では,有界乗法雑音を持つ SA と準ガウス加法雑音を持つ SA の2つの条件について考察する。 我々の最大濃度不等式は、収束誤差が加法雑音設定における準ガウス尾と乗法雑音設定におけるワイブルテール(多項式減衰よりも速いが指数減衰より遅い)を有することを示している。 さらに,乗法雑音下でのサブ指数尾を持つことは一般的に不可能であることを示す。 最大濃度境界を確立するために、収束誤差の一般化モローエンベロープの修正版におけるモーモローのモーメント生成関数の有界化と、ヴィルの最大不等式を有効活用するための指数スーパーマーチンゲールの構築を含む、新しいブートストラップ引数を開発する。 線形SAと強化学習の文脈における理論的結果の適用性を示す。

In this paper, we establish maximal concentration bounds for the iterates generated by a stochastic approximation (SA) algorithm under a contractive operator with respect to some arbitrary norm (for example, the $\ell_\infty$-norm). We consider two settings where the iterates are potentially unbounded: SA with bounded multiplicative noise and SA with sub-Gaussian additive noise. Our maximal concentration inequalities state that the convergence error has a sub-Gaussian tail in the additive noise setting and a Weibull tail (which is faster than polynomial decay but could be slower than exponential decay) in the multiplicative noise setting. In addition, we provide an impossibility result showing that it is generally impossible to have sub-exponential tails under multiplicative noise. To establish the maximal concentration bounds, we develop a novel bootstrapping argument that involves bounding the moment-generating function of a modified version of the generalized Moreau envelope of the convergence error and constructing an exponential supermartingale to enable using Ville's maximal inequality. We demonstrate the applicability of our theoretical results in the context of linear SA and reinforcement learning.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# MED-VT++:マルチスケールエンコーダデコーダビデオ変換器によるマルチモーダル学習の統合

MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer ( http://arxiv.org/abs/2304.05930v3 )

ライセンス: Link先を確認
Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam, (参考訳) 本稿では,ビデオ中の高密度予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。 提示されたMED-VT(Multiscale Encoder-Decoder Video Transformer)は、マルチスケール表現を用いており、利用可能であればビデオ以外の入力(例えば音声)をマルチモーダル処理(MED-VT++)に使用する。 エンコーダとデコーダの両方でのマルチスケール表現は、3つの大きな利点をもたらす。 一 入力光の流れに依存しないダイナミックスを捉えるため、異なる抽象レベルで時空間的特徴を暗黙的に抽出すること。 (二)符号化時の時間的整合性及び整合性 三 復号時の正確な位置決めを導くために、高レベルな(例えば、オブジェクト)セマンティクスの粗大な検出を行う。 さらに、時間的に一貫したビデオ予測を提供するため、多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。 我々は,MED-VT/MED-VT++を3つの非モーダルビデオセグメンテーションタスク(AVOS),アクターアクションセグメンテーション,ビデオセマンティックセグメンテーション(VSS)),マルチモーダルセグメンテーションタスク(AVS)で紹介する。 その結果,提案アーキテクチャは,光学的フローに依存することなく,ビデオ(および任意のオーディオ)のみを入力として,複数のベンチマークに対する代替的最先端手法よりも優れていた。 最後に、モデルの内部的学習表現の詳細を文書化するために、定量的および定性的な分析の両方を含む詳細な解釈可能性の研究を示す。

In this paper, we present an end-to-end trainable unified multiscale encoder-decoder transformer that is focused on dense prediction tasks in video. The presented Multiscale Encoder-Decoder Video Transformer (MED-VT) uses multiscale representation throughout and employs an optional input beyond video (e.g., audio), when available, for multimodal processing (MED-VT++). Multiscale representation at both encoder and decoder yields three key benefits: (i) implicit extraction of spatiotemporal features at different levels of abstraction for capturing dynamics without reliance on input optical flow, (ii) temporal consistency at encoding and (iii) coarse-to-fine detection for high-level (e.g., object) semantics to guide precise localization at decoding. Moreover, we present a transductive learning scheme through many-to-many label propagation to provide temporally consistent video predictions. We showcase MED-VT/MED-VT++ on three unimodal video segmentation tasks (Automatic Video Object Segmentation (AVOS), actor-action segmentation and Video Semantic Segmentation (VSS)) as well as a multimodal segmentation task (Audio-Visual Segmentation (AVS)). Results show that the proposed architecture outperforms alternative state-of-the-art approaches on multiple benchmarks using only video (and optional audio) as input, without reliance on optical flow. Finally, to document details of the model's internal learned representations, we present a detailed interpretability study, encompassing both quantitative and qualitative analyses.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# 猫量子ビットを用いた量子近似最適化アルゴリズム

Quantum Approximate Optimization Algorithm with Cat Qubits ( http://arxiv.org/abs/2305.05556v2 )

ライセンス: Link先を確認
Pontus Vikstål, Laura García-Álvarez, Shruti Puri, Giulia Ferrini, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子回路の浅い組み合わせ最適化問題に対する近似解を提供するように設計されている。 本稿では,猫量子ビットを用いたQAOA実装について,逆振幅のコヒーレントな状態を用いて検討する。 支配的なノイズ機構、すなわち光子損失は、この符号化でZ$バイアスノイズをもたらす。 我々は特にKerr共振器による実装を考える。 我々はKerr非線形共振器に作用する必要ゲート列をシミュレートし、QAOAと猫量子ビットを用いたMaxCut問題の解法を数値シミュレーションし、単一光子損失の存在下で理想的な2レベルシステムで符号化された標準量子ビットの場合と比較する。 その結果,猫の量子ビットを用いたQAOAの実行は,2レベルシステムに符号化された量子ビットに対して,MaxCutのランダムなインスタンスに対する近似比を増大させることがわかった。

The Quantum Approximate Optimization Algorithm (QAOA) -- one of the leading algorithms for applications on intermediate-scale quantum processors -- is designed to provide approximate solutions to combinatorial optimization problems with shallow quantum circuits. Here, we study QAOA implementations with cat qubits, using coherent states with opposite amplitudes. The dominant noise mechanism, i.e., photon losses, results in $Z$-biased noise with this encoding. We consider in particular an implementation with Kerr resonators. We numerically simulate solving MaxCut problems using QAOA with cat qubits by simulating the required gates sequence acting on the Kerr non-linear resonators, and compare to the case of standard qubits, encoded in ideal two-level systems, in the presence of single-photon loss. Our results show that running QAOA with cat qubits increases the approximation ratio for random instances of MaxCut with respect to qubits encoded into two-level systems.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# Sparkles:マルチモーダルインストラクション追従モデルのための複数のイメージにまたがるチャットのアンロック

Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models ( http://arxiv.org/abs/2308.16463v3 )

ライセンス: Link先を確認
Yupan Huang, Zaiqiao Meng, Fangyu Liu, Yixuan Su, Nigel Collier, Yutong Lu, (参考訳) 大規模言語モデルは、命令追従データで微調整された場合、様々なタスクにおいてゼロショット性能が向上する。 マルチモーダル命令追従モデルは、テキストと画像を統合することでこれらの機能を拡張する。 しかし、MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおいて対話コヒーレンスを維持する上で困難に直面している。 主な理由は、このクリティカルなアプリケーションに特別なデータセットがないことである。 これらのギャップを埋めるために、私たちは、単語レベルのインターリーブされたマルチイメージとテキストインタラクションに適した、最初の機械生成対話データセットであるSparklesDialogueを紹介します。 さらに,複数の画像と対話方向をまたいだモデルの会話能力を定量的に評価するためのGPT支援ベンチマークであるSparklesEvalを構築した。 次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。 実験では,MiniGPT-4とLLaVA-v1.5に基づくSparklesChatとSparklesDialogueを併用したSparklesChatのトレーニングの有効性を検証した。 質的な評価は、現実世界のアプリケーションの処理におけるSparklesChatの一般化をさらに証明している。 この研究に関連するすべてのリソースはhttps://github.com/HYPJUDY/Sparkles.comで公開されている。

Large language models exhibit enhanced zero-shot performance on various tasks when fine-tuned with instruction-following data. Multimodal instruction-following models extend these capabilities by integrating both text and images. However, existing models such as MiniGPT-4 and LLaVA face challenges in maintaining dialogue coherence in scenarios involving multiple images. A primary reason is the lack of a specialized dataset for this critical application. To bridge these gaps, we introduce SparklesDialogue, the first machine-generated dialogue dataset tailored for word-level interleaved multi-image and text interactions. Furthermore, we construct SparklesEval, a GPT-assisted benchmark for quantitatively assessing a model's conversational competence across multiple images and dialogue turns. We then present SparklesChat, a multimodal instruction-following model for open-ended dialogues across multiple images. Our experiments validate the effectiveness of training SparklesChat with SparklesDialogue based on MiniGPT-4 and LLaVA-v1.5, which enhances comprehension across multiple images and dialogue turns, and does not compromise single-image understanding capabilities. Qualitative evaluations further demonstrate SparklesChat's generality in handling real-world applications. All resources related to this study are publicly available at https://github.com/HYPJUDY/Sparkles.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-17
# 自己説明による学習

Learning by Self-Explaining ( http://arxiv.org/abs/2309.08395v3 )

ライセンス: Link先を確認
Wolfgang Stammer, Felix Friedrich, David Steinmann, Manuel Brack, Hikaru Shindo, Kristian Kersting, (参考訳) 説明可能なAI研究の多くは、モデル検査の手段として説明を扱う。 しかし、これはエージェントの学習過程における自己説明の利点を記述する人間の心理学からの発見を無視する。 そこで我々は,自己説明による学習(LSX)と呼ばれる画像分類の文脈において,新たなワークフローを導入する。 LSXは、自己修復型AIと人間誘導型説明機械学習の側面を利用する。 基礎となる考え方は、学習者が本来の予測タスクを最適化することに加えて、内部批判モデルからの説明的フィードバックに基づいてさらに最適化されることである。 直感的には、学習者の説明は、内部批判者がこれらの説明から同じタスクを遂行できるならば「有用」と見なされる。 本稿では,LSX の重要な構成要素について概説し,これに基づいて3つの異なる例のインスタンス化による広範囲な実験的評価を行う。 この結果から,モデル一般化の観点からの自己説明による学習による改善,共起要因の影響の低減,タスク関連および忠実なモデル説明の提供,などが示唆された。 全体として、我々の研究はAIモデルの学習段階における自己説明の可能性を示す証拠を提供する。

Much of explainable AI research treats explanations as a means for model inspection. Yet, this neglects findings from human psychology that describe the benefit of self-explanations in an agent's learning process. Motivated by this, we introduce a novel workflow in the context of image classification, termed Learning by Self-Explaining (LSX). LSX utilizes aspects of self-refining AI and human-guided explanatory machine learning. The underlying idea is that a learner model, in addition to optimizing for the original predictive task, is further optimized based on explanatory feedback from an internal critic model. Intuitively, a learner's explanations are considered "useful" if the internal critic can perform the same task given these explanations. We provide an overview of important components of LSX and, based on this, perform extensive experimental evaluations via three different example instantiations. Our results indicate improvements via Learning by Self-Explaining on several levels: in terms of model generalization, reducing the influence of confounding factors, and providing more task-relevant and faithful model explanations. Overall, our work provides evidence for the potential of self-explaining within the learning phase of an AI model.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# ビジョンベースコントローラのシステムレベル異常の検出と緩和

Detecting and Mitigating System-Level Anomalies of Vision-Based Controllers ( http://arxiv.org/abs/2309.13475v4 )

ライセンス: Link先を確認
Aryaman Gupta, Kaustav Chakraborty, Somil Bansal, (参考訳) 自動運転車やドローンのような自律システムは、近年、意思決定と制御に視覚入力と機械学習を活用することで大きな進歩を遂げている。 目を見張る性能にもかかわらず、これらの視覚ベースのコントローラーは、新規またはアウト・オブ・ディストリビューションの入力に直面したとき、誤った予測を行うことができる。 このようなエラーは、壊滅的なシステム障害を発生させ、システムの安全性を損なう可能性がある。 本研究では,そのような閉ループ,システムレベルの障害を検知・緩和する実行時異常モニタを提案する。 具体的には、リーチビリティベースのフレームワークを活用して、視覚ベースのコントローラをオフラインでテストし、システムレベルの障害をマイニングします。 このデータは、オンラインで活用される分類器をトレーニングするために使用され、入力にフラグを付け、システムの故障を引き起こす可能性がある。 異常検知器は、個々のモジュールを超越し、システム全体の安全性に関わる問題を強調する。 また、検知された異常を確実に処理し、システムの安全性を維持するフォールバックコントローラを設計する。 本提案手法は, 視覚に基づくタクシー制御システムを用いた自律型航空機タクシーシステムにおいて, 提案手法の有効性を検証したものである。 提案手法は,システムレベルの異常を識別・処理し,予測誤差に基づく検出やアンサンブルなどの性能を向上し,自律システム全体の安全性とロバスト性を向上する。

Autonomous systems, such as self-driving cars and drones, have made significant strides in recent years by leveraging visual inputs and machine learning for decision-making and control. Despite their impressive performance, these vision-based controllers can make erroneous predictions when faced with novel or out-of-distribution inputs. Such errors can cascade to catastrophic system failures and compromise system safety. In this work, we introduce a run-time anomaly monitor to detect and mitigate such closed-loop, system-level failures. Specifically, we leverage a reachability-based framework to stress-test the vision-based controller offline and mine its system-level failures. This data is then used to train a classifier that is leveraged online to flag inputs that might cause system breakdowns. The anomaly detector highlights issues that transcend individual modules and pertain to the safety of the overall system. We also design a fallback controller that robustly handles these detected anomalies to preserve system safety. We validate the proposed approach on an autonomous aircraft taxiing system that uses a vision-based controller for taxiing. Our results show the efficacy of the proposed approach in identifying and handling system-level anomalies, outperforming methods such as prediction error-based detection, and ensembling, thereby enhancing the overall safety and robustness of autonomous systems.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation ( http://arxiv.org/abs/2310.03986v5 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif, (参考訳) マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用することを目指している。 データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対して、マルチモーダルシステムを堅牢にすることが望ましい。 しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。 モダリティの欠如に対するロバスト性を実現するために,事前学習型マルチモーダルネットワークに対する単純かつパラメータ効率の良い適応手法を提案する。 特に、欠落したモダリティを補うために中間特徴の変調を利用する。 このような適応は、モダリティの欠如による性能低下を部分的に橋渡しし、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークよりも優れていることを示す。 提案手法の適応には極めて少数のパラメータ(例えば全パラメータの1%未満)が必要であり、幅広いモダリティの組み合わせやタスクに適用できる。 7つのデータセットにまたがる5つの異なるマルチモーダルタスクにおいて、提案手法の欠如したモダリティロバスト性を明らかにするために、一連の実験を行った。 提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose a simple and parameter-efficient adaptation procedure for pretrained multimodal networks. In particular, we exploit modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 1% of the total parameters) and applicable to a wide range of modality combinations and tasks. We conduct a series of experiments to highlight the missing modality robustness of our proposed method on five different multimodal tasks across seven datasets. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# Watt For What: Rethinking Deep Learning's Energy-Performance Relationship

Watt For What: Rethinking Deep Learning's Energy-Performance Relationship ( http://arxiv.org/abs/2310.06522v2 )

ライセンス: Link先を確認
Shreyank N Gowda, Xinyue Hao, Gen Li, Shashank Narayana Gowda, Xiaobo Jin, Laura Sevilla-Lara, (参考訳) ディープラーニングモデルは、画像認識から自然言語処理に至るまで、前例のないレベルの精度を達成することによって、様々な分野に革命をもたらした。 しかし、そのエネルギー消費の増加は、環境への影響を懸念し、研究において小さな実体を弱体化させ、世界のエネルギー消費を悪化させている。 本稿では,モデル精度と電力消費のトレードオフを考察し,大容量の電力消費をペナルティ化する指標を提案する。 我々は、様々なGPUにわたる様々なディープラーニングモデルの消費電力に関する総合的な研究を行い、それらの精度と効率のトレードオフを詳細に分析した。 電力消費単位当たりの精度を評価することにより, 環境負荷を軽減しつつ, より小型でエネルギー効率の高いモデルが研究を著しく高速化できることを示す。 我々の結果は、より持続可能なディープラーニングアプローチの可能性を強調し、効率性のためにモデルを最適化することの重要性を強調した。 この研究は、小さなエンティティがより大きなエンティティと効果的に競合できる、より公平な研究ランドスケープにも貢献する。 これは、電力消費を減らすための効率的なディープラーニングの実践の導入を提唱し、将来の世代のための環境の保護と、より公正な競争環境の確保を支援している。

Deep learning models have revolutionized various fields, from image recognition to natural language processing, by achieving unprecedented levels of accuracy. However, their increasing energy consumption has raised concerns about their environmental impact, disadvantaging smaller entities in research and exacerbating global energy consumption. In this paper, we explore the trade-off between model accuracy and electricity consumption, proposing a metric that penalizes large consumption of electricity. We conduct a comprehensive study on the electricity consumption of various deep learning models across different GPUs, presenting a detailed analysis of their accuracy-efficiency trade-offs. By evaluating accuracy per unit of electricity consumed, we demonstrate how smaller, more energy-efficient models can significantly expedite research while mitigating environmental concerns. Our results highlight the potential for a more sustainable approach to deep learning, emphasizing the importance of optimizing models for efficiency. This research also contributes to a more equitable research landscape, where smaller entities can compete effectively with larger counterparts. This advocates for the adoption of efficient deep learning practices to reduce electricity consumption, safeguarding the environment for future generations whilst also helping ensure a fairer competitive landscape.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# 大規模言語モデルは人格の異文化間差異を再現できる

Large language models can replicate cross-cultural differences in personality ( http://arxiv.org/abs/2310.10679v2 )

ライセンス: Link先を確認
Paweł Niszczota, Mateusz Janczak, Michał Misiak, (参考訳) 我々は大規模な実験(N=8000)を用いて、GPT-4がビッグファイブの異文化間差異を再現できるかどうかをテンアイテムパーソナリティ・インベントリで測定した。 米国と韓国を文化の対として用いたのは、この2カ国の人々の人格差がかなり大きいことが、以前の研究で示唆されていたからです。 シミュレーションの対象(米国対韓国)、在庫の言語(英対韓国)、言語モデル(GPT-4対GPT-3.5)を操作した。 以上の結果から, GPT-4は各因子の異文化間差異を再現した。 しかし, 平均評価は上向きバイアスがあり, 人体試料よりも低変動を示し, 構造的妥当性も低かった。 LLMが異文化研究者や実践者に役立つという予備的証拠を提供する。

We use a large-scale experiment (N=8000) to determine whether GPT-4 can replicate cross-cultural differences in the Big Five, measured using the Ten-Item Personality Inventory. We used the US and South Korea as the cultural pair, given that prior research suggests substantial personality differences between people from these two countries. We manipulated the target of the simulation (US vs. Korean), the language of the inventory (English vs. Korean), and the language model (GPT-4 vs. GPT-3.5). Our results show that GPT-4 replicated the cross-cultural differences for each factor. However, mean ratings had an upward bias and exhibited lower variation than in the human samples, as well as lower structural validity. We provide preliminary evidence that LLMs can aid cross-cultural researchers and practitioners.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# 散逸的リウィリア動力学によるキラルベル状態移動

Chiral Bell-state transfer via dissipative Liouvillian dynamics ( http://arxiv.org/abs/2310.11381v2 )

ライセンス: Link先を確認
Shishir Khandelwal, Weijian Chen, Kater W. Murch, Géraldine Haack, (参考訳) 例外点近傍の閉ループに沿ったキラル状態移動は、非エルミート物理学における多くの反直観的な観測の1つである。 この性質の量子物理学における証明の超越した応用は、オープンな問題である。 本研究では,完全量子Liouvillian動力学による一重項と三重項ベル状態のカイラル状態変換を実証する。 重要なことに、この性質は、分離可能な状態からのベル状態のキラル生成に利用でき、高い忠実度と幅広いパラメータに対して有効であることを示す。 さらに、ポストセレクションによる量子ジャンプの除去は、当初分離可能な状態からベル状態にほぼ完璧な結果をもたらすことを示した。 本研究は, 量子情報処理におけるキラル状態伝達の最初の応用を示し, 発散工学を用いて絡み合った状態を制御する新しい方法を示す。

Chiral state transfer along closed loops in the vicinity of an exceptional point is one of the many counter-intuitive observations in non-Hermitian physics. The application of this property beyond proof-of-principle in quantum physics, is an open question. In this work, we demonstrate chiral state conversion between singlet and triplet Bell states through fully-quantum Liouvillian dynamics. Crucially, we demonstrate that this property can be used for the chiral production of Bell states from separable states with a high fidelity and for a large range of parameters. Additionally, we show that the removal of quantum jumps from the dynamics through postselection can result in near-perfect Bell states from initially separable states. Our work presents the first application of chiral state transfer in quantum information processing and demonstrates a novel way to control entangled states by means of dissipation engineering.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# TivNe-SLAM:時変ニューラルラジアンス場による動的マッピングと追跡

TivNe-SLAM: Dynamic Mapping and Tracking via Time-Varying Neural Radiance Fields ( http://arxiv.org/abs/2310.18917v6 )

ライセンス: Link先を確認
Chengyao Duan, Zhiliu Yang, (参考訳) 従来のNeural Radiance Fields(NeRF)をSLAMフレームワークに統合する試みは、静的シーンの仮定に依存するか、地上の真理カメラのポーズを必要とする。 本稿では,動的シーンの追跡と再構成を行うための時間変化表現を提案する。 まず、トラッキングプロセスとマッピングプロセスという2つのプロセスが、我々のフレームワークで同時に維持されます。 トラッキングプロセスでは、全ての入力画像が一様にサンプリングされ、その後、自己監督パラダイムで漸進的に訓練される。 マッピングでは,動体マスクを利用して静的な背景から動的物体を識別し,動的領域からより多くのピクセルをサンプリングする。 第二に、両プロセスのパラメータ最適化は、第1段階が時間と3D位置を関連付けて変形場を標準場に変換する2段階からなる。 第2のステージは、標準フィールドの埋め込みと時間を関連付け、色と符号付き距離関数(SDF)を得る。 最後に、重なり合う速度に基づく新しいキーフレーム選択戦略を提案する。 提案手法は,2つの合成データセットと1つの実世界のデータセットを用いて評価し,既存のNeRFベースの動的SLAMシステムと比較して,トラッキングとマッピングの両面で競合する結果が得られることを示した。

Previous attempts to integrate Neural Radiance Fields (NeRF) into the Simultaneous Localization and Mapping (SLAM) framework either rely on the assumption of static scenes or require the ground truth camera poses, which impedes their application in real-world scenarios. This paper proposes a time-varying representation to track and reconstruct the dynamic scenes. Firstly, two processes, a tracking process and a mapping process, are maintained simultaneously in our framework. In the tracking process, all input images are uniformly sampled and then progressively trained in a self-supervised paradigm. In the mapping process, we leverage motion masks to distinguish dynamic objects from the static background, and sample more pixels from dynamic areas. Secondly, the parameter optimization for both processes is comprised of two stages: the first stage associates time with 3D positions to convert the deformation field to the canonical field. The second stage associates time with the embeddings of the canonical field to obtain colors and a Signed Distance Function (SDF). Lastly, we propose a novel keyframe selection strategy based on the overlapping rate. Our approach is evaluated on two synthetic datasets and one real-world dataset, and the experiments validate that our method achieves competitive results in both tracking and mapping when compared to existing state-of-the-art NeRF-based dynamic SLAM systems.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# 情報資源としてのテンソル

The Tensor as an Informational Resource ( http://arxiv.org/abs/2311.02190v2 )

ライセンス: Link先を確認
Matthias Christandl, (参考訳) テンソル(英: tensor)は、データの保存、計算関係のエンコード、量子絡み合いの表現に使用できる数列である。 この意味でテンソルは、変換によってデータ、計算複雑性、量子情報の構造の理解につながる貴重な資源と見なすことができる。 このリソースの理解を容易にするために,テンソル上の情報理論的に構築された事前順序の族を提案し,テンソルを互いに比較し,それらの間の変換の存在を評価する。 この構成は、与えられたテンソルのコピーをハイパーグラフの端に配置し、頂点での変換を可能にする。 事前順序は、与えられた成長するハイパーグラフの列で可能な変換によって誘導される。 新しいプレオーダーの族は、行列乗算の計算複雑性を研究するためにストラッセンが定義した漸近的制限のプレオーダーを一般化する。 我々は、プレオーダーとそのテンソル階数に関する漸近的概念の一般的性質を導出し、この統一フレームにおけるテンソル階数非付加性、テンソルネットワークおよび代数的複雑性に関する最近の結果を見る。 この研究は、応用数学、物理学、計算機科学におけるテンソルの探索に有用であり、純粋に数学的な観点からも役立つことを願っている。

A tensor is a multidimensional array of numbers that can be used to store data, encode a computational relation and represent quantum entanglement. In this sense a tensor can be viewed as valuable resource whose transformation can lead to an understanding of structure in data, computational complexity and quantum information. In order to facilitate the understanding of this resource, we propose a family of information-theoretically constructed preorders on tensors, which can be used to compare tensors with each other and to assess the existence of transformations between them. The construction places copies of a given tensor at the edges of a hypergraph and allows transformations at the vertices. A preorder is then induced by the transformations possible in a given growing sequence of hypergraphs. The new family of preorders generalises the asymptotic restriction preorder which Strassen defined in order to study the computational complexity of matrix multiplication. We derive general properties of the preorders and their associated asymptotic notions of tensor rank and view recent results on tensor rank non-additivity, tensor networks and algebraic complexity in this unifying frame. We hope that this work will provide a useful vantage point for exploring tensors in applied mathematics, physics and computer science, but also from a purely mathematical point of view.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# センサス・マイクロデータの信頼誘導型再構築におけるプライバシ・脅威の検討

An Examination of the Alleged Privacy Threats of Confidence-Ranked Reconstruction of Census Microdata ( http://arxiv.org/abs/2311.03171v2 )

ライセンス: Link先を確認
David Sánchez, Najeeb Jebreel, Krishnamurty Muralidhar, Josep Domingo-Ferrer, Alberto Blanco-Justicia, (参考訳) 再建攻撃の脅威により、米国国勢調査局(USCB)は、2020年の国勢調査で、従来の統計開示制限を、差分プライバシー(DP)に基づくものと置き換えることで置き換え、公表された統計の精度を著しく低下させた。 しかし、多くの異なる再構成が公表された統計と互換性がある場合、そのほとんどは実際の原データに対応せず、応答性の再同定から保護されていると論じられている。 近年,復元された記録が元のデータにあるという自信を取り入れた新たな攻撃が提案されている。 こうした信頼度の高い再建によって引き起こされる情報開示のリスクは、UDBがDPベースのソリューションを使用することへの関心を再び高めた。 今後のリリースにおいて,潜在的な精度損失を抑えるため,提案手法は再建方法として有効でなく,著者が主張する情報開示にも有効ではないことを示す。 具体的には,提案するランキングが再識別や属性開示攻撃を導くことができないことを示す実証的な結果を報告する。

The threat of reconstruction attacks has led the U.S. Census Bureau (USCB) to replace in the Decennial Census 2020 the traditional statistical disclosure limitation based on rank swapping with one based on differential privacy (DP), leading to substantial accuracy loss of released statistics. Yet, it has been argued that, if many different reconstructions are compatible with the released statistics, most of them do not correspond to actual original data, which protects against respondent reidentification. Recently, a new attack has been proposed, which incorporates the confidence that a reconstructed record was in the original data. The alleged risk of disclosure entailed by such confidence-ranked reconstruction has renewed the interest of the USCB to use DP-based solutions. To forestall a potential accuracy loss in future releases, we show that the proposed reconstruction is neither effective as a reconstruction method nor conducive to disclosure as claimed by its authors. Specifically, we report empirical results showing the proposed ranking cannot guide reidentification or attribute disclosure attacks, and hence fails to warrant the utility sacrifice entailed by the use of DP to release census statistical data.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# 閾値シグナチャの包括的調査:NIST標準、量子後暗号、エキゾチック技術、実世界の応用

A Comprehensive Survey of Threshold Signatures: NIST Standards, Post-Quantum Cryptography, Exotic Techniques, and Real-World Applications ( http://arxiv.org/abs/2311.05514v2 )

ライセンス: Link先を確認
Kiarash Sedghighadikolaei, Attila Altay Yavuz, (参考訳) Thresholdデジタルシグネチャは、署名機能の分散実行を可能にし、新興の分散型次世代ネットワークシステムやアプリケーションのセキュリティにおいて重要な役割を果たす。 本稿では,高度な特徴を持つ閾値と分散シグネチャを包括的かつ体系的に調査する。 本調査では、従来および後量子暗号(PQC)設定におけるしきい値シグネチャを包含し、カスタム設計および標準シグネチャ(例えば、従来のNISTおよびNIST-PQC)をキャプチャする。 我々は,エキゾチックなシグネチャ,実生活応用,将来的な研究方向性について検討しながら,多数のシグネチャファミリに対する汎用的(セキュアなマルチパーティ計算)およびカスタムしきい値設定手法について検討する。

Threshold digital signatures enable a distributed execution of signature functionalities and will play a crucial role in the security of emerging decentralized next-generation networked systems and applications. In this paper, we provide a comprehensive and systematic survey of threshold and distributed signatures with advanced features. Our survey encompasses threshold signatures in conventional and post-quantum cryptography (PQC) settings and captures custom-design and standard signatures (e.g., conventional NIST and NIST-PQC). We examine both generic (via secure multi-party computation) and custom thresholding techniques for a myriad of signature families while investigating exotic signatures, real-life applications, and potential future research direction.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# アルゴリズム指向の量子ビットマッピングによるディジタイズされた反断熱量子最適化の性能向上

Improving the Performance of Digitized Counterdiabatic Quantum Optimization via Algorithm-Oriented Qubit Mapping ( http://arxiv.org/abs/2311.14624v3 )

ライセンス: Link先を確認
Yanjun Ji, Kathrin F. Koenig, Ilia Polian, (参考訳) 本稿では, ゲート列, アルゴリズムパラメータ, キュービットマッピングの共最適化により, ディジタル化された反断熱量子最適化アルゴリズムの性能を向上する戦略を提案する。 短期量子デバイスに関する実証は、アルゴリズムとハードウェアの両方の利点を利用して、これらの戦略の有効性を検証する。 提案手法は,QiskitとTketと比較して,CXゲート数と回路深さを28.8%,回路深さを33.4%減らしながら,誤差緩和を伴わない平均4.49$\times$と84.8%の誤差緩和率で近似比を増大させる。 これらの発見は、量子ビットマッピングとアルゴリズムパラメータの最適化に適したアルゴリズム実装のコードサインに関する貴重な洞察を提供する。

This paper presents strategies to improve the performance of digitized counterdiabatic quantum optimization algorithms by cooptimizing gate sequences, algorithm parameters, and qubit mapping. Demonstrations on near-term quantum devices validate the effectiveness of these strategies, leveraging both algorithmic and hardware advantages. Our approach increases the approximation ratio by an average of 4.49$\times$ without error mitigation and 84.8% with error mitigation, while reducing CX gate count and circuit depth by 28.8% and 33.4%, respectively, compared to Qiskit and Tket. These findings provide valuable insights into the codesign of algorithm implementation, tailored to optimize qubit mapping and algorithm parameters, with broader implications for enhancing algorithm performance on near-term quantum devices.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# 分散量子コンピューティングにおけるテレポーテーションコスト最小化のための進化的アルゴリズムの適用

Applying an Evolutionary Algorithm to Minimize Teleportation Costs in Distributed Quantum Computing ( http://arxiv.org/abs/2311.18529v2 )

ライセンス: Link先を確認
Leo Sünkel, Manik Dawar, Thomas Gabor, (参考訳) 古典的および量子チャネルを介して複数の量子コンピュータ(QC)を接続することにより、量子通信ネットワークを形成することができる。 これにより、ブラインド量子コンピューティング、分散量子コンピューティング、量子鍵分布などの新しい応用がもたらされる。 分散量子コンピューティングでは、QCは集合的に量子計算を行う。 各デバイスは、完全回路よりも少ないキュービットのサブ回路のみを実行するため、単一のQCが単独では解けない大きな量子回路を実行するために、多数の小さなQCを使用することができる。 しかし、QC間の通信はまだ起こる可能性がある。 回路の接続性によっては、キュービットはネットワーク内の異なるQCにテレポートされ、実際の計算にオーバーヘッドを加える必要がある。 本稿では,この問題に対する進化的アルゴリズムを提案する。 より具体的には、このアルゴリズムは、全体のテレポーテーションコストが最小となるように、回路の各時間ステップ毎に、ネットワーク内のQCにキュービットを割り当てる。 さらに、ネットワーク内の各QCの容量などのネットワーク固有の制約を考慮することができる。 ランダム回路およびベンチマーク回路の実験を行い、分散量子コンピューティング用のコンパイラと同様に、より現実的なネットワーク設定に組み込むためにこの手法をどのように調整するかの概要を述べる。 この結果から,グラフ分割法と比較すると,進化的アルゴリズムはより優れた結果をもたらすと同時に,様々な問題固有の制約を容易に統合し,考慮することが容易であることがわかった。

By connecting multiple quantum computers (QCs) through classical and quantum channels, a quantum communication network can be formed. This gives rise to new applications such as blind quantum computing, distributed quantum computing, and quantum key distribution. In distributed quantum computing, QCs collectively perform a quantum computation. As each device only executes a sub-circuit with fewer qubits than required by the complete circuit, a number of small QCs can be used in combination to execute a large quantum circuit that a single QC could not solve on its own. However, communication between QCs may still occur. Depending on the connectivity of the circuit, qubits must be teleported to different QCs in the network, adding overhead to the actual computation; thus, it is crucial to minimize the number of teleportations. In this paper, we propose an evolutionary algorithm for this problem. More specifically, the algorithm assigns qubits to QCs in the network for each time step of the circuit such that the overall teleportation cost is minimized. Moreover, network-specific constraints such as the capacity of each QC in the network can be taken into account. We run experiments on random as well as benchmarking circuits and give an outline on how this method can be adjusted to be incorporated into more realistic network settings as well as in compilers for distributed quantum computing. Our results show that an evolutionary algorithm is well suited for this problem when compared to the graph partitioning approach as it delivers better results while simultaneously allows the easy integration and consideration of various problem-specific constraints.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# リスク対応政策最適化のためのモデルに基づく評価値の変動

Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization ( http://arxiv.org/abs/2312.04386v3 )

ライセンス: Link先を確認
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters, (参考訳) モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。 特に,マルコフ決定過程(MDP)上の分布によって引き起こされる値の分散を特徴付けることに着目する。 従来の作業は、いわゆる不確実ベルマン方程式(UBE)を解くことによって、値よりも後方の分散を上限とするが、過剰近似は非効率な探索をもたらす可能性がある。 提案手法は,値の真後分散に収束し,表層探査問題における後悔度を低下させる新しいUBEを提案する。 本稿では,UBE理論を表計算問題を超えて適用するための課題を特定し,適切な近似法を提案する。 この近似に基づいて,Q-Uncertainty Soft Actor-Critic (QU-SAC) という汎用ポリシー最適化アルゴリズムを導入する。 オンラインRLとオフラインRLの両方の実験では、他の不確実性推定法と比較して性能が向上した。

We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over Markov decision processes (MDPs). Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation (UBE), but the over-approximation may result in inefficient exploration. We propose a new UBE whose solution converges to the true posterior variance over values and leads to lower regret in tabular exploration problems. We identify challenges to apply the UBE theory beyond tabular problems and propose a suitable approximation. Based on this approximation, we introduce a general-purpose policy optimization algorithm, Q-Uncertainty Soft Actor-Critic (QU-SAC), that can be applied for either risk-seeking or risk-averse policy optimization with minimal changes. Experiments in both online and offline RL demonstrate improved performance compared to other uncertainty estimation methods.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-17
# GenQ: 生成合成データを用いた低データレジームの量子化

GenQ: Quantization in Low Data Regimes with Generative Synthetic Data ( http://arxiv.org/abs/2312.05272v3 )

ライセンス: Link先を確認
Yuhang Li, Youngeun Kim, Donghyun Lee, Souvik Kundu, Priyadarshini Panda, (参考訳) ディープニューラルネットワークの展開の領域では、低ビット量子化は計算効率を向上させるための有望な道を示す。 しかし、量子化エラーを軽減するためのトレーニングデータの可用性は、プライバシや著作権上の懸念から、データの可用性が不足したり制限されたりする場合に、大きな課題となることが多い。 これに対処するために、我々は、高度な生成AIモデルを用いてフォトリアリスティックで高解像度の合成データを生成する新しいアプローチであるGenQを紹介し、ImageNetのような広範囲なデータセットで複雑なオブジェクトを正確に模倣するのに苦労する従来の手法の限界を克服する。 本手法は,2つの頑健なフィルタリング機構により,合成データが実際の学習データの本質的特性と密に一致することを保証する。 データの可用性が制限された場合、実際のデータは合成データ生成プロセスのガイドに使用され、学習可能なトークン埋め込みの反転によって忠実性を高める。 厳密な実験を通じて、GenQはデータフリーおよびデータスカース量子化の新しいベンチマークを確立し、既存の手法を精度と効率で大幅に上回っている。 コードは \url{https://github.com/Intelligent-Computing-Lab-Yale/GenQ} で公開されている。

In the realm of deep neural network deployment, low-bit quantization presents a promising avenue for enhancing computational efficiency. However, it often hinges on the availability of training data to mitigate quantization errors, a significant challenge when data availability is scarce or restricted due to privacy or copyright concerns. Addressing this, we introduce GenQ, a novel approach employing an advanced Generative AI model to generate photorealistic, high-resolution synthetic data, overcoming the limitations of traditional methods that struggle to accurately mimic complex objects in extensive datasets like ImageNet. Our methodology is underscored by two robust filtering mechanisms designed to ensure the synthetic data closely aligns with the intrinsic characteristics of the actual training data. In case of limited data availability, the actual data is used to guide the synthetic data generation process, enhancing fidelity through the inversion of learnable token embeddings. Through rigorous experimentation, GenQ establishes new benchmarks in data-free and data-scarce quantization, significantly outperforming existing methods in accuracy and efficiency, thereby setting a new standard for quantization in low data regimes. Code is released at \url{https://github.com/Intelligent-Computing-Lab-Yale/GenQ}.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# 高次ショートカット規則によるモデル整合性復元

Advanced Model Consistency Restoration with Higher-Order Short-Cut Rules ( http://arxiv.org/abs/2312.09828v4 )

ライセンス: Link先を確認
Lars Fritsche, Jens Kosiol, Alexander Lauer, Adrian Möller, Andy Schürr, (参考訳) 逐次モデル同期は、あるモデルから別のモデルへの変化を伝達し、一貫性を回復するタスクである。 不要な削除(情報損失を引き起こす可能性がある)を避けるため、この伝播を最小限の変更方法で実行することは困難である。 理論的な観点からは、情報損失を回避しつつ変化の伝播を確実に補正するいわゆるショートカット(SC)ルールが開発されている。 しかし、可能なすべての変化に反応できるためには、そのような規則の無限の集合が必要であるかもしれない。 実際には、事前計算された基本的なSCルールの小さなセットのみが使われており、情報を失うことなく伝達できる変更の種類を厳しく制限している。 本研究は、同期中に必要となるSCルールをオンザフライで計算するアプローチを開発することで、そのギャップを埋めるものである。 これらの高階のSCルールは、複数の変更を1ステップで処理しなければならない場合に、より複雑なシナリオに対処することができます。 モデル変換ツールeMoflonにアプローチを実装しました。 評価により、高次SCルールのオンザフライでの計算のオーバーヘッドは許容可能であり、時には全体的な性能も向上することが示された。 その上、情報を失うことなく、まったく新しいシナリオを扱うことができます。

Sequential model synchronisation is the task of propagating changes from one model to another correlated one to restore consistency. It is challenging to perform this propagation in a least-changing way that avoids unnecessary deletions (which might cause information loss). From a theoretical point of view, so-called short-cut (SC) rules have been developed that enable provably correct propagation of changes while avoiding information loss. However, to be able to react to every possible change, an infinite set of such rules might be necessary. Practically, only small sets of pre-computed basic SC rules have been used, severely restricting the kind of changes that can be propagated without loss of information. In this work, we close that gap by developing an approach to compute more complex required SC rules on-the-fly during synchronisation. These higher-order SC rules allow us to cope with more complex scenarios when multiple changes must be handled in one step. We implemented our approach in the model transformation tool eMoflon. An evaluation shows that the overhead of computing higher-order SC rules on-the-fly is tolerable and at times even improves the overall performance. Above that, completely new scenarios can be dealt with without the loss of information.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# MonoCoder: HPCコードとタスクのためのドメイン特化コード言語モデル

MonoCoder: Domain-Specific Code Language Model for HPC Codes and Tasks ( http://arxiv.org/abs/2312.13322v2 )

ライセンス: Link先を確認
Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Mihai Capota, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, Gal Oren, (参考訳) 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIは、さまざまなプログラミングタスクに対処する大規模な言語モデル(LLM)を開発する傾向が強まっている。 ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズであり、トレーニングに高価な計算リソースを必要とする。 これは、HPCタスク用のLLMが、いくつかの自然および/またはプログラミング言語をサポートする既存のLLMを微調整することによって得られるためである。 HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされたLLMが必要なのでしょうか? 本研究は,特定のドメインに対してより小さな言語モデル(LM)を開発することで,既存のLLMの選択肢を問うことを目的としている。 具体的には、HPCをドメインとして使い、MonoCoderという名のHPC固有のLMを構築します。 具体的には、GitHubから採掘されたCとC++プログラムのHPC固有のデータセット(HPCorpusという名前)でMonoCoderを事前トレーニングしました。 最先端の多言語LLMに対するMonoCoderの性能評価を行った。 結果として、MonoCoderは既存のLMよりもはるかに小さいが、通常のパープレキシティテスト(モデルサイズに関連して)では他のLLMよりも優れており、高性能で並列なコード生成のために競合するCodeBLEUスコアを提供している。 言い換えれば、MonoCoderは最先端のLLMよりもHPCコードをよく理解している。

With easier access to powerful compute resources, there is a growing trend in AI for software development to develop large language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size and demand expensive compute resources for training. This is partly because LLMs for HPC tasks are obtained by finetuning existing LLMs that support several natural and/or programming languages. We found this design choice confusing - why do we need LLMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question choices made by existing LLMs by developing smaller language models (LMs) for specific domains - we call them domain-specific LMs. Specifically, we start with HPC as a domain and build an HPC-specific LM, named MonoCoder, which is orders of magnitude smaller than existing LMs but delivers better performance on non-HPC and HPC codes. Specifically, we pre-trained MonoCoder on an HPC-specific dataset (named HPCorpus) of C and C++ programs mined from GitHub. We evaluated the performance of MonoCoder against state-of-the-art multi-lingual LLMs. Results demonstrate that MonoCoder, although much smaller than existing LMs, outperforms other LLMs on normalized-perplexity tests (in relation to model size) while also delivering competing CodeBLEU scores for high-performance and parallel code generations. In other words, results suggest that MonoCoder understands HPC code better than state-of-the-art LLMs.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# 再構成可能なリアルタイム回路を用いた簡易対角設計

Simple Diagonal Designs with Reconfigurable Real-Time Circuits ( http://arxiv.org/abs/2401.04176v2 )

ライセンス: Link先を確認
Yizhi Shen, Katherine Klymko, Eran Rabani, Norm M. Tubman, Daan Camps, Roel Van Beeumen, Michael Lindsey, (参考訳) ユニタリ設計は量子計算で広く用いられているが、多くの実践的な環境では、ユニタリゲートが対角的に生成した対角状態の設計を構築するのに十分である。 本研究では,実時間進化に基づく簡便かつ効率的な対角的状態設計を提案する。 我々の構造は、ランダム位相状態の確率的準備を含む古典的ジラード・ハッチンソントレース推定器にインスパイアされている。 正確なジラール・ハッチンソン状態は量子コンピュータ上では容易には実装できないが、ジラール・ハッチンソン状態の統計モーメントとリアルタイム進化とを一致させる状態を構築することができる。 重要なことは、我々のランダム状態はすべて、進化の期間における確率的変動からのみ生じるランダム性によって、リアルタイム進化のために同じハミルトン的を使って生成されることである。 この意味で、回路は完全に再構成可能であり、デジタルプラットフォームとアナログプラットフォームの両方での短期的な実現に適している。

Unitary designs are widely used in quantum computation, but in many practical settings it suffices to construct a diagonal state design generated with unitary gates diagonal in the computational basis. In this work, we introduce a simple and efficient diagonal state design based on real-time evolutions. Our construction is inspired by the classical Girard-Hutchinson trace estimator in that it involves the stochastic preparation of random-phase states. Although the exact Girard-Hutchinson states are not tractably implementable on a quantum computer, we can construct states that match the statistical moments of the Girard-Hutchinson states with real-time evolution. Importantly, our random states are all generated using the same Hamiltonians for real-time evolution, with the randomness arising solely from stochastic variations in the durations of the evolutions. In this sense, the circuit is fully reconfigurable and thus suited for near-term realizations on both digital and analog platforms.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# 問題となる情報:アルゴリズムによる決定に影響を及ぼす人々の情報ニーズを探る

Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions ( http://arxiv.org/abs/2401.13324v5 )

ライセンス: Link先を確認
Timothée Schmude, Laura Koesten, Torsten Möller, Sebastian Tschiatschek, (参考訳) 人に関する意思決定を行うすべてのAIシステムは、これらの決定に個人的に影響を受ける利害関係者のグループを持っています。 しかし、AIシステムの説明は、しばしばAI初心者であるこの利害関係者グループの情報ニーズにほとんど対処しない。 これにより、伝達された情報と、ドメインの専門家や意思決定の主題など、システムの決定に影響された人々にとって重要な情報の間にギャップが生じます。 そこで本研究では,AI初心者からの情報ニーズのカタログを含むXAI質問銀行を,雇用予測と健康モニタリングの2つのユースケースで拡張した「XAI質問銀行」について紹介する。 このカタログは、データ、システムコンテキスト、システム利用、システム仕様のカテゴリをカバーしている。 参加者は2つのAIシステムについて質問を行い、その採用を判断し、それに応じて口頭で説明を受けた。 分析の結果、参加者は説明を受けた後に自信が増すが、理解が課題に直面していることが判明した。 これには、情報を見つけることや、自身の理解を評価することの難しさや、理解をアウトソースしようとする試みが含まれていた。 さらに、システムのリスクとメリットに対する参加者の事前の認識は、彼らの情報ニーズに影響を与えました。 リスクが高いと感じた参加者は、システムのデプロイメントの背後にある意図についての説明を求めたが、リスクが少ないと感じた参加者はむしろシステムの運用について質問した。 我々の研究は、情報ニーズ、目標、課題を強調することによって、説明可能性へのAI初心者の関与を支援することを目的としています。 本研究は,本研究の成果を,主観者に対する今後の説明設計に影響を及ぼす5つの重要な意味をまとめたものである。

Every AI system that makes decisions about people has a group of stakeholders that are personally affected by these decisions. However, explanations of AI systems rarely address the information needs of this stakeholder group, who often are AI novices. This creates a gap between conveyed information and information that matters to those who are impacted by the system's decisions, such as domain experts and decision subjects. To address this, we present the "XAI Novice Question Bank," an extension of the XAI Question Bank containing a catalog of information needs from AI novices in two use cases: employment prediction and health monitoring. The catalog covers the categories of data, system context, system usage, and system specifications. We gathered information needs through task-based interviews where participants asked questions about two AI systems to decide on their adoption and received verbal explanations in response. Our analysis showed that participants' confidence increased after receiving explanations but that their understanding faced challenges. These included difficulties in locating information and in assessing their own understanding, as well as attempts to outsource understanding. Additionally, participants' prior perceptions of the systems' risks and benefits influenced their information needs. Participants who perceived high risks sought explanations about the intentions behind a system's deployment, while those who perceived low risks rather asked about the system's operation. Our work aims to support the inclusion of AI novices in explainability efforts by highlighting their information needs, aims, and challenges. We summarize our findings as five key implications that can inform the design of future explanations for lay stakeholder audiences.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# SEDNet:脳腫瘍分離のための浅層エンコーダデコーダネットワーク

SEDNet: Shallow Encoder-Decoder Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2401.13403v3 )

ライセンス: Link先を確認
Chollette C. Olisah, Sofie V. Cauter, (参考訳) いくつかのモデルが開発されている脳腫瘍セグメンテーションに対する計算モデリングの進歩にもかかわらず、既存のモデルの計算複雑性から、臨床応用シナリオにおける性能と効率が制限されていることは明らかである。 そこで本研究では腫瘍分節の枠組みを提案する。 それは、脳腫瘍セグメンテーションのための新しい浅いエンコーダとSEDNetと呼ばれるデコーダネットワークを含んでいる。 SEDNetのハイライトは、階層的畳み込みダウンサンプリングにおける十分性や、コスト効率が高く効果的な脳腫瘍セマンティックセグメンテーションのための選択的スキップ機構などである。 プリプロセッサと最適化関数のアプローチは、腫瘍の境界不規則性に加えて、対応する脳スライスとアドレスクラス不均衡を持つ非腫瘍スライスまたは空マスクによって影響を受ける特徴学習の不確実性を最小限に抑えるために考案された。 実験により,SEDNetは,非エンハンシング腫瘍コア (NTC), 縦隔浮腫 (ED), 造影腫瘍 (ET) に対して0.9308 %, 0.9451 %, 0.9026 %, 0.7040 mm, 1.2866 mm, 0.7762 mm の有意な評価を得た。 これはNTCでセグメンテーション性能を報告した数少ない作品の1つである。 さらに、SEDNetXと呼ばれる初期化SEDNet事前学習重みによる転送学習により、性能向上が観測された。 ダイスとハウスドルフのスコアはそれぞれ0.9336%、0.9478%、0.9061%、0.6983mm、1.2691mm、0.7711mmである。 SEDNet(X)は、約130万のパラメータと、最先端のSEDNet(X)と比較すると、リアルタイム臨床診断において計算的に効率的であることが示されている。 コードはGithubで入手できる。

Despite the advancement in computational modeling towards brain tumor segmentation, of which several models have been developed, it is evident from the computational complexity of existing models that performance and efficiency under clinical application scenarios are still limited. Therefore, this paper proposes a tumor segmentation framework. It includes a novel shallow encoder and decoder network named SEDNet for brain tumor segmentation. The highlights of SEDNet include sufficiency in hierarchical convolutional downsampling and selective skip mechanism for cost-efficient and effective brain tumor semantic segmentation, among other features. The preprocessor and optimization function approaches are devised to minimize the uncertainty in feature learning impacted by nontumor slices or empty masks with corresponding brain slices and address class imbalances as well as boundary irregularities of tumors, respectively. Through experiments, SEDNet achieved impressive dice and Hausdorff scores of 0.9308 %, 0.9451 %, and 0.9026 %, and 0.7040 mm, 1.2866 mm, and 0.7762 mm for the non-enhancing tumor core (NTC), peritumoral edema (ED), and enhancing tumor (ET), respectively. This is one of the few works to report segmentation performance on NTC. Furthermore, through transfer learning with initialized SEDNet pre-trained weights, termed SEDNetX, a performance increase is observed. The dice and Hausdorff scores recorded are 0.9336%, 0.9478%, 0.9061%, 0.6983 mm, 1.2691 mm, and 0.7711 mm for NTC, ED, and ET, respectively. With about 1.3 million parameters and impressive performance in comparison to the state-of-the-art, SEDNet(X) is shown to be computationally efficient for real-time clinical diagnosis. The code is available on Github .
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# 大規模言語モデルのためのゴール指向プロンプトエンジニアリングに向けて:調査

Towards Goal-oriented Prompt Engineering for Large Language Models: A Survey ( http://arxiv.org/abs/2401.14043v3 )

ライセンス: Link先を確認
Haochen Li, Jonathan Leung, Zhiqi Shen, (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な性能を示し、LLMのパフォーマンスを最適化する上で、エンジニアリングが重要な役割を果たす。 本稿は, 現状のプロンプト工学手法の概観としてだけではなく, LLMが人間のように考えることを期待する人為的仮定に基づいて, 設計プロンプトの限界を強調することを目的としている。 本稿では, LLM が確立された論理的思考に従うための目標指向のプロンプト定式化によって, LLM の性能が著しく向上することが実証された。 さらに,目標指向の促進手法を5つの相互接続段階に分類する新たな分類法を導入し,フレームワークの広範な適用性を実証する。 今後の4つの方向性の提案により、すべての分野において、ゴール指向のプロンプトエンジニアリングのパワーとポテンシャルをさらに強調したいと思っています。

Large Language Models (LLMs) have shown prominent performance in various downstream tasks and prompt engineering plays a pivotal role in optimizing LLMs' performance. This paper, not only as an overview of current prompt engineering methods, but also aims to highlight the limitation of designing prompts based on an anthropomorphic assumption that expects LLMs to think like humans. From our review of 50 representative studies, we demonstrate that a goal-oriented prompt formulation, which guides LLMs to follow established human logical thinking, significantly improves the performance of LLMs. Furthermore, We introduce a novel taxonomy that categorizes goal-oriented prompting methods into five interconnected stages and we demonstrate the broad applicability of our framework. With four future directions proposed, we hope to further emphasize the power and potential of goal-oriented prompt engineering in all fields.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# リー群上のニューラルネットワークによるSE(3)上の最適電位整形

Optimal Potential Shaping on SE(3) via Neural ODEs on Lie Groups ( http://arxiv.org/abs/2401.15107v2 )

ライセンス: Link先を確認
Yannik P. Wotte, Federico Califano, Stefano Stramigioli, (参考訳) この研究は、有限次元リー群上の力学系の最適化に対する新しいアプローチを示す。 我々は、力学系をいわゆるニューラル常微分方程式 (neural ODEs) と表現し、リー群上の最適化問題を定式化する。 数値的に最適化に取り組むために勾配降下最適化アルゴリズムを提案する。 我々のアルゴリズムはスケーラブルであり、行列リー群を含む任意の有限次元リー群に適用できる。 リー代数レベルでシステムを表現することにより、勾配計算の計算コストを削減できる。 広範な例では、剛体制御のための最適電位エネルギー整形が扱われる。 最適制御問題は、リー群SE(3)上のニューラルODEの最適化として表現され、コントローラは反復的に最適化される。 最終コントローラは状態規制タスクで検証される。

This work presents a novel approach for the optimization of dynamic systems on finite-dimensional Lie groups. We rephrase dynamic systems as so-called neural ordinary differential equations (neural ODEs), and formulate the optimization problem on Lie groups. A gradient descent optimization algorithm is presented to tackle the optimization numerically. Our algorithm is scalable, and applicable to any finite dimensional Lie group, including matrix Lie groups. By representing the system at the Lie algebra level, we reduce the computational cost of the gradient computation. In an extensive example, optimal potential energy shaping for control of a rigid body is treated. The optimal control problem is phrased as an optimization of a neural ODE on the Lie group SE(3), and the controller is iteratively optimized. The final controller is validated on a state-regulation task.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# LYT-NET:低照度画像強調のための軽量YUVトランスを用いたネットワーク

LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement ( http://arxiv.org/abs/2401.15204v6 )

ライセンス: Link先を確認
A. Brateanu, R. Balmez, A. Avram, C. Orhei, C. Ancuti, (参考訳) 本稿では,低照度画像強調(LLIE)のための新しい軽量トランスフォーマーモデルであるLYT-Netを紹介する。 LYT-Netは,CWD(Channel-Wise Denoiser)やMSEF(Multi-Stage Squeeze & Excite Fusion)など,いくつかのレイヤと分離可能なブロックから構成される。 本手法では, 蛍光チャネルU, V, 発光チャネルYを別個のエンティティとして扱い, 照明調整や劣化復旧の精度向上に寄与する。 確立されたLLIEデータセットに対する包括的評価は、その複雑さが低いにもかかわらず、我々のモデルは最近のLLIE法よりも優れていることを示す。 ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。

This letter introduces LYT-Net, a novel lightweight transformer-based model for low-light image enhancement (LLIE). LYT-Net consists of several layers and detachable blocks, including our novel blocks--Channel-Wise Denoiser (CWD) and Multi-Stage Squeeze & Excite Fusion (MSEF)--along with the traditional Transformer block, Multi-Headed Self-Attention (MHSA). In our method we adopt a dual-path approach, treating chrominance channels U and V and luminance channel Y as separate entities to help the model better handle illumination adjustment and corruption restoration. Our comprehensive evaluation on established LLIE datasets demonstrates that, despite its low complexity, our model outperforms recent LLIE methods. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# プリンシプリズムを超えて : 研究実践における倫理的AI活用の実践戦略

Beyond principlism: Practical strategies for ethical AI use in research practices ( http://arxiv.org/abs/2401.15284v3 )

ライセンス: Link先を確認
Zhicheng Lin, (参考訳) 科学研究、特に大規模言語モデル(LLM)における生成的人工知能(AI)の急速な採用は、倫理的ガイドラインの開発を上回り、トリプルトイニシアチブ(トリプルトイニシアチブ)へと繋がる。 プリンシプル主義(抽象的倫理原理への信頼)、フォーマリズム(規則の厳格な適用)、技術的解決主義(技術的修正の過大評価)といった既存のアプローチは、科学研究の実践においてAIの倫理的課題に対処するための実践的なガイダンスをほとんど提供しない。 抽象的な原則と日々の研究実践のギャップを埋めるために,ユーザ中心の現実主義に着想を得たアプローチを提案する。 倫理的AI利用のための5つの具体的な目標を概説する。 1) バイアス緩和戦略を含むモデルトレーニングとアウトプットの理解 2 プライバシー、秘密、及び著作権を尊重すること。 3 盗作及び政策違反を避けること。 4)AIを代替品と比較して有益に適用すること。 5) 透過的かつ再現的にAIを使用する。 各目標に対して、実行可能な戦略を提供し、誤用および是正措置の実例を分析します。 倫理的AIアプリケーションは、独立したパフォーマンス指標ではなく、既存の代替手段に対してその実用性を評価する必要がある、と我々は主張する。 さらに、AI支援研究における透明性と再現性を高めるためのドキュメントガイドラインを提案する。 今後、私たちは、イノベーションを育みながら責任あるAIの使用を促進するために、プロフェッショナルな開発、トレーニングプログラム、バランスのとれた実施メカニズムの必要性を強調します。 これらの倫理ガイドラインを改訂し、新たなAI能力に適応することにより、研究の完全性を損なうことなく、科学的進歩を加速することができる。

The rapid adoption of generative artificial intelligence (AI) in scientific research, particularly large language models (LLMs), has outpaced the development of ethical guidelines, leading to a Triple-Too problem: too many high-level ethical initiatives, too abstract principles lacking contextual and practical relevance, and too much focus on restrictions and risks over benefits and utilities. Existing approaches, such as principlism (reliance on abstract ethical principles), formalism (rigid application of rules), and technical solutionism (overemphasis on technological fixes), offer little practical guidance for addressing ethical challenges of AI in scientific research practices. To bridge the gap between abstract principles and day-to-day research practices, we propose a user-centered, realism-inspired approach. We outline five specific goals for ethical AI use: 1) understanding model training and output, including bias mitigation strategies; 2) respecting privacy, confidentiality, and copyright; 3) avoiding plagiarism and policy violations; 4) applying AI beneficially compared to alternatives; and 5) using AI transparently and reproducibly. For each goal, we provide actionable strategies and analyze realistic cases of misuse and corrective measures. We argue that ethical AI application requires evaluating its utility against existing alternatives rather than isolated performance metrics. Additionally, we propose documentation guidelines to enhance transparency and reproducibility in AI-assisted research. Moving forward, we emphasize the need for targeted professional development, training programs, and balanced enforcement mechanisms to promote responsible AI use while fostering innovation. By refining these ethical guidelines and adapting to emerging AI capabilities, we can accelerate scientific progress without compromising research integrity.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# BoostDream: マルチビュー拡散による高品質テキスト・ツー・3D生成のための効率的な精錬

BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion ( http://arxiv.org/abs/2401.16764v3 )

ライセンス: Link先を確認
Yonghao Yu, Shunan Zhu, Huai Qin, Haorui Li, (参考訳) テキストから画像への拡散モデルの進化を目撃し、テキストから3D生成において重要な進歩を遂げた。 現在、テキストから3Dへの2つの主要なパラダイムは、3D資産を迅速に生成できるフィードフォワード生成ソリューションと、高忠実度3D資産を遅いペースで生成することで知られるスコア蒸留サンプリング(SDS)ベースのソリューションである。 これらの手法の相乗的統合は、3次元生成技術の進歩に大きく貢献する。 本稿では,粗い3Dアセットを高品質に変換する高効率なプラグアンドプレイ3D精製法BoostDreamを提案する。 BoostDream フレームワークは,(1) フィードフォワード生成により得られた3次元資産と異なる表現に適合する3次元モデル蒸留を導入する。 2) 新たな多視点SDS損失を設計し, マルチビュー対応2次元拡散モデルを用いて3次元資産を改良する。 以上の結果から,従来のSDS法と比較して,BoostDreamがJanus問題を克服し,高品質な3Dアセットを迅速に生成する上で優れていることが判明した。 このブレークスルーは、3D生成プロセスの効率性と品質の両面で大きな進歩を示している。

Witnessing the evolution of text-to-image diffusion models, significant strides have been made in text-to-3D generation. Currently, two primary paradigms dominate the field of text-to-3D: the feed-forward generation solutions, capable of swiftly producing 3D assets but often yielding coarse results, and the Score Distillation Sampling (SDS) based solutions, known for generating high-fidelity 3D assets albeit at a slower pace. The synergistic integration of these methods holds substantial promise for advancing 3D generation techniques. In this paper, we present BoostDream, a highly efficient plug-and-play 3D refining method designed to transform coarse 3D assets into high-quality. The BoostDream framework comprises three distinct processes: (1) We introduce 3D model distillation that fits differentiable representations from the 3D assets obtained through feed-forward generation. (2) A novel multi-view SDS loss is designed, which utilizes a multi-view aware 2D diffusion model to refine the 3D assets. (3) We propose to use prompt and multi-view consistent normal maps as guidance in refinement.Our extensive experiment is conducted on different differentiable 3D representations, revealing that BoostDream excels in generating high-quality 3D assets rapidly, overcoming the Janus problem compared to conventional SDS-based methods. This breakthrough signifies a substantial advancement in both the efficiency and quality of 3D generation processes.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-17
# CodePori: マルチエージェント技術を用いた自律ソフトウェア開発のための大規模システム

CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology ( http://arxiv.org/abs/2402.01411v2 )

ライセンス: Link先を確認
Zeeshan Rasheed, Malik Abdul Sami, Kai-Kristian Kemell, Muhammad Waseem, Mika Saari, Kari Systä, Pekka Abrahamsson, (参考訳) コンテキスト: 大規模言語モデル(LLM)と生成事前学習トランスフォーマー(GPT)は、ソフトウェア工学(SE)の分野を変えました。 既存のLLMベースのマルチエージェントモデルは、基本的な対話タスクにうまく対応している。 しかし、大規模かつ複雑なプロジェクトのコードの自動生成など、より困難なタスクのためのLLMの可能性は、いくつかの既存の研究で研究されている。 目的:本論文は,ソフトウェア産業におけるLCMをベースとしたエージェントの可能性,特に生産性の向上と複雑なソフトウェアソリューションの市場投入までの時間短縮を目的としている。 私たちの主な目的は、これらのエージェントが大規模ソフトウェアの開発を根本的に変える方法についての洞察を得ることです。 メソッド: CodePoriは、ステークホルダが定義する機能的および非機能的要件に基づいて、大規模で複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された、新しいシステムです。 提案システムの性能を評価するため,HumanEvalベンチマークを用いてコードPoriモデルを手動でテストし,20の異なるプロジェクト記述を入力として提供し,コードを手動で実行することでコード精度を評価する。 結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。 HumanEvalベンチマークの結果は、CodePoriがコード精度を89%改善していることを示している。 最初の著者による手作業による評価では、CodePoriシステムは85%の精度を達成した。 結論: 本研究の結果から, 本システムでは, SE における LLM をベースとしたエージェントの変革の可能性を示すとともに, 実用性を強調し, 産業・学界に広く普及する新たな機会を開くことが示唆された。 私たちのプロジェクトはhttps://github.com/GPT-Laboratory/CodePori.comで公開されています。

Context: Large Language Models (LLMs) and Generative Pre-trained Transformers (GPTs) have transformed the field of Software Engineering (SE). Existing LLM-based multi-agent models have successfully addressed basic dialogue tasks. However, the potential of LLMs for more challenging tasks, such as automated code generation for large and complex projects, has been investigated in only a few existing works. Objective: This paper aims to investigate the potential of LLM-based agents in the software industry, particularly in enhancing productivity and reducing time-to-market for complex software solutions. Our primary objective is to gain insights into how these agents can fundamentally transform the development of large-scale software. Methods: We introduce CodePori, a novel system designed to automate code generation for large and complex software projects based on functional and non-functional requirements defined by stakeholders. To assess the proposed system performance, we utilized the HumanEval benchmark and manually tested the CodePori model, providing 20 different project descriptions as input and then evaluated the code accuracy by manually executing the code. Results: CodePori is able to generate running code for large-scale projects, aligned with the typical software development process. The HumanEval benchmark results indicate that CodePori improves code accuracy by 89%. A manual assessment conducted by the first author shows that the CodePori system achieved an accuracy rate of 85%. Conclusion: Based on the results, our conclusion is that proposed system demonstrates the transformative potential of LLM-based agents in SE, highlighting their practical applications and opening new opportunities for broader adoption in both industry and academia. Our project is publicly available at https://github.com/GPT-Laboratory/CodePori.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# MURRE: Open-Domain Text-to-SQL を削除したマルチホップテーブル検索

MURRE: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL ( http://arxiv.org/abs/2402.10666v4 )

ライセンス: Link先を確認
Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che, (参考訳) オープンドメインのテキスト・トゥ・SQLタスクは、巨大なデータベースから質問関連テーブルを取得し、SQLを生成することを目的としている。 しかし、現在の手法の性能はシングルホップ検索によって制限されており、既存のオープンドメイン質問応答のマルチホップ検索は、検索されたものと類似したテーブルを検索する傾向のため、直接適用されないが、質問とは無関係である。 テキストからSQLへの質問は、通常すべての必要な情報を含んでいるが、以前のマルチホップ検索は、検索されたドキュメントで質問を補完する。 そこで,本論文では,検索対象を検索対象から削除し,検索対象を検索対象に誘導するマルチホップテーブル検索(MURRE)を提案する。 2つのオープンドメインのテキスト・トゥ・SQLデータセットに対する実験は、過去の最先端結果よりも平均5.7%改善したことを示している。

The open-domain text-to-SQL task aims to retrieve question-relevant tables from massive databases and generate SQL. However, the performance of current methods is constrained by single-hop retrieval, and existing multi-hop retrieval of open-domain question answering is not directly applicable due to the tendency to retrieve tables similar to the retrieved ones but irrelevant to the question. Since the questions in text-to-SQL usually contain all required information, while previous multi-hop retrieval supplements the questions with retrieved documents. Therefore, we propose the multi-hop table retrieval with removal (MURRE), which removes previously retrieved information from the question to guide the retriever towards unretrieved relevant tables. Our experiments on two open-domain text-to-SQL datasets demonstrate an average improvement of 5.7% over the previous state-of-the-art results.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# フラグ付き重み最適化によるフォールトトレラントカラーコード量子コンピューティングのしきい値改善

Improving threshold for fault-tolerant color code quantum computing by flagged weight optimization ( http://arxiv.org/abs/2402.13958v2 )

ライセンス: Link先を確認
Yugo Takada, Keisuke Fujii, (参考訳) カラーコードは、全てのクリフォードゲートを横断的に実装できるという点で、表面符号よりも有利であるため、有望な量子誤り訂正(QEC)符号である。 しかし、回路レベルの雑音下でのカラーコードの閾値は、主に高重安定化器発生器の測定が回路深さの増大を引き起こすため、比較的低いため、かなりの誤差が生じる。 これにより、カラーコードはフォールトトレラント量子コンピューティングの最適候補ではない。 本稿では,フラグ量子ビットの測定結果に条件付き誤差確率を用いてデコーダの重みを最適化することにより,そのような誤差の影響を抑制する手法を提案する。 数値シミュレーションでは、回路レベルの雑音下での(4.8.8)カラーコードの閾値を0.14%から0.27%に改善し、整数プログラミングデコーダを用いて計算する。 さらに、 (6.6.6) のカラーコードでは、回路レベルの閾値が0.36%に達する。 いずれの場合も、各安定度測定に単一アンシラ量子ビットを使用する従来の方法と比較して、有効な符号距離も向上する。 これにより、物理誤差率の低い論理誤差率は、符号距離が同じ従来の方法よりも1桁低い。 コード距離が高い単一アンシラ法と比較しても,本手法で使用されるキュービット数の増加を考えると,ほとんどの場合,論理誤差が低い。 この方法は、他の重みベースのデコーダにも適用でき、QECの実験的な実装の候補として、より有望なカラーコードが得られる。 さらに、このアプローチを利用することで、QEC符号のより広いクラスのしきい値(例えば、高速量子低密度パリティチェック符号)を改善することができる。

Color codes are promising quantum error correction (QEC) codes because they have an advantage over surface codes in that all Clifford gates can be implemented transversally. However, thresholds of color codes under circuit-level noise are relatively low mainly because measurements of their high-weight stabilizer generators cause an increase in a circuit depth, and thus, substantial errors are introduced. This makes color codes not the best candidate for fault-tolerant quantum computing. Here, we propose a method to suppress the impact of such errors by optimizing weights of decoders using conditional error probabilities conditioned on the measurement outcomes of flag qubits. In numerical simulations, we improve the threshold of the (4.8.8) color code under circuit-level noise from 0.14% to around 0.27%, which is calculated by using an integer programming decoder. Furthermore, in the (6.6.6) color code, we achieve a circuit-level threshold of around 0.36%, which is almost the same value as the highest value in the previous studies employing the same noise model. In both cases, an effective code distance is also improved compared to a conventional method that uses a single ancilla qubit for each stabilizer measurement. Thereby, the achieved logical error rates at low physical error rates are almost one order of magnitude lower than those of the conventional method with the same code distance. Even when compared to the single ancilla method with higher code distance, considering the increased number of qubits used in our method, we achieve lower logical error rates in most cases. This method can also be applied to other weight-based decoders, making the color codes more promising for the candidate of experimental implementation of QEC. Furthermore, one can utilize this approach to improve a threshold of wider classes of QEC codes, such as high-rate quantum low-density parity check codes.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# COBIAS:バイアス評価におけるコンテキスト信頼性

COBIAS: Contextual Reliability in Bias Assessment ( http://arxiv.org/abs/2402.14889v3 )

ライセンス: Link先を確認
Priyanshul Govil, Hemang Jain, Vamshi Krishna Bonagiri, Aman Chadha, Ponnurangam Kumaraguru, Manas Gaur, Sanorita Dey, (参考訳) 大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。 これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。 これらのベンチマークは、偏りのある文のLCMの振る舞いを観察することでバイアスを測定する。 しかし、これらの声明は、彼らが提示しようとする状況について文脈的な考察を欠いている。 そこで本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮したモデルロバスト性をバイアス付き文に評価する,コンテキスト信頼性フレームワークを提案する。 コンテキスト指向バイアス指標と評価スコア(COBIAS)を開発し、異なるコンテキスト間のモデル行動のばらつきに基づいてバイアスを検出する際のバイアス文の信頼性を測定する。 このメトリクスを評価するために,2つの既存のベンチマークデータセットから文脈情報を追加することで,2,291個のステレオタイプステートメントを増強した。 COBIASは、バイアス付き文の文脈的信頼性に関する人間の判断(Spearman's $\rho = 0.65$, $p = 3.4 * 10^{-60}$)と一致し、バイアス軽減作業を支援する信頼性のあるデータセットを作成するために使用できることを示す。

Large Language Models (LLMs) often inherit biases from the web data they are trained on, which contains stereotypes and prejudices. Current methods for evaluating and mitigating these biases rely on bias-benchmark datasets. These benchmarks measure bias by observing an LLM's behavior on biased statements. However, these statements lack contextual considerations of the situations they try to present. To address this, we introduce a contextual reliability framework, which evaluates model robustness to biased statements by considering the various contexts in which they may appear. We develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to measure a biased statement's reliability in detecting bias based on the variance in model behavior across different contexts. To evaluate the metric, we augment 2,291 stereotyped statements from two existing benchmark datasets by adding contextual information. We show that COBIAS aligns with human judgment on the contextual reliability of biased statements (Spearman's $\rho = 0.65$, $p = 3.4 * 10^{-60}$) and can be used to create reliable datasets, which would assist bias mitigation works.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# UniMODE:Unified Monocular 3D Object Detection

UniMODE: Unified Monocular 3D Object Detection ( http://arxiv.org/abs/2402.18573v4 )

ライセンス: Link先を確認
Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao, (参考訳) 屋内と屋外の両方のシーンを含む、統一されたモノクル3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。 しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、例えば、様々な幾何学的性質や不均一な領域分布など、その特性が著しく異なるため、課題を提起する。 これらの課題に対処するため,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。 次に,従来のBEV検出アーキテクチャを2段階に分割し,上記の課題に起因する収束不安定性に対処する不均一なBEVグリッド設計を提案する。 さらに、計算コストを削減するためのスパースなBEV特徴予測戦略と、異種ドメインを扱うための統一されたドメインアライメント手法を開発する。 これらの技術を組み合わせて、統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセット(屋内と屋外の両方を含む大規模なデータセット)を4.9%のAP_3Dで上回った。

Realizing unified monocular 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly different characteristics, e.g., diverse geometry properties and heterogeneous domain distributions. To address these challenges, we build a detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity when employing multiple scenarios of data to train detectors. Then, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by the aforementioned challenges. Moreover, we develop a sparse BEV feature projection strategy to reduce computational cost and a unified domain alignment method to handle heterogeneous domains. Combining these techniques, a unified detector UniMODE is derived, which surpasses the previous state-of-the-art on the challenging Omni3D dataset (a large-scale dataset including both indoor and outdoor scenes) by 4.9% AP_3D, revealing the first successful generalization of a BEV detector to unified 3D object detection.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# 近接場電磁ゆらぎによる原子-原子相互作用の超劣化

Super-dephasing in Collective Atom-Atom Interactions Mediated by Near-Field Electromagnetic Fluctuations ( http://arxiv.org/abs/2402.18816v2 )

ライセンス: Link先を確認
Wenbo Sun, Adrian E. Rubio López, Zubin Jacob, (参考訳) 純脱落と自然放出は、変動する電磁(EM)モードと相互作用する原子またはスピンの2つの非単位過程である。 散逸性集合放出過程(例えば超放射能)は、原子と共鳴するEMモードとの相互作用から始まり、かなりの注目を集めている。 一方、EM環境によって媒介される類似の非散逸性集団的嫌悪現象は、いまだに理解されていない。 本稿では, 材料近傍のフォトニック環境に生じるナノ・EMスーパーデフォーカス現象について紹介する。 このナノEM環境における集合的デフォーカスは,自由空間や空洞に比べて10桁以上向上していることを示す。 この巨大なエンハンスメントは、オフ共鳴、低周波のエバネッセントEMゆらぎの長距離相関から発生し、多体交絡状態において集合的に加速される(スーパー-)または抑制される(サブ-)デフォーカスを引き起こす。 さらに,ナノ・EMの集合的評価が,相反的あるいは非相反的な異方性を持つ材料の近くでの普遍的な相互作用範囲を示すことも明らかにした。 このナノ-EM相互作用範囲は、自由空間や空洞には存在しないが、GHZ状態における超退化のユニークなスケーリング法則は、従来のN^2$超輝度のスケーリング法則とは異なる。 最後に、スケーラブルな量子システムのための興味深いフロンティアを開くために、スーパーデフォーカスを実験的に分離し、制御する方法について議論する。

Pure dephasing and spontaneous emission are two non-unitary processes of atoms or spins interacting with fluctuating electromagnetic (EM) modes. The dissipative collective emission processes (e.g., superradiance) originate from interactions with EM modes in resonance with atoms and have received considerable attention. Meanwhile, the analogous non-dissipative collective dephasing phenomena mediated by EM environments remain poorly understood. Here, we introduce the nano-EM super-dephasing phenomenon arising in the photonic environments near materials. We show that collective dephasing in this nano-EM environment is enhanced by over 10 orders of magnitude compared to free space or cavities. This giant enhancement originates from long-range correlations in off-resonant, low-frequency evanescent EM fluctuations, which lead to collectively accelerated (super-) or suppressed (sub-) dephasing in many-body entangled states. We further unravel that nano-EM collective dephasing exhibits universal interaction ranges near materials with different anisotropy that can be reciprocal or non-reciprocal. This nano-EM interaction range, which is not present in free-space and cavities, leads to unique scaling laws of super-dephasing in GHZ states different from the conventional $N^2$ scaling of superradiance. Finally, we discuss how to experimentally isolate and control super-dephasing to open interesting frontiers for scalable quantum systems.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# 量子ビット計測用リードアウト共振器の方向放射

Directional emission of a readout resonator for qubit measurement ( http://arxiv.org/abs/2403.01375v3 )

ライセンス: Link先を確認
Alec Yen, Yufeng Ye, Kaidong Peng, Jennifer Wang, Gregory Cunningham, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Kyle Serniak, Mollie E. Schwartz, Kevin P. O'Brien, (参考訳) 我々は、全パス共振器を用いて超伝導量子ビットの伝送に基づく分散読み出しを提案し、出力に対して優先的に読み出し光子を出力する。 これは、リードアウト信号が出力に向かって優先的に減衰するように、フィードラインを一方の端で意図的にミスマッチする典型的な読み出し方式とは対照的である。 この意図的なミスマッチは、非理想的インピーダンス環境による有効共振器のライン幅の拡大や、インピーダンスマッチングのためのインフラの追加など、スケーリング上の課題を生じさせる。 多重化オールパスリードアウト共振器を用いた将来のアーキテクチャでは、意図的にミスマッチする必要がなくなり、量子コンピュータのスケーリングの見通しが向上する可能性がある。 オールパスリードアウト」の実証実証として,全パスリードアウト共振器を設計し,リードアウト周波数1.17dB未満の挿入損失と最大挿入損失1.53dBを,トランスモンキュービットの最低3つの状態に対して全帯域にわたって実現した。 我々は,600 nsで平均98.1%のシングルショット忠実度を持つ量子ビット読み出しを実証し,より大きな分散シフトの効果を評価するために,シェルビングプロトコルを実装し,300 nsで99.0%の忠実度を達成する。

We propose and demonstrate transmission-based dispersive readout of a superconducting qubit using an all-pass resonator, which preferentially emits readout photons toward the output. This is in contrast to typical readout schemes, which intentionally mismatch the feedline at one end so that the readout signal preferentially decays toward the output. We show that this intentional mismatch creates scaling challenges, including larger spread of effective resonator linewidths due to non-ideal impedance environments and added infrastructure for impedance matching. A future architecture using multiplexed all-pass readout resonators would avoid the need for intentional mismatch and potentially improve the scaling prospects of quantum computers. As a proof-of-concept demonstration of "all-pass readout," we design and fabricate an all-pass readout resonator that demonstrates insertion loss below 1.17 dB at the readout frequency and a maximum insertion loss of 1.53 dB across its full bandwidth for the lowest three states of a transmon qubit. We demonstrate qubit readout with an average single-shot fidelity of 98.1% in 600 ns; to assess the effect of larger dispersive shift, we implement a shelving protocol and achieve a fidelity of 99.0% in 300 ns.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# メカニカル・胃シミュレータにおける内視鏡追尾・動作解析のためのモーションガイドデュアルカメラ・トラッカー

Motion-Guided Dual-Camera Tracker for Endoscope Tracking and Motion Analysis in a Mechanical Gastric Simulator ( http://arxiv.org/abs/2403.05146v3 )

ライセンス: Link先を確認
Yuelin Zhang, Kim Yan, Chun Ping Lam, Chengyu Fang, Wenxuan Xie, Yufu Qiu, Raymond Shing-Yan Tang, Shing Shin Cheng, (参考訳) メカニカルシミュレータにおけるフレキシブルな内視鏡運動追跡と解析は内視鏡トレーニングに有用であることが証明されている。 しかしながら、電磁トラッカーに基づく一般的なモーショントラッキング手法は、そのコストと物質感受性によって制限されている。 本研究は、内視鏡先端の3D位置のロバストかつ高精度な追跡を実現するために、モーションガイド付きデュアルカメラ・ビジョン・トラッカーを提案する。 このトラッカーは、ダイナミックなライフサイズのメカニカルシミュレータの中で、フレキシブルな内視鏡の先端を追跡するという、いくつかのユニークな課題に対処する。 外観変化に対処し、デュアルカメラトラッキング一貫性を維持するために、動的過渡的相互テンプレートを導入することで、クロスカメラ相互テンプレート戦略(CMT)を提案する。 マンバをベースとした動き誘導予測ヘッド(MMH)は,大きな閉塞と光誘起歪みを緩和し,視覚的トラッキングによる歴史的動きを集約する。 提案したトラッカーは、最先端のビジョントラッカーに対して優れた性能を示し、平均誤差と最大誤差において、第2ベット法に対して42%と72%の改善を達成している。 初心者および専門家の内科医を含むさらなる運動分析により、提案したトラッカーによって提供される先端3次元運動は、他のトラッカーと比較して、より信頼性が高く、異なる専門的レベルのより実質的な分化を可能にする。

Flexible endoscope motion tracking and analysis in mechanical simulators have proven useful for endoscopy training. Common motion tracking methods based on electromagnetic tracker are however limited by their high cost and material susceptibility. In this work, the motion-guided dual-camera vision tracker is proposed to provide robust and accurate tracking of the endoscope tip's 3D position. The tracker addresses several unique challenges of tracking flexible endoscope tip inside a dynamic, life-sized mechanical simulator. To address the appearance variation and keep dual-camera tracking consistency, the cross-camera mutual template strategy (CMT) is proposed by introducing dynamic transient mutual templates. To alleviate large occlusion and light-induced distortion, the Mamba-based motion-guided prediction head (MMH) is presented to aggregate historical motion with visual tracking. The proposed tracker achieves superior performance against state-of-the-art vision trackers, achieving 42% and 72% improvements against the second-best method in average error and maximum error. Further motion analysis involving novice and expert endoscopists also shows that the tip 3D motion provided by the proposed tracker enables more reliable motion analysis and more substantial differentiation between different expertise levels, compared with other trackers.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# 対実的コントラスト学習:因果画像合成による頑健な表現

Counterfactual contrastive learning: robust representations via causal image synthesis ( http://arxiv.org/abs/2403.09605v2 )

ライセンス: Link先を確認
Melanie Roschewitz, Fabio De Sousa Ribeiro, Tian Xia, Galvin Khara, Ben Glocker, (参考訳) 対照的な事前訓練は、特に限定されたラベル設定において、ダウンストリームタスクのパフォーマンスとモデル一般化を改善することでよく知られている。 しかし、拡張パイプラインの選択には敏感である。 正のペアは、ドメイン固有の情報を破壊しながら意味情報を保存すべきである。 標準的な拡張パイプラインは、事前に定義された測光変換でドメイン固有の変更をエミュレートしますが、代わりに現実的なドメイン変更をシミュレートできるとしたらどうでしょう? 本研究では, この効果に対して, 対実画像生成の最近の進歩を活用する方法について述べる。 本稿では,正のペア生成に近似した反現実的推論を利用する対実的コントラスト学習手法CF-SimCLRを提案する。 胸部X線撮影およびマンモグラフィーによる5つのデータセットの総合的評価は、CF-SimCLRが、特にトレーニング中にあまり表現されていない領域において、イン・オブ・オブ・アウト・ディストリビューション・データにおいて、より高いダウンストリーム性能で、取得シフトに対するロバスト性を大幅に向上することを示した。

Contrastive pretraining is well-known to improve downstream task performance and model generalisation, especially in limited label settings. However, it is sensitive to the choice of augmentation pipeline. Positive pairs should preserve semantic information while destroying domain-specific information. Standard augmentation pipelines emulate domain-specific changes with pre-defined photometric transformations, but what if we could simulate realistic domain changes instead? In this work, we show how to utilise recent progress in counterfactual image generation to this effect. We propose CF-SimCLR, a counterfactual contrastive learning approach which leverages approximate counterfactual inference for positive pair creation. Comprehensive evaluation across five datasets, on chest radiography and mammography, demonstrates that CF-SimCLR substantially improves robustness to acquisition shift with higher downstream performance on both in- and out-of-distribution data, particularly for domains which are under-represented during training.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# ランダム再帰木の歴史を推定する

Estimating the history of a random recursive tree ( http://arxiv.org/abs/2403.09755v2 )

ライセンス: Link先を確認
Simon Briend, Christophe Giraud, Gábor Lugosi, Déborah Sulem, (参考訳) 本稿では,ランダム再帰木における頂点の到着順序を推定する問題について検討する。 具体的には,一様アタッチメントモデルと線形優先アタッチメントモデルという2つの基本モデルについて検討する。 そこで我々は,ヨルダン中央度尺度に基づく順序推定器を提案し,注文手順の品質を定量化するためのリスク対策のファミリーを定義する。 さらに、この問題に対してミニマックス下界を確立し、提案した推定器がほぼ最適であることを証明した。 最後に,提案手法が次数ベースおよびスペクトル順序付け法より優れていることを示す。

This paper studies the problem of estimating the order of arrival of the vertices in a random recursive tree. Specifically, we study two fundamental models: the uniform attachment model and the linear preferential attachment model. We propose an order estimator based on the Jordan centrality measure and define a family of risk measures to quantify the quality of the ordering procedure. Moreover, we establish a minimax lower bound for this problem, and prove that the proposed estimator is nearly optimal. Finally, we numerically demonstrate that the proposed estimator outperforms degree-based and spectral ordering procedures.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-17
# 公平な顔属性分類のための視覚言語モデルの導入

Leveraging vision-language models for fair facial attribute classification ( http://arxiv.org/abs/2403.10624v2 )

ライセンス: Link先を確認
Miao Zhang, Rumi Chunara, (参考訳) 異なる人口集団における画像認識の性能格差は、深層学習に基づくモデルに存在することが知られているが、従来の研究は、機密属性ラベルの知識を前提として、このような公平性の問題に主に対処してきた。 この依存を克服するため、従来の戦略では、格差を露呈し、調整するための個別の学習構造が含まれていた。 本研究では,感性属性ラベルを必要としない新たなパラダイムを探求し,汎用視覚言語モデル(VLM)を共通感性属性の豊富な知識源として活用することにより,余分なトレーニングの必要性を回避する。 我々は,VLM予測値と人間定義属性分布の対応関係を解析した。 VLMは、画像表現に符号化された明確な属性情報を持つサンプルを認識でき、属性関連バイアスと矛盾する性能の低いサンプルをキャプチャできる。 下流のターゲット分類器をアンダーパフォーマンスの属性群を再サンプリングし、拡張することで訓練する。 複数のベンチマークの顔属性分類データセットに対する大規模な実験は、任意のバイアスに対処する既存の教師なしベースラインよりも、モデルの公平性の向上を示している。 この研究は、視覚言語モデルが言語によって引き起こされる識別的センシティブな情報を抽出し、モデルフェアネスを促進することができることを示している。

Performance disparities of image recognition across different demographic populations are known to exist in deep learning-based models, but previous work has largely addressed such fairness problems assuming knowledge of sensitive attribute labels. To overcome this reliance, previous strategies have involved separate learning structures to expose and adjust for disparities. In this work, we explore a new paradigm that does not require sensitive attribute labels, and evades the need for extra training by leveraging general-purpose vision-language model (VLM), as a rich knowledge source for common sensitive attributes. We analyze the correspondence between VLM predicted and human defined sensitive attribute distribution. We find that VLMs can recognize samples with clear attribute information encoded in image representations, thus capture under-performed samples conflicting with attribute-related bias. We train downstream target classifiers by re-sampling and augmenting under-performed attribute groups. Extensive experiments on multiple benchmark facial attribute classification datasets show fairness gains of the model over existing unsupervised baselines that tackle with arbitrary bias. The work indicates that vision-language models can extract discriminative sensitive information prompted by language, and be used to promote model fairness.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 自己決定目標を用いた教師なしエンドツーエンドトレーニング

Unsupervised End-to-End Training with a Self-Defined Target ( http://arxiv.org/abs/2403.12116v3 )

ライセンス: Link先を確認
Dongshu Liu, Jérémie Laydevant, Adrien Pontlevy, Xing Chen, Damien Querlioz, Julie Grollier, (参考訳) ラベル付きデータとラベルなしデータの両方を使ってエッジで学習できる汎用AIハードウェアのためのアルゴリズムの設計は難しい。 自己教師型学習と教師型学習のフェーズを取り入れた深層エンドツーエンドの訓練手法は、入力データに正確で適応可能であるが、自己教師型学習は教師型学習よりも多くの計算とメモリリソースを必要とし、現在の組込みハードウェアには高すぎる。 逆に、Hebbian Learningのような教師なしのレイヤ・バイ・レイヤのトレーニングは、既存のハードウェアとより互換性があるが、教師付き学習とうまく統合されていない。 そこで本研究では,エンド・ツー・エンドの教師付き学習のために設計されたネットワークやハードウェアが,出力層に2つの単純な要素,すなわちWinner-Take-All(WTA)選択性とホメオスタシス正規化を付加することにより,高性能な教師なし学習を実現する手法を提案する。 これらのメカニズムにより、MNIST(最大99.2%)、Fashion-MNIST(最大90.3%)、SVHN(最大81.5%)といったデータセット上でのバックプロパゲーションや平衡伝播を用いて、完全連結層と畳み込み層の両方に対する純粋な教師なしトレーニングが可能になる。 我々はこの手法を半教師付き学習に拡張し、データ型に基づいて目標を調整し、600のラベル付きMNISTサンプルを多層パーセプトロンで96.6%の精度で検出する。 提案手法により,教師なし学習に特化していたネットワークやハードウェアが,ラベル付きデータの多種多様な利用に適応して,教師なし学習を効果的に実現できることが示唆された。

Designing algorithms for versatile AI hardware that can learn on the edge using both labeled and unlabeled data is challenging. Deep end-to-end training methods incorporating phases of self-supervised and supervised learning are accurate and adaptable to input data but self-supervised learning requires even more computational and memory resources than supervised learning, too high for current embedded hardware. Conversely, unsupervised layer-by-layer training, such as Hebbian learning, is more compatible with existing hardware but does not integrate well with supervised learning. To address this, we propose a method enabling networks or hardware designed for end-to-end supervised learning to also perform high-performance unsupervised learning by adding two simple elements to the output layer: Winner-Take-All (WTA) selectivity and homeostasis regularization. These mechanisms introduce a "self-defined target" for unlabeled data, allowing purely unsupervised training for both fully-connected and convolutional layers using backpropagation or equilibrium propagation on datasets like MNIST (up to 99.2%), Fashion-MNIST (up to 90.3%), and SVHN (up to 81.5%). We extend this method to semi-supervised learning, adjusting targets based on data type, achieving 96.6% accuracy with only 600 labeled MNIST samples in a multi-layer perceptron. Our results show that this approach can effectively enable networks and hardware initially dedicated to supervised learning to also perform unsupervised learning, adapting to varying availability of labeled data.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 医用画像分類における一般化研究の体系的レビュー

A Systematic Review of Generalization Research in Medical Image Classification ( http://arxiv.org/abs/2403.12167v3 )

ライセンス: Link先を確認
Sarah Matta, Mathieu Lamard, Philippe Zhang, Alexandre Le Guilcher, Laurent Borderie, Béatrice Cochener, Gwenolé Quellec, (参考訳) 様々な医療実践の側面を再形成することを約束する医療画像分析アプリケーションのために、多くのDeep Learning (DL)分類モデルが開発されている。 医療機関がそれを採用することを奨励するDLモデル検証と実装の進歩にもかかわらず、根本的な疑問は残る: これらのモデルはドメインシフトを効果的に扱うことができるのか? この問題はDLモデルの性能劣化を制限するために不可欠である。 医療データは動的であり、複数の要因によりドメインシフトを起こしやすい。 2つの主要なシフトタイプは、時間とともに起こります。 1【医療機器の更新等による相変わらずの変動】 2)段階間変動による概念シフト。 ドメインシフトの問題を緩和するため、既存の調査は主にドメイン適応技術に焦点を当て、共変量シフトに重点を置いている。 より一般的には、シフトタイプに注目しながら最先端のソリューションをレビューする作業は行われていない。 本稿では,文献の体系的レビューを通じて,DLに基づく分類モデルの既存の領域一般化手法を検討することを目的とする。 それは彼らが解決しようとしているシフトタイプに基づいた分類法を提案する。 論文は2023年4月10日までスコプスで調査・収集され、適性検査と品質評価の後、77の論文が特定された。 排他的基準には、方法論的ノベルティの欠如(例えば、レビュー、ベンチマーク)、単一のモノセンターデータセットで実施された実験、英語で書かれていない記事が含まれる。 本研究の結果から,両タイプの学習手法が出現していることが示唆された。 最後に、評価プロトコルやベンチマークの改善など今後の課題について論じ、医用画像分類のための堅牢で一般化されたモデルを実現するための今後の発展を構想する。

Numerous Deep Learning (DL) classification models have been developed for a large spectrum of medical image analysis applications, which promises to reshape various facets of medical practice. Despite early advances in DL model validation and implementation, which encourage healthcare institutions to adopt them, a fundamental questions remain: how can these models effectively handle domain shift? This question is crucial to limit DL models performance degradation. Medical data are dynamic and prone to domain shift, due to multiple factors. Two main shift types can occur over time: 1) covariate shift mainly arising due to updates to medical equipment and 2) concept shift caused by inter-grader variability. To mitigate the problem of domain shift, existing surveys mainly focus on domain adaptation techniques, with an emphasis on covariate shift. More generally, no work has reviewed the state-of-the-art solutions while focusing on the shift types. This paper aims to explore existing domain generalization methods for DL-based classification models through a systematic review of literature. It proposes a taxonomy based on the shift type they aim to solve. Papers were searched and gathered on Scopus till 10 April 2023, and after the eligibility screening and quality evaluation, 77 articles were identified. Exclusion criteria included: lack of methodological novelty (e.g., reviews, benchmarks), experiments conducted on a single mono-center dataset, or articles not written in English. The results of this paper show that learning based methods are emerging, for both shift types. Finally, we discuss future challenges, including the need for improved evaluation protocols and benchmarks, and envisioned future developments to achieve robust, generalized models for medical image classification.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 日付データ:大規模言語モデルにおける知識遮断の追跡

Dated Data: Tracing Knowledge Cutoffs in Large Language Models ( http://arxiv.org/abs/2403.12958v2 )

ライセンス: Link先を確認
Jeffrey Cheng, Marc Marone, Orion Weller, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme, (参考訳) リリースされたLarge Language Models (LLM) は、しばしば、要求される知識の遮断日またはトレーニングデータが収集された日とペアリングされる。 このような情報は、LLMが最新の情報を提供する必要があるアプリケーションには不可欠である。 トレーニングデータのすべてのリソースは、同じ知識のカットオフ日を共有していますか? これらのサブセットに関するモデルが示す知識は、カットオフ日と密接に一致しているか? 本研究では,効果的カットオフの概念を定義した。 これはLCMデザイナが報告したカットオフと異なり、サブリソースやトピックに対して別々に適用される。 本研究では,LLMの資源レベルの時間的アライメントに対して,データのバージョン間を探索することで,効率的なカットオフを推定する簡単な手法を提案する。 この分析により,効果的カットオフは報告されたカットオフとしばしば異なることが判明した。 この観測の根本原因を理解するために,オープン事前学習データセットの大規模解析を行う。 提案手法は,(1)非自明なデータ量によるCommonCrawlデータの時間的偏りと,(2)意味的重複と語彙的近接重複を含むLLM重複の重複という2つの原因を明らかにした。 総じて,本研究の結果から,知識のカットオフは見た目ほど単純ではなく,LLMデータセットキュレーターと,これらのモデルから情報を得ようとする実践者の両方に注意を払わなければならないことが明らかとなった。

Released Large Language Models (LLMs) are often paired with a claimed knowledge cutoff date, or the dates at which training data was gathered. Such information is crucial for applications where the LLM must provide up to date information. However, this statement only scratches the surface: do all resources in the training data share the same knowledge cutoff date? Does the model's demonstrated knowledge for these subsets closely align to their cutoff dates? In this work, we define the notion of an effective cutoff. This is distinct from the LLM designer reported cutoff and applies separately to sub-resources and topics. We propose a simple approach to estimate effective cutoffs on the resource-level temporal alignment of an LLM by probing across versions of the data. Using this analysis, we find that effective cutoffs often differ from reported cutoffs. To understand the root cause of this observation, we conduct a direct large-scale analysis on open pre-training datasets. Our analysis reveals two reasons for these inconsistencies: (1) temporal biases of CommonCrawl data due to non-trivial amounts of old data in new dumps and (2) complications in LLM deduplication schemes involving semantic duplicates and lexical near-duplicates. Overall, our results show that knowledge cutoffs are not as simple as they have seemed and that care must be taken both by LLM dataset curators as well as practitioners who seek to use information from these models.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 車がドローンと出会うとき:逆天候下でのドメイン適応のためのハイパーボリック・フェデレーション・ラーニング

When Cars meet Drones: Hyperbolic Federated Learning for Source-Free Domain Adaptation in Adverse Weather ( http://arxiv.org/abs/2403.13762v2 )

ライセンス: Link先を確認
Giulia Rizzoli, Matteo Caligiuri, Donald Shenaj, Francesco Barbato, Pietro Zanuttigh, (参考訳) フェデレートラーニング(FL)では、複数のクライアントがプライベートデータを共有せずにグローバルモデルを共同でトレーニングする。 セマンティックセグメンテーションにおいて、Federated Source Free Domain Adaptation (FFreeDA)設定は特に関心があり、クライアントはサーバ側で教師なしの事前トレーニングを行った後、教師なしのトレーニングを受ける。 自動運転車のFLに関する最近の研究はほとんどないが、悪天候や異なる自律エージェントの存在といった本質的な現実的な課題はまだ解明されていない。 このギャップを埋めるために、我々は両方の問題に対処し、車とドローンの両方のクライアントが共存し協力する新しい統合セマンティックセマンティックセマンティクス環境を導入する。 具体的には、異なる気象条件にモデルを動的に適応させるために、バッチノームの気象対応戦略を利用する新しい手法を提案し、一方、双曲空間のプロトタイプは異種クライアント表現の整合に使用される。 最後に,航空車両の悪天候データを用いた最初のセマンティックセグメンテーションデータセットであるFLYAWAREを紹介する。

In Federated Learning (FL), multiple clients collaboratively train a global model without sharing private data. In semantic segmentation, the Federated source Free Domain Adaptation (FFreeDA) setting is of particular interest, where clients undergo unsupervised training after supervised pretraining at the server side. While few recent works address FL for autonomous vehicles, intrinsic real-world challenges such as the presence of adverse weather conditions and the existence of different autonomous agents are still unexplored. To bridge this gap, we address both problems and introduce a new federated semantic segmentation setting where both car and drone clients co-exist and collaborate. Specifically, we propose a novel approach for this setting which exploits a batch-norm weather-aware strategy to dynamically adapt the model to the different weather conditions, while hyperbolic space prototypes are used to align the heterogeneous client representations. Finally, we introduce FLYAWARE, the first semantic segmentation dataset with adverse weather data for aerial vehicles.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# AIR-HLoc: 効率的な視覚局所化のための適応的検索画像選択

AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation ( http://arxiv.org/abs/2403.18281v2 )

ライセンス: Link先を確認
Changkun Liu, Jianhao Jiao, Huajian Huang, Zhengyang Ma, Dimitrios Kanoulas, Tristan Braud, (参考訳) State-of-the-the-arthierarchical Localisation pipelines (HLoc) は、2D-3D対応を確立するために画像検索(IR)を使用している。 k$の増加はローカライゼーションの堅牢性を改善する一方で、計算コストとランタイムをリニアに増加させ、重大なボトルネックを生み出します。 本稿では,グローバルデクリプタとローカルデクリプタの関係について検討し,クエリのグローバルデクリプタとデータベースイメージとの類似性が,特徴マッチングの割合を増大させることを示す。 類似度が低いクエリは$k$の増加の恩恵を受け、類似度の高いクエリは急速にリターンの低下を経験する。 これらの観測に基づいて,クエリのグローバル記述子とデータベースの類似性に基づいて$k$を調整し,機能マッチングボトルネックを効果的に軽減する適応戦略を提案する。 提案手法は精度を犠牲にすることなく処理時間を最適化する。 3つの屋内および屋外データセットの実験により、AIR-HLocは、最先端の精度を維持しながら、特徴マッチング時間を最大30倍まで短縮することが示された。 その結果,AIR-HLocは遅延に敏感なローカライゼーションシステムを実現することがわかった。

State-of-the-art hierarchical localisation pipelines (HLoc) employ image retrieval (IR) to establish 2D-3D correspondences by selecting the top-$k$ most similar images from a reference database. While increasing $k$ improves localisation robustness, it also linearly increases computational cost and runtime, creating a significant bottleneck. This paper investigates the relationship between global and local descriptors, showing that greater similarity between the global descriptors of query and database images increases the proportion of feature matches. Low similarity queries significantly benefit from increasing $k$, while high similarity queries rapidly experience diminishing returns. Building on these observations, we propose an adaptive strategy that adjusts $k$ based on the similarity between the query's global descriptor and those in the database, effectively mitigating the feature-matching bottleneck. Our approach optimizes processing time without sacrificing accuracy. Experiments on three indoor and outdoor datasets show that AIR-HLoc reduces feature matching time by up to 30\%, while preserving state-of-the-art accuracy. The results demonstrate that AIR-HLoc facilitates a latency-sensitive localisation system.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# Invalsiベンチマーク:イタリア語における大規模言語モデルの言語学的および数学的理解の測定

The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian ( http://arxiv.org/abs/2403.18697v3 )

ライセンス: Link先を確認
Giovanni Puccetti, Maria Cassese, Andrea Esuli, (参考訳) イタリア語は高リソース言語であるが、この言語で生成可能なLarge Language Model(LLM)を評価するためのイタリアのネイティブベンチマークは少ない。 Invalsi MATE to evaluate model performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding。 最初の2つのベンチマークは、イタリアの学校で6歳から18歳までの生徒に実施され、教育と教育の専門家によって検証されたInvalsiテストに基づいている。 Invasli MATEでは,Llama 3.1 70bインストラクションで,Invalsi ITAでは88%の精度で,10の強力な言語モデルを評価した。 Invalsi MATE と Invalsi ITA を比較し,Llama 3.1 が Invalsi MATE に勝っているのに対して,ほとんどのモデルが Invalsi ITA に勝っているのに対して,Llama 3.1 は Invalsi MATE に勝っていることを示すとともに,Olimpiadi MATE が Invalsi MATE よりも難易度が高いこと,Llama 3.1 405b の指示によって達成された最高精度が 45% であることを示す。 論文の受理後、データ及び評価コードを公開します。

While Italian is a high-resource language, there are few Italian-native benchmarks to evaluate generative Large Language Models (LLMs) in this language. This work presents three new benchmarks: Invalsi MATE to evaluate models performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding. The first two benchmarks are based on the Invalsi tests, which are administered to students of age between 6 and 18 within the Italian school system and have been validated by several experts in teaching and pedagogy, the third one comes from the Italian high school math Olympics. We evaluate 10 powerful language models on these benchmarks and find that they are bound by 71% accuracy on Invasli MATE, achieved by Llama 3.1 70b instruct and by 88% on Invalsi ITA. For both Invalsi MATE and Invalsi ITA we compare LLMs with the average performance of Italian students to show that Llama 3.1 is the only one to outperform them on Invalsi MATE while most models do so on Invalsi ITA, we then show that Olimpiadi MATE is more challenging than Invalsi MATE and the highest accuracy, achieved by Llama 3.1 405b instruct is 45%. We will make data and evaluation code openly available upon acceptance of the paper.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# AgileFormer: 医療画像セグメンテーションのための空間的アジャイルトランスフォーマーUNet

AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation ( http://arxiv.org/abs/2404.00122v2 )

ライセンス: Link先を確認
Peijie Qiu, Jin Yang, Sayantan Kumar, Soumyendu Sekhar Ghosh, Aristeidis Sotiras, (参考訳) 過去数十年間、ディープニューラルネットワーク、特に畳み込みニューラルネットワークは、様々な医療画像セグメンテーションタスクにおいて最先端のパフォーマンスを実現してきた。 近年,視覚変換器(ViT)の導入により,深部セグメンテーションモデルの景観が大きく変化している。 優れたパフォーマンスとスケーラビリティによって、ViTに注目が集まっている。 しかし、視覚変換器を用いたUNetセグメンテーションモデル(ViT-UNet)の現在の設計は、医用画像セグメンテーションタスクに関心のある物体の不均一な外観(例えば、形状やサイズ)を効果的に扱えないと論じる。 この課題に対処するため、VT-UNetに空間動的成分を導入するための構造的アプローチを提案する。 この適応により、モデルは様々な外観のターゲットオブジェクトの特徴を効果的に捉えることができる。 これは3つの主要なコンポーネントによって達成される。 (i)} 変形可能なパッチ埋め込み; \textbf{ (ii)空間的動的マルチヘッドアテンション; \textbf{ (iii) 変形可能な位置符号化。 これらのコンポーネントは、AgileFormerと呼ばれる新しいアーキテクチャに統合されました。 AgileFormerは、医療画像セグメンテーション用に設計された空間的にアジャイルなViT-UNetである。 公開データセットを用いた3つのセグメンテーションタスクの実験により,提案手法の有効性が示された。 コードは \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer} で公開されている。

In the past decades, deep neural networks, particularly convolutional neural networks, have achieved state-of-the-art performance in a variety of medical image segmentation tasks. Recently, the introduction of the vision transformer (ViT) has significantly altered the landscape of deep segmentation models. There has been a growing focus on ViTs, driven by their excellent performance and scalability. However, we argue that the current design of the vision transformer-based UNet (ViT-UNet) segmentation models may not effectively handle the heterogeneous appearance (e.g., varying shapes and sizes) of objects of interest in medical image segmentation tasks. To tackle this challenge, we present a structured approach to introduce spatially dynamic components to the ViT-UNet. This adaptation enables the model to effectively capture features of target objects with diverse appearances. This is achieved by three main components: \textbf{(i)} deformable patch embedding; \textbf{(ii)} spatially dynamic multi-head attention; \textbf{(iii)} deformable positional encoding. These components were integrated into a novel architecture, termed AgileFormer. AgileFormer is a spatially agile ViT-UNet designed for medical image segmentation. Experiments in three segmentation tasks using publicly available datasets demonstrated the effectiveness of the proposed method. The code is available at \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# リトレーニングを伴わない生成モデルバイアスの操作と緩和

Manipulating and Mitigating Generative Model Biases without Retraining ( http://arxiv.org/abs/2404.02530v2 )

ライセンス: Link先を確認
Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルはパブリックドメインで人気が高まっている。 ユーザーを誘導する優れた生成能力を誇っている一方で、そのブラックボックスの性質は、ユーザーが意図的に、本質的に偏ったアウトプットを公開している。 バイアス操作(および緩和)技術は通常、学習パラメータの注意深いチューニングと、決定境界を調整するためのトレーニングデータに依存し、しばしば計算的に要求されるモデルバイアス特性に影響を与える。 モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。 基礎ベクトル代数を利用することで,T2Iモデルの出力をシフトし,生成されたクラスの分布を制御できる言語モデルの埋め込みを便利に制御できることを示す。 副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。 生成画像中の社会階層の頻度をバランスさせ,3つの社会的バイアス次元のクラス分布を効果的にバランスさせることにより,本手法の構築的応用を実証する。 また,本手法をセマンティック・ヌル入力トリガを用いた重度制御によるバックドア攻撃とみなし,100%攻撃成功率を報告することによって,バイアス操作の負の影響も強調した。 キーワード:テキスト・ツー・イメージモデル、生成モデル、バイアス、プロンプトエンジニアリング、バックドア攻撃

Text-to-image (T2I) generative models have gained increased popularity in the public domain. While boasting impressive user-guided generative abilities, their black-box nature exposes users to intentionally- and intrinsically-biased outputs. Bias manipulation (and mitigation) techniques typically rely on careful tuning of learning parameters and training data to adjust decision boundaries to influence model bias characteristics, which is often computationally demanding. We propose a dynamic and computationally efficient manipulation of T2I model biases by exploiting their rich language embedding spaces without model retraining. We show that leveraging foundational vector algebra allows for a convenient control over language model embeddings to shift T2I model outputs and control the distribution of generated classes. As a by-product, this control serves as a form of precise prompt engineering to generate images which are generally implausible using regular text prompts. We demonstrate a constructive application of our technique by balancing the frequency of social classes in generated images, effectively balancing class distributions across three social bias dimensions. We also highlight a negative implication of bias manipulation by framing our method as a backdoor attack with severity control using semantically-null input triggers, reporting up to 100% attack success rate. Key-words: Text-to-Image Models, Generative Models, Bias, Prompt Engineering, Backdoor Attacks
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# バイオメディカルトレーニングは医療改善につながるか?

Does Biomedical Training Lead to Better Medical Performance? ( http://arxiv.org/abs/2404.04067v4 )

ライセンス: Link先を確認
Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek, (参考訳) 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。 新たなバイオメディカルLLMは、プライバシ要求や計算上の制約を含む、医療特有の課題に対処することを目指している。 このセンシティブなアプリケーション領域に対するモデルの適合性を評価することが、最も重要である。 しかし, 医療現場でのバイオメディカルトレーニングは, 体系的に評価されていない。 本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。 これまでの評価とは対照的に, 微調整後のバイオメディカルモデル12例中9例, 特に幻覚, ICD10コーディング, 命令順守などの課題において, 成績は低下した。 Meta-Llama-3.1-70B-Instructのような一般ドメインモデルはバイオメディカルモデルよりも優れており、ドメイン固有の微調整と一般的な医療タスクのパフォーマンスのトレードオフを示している。 我々は、この重要な領域におけるさらなる研究を支援するため、すべての評価スクリプトとデータセットをhttps://github.com/TIO-IKIM/CLUEでオープンソース化しました。

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 非エルミート時間反転対称性における競合位相-ベルネヴィグ=ヒューズ=張モデル

Competing topological phases in a non-Hermitian time-reversal symmetry-broken Bernevig-Hughes-Zhang model ( http://arxiv.org/abs/2404.04184v2 )

ライセンス: Link先を確認
Dipendu Halder, Srijata Lahiri, Saurabh Basu, (参考訳) 量子スピンホール絶縁体の研究の基盤となるBernevig-Hughes-Zhang (BHZ) モデルは、ナノリボン幾何学において堅牢なスピンフィルタリングヘリカルエッジ状態を示す。 平面内磁場の存在下では、これらの(一階の)ヘリカル状態は、適切な開境界条件下で2階のコーナー状態に置き換えられる。 ここでは、スピン依存非エルミート均衡ゲイン/ロスポテンシャルの包含が、これらの第1次位相と第2次位相の競合を引き起こすことを示す。 驚くべきことに、非エルミート効果が強まり、磁場が果たす役割を効果的に中和するナノリボンの1次ヘリカルエッジ状態が再び表面化した。 投影されたスピンスペクトルとスピンチャーン数を用いて、時間反転対称性を破ったBHZモデルにおいて、非ハーミティシティの存在下での1階位相特性の復活を決定的に説明する。 最後に、非自明な巻線を示す生物直交スピン分解ベリー相は、これらの回復したエッジ状態のトポロジカルな性質を決定的に確立し、磁場上における非ハーモニティの優位性を強調する。

The Bernevig-Hughes-Zhang (BHZ) model, which serves as a cornerstone in the study of the quantum spin Hall insulators, showcases robust spin-filtered helical edge states in a nanoribbon geometry. In the presence of an in-plane magnetic field, these (first-order) helical states gap out to be replaced by second-order corner states under suitable open-boundary conditions. Here, we show that the inclusion of a spin-dependent non-Hermitian balanced gain/loss potential induces a competition between these first and second-order topological phases. Surprisingly, the previously dormant first-order helical edge states in the nanoribbon resurface as the non-Hermitian effect intensifies, effectively neutralizing the role played by the magnetic field. By employing the projected spin spectra and the spin Chern number, we conclusively explain the resurgence of the first-order topological properties in the time-reversal symmetry-broken BHZ model in presence of non-Hermiticity. Finally, the biorthogonal spin-resolved Berry phase, exhibiting a non-trivial winding, definitively establishes the topological nature of these revived edge states, emphasizing the dominance of non-Hermiticity over the magnetic field.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 開語彙セグメンテーションにおける伝達性と原理的効率性

Transferable and Principled Efficiency for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2404.07448v3 )

ライセンス: Link先を確認
Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei, (参考訳) 事前学習された基礎視覚言語モデルの最近の成功は、Open-Vocabulary Segmentation (OVS)を可能にする。 有望な性能にもかかわらず、このアプローチは2つの課題に対して重い計算オーバーヘッドをもたらす。 1) 背骨の大型モデルサイズ 2)微調整の際にはコストがかかる。 これらの課題は、現実世界のシナリオにおいて、このOVS戦略が広く適用可能で手頃な価格であることを妨げる。 モデル圧縮や効率的な微調整といった従来の手法はこれらの課題に対処できるが、しばしばヒューリスティックに頼っている。 つまり、それらのソリューションは簡単に移行できず、コストがかかる異なるモデルで再トレーニングする必要がなくなる。 効率的なOVSの文脈では、トレーニングコストを下げるより小さなモデルを利用することで、大きなビジョン言語基盤モデルに基づいて、OVSが以前のOVSと同等かそれ以上の性能を達成することを目標としています。 コア戦略は、我々の効率を原則化し、従って、さらなるカスタマイズなしに、あるOVSフレームワークから他のフレームワークにシームレスに転送できるようにすることです。 多様なOVSベンチマークに関する総合的な実験では、セグメント化精度と計算コストのトレードオフが従来よりも優れていることが示されている。 私たちのコードはhttps://github.com/Xujxyang/OpenTransで利用可能です。

Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans
翻訳日:2024-09-18 22:20:44 公開日:2024-09-17
# 地域エネルギー市場におけるプライバシ保護請求

Privacy-Preserving Billing for Local Energy Markets ( http://arxiv.org/abs/2404.15886v2 )

ライセンス: Link先を確認
Eman Alqahtani, Mustafa A. Mustafa, (参考訳) 本稿では,地域エネルギー市場(PBP-LEM)に対するプライバシ保護請求プロトコルを提案する。 PBP-LEMにより、市場団体のグループは、正しさを犠牲にすることなく、分散的でプライバシー保護的な方法で参加者の請求書を共同で計算することができる。 また、内部共謀の可能性から生じる個人のプライバシーに対するリスクを軽減している。 まず,ビルディングブロックとして機能する情報理論セキュリティを実現するための,効率的かつプライバシ保護の個別請求方式を提案する。 PBP-LEMは、マルチパーティ計算、内部製品機能暗号化、ペデルセンのコミットメントなどの他の手法とともに、この方式を利用してデータの機密性と正確性を保証する。 さらに、我々は3つのアプローチを提案し、結果としてプライバシー保護とパフォーマンスのレベルが異なる。 我々は,このプロトコルがセキュリティとプライバシの要件を満たしていることを証明し,実際のLEMへの展開を可能にする。最も計算集約的なアプローチで4000ユーザに対して5分以内で請求書を計算し,最も計算集約的なアプローチでわずか0.18秒で請求書を計算することができる。

We propose a privacy-preserving billing protocol for local energy markets (PBP-LEM) that takes into account market participants' energy volume deviations from their bids. PBP-LEM enables a group of market entities to jointly compute participants' bills in a decentralized and privacy-preserving manner without sacrificing correctness. It also mitigates risks on individuals' privacy arising from any potential internal collusion. We first propose an efficient and privacy-preserving individual billing scheme, achieving information-theoretic security, which serves as a building block. PBP-LEM utilizes this scheme, along with other techniques such as multiparty computation, inner product functional encryption and Pedersen commitments to ensure data confidentiality and accuracy. Additionally, we present three approaches, resulting in different levels of privacy protection and performance. We prove that the protocol meets its security and privacy requirements and is feasible for deployment in real LEMs: bills can be computed in less than five minutes for 4,000 users using the most computationally intensive approach, and in just 0.18 seconds using the least intensive one.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# TLA+仕様に対する分散プログラムのトレースの検証

Validating Traces of Distributed Programs Against TLA+ Specifications ( http://arxiv.org/abs/2404.16075v2 )

ライセンス: Link先を確認
Horatiu Cirstea, Markus A. Kuppe, Benjamin Loillier, Stephan Merz, (参考訳) TLA+は、分散アルゴリズムを含むシステムを特定するための形式言語であり、強力な検証ツールによってサポートされている。 本稿では,分散プログラムのトレースをTLA+で記述された高レベル仕様に関連付けるためのフレームワークを提案する。 この問題は、TLCモデルチェッカーを用いて実現した制約付きモデルチェック問題に還元される。 我々のフレームワークは,Javaプログラムを計測して実行のトレースを記録するAPI,それらのトレースを仕様に関連付けるために使用されるTLA+演算子のコレクション,モデルチェッカーを実行するためのスクリプトで構成される。 重要なのは、トレースには完全な値ではなく、仕様変数のアップデートのみが含まれており、開発者は特定の変数だけをトレースする選択をすることができる。 提案手法を複数の分散プログラムに適用し,すべてのケースにおいて仕様と実装の相違を検出する。 本稿では,これらの不一致の原因,計測プログラムのベストプラクティス,TLCによる検証の解釈方法について論じる。

TLA+ is a formal language for specifying systems, including distributed algorithms, that is supported by powerful verification tools. In this work we present a framework for relating traces of distributed programs to high-level specifications written in TLA+. The problem is reduced to a constrained model checking problem, realized using the TLC model checker. Our framework consists of an API for instrumenting Java programs in order to record traces of executions, of a collection of TLA+ operators that are used for relating those traces to specifications, and of scripts for running the model checker. Crucially, traces only contain updates to specification variables rather than full values, and developers may choose to trace only certain variables. We have applied our approach to several distributed programs, detecting discrepancies between the specifications and the implementations in all cases. We discuss reasons for these discrepancies, best practices for instrumenting programs, and how to interpret the verdict produced by TLC.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# ロボット制御のための適応強化学習

Adaptive Reinforcement Learning for Robot Control ( http://arxiv.org/abs/2404.18713v2 )

ライセンス: Link先を確認
Yu Tang Liu, Nilaksh Singh, Aamir Ahmad, (参考訳) 深部強化学習(DRL)はシミュレーション領域において顕著な成功を収めてきたが、単一タスクの向きと環境変化への適応性が不十分なため、ロボットコントローラの設計への応用は依然として限られている。 これらの制約を克服するために,異なるタスクや環境条件に応じて動的にポリシーを適応させるために,トランスファーラーニング技術を活用する新しい適応エージェントを提案する。 この手法は、マルチタスク能力と環境適応性が不可欠であるブランプ制御の課題を通じて検証される。 このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。 実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。 コードは \url{https://github.com/robot-perception-group/adaptive\_agent/} で共有しています。

Deep reinforcement learning (DRL) has shown remarkable success in simulation domains, yet its application in designing robot controllers remains limited, due to its single-task orientation and insufficient adaptability to environmental changes. To overcome these limitations, we present a novel adaptive agent that leverages transfer learning techniques to dynamically adapt policy in response to different tasks and environmental conditions. The approach is validated through the blimp control challenge, where multitasking capabilities and environmental adaptability are essential. The agent is trained using a custom, highly parallelized simulator built on IsaacGym. We perform zero-shot transfer to fly the blimp in the real world to solve various tasks. We share our code at \url{https://github.com/robot-perception-group/adaptive\_agent/}.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# スピン量子ビットに遭遇する計算電磁:量子センシングと計算におけるノイズ効果の制御

Computational Electromagnetics Meets Spin Qubits: Controlling Noise Effects in Quantum Sensing and Computing ( http://arxiv.org/abs/2405.01830v2 )

ライセンス: Link先を確認
Wenbo Sun, Sathwik Bharadwaj, Runwei Zhou, Dan Jiao, Zubin Jacob, (参考訳) 固体スピン量子ビットは量子情報のための有望なプラットフォームとして出現している。 スピン量子ビット量子応用におけるノイズ制御の広範な取り組みにもかかわらず、重要なが制御の少ないノイズ源の1つは、近接場電磁ゆらぎである。 低周波(MHzとGHz)の電磁ゆらぎは、量子コンピューティングデバイスでスピン量子ビットを制御するのに必要な金属/超伝導ゲートや、量子センシングで探る材料/ナノ構造など、量子アプリケーションにおける損失のある材料コンポーネントの近くで著しく強化されている。 量子デバイスの性能向上には、この低周波電磁ゆらぎノイズの制御が不可欠であるが、現在の取り組みは計算上の課題によって妨げられている。 本稿では,特に高速かつ高精度な体積積分方程式に基づく解法を応用して計算障害を克服する。 我々は、低周波磁気ゆらぎノイズを制御し、スピン量子ビットデバイスの性能を向上させるための量子計算電磁界フレームワークを導入する。 我々のフレームワークは、スピン量子ビット量子デバイスへの計算電磁法の応用を拡張している。 さらに,現実的な量子デバイスへの我々のフレームワークの適用を実演する。 我々の研究は、デバイス工学が磁気ゆらぎを制御し、スピン量子ビット量子センシングとコンピューティングの性能を向上させる方法である。

Solid-state spin qubits have emerged as promising platforms for quantum information. Despite extensive efforts in controlling noise in spin qubit quantum applications, one important but less controlled noise source is near-field electromagnetic fluctuations. Low-frequency (MHz and GHz) electromagnetic fluctuations are significantly enhanced near lossy material components in quantum applications, including metallic/superconducting gates necessary for controlling spin qubits in quantum computing devices and materials/nanostructures to be probed in quantum sensing. Although controlling this low-frequency electromagnetic fluctuation noise is crucial for improving the performance of quantum devices, current efforts are hindered by computational challenges. In this paper, we leverage advanced computational electromagnetics techniques, especially fast and accurate volume integral equation based solvers, to overcome the computational obstacle. We introduce a quantum computational electromagnetics framework to control low-frequency magnetic fluctuation noise and enhance spin qubit device performance. Our framework extends the application of computational electromagnetics to spin qubit quantum devices. Furthermore, we demonstrate the application of our framework in realistic quantum devices. Our work paves the way for device engineering to control magnetic fluctuations and improve the performance of spin qubit quantum sensing and computing.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# 効率的なウォークオフ補償法により強化された高分解能光子対による分極エンタングルメント

Polarization Entanglement with highly non-degenerate photon pairs enhanced by effective walk-off compensation method ( http://arxiv.org/abs/2405.06752v2 )

ライセンス: Link先を確認
Sungeun Oh, Thomas Jennewein, (参考訳) バルク偏極ニオブ酸リチウム(PPLN)結晶を用いたSPDC(Type-0自然パラメトリックダウン変換)により生成する高縮退光子対の偏光絡みを示す。 ビーム変位計干渉計とサニャック干渉計の両方を用いることで、高分解能光子対の高偏極コントラストと安定した干渉を確保できる。 両屈折性結晶ウェッジを用いた有効補償法を導入し,空間的および時間的歩行を同時に除去する。 本手法は、カナダ宇宙機関(CSA)が資金提供した量子暗号化科学衛星(QEYSSat)ミッションの一環として、地上と衛星間の絡み合いに基づく量子鍵分布(EBQKD)をテストするために設計された、絡み合った光子源(EPS)に実装されている。 N = (33.33+-0.05)kHzの一致率を観測し, 空間補償の欠如と比較して有意な改善が認められた。 また、推定対生成率(2.92+-0.12)MHzと、ポンプパワーの1.0mWから(96.6+-0.3)%の絡み合いを観測し、地上から衛星・光ファイバーリンクの長距離量子通信に有望な情報源となった。

We demonstrate polarization entanglement in highly non-degenerate photon pairs, generated through Type-0 spontaneous parametric down conversion (SPDC) using bulk periodically poled Lithium Niobate (PPLN) crystals. Through the utilization of both a beam displacer interferometer scheme and a Sagnac interferometer, we ensure high polarisation contrast and stable interference of the highly non-degenerate photon pairs, which however causes substantial spatial and temporal walk-offs of the photon paths which poses a formidable challenge. We introduce an effective compensation method using birefringent crystal wedges to eliminate spatial and temporal walkoffs simultaneously. This method is implemented in our entangled photon source (EPS) designed specifically for testing entanglement-based quantum key distribution (EBQKD) between ground and satellite, as part of the Quantum Encryption and Science Satellite (QEYSSat) mission funded by the Canadian Space Agency (CSA). We observed a coincidence rate of N = (33.33+-0.05)kHz, a significant improvement compared to the absence of the spatial compensation. We also observed an estimated pair generation rate of (2.92+-0.12)MHz and an entanglement visibility of (96.6+-0.3)% from only 1.0mW of pump power, making it a promising source for long-distance quantum communication for ground-to-satellite and fiber optic links.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# 次トーケン予測能力:変圧器の一般上界と下界

Next-token prediction capacity: general upper bounds and a lower bound for transformers ( http://arxiv.org/abs/2405.13718v2 )

ライセンス: Link先を確認
Liam Madden, Curtis Fox, Christos Thrampoulidis, (参考訳) 単語などのトークン列が与えられた場合、次のトークン予測のタスクは次のトークン条件の確率分布を予測することである。 デコーダのみの変換器はこのタスクに有効なモデルとなっているが、その特性はまだ完全には理解されていない。 特に、デコーダのみの変換器が次のToken分布を補間できる、最も多くの異なるコンテキストシーケンスが確立されていない。 このギャップを埋めるために、乗法定数に等しいこの数上の上界と下界を証明します。 これらの境界は、次トーケン分布を任意にできる一般設定と、有限個の文書列から計算される経験的設定で証明する。 我々の下界は1層多層デコーダのみの変圧器であり、この証明は自己注意によって満たされる重要な射影特性を浮き彫りにする。 さらに, 暗記のための最小パラメータ数が, エントロピー下界へのモデルトレーニングに十分であることを示す。

Given a sequence of tokens, such as words, the task of next-token prediction is to predict the next-token conditional probability distribution. Decoder-only transformers have become effective models for this task, but their properties are still not fully understood. In particular, the largest number of distinct context sequences that a decoder-only transformer can interpolate next-token distributions for has not been established. To fill this gap, we prove upper and lower bounds on this number, which are equal up to a multiplicative constant. We prove these bounds in the general setting where next-token distributions can be arbitrary as well as the empirical setting where they are calculated from a finite number of document sequences. Our lower bounds are for one-layer multi-head decoder-only transformers and our proofs highlight an important injectivity property satisfied by self-attention. Furthermore, we provide numerical evidence that the minimal number of parameters for memorization is sufficient for being able to train the model to the entropy lower bound.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-17
# マルチユーザーVRアプリケーションにおけるリモートキーロガー攻撃

Remote Keylogging Attacks in Multi-user VR Applications ( http://arxiv.org/abs/2405.14036v2 )

ライセンス: Link先を確認
Zihao Su, Kunlin Cai, Reuben Beeler, Lukas Dresel, Allan Garcia, Ilya Grishchenko, Yuan Tian, Christopher Kruegel, Giovanni Vigna, (参考訳) VR(Virtual Reality)アプリケーションが普及するにつれて、彼らは距離を橋渡しし、ユーザをより密集させました。 しかし、この成長に伴い、セキュリティとプライバシ、特に没入感のある体験を生み出すために使用されるモーションデータに関する懸念が高まっている。 本研究では,マルチユーザVRアプリケーションにおいて,複数のユーザが同じ仮想空間で相互に対話できるアプリケーションである,重大なセキュリティ上の脅威を強調した。 具体的には、敵のゲームクライアントから収集したアバターレンダリング情報を利用して、クレジットカード情報、パスワード、プライベートな会話などのユーザータイプ秘密を抽出するリモートアタックを提案する。 本研究では,(1)ネットワークパケットから動作データを抽出し,(2)キーストロークエントリに動作データをマッピングする。 我々は攻撃の有効性を検証するためにユーザスタディを行い、攻撃は97.62%のキーストロークを推測した。 さらに,(1)部屋に複数のユーザがいる場合でも,その効果を確認し,(2)攻撃者が被害者を見ることができない場合においても,攻撃が現実的であることを裏付ける追加実験を行った。 さらに,攻撃の一般化可能性を示すために,提案した4つのアプリケーションに対する攻撃を再現した。 最後に,VR業界の大手企業が実施している攻撃に対する防御策を提案した。 これらの結果は、この脆弱性の深刻さと、数百万のVRソーシャルプラットフォームユーザーに対する潜在的な影響を浮き彫りにしている。

As Virtual Reality (VR) applications grow in popularity, they have bridged distances and brought users closer together. However, with this growth, there have been increasing concerns about security and privacy, especially related to the motion data used to create immersive experiences. In this study, we highlight a significant security threat in multi-user VR applications, which are applications that allow multiple users to interact with each other in the same virtual space. Specifically, we propose a remote attack that utilizes the avatar rendering information collected from an adversary's game clients to extract user-typed secrets like credit card information, passwords, or private conversations. We do this by (1) extracting motion data from network packets, and (2) mapping motion data to keystroke entries. We conducted a user study to verify the attack's effectiveness, in which our attack successfully inferred 97.62% of the keystrokes. Besides, we performed an additional experiment to underline that our attack is practical, confirming its effectiveness even when (1) there are multiple users in a room, and (2) the attacker cannot see the victims. Moreover, we replicated our proposed attack on four applications to demonstrate the generalizability of the attack. Lastly, we proposed a defense against the attack, which has been implemented by major players in the VR industry. These results underscore the severity of the vulnerability and its potential impact on millions of VR social platform users.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 自己回帰画像拡散:画像系列の生成とMRIへの応用

Autoregressive Image Diffusion: Generation of Image Sequence and Application in MRI ( http://arxiv.org/abs/2405.14327v3 )

ライセンス: Link先を確認
Guanxiong Luo, Shoujin Huang, Martin Uecker, (参考訳) MRIは非侵襲的画像モダリティとして広く用いられている。 しかし、永続的な課題は、画像品質と画像の速度のバランスである。 このトレードオフは主にk空間の測定によって制約され、空間フーリエ領域(k空間)の特定の軌道を横切る。 これらの測定はしばしば、取得時間を短縮するためにアンサンプされ、画像のアーティファクトと品質が損なわれる。 生成モデルは画像分布を学習し、アンサンプされたk空間データから高品質な画像の再構成に使用できる。 本稿では,画像系列に対する自己回帰画像拡散(AID)モデルを提案する。 このアルゴリズムは、アンダーサンプリングされたk空間と既存の情報の両方を組み込む。 高速MRIデータセットを用いて訓練したモデルを総合的に評価する。 その結果,AIDモデルは逐次コヒーレントな画像列を確実に生成できることがわかった。 3Dおよび動的MRIでは、AIDは標準的な拡散モデルより優れ、画像間の依存が学習されるため幻覚を減少させることができる。

Magnetic resonance imaging (MRI) is a widely used non-invasive imaging modality. However, a persistent challenge lies in balancing image quality with imaging speed. This trade-off is primarily constrained by k-space measurements, which traverse specific trajectories in the spatial Fourier domain (k-space). These measurements are often undersampled to shorten acquisition times, resulting in image artifacts and compromised quality. Generative models learn image distributions and can be used to reconstruct high-quality images from undersampled k-space data. In this work, we present the autoregressive image diffusion (AID) model for image sequences and use it to sample the posterior for accelerated MRI reconstruction. The algorithm incorporates both undersampled k-space and pre-existing information. Models trained with fastMRI dataset are evaluated comprehensively. The results show that the AID model can robustly generate sequentially coherent image sequences. In 3D and dynamic MRI, the AID can outperform the standard diffusion model and reduce hallucinations, due to the learned inter-image dependencies.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 再構成可能なインテリジェントサーフェス支援6Gネットワークのための機械学習による最適化の概観:強化学習から大規模言語モデルへ

An Overview of Machine Learning-Enabled Optimization for Reconfigurable Intelligent Surfaces-Aided 6G Networks: From Reinforcement Learning to Large Language Models ( http://arxiv.org/abs/2405.17439v2 )

ライセンス: Link先を確認
Hao Zhou, Chengming Hu, Xue Liu, (参考訳) 再構成可能なインテリジェントサーフェス (RIS) は, スマート無線環境における信号伝搬の変換によって, 6G ネットワークにおいて有望な技術となる。 しかし、これはまた、多数の要素と専用の位相シフト最適化のため、ネットワーク管理に重大な複雑さをもたらす。 本研究では、RIS支援6Gネットワークに対する機械学習(ML)対応最適化の概要について述べる。 特に,様々な強化学習(RL)技術,例えば深層Q-ラーニング,マルチエージェント強化学習,転送強化学習,階層強化学習,オフライン強化学習に着目した。 既存の研究と異なり、大規模言語モデル(LLM)がRLとどのように組み合わせてネットワーク最適化問題に対処できるかをさらに議論する。 LLMは、一般化、報酬関数設計、マルチモーダル情報処理などの観点から、RLアルゴリズムの能力を向上する新たな機会を提供することを示している。 最後に、RIS支援6GネットワークにおけるML対応最適化の今後の課題と方向性を明らかにする。

Reconfigurable intelligent surface (RIS) becomes a promising technique for 6G networks by reshaping signal propagation in smart radio environments. However, it also leads to significant complexity for network management due to the large number of elements and dedicated phase-shift optimization. In this work, we provide an overview of machine learning (ML)-enabled optimization for RIS-aided 6G networks. In particular, we focus on various reinforcement learning (RL) techniques, e.g., deep Q-learning, multi-agent reinforcement learning, transfer reinforcement learning, hierarchical reinforcement learning, and offline reinforcement learning. Different from existing studies, this work further discusses how large language models (LLMs) can be combined with RL to handle network optimization problems. It shows that LLM offers new opportunities to enhance the capabilities of RL algorithms in terms of generalization, reward function design, multi-modal information processing, etc. Finally, we identify the future challenges and directions of ML-enabled optimization for RIS-aided 6G networks.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 機械学習を用いた多重化単電子ポンプの高速特性評価

Fast characterization of multiplexed single-electron pumps with machine learning ( http://arxiv.org/abs/2405.20946v2 )

ライセンス: Link先を確認
N. Schoinas, Y. Rath, S. Norimoto, W. Xie, P. See, J. P. Griffiths, C. Chen, D. A. Ritchie, M. Kataoka, A. Rossi, I. Rungger, (参考訳) 単一電子ポンプ装置を現在の量子化方式に高速にチューニングするための機械学習に基づく効率的な自動化フレームワークを提案する。 反復能動学習アルゴリズムに基づくスパース計測手法を用いて、ゲート電圧パラメータ空間における目標測定を行う。 従来のパラメータースキャンと比較して、我々の自動フレームワークは測定点数を約1桁減らすことができる。 これは、量子化誤差を決定するのに要する時間の8倍の減少に対応しており、これはアルゴリズムに埋め込まれた第1の電流高原の指数的外挿によって推定される。 GaAs/AlGaAsマルチプレクサアレイに配置した28個の個別デバイスを特徴付けることで,並列動作に適したデバイスのサブセットを共通ゲート電圧で同定することで,フレームワークの堅牢性を示す。 この手法は、これらの多重デバイスの特性を多数のポンプに効率的に拡張する可能性を開く。

We present an efficient machine learning based automated framework for the fast tuning of single-electron pump devices into current quantization regimes. It uses a sparse measurement approach based on an iterative active learning algorithm to take targeted measurements in the gate voltage parameter space. When compared to conventional parameter scans, our automated framework allows us to decrease the number of measurement points by about an order of magnitude. This corresponds to an eight-fold decrease in the time required to determine quantization errors, which are estimated via an exponential extrapolation of the first current plateau embedded into the algorithm. We show the robustness of the framework by characterizing 28 individual devices arranged in a GaAs/AlGaAs multiplexer array, which we use to identify a subset of devices suitable for parallel operation at communal gate voltages. The method opens up the possibility to efficiently scale the characterization of such multiplexed devices to a large number of pumps.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 言語モデルは人間のような構造的プライミング効果を表わすか?

Do Language Models Exhibit Human-like Structural Priming Effects? ( http://arxiv.org/abs/2406.04847v2 )

ライセンス: Link先を確認
Jaap Jumelet, Willem Zuidema, Arabella Sinclair, (参考訳) 文とトークンレベルにおいて、どの言語要因が言語モデル予測に影響を与えるのかを探索し、これらがヒトとヒトのコーパスに見られる結果の反映であるかどうかを考察する(Gries and Kootstra, 2017)。 我々は、構造的プライミングのパラダイムを利用し、最近の構造への露出は、同じ構造の処理を容易にする。 我々は、プライミング効果がどこで起こるのか、どの要因がそれらを予測するのかを調査するだけでなく、調査する。 これらの効果は、ヒトのプライミングにおける逆周波数効果によって説明でき、プライマー内の稀な要素はプライマーのプライマー効果を増大させ、プライマーとターゲット間の語彙依存性を増大させる。 本研究は,言語モデルにおける特徴が構造的予測にどのように影響するかを理解するためのパズルにおいて重要なピースを提供する。

We explore which linguistic factors -- at the sentence and token level -- play an important role in influencing language model predictions, and investigate whether these are reflective of results found in humans and human corpora (Gries and Kootstra, 2017). We make use of the structural priming paradigm, where recent exposure to a structure facilitates processing of the same structure. We don't only investigate whether, but also where priming effects occur, and what factors predict them. We show that these effects can be explained via the inverse frequency effect, known in human priming, where rarer elements within a prime increase priming effects, as well as lexical dependence between prime and target. Our results provide an important piece in the puzzle of understanding how properties within their context affect structural prediction in language models.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 進行性エントロピー最適輸送解法

Progressive Entropic Optimal Transport Solvers ( http://arxiv.org/abs/2406.05061v2 )

ライセンス: Link先を確認
Parnian Kassraie, Aram-Alexandre Pooladian, Michal Klein, James Thornton, Jonathan Niles-Weed, Marco Cuturi, (参考訳) 最適なトランスポート(OT)は、データセットの認識に理論的および計算ツールを提供することによって、機械学習に大きな影響を与えている。 この文脈では、2つの大きな点の雲が$n$と$m$ in $\mathbb{R}^d$のとき、エントロピックOT (EOT) ソルバは、カントロビッチ問題を解き、$n\times m$結合行列を出力するか、あるいはモンジュ問題を解き、ベクトル値のプッシュ-フォワード写像を学ぶための最も信頼できるツールとして現れた。 EOTカップリング/マップのロバスト性は実践的応用において自由選択となるが、EOTソルバは小さいが影響力のあるハイパーパラメータの集合、特に一様エントロピー正則化強度$\varepsilon$のためにチューニングが難しいままである。 計算速度、統計性能、一般化、バイアスなど、さまざまなパフォーマンス指標に同時に影響を与えるため、$\varepsilon$の設定は難しい場合がある。 本研究では,計画図と輸送地図の両方を推定できる新しいEOT解法(ProgOT)を提案する。 我々は,時間離散化を用いて質量変位を分割し,動的OT定式化からインスピレーションを借用し,それぞれのステップを適切にスケジュールされたパラメータでEOTを用いて征服することにより,EOT解の計算を最適化するいくつかの機会を生かした。 我々は、ProgOTが、ニューラルネットワークベースのアプローチよりも高速で堅牢な、大規模な結合計算において、標準ソルバの代替手段であることを示す実験的なエビデンスを提供する。 また、最適な輸送地図を推定するためのアプローチの統計的整合性も証明する。

Optimal transport (OT) has profoundly impacted machine learning by providing theoretical and computational tools to realign datasets. In this context, given two large point clouds of sizes $n$ and $m$ in $\mathbb{R}^d$, entropic OT (EOT) solvers have emerged as the most reliable tool to either solve the Kantorovich problem and output a $n\times m$ coupling matrix, or to solve the Monge problem and learn a vector-valued push-forward map. While the robustness of EOT couplings/maps makes them a go-to choice in practical applications, EOT solvers remain difficult to tune because of a small but influential set of hyperparameters, notably the omnipresent entropic regularization strength $\varepsilon$. Setting $\varepsilon$ can be difficult, as it simultaneously impacts various performance metrics, such as compute speed, statistical performance, generalization, and bias. In this work, we propose a new class of EOT solvers (ProgOT), that can estimate both plans and transport maps. We take advantage of several opportunities to optimize the computation of EOT solutions by dividing mass displacement using a time discretization, borrowing inspiration from dynamic OT formulations, and conquering each of these steps using EOT with properly scheduled parameters. We provide experimental evidence demonstrating that ProgOT is a faster and more robust alternative to standard solvers when computing couplings at large scales, even outperforming neural network-based approaches. We also prove statistical consistency of our approach for estimating optimal transport maps.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# LLMエージェントの代表的なパラダイム:ツール利用(RAGを含む)、計画、フィードバック学習

A Review of Prominent Paradigms for LLM-Based Agents: Tool Use (Including RAG), Planning, and Feedback Learning ( http://arxiv.org/abs/2406.05804v3 )

ライセンス: Link先を確認
Xinzhe Li, (参考訳) ツールの使用、計画、フィードバック学習は、様々なタスクにわたるLarge Language Model (LLM)ベースのエージェントを開発するための3つの重要なパラダイムである。 それぞれのパラダイムに多くのフレームワークが考案されているが、それらの複雑なワークフローと一貫性のない分類は、異なるパラダイムにわたるフレームワークの理解とレビューの課題を生み出している。 この調査では、これらのフレームワークを体系的にレビューし、議論するための統合された分類法を導入している。 具体的には 1) 環境・タスク, LLMに代表される一般的な役割(政治モデル, 評価者, 動的モデル),及び先行作業で見られる普遍的なワークフローを定義する。 2) 異なるエージェントパラダイム間のLMPR実装とワークフロー利用に関する重要な視点の比較を可能にする。

Tool use, planning, and feedback learning are currently three prominent paradigms for developing Large Language Model (LLM)-based agents across various tasks. Although numerous frameworks have been devised for each paradigm, their intricate workflows and inconsistent taxonomy create challenges in understanding and reviewing the frameworks across different paradigms. This survey introduces a unified taxonomy to systematically review and discuss these frameworks. Specifically, 1) the taxonomy defines environments/tasks, common LLM-profiled roles (policy models, evaluators, and dynamic models), and universally applicable workflows found in prior work, and 2) it enables a comparison of key perspectives on LMPR implementations and workflow usage across different agent paradigms.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# 公検証量子乱数に対する4量子フォトニクスシステムと公開鍵と秘密鍵の生成

Four-qubit photonic system for publicly verifiable quantum random numbers and generation of public and private key ( http://arxiv.org/abs/2406.07156v2 )

ライセンス: Link先を確認
Mayalakshmi Kolangatt, Anirudh Verma, Sujai Matta, Kanad Sengupta, C. M. Chandrashekar, (参考訳) 理論的には、4量子ビットフォトニクスシステムを用いて、公に検証可能な量子乱数を生成し、絡み合い検証を行い、セキュアな公開鍵と秘密鍵を生成する。 所望の4量子状態を生成する量子回路とそのフォトニックアーキテクチャにおける実験的実現は、偏光と経路自由度に絡み合った光子対を用いて行う。 370kbpsの集合データから,4kbpsの4kbpsシステムの測定を行い,公開検証のための部分情報にアクセスすることにより,185kbpsの確率で公証かつ純粋に保証されたランダムビットを生成する。 システムがパブリックキーとプライベートキーの生成に使用される場合、同じ数のパブリックキーとプライベートキーが同時に生成される。 また、4量子状態からのサンプルビットの97.9%が絡み合い検証に合格し、画像暗号化復号のために生成された公開鍵と秘密鍵の使用を実証している。 4量子状態における雑音の理論モデルとその検証および確保されたビットの生成速度への影響は実験結果と完全に一致している。 これは、量子システムのセキュリティ特性をリアルタイムに検証するオプションを提供することにより、量子セーフなアプリケーションに小型のマルチキュービットフォトニクスシステムの実用性を実証するものである。

We theoretically propose and experimentally demonstrate the use of a configurable four-qubit photonic system to generate a publicly verifiable quantum random numbers, to perform entanglement verification, and to generate secure public and private key. Quantum circuits, to generate the desired four-qubit states and its experimental realization in the photonic architecture is carried out using photon pairs entangled in polarization and path degree of freedom. By performing measurements on the four-qubit system and accessing partial information of the four-qubit state for public verification, we generate publicly verified and purely secured random bits at the rate of 185 kbps from collective data of 370 kbps. When the system is used for generating public and private keys, an equal number of public and private keys are generated simultaneously. We also record about 97.9% of sampled bits from four-qubit states passing entanglement verification and demonstrate the use of public and private key generated for image encryption-decryption. The theoretical model of noise on the four-qubit state and its effect on the generation rate of verified and secured bits are in perfect agreement with the experimental results. This demonstrates the practical use of the small-scale multi-qubit photonic system for quantum-safe applications by providing the option for real-time verification of the security feature of the quantum system.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# ChatGPTにおける言語バイアス:言語モデルによる方言識別の強化

Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination ( http://arxiv.org/abs/2406.08818v3 )

ライセンス: Link先を確認
Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein, (参考訳) 本稿では,ChatGPTが英語の方言10種類(スタンダード・アメリカン・イングリッシュ(Standard American English),スタンダード・イングリッシュ(Standard British English),および世界中から広く話されている8種類の非標準的方言)をカバーする言語バイアスについて,大規模な研究を行った。 GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,詳細な言語的特徴アノテーションと母語話者評価を用いて応答を解析した。 ネイティブ話者による評価に基づいて、非標準型に対するモデル応答は、ステレオタイピング(標準型よりも19%悪い)、コンテンツ重視(25%悪い)、理解の欠如(9%悪い)、譲歩応答(15%悪い)といった問題に一貫して現れている。 また、これらのモデルが「標準」でない品種のプロンプトの書体スタイルを模倣するよう要求された場合、入力の理解度が低く、特にステレオタイピングが困難であるテキストを生成する。 GPT-4は、理解、温かさ、親和性の点でGPT-3.5を改善するが、ステレオタイピング(+18%)の顕著な増加を示す。 その結果, GPT-3.5 Turbo と GPT-4 は非標準型話者に対する言語的識別を持続的に行うことができた。

We present a large-scale study of linguistic bias exhibited by ChatGPT covering ten dialects of English (Standard American English, Standard British English, and eight widely spoken non-"standard" varieties from around the world). We prompted GPT-3.5 Turbo and GPT-4 with text by native speakers of each variety and analyzed the responses via detailed linguistic feature annotation and native speaker evaluation. We find that the models default to "standard" varieties of English; based on evaluation by native speakers, we also find that model responses to non-"standard" varieties consistently exhibit a range of issues: stereotyping (19% worse than for "standard" varieties), demeaning content (25% worse), lack of comprehension (9% worse), and condescending responses (15% worse). We also find that if these models are asked to imitate the writing style of prompts in non-"standard" varieties, they produce text that exhibits lower comprehension of the input and is especially prone to stereotyping. GPT-4 improves on GPT-3.5 in terms of comprehension, warmth, and friendliness, but also exhibits a marked increase in stereotyping (+18%). The results indicate that GPT-3.5 Turbo and GPT-4 can perpetuate linguistic discrimination toward speakers of non-"standard" varieties.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# ソーシャルメディアと検索エンジンの橋渡し:ドレッジワードと信頼できないドメインの検出

Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains ( http://arxiv.org/abs/2406.11423v2 )

ライセンス: Link先を確認
Evan M. Williams, Peter Carragher, Kathleen M. Carley, (参考訳) プロアクティブなコンテンツモデレーションでは、プラットフォームがWebサイトの信頼性を迅速かつ継続的に評価する必要がある。 ユーザが信頼できないウェブサイトに追従する直接的・間接的なパスを活用することで,Webグラフと大規模ソーシャルメディアのコンテキストを統合したWebサイト信頼性の分類と発見システムを開発する。 さらに,信頼できないドメインが検索エンジン上で高いランクを付けるような単語,用語,フレーズの概念を導入し,ソーシャルメディア上での利用を初めて探究する。 Webグラフとソーシャルメディアのコンテキストを組み合わせたグラフニューラルネットワークは、Webサイトの信頼性分類における最先端の結果を生み出し、信頼性の低いドメインの上位k識別を大幅に改善する。 さらに、ソーシャルメディアとオンラインコマースプラットフォームとの強いつながりを強調した、ドレッジワードの新たなデータセットもリリースしています。

Proactive content moderation requires platforms to rapidly and continuously evaluate the credibility of websites. Leveraging the direct and indirect paths users follow to unreliable websites, we develop a website credibility classification and discovery system that integrates both webgraph and large-scale social media contexts. We additionally introduce the concept of dredge words, terms or phrases for which unreliable domains rank highly on search engines, and provide the first exploration of their usage on social media. Our graph neural networks that combine webgraph and social media contexts generate to state-of-the-art results in website credibility classification and significantly improves the top-k identification of unreliable domains. Additionally, we release a novel dataset of dredge words, highlighting their strong connections to both social media and online commerce platforms.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# マルチショットインテクスト学習はLCMを評価要因として有効か? : 予備的実証的研究

Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study ( http://arxiv.org/abs/2406.11629v4 )

ライセンス: Link先を確認
Mingyang Song, Mao Zheng, Xuan Luo, (参考訳) LLMの性能を評価するための評価手段として,LLM(Large Language Models)の利用が注目されている。 しかし、このような評価手法はLLMの潜在的なバイアスに影響され、評価結果の正確性や信頼性に対する懸念が高まる。 この問題を緩和するために, LLM の潜在的なバイアスを軽減するために, マルチショット ICL プロンプトテンプレートの2つのバージョン, \textbf{M}any-\textbf{S}hot \textbf{w}ith \textbf{R}eference (\textbf{MSwR}) と \textbf{M}any-\textbf{S}hot with\textbf{o}ut \textbf{R}eference (\textbf{MSoR}) を用いた2つの多ショット ICL プロンプトを提案する。 具体的には、前者は、モデル生成論理をガイダンスとして使用し、後者は無意味である。 設計したプロンプトに基づいて,テキスト内サンプルのスケーリングが評価結果の一貫性と品質に与える影響について検討する。 GPT-4oのような高度なLCMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。 さらに, LLMの選択バイアスに隠されたシンボルバイアスを明らかにし, バイアスを軽減するための単純かつ効果的なアプローチを提案する。 実験結果は,シンボルバイアス緩和手法の有効性をさらに検証した。

Utilizing Large Language Models (LLMs) as evaluators for evaluating the performance of LLMs has recently garnered attention. However, this kind of evaluation approach is affected by potential biases in LLMs, raising concerns about the accuracy and reliability of the evaluation results. To mitigate this issue, we propose and study two many-shot ICL prompts, which rely on two versions of many-shot ICL prompt templates for helping LLM evaluators to mitigate the potential biases in LLMs, \textbf{M}any-\textbf{S}hot \textbf{w}ith \textbf{R}eference (\textbf{MSwR}) and \textbf{M}any-\textbf{S}hot with\textbf{o}ut \textbf{R}eference (\textbf{MSoR}). Concretely, the former utilizes in-context examples with model-generated rationales as guidance, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the consistency and quality of the evaluation results. Experimental results show that advanced LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Furthermore, we reveal the symbol bias hidden in the selection bias of LLMs and propose a simple yet effective approach to mitigate the bias. Experimental results further verify the effectiveness of the symbol bias mitigation approach.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-17
# AIによる機械翻訳の人間による評価

AI-Assisted Human Evaluation of Machine Translation ( http://arxiv.org/abs/2406.12419v2 )

ライセンス: Link先を確認
Vilém Zouhar, Tom Kocmi, Mrinmaya Sachan, (参考訳) 毎年、研究チームは機械翻訳システム(WMT, inter alia)の品質を評価するために大量のお金を費やしています。 これは、多くの専門的な人的労働を必要とするため、高価です。 最近採用されたアノテーションプロトコルであるError Span Annotation (ESA)には、翻訳の誤った部分をマークし、最終的なスコアを割り当てるアノテーションがある。 アナテータの時間の多くは、可能なエラーのために翻訳をスキャンするのに費やされます。 本研究では,エラーアノテーションをリコール指向の自動品質推定でプリフィルすることで,アノテーションを補助する。 このAIアシストでは、同じ品質レベルでアノテーションを取得しながら、アノテーションごとの時間を半分に削減します(71s/error span $\rightarrow $ 31s/error span)。 ESA$^\mathrm{AI}$プロトコルの最大の利点は、最終的なスコアを割り当てる前にアノテータ(プリフィルされたエラースパン)の正確なプライミングである。 これにより、自動化バイアスが軽減され、低いことが確認できます。 さらに、AIが正しいと判断する例をフィルタリングすることで、アノテーション予算を約25%削減することができる。

Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires a lot of expert human labor. The recently adopted annotation protocol, Error Span Annotation (ESA), has annotators marking erroneous parts of the translation and then assigning a final score. A lot of the annotator time is spent on scanning the translation for possible errors. In our work, we help the annotators by pre-filling the error annotations with recall-oriented automatic quality estimation. With this AI assistance, we obtain annotations at the same quality level while cutting down the time per span annotation by half (71s/error span $\rightarrow$ 31s/error span). The biggest advantage of ESA$^\mathrm{AI}$ protocol is an accurate priming of annotators (pre-filled error spans) before they assign the final score. This also alleviates a potential automation bias, which we confirm to be low. In addition, the annotation budget can be reduced by almost 25\% with filtering of examples that the AI deems to be very likely to be correct.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# チェコ語形態素解析のための形態素辞書対応ディープラーニングによるオープンソースWebサービス

Open-Source Web Service with Morphological Dictionary-Supplemented Deep Learning for Morphosyntactic Analysis of Czech ( http://arxiv.org/abs/2406.12422v2 )

ライセンス: Link先を確認
Milan Straka, Jana Straková, (参考訳) チェコ語形態素解析のためのオープンソースのWebサービスを提案する。 このシステムは、推論時の高精度な形態素辞書による深層学習モデルと再構成を組み合わせる。 ディープラーニングモデルは、語彙外単語の一般化と曖昧さの向上を保証するが、既存の形態素解析器であるMorphoDiTaよりも改善され、同時に、深層学習モデルは手作業による形態素辞書の推測時間指導の恩恵を受ける。 また,MorphoDiTa上のPOSタグの50%の誤り低減と58%の誤り低減を実現し,依存性解析も提供する。 このモデルは、現在チェコ最大のモルフォシンタクティックコーポラであるPDT-C 1.0で訓練されており、訓練されたモデルはhttps://hdl.handle.net/11234/1-5293で利用可能である。 私たちはこのツールをhttps://lindat.mff.cuni.cz/services/udpipe/.comにデプロイしたWebサービスとして提供します。 ソースコードはGitHubで入手できる(https://github.com/ufal/udpipe/tree/udpipe-2)。 モデルのドキュメントはhttps://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_modelにある。

We present an open-source web service for Czech morphosyntactic analysis. The system combines a deep learning model with rescoring by a high-precision morphological dictionary at inference time. We show that our hybrid method surpasses two competitive baselines: While the deep learning model ensures generalization for out-of-vocabulary words and better disambiguation, an improvement over an existing morphological analyser MorphoDiTa, at the same time, the deep learning model benefits from inference-time guidance of a manually curated morphological dictionary. We achieve 50% error reduction in lemmatization and 58% error reduction in POS tagging over MorphoDiTa, while also offering dependency parsing. The model is trained on one of the currently largest Czech morphosyntactic corpora, the PDT-C 1.0, with the trained models available at https://hdl.handle.net/11234/1-5293. We provide the tool as a web service deployed at https://lindat.mff.cuni.cz/services/udpipe/. The source code is available at GitHub (https://github.com/ufal/udpipe/tree/udpipe-2), along with a Python client for a simple use. The documentation for the models can be found at https://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_model.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# Wagnerフレームワークの体系化:グラフ理論の導出と強化学習

A Systematization of the Wagner Framework: Graph Theory Conjectures and Reinforcement Learning ( http://arxiv.org/abs/2406.12667v2 )

ライセンス: Link先を確認
Flora Angileri, Giulia Lombardi, Andrea Fois, Renato Faraone, Carlo Metta, Michele Salvi, Luigi Amedeo Bianchi, Marco Fantozzi, Silvia Giulia Galfrè, Daniele Pavesi, Maurizio Parton, Francesco Morandin, (参考訳) 2021年、アダム・ゾルト・ワグナー (Adam Zsolt Wagner) はReinforcement Learning (RL) を用いてグラフ理論の予想を解き放つアプローチを提案した。 ワグナーの考えは、すべてのグラフ G に対してある量 f(G) < 0 のような予想を考えると、単一のプレイヤーグラフ構築ゲーム(英語版)をプレイでき、各ターンでプレイヤーがエッジを追加するかどうかを決定することができる。 ゲームは、すべてのエッジが考慮されたときに終了し、あるグラフ G_T となり、f(G_T) がゲームの最終スコアとなり、RL がこのスコアを最大化する。 この素晴らしいアイデアは革新的で、体系的な一般化に役立ちます。 様々なRLアルゴリズムとともに、いくつかの異なるシングルプレイヤーグラフ構築ゲームが利用可能である。 さらに、RLは累積報酬を最大化し、最終的な累積報酬が利息f(G_T)の量を表すならば、単一の最終スコアではなくステップバイステップの報酬を可能にする。 本稿では,ワグナーの枠組みにおいて重要な,これらおよび他の様々な選択肢について論じる。 この体系化への貢献として、我々は4つの異なるシングルプレイヤーグラフ構築ゲームを示す。 各ゲームはステップバイステップの報酬システムと1つのファイナルスコアの両方を使用する。 また、任意の予想に対して最も適切なニューラルネットワークアーキテクチャを選択するための原則的アプローチを提案し、ラプラシアンスペクトルをラベル付けしたグラフの新しいデータセットを導入する。 さらに、一致した数とスペクトル半径の和に関する予想に対する反例を示し、これはワグナーの原論文の例よりも単純である。 ゲームは、Gymnasiumフレームワークの環境として実装され、データセットとともに、オープンソースサプリメント素材として利用可能である。

In 2021, Adam Zsolt Wagner proposed an approach to disprove conjectures in graph theory using Reinforcement Learning (RL). Wagner's idea can be framed as follows: consider a conjecture, such as a certain quantity f(G) < 0 for every graph G; one can then play a single-player graph-building game, where at each turn the player decides whether to add an edge or not. The game ends when all edges have been considered, resulting in a certain graph G_T, and f(G_T) is the final score of the game; RL is then used to maximize this score. This brilliant idea is as simple as innovative, and it lends itself to systematic generalization. Several different single-player graph-building games can be employed, along with various RL algorithms. Moreover, RL maximizes the cumulative reward, allowing for step-by-step rewards instead of a single final score, provided the final cumulative reward represents the quantity of interest f(G_T). In this paper, we discuss these and various other choices that can be significant in Wagner's framework. As a contribution to this systematization, we present four distinct single-player graph-building games. Each game employs both a step-by-step reward system and a single final score. We also propose a principled approach to select the most suitable neural network architecture for any given conjecture, and introduce a new dataset of graphs labeled with their Laplacian spectra. Furthermore, we provide a counterexample for a conjecture regarding the sum of the matching number and the spectral radius, which is simpler than the example provided in Wagner's original paper. The games have been implemented as environments in the Gymnasium framework, and along with the dataset, are available as open-source supplementary materials.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 非エルミチアンフロケット理論からの光子統計:高調波発生と赤外検出器で検出される3次元イオン化スペクトル

Photon Statistics from Non-Hermitian Floquet Theory: High Harmonic Generation and Above-Threshold Ionization Spectra Detected via IR Detectors ( http://arxiv.org/abs/2406.13109v2 )

ライセンス: Link先を確認
Nimrod Moiseyev, (参考訳) 古典的な計算から光の量子的性質を取得することは、自己矛盾的な主張であるように見えるが、高調波発生スペクトル(HGS)、高閾値イオン化(ATI)、赤外光子数分布の3つの異なる測定を統一的な機構が支配しており、いずれも電磁場の量子化を必要としない。 ここでは、光子統計から高強度レーザー場と相互作用する原子に対するHGSおよびAITスペクトルの計算を可能にする条件を導出する。 非エルミート理論シミュレーションにより、HHGとAITスペクトルと消滅したポンプ光子(選択後)が対応している状態が同定される。 これにより、XUV検出器によって検出されたHGSおよびAITスペクトルは、赤外線吸収光子のゆらぎを監視して得られる。

Although it seems that obtaining quantum properties of light from classical calculations is a self-contradictory claim, it is shown here that a unified mechanism governs the three distinct measurements of high harmonic generation spectra (HGS), above-threshold ionization (ATI), and IR photon number distribution, none of which require the quantization of the electromagnetic field. Here, the conditions that enable the calculations of HGS and ATI spectra for atoms interacting with high-intensity laser fields from photon statistics are first derived. Through the non-Hermitian theoretical simulation, the regimes where there is correspondence between the HHG and ATI spectra and annihilated pump photons (with post-selection) are identified. Consequently, the HGS and ATI spectra, as detected by XUV detectors, can be obtained by monitoring the fluctuations of the infrared absorbed photons.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 量子後暗号の応用

Applications of Post-quantum Cryptography ( http://arxiv.org/abs/2406.13258v3 )

ライセンス: Link先を確認
Emils Bagirovs, Grigory Provodin, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピュータの絶えず進歩する能力により、複雑な数学問題に依存する従来の暗号システムは、予期せぬ脆弱性に遭遇する可能性がある。 暗号攻撃ではコスト非効率と見なされる通常のコンピュータとは異なり、量子コンピュータは計算速度において大きな利点がある。 この区別は、現在使われているアルゴリズムの安全性を低下させるか、あるいは完全に脆弱にする可能性があり、量子脅威に対する最も合理的な解決策として、量子後暗号(PQC)の探索を説得する。 このレビューは、PQCに関連するアプリケーション、メリット、課題に関する現在の情報を提供することを目的としている。 このレビューでは、2022年と2023年に制限された範囲の体系的なスクーピングのレビューを採用しており、この論文では科学雑誌に掲載された記事のみが使用された。 このレビューでは、様々な分野における量子コンピューティングの適用について論じている。 しかし,本論文の範囲はPQCの領域に限定された。 その後、格子ベース、ハッシュベース、コードベース、多変量多項式、等質暗号など様々なPQCアルゴリズムを解析する。 それぞれのアルゴリズムは、潜在的な応用、堅牢性、課題に基づいて判断される。 分析されたアルゴリズムはすべて、デジタルシグネチャ、通信チャネル、IoTといったアプリケーションにおいて、クォータ後の時代に期待されている。 さらに、いくつかのアルゴリズムは、銀行取引、通信、知的財産の領域で既に実装されている。 一方、それらの可能性にもかかわらず、これらのアルゴリズムは標準化の欠如、大量のストレージと計算能力を必要とし、何年もの暗号解析でしか発見できない未知の脆弱性を抱えているため、深刻な課題に直面している。

With the constantly advancing capabilities of quantum computers, conventional cryptographic systems relying on complex math problems may encounter unforeseen vulnerabilities. Unlike regular computers, which are often deemed cost-ineffective in cryptographic attacks, quantum computers have a significant advantage in calculation speed. This distinction potentially makes currently used algorithms less secure or even completely vulnerable, compelling the exploration of post-quantum cryptography (PQC) as the most reasonable solution to quantum threats. This review aims to provide current information on applications, benefits, and challenges associated with the PQC. The review employs a systematic scoping review with the scope restricted to the years 2022 and 2023; only articles that were published in scientific journals were used in this paper. The review examined the articles on the applications of quantum computing in various spheres. However, the scope of this paper was restricted to the domain of the PQC because most of the analyzed articles featured this field. Subsequently, the paper is analyzing various PQC algorithms, including lattice-based, hash-based, code-based, multivariate polynomial, and isogeny-based cryptography. Each algorithm is being judged based on its potential applications, robustness, and challenges. All the analyzed algorithms are promising for the post-quantum era in such applications as digital signatures, communication channels, and IoT. Moreover, some of the algorithms are already implemented in the spheres of banking transactions, communication, and intellectual property. Meanwhile, despite their potential, these algorithms face serious challenges since they lack standardization, require vast amounts of storage and computation power, and might have unknown vulnerabilities that can be discovered only with years of cryptanalysis.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 量子コンピューティングのサイバー保護応用 : レビュー

Cyber Protection Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13259v3 )

ライセンス: Link先を確認
Ummar Ahmed, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピューティング(Quantum Computing)は、量子力学の原理を利用して計算を行う情報技術の最先端分野である。 これはサイバーセキュリティ産業に大きな影響を与える。 既存のサイバー保護アプリケーションはうまく機能しているが、コンピュータネットワークには依然として課題と脆弱性がある。 データやプライバシーも侵害されることがある。 これらの合併症は、量子コンピューティングのどんなサイバー保護アプリケーションがあるのか、サイバー保護にどんな方法やテクニックが使えるのか、という研究の疑問に繋がる。 これらの疑問は、量子コンピューティングがどれだけのパワーを持ち、それが従来のコンピューティングシステムよりどの程度優れているかを明らかにする。 このスコーピングのレビューは815の論文を考慮して行われた。 量子技術がサイバー環境で実装された場合、実現可能な可能性を示した。 このスコーピングレビューでは、アルゴリズムやアプリケーション、バイオインフォマティクス、クラウドとエッジコンピューティング、複雑なシステムの組織化、セキュリティと脅威に焦点を当てたアプリケーション領域、より広範な量子コンピューティングエコシステムなど、さまざまな領域について論じている。 これらの分野では、量子コンピューティングが実装され、作業環境に革命をもたらすための重要なスコープがある。 サイバー保護のための多くの量子コンピューティングアプリケーションと、データとプライバシを保護するための多くのテクニックが同定された。 結果はネットワークセキュリティに限らず、データセキュリティも含んでいる。 本稿では、社会科学における量子コンピューティングの応用など、社会的側面についても論じる。 このスクーピングレビューでは、様々なサイバーセキュリティドメインにおける量子コンピューティングの効率性とセキュリティの強化について論じる。 さらに、これは読者に、サイバー世界を保護するためにどんな技術や方法が展開できるかを考えることを奨励する。

Quantum computing is a cutting-edge field of information technology that harnesses the principles of quantum mechanics to perform computations. It has major implications for the cyber security industry. Existing cyber protection applications are working well, but there are still challenges and vulnerabilities in computer networks. Sometimes data and privacy are also compromised. These complications lead to research questions asking what kind of cyber protection applications of quantum computing are there and what potential methods or techniques can be used for cyber protection? These questions will reveal how much power quantum computing has and to what extent it can outperform the conventional computing systems. This scoping review was conducted by considering 815 papers. It showed the possibilities that can be achievedif quantum technologies are implemented in cyber environments. This scoping review discusses various domains such as algorithms and applications, bioinformatics, cloud and edge computing, the organization of complex systems, application areas focused on security and threats, and the broader quantum computing ecosystem. In each of these areas, there is significant scope for quantum computing to be implemented and to revolutionize the working environment. Numerous quantum computing applications for cyber protection and a number of techniques to protect our data and privacy were identified. The results are not limited to network security but also include data security. This paper also discusses societal aspects, e.g., the applications of quantum computing in the social sciences. This scoping review discusses how to enhance the efficiency and security of quantum computing in various cyber security domains. Additionally, it encourages the reader to think about what kind of techniques and methods can be deployed to secure the cyber world.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 量子コンピューティングの機械学習応用

Machine Learning Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13262v3 )

ライセンス: Link先を確認
Thien Nguyen, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピューティングと機械学習の交差点では、従来の計算手法の限界をはるかに超えて、これらの技術がデータ処理と分析の能力に与える影響について検討する。 このレビューは、32のセミナル論文の詳細な分析に基づいて、量子コンピューティングと機械学習の相互作用を掘り下げ、先進的なデータ処理とアプリケーションにおける古典的コンピューティングの限界を超越することに焦点を当てる。 このレビューでは、これらの進歩から大きな恩恵を受ける重要な分野であるサイバーセキュリティの強化における量子化手法の可能性を強調している。 学術データベースとしてScience Directを主に活用したこの文献レビューは、機械学習における量子技術の変革的効果を掘り下げ、さまざまな研究や学術論文から洞察を引き出す。 主にサイバーセキュリティにおける量子コンピューティングの重要性の増大に焦点が当てられているが、このレビューは、分野が成熟するにつれて他のセクターに有望な意味があることも認めている。 我々の体系的なアプローチは、量子機械学習アルゴリズム、アプリケーション、課題、そして潜在的な将来の発展に基づくソースを分類し、量子コンピューティングが実用的な機械学習シナリオでますます実装されていることを明らかにする。 このレビューは、量子化された機械学習アルゴリズムの進歩とサイバーセキュリティなどの分野における潜在的な応用を強調し、倫理的およびセキュリティ上の懸念を考慮しつつ、業界固有のソリューションの必要性を強調している。 本論文は,現状の概要と今後の方向性を提示することによって,量子機械学習の継続的な研究と戦略的発展の基礎を定めている。

At the intersection of quantum computing and machine learning, this review paper explores the transformative impact these technologies are having on the capabilities of data processing and analysis, far surpassing the bounds of traditional computational methods. Drawing upon an in-depth analysis of 32 seminal papers, this review delves into the interplay between quantum computing and machine learning, focusing on transcending the limitations of classical computing in advanced data processing and applications. This review emphasizes the potential of quantum-enhanced methods in enhancing cybersecurity, a critical sector that stands to benefit significantly from these advancements. The literature review, primarily leveraging Science Direct as an academic database, delves into the transformative effects of quantum technologies on machine learning, drawing insights from a diverse collection of studies and scholarly articles. While the focus is primarily on the growing significance of quantum computing in cybersecurity, the review also acknowledges the promising implications for other sectors as the field matures. Our systematic approach categorizes sources based on quantum machine learning algorithms, applications, challenges, and potential future developments, uncovering that quantum computing is increasingly being implemented in practical machine learning scenarios. The review highlights advancements in quantum-enhanced machine learning algorithms and their potential applications in sectors such as cybersecurity, emphasizing the need for industry-specific solutions while considering ethical and security concerns. By presenting an overview of the current state and projecting future directions, the paper sets a foundation for ongoing research and strategic advancement in quantum machine learning.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 室内環境のためのNOMA支援マルチスターRISの設計最適化:凸近似Imitated Reinforcement Learningアプローチ

Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach ( http://arxiv.org/abs/2406.13280v2 )

ライセンス: Link先を確認
Yu Min Park, Sheikh Salman Hassan, Yan Kyaw Tun, Eui-Nam Huh, Walid Saad, Choong Seon Hong, (参考訳) 非直交多重アクセス(NOMA)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)が360度フルスペースカバレッジを提供し、送信とリフレクションの両方を最適化し、ネットワーク性能と屋内環境の動的制御を改善している。 しかし、STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム構成における課題を提起する。 本研究では,複数のアクセスポイント(AP),STAR-RIS,NOMAを利用した新しいネットワークアーキテクチャを提案する。 これらの問題に対処するために、ユーザ割り当て、アクセスポイント(AP)ビームフォーミング、STAR-RIS位相制御を含む最適化問題を定式化する。 分解手法は複雑な問題を効率的に解くために用いられ、ユーザ-AP割り当てに複数対1のマッチングアルゴリズム、リソース管理にK平均クラスタリングを用いる。 さらにマルチエージェント深部強化学習(MADRL)を用いてSTAR-RISの制御を最適化する。 提案するMADRLフレームワーク内では,各決定変数が独立したエージェントとして機能し,協調学習と意思決定を可能にする新しいアプローチが導入された。 MADRLフレームワークは、コンベックス近似(CA)を導入して強化され、コンベックス近似(SCA)からの準最適解によるポリシー学習を加速し、適応と収束を高速化する。 シミュレーションでは、ベースラインアプローチと比較してネットワークユーティリティが大幅に改善されている。

Non-orthogonal multiple access (NOMA) enables multiple users to share the same frequency band, and simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) provides 360-degree full-space coverage, optimizing both transmission and reflection for improved network performance and dynamic control of the indoor environment. However, deploying STAR-RIS indoors presents challenges in interference mitigation, power consumption, and real-time configuration. In this work, a novel network architecture utilizing multiple access points (APs), STAR-RISs, and NOMA is proposed for indoor communication. To address these, we formulate an optimization problem involving user assignment, access point (AP) beamforming, and STAR-RIS phase control. A decomposition approach is used to solve the complex problem efficiently, employing a many-to-one matching algorithm for user-AP assignment and K-means clustering for resource management. Additionally, multi-agent deep reinforcement learning (MADRL) is leveraged to optimize the control of the STAR-RIS. Within the proposed MADRL framework, a novel approach is introduced in which each decision variable acts as an independent agent, enabling collaborative learning and decision making. The MADRL framework is enhanced by incorporating convex approximation (CA), which accelerates policy learning through suboptimal solutions from successive convex approximation (SCA), leading to faster adaptation and convergence. Simulations demonstrate significant improvements in network utility compared to baseline approaches.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 空間ボット:視覚言語モデルを用いた精密空間理解

SpatialBot: Precise Spatial Understanding with Vision Language Models ( http://arxiv.org/abs/2406.13642v6 )

ライセンス: Link先を確認
Wenxiao Cai, Iaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao, (参考訳) 視覚言語モデル(VLM)は2次元画像理解において目覚ましい性能を達成しているが、Embodied AIの基盤である空間的理解に苦慮している。 本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。 さらに、深度理解のためのVLMを訓練するために、多段階の深度関連質問を含むSpatialQAデータセットを構築した。 最後に、異なるレベルでの空間理解におけるVLMの能力を総合的に評価するために、SpatialBenchを提案する。 我々の空間理解ベンチマーク、一般的なVLMベンチマーク、Embodied AIタスクに関する大規模な実験は、SpatialQAでトレーニングされたSpatialBotの顕著な改善を実証している。 モデル、コード、データはhttps://github.com/BAAI-DCAI/SpatialBotで入手できる。

Vision Language Models (VLMs) have achieved impressive performance in 2D image understanding, however they are still struggling with spatial understanding which is the foundation of Embodied AI. In this paper, we propose SpatialBot for better spatial understanding by feeding both RGB and depth images. Additionally, we have constructed the SpatialQA dataset, which involves multi-level depth-related questions to train VLMs for depth understanding. Finally, we present SpatialBench to comprehensively evaluate VLMs' capabilities in spatial understanding at different levels. Extensive experiments on our spatial-understanding benchmark, general VLM benchmarks and Embodied AI tasks, demonstrate the remarkable improvements of SpatialBot trained on SpatialQA. The model, code and data are available at https://github.com/BAAI-DCAI/SpatialBot.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# ImageFlowNet:不規則にサンプリングされた縦断的医用画像による疾患進行のマルチスケール画像レベル軌跡の予測

ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images ( http://arxiv.org/abs/2406.14794v4 )

ライセンス: Link先を確認
Chen Liu, Ke Xu, Liangbo L. Shen, Guillaume Huguet, Zilong Wang, Alexander Tong, Danilo Bzdok, Jay Stewart, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy, (参考訳) 医療画像技術の進歩により、同じ患者の繰り返しスキャンを含む縦断画像の収集が、疾患の進行を監視できるようになった。 しかし、高次元性、不規則なサンプリング、データの分散性のため、そのようなデータの予測モデリングは依然として困難である。 これらの課題に対処するために,空間的詳細を保存しつつ,初期画像から疾患軌跡を予測できる新しいモデルであるImageFlowNetを提案する。 ImageFlowNetはまず患者と時間点をまたいだマルチスケールの関節表現空間を学習し、位置パラメータ化されたニューラルODE/SDEフレームワークを使用して、これらの空間内の決定論的または確率的流れ場を最適化する。 このモデルはUNetアーキテクチャを活用し、堅牢なマルチスケール表現を作成し、すべての患者からの知識を組み合わせることでデータの不足を軽減する。 我々は、ODEの定式化を支援し、高レベルの視覚的特徴、潜在空間の組織、軌道の滑らかさを含む正規化を動機付ける理論的洞察を提供する。 画像FlowNetは, 地理的萎縮, 多発性硬化症, グリオ芽腫の進行を示す3つの縦断的医用画像データセットを用いて評価し, 疾患の進行を効果的に予測し, 既存の方法より優れていることを示す。 コントリビューションには、ImageFlowNetの開発、理論的基盤、実世界のデータセットに対する実証検証などが含まれています。 公式実装はhttps://github.com/KrishnaswamyLab/ImageFlowNetで公開されている。

Advances in medical imaging technologies have enabled the collection of longitudinal images, which involve repeated scanning of the same patients over time, to monitor disease progression. However, predictive modeling of such data remains challenging due to high dimensionality, irregular sampling, and data sparsity. To address these issues, we propose ImageFlowNet, a novel model designed to forecast disease trajectories from initial images while preserving spatial details. ImageFlowNet first learns multiscale joint representation spaces across patients and time points, then optimizes deterministic or stochastic flow fields within these spaces using a position-parameterized neural ODE/SDE framework. The model leverages a UNet architecture to create robust multiscale representations and mitigates data scarcity by combining knowledge from all patients. We provide theoretical insights that support our formulation of ODEs, and motivate our regularizations involving high-level visual features, latent space organization, and trajectory smoothness. We validate ImageFlowNet on three longitudinal medical image datasets depicting progression in geographic atrophy, multiple sclerosis, and glioblastoma, demonstrating its ability to effectively forecast disease progression and outperform existing methods. Our contributions include the development of ImageFlowNet, its theoretical underpinnings, and empirical validation on real-world datasets. The official implementation is available at https://github.com/KrishnaswamyLab/ImageFlowNet.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 大規模言語モデルのためのエンティティ・レベル・アンラーニングの展開:包括的分析

Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis ( http://arxiv.org/abs/2406.15796v3 )

ライセンス: Link先を確認
Weitao Ma, Xiaocheng Feng, Weihong Zhong, Lei Huang, Yangfan Ye, Xiachong Feng, Bing Qin, (参考訳) 大規模言語モデルのアンラーニングは、セキュリティとプライバシの懸念に対処する可能性から注目を集めており、この分野での広範な研究につながっている。 しかしながら、この研究の多くは、機密コンテンツを含む事前定義されたインスタンスの削除を対象とする、インスタンスレベルの未学習に集中している。 この焦点は、著作権保護のような現実のシナリオにおいて重要な、完全なエンティティレベルのアンラーニングの探究において、大きなギャップを残しています。 そこで本研究では,対象モデルからエンティティ関連知識を完全に消去することを目的とした,エンティティレベルのアンラーニングの新たなタスクを提案する。 この課題を徹底的に検討するため,非学習アルゴリズムのトレンドを体系的に評価し,現在の手法が効果的なエンティティレベルの非学習を実現するのに苦労していることを明らかにする。 次に,未学習アルゴリズムの性能に影響を及ぼす要因について検討し,知識のカバー範囲と無視セットのサイズが重要な役割を担っていることを確認した。 特に、私たちの分析では、微調整によって導入されたエンティティが、事前訓練されたエンティティよりも学習に弱いことも明らかにしています。 これらの知見は、LCMのためのエンティティレベルのアンラーニングを前進させるための貴重な洞察を提供する。

Large language model unlearning has garnered increasing attention due to its potential to address security and privacy concerns, leading to extensive research in the field. However, much of this research has concentrated on instance-level unlearning, specifically targeting the removal of predefined instances containing sensitive content. This focus has left a significant gap in the exploration of full entity-level unlearning, which is critical in real-world scenarios such as copyright protection. To this end, we propose a novel task of Entity-level unlearning, which aims to erase entity-related knowledge from the target model completely. To thoroughly investigate this task, we systematically evaluate trending unlearning algorithms, revealing that current methods struggle to achieve effective entity-level unlearning. Then, we further explore the factors that influence the performance of the unlearning algorithms, identifying that knowledge coverage and the size of the forget set play pivotal roles. Notably, our analysis also uncovers that entities introduced through fine-tuning are more vulnerable to unlearning than pre-trained entities. These findings collectively offer valuable insights for advancing entity-level unlearning for LLMs.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 電力グリッドトポロジー最適化におけるエージェントの故障検出:包括的解析

Fault Detection for agents on power grid topology optimization: A Comprehensive analysis ( http://arxiv.org/abs/2406.16426v3 )

ライセンス: Link先を確認
Malte Lehna, Mohamed Hassouna, Dmitry Degtyar, Sven Tomforde, Christoph Scholz, (参考訳) Deep Reinforcement Learning (DRL) を用いた送信ネットワークのトポロジの最適化が注目されている。 様々なDRLエージェントが提案されており、主にLearning to Run a Power Network (L2RPN)の課題からGrid2Op環境にベンチマークされている。 現実的なグリッドシナリオと基盤となる電力フローバックエンドでは、環境には多くの利点があります。 しかしながら、エージェントの生存または失敗の解釈は、様々な潜在的な原因があるため、必ずしも明確ではない。 本研究では,電力グリッドシミュレーションの故障に着目し,パターンを特定し,事前に検出する。 WCCI 2022 L2RPN環境における3つの異なるエージェントの失敗シナリオを収集し,約40kのデータポイントを収集した。 クラスタ化によって、5つの異なるクラスタを検出し、一般的な障害タイプを特定します。 さらに, 故障を事前に検出し, 5種類の予測モデルを評価するマルチクラス予測手法を提案する。 ここでは、Light Gradient-Boosting Machine (LightGBM) が82%の精度で、最高の障害予測性能を示している。 また、グリッドが生存するかどうかを87%のケースで正確に分類する。 最後に、グリッド内の重要な特徴や領域を識別する、詳細な特徴重要度分析を提供する。

Optimizing the topology of transmission networks using Deep Reinforcement Learning (DRL) has increasingly come into focus. Various DRL agents have been proposed, which are mostly benchmarked on the Grid2Op environment from the Learning to Run a Power Network (L2RPN) challenges. The environments have many advantages with their realistic grid scenarios and underlying power flow backends. However, the interpretation of agent survival or failure is not always clear, as there are a variety of potential causes. In this work, we focus on the failures of the power grid simulation to identify patterns and detect them in advance. We collect the failed scenarios of three different agents on the WCCI 2022 L2RPN environment, totaling about 40k data points. By clustering, we are able to detect five distinct clusters, identifying common failure types. Further, we propose a multi-class prediction approach to detect failures beforehand and evaluate five different prediction models. Here, the Light Gradient-Boosting Machine (LightGBM) shows the best failure prediction performance, with an accuracy of 82%. It also accurately classifies whether a the grid survives or fails in 87% of cases. Finally, we provide a detailed feature importance analysis that identifies critical features and regions in the grid.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 二次元絶縁体における量子幾何学と絡み合いの観測可能なコーナー電荷ゆらぎ

Corner Charge Fluctuation as an Observable for Quantum Geometry and Entanglement in Two-dimensional Insulators ( http://arxiv.org/abs/2406.17023v3 )

ライセンス: Link先を確認
Pok Man Tam, Jonah Herzog-Arbeitman, Jiabin Yu, (参考訳) 粒子数のような保存電荷の2部ゆらぎを測定することは、量子系を理解するための強力なアプローチである。 測定された領域が鋭い角を持つとき、バイパルタイト変動は、2D等方性と均一系の普遍的な角度依存性を示すことが知られている追加の寄与を受ける。 ここでは、相互作用する粒子の一般格子系に対して、角電荷のゆらぎが量子幾何学に直接関係していることを確立する。 まず、格子上のコーナーコントリビューションを分離する実用的なスキームを提案し、その角依存性を小角極限測度で解析的に証明する。 量子幾何学のプローブとして、有限サイズの量子シミュレータにおける角電荷変動の実験的関連性を、チャーン絶縁体モデルに対する数値的な検証によりさらに示しながら、この効果を解析的に示すために、コンパクトな閉塞原子絶縁体のモデルを紹介した。 最後に重要なことは、自由フェルミオンに対しては、角絡みエントロピーのレンズを通して量子幾何学と量子情報の密接な関係を明らかにすることである。

Measuring bipartite fluctuations of a conserved charge, such as the particle number, is a powerful approach to understanding quantum systems. When the measured region has sharp corners, the bipartite fluctuation receives an additional contribution known to exhibit a universal angle-dependence in 2D isotropic and uniform systems. Here we establish that, for generic lattice systems of interacting particles, the corner charge fluctuation is directly related to quantum geometry. We first provide a practical scheme to isolate the corner contribution on lattices, and analytically prove that its angle-dependence in the small-angle limit measures exclusively the integrated quantum metric. A model of a compact obstructed atomic insulator is introduced to illustrate this effect analytically, while numerical verification for various Chern insulator models further demonstrate the experimental relevance of the corner charge fluctuation in a finite-size quantum simulator as a probe of quantum geometry. Last but not least, for free fermions, we unveil an intimate connection between quantum geometry and quantum information through the lens of corner entanglement entropies.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# EmPO: 優先最適化による共感応答生成のための感情接地

EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization ( http://arxiv.org/abs/2406.19071v2 )

ライセンス: Link先を確認
Ondrej Sotolar, Vojtech Formanek, Alok Debnath, Allison Lahnala, Charles Welch, Lucie FLek, (参考訳) 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。 このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。 そこで我々は,感情基盤に基づく理論駆動の嗜好データセットを構築し,それらの課題に対処するためにLLMと選好最適化アルゴリズムを整合させる手法を提案する。 共感的応答生成を評価するために,共感的ダイアログデータセットを用い,diff-Epitome と BERTscore のメトリクスと多次元人的評価を用いて共感を評価する。 さらに,特徴に基づく手法を用いて,多様性と感情価を測定した。 また、MMLUベンチマークとOpen LLM Leaderboardのタスクを用いて、トレーニングが一般化性能に与える影響を評価する。 その結果、LLMは、一般的な性能を維持しつつ、好みの最適化によって共感的応答を生成することができ、感情のグラウンド化は好みのデータセット生成を導くことができることがわかった。 すべてのデータセット、ソースコード、モデルを公開しています。 https://github.com/justtherightsize/empo

Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. We propose a novel approach where we construct theory-driven preference datasets based on emotion grounding and use them to align LLMs with preference optimization algorithms to address these challenges. To evaluate empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-Epitome and BERTscore metrics and with multi-dimensional human evaluation. Additionally, we measure diversity and emotional valence using feature-based methods. We also evaluate the impact of training on the generalization performance using the MMLU benchmark and tasks from the Open LLM Leaderboard. The results show that LLMs can be aligned for empathetic response generation by preference optimization while retaining their general performance and that emotion grounding can guide preference dataset creation. We make all datasets, source code, and models publicly available. https://github.com/justtherightsize/empo
翻訳日:2024-09-18 21:51:13 公開日:2024-09-17
# 自己翻訳トレイン:インジェクタンス能力による大規模言語モデルの言語間移動の促進

Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability ( http://arxiv.org/abs/2407.00454v2 )

ライセンス: Link先を確認
Ryokan Ri, Shun Kiyono, Sho Takase, (参考訳) 微調整された多言語事前学習モデルによるゼロショットの言語間移動は低リソース言語を約束するが、しばしば言語間の内部表現の誤調整に悩まされる。 モデルが細調整において言語間を効果的に一般化できない場合でも、言語間変換に有用な言語間対応を捕捉する、という仮説を立てる。 我々は,この仮説を,大規模言語モデル(LLM)が学習データを対象言語に翻訳し,自身の生成したデータに基づいてモデルを微調整する手法であるSelf-Translate-Trainを用いて検討する。 自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。

Zero-shot cross-lingual transfer by fine-tuning multilingual pretrained models shows promise for low-resource languages, but often suffers from misalignment of internal representations between languages. We hypothesize that even when the model cannot generalize across languages effectively in fine-tuning, it still captures cross-lingual correspondence useful for cross-lingual transfer. We explore this hypothesis with Self-Translate-Train, a method that lets large language models (LLMs) to translate training data into the target language and fine-tunes the model on its own generated data. By demonstrating that Self-Translate-Train outperforms zero-shot transfer, we encourage further exploration of better methods to elicit cross-lingual capabilities of LLMs.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# 動画のドメイン適応に必要なのは、転送可能な誘導注意

Transferable-guided Attention Is All You Need for Video Domain Adaptation ( http://arxiv.org/abs/2407.01375v2 )

ライセンス: Link先を確認
André Sacilotti, Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida, (参考訳) ビデオにおける教師なしドメイン適応(UDA)は、画像ベースのUDA技術と比較しても十分に検討されていない課題である。 多くのコンピュータビジョンタスクにおいて、視覚変換器(ViT)は最先端のパフォーマンスを実現するが、ビデオUDAでの使用はほとんど検討されていない。 我々のキーとなる考え方は、トランスフォーマー層を特徴エンコーダとして使用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。 Transferable-Guided Attention (TransferAttn) フレームワークが開発され、トランスフォーマーの能力を利用して異なるバックボーン間でドメイン間の知識を適用する。 ViTの転送性を改善するために、新しい効果的なモジュールであるDomain Transferable-Guided Attention Block (DTAB)を導入する。 DTABは、自己アテンション機構を転送可能性アテンション機構に変更することにより、ビデオフレーム間の時空間転送可能性関係に集中するようにViTを補償する。 UCF-HMDB、Kineetics-Gameplay、Kineetics-NEC Droneデータセットに対して、ResNet101、I3D、STAMのような異なるバックボーンを持つ大規模な実験を行い、TransferAttnの有効性を最先端のアプローチと比較した。 また,ビデオ領域と画像領域の両方から,他の最先端トランスフォーマーベースのUDA手法に適用した場合,DTABが性能向上をもたらすことを示す。 私たちのコードはhttps://github.com/Andre-Sacilotti/transferattn-project-codeで公開しています。

Unsupervised domain adaptation (UDA) in videos is a challenging task that remains not well explored compared to image-based UDA techniques. Although vision transformers (ViT) achieve state-of-the-art performance in many computer vision tasks, their use in video UDA has been little explored. Our key idea is to use transformer layers as a feature encoder and incorporate spatial and temporal transferability relationships into the attention mechanism. A Transferable-guided Attention (TransferAttn) framework is then developed to exploit the capacity of the transformer to adapt cross-domain knowledge across different backbones. To improve the transferability of ViT, we introduce a novel and effective module, named Domain Transferable-guided Attention Block (DTAB). DTAB compels ViT to focus on the spatio-temporal transferability relationship among video frames by changing the self-attention mechanism to a transferability attention mechanism. Extensive experiments were conducted on UCF-HMDB, Kinetics-Gameplay, and Kinetics-NEC Drone datasets, with different backbones, like ResNet101, I3D, and STAM, to verify the effectiveness of TransferAttn compared with state-of-the-art approaches. Also, we demonstrate that DTAB yields performance gains when applied to other state-of-the-art transformer-based UDA methods from both video and image domains. Our code is available at https://github.com/Andre-Sacilotti/transferattn-project-code.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# デスクトップグラフィカルユーザインタフェースのためのビジュアルグラウンド

Visual grounding for desktop graphical user interfaces ( http://arxiv.org/abs/2407.01558v2 )

ライセンス: Link先を確認
Tassnim Dardouri, Laura Minkova, Jessica López Espejel, Walid Dahhane, El Hassane Ettifouri, (参考訳) ほとんどのインスタンス認識と画像理解ソリューションは、主に自然画像に焦点を当てている。 しかし、合成画像、より具体的には、GUI(Graphical User Interfaces)の画像は依然として限られている。 これにより、自律型コンピュータビジョン駆動人工知能(AI)エージェントの開発が妨げられる。 本稿では,GUIにおけるオブジェクト識別のためのマルチモーダルソリューションであるインストラクション・ビジュアル・グラウンド(IVG)を提案する。 より正確には、自然言語命令とGUI画面が与えられた場合、IVGは命令が実行される画面上の要素の座標を特定する。 この目的のために、我々は2つの方法を開発した。 最初の方法は3部構成のアーキテクチャで、LLM(Large Language Model)とオブジェクト検出モデルの組み合わせに依存している。 2つ目のアプローチは、マルチモーダル基盤モデルを使用する。

Most instance perception and image understanding solutions focus mainly on natural images. However, applications for synthetic images, and more specifically, images of Graphical User Interfaces (GUI) remain limited. This hinders the development of autonomous computer-vision-powered Artificial Intelligence (AI) agents. In this work, we present Instruction Visual Grounding or IVG, a multi-modal solution for object identification in a GUI. More precisely, given a natural language instruction and GUI screen, IVG locates the coordinates of the element on the screen where the instruction would be executed. To this end, we develop two methods. The first method is a three-part architecture that relies on a combination of a Large Language Model (LLM) and an object detection model. The second approach uses a multi-modal foundation model.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# SeFlow: 自動運転における自己監督型シーンフロー手法

SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving ( http://arxiv.org/abs/2407.01702v2 )

ライセンス: Link先を確認
Qingwen Zhang, Yi Yang, Peizheng Li, Olov Andersson, Patric Jensfelt, (参考訳) 連続したLiDARスキャンで各点における3次元運動を予測する。 この詳細なポイントレベルの情報は、自動運転車が周囲のダイナミックな変化を正確に予測し、理解するのに役立ちます。 現在の最先端の手法では、シーンフローネットワークをトレーニングするためにアノテートされたデータを必要とし、ラベリングのコストは本質的にスケーラビリティを制限します。 自己監督的アプローチは上記の制限を克服することができるが、最適性能を妨げる2つの主要な課題に直面している。 本稿では,効率的な動的分類を学習型シーンフローパイプラインに統合する自己教師型SeFlowを提案する。 静的点と動的点の分類は,異なる動作パターンに対する対象関数の設計に有効であることを示す。 また,内部クラスタの整合性と適切なオブジェクト点関連性の重要性を強調し,特にオブジェクトの細部においてシーンフローの推定を洗練させる。 提案手法は,Argoverse 2 および Waymo データセット上での自己教師型シーンフロータスクにおける最先端性能を実現する。 コードはhttps://github.com/KTH-RPL/SeFlowで公開されている。

Scene flow estimation predicts the 3D motion at each point in successive LiDAR scans. This detailed, point-level, information can help autonomous vehicles to accurately predict and understand dynamic changes in their surroundings. Current state-of-the-art methods require annotated data to train scene flow networks and the expense of labeling inherently limits their scalability. Self-supervised approaches can overcome the above limitations, yet face two principal challenges that hinder optimal performance: point distribution imbalance and disregard for object-level motion constraints. In this paper, we propose SeFlow, a self-supervised method that integrates efficient dynamic classification into a learning-based scene flow pipeline. We demonstrate that classifying static and dynamic points helps design targeted objective functions for different motion patterns. We also emphasize the importance of internal cluster consistency and correct object point association to refine the scene flow estimation, in particular on object details. Our real-time capable method achieves state-of-the-art performance on the self-supervised scene flow task on Argoverse 2 and Waymo datasets. The code is open-sourced at https://github.com/KTH-RPL/SeFlow along with trained model weights.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# SMILe:ロバストなFew-Shotオブジェクト検出のためのサブモジュール相互情報を活用する

SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection ( http://arxiv.org/abs/2407.02665v2 )

ライセンス: Link先を確認
Anay Majee, Ryan Sharp, Rishabh Iyer, (参考訳) オブジェクトクラスの融合と忘れは、Few-Shot Object Detection (FSOD) の主要な関心事である。 計量学習に基づくFSOD手法におけるこれらの落とし穴を克服するため、FSODにおけるより厳密で差別的な特徴クラスタの作成を強制するために、組合せ的相互情報関数を採用する新しいサブモジュール・ミューチュアル・インフォメーション・ラーニング(SMILe)フレームワークを導入する。 提案手法は,性能向上を示すバックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。 インスタンスベースの目的関数からSMILeの組合せ目的関数へのパラダイムシフトは、オブジェクトクラス内の多様性を自然に保存し、少数のトレーニング例に従えば、忘れることを減らす。 さらに、既に学習されている(ベース)オブジェクトと新たに追加された(ノーベル)オブジェクト間の相互情報の適用により、ベースクラスと新規クラスの十分な分離が保証され、クラス混乱の影響を最小限に抑えることができる。 人気のあるFSODベンチマークを用いて,PASCAL-VOC と MS-COCO を用いて,VOC の 10 ショット設定でそれぞれ5.7% (3.3 mAP 点) と5.4% (2.6 mAP 点) の新規クラス性能向上を図った。 我々の実験はまた、基礎となるアーキテクチャに依存しない既存のアプローチに対して、ベースクラス性能の維持と最大2倍の高速収束を実証した。

Confusion and forgetting of object classes have been challenges of prime interest in Few-Shot Object Detection (FSOD). To overcome these pitfalls in metric learning based FSOD techniques, we introduce a novel Submodular Mutual Information Learning (SMILe) framework which adopts combinatorial mutual information functions to enforce the creation of tighter and discriminative feature clusters in FSOD. Our proposed approach generalizes to several existing approaches in FSOD, agnostic of the backbone architecture demonstrating elevated performance gains. A paradigm shift from instance based objective functions to combinatorial objectives in SMILe naturally preserves the diversity within an object class resulting in reduced forgetting when subjected to few training examples. Furthermore, the application of mutual information between the already learnt (base) and newly added (novel) objects ensures sufficient separation between base and novel classes, minimizing the effect of class confusion. Experiments on popular FSOD benchmarks, PASCAL-VOC and MS-COCO show that our approach generalizes to State-of-the-Art (SoTA) approaches improving their novel class performance by up to 5.7% (3.3 mAP points) and 5.4% (2.6 mAP points) on the 10-shot setting of VOC (split 3) and 30-shot setting of COCO datasets respectively. Our experiments also demonstrate better retention of base class performance and up to 2x faster convergence over existing approaches agnostic of the underlying architecture.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# 乳房超音波画像の分類のための視覚マンバ

Vision Mamba for Classification of Breast Ultrasound Images ( http://arxiv.org/abs/2407.03552v2 )

ライセンス: Link先を確認
Ali Nasiri-Sarvi, Mahdi S. Hosseini, Hassan Rivaz, (参考訳) MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。 本稿では,乳房超音波BUSIデータセットと乳房超音波Bデータセットを用いて,マンバモデルと従来の畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を比較した。 複数の実験と統計的意義分析を含む評価結果から,マンバをベースとしたアーキテクチャのいくつかは,統計学的に有意な結果でCNNやViTモデルよりも優れていることが示された。 例えば、Bデータセットでは、最も優れたMambaベースのモデルは平均AUCが1.98\%、平均精度が5.0\%である。 これらのMambaベースのモデルは、いくつかの帰納バイアスを維持しながら、長距離依存を効果的にキャプチャし、限られたデータを持つアプリケーションに適している。 コードは \url{https://github.com/anasiri/BU-Mamba} で入手できる。

Mamba-based models, VMamba and Vim, are a recent family of vision encoders that offer promising performance improvements in many computer vision tasks. This paper compares Mamba-based models with traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) using the breast ultrasound BUSI dataset and Breast Ultrasound B dataset. Our evaluation, which includes multiple runs of experiments and statistical significance analysis, demonstrates that some of the Mamba-based architectures often outperform CNN and ViT models with statistically significant results. For example, in the B dataset, the best Mamba-based models have a 1.98\% average AUC and a 5.0\% average Accuracy improvement compared to the best non-Mamba-based model in this study. These Mamba-based models effectively capture long-range dependencies while maintaining some inductive biases, making them suitable for applications with limited data. The code is available at \url{https://github.com/anasiri/BU-Mamba}
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# Entity-Level Sentiment:パートの要約以上のもの

Entity-Level Sentiment: More than the Sum of Its Parts ( http://arxiv.org/abs/2407.03916v2 )

ライセンス: Link先を確認
Egil Rønningstad, Roman Klinger, Lilja Øvrelid, Erik Velldal, (参考訳) より長いテキストの感情分析では、議論されたエンティティ、言及されたエンティティ、各エンティティについて表現された感情の様々なトピックが存在するかもしれない。 このような文章が関心の実体に対してどのように感情を表現するのか、どのようにこれらの感情がモデル化されるのか、といった研究が不足していることが分かっています。 個人や組織に対する感情が、より長いテキストでどのように表現されるかをよりよく理解するために、各エンティティに関する全体感情が識別される専門家アノテーションのデータセットと、これらのエンティティに対する文レベルの感情を別々に収集した。 文レベルでの感情の算術的アグリゲーションとは,エンティティに対する読者の知覚的感情がしばしば異なることを示す。 否定的なエンティティの70%と55%だけが、そのエンティティが言及されている文の(人間に注釈された)感情ラベルを集約するときに、正しい全体的な感情ラベルを受け取ります。 我々のデータセットは、長文におけるエンティティ固有の感情の複雑さを明らかにし、そのような感情表現をより正確にモデル化し、評価することができる。

In sentiment analysis of longer texts, there may be a variety of topics discussed, of entities mentioned, and of sentiments expressed regarding each entity. We find a lack of studies exploring how such texts express their sentiment towards each entity of interest, and how these sentiments can be modelled. In order to better understand how sentiment regarding persons and organizations (each entity in our scope) is expressed in longer texts, we have collected a dataset of expert annotations where the overall sentiment regarding each entity is identified, together with the sentence-level sentiment for these entities separately. We show that the reader's perceived sentiment regarding an entity often differs from an arithmetic aggregation of sentiments at the sentence level. Only 70\% of the positive and 55\% of the negative entities receive a correct overall sentiment label when we aggregate the (human-annotated) sentiment labels for the sentences where the entity is mentioned. Our dataset reveals the complexity of entity-specific sentiment in longer texts, and allows for more precise modelling and evaluation of such sentiment expressions.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# GoSurf:Goにおけるソフトウェアサプライチェーンアタックベクターの特定

GoSurf: Identifying Software Supply Chain Attack Vectors in Go ( http://arxiv.org/abs/2407.04442v2 )

ライセンス: Link先を確認
Carmine Cesarano, Vivi Andersson, Roberto Natella, Martin Monperrus, (参考訳) Goでは、オープンソースソフトウェアが広く採用されているため、サードパーティの依存関係のエコシステムが繁栄し、重要なシステムに統合されることが多い。 しかし、依存関係の再利用はサプライチェーンのセキュリティ上の重大なリスクをもたらす。 既存のサプライチェーン攻撃は、攻撃者が悪意のあるコードを隠すために悪用できる言語固有の特徴を見落としている。 本稿では,Go言語とそのパッケージライフサイクルに適した12個の異なる攻撃ベクトルの分類法を提案する。 我々の分類学は、言語固有のGoの特徴が悪用され、サプライチェーンを通じて悪意あるコードを密かに伝播するパターンを識別する。 さらに,提案した分類基準に従って,Goパッケージの攻撃面を分析する静的解析ツールであるGoSurfを紹介する。 広く使われている実世界のGoパッケージのコーパス上でGoSurfを評価する。 私たちの研究は、Goエコシステム内のオープンソースのソフトウェアサプライチェーンを確保するための予備的な洞察を提供する。

In Go, the widespread adoption of open-source software has led to a flourishing ecosystem of third-party dependencies, which are often integrated into critical systems. However, the reuse of dependencies introduces significant supply chain security risks, as a single compromised package can have cascading impacts. Existing supply chain attack taxonomies overlook language-specific features that can be exploited by attackers to hide malicious code. In this paper, we propose a novel taxonomy of 12 distinct attack vectors tailored for the Go language and its package lifecycle. Our taxonomy identifies patterns in which language-specific Go features, intended for benign purposes, can be misused to propagate malicious code stealthily through supply chains. Additionally, we introduce GoSurf, a static analysis tool that analyzes the attack surface of Go packages according to our proposed taxonomy. We evaluate GoSurf on a corpus of widely used, real-world Go packages. Our work provides preliminary insights for securing the open-source software supply chain within the Go ecosystem, allowing developers and security analysts to prioritize code audit efforts and uncover hidden malicious behaviors.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# 不均衡半監督学習のための学習ラベルのリファインメントと閾値調整

Learning Label Refinement and Threshold Adjustment for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2407.05370v2 )

ライセンス: Link先を確認
Zeju Li, Ying-Qiu Zheng, Chen Chen, Saad Jbabdi, (参考訳) 半教師付き学習(SSL)アルゴリズムは、不均衡なトレーニングデータに晒された場合、うまく機能しない。 このシナリオでは、生成された擬似ラベルは多数派に対してバイアスを示すことができ、これらの擬似ラベルを使用するモデルは、このバイアスをさらに増幅することができる。 本稿では,疑似ラベル改善としきい値調整を含む不均衡SSLの擬似ラベル化戦略を,統計的解析のレンズを用いて検討する。 不均衡なクラス分布が擬似ラベルに偏った場合、ヒューリスティック戦略や非校正モデルの信頼度を用いて擬似ラベルを生成する既存のSSLアルゴリズムは信頼できないことがわかった。 そこで本研究では,Validationデータ(SEVAL)に基づく擬似ラベル最適化によるセミ教師学習を導入し,不均衡SSLにおける擬似ラベルの質を高める。 本稿では,学習データセットの分割から洗練されたパラメータとしきい値のパラメータをクラスバランスで学習することを提案する。 SEVALは、擬似ラベルの精度を改善して特定のタスクに適応し、クラスごとに擬似ラベルの正確性を保証する。 実験の結果、SEVALは最先端のSSL手法を超越し、様々な不均衡なSSL状況において、より正確で効果的な擬似ラベルを提供することがわかった。 SEVALは、そのシンプルさと柔軟性により、さまざまなSSLテクニックを効果的に強化することができる。 コードは公開されている(https://github.com/ZerojumpLine/SEVAL)。

Semi-supervised learning (SSL) algorithms struggle to perform well when exposed to imbalanced training data. In this scenario, the generated pseudo-labels can exhibit a bias towards the majority class, and models that employ these pseudo-labels can further amplify this bias. Here we investigate pseudo-labeling strategies for imbalanced SSL including pseudo-label refinement and threshold adjustment, through the lens of statistical analysis. We find that existing SSL algorithms which generate pseudo-labels using heuristic strategies or uncalibrated model confidence are unreliable when imbalanced class distributions bias pseudo-labels. To address this, we introduce SEmi-supervised learning with pseudo-label optimization based on VALidation data (SEVAL) to enhance the quality of pseudo-labelling for imbalanced SSL. We propose to learn refinement and thresholding parameters from a partition of the training dataset in a class-balanced way. SEVAL adapts to specific tasks with improved pseudo-labels accuracy and ensures pseudo-labels correctness on a per-class basis. Our experiments show that SEVAL surpasses state-of-the-art SSL methods, delivering more accurate and effective pseudo-labels in various imbalanced SSL situations. SEVAL, with its simplicity and flexibility, can enhance various SSL techniques effectively. The code is publicly available (https://github.com/ZerojumpLine/SEVAL).
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# CANDID DAC:DACにおける重要度の違いを考慮した結合アクション次元の活用

CANDID DAC: Leveraging Coupled Action Dimensions with Importance Differences in DAC ( http://arxiv.org/abs/2407.05789v2 )

ライセンス: Link先を確認
Philipp Bordne, M. Asif Hasan, Eddie Bergman, Noor Awad, André Biedenkapp, (参考訳) 高次元のアクション空間は、動的アルゴリズム構成(DAC)の課題である。 アクション次元間の相互依存と異なる重要性は、DAC問題のさらに重要な特徴である。 我々は、これらの結合行動次元と重要度差(CANDID)は、まだ十分に研究されていないDAC問題の側面を表していると論じる。 このギャップに対処するため、我々はCANDIDの特性をシミュレートする新しいホワイトボックスベンチマークをDACBenchスイート内に導入した。 さらに、これらのプロパティを管理するための効果的な戦略として、シーケンシャルポリシーを提案する。 このようなポリシーはアクション空間を分解し、アクション次元ごとのポリシーを学ぶことで指数的な成長を緩和する。 同時に、これらのポリシーは暗黙の調整を促進することによって、行動次元の相互依存に対応する。 我々は、新しいベンチマークで価値ベースのポリシーを実験的に検討した。 本研究は、CANDIDアクション空間における因子化ポリシーの独立学習において、シーケンシャルポリシーが顕著に優れていることを示す。 さらに、すべてのアクションディメンジョンにわたって単一のポリシーを学ぶことに関連するスケーラビリティの制限を克服します。 我々の実験で使われたコードはhttps://github.com/PhilippBordne/candidDAC.comで入手できる。

High-dimensional action spaces remain a challenge for dynamic algorithm configuration (DAC). Interdependencies and varying importance between action dimensions are further known key characteristics of DAC problems. We argue that these Coupled Action Dimensions with Importance Differences (CANDID) represent aspects of the DAC problem that are not yet fully explored. To address this gap, we introduce a new white-box benchmark within the DACBench suite that simulates the properties of CANDID. Further, we propose sequential policies as an effective strategy for managing these properties. Such policies factorize the action space and mitigate exponential growth by learning a policy per action dimension. At the same time, these policies accommodate the interdependence of action dimensions by fostering implicit coordination. We show this in an experimental study of value-based policies on our new benchmark. This study demonstrates that sequential policies significantly outperform independent learning of factorized policies in CANDID action spaces. In addition, they overcome the scalability limitations associated with learning a single policy across all action dimensions. The code used for our experiments is available under https://github.com/PhilippBordne/candidDAC.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# Sparse Mixture-of-Expertsにおけるタスク非依存プルーニングのエキスパート知識の多様化

Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts ( http://arxiv.org/abs/2407.09590v2 )

ライセンス: Link先を確認
Zeliang Zhang, Xiaodong Liu, Hao Cheng, Chenliang Xu, Jianfeng Gao, (参考訳) モデルパラメータを増大させるが、タスクの実行時にわずかに活性化することにより、Mixture-of-Experts (MoE)アーキテクチャの使用は、推論コストを増大させることなく、LLM(Large Language Models)の性能を大幅に向上させる。 しかし、専門家の増加によるメモリ消費量の増加は、これらのモデルを多くの実環境に展開する上での課題となっている。 実験によっては、一部の専門家が事前トレーニング中に冗長な知識をエンコードしていることが明らかになりました。 そこで本研究では,モデルパラメータの効率を向上させるために,類似の専門家をグループ化して抽出する手法を提案する。 提案手法の有効性を,Mixtral, Deepseek-MoE, Qwenの3つの最先端MoEアーキテクチャを用いて検証した。 評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。 私たちは将来の研究を促進するためにコードを公開します。

By increasing model parameters but activating them sparsely when performing a task, the use of Mixture-of-Experts (MoE) architecture significantly improves the performance of Large Language Models (LLMs) without increasing the inference cost. However, the memory consumption due to the growing number of experts presents a challenge to the deployment of these models in many real world settings. Our empirical study reveals that some experts encode redundant knowledge during pre-training. We thus propose a method of grouping and pruning similar experts to improve the model's parameter efficiency. We validate the effectiveness of our method by pruning three state-of-the-art MoE architectures, including Mixtral, Deepseek-MoE, and Qwen. The evaluation shows that our method outperforms other model pruning methods on a range of natural language tasks. We will release our code to facilitate future research.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# Laugh Now Cry later: Flow-Matching-based Zero-Shot Text-to-Speechの時間変化感情状態制御

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech ( http://arxiv.org/abs/2407.12229v2 )

ライセンス: Link先を確認
Haibin Wu, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Daniel Tompkins, Chung-Hsien Tsai, Canrun Li, Zhen Xiao, Sheng Zhao, Jinyu Li, Naoyuki Kanda, (参考訳) 人々は声のトーンを変え、笑いや泣き声などの非言語発声(NV)を伴って、豊かな感情を伝える。 しかし、ほとんどのTTSシステムは、NVを含む豊かな感情を持つ音声を生成する能力に欠ける。 本稿では,感情制御可能なゼロショットTSであるEmoCtrl-TTSについて紹介する。 EmoCtrl-TTSは、フローマッチングベースのゼロショットTSを条件に、覚醒値と価値、および笑い埋め込みを利用する。 高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。 EmoCtrl-TTSは、音声から音声への翻訳シナリオにおいて、音声プロンプトの感情を模倣することに優れていることを示す。 また、EmoCtrl-TTSは、感情の変化を捉え、強い感情を表現し、ゼロショットTSで様々なNVを生成することができることを示す。 デモサンプルはhttps://aka.ms/emoctrl-ttsを参照。

People change their tones of voice, often accompanied by nonverbal vocalizations (NVs) such as laughter and cries, to convey rich emotions. However, most text-to-speech (TTS) systems lack the capability to generate speech with rich emotions, including NVs. This paper introduces EmoCtrl-TTS, an emotion-controllable zero-shot TTS that can generate highly emotional speech with NVs for any speaker. EmoCtrl-TTS leverages arousal and valence values, as well as laughter embeddings, to condition the flow-matching-based zero-shot TTS. To achieve high-quality emotional speech generation, EmoCtrl-TTS is trained using more than 27,000 hours of expressive data curated based on pseudo-labeling. Comprehensive evaluations demonstrate that EmoCtrl-TTS excels in mimicking the emotions of audio prompts in speech-to-speech translation scenarios. We also show that EmoCtrl-TTS can capture emotion changes, express strong emotions, and generate various NVs in zero-shot TTS. See https://aka.ms/emoctrl-tts for demo samples.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# StuGPTViz:学生とチャットGPTのインタラクションを理解するためのビジュアル分析手法

StuGPTViz: A Visual Analytics Approach to Understand Student-ChatGPT Interactions ( http://arxiv.org/abs/2407.12423v3 )

ライセンス: Link先を確認
Zixin Chen, Jiachen Wang, Meng Xia, Kento Shigyo, Dingdong Liu, Rong Zhang, Huamin Qu, (参考訳) 大規模言語モデル(LLM)、特にChatGPTの教育への統合は、革新的な会話学習手法を導入することによって、学生の学習経験に革命をもたらす可能性がある。 生徒がChatGPTの能力を完全に活用するためには、教師にとってChatGPTとの相互作用パターンの理解が不可欠である。 しかし、この取り組みは、学生とチャットGPTの会話に焦点を絞ったデータセットが存在しないことと、会話内の進化的相互作用パターンを特定し分析する複雑さのため、困難である。 これらの課題に対処するため、1学期以上の修士レベルのデータ可視化コースにおいて、ChatGPTと対話する48人の学生の会話データを収集した。 次に,学習者の相互作用パターンをChatGPTに分類するために,認知レベルとテーマ分析の文献に基づくコーディング手法を開発した。 さらに、学生のプロンプトの時間的パターンとChatGPTの応答の質を複数の尺度で追跡・比較する視覚分析システムStuGPTVizを提案する。 我々は,6人のデータ可視化インストラクターと3人のケーススタディとのエキスパートインタビューを通じて,システムの有効性を検証した。 その結果、StuGPTVizがChatGPTの教育的価値に対する教育者の洞察を高める能力があることが確認された。 また、視覚分析を教育に適用し、AIによるパーソナライズされた学習ソリューションを開発する研究機会の可能性についても論じる。

The integration of Large Language Models (LLMs), especially ChatGPT, into education is poised to revolutionize students' learning experiences by introducing innovative conversational learning methodologies. To empower students to fully leverage the capabilities of ChatGPT in educational scenarios, understanding students' interaction patterns with ChatGPT is crucial for instructors. However, this endeavor is challenging due to the absence of datasets focused on student-ChatGPT conversations and the complexities in identifying and analyzing the evolutional interaction patterns within conversations. To address these challenges, we collected conversational data from 48 students interacting with ChatGPT in a master's level data visualization course over one semester. We then developed a coding scheme, grounded in the literature on cognitive levels and thematic analysis, to categorize students' interaction patterns with ChatGPT. Furthermore, we present a visual analytics system, StuGPTViz, that tracks and compares temporal patterns in student prompts and the quality of ChatGPT's responses at multiple scales, revealing significant pedagogical insights for instructors. We validated the system's effectiveness through expert interviews with six data visualization instructors and three case studies. The results confirmed StuGPTViz's capacity to enhance educators' insights into the pedagogical value of ChatGPT. We also discussed the potential research opportunities of applying visual analytics in education and developing AI-driven personalized learning solutions.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# 農業ロボット用果実の形状コンプリートのためのデータセットとベンチマーク

A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics ( http://arxiv.org/abs/2407.13304v2 )

ライセンス: Link先を確認
Federico Magistri, Thomas Läbe, Elias Marks, Sumanth Nagulavancha, Yue Pan, Claus Smitt, Lasse Klingbeil, Michael Halstead, Heiner Kuhlmann, Chris McCool, Jens Behley, Cyrill Stachniss, (参考訳) 世界の人口は2050年までに100億に達すると予想されているので、農業部門では人的労働力の減少にもかかわらず、我々の農業生産システムは生産性を2倍にする必要がある。 自律型ロボットシステムは、果物の摘みなどの労働集約的な手作業を引き継ぐことで生産性を高めるための、有望な道の1つだ。 有効にするためには、植物や果実を正確に監視し、相互作用する必要がある。 したがって, 果実収穫などの作業を自動化するためには, 閉塞の有無で物体の完全な3次元形状を推定できることが不可欠である。 本稿では,農業用視覚システムのための3次元形状補完データセットを提案する。 果実の3次元形状を推定するためのRGB-Dデータセットを提供する。 具体的には、実験室の環境だけでなく、商業的な温室にも、単一の甘辛料のRGB-Dフレームが組み込まれています。 各果実について, 根本的真理として用いる高精度な点雲も収集した。 実験室と温室の両方で実のサツマイモのデータを高精度に記録し,実の果実の形状を推定する手法を開発した。 100以上の異なる果実に属する約7000のRGB-Dフレームからなるデータセットをリリースしました。 我々は、高精度レーザースキャナーで得られる高精度・オクルージョンフリーの点雲とともに、カメラ固有の部分分割RGB-Dフレームを提供することにより、色付き点雲を容易に得ることができる。 さらに,ベンチマークサーバ上での公開課題を通じて,隠れテストセット上での形状補完手法の評価を可能にする。

As the world population is expected to reach 10 billion by 2050, our agricultural production system needs to double its productivity despite a decline of human workforce in the agricultural sector. Autonomous robotic systems are one promising pathway to increase productivity by taking over labor-intensive manual tasks like fruit picking. To be effective, such systems need to monitor and interact with plants and fruits precisely, which is challenging due to the cluttered nature of agricultural environments causing, for example, strong occlusions. Thus, being able to estimate the complete 3D shapes of objects in presence of occlusions is crucial for automating operations such as fruit harvesting. In this paper, we propose the first publicly available 3D shape completion dataset for agricultural vision systems. We provide an RGB-D dataset for estimating the 3D shape of fruits. Specifically, our dataset contains RGB-D frames of single sweet peppers in lab conditions but also in a commercial greenhouse. For each fruit, we additionally collected high-precision point clouds that we use as ground truth. For acquiring the ground truth shape, we developed a measuring process that allows us to record data of real sweet pepper plants, both in the lab and in the greenhouse with high precision, and determine the shape of the sensed fruits. We release our dataset, consisting of almost 7,000 RGB-D frames belonging to more than 100 different fruits. We provide segmented RGB-D frames, with camera intrinsics to easily obtain colored point clouds, together with the corresponding high-precision, occlusion-free point clouds obtained with a high-precision laser scanner. We additionally enable evaluation of shape completion approaches on a hidden test set through a public challenge on a benchmark server.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-17
# リスクスコアとしての言語モデルの評価

Evaluating language models as risk scores ( http://arxiv.org/abs/2407.14614v2 )

ライセンス: Link先を確認
André F. Cruz, Moritz Hardt, Celestine Mendler-Dünner, (参考訳) 現在の質問回答ベンチマークは主に、実現可能な予測タスクの正確性に焦点を当てている。 質問と回答キーを条件に、最も可能性の高いトークンは、基礎的な真実と一致しているか? このようなベンチマークは、結果の不確実性を定量化する言語モデルの能力を評価するのに失敗する。 本研究では,非実現不可能な予測タスクのリスクスコアとして,言語モデルの利用に焦点を当てる。 言語モデルを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入し,米国国勢調査データ製品に対して評価する。 フレキシブルなAPIは、さまざまなプロンプトスキーム、ローカルまたはWebホストモデル、カスタム予測タスクを構成するために使用できる多様な国勢調査列の使用を可能にする。 我々は,5つの自然テキストベンチマークタスクにわたる17の大規模言語モデルの統計特性に関する実証的な知見を網羅して,フォークテキストの有用性を実証する。 複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。 ベースモデルは相変わらず結果の不確実性を過小評価する一方、命令付きモデルは不確実性を過小評価し、過信リスクスコアを生成する。 実際、命令チューニングは真の根底にあるデータ不確実性に関係なく、回答分布を分極する。 逆に、確率推定のための言語クエリモデルでは、全ての命令調整されたモデルに対するキャリブレーションが大幅に改善される。 データの不確実性を定量化するこれらの違いは、実現可能な設定では明らかにできず、‘folktexts’がカバーしている現在の評価エコシステムにおける盲点を浮き彫りにする。

Current question-answering benchmarks predominantly focus on accuracy in realizable prediction tasks. Conditioned on a question and answer-key, does the most likely token match the ground truth? Such benchmarks necessarily fail to evaluate language models' ability to quantify outcome uncertainty. In this work, we focus on the use of language models as risk scores for unrealizable prediction tasks. We introduce folktexts, a software package to systematically generate risk scores using language models, and evaluate them against US Census data products. A flexible API enables the use of different prompting schemes, local or web-hosted models, and diverse census columns that can be used to compose custom prediction tasks. We demonstrate the utility of folktexts through a sweep of empirical insights into the statistical properties of 17 recent large language models across five natural text benchmark tasks. We find that zero-shot risk scores produced by multiple-choice question-answering have high predictive signal but are widely miscalibrated. Base models consistently overestimate outcome uncertainty, while instruction-tuned models underestimate uncertainty and produce over-confident risk scores. In fact, instruction-tuning polarizes answer distribution regardless of true underlying data uncertainty. Conversely, verbally querying models for probability estimates results in substantially improved calibration across all instruction-tuned models. These differences in ability to quantify data uncertainty cannot be revealed in realizable settings, and highlight a blind-spot in the current evaluation ecosystem that \folktexts covers.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# スケーラブル曲面符号計算のための横型CNOTゲートの誤差補正

Error correction of transversal CNOT gates for scalable surface code computation ( http://arxiv.org/abs/2408.01393v2 )

ライセンス: Link先を確認
Kaavya Sahay, Yingjia Lin, Shilin Huang, Kenneth R. Brown, Shruti Puri, (参考訳) 近年の実験的進歩により、多数のプラットフォームにおいて、表面コード上に論理的マルチキュービットトランスバーサルゲートを実装することが可能になった。 2つの面符号上のtransversal controlled-NOT (tCNOT) ゲートは、コードブロック間の相関エラーを導入し、表面符号量子メモリ (SCQM) や格子演算の確立した方法と比較して、デコード戦略を変更する必要がある。 本研究では,スケーラブルでフォールトトレラントな量子計算のために,tCNOTの3種類の復号法の性能を検証・ベンチマークする。 特に、SCQM MWPMデコーダと同じ閾値を達成する最小重完全マッチング(MWPM)に基づく低複雑さデコーダを提案する。 解析は, 格子手術とパウリ法における横方向操作の性能と消去ノイズモデルとの比較とともに, 横方向テレポーテーション回路の整形復号化に関する研究により拡張される。 本研究は,超越ゲートに基づく大規模量子アルゴリズムの実装コストの体系的評価を目的としている。

Recent experimental advances have made it possible to implement logical multi-qubit transversal gates on surface codes in a multitude of platforms. A transversal controlled-NOT (tCNOT) gate on two surface codes introduces correlated errors across the code blocks and thus requires modified decoding strategies compared to established methods of decoding surface code quantum memory (SCQM) or lattice surgery operations. In this work, we examine and benchmark the performance of three different decoding strategies for the tCNOT for scalable, fault-tolerant quantum computation. In particular, we present a low-complexity decoder based on minimum-weight perfect matching (MWPM) that achieves the same threshold as the SCQM MWPM decoder. We extend our analysis with a study of tailored decoding of a transversal teleportation circuit, along with a comparison between the performance of lattice surgery and transversal operations under Pauli and erasure noise models. Our investigation works towards systematic estimation of the cost of implementing large-scale quantum algorithms based on transversal gates in the surface code.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 量子多体系の次数パラメータ発見

Order Parameter Discovery for Quantum Many-Body Systems ( http://arxiv.org/abs/2408.01400v2 )

ライセンス: Link先を確認
Nicola Mariella, Tara Murphy, Francesco Di Marcantonio, Khadijeh Najafi, Sofia Vallecorsa, Sergiy Zhuk, Enrique Rico, (参考訳) 量子相転移は、基本的な量子現象に関する深い洞察を与え、複雑な物質やシステムの理解を深める。 しかし、従来の順序パラメータが存在しない場合の量子相転移の同定は大きな課題となる。 そこで本研究では,RFSベクトル場を用いて様々な量子系の位相図を構築し,その実測値を用いて確立されたモデルの位相図を再現する効果を実証する。 そこで本研究では,ANNNI(Axial Next Nearest Neighbour Interaction)モデルに適した順序パラメータを同定することにより,与えられた量子モデルに必要な順序パラメータを探索し,その能力を示す新しい手法を提案する。 有限サイズのスケーリングとともに観測対象を固有プロジェクタに分解することを含む解析により,本手法が順序パラメータを決定できることを確認した。

Quantum phase transitions offer profound insights into fundamental quantum phenomena and enhance our understanding of complex materials and systems. However, identifying quantum phase transitions in the absence of conventional order parameters poses a significant challenge. To address this, we utilize reduced fidelity susceptibility (RFS) vector field to construct phase diagrams of various quantum systems and then demonstrate its efficacy in reproducing the phase diagrams of established models with known order parameter. To this end, we propose a new method for discovering the necessary order parameters for a given quantum model and illustrate its capability by identifying a suitable order parameter for the Axial Next Nearest Neighbour Interaction (ANNNI) Model. Our analysis, which includes decomposing the observable into its eigen-projectors alongside the finite-size scaling, confirms that our method successfully can determine order parameters and thus its capable of characterizing quantum phase transitions.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# JARViS:Unified Actor-Scene Context Relation Modeling を用いた映像中の行動検出

JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling ( http://arxiv.org/abs/2408.03612v2 )

ライセンス: Link先を確認
Seok Hwan Lee, Taein Son, Soo Won Seo, Jisong Kim, Jun Won Choi, (参考訳) ビデオアクション検出(英語: Video Action Detection, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的な視覚タスクである。 希少なVADアーキテクチャのうち、2段階のVAD法は、訓練済みの人検知器を用いて興味のある特徴領域を抽出し、その後これらの特徴をアクション検出に利用する。 しかし,2段階のVAD手法の性能は,アクションセマンティクスを推論するための局所的なアクター機能にのみ依存するため,制限されている。 本研究では,視覚セマンティックス(JARViS)をベースとして,空間的・時間的空間的に分布するクロスモーダル・アクション・セマンティクスをトランスフォーマー・アテンション(Transformer attention)を用いて効果的に統合する2段階のVADフレームワークを提案する。 JARViSは人検知器を使用して、キーフレームから密にサンプリングされたアクター特徴を生成する。 同時に、ビデオのバックボーンを使って、ビデオクリップから時空間の特徴を生成する。 最後に、アクターとシーン間のきめ細かいインタラクションは、Unified Action-Scene Context Transformerを通じてモデル化され、アクションの最終セットを直接並列に出力する。 AVA, UCF101-24, JHMDB51-21 を含む3つのVADデータセットにおいて, JARViS が既存手法より大幅に優れ, 最先端の性能を実現していることを示す。

Video action detection (VAD) is a formidable vision task that involves the localization and classification of actions within the spatial and temporal dimensions of a video clip. Among the myriad VAD architectures, two-stage VAD methods utilize a pre-trained person detector to extract the region of interest features, subsequently employing these features for action detection. However, the performance of two-stage VAD methods has been limited as they depend solely on localized actor features to infer action semantics. In this study, we propose a new two-stage VAD framework called Joint Actor-scene context Relation modeling based on Visual Semantics (JARViS), which effectively consolidates cross-modal action semantics distributed globally across spatial and temporal dimensions using Transformer attention. JARViS employs a person detector to produce densely sampled actor features from a keyframe. Concurrently, it uses a video backbone to create spatio-temporal scene features from a video clip. Finally, the fine-grained interactions between actors and scenes are modeled through a Unified Action-Scene Context Transformer to directly output the final set of actions in parallel. Our experimental results demonstrate that JARViS outperforms existing methods by significant margins and achieves state-of-the-art performance on three popular VAD datasets, including AVA, UCF101-24, and JHMDB51-21.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 欠陥の解消:時系列異常検出における初期化効果の臨界解析

Unveiling the Flaws: A Critical Analysis of Initialization Effect on Time Series Anomaly Detection ( http://arxiv.org/abs/2408.06620v2 )

ライセンス: Link先を確認
Alex Koran, Hadi Hojjati, Narges Armanfard, (参考訳) 時系列異常検出(TSAD)のための深層学習は,過去10年間で大きな注目を集めている。 いくつかの論文で改善が報告されているにもかかわらず、これらのモデルの実用的応用は依然として限られている。 近年の研究はこれらのモデルに疑問を呈し、その成果は欠陥評価技術に寄与している。 しかし、初期化の影響はおおむね見過ごされている。 本稿では,TSADモデルの性能に対する初期化効果を批判的に分析する。 大規模な実験により,TSADモデルはウィンドウサイズ,シード数,正規化などのハイパーパラメータに非常に敏感であることが判明した。 この感度は、しばしば性能に大きなばらつきをもたらし、これらのモデルの報告された有効性を人工的にインフレーションするために利用することができる。 初期化パラメータの微妙な変更さえも、新しいモデルアーキテクチャから要求される改善を覆すパフォーマンスの変動をもたらすことを実証する。 本研究は,異常検出手法の信頼性と公平性を確保するため,厳密な評価プロトコルと事前処理手順の透過的な報告の必要性を強調した。 本稿では、TSADの進歩をより慎重に解釈し、より堅牢で透明な評価手法の開発を奨励し、分野とその実践的応用について述べる。

Deep learning for time-series anomaly detection (TSAD) has gained significant attention over the past decade. Despite the reported improvements in several papers, the practical application of these models remains limited. Recent studies have cast doubt on these models, attributing their results to flawed evaluation techniques. However, the impact of initialization has largely been overlooked. This paper provides a critical analysis of the initialization effects on TSAD model performance. Our extensive experiments reveal that TSAD models are highly sensitive to hyperparameters such as window size, seed number, and normalization. This sensitivity often leads to significant variability in performance, which can be exploited to artificially inflate the reported efficacy of these models. We demonstrate that even minor changes in initialization parameters can result in performance variations that overshadow the claimed improvements from novel model architectures. Our findings highlight the need for rigorous evaluation protocols and transparent reporting of preprocessing steps to ensure the reliability and fairness of anomaly detection methods. This paper calls for a more cautious interpretation of TSAD advancements and encourages the development of more robust and transparent evaluation practices to advance the field and its practical applications.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 最適化器の量子アルゴリズム

Quantum algorithms for optimizers ( http://arxiv.org/abs/2408.07086v2 )

ライセンス: Link先を確認
Giacomo Nannicini, (参考訳) これは量子アルゴリズムのPh.D.レベルのコースのための講義ノートのセットであり、量子最適化アルゴリズムに重点を置いている。 応用数学者や技術者向けに開発されており、以前の量子力学の背景を必要としない。 このコースの主なトピックは、厳密な計算モデルの導入に加えて、入出力モデル、量子探索、量子勾配アルゴリズム、行列演算アルゴリズム、半定値最適化のための行列乗算重み更新フレームワーク、断熱最適化である。

This is a set of lecture notes for a Ph.D.-level course on quantum algorithms, with an emphasis on quantum optimization algorithms. It is developed for applied mathematicians and engineers, and requires no previous background in quantum mechanics. The main topics of this course, in addition to a rigorous introduction to the computational model, are: input/output models, quantum search, the quantum gradient algorithm, matrix manipulation algorithms, the matrix multiplicative weights update framework for semidefinite optimization, adiabatic optimization.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 視覚記憶によるフレキシブルな知覚に向けて

Towards flexible perception with visual memory ( http://arxiv.org/abs/2408.08172v2 )

ライセンス: Link先を確認
Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens, (参考訳) ニューラルネットワークのトレーニングはモノリシックな取り組みであり、知識を石に彫ることに似ている。プロセスが完了すると、すべての情報がネットワークの重みに分散されるため、ネットワーク内の知識を編集することはほぼ不可能である。 ここでは、ディープニューラルネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで魅力的な代替手段を探る。 画像分類のタスクを(学習済みの埋め込みから)イメージ類似性に分解し、(知識データベースから近くの高速検索を通じて)検索し、(1.) 個々のサンプルからクラス全体、および数十億のスケールのデータまで、柔軟にデータを付加する機能、(2.) 学習やメモリプルーニングを通じてデータを除去する機能、(3.) その動作を制御するための解釈可能な決定機構を構築する。 まとめると、これらの機能は明示的なビジュアルメモリの利点を包括的に示す。 深いビジョンモデルで知識をどのように表現すべきかという議論に、それが貢献することを期待しています。

Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in "stone" weights.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# S$^3$Attention: Smoothed Skeleton Sketching によるLong Sequence Attentionの改善

S$^3$Attention: Improving Long Sequence Attention with Smoothed Skeleton Sketching ( http://arxiv.org/abs/2408.08567v3 )

ライセンス: Link先を確認
Xue Wang, Tian Zhou, Jianqing Zhu, Jialin Liu, Kun Yuan, Tao Yao, Wotao Yin, Rong Jin, HanQin Cai, (参考訳) 注意に基づくモデルは、多くのアプリケーションで多くの顕著なブレークスルーを達成した。 しかし、注意の二次的な複雑さは、バニラ注意に基づくモデルが長い連続タスクに適用しにくくする。 低ランク化を誘導し、列全体をサブシーケンスで近似することにより計算コストを削減するために、様々な改良された注意構造を提案する。 これらのアプローチの最も難しい部分は、情報保存と計算の削減の間の適切なバランスを維持することである。 本稿では,S$^3$Attentionというスムーズなスケルトンスケッチに基づくアテンション構造を提案する。 S$3$Attentionは、長い列に情報を混ぜる滑らかなブロックと、入力行列から列と行を同時に選択する行列スケッチという2つのメカニズムを持つ。 S$^3$Attentionの有効性を理論的にも経験的にも検証する。 ロングレンジ・アリーナ(LRA)データセットと6つの時系列予測に関する広範な研究は、S$^3$Attentionがバニラ・アテンションと他の最先端のアテンション構造の両方を著しく上回っていることを示している。

Attention based models have achieved many remarkable breakthroughs in numerous applications. However, the quadratic complexity of Attention makes the vanilla Attention based models hard to apply to long sequence tasks. Various improved Attention structures are proposed to reduce the computation cost by inducing low rankness and approximating the whole sequence by sub-sequences. The most challenging part of those approaches is maintaining the proper balance between information preservation and computation reduction: the longer sub-sequences used, the better information is preserved, but at the price of introducing more noise and computational costs. In this paper, we propose a smoothed skeleton sketching based Attention structure, coined S$^3$Attention, which significantly improves upon the previous attempts to negotiate this trade-off. S$^3$Attention has two mechanisms to effectively minimize the impact of noise while keeping the linear complexity to the sequence length: a smoothing block to mix information over long sequences and a matrix sketching method that simultaneously selects columns and rows from the input matrix. We verify the effectiveness of S$^3$Attention both theoretically and empirically. Extensive studies over Long Range Arena (LRA) datasets and six time-series forecasting show that S$^3$Attention significantly outperforms both vanilla Attention and other state-of-the-art variants of Attention structures.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 日常環境における動的時空間性に関するマルチモーダルデータセットとベンチマーク

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments ( http://arxiv.org/abs/2408.11347v2 )

ライセンス: Link先を確認
Takanori Ugai, Kensho Hara, Shusaku Egami, Ken Fukuda, (参考訳) 我々は、Embodied AIの開発を支援するために、標準化されたアノテーションを用いた人工ビデオデータを作成するために、3Dシミュレータを使用しました。 質問応答(QA)データセットは、ロボットがホーム環境での人間の行動や環境をどの程度理解できるかを測定する。 予備実験は、私たちのデータセットがAIの日常生活の理解を測定するのに役立つことを示唆している。 \end{abstract}

We used a 3D simulator to create artificial video data with standardized annotations, aiming to aid in the development of Embodied AI. Our question answering (QA) dataset measures the extent to which a robot can understand human behavior and the environment in a home setting. Preliminary experiments suggest our dataset is useful in measuring AI's comprehension of daily life. \end{abstract}
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# CNNによるディープラーニング: 教師付き回帰に着目したコンパクトなホロスティックチュートリアル(プレプリント)

Deep Learning with CNNs: A Compact Holistic Tutorial with Focus on Supervised Regression (Preprint) ( http://arxiv.org/abs/2408.12308v2 )

ライセンス: Link先を確認
Yansel Gonzalez Tejeda, Helmut A. Mayer, (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)と教師付き回帰に着目し,Deep Learningのコンパクトで包括的な議論を行う。 個々のトピックに関する書籍や記事はたくさんありますが、基礎的で厳格でアクセスしやすい視点からディープラーニングに対処する包括的で詳細なチュートリアルは珍しいものです。 CNNのほとんどのリソースは高度すぎるか、最先端のアーキテクチャに重点を置いているか、イメージ分類のような特定のアプリケーションにのみ対処している。このチュートリアルは、最も関連性の高い概念を要約するだけでなく、それぞれを詳細に調査し、完全なアジャイルなアイデアセットを提供する。 さらに,Deep LearningとCNNフレームワークの基盤となる,学習理論,統計学,機械学習の強力な相乗効果を強調した。 本チュートリアルは,Deep Learningの基礎を理解することに関心のある学生,教授,研究者にとって最適な情報源となることを目的としている。 受理すると、対応するリポジトリは \href{https://github.com/neoglez/deep-learning-tutorial}{https://github.com/neoglez/deep-learning-tutorial} キーワード: Tutorial, Deep Learning, Convolutional Neural Networks, Machine Learning で提供される。

In this tutorial, we present a compact and holistic discussion of Deep Learning with a focus on Convolutional Neural Networks (CNNs) and supervised regression. While there are numerous books and articles on the individual topics we cover, comprehensive and detailed tutorials that address Deep Learning from a foundational yet rigorous and accessible perspective are rare. Most resources on CNNs are either too advanced, focusing on cutting-edge architectures, or too narrow, addressing only specific applications like image classification.This tutorial not only summarizes the most relevant concepts but also provides an in-depth exploration of each, offering a complete yet agile set of ideas. Moreover, we highlight the powerful synergy between learning theory, statistic, and machine learning, which together underpin the Deep Learning and CNN frameworks. We aim for this tutorial to serve as an optimal resource for students, professors, and anyone interested in understanding the foundations of Deep Learning. Upon acceptance we will provide an accompanying repository under \href{https://github.com/neoglez/deep-learning-tutorial}{https://github.com/neoglez/deep-learning-tutorial} Keywords: Tutorial, Deep Learning, Convolutional Neural Networks, Machine Learning.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# 補完的な特徴から学ぶ

Learning from Complementary Features ( http://arxiv.org/abs/2408.14788v2 )

ライセンス: Link先を確認
Kosuke Sugiyama, Masato Uchida, (参考訳) 正確なデータ観測は予測モデルの学習プロセスには不可欠であるが、観測精度の不足、収集コストの高騰、プライバシーの制約などの要因により困難である。 本稿では,ある定性的特徴が「何」を示す正確な情報として利用できない場合について検討する。 我々は、正確な情報によって定義される特徴を通常の特徴(OF)、補完的な情報によって定義される特徴を補完的特徴(CF)と呼ぶ。 次に,CFL(Complementary Feature Learning)と呼ばれる新たな学習シナリオを定式化し,予測モデルをOFとCFのインスタンスを用いて構築する。 CFLの最も単純な形式化は、従来の教師あり学習をCFの観測値から直接適用する。 しかし、このアプローチはCFに関連する曖昧さを解決せず、学習を困難にし、予測モデルの特定の予測の解釈を複雑にする。 そこで、情報理論の観点から目的関数を導出し、CFに対応するOFF値を推定し、これらの推定に基づいて出力ラベルを予測する。 この目的関数に基づいて,理論上保証されたグラフに基づく推定法と,その実用的な近似法を提案し,CFに対応する値の推定を行う。 実世界のデータを用いて数値実験を行った結果,提案手法はCFに対応する値を効果的に推定し,出力ラベルを予測する。

While precise data observation is essential for the learning processes of predictive models, it can be challenging owing to factors such as insufficient observation accuracy, high collection costs, and privacy constraints. In this paper, we examines cases where some qualitative features are unavailable as precise information indicating "what it is," but rather as complementary information indicating "what it is not." We refer to features defined by precise information as ordinary features (OFs) and those defined by complementary information as complementary features (CFs). We then formulate a new learning scenario termed Complementary Feature Learning (CFL), where predictive models are constructed using instances consisting of OFs and CFs. The simplest formalization of CFL applies conventional supervised learning directly using the observed values of CFs. However, this approach does not resolve the ambiguity associated with CFs, making learning challenging and complicating the interpretation of the predictive model's specific predictions. Therefore, we derive an objective function from an information-theoretic perspective to estimate the OF values corresponding to CFs and to predict output labels based on these estimations. Based on this objective function, we propose a theoretically guaranteed graph-based estimation method along with its practical approximation, for estimating OF values corresponding to CFs. The results of numerical experiments conducted with real-world data demonstrate that our proposed method effectively estimates OF values corresponding to CFs and predicts output labels.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-17
# RING#: Roto-translation Equivariant Gram Learningを用いたPR-by-PEグローバルローカライゼーション

RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning ( http://arxiv.org/abs/2409.00206v2 )

ライセンス: Link先を確認
Sha Lu, Xuecheng Xu, Yuxuan Wu, Haojian Lu, Xieyuanli Chen, Rong Xiong, Yue Wang, (参考訳) カメラやLiDARなどの搭載センサーを用いたグローバルなローカライゼーションは、GPS信号が信頼できない場合に自律運転やロボット工学の応用に不可欠である。 ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)によって、グローバルなローカライゼーションを実現する。 ある方法はタスクごとに別々のモデルを訓練するが、別の方法は2つのヘッドを持つ1つのモデルを採用し、別のタスク固有の損失と共同で訓練する。 しかし、位置認識の精度は位置認識の成功に大きく依存しており、視点や環境の外観に大きな変化があるシナリオではしばしば失敗する。 これにより、最終ポーズ推定はローカライゼーションを非効率にする。 そこで本研究では,ポーズ推定から直接導出することで,位置認識の分離の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを提案する。 本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。 RING#は、BEVの特徴から2つの同変表現を学習する新しい設計を取り入れ、グローバルに収束し、計算的に効率的なポーズ推定を可能にする。 NCLTとオックスフォードデータセットの総合的な実験により、RING#はビジョンとLiDARの両モードで最先端の手法より優れており、提案手法の有効性が検証されている。 コードは公開されます。

Global localization using onboard perception sensors, such as cameras and LiDARs, is crucial in autonomous driving and robotics applications when GPS signals are unreliable. Most approaches achieve global localization by sequential place recognition (PR) and pose estimation (PE). Some methods train separate models for each task, while others employ a single model with dual heads, trained jointly with separate task-specific losses. However, the accuracy of localization heavily depends on the success of place recognition, which often fails in scenarios with significant changes in viewpoint or environmental appearance. Consequently, this renders the final pose estimation of localization ineffective. To address this, we introduce a new paradigm, PR-by-PE localization, which bypasses the need for separate place recognition by directly deriving it from pose estimation. We propose RING#, an end-to-end PR-by-PE localization network that operates in the bird's-eye-view (BEV) space, compatible with both vision and LiDAR sensors. RING# incorporates a novel design that learns two equivariant representations from BEV features, enabling globally convergent and computationally efficient pose estimation. Comprehensive experiments on the NCLT and Oxford datasets show that RING# outperforms state-of-the-art methods in both vision and LiDAR modalities, validating the effectiveness of the proposed approach. The code will be publicly released.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 欠測データ付き混合型データの統計的ジャンプモデル

Statistical Jump Model for Mixed-Type Data with Missing Data Imputation ( http://arxiv.org/abs/2409.01208v2 )

ライセンス: Link先を確認
Federico P. Cortese, Antonio Pievatolo, (参考訳) 本稿では,混合型データに対する統計的ジャンプモデルを導入することで,時間的進化を伴う混合型データをクラスタリングすることの課題に対処する。 この新しいフレームワークは、状態の持続性、解釈可能性の向上、状態スイッチの頻度の低減、および欠落したデータの効率的な処理を含む。 このモデルは、状態条件の手段とモードで容易に解釈でき、実践者や政策立案者にはアクセス可能である。 本研究では, 従来の大気質指標と比較して, 大気質の持続的な状態の推測において, その優位性を示すとともに, 大気質データへの実証的応用を通じて, 本手法の有効性を検証した。 コントリビューションには、混合型時間クラスタリングの堅牢な方法、効果的なデータ管理の欠如、環境モニタリングの実践的洞察が含まれている。

In this paper, we address the challenge of clustering mixed-type data with temporal evolution by introducing the statistical jump model for mixed-type data. This novel framework incorporates regime persistence, enhancing interpretability and reducing the frequency of state switches, and efficiently handles missing data. The model is easily interpretable through its state-conditional means and modes, making it accessible to practitioners and policymakers. We validate our approach through extensive simulation studies and an empirical application to air quality data, demonstrating its superiority in inferring persistent air quality regimes compared to the traditional air quality index. Our contributions include a robust method for mixed-type temporal clustering, effective missing data management, and practical insights for environmental monitoring.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 固体不変化の強化 - ポストデプロイからプレデプロイまで

Strengthening Solidity Invariant Generation: From Post- to Pre-Deployment ( http://arxiv.org/abs/2409.01804v2 )

ライセンス: Link先を確認
Kartik Kaushik, Raju Halder, Samrat Mondal, (参考訳) 不変性は、特にブロックチェーンの不変性と分散実行のコンテキストにおいて、Solidityスマートコントラクトのセキュリティと正しさを保証するために不可欠である。 本稿では、Solidityスマートコントラクトに特化した、事前デプロイ不変生成のための新しいフレームワークであるInvSolを紹介する。 InvCon、InvCon+、Trace2Invといった、Ethereumのメインネット上のデプロイ後のトランザクション履歴に依存する既存のソリューションとは異なり、InvSolはデプロイメント前に不変性を識別し、ループを含むSolidity言語構造を包括的にカバーする。 さらに、InvSolにはカスタムテンプレートが組み込まれており、リテンシ、ガス外エラー、不変生成時の例外といった重要な問題を効果的に防止している。 スマートコントラクトのベンチマークセットを使用して、InvSolを厳格に評価し、そのパフォーマンスを最先端のソリューションと比較する。 以上の結果から,InvSolはこれらのツールよりも優れており,トランザクション履歴の制限による新たなコントラクト処理の有効性が示された。 特に、InvSolは、InvCon+と比較して、共通脆弱性の特定において15%の改善を実現しており、Trace2Invよりも優れた、特定の不変テンプレートを使用して、特定の重要な脆弱性に対処することができる。

Invariants are essential for ensuring the security and correctness of Solidity smart contracts, particularly in the context of blockchain's immutability and decentralized execution. This paper introduces InvSol, a novel framework for pre-deployment invariant generation tailored specifically for Solidity smart contracts. Unlike existing solutions, namely InvCon, InvCon+, and Trace2Inv, that rely on post-deployment transaction histories on Ethereum mainnet, InvSol identifies invariants before deployment and offers comprehensive coverage of Solidity language constructs, including loops. Additionally, InvSol incorporates custom templates to effectively prevent critical issues such as reentrancy, out-of-gas errors, and exceptions during invariant generation. We rigorously evaluate InvSol using a benchmark set of smart contracts and compare its performance with state-of-the-art solutions. Our findings reveal that InvSol significantly outperforms these tools, demonstrating its effectiveness in handling new contracts with limited transaction histories. Notably, InvSol achieves a 15% improvement in identifying common vulnerabilities compared to InvCon+ and is able to address certain crucial vulnerabilities using specific invariant templates, better than Trace2Inv.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 高次元HGPと重み付き量子LDPC符号の有効距離

Effective Distance of Higher Dimensional HGPs and Weight-Reduced Quantum LDPC Codes ( http://arxiv.org/abs/2409.02193v3 )

ライセンス: Link先を確認
Shi Jie Samuel Tan, Lev Stambler, (参考訳) 量子誤り訂正は量子計算の実現において顕著な役割を果たし、量子低密度パリティチェック(qLDPC)符号は事実上有用な安定化符号であると考えられている。 qLDPC符号は一定重みのパリティチェックを持つと定義されているが、これらのパリティチェックの重みは、これらの符号の実装を困難にする大きな定数である可能性がある。 大きな定数は、長いシンドローム抽出時間と、エラー訂正性能に影響を及ぼす悪いエラー伝播をもたらす。 Hastingsは最近、qLDPC符号の重量削減技術を導入し、パリティチェックの重量を減らし、任意のデータキュービットに作用する最大チェック数を減らした。 しかし、これらの手法の耐障害性は未解決の問題である。 本稿では,単一アンシラシンドローム抽出回路が誤り訂正のために考慮されている場合の重み付き符号の有効距離を解析する。 重み付きqLDPC符号の有効距離を保った単一アンシラシンドローム抽出回路が存在することが証明された。 また,Evraらによって導入された距離バランス技術は有効距離を保っていることを示す。 その結果,高次元ハイパーグラフ (HGP) 符号(ホモロジー積符号とも呼ばれる)は, 単一アンシラシンドローム抽出回路を用いた場合, 異常なフック誤差を伴わないことがわかった。

Quantum error correction plays a prominent role in the realization of quantum computation, and quantum low-density parity-check (qLDPC) codes are believed to be practically useful stabilizer codes. While qLDPC codes are defined to have constant weight parity-checks, the weight of these parity checks could be large constants that make implementing these codes challenging. Large constants can also result in long syndrome extraction times and bad error propagation that can impact error correction performance. Hastings recently introduced weight reduction techniques for qLDPC codes that reduce the weight of the parity checks as well as the maximum number of checks that acts on any data qubit. However, the fault tolerance of these techniques remains an open question. In this paper, we analyze the effective distance of the weight-reduced code when single-ancilla syndrome extraction circuits are considered for error correction. We prove that there exists single-ancilla syndrome extraction circuits that largely preserve the effective distance of the weight-reduced qLDPC codes. In addition, we also show that the distance balancing technique introduced by Evra et al. preserves effective distance. As a corollary, our result shows that higher-dimensional hypergraph product (HGP) codes, also known as homological product codes corresponding to the product of 1-complexes, have no troublesome hook errors when using any single-ancilla syndrome extraction circuit.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# ルールベースAIと大規模言語モデルによるサイバーインシデントタイムライン分析の促進

Advancing Cyber Incident Timeline Analysis Through Rule Based AI and Large Language Models ( http://arxiv.org/abs/2409.02572v2 )

ライセンス: Link先を確認
Fatma Yasmine Loumachi, Mohamed Chahine Ghanem, (参考訳) 時系列分析(TA)は、デジタル・フォレシクス(DF)分野において、タイムライン・フォレシクス(TF)において重要な役割を担っている。 イベントログ、ファイルメタデータ、その他の関連データから得られたタイムスタンプなどの時間ベースのデジタルアーティファクトを調べ分析することに焦点を当て、サイバーインシデントに関連するイベントを関連付け、時系列を再構築する。 従来のツールは、DF調査やインシデント対応(IR)プロセスで生成される大量のデータやさまざまなデータを効率的に扱うのに苦労することが多い。 本稿では,ルールベース人工知能(R-BAI)アルゴリズムとLarge Language Models(LLM)を組み合わせた新しいフレームワークGenDFIRを紹介する。 提案手法は,(1)R-BAIを用いて,予め定義されたルールに基づいて,異常なデジタルアーティファクトを特定し,選択する。 2) 選択された人工物は、レトリーバル増強世代(RAG)エージェントの助けを借りて、LLMによる加工用の埋込物に変換される。 LLMはその能力を使用して、人工物上で自動TAを実行し、潜在的なインシデント結果を予測する。 このフレームワークを検証するために,性能,効率,信頼性を評価した。 いくつかの指標がシミュレートされたサイバーインシデントシナリオに適用され、法医学の事例文書として提示された。 R-BAI と LLM を TA に組み込むことの有意な可能性を示唆した。 この革新的なアプローチは、ジェネレーティブAI(GenAI)、特にLLMの力を強調し、高度な脅威検出とインシデント再構築の新たな可能性を開く。

Timeline Analysis (TA) plays a crucial role in Timeline Forensics (TF) within the field of Digital Forensics (DF). It focuses on examining and analyzing time-based digital artefacts, such as timestamps derived from event logs, file metadata, and other relevant data, to correlate events linked to cyber incidents and reconstruct their chronological sequence. Traditional tools often struggle to efficiently handle the large volume and variety of data generated during DF investigations and Incident Response (IR) processes. This paper introduces a novel framework, GenDFIR, which combines Rule-Based Artificial Intelligence (R-BAI) algorithms with Large Language Models (LLMs) to enhance and automate the TA process. The proposed approach consists of two key stages: (1) R-BAI is used to identify and select anomalous digital artefacts based on predefined rules. (2) The selected artefacts are then transformed into embeddings for processing by an LLM with the assistance of a Retrieval-Augmented Generation (RAG) agent. The LLM uses its capabilities to perform automated TA on the artefacts and predict potential incident outcomes. To validate the framework, we evaluated its performance, efficiency, and reliability. Several metrics were applied to simulated cyber incident scenarios, which were presented as forensic case documents. Our findings demonstrate the significant potential of integrating R-BAI and LLMs for TA. This innovative approach underscores the power of Generative AI (GenAI), particularly LLMs, and opens up new possibilities for advanced threat detection and incident reconstruction, marking a significant advancement in the field.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# AmazonのアクティブファイアモデリングにおけるLSTMとGRUを用いたニューラルネットワーク

Neural Networks with LSTM and GRU in Modeling Active Fires in the Amazon ( http://arxiv.org/abs/2409.02681v2 )

ライセンス: Link先を確認
Ramon Tavares, (参考訳) 本研究は,ブラジルのアマゾンにあるAqua\_M-T衛星によって検出された活動点の歴史的時系列をモデル化し,予測するための包括的方法論を提案する。 このアプローチでは、Long Short-Term Memory(LSTM)とGated Recurrent Unit(GRU)アーキテクチャを組み合わせた混合リカレントニューラルネットワーク(RNN)モデルを採用して、毎日検出されたアクティブファイアスポットの月次蓄積を予測する。 データ分析の結果、一貫した季節性を示し、年間最大値と最低値が毎年同じ期間に繰り返される傾向があった。 主な目的は、予測が機械学習技術によってこの固有の季節を捉えているかどうかを検証することである。 この手法は,2種の種子を用いたクロスバリデーションを用いたデータ準備,モデル構成,トレーニングを慎重に行い,両種子の試験および検証セットの両方にデータを一般化することを保証した。 その結果,LSTMモデルとGRUモデルを組み合わせることで予測性能が向上し,複雑な時間パターンを捕捉し,観測時系列をモデル化する効果が示された。 本研究は, 環境モニタリングにおける深層学習技術の適用, 特にアクティブファイアスポットの予測に大きく貢献する。 提案手法は,他の時系列予測課題への適応の可能性を強調し,機械学習の研究開発と自然現象の予測に新たな機会を開く。 キーワード:時系列予測、リカレントニューラルネットワーク、ディープラーニング。

This study presents a comprehensive methodology for modeling and forecasting the historical time series of active fire spots detected by the AQUA\_M-T satellite in the Amazon, Brazil. The approach employs a mixed Recurrent Neural Network (RNN) model, combining Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) architectures to predict the monthly accumulations of daily detected active fire spots. Data analysis revealed a consistent seasonality over time, with annual maximum and minimum values tending to repeat at the same periods each year. The primary objective is to verify whether the forecasts capture this inherent seasonality through machine learning techniques. The methodology involved careful data preparation, model configuration, and training using cross-validation with two seeds, ensuring that the data generalizes well to both the test and validation sets for both seeds. The results indicate that the combined LSTM and GRU model delivers excellent forecasting performance, demonstrating its effectiveness in capturing complex temporal patterns and modeling the observed time series. This research significantly contributes to the application of deep learning techniques in environmental monitoring, specifically in forecasting active fire spots. The proposed approach highlights the potential for adaptation to other time series forecasting challenges, opening new opportunities for research and development in machine learning and prediction of natural phenomena. Keywords: Time Series Forecasting; Recurrent Neural Networks; Deep Learning.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# Jäger:電話コールのトレースバックを自動化

Jäger: Automated Telephone Call Traceback ( http://arxiv.org/abs/2409.02839v4 )

ライセンス: Link先を確認
David Adei, Varun Madathil, Sathvik Prasad, Bradley Reaves, Alessandra Scafuro, (参考訳) 詐欺や不正なテレマーケティングを促進する無言電話は、ネットワークユーザーやそれを告発する規制当局を圧倒し続けている。 電話乱用を訴追する最初のステップは、発信元を特定するトレースバックだ。 この基本的な調査作業には1回の呼び出しに何時間もの手作業が必要になります。 本稿では,分散セキュアコールトレースバックシステムであるJ\"agerを紹介する。 コールパーティのプライバシを暗号化的に保存し、ピアやコールボリュームなどのキャリアのトレードシークレットを保護し、バルク分析の脅威を制限する。 セキュアなトレースバックの定義と要件を確立し、証人暗号、不明瞭な擬似ランダム関数、グループシグネチャを使用して、これらの要件を満たす一連のプロトコルを開発します。 ユニバーサルコンポジビリティフレームワークにおいて,これらのプロトコルをセキュアに証明する。 次に、J\"agerは1コールあたりの計算コストと帯域幅コストが低く、これらのコストは呼び出し量とともに線形にスケールすることを示した。 J\"ager"は、オペレーターに最小限のコストで電話不正調査に革命をもたらす、効率的でセキュアでプライバシー保護システムを提供する。

Unsolicited telephone calls that facilitate fraud or unlawful telemarketing continue to overwhelm network users and the regulators who prosecute them. The first step in prosecuting phone abuse is traceback -- identifying the call originator. This fundamental investigative task currently requires hours of manual effort per call. In this paper, we introduce J\"ager, a distributed secure call traceback system. J\"ager can trace a call in a few seconds, even with partial deployment, while cryptographically preserving the privacy of call parties, carrier trade secrets like peers and call volume, and limiting the threat of bulk analysis. We establish definitions and requirements of secure traceback, then develop a suite of protocols that meet these requirements using witness encryption, oblivious pseudorandom functions, and group signatures. We prove these protocols secure in the universal composibility framework. We then demonstrate that J\"ager has low compute and bandwidth costs per call, and these costs scale linearly with call volume. J\"ager provides an efficient, secure, privacy-preserving system to revolutionize telephone abuse investigation with minimal costs to operators.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 無線通信プロトコルのための状態マシン変異に基づくテストフレームワーク

State Machine Mutation-based Testing Framework for Wireless Communication Protocols ( http://arxiv.org/abs/2409.02905v2 )

ライセンス: Link先を確認
Syed Md Mukit Rashid, Tianwei Wu, Kai Tu, Abdullah Al Ishtiaq, Ridwanul Hasan Tanvir, Yilu Dong, Omar Chowdhury, Syed Rafiul Hussain, (参考訳) 本稿では,無線プロトコル実装における論理的脆弱性を発見するためのプロトコル状態マシンであるProteusを提案する。 Proteusは、有意義なテストケース(それぞれがプロトコルメッセージのシーケンスである)を生成することで、予算の意識を維持している(すなわち、テストケースは、いくつかの制御された逸脱を除いて、主に望ましいプロトコルフローに従う)が、望ましい性質に違反する確率も高い。 有効性を示すため,23のコンシューマデバイス(4G LTEで11,BLEで12)で,Proteusを2つの異なるプロトコル実装,すなわち4G LTEとBLEで評価した。 Proteusは112のインスタンスを含む25のユニークな問題を発見した。 影響を受けたベンダーは、5つのCVEを通じて14の脆弱性を認めている。

This paper proposes Proteus, a protocol state machine, property-guided, and budget-aware automated testing approach for discovering logical vulnerabilities in wireless protocol implementations. Proteus maintains its budget awareness by generating test cases (i.e., each being a sequence of protocol messages) that are not only meaningful (i.e., the test case mostly follows the desirable protocol flow except for some controlled deviations) but also have a high probability of violating the desirable properties. To demonstrate its effectiveness, we evaluated Proteus in two different protocol implementations, namely 4G LTE and BLE, across 23 consumer devices (11 for 4G LTE and 12 for BLE). Proteus discovered 25 unique issues, including 112 instances. Affected vendors have positively acknowledged 14 vulnerabilities through 5 CVEs.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 環境システム科学におけるFAIR時系列データ管理のためのデジタル生態系

Digital Ecosystem for FAIR Time Series Data Management in Environmental System Science ( http://arxiv.org/abs/2409.03351v3 )

ライセンス: Link先を確認
J. Bumberger, M. Abbrent, N. Brinckmann, J. Hemmen, R. Kunkel, C. Lorenz, P. Lünenschloß, B. Palm, T. Schnicke, C. Schulz, H. van der Schaaf, D. Schäfer, (参考訳) 気候変動、生物多様性の喪失、環境汚染による課題に対処するには、環境システム科学の様々な分野に適用可能な包括的な監視と効果的なデータ管理戦略が必要である。 本稿では、FAIRの原則(Findable、Accessible、Interoperable、Reusable)に準拠した時系列データを管理するための汎用的で転送可能なデジタルエコシステムを提案する。 システムは高度に適応可能で、クラウド対応で、小規模プロジェクトから大規模監視イニシアチブまで幅広い環境でのデプロイメントに適している。 エコシステムは、詳細なメタデータ登録と管理のためのSensor Management System(SMS)、効率的な時系列データストレージ、転送、リアルタイム可視化のためのプラットフォームであるTimeIO、リアルタイム分析と品質保証によるデータの整合性を保証するSaQC(System for Automated Quality Control)の3つのコアコンポーネントで構成されている。 モジュールアーキテクチャと標準化されたプロトコルとインターフェースを組み合わせることで、エコシステムをさまざまな環境や機関に簡単に移行し、デプロイできるようになります。 このアプローチは、研究者、政策立案者、一般の人々を含む幅広い利害関係者に対するデータアクセシビリティを高め、協調を促進し、環境モニタリングにおける科学的研究を促進する。

Addressing the challenges posed by climate change, biodiversity loss, and environmental pollution requires comprehensive monitoring and effective data management strategies that are applicable across various scales in environmental system science. This paper introduces a versatile and transferable digital ecosystem for managing time series data, designed to adhere to the FAIR principles (Findable, Accessible, Interoperable, and Reusable). The system is highly adaptable, cloud-ready, and suitable for deployment in a wide range of settings, from small-scale projects to large-scale monitoring initiatives. The ecosystem comprises three core components: the Sensor Management System (SMS) for detailed metadata registration and management; timeIO, a platform for efficient time series data storage, transfer, and real-time visualization; and the System for Automated Quality Control (SaQC), which ensures data integrity through real-time analysis and quality assurance. The modular architecture, combined with standardized protocols and interfaces, ensures that the ecosystem can be easily transferred and deployed across different environments and institutions. This approach enhances data accessibility for a broad spectrum of stakeholders, including researchers, policymakers, and the public, while fostering collaboration and advancing scientific research in environmental monitoring.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# データ駆動型ニューズベンダーの調査:達成可能なレグレットの統一分析とスペクトル

Survey of Data-driven Newsvendor: Unified Analysis and Spectrum of Achievable Regrets ( http://arxiv.org/abs/2409.03505v2 )

ライセンス: Link先を確認
Zhuoxin Chen, Will Ma, (参考訳) Newsvendor の問題では、ある分布から引き出される数を推測することであり、非対称な結果が高すぎるか低すぎるかを推測することである。 データ駆動バージョンでは、分散は未知であり、分散からのサンプルを扱う必要がある。 データ駆動型Newsvendorは、加法対乗法的後悔、高い確率対期待境界、異なる分布クラスなど、多くの変種で研究されている。 本稿では、これらの変種の組み合わせをすべて研究し、文献の多くのギャップを埋め、多くの証明を単純化する。 特に、クラスタ化された分布の概念に基づく統一的な解析を提供し、これは新しい下界と共に、1/\sqrt{n}$ と $1/n$ の間の後悔のスペクトル全体の成すスペクトルが可能であることを示す。

In the Newsvendor problem, the goal is to guess the number that will be drawn from some distribution, with asymmetric consequences for guessing too high vs. too low. In the data-driven version, the distribution is unknown, and one must work with samples from the distribution. Data-driven Newsvendor has been studied under many variants: additive vs. multiplicative regret, high probability vs. expectation bounds, and different distribution classes. This paper studies all combinations of these variants, filling in many gaps in the literature and simplifying many proofs. In particular, we provide a unified analysis based on the notion of clustered distributions, which in conjunction with our new lower bounds, shows that the entire spectrum of regrets between $1/\sqrt{n}$ and $1/n$ can be possible.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# クラス優先のないマルチレベルコントラスト学習による微粒化表現学習

Fine-Grained Representation Learning via Multi-Level Contrastive Learning without Class Priors ( http://arxiv.org/abs/2409.04867v2 )

ライセンス: Link先を確認
Houwang Jiang, Zhuxian Liu, Guodong Liu, Xiaolong Liu, Shihua Zhan, (参考訳) 教師なし表現学習の最近の進歩は、しばしばクラス情報を活用して特徴の抽出とクラスタリングを改善している。 しかし、このクラスプリエントへの依存は、クラス情報が利用できない、あるいはあいまいな実世界のシナリオにおいて、そのようなメソッドの適用性を制限している。 本稿では,クラス先行に依存せずに表現を学習する,シンプルかつ効果的なフレームワークである「textit{Contrastive Disentangling (CD)} を提案する。 CDは多段階のコントラスト学習戦略を採用し、インスタンスレベルの損失と特徴レベルの損失を正規化エントロピーの損失と統合し、意味的にリッチできめ細かな表現を学習する。 具体的には、(1)インスタンスレベルのコントラスト損失は、異なるサンプル間の特徴表現の分離を促進し、(2)特徴レベルのコントラスト損失は、特徴予測ヘッド間の独立を促進し、(3)正規化されたエントロピー損失は、特徴ヘッドがデータから有意かつ有意な属性を捕捉することを確実にする。 これらのコンポーネントによってCDは、CIFAR-10、CIFAR-100、STL-10、ImageNet-10といったベンチマークデータセットの広範な実験で示されるように、クラス事前を欠いたシナリオで既存のメソッドよりも優れている。 コードはhttps://github.com/Hoper-J/Contrastive-Disentangling.comで公開されている。

Recent advances in unsupervised representation learning frequently leverage class information to improve the extraction and clustering of features. However, this dependence on class priors limits the applicability of such methods in real-world scenarios where class information is unavailable or ambiguous. In this paper, we propose \textit{Contrastive Disentangling (CD)}, a simple yet effective framework that learns representations without any relying on class priors. CD employs a multi-level contrastive learning strategy, integrating instance-level and feature-level losses with a normalized entropy loss to learn semantically rich and fine-grained representations. Specifically, (1) the instance-level contrastive loss encourages the separation of feature representations between different samples; (2) the feature-level contrastive loss promotes independence among feature prediction heads; and (3) the normalized entropy loss ensures that the feature heads capture meaningful and prevalent attributes from the data. These components together enable CD to outperform existing methods in scenarios lacking class priors, as demonstrated by extensive experiments on benchmark datasets including CIFAR-10, CIFAR-100, STL-10, and ImageNet-10. The code is available at https://github.com/Hoper-J/Contrastive-Disentangling.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# MHS-STMA:スケーラブルトランスフォーマーに基づくマルチレベルアテンションフレームワークによるマルチモーダルヘイト音声検出

MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework ( http://arxiv.org/abs/2409.05136v2 )

ライセンス: Link先を確認
Anusha Chhabra, Dinesh Kumar Vishwakarma, (参考訳) ソーシャルメディアは人々の生活に大きな影響を与えている。 近年、ソーシャルメディア上でのヘイトスピーチが社会の最も深刻な問題の一つとして浮上している。 テキストと画像は、記事内に分散された2種類のマルチモーダルデータである。 ユニモーダル分析は、以前のアプローチの主要な重点となっている。 さらに、マルチモーダル分析を行う際、研究者は各モーダルに付随する特徴を保存することを無視する。 これらの欠点に対処するため,本論文では,トランスフォーマーに基づくマルチレベルアテンション(STMA)と呼ばれるマルチモーダルヘイトコンテンツ検出のためのスケーラブルアーキテクチャを提案する。 このアーキテクチャは、注意に基づく深層学習機構、視覚的注意機構エンコーダ、キャプション的注意機構エンコーダの3つの主要な部分で構成されている。 ヘイトコンテンツを特定するために、各コンポーネントは様々な注意プロセスを使用し、ユニークな方法でマルチモーダルデータを処理する。 Hateful memes、MultiOff、MMHS150Kといった3つのヘイトスピーチデータセットに対する複数の評価基準を用いて、提案されたアーキテクチャの有効性を検証する。 その結果、3つのデータセットすべてにおいて、提案された戦略はベースラインアプローチよりも優れたパフォーマンスを示している。

Social media has a significant impact on people's lives. Hate speech on social media has emerged as one of society's most serious issues in recent years. Text and pictures are two forms of multimodal data that are distributed within articles. Unimodal analysis has been the primary emphasis of earlier approaches. Additionally, when doing multimodal analysis, researchers neglect to preserve the distinctive qualities associated with each modality. To address these shortcomings, the present article suggests a scalable architecture for multimodal hate content detection called transformer-based multilevel attention (STMA). This architecture consists of three main parts: a combined attention-based deep learning mechanism, a vision attention-mechanism encoder, and a caption attention-mechanism encoder. To identify hate content, each component uses various attention processes and handles multimodal data in a unique way. Several studies employing multiple assessment criteria on three hate speech datasets such as Hateful memes, MultiOff, and MMHS150K, validate the suggested architecture's efficacy. The outcomes demonstrate that on all three datasets, the suggested strategy performs better than the baseline approaches.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# Elsevier Arena: 化学・生物学・健康基礎言語モデルの人間による評価

Elsevier Arena: Human Evaluation of Chemistry/Biology/Health Foundational Large Language Models ( http://arxiv.org/abs/2409.05486v2 )

ライセンス: Link先を確認
Camilo Thorne, Christian Druckenbrodt, Kinga Szarkowska, Deepika Goyal, Pranita Marajan, Vijay Somanath, Corey Harper, Mao Yan, Tony Scerri, (参考訳) 大規模な言語モデルの品質と能力は、現在、自動ベンチマーク評価で完全に評価することはできない。 代わりに、従来の定性的な手法を自然言語生成文学から拡張する人間の評価が必要である。 最近のベストプラクティスの1つは、特定のモデルに対する人間の評価者の好みをキャプチャするA/Bテストフレームワークの使用である。 本稿では,エルゼビアで行われた生物医学領域(健康,生物学,化学・薬学)に焦点を当てたヒト評価実験について述べる。 大規模な (8.8B パラメータ) デコーダのみの基底変換器は比較的小さな (135B トークン) で訓練されているが、高度にキュレートされたエルゼビアデータセットのコレクションは OpenAI の GPT-3.5-turbo と Meta の基本 7B パラメータ Llama 2 モデルと比較される。 結果は、一般的にIRRスコアが低かったとしても、GPT-3.5-turboが好まれており、会話能力を持つモデルが好まれており、非常に大きなデータセットでトレーニングされていることを示している。 しかし同時に、より小さいが十分に訓練されたトレーニングセットでの訓練の少ないモデルでは、バイオメディカル領域で実行可能な代替手段が生まれる可能性があることを示唆している。

The quality and capabilities of large language models cannot be currently fully assessed with automated, benchmark evaluations. Instead, human evaluations that expand on traditional qualitative techniques from natural language generation literature are required. One recent best-practice consists in using A/B-testing frameworks, which capture preferences of human evaluators for specific models. In this paper we describe a human evaluation experiment focused on the biomedical domain (health, biology, chemistry/pharmacology) carried out at Elsevier. In it a large but not massive (8.8B parameter) decoder-only foundational transformer trained on a relatively small (135B tokens) but highly curated collection of Elsevier datasets is compared to OpenAI's GPT-3.5-turbo and Meta's foundational 7B parameter Llama 2 model against multiple criteria. Results indicate -- even if IRR scores were generally low -- a preference towards GPT-3.5-turbo, and hence towards models that possess conversational abilities, are very large and were trained on very large datasets. But at the same time, indicate that for less massive models training on smaller but well-curated training sets can potentially give rise to viable alternatives in the biomedical domain.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-17
# 大規模言語モデルでは、どのように考えるかは気にしません: 主観的なタスクにおいて、なぜチェーン・オブ・ソートが失敗するのか

Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks ( http://arxiv.org/abs/2409.06173v2 )

ライセンス: Link先を確認
Georgios Chochlakis, Niyantha Maruthu Pandiyan, Kristina Lerman, Shrikanth Narayanan, (参考訳) In-Context Learning (ICL) in Large Language Models (LLM) は、勾配に基づく手法でモデルパラメータを更新する必要がなくなるため、自然言語タスクを実行する主要な技術として登場した。 ICLはLLMを「適応」し、計算コストのごく一部で現在のタスクを競争的または最先端レベルで実行することを約束する。 ICLは、プロンプトで最終ラベルに明示的に到達する推論プロセス、すなわちChain-of-Thought(CoT)プロンプトを組み込むことで拡張することができる。 しかし、最近の研究によると、ICLはタスク先行の検索に大きく依存しており、特に感情や道徳のような複雑な主観的領域において、前者が後続の予測を強要する「学習」にはあまり依存していない。 本研究では,LLMにおける「発声」推論が同一の振る舞いを生じさせるかどうかを考察する。 驚くべきことに、大きな言語モデルでは、CoTはICLと同じ後方崩壊に悩まされている。 code is avalaible at https://github.com/gchochla/cot-priors.com

In-Context Learning (ICL) in Large Language Models (LLM) has emerged as the dominant technique for performing natural language tasks, as it does not require updating the model parameters with gradient-based methods. ICL promises to "adapt" the LLM to perform the present task at a competitive or state-of-the-art level at a fraction of the computational cost. ICL can be augmented by incorporating the reasoning process to arrive at the final label explicitly in the prompt, a technique called Chain-of-Thought (CoT) prompting. However, recent work has found that ICL relies mostly on the retrieval of task priors and less so on "learning" to perform tasks, especially for complex subjective domains like emotion and morality, where priors ossify posterior predictions. In this work, we examine whether "enabling" reasoning also creates the same behavior in LLMs, wherein the format of CoT retrieves reasoning priors that remain relatively unchanged despite the evidence in the prompt. We find that, surprisingly, CoT indeed suffers from the same posterior collapse as ICL for larger language models. Code is avalaible at https://github.com/gchochla/cot-priors.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-17
# 多言語コードクローン検出器の開発とベンチマーク

Development and Benchmarking of Multilingual Code Clone Detector ( http://arxiv.org/abs/2409.06176v2 )

ライセンス: Link先を確認
Wenqing Zhu, Norihiro Yoshida, Toshihiro Kamiya, Eunjong Choi, Hiroaki Takada, (参考訳) プログラミング言語の多様性が増し、コードクローン検出器の言語拡張が重要になっている。 しかし、ソースコードハンドラは、ターゲット言語に関する専門レベルの知識を必要とし、時間を要する修正を必要とするため、既存のほとんどのクローン検出検出器ではこれは難しい。 多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語サポートを容易に追加できる。 言語スケーラビリティと検出性能の面で既存の多言語検出器の欠点を解決するため,ANTLRパーサ生成に基づく多言語コードブロック抽出手法を提案し,多言語コードクローン検出器(MSCCD)を実装した。 我々は、Java言語の検知性能を評価するために、過去の研究の方法論に従う。 最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。 さらに,CodeNetデータベースをベースとした,最初の多言語構文的コードクローン評価ベンチマークを提案する。 その結果,同じ検出手法を適用しても,対象とするソースコードの言語によって性能が著しく異なることが明らかとなった。 全体として、MSCCDは、検出性能と言語拡張性を考える際に最もバランスのとれたツールである。

The diversity of programming languages is growing, making the language extensibility of code clone detectors crucial. However, this is challenging for most existing clone detection detectors because the source code handler needs modifications, which require specialist-level knowledge of the targeted language and is time-consuming. Multilingual code clone detectors make it easier to add new language support by providing syntax information of the target language only. To address the shortcomings of existing multilingual detectors for language scalability and detection performance, we propose a multilingual code block extraction method based on ANTLR parser generation, and implement a multilingual code clone detector (MSCCD), which supports the most significant number of languages currently available and has the ability to detect Type-3 code clones. We follow the methodology of previous studies to evaluate the detection performance of the Java language. Compared to ten state-of-the-art detectors, MSCCD performs at an average level while it also supports a significantly larger number of languages. Furthermore, we propose the first multilingual syntactic code clone evaluation benchmark based on the CodeNet database. Our results reveal that even when applying the same detection approach, performance can vary markedly depending on the language of the source code under investigation. Overall, MSCCD is the most balanced one among the evaluated tools when considering detection performance and language extensibility.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-17
# マルチブランチアテンション画像を用いた多周波インピーダンストモグラフィ再構成

Multi-frequency Electrical Impedance Tomography Reconstruction with Multi-Branch Attention Image Prior ( http://arxiv.org/abs/2409.10794v1 )

ライセンス: Link先を確認
Hao Fang, Zhe Liu, Yi Feng, Zhen Qiu, Pierre Bagnaninchi, Yunjie Yang, (参考訳) 多周波電気インピーダンストモグラフィ(mfEIT)は、様々な周波数で組織伝導度を推定する有望な生体医用イメージング技術である。 現在の最先端(SOTA)アルゴリズムは、教師付き学習と多重計測ベクトル(MMV)に依存しており、広範囲なトレーニングデータを必要としている。 さらに、MMV法におけるトレーニングデータへの依存は、周波数間の誤った伝導率のコントラストを導入し、生体医学的応用において重要な関心事となる。 これらの課題に対処するために,mfEIT再構成のためのマルチブランチ注意画像優先(MAIP)に基づく新しい教師なし学習手法を提案する。 提案手法では,マルチブランチ注意ネットワーク (MBA-Net) を慎重に設計し,複数の周波数依存性の伝導率画像を表現し,パラメータを反復的に更新することでmfEIT画像を再構成する。 MBA-Netの暗黙的な正規化機能を活用することで、我々のアルゴリズムは、トレーニングデータを必要としない堅牢なmfEIT再構成を可能にするために、重要な周波数間および周波数間相関を捉えることができる。 シミュレーションや実世界の実験を通じて,より優れた一般化能力を示しながら,SOTAアルゴリズムに匹敵する性能を示す。 これらの結果から,mfEITの信頼性と適用性を向上させるためにMAIP法が有効であることが示唆された。

Multi-frequency Electrical Impedance Tomography (mfEIT) is a promising biomedical imaging technique that estimates tissue conductivities across different frequencies. Current state-of-the-art (SOTA) algorithms, which rely on supervised learning and Multiple Measurement Vectors (MMV), require extensive training data, making them time-consuming, costly, and less practical for widespread applications. Moreover, the dependency on training data in supervised MMV methods can introduce erroneous conductivity contrasts across frequencies, posing significant concerns in biomedical applications. To address these challenges, we propose a novel unsupervised learning approach based on Multi-Branch Attention Image Prior (MAIP) for mfEIT reconstruction. Our method employs a carefully designed Multi-Branch Attention Network (MBA-Net) to represent multiple frequency-dependent conductivity images and simultaneously reconstructs mfEIT images by iteratively updating its parameters. By leveraging the implicit regularization capability of the MBA-Net, our algorithm can capture significant inter- and intra-frequency correlations, enabling robust mfEIT reconstruction without the need for training data. Through simulation and real-world experiments, our approach demonstrates performance comparable to, or better than, SOTA algorithms while exhibiting superior generalization capability. These results suggest that the MAIP-based method can be used to improve the reliability and applicability of mfEIT in various settings.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 半導体製造のための量子機械学習:GaN HEMT接触プロセスのモデリング

Quantum Machine Learning for Semiconductor Fabrication: Modeling GaN HEMT Contact Process ( http://arxiv.org/abs/2409.10803v1 )

ライセンス: Link先を確認
Zeheng Wang, Fangzhou Wang, Liang Li, Zirui Wang, Timothy van der Laan, Ross C. C. Leon, Jing-Kai Huang, Muhammad Usman, (参考訳) 本稿では,GaN高電子移動トランジスタ(HEMT)におけるOhmicコンタクトプロセスのモデリングに量子機械学習(QML)を初めて活用する。 159個のデバイスからのデータと変分オートエンコーダによる拡張を利用して、2レベルZZ-feature mapを備えた量子カーネルベースの回帰器(QKR)を開発した。 従来の6つの機械学習モデル(CML)と比較して、我々のQKRは一貫して最低平均絶対誤差(MAE)、平均二乗誤差(MSE)、ルート平均二乗誤差(RMSE)を示した。 繰り返し統計分析により、その堅牢性が確認された。 さらに実験では0.314 om-mmのMAEを検証し、QKRの優れた性能と半導体応用の可能性を強調し、従来のCML法よりも大幅に進歩したことを示した。

This paper pioneers the use of quantum machine learning (QML) for modeling the Ohmic contact process in GaN high-electron-mobility transistors (HEMTs) for the first time. Utilizing data from 159 devices and variational auto-encoder-based augmentation, we developed a quantum kernel-based regressor (QKR) with a 2-level ZZ-feature map. Benchmarking against six classical machine learning (CML) models, our QKR consistently demonstrated the lowest mean absolute error (MAE), mean squared error (MSE), and root mean squared error (RMSE). Repeated statistical analysis confirmed its robustness. Additionally, experiments verified an MAE of 0.314 ohm-mm, underscoring the QKR's superior performance and potential for semiconductor applications, and demonstrating significant advancements over traditional CML methods.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 短期量子コンピュータにおけるグラフ状態のハードウェア効率

Hardware-Efficient Preparation of Graph States on Near-Term Quantum Computers ( http://arxiv.org/abs/2409.10807v1 )

ライセンス: Link先を確認
Sebastian Brandhofer, Ilia Polian, Stefanie Barz, Daniel Bhatti, (参考訳) 高絡み合った量子状態は、量子コンピューティングにおける多くの応用の要素である。 しかし、これらの高い絡み合った量子状態を、現在利用可能な量子コンピュータに高い忠実度で準備することは、ユビキタスエラーによって制限される。 量子コンピュータの基盤技術の改善に加えて、短期量子コンピュータにおけるこれらの絡み合った状態のスケールと忠実性は、特殊なコンパイル方法によって改善することができる。 本研究では,形式モデルの定義と解法により,高度に絡み合ったアーキテクチャ固有のグラフ状態を生成するための量子回路のコンパイルに対処する。 本モデルでは, ゲートキャンセル, ゲート通勤, 正確なゲートタイミングなどの情報を組み込んで, 最適化グラフ状態生成回路を決定する。 これまでのところ、これらの側面は互いに独立にしか考慮されておらず、通常は任意の量子回路に適用されている。 我々は、安定化器の測定を行い、その忠実度を決定することにより、生成状態の品質を定量化する。 提案手法は,最先端のカイスキット法と比較して,7ビットグラフの状態を平均3.5倍の精度で作成する際の誤差を低減する。 線形8量子グラフ状態の場合、誤差は平均6.4倍に減少する。 以上の結果から,ゲートベース量子コンピューティングハードウェア上での高忠実度あるいは大規模グラフ状態の生成が可能となった。

Highly entangled quantum states are an ingredient in numerous applications in quantum computing. However, preparing these highly entangled quantum states on currently available quantum computers at high fidelity is limited by ubiquitous errors. Besides improving the underlying technology of a quantum computer, the scale and fidelity of these entangled states in near-term quantum computers can be improved by specialized compilation methods. In this work, the compilation of quantum circuits for the preparation of highly entangled architecture-specific graph states is addressed by defining and solving a formal model. Our model incorporates information about gate cancellations, gate commutations, and accurate gate timing to determine an optimized graph state preparation circuit. Up to now, these aspects have only been considered independently of each other, typically applied to arbitrary quantum circuits. We quantify the quality of a generated state by performing stabilizer measurements and determining its fidelity. We show that our new method reduces the error when preparing a seven-qubit graph state by 3.5x on average compared to the state-of-the-art Qiskit solution. For a linear eight-qubit graph state, the error is reduced by 6.4x on average. The presented results highlight the ability of our approach to prepare higher fidelity or larger-scale graph states on gate-based quantum computing hardware.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# マイクロカノニカルアンサンブルにおけるジャジンスキーの等価性の変化

Modified Jarzynski equality in a microcanonical ensemble ( http://arxiv.org/abs/2409.10810v1 )

ライセンス: Link先を確認
L. A. Williamson, (参考訳) 従来のジャジンスキーの等式はマイクロカノニカルアンサンブルで用意されたシステムには当てはまらないことを示す。 マイクロカノニカルな作業のゆらぎとエントロピー生成をジャジンスキーの等式に類似した方法で結合する修正された等式を導出するが、これは作業プロトコルの経路に依存する逆温度に言及する。 熱力学的変動に対するアンサンブル同値の分解を計算できるマイクロカノニカルモーメント生成関数を任意の量で一般化した特殊な場合である。 マイクロカノニカルなJarzynski等式を駆動二段系のアンサンブルで実証する。

We show that the conventional Jarzynski equality does not hold for a system prepared in a microcanonical ensemble. We derive a modified equality that connects microcanonical work fluctuations to entropy production, in an analogous way to the Jarzynski equality, but with reference to an inverse temperature that depends on the path of the work protocol. Our result is a special case of a general expression for the microcanonical moment-generating function for any extensive quantity, which enables calculation of the breakdown of ensemble equivalence for thermodynamic fluctuations. We demonstrate our microcanonical Jarzynski equality in an ensemble of driven two-level systems.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# VRアプリケーションのためのコンテキスト依存型対話型グラフィカルユーザインタフェース要素検出

Context-Dependent Interactable Graphical User Interface Element Detection for VR Applications ( http://arxiv.org/abs/2409.10811v1 )

ライセンス: Link先を確認
Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu, (参考訳) 近年、VR(Virtual Reality)は、ユーザが多様な仮想環境にまたがって没入的でインタラクティブな体験を提供する、トランスフォーメーション技術として登場している。 ユーザは立体3Dグラフィカルユーザインタフェース(GUI)上で対話可能なGUI要素(IGE)を介してVRアプリと対話することができる。 これらのIGEの正確な認識は、自動テストや効果的なGUI検索など、多くのソフトウェアエンジニアリングタスクの基盤として機能する。 2Dモバイルアプリの最新のIGE検出アプローチは、通常、ボタンやスピナーのようなクリック可能なGUI要素カテゴリのセットで、手動で大規模にラベル付けされたGUIデータセットに基づいて、教師付きオブジェクト検出モデルをトレーニングする。 オープンボキャブラリとヘテロジニアスなIGEカテゴリによる複雑度、文脈に敏感な相互作用性の複雑さ、正確なIGE検出結果のための正確な空間知覚と視覚的セマンティックアライメントの必要性など、VRアプリのIGE検出にはこのようなアプローチが適用できない。 したがって、VRアプリに適したIGE研究を始める必要がある。 本稿では,仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。 人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。 検出プロセスは、フィードバック指向のバリデーションとリフレクションループ内で反復される。 具体的には,(1)セマンティックコンテキスト理解,(2)リフレクション指向IGE候補検出,(3)コンテキスト依存的対話性分類の3つのコンポーネントを含む。 データセットに関する大規模な実験は、Orienterが最先端のGUI要素検出アプローチよりも効果的であることを示している。

In recent years, Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments on the dataset demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# ブルームフィルタを用いたリアルタイム次世代ネットワークの高速・ポスト量子認証

Fast and Post-Quantum Authentication for Real-time Next Generation Networks with Bloom Filter ( http://arxiv.org/abs/2409.10813v1 )

ライセンス: Link先を確認
Kiarash Sedghighadikolaei, Attila A Yavuz, (参考訳) スマートグリッドや車載ネットワークのような大規模次世代ネットワークシステムは、機密メッセージのリアルタイム通信を通じて、広範な自動化と自律性を促進する。 デジタルシグネチャは、非監査によるスケーラブルなブロードキャスト認証を提供するため、そのようなアプリケーションにとって不可欠である。 しかし、従来のセキュアなシグネチャ(ECDSA、RSAなど)でさえ、そのような遅延認識システムの安全性を損なう可能性のある重要な暗号遅延を導入している。 量子コンピュータが従来の難問を突破するようになると、これらの従来の暗号系は後量子(PQ)安全なものに置き換える必要がある。 しかしながら、PQ安全なシグネチャは従来のシグネチャよりも大幅にコストがかかり、リアルタイムアプリケーションにおける遅延ハードルが大幅に悪化する。 我々は,リアルタイムアプリケーションに対して,変更可能なPQセキュリティを用いて,エンドツーエンドの遅延を著しく低減するTime Valid Probabilistic Data Structure HORS (TVPD-HORS) という署名を提案する。 我々は、NIST PQ暗号規格のプリミティブとしてHORSを著しく高速化し、新しい技術の中心にある効率的な片道関数として、特別な確率的データ構造を利用する。 TVPD-HORSは、ワンハッシュブルームフィルタによる様々な入力サイズに対する可変かつ高速な処理を許可し、時間的有効性に優れ、短いセキュリティパラメータによる認証は、短命だが安全クリティカルなメッセージに使用される。 高いセキュリティ設定と時間有効設定では,TVPD-HORSの検証はHORSの2.7倍,5倍高速である。 TVPD-HORSキー生成も高速で、HORSと同じような署名速度である。 さらに、TVPD-HORSはHORSの変種をある程度の時間で増加させることができる。 これらの特徴により、TVPD-HORSは、XMSSやSPHINCS+のようなPQセーフ標準の高速かつ有効なバージョンを上げるための理想的なプリミティブとなり、次世代ネットワークのリアルタイム認証の道を開いた。

Large-scale next-generation networked systems like smart grids and vehicular networks facilitate extensive automation and autonomy through real-time communication of sensitive messages. Digital signatures are vital for such applications since they offer scalable broadcast authentication with non-repudiation. Yet, even conventional secure signatures (e.g., ECDSA, RSA) introduce significant cryptographic delays that can disrupt the safety of such delay-aware systems. With the rise of quantum computers breaking conventional intractability problems, these traditional cryptosystems must be replaced with post-quantum (PQ) secure ones. However, PQ-secure signatures are significantly costlier than their conventional counterparts, vastly exacerbating delay hurdles for real-time applications. We propose a new signature called Time Valid Probabilistic Data Structure HORS (TVPD-HORS) that achieves significantly lower end-to-end delay with a tunable PQ-security for real-time applications. We harness special probabilistic data structures as an efficient one-way function at the heart of our novelty, thereby vastly fastening HORS as a primitive for NIST PQ cryptography standards. TVPD-HORS permits tunable and fast processing for varying input sizes via One-hash Bloom Filter, excelling in time valid cases, wherein authentication with shorter security parameters is used for short-lived yet safety-critical messages. We show that TVPD-HORS verification is 2.7x and 5x faster than HORS in high-security and time valid settings, respectively. TVPD-HORS key generation is also faster, with a similar signing speed to HORS. Moreover, TVPD-HORS can increase the speed of HORS variants over a magnitude of time. These features make TVPD-HORS an ideal primitive to raise high-speed time valid versions of PQ-safe standards like XMSS and SPHINCS+, paving the way for real-time authentication of next-generation networks.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 単分子磁石アレイからの時間結晶

Time Crystals from single-molecule magnet arrays ( http://arxiv.org/abs/2409.10816v1 )

ライセンス: Link先を確認
Subhajit Sarkar, Yonatan Dubi, (参考訳) 時間結晶は、現在の量子技術において有望な応用を持つユニークな非平衡量子現象であり、量子力学において重要な進歩を示す。 伝統的に原子空洞と光学格子系で研究されてきたが、時間結晶のための代替ナノスケールプラットフォームを追求することが重要である。 ここでは,2次異方性を持つスピン・S・ハイゼンベルク・ハミルトニアンによってモデル化された周期駆動型分子磁石アレイにおける離散時間結晶を,現実的かつ実験的に関連する物理パラメータを用いて理論的に予測する。 驚いたことに、時間-結晶応答周波数は個々の磁石のエネルギーレベルと相関し、本質的に交換結合とは独立である。 後者は、磁化エンベロープのパルスのような振動によって予期せず現れ、多体反応を示す。 これらの結果は、分子磁石が時間結晶の挙動や、おそらくは非平衡量子多体力学を研究するための豊富な基盤となることを示している。

Time crystals, a unique non-equilibrium quantum phenomenon with promising applications in current quantum technologies, mark a significant advance in quantum mechanics. Although traditionally studied in atom-cavity and optical lattice systems, pursuing alternative nanoscale platforms for time crystals is crucial. Here we theoretically predict discrete time-crystals in a periodically driven molecular magnet array, modeled by a spin-S Heisenberg Hamiltonian with significant quadratic anisotropy, taken with realistic and experimentally relevant physical parameters. Surprisingly, we find that the time-crystal response frequency correlates with the energy levels of the individual magnets and is essentially independent of the exchange coupling. The latter is unexpectedly manifested through a pulse-like oscillation in the magnetization envelope, signaling a many-body response. These results show that molecular magnets can be a rich platform for studying time-crystalline behavior and possibly other out-of-equilibrium quantum many-body dynamics.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# PRELU:XOR問題に対するもう1つのシングルレイヤソリューション

PReLU: Yet Another Single-Layer Solution to the XOR Problem ( http://arxiv.org/abs/2409.10821v1 )

ライセンス: Link先を確認
Rafael C. Pinto, Anderson R. Tavares, (参考訳) 本稿では,Parametric Rectified Linear Unit (PReLU) を用いた単一層ニューラルネットワークが,これまで見過ごされてきた単純な事実であるXOR問題を解くことができることを示す。 この解を多層パーセプトロン(MLP)とGCU(Growing Cosine Unit)のアクティベーション関数と比較し,なぜPRELUがこの機能を実現するのかを説明する。 以上の結果から,学習可能な3つのパラメータのみを用いながら,より広い学習率で1層PRELUネットワークを100倍の成功率で達成できることが示唆された。

This paper demonstrates that a single-layer neural network using Parametric Rectified Linear Unit (PReLU) activation can solve the XOR problem, a simple fact that has been overlooked so far. We compare this solution to the multi-layer perceptron (MLP) and the Growing Cosine Unit (GCU) activation function and explain why PReLU enables this capability. Our results show that the single-layer PReLU network can achieve 100\% success rate in a wider range of learning rates while using only three learnable parameters.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# カオスフェアネス(Challenging Fairness) - LLMに基づく勧告におけるバイアスの包括的探索

Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations ( http://arxiv.org/abs/2409.10825v1 )

ライセンス: Link先を確認
Shahnewaz Karim Sakib, Anindya Bijoy Das, (参考訳) 大言語モデル(LLM)に基づくレコメンデーションシステムは、コンテンツやユーザの振る舞いを深く分析することによって、従来のシステムよりも包括的なレコメンデーションを提供する。 しかし、これらのシステムはしばしばバイアスを示し、主流のコンテンツを好む一方で、歪んだトレーニングデータによって非伝統的な選択肢を疎外する。 本研究では, 音楽, 歌, 書籍レコメンデーションに焦点をあて, バイアスとLLMに基づくレコメンデーションシステムとの複雑な関係について検討した。 本稿では,LLMモデルを用いた総合的な分析を通じて,推薦結果に対するバイアスの影響について検討する。 我々の発見によると、バイアスはこれらのシステムに深く浸透しているため、迅速なエンジニアリングのような単純な介入さえも、バイアスを大幅に減らし、問題の広範性を強調します。 さらに、アイデンティティの交差や社会経済的地位などの文脈情報といった要因は、これらのバイアスをさらに増幅し、異なるグループ間で公正なレコメンデーションを作成する際に直面する課題の複雑さと深さを実証する。

Large Language Model (LLM)-based recommendation systems provide more comprehensive recommendations than traditional systems by deeply analyzing content and user behavior. However, these systems often exhibit biases, favoring mainstream content while marginalizing non-traditional options due to skewed training data. This study investigates the intricate relationship between bias and LLM-based recommendation systems, with a focus on music, song, and book recommendations across diverse demographic and cultural groups. Through a comprehensive analysis conducted over different LLM-models, this paper evaluates the impact of bias on recommendation outcomes. Our findings reveal that bias is so deeply ingrained within these systems that even a simpler intervention like prompt engineering can significantly reduce bias, underscoring the pervasive nature of the issue. Moreover, factors like intersecting identities and contextual information, such as socioeconomic status, further amplify these biases, demonstrating the complexity and depth of the challenges faced in creating fair recommendations across different groups.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# AutoCRAT: アラート木の自動累積再構成

AutoCRAT: Automatic Cumulative Reconstruction of Alert Trees ( http://arxiv.org/abs/2409.10828v1 )

ライセンス: Link先を確認
Eric Ficke, Raymond M. Bateman, Shouhuai Xu, (参考訳) ネットワークが攻撃された場合、サイバーディフェンダーは、どのシステム(コンピュータやデバイス)が侵害されたのか、どんな損害が生じたのかを正確に識別する必要がある。 このプロセスは時々サイバートリアージと呼ばれ、インシデント対応の重要な部分である。 サイバートリアージは、ネットワーク侵害の影響が予測不可能な結果にはるかに及んでいるため、難しい。 このプロセスを自動化することの重要性を強調します。 本稿では,ネットワーク露出による脅威の広さと深刻度を定量化し,インシデント応答におけるサイバートリアージ活動の優先順位付けを行うシステムであるAutoCRATを提案する。 特にAutoCRATは,ネットワーク上の特定のコンピュータから発せられる,あるいはそれにつながるネットワークセキュリティイベントを追跡する,警告ツリーと呼ばれるものを自動的に再構築します。 実世界のデータセットを用いてAutoCRATの有用性を検証する。 実験結果から,本システムでは警告木を効率的に再構築し,インシデント応答と脅威情報解析の両方においてデータの可視化を容易にすることができることがわかった。

When a network is attacked, cyber defenders need to precisely identify which systems (i.e., computers or devices) were compromised and what damage may have been inflicted. This process is sometimes referred to as cyber triage and is an important part of the incident response procedure. Cyber triage is challenging because the impacts of a network breach can be far-reaching with unpredictable consequences. This highlights the importance of automating this process. In this paper we propose AutoCRAT, a system for quantifying the breadth and severity of threats posed by a network exposure, and for prioritizing cyber triage activities during incident response. Specifically, AutoCRAT automatically reconstructs what we call alert trees, which track network security events emanating from, or leading to, a particular computer on the network. We validate the usefulness of AutoCRAT using a real-world dataset. Experimental results show that our prototype system can reconstruct alert trees efficiently and can facilitate data visualization in both incident response and threat intelligence analysis.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# ReXErr:診断放射線診断における臨床的に有意なエラーの合成

ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports ( http://arxiv.org/abs/2409.10829v1 )

ライセンス: Link先を確認
Vishwanatha M. Rao, Serena Zhang, Julian N. Acosta, Subathra Adithan, Pranav Rajpurkar, (参考訳) 医療画像の正確な解釈と放射線医学レポートの作成は、医療において重要な課題だが難しい課題である。 人間による報告もAIによる報告も、臨床的不正確さから言語的誤りまで、エラーを含むことができる。 これを解決するために,胸部X線レポート内の代表的エラーを生成するために,Large Language Modelsを活用する手法であるReXErrを紹介する。 委員会認定放射線科医と共同で、人間とAIが生成するレポートでよくある誤りを捉えるエラーカテゴリを開発しました。 本手法は, 臨床応用可能性を維持しつつ, 多様な誤差を注入する新しいサンプリング手法を用いている。 ReXErrはエラーカテゴリ間の一貫性を示し、現実世界のシナリオで見られるようなエラーを生成する。 本手法は, 報告訂正アルゴリズムの開発と評価を支援する可能性があり, 放射線学報告の品質と信頼性を高める可能性がある。

Accurately interpreting medical images and writing radiology reports is a critical but challenging task in healthcare. Both human-written and AI-generated reports can contain errors, ranging from clinical inaccuracies to linguistic mistakes. To address this, we introduce ReXErr, a methodology that leverages Large Language Models to generate representative errors within chest X-ray reports. Working with board-certified radiologists, we developed error categories that capture common mistakes in both human and AI-generated reports. Our approach uses a novel sampling scheme to inject diverse errors while maintaining clinical plausibility. ReXErr demonstrates consistency across error categories and produces errors that closely mimic those found in real-world scenarios. This method has the potential to aid in the development and evaluation of report correction algorithms, potentially enhancing the quality and reliability of radiology reporting.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# PDMX:シンボリックな音楽処理のための大規模パブリックドメインミュージックXMLデータセット

PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing ( http://arxiv.org/abs/2409.10831v1 )

ライセンス: Link先を確認
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley, (参考訳) 最近の生成AI-音楽システムの爆発は、データ著作権、ミュージシャンからの音楽のライセンス、そしてオープンソースのAIと大手企業間の対立に多くの懸念を巻き起こしている。 このような問題は、特に象徴的な音楽データに対して、膨大な量の不足がある公開可能な著作権のない音楽データの必要性を浮き彫りにしている。 この問題を緩和するために、PDMX:250万以上のパブリックドメインの大規模なオープンソースデータセット MusicXMLスコアをスコア共有フォーラムMuseScoreから収集した。 PDMXにはタグとユーザインタラクションのメタデータが豊富に含まれており、データセットを効率的に分析し、高品質なユーザ生成スコアをフィルタすることができます。 データ収集プロセスで得られる追加メタデータを考慮し、PDMXの異なる代表的サブセットが下流モデルでどのように異なる振る舞いを導くか、データ品質の効果的な指標としてユーザ評価統計をどのように利用できるかを評価するマルチトラック音楽生成実験を行う。 例はhttps://pnlong.github.io/PDMX.demo/にある。

The recent explosion of generative AI-Music systems has raised numerous concerns over data copyright, licensing music from musicians, and the conflict between open-source AI and large prestige companies. Such issues highlight the need for publicly available, copyright-free musical data, in which there is a large shortage, particularly for symbolic music data. To alleviate this issue, we present PDMX: a large-scale open-source dataset of over 250K public domain MusicXML scores collected from the score-sharing forum MuseScore, making it the largest available copyright-free symbolic music dataset to our knowledge. PDMX additionally includes a wealth of both tag and user interaction metadata, allowing us to efficiently analyze the dataset and filter for high quality user-generated scores. Given the additional metadata afforded by our data collection process, we conduct multitrack music generation experiments evaluating how different representative subsets of PDMX lead to different behaviors in downstream models, and how user-rating statistics can be used as an effective measure of data quality. Examples can be found at https://pnlong.github.io/PDMX.demo/.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 入射神経表現のための単層学習可能活性化(SL$^{2}$A-INR)

Single-Layer Learnable Activation for Implicit Neural Representation (SL$^{2}$A-INR) ( http://arxiv.org/abs/2409.10836v1 )

ライセンス: Link先を確認
Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu, (参考訳) Inlicit Neural Representation (INR)は、ニューラルネットワークを利用して、座標入力を対応する属性に変換する。 しかし、INRの性能は多層パーセプトロン(MLP)アーキテクチャで使用される非線形活性化関数の選択に大きく影響されている。 複数の非線形性が研究されているが、現在のINRは、高周波成分の捕捉、多様な信号タイプ、逆問題処理の制限に直面している。 我々は,INRのパラダイムシフトを導入することで,これらの問題を大幅に緩和できることを確認した。 初期層における学習可能なアクティベーションを持つアーキテクチャは、基礎となる信号の詳細な詳細を表現できる。 具体的には,単層学習可能なアクティベーション関数を持つINRのハイブリッドネットワークであるSL$^{2}$A-INRを提案する。 提案手法は,画像表現,3次元形状再構成,インペインティング,単一画像超解像,CT再構成,新しいビュー合成など,多様なタスクに優れる。 包括的な実験を通じて、SL$^{2}$A-INRはINRの精度、品質、収束率の新しいベンチマークを設定する。

Implicit Neural Representation (INR), leveraging a neural network to transform coordinate input into corresponding attributes, has recently driven significant advances in several vision-related domains. However, the performance of INR is heavily influenced by the choice of the nonlinear activation function used in its multilayer perceptron (MLP) architecture. Multiple nonlinearities have been investigated; yet, current INRs face limitations in capturing high-frequency components, diverse signal types, and handling inverse problems. We have identified that these problems can be greatly alleviated by introducing a paradigm shift in INRs. We find that an architecture with learnable activations in initial layers can represent fine details in the underlying signals. Specifically, we propose SL$^{2}$A-INR, a hybrid network for INR with a single-layer learnable activation function, prompting the effectiveness of traditional ReLU-based MLPs. Our method performs superior across diverse tasks, including image representation, 3D shape reconstructions, inpainting, single image super-resolution, CT reconstruction, and novel view synthesis. Through comprehensive experiments, SL$^{2}$A-INR sets new benchmarks in accuracy, quality, and convergence rates for INR.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 公共財のための機械学習: 都市犯罪パターンを予測してコミュニティの安全を高める

Machine Learning for Public Good: Predicting Urban Crime Patterns to Enhance Community Safety ( http://arxiv.org/abs/2409.10838v1 )

ライセンス: Link先を確認
Sia Gupta, Simeon Sayer, (参考訳) 近年、都市安全は都市計画者や法執行機関にとって最重要課題となっている。 犯罪発生の正確な予測は、予防措置や資源配分を大幅に強化することができる。 しかし、多くの法執行機関は、都市計画者、監視プログラム、安全指導者を支援する高度なAIとML技術を分析し、適用するためのツールを欠いている。 本稿では,都市部における犯罪の空間的・時間的パターンを予測するML手法の有効性について検討する。 カリフォルニア州サンノゼからの警察の通報データを活用することで、特に即時法執行機関の対応を必要とする危険な状況に対して、通話を優先度レベルに分類する際の高い精度を達成することが研究目標である。 この分類は、呼び出しの時間、場所、性質によって通知される。 研究ステップには、データ抽出、前処理、機能エンジニアリング、探索的データ分析、実装、さまざまな教師付き機械学習モデルとニューラルネットワークの最適化とチューニングが含まれる。 犯罪カテゴリの粒度や位置精度の異なるモデルや特徴について,精度と精度について検討した。 その結果、他の様々なモデルと比較すると、ランダムフォレスト分類モデルは、最小限の偽陰性の量を確保しつつ、高い精度(精度=85%、AUC=0.92)で危険状況とそれに対応する優先度レベルを特定するのに最も効果的であることが示された。 さらなる研究とデータ収集は、他の社会的・経済的要因を含む必要があるが、これらの結果は、法執行機関が資源を最適化し、積極的に展開するアプローチを開発し、反応パターンを調整し、不偏な方法で全体の公衆の安全効果を高めるための貴重な洞察を提供する。

In recent years, urban safety has become a paramount concern for city planners and law enforcement agencies. Accurate prediction of likely crime occurrences can significantly enhance preventive measures and resource allocation. However, many law enforcement departments lack the tools to analyze and apply advanced AI and ML techniques that can support city planners, watch programs, and safety leaders to take proactive steps towards overall community safety. This paper explores the effectiveness of ML techniques to predict spatial and temporal patterns of crimes in urban areas. Leveraging police dispatch call data from San Jose, CA, the research goal is to achieve a high degree of accuracy in categorizing calls into priority levels particularly for more dangerous situations that require an immediate law enforcement response. This categorization is informed by the time, place, and nature of the call. The research steps include data extraction, preprocessing, feature engineering, exploratory data analysis, implementation, optimization and tuning of different supervised machine learning models and neural networks. The accuracy and precision are examined for different models and features at varying granularity of crime categories and location precision. The results demonstrate that when compared to a variety of other models, Random Forest classification models are most effective in identifying dangerous situations and their corresponding priority levels with high accuracy (Accuracy = 85%, AUC = 0.92) at a local level while ensuring a minimum amount of false negatives. While further research and data gathering is needed to include other social and economic factors, these results provide valuable insights for law enforcement agencies to optimize resources, develop proactive deployment approaches, and adjust response patterns to enhance overall public safety outcomes in an unbiased way.
翻訳日:2024-09-18 18:20:31 公開日:2024-09-17
# 深部時系列予測における暗黙の推論

Implicit Reasoning in Deep Time Series Forecasting ( http://arxiv.org/abs/2409.10840v1 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Mononito Goswami, Michał Wiliński, Nina Żukowska, (参考訳) 近年、時系列基礎モデルでは、幅広い領域から時系列でゼロショット予測性能が期待できることが示されている。 しかし、その成功が時間力学の真の理解によるものなのか、単にトレーニングデータの記憶によるものなのかは定かではない。 言語モデルにおける暗黙的な推論は研究されているが、時系列モデルに対する同様の評価は、ほとんど研究されていない。 この研究は、ディープ時系列予測モデルの推論能力を評価するための最初の一歩を踏み出した。 線形, MLP ベース, パッチベースのトランスフォーマーモデルは, 系統的に編成されたアウト・オブ・ディストリビューションシナリオにおいて効果的に一般化し, 単純なパターン記憶以上の未探索推論能力を示唆している。

Recently, time series foundation models have shown promising zero-shot forecasting performance on time series from a wide range of domains. However, it remains unclear whether their success stems from a true understanding of temporal dynamics or simply from memorizing the training data. While implicit reasoning in language models has been studied, similar evaluations for time series models have been largely unexplored. This work takes an initial step toward assessing the reasoning abilities of deep time series forecasting models. We find that certain linear, MLP-based, and patch-based Transformer models generalize effectively in systematically orchestrated out-of-distribution scenarios, suggesting underexplored reasoning capabilities beyond simple pattern memorization.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# BAD:テキスト・トゥ・モーション・ジェネレーションのための双方向自己回帰拡散

BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation ( http://arxiv.org/abs/2409.10847v1 )

ライセンス: Link先を確認
S. Rohollah Hosseyni, Ali Ahmad Rahmani, S. Jamal Seyedmohammadi, Sanaz Seyedin, Arash Mohammadi, (参考訳) 自己回帰モデルは因果制約を強制することによって逐次依存関係のモデリングに優れるが、その一方向の性質から複雑な双方向パターンを捉えるのに苦労する。 対照的に、マスクベースのモデルは双方向のコンテキストを活用し、よりリッチな依存性モデリングを可能にする。 しかしながら、予測中にトークン独立を前提とすることで、シーケンシャルな依存関係のモデリングを損なうことも多い。 さらに、マスクや吸収によるシーケンスの破損は、学習過程を複雑にする不自然な歪みをもたらす可能性がある。 これらの課題に対処するために,自動回帰モデルとマスクベース生成モデルの強みを統一する新しいアプローチである双方向自己回帰拡散(BAD)を提案する。 BADは、ランダムな順序付けを通じて因果関係を強制しながら自然配列構造を保存し、逐次的および双方向的な関係を効果的に捕捉する、置換に基づく汚職手法を用いる。 総合的な実験により、BADはテキスト・ツー・モーション生成において自己回帰モデルやマスクベースのモデルよりも優れており、シーケンス・モデリングのための新たな事前学習戦略が示唆されている。 BADのコードベースはhttps://github.com/RohollahHS/BADで公開されている。

Autoregressive models excel in modeling sequential dependencies by enforcing causal constraints, yet they struggle to capture complex bidirectional patterns due to their unidirectional nature. In contrast, mask-based models leverage bidirectional context, enabling richer dependency modeling. However, they often assume token independence during prediction, which undermines the modeling of sequential dependencies. Additionally, the corruption of sequences through masking or absorption can introduce unnatural distortions, complicating the learning process. To address these issues, we propose Bidirectional Autoregressive Diffusion (BAD), a novel approach that unifies the strengths of autoregressive and mask-based generative models. BAD utilizes a permutation-based corruption technique that preserves the natural sequence structure while enforcing causal dependencies through randomized ordering, enabling the effective capture of both sequential and bidirectional relationships. Comprehensive experiments show that BAD outperforms autoregressive and mask-based models in text-to-motion generation, suggesting a novel pre-training strategy for sequence modeling. The codebase for BAD is available on https://github.com/RohollahHS/BAD.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 3DFacePolicy:拡散ポリシによる音声駆動型3D顔アニメーション

3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy ( http://arxiv.org/abs/2409.10848v1 )

ライセンス: Link先を確認
Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Yuki Uranishi, (参考訳) 音声駆動の3D顔アニメーションは、研究とアプリケーション開発の両方で没入的な進歩を遂げている。 最新のアプローチはトランスフォーマーに基づく手法と拡散に基づく手法に重点を置いているが、生成したアニメーションと実際の人間の顔の間には、生き生きと感情表現のギャップがまだ残っている。 この制限に対処するため、3DFacePolicyという3次元顔アニメーション予測のための拡散ポリシーモデルを提案する。 フレーム毎に顔生成ではなく拡散ポリシーで3次元顔テンプレート上の3次元頂点軌跡を予測し、変動的で現実的な人間の顔の動きを生成する。 音声と頂点の状態を観察し、頂点の軌道を予測し、人間の表情を模倣し、人間の感情の連続的および自然な流れを維持する。 実験の結果,本手法は顔面運動の変動および動的合成に有効であることがわかった。

Audio-driven 3D facial animation has made immersive progress both in research and application developments. The newest approaches focus on Transformer-based methods and diffusion-based methods, however, there is still gap in the vividness and emotional expression between the generated animation and real human face. To tackle this limitation, we propose 3DFacePolicy, a diffusion policy model for 3D facial animation prediction. This method generates variable and realistic human facial movements by predicting the 3D vertex trajectory on the 3D facial template with diffusion policy instead of facial generation for every frame. It takes audio and vertex states as observations to predict the vertex trajectory and imitate real human facial expressions, which keeps the continuous and natural flow of human emotions. The experiments show that our approach is effective in variable and dynamic facial motion synthesizing.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# SIFToM: 心の理論によるロバストなスポークインストラクション

SIFToM: Robust Spoken Instruction Following through Theory of Mind ( http://arxiv.org/abs/2409.10849v1 )

ライセンス: Link先を確認
Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu, (参考訳) 音声言語命令はエージェントの共同作業においてユビキタスである。 しかし,人間とロボットのコラボレーションでは,背景雑音や話者のアクセント,発音の誤認など,人間の発話の認識精度が様々な音声・環境要因に影響されることがしばしばある。 騒音や不慣れな聴覚入力に直面した場合、人間は刺激を曖昧にし、実用的な行動を取るために文脈と事前知識を使用する。 本研究では,人間の目標と共同計画を事前の認識と理解のために推定することにより,ロボットが多様な発話条件下で人間の指示を実践的に追従できるようにするための,認知にインスパイアされた音声指導モデルであるSIFToMを提案する。 シミュレーション住宅実験(VirtualHome 2)でSIFToMを試験した。 結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。 次に,朝食準備作業用移動マニピュレータのタスク計画レベルでの能力を示す。

Spoken language instructions are ubiquitous in agent collaboration. However, in human-robot collaboration, recognition accuracy for human speech is often influenced by various speech and environmental factors, such as background noise, the speaker's accents, and mispronunciation. When faced with noisy or unfamiliar auditory inputs, humans use context and prior knowledge to disambiguate the stimulus and take pragmatic actions, a process referred to as top-down processing in cognitive science. We present a cognitively inspired model, Speech Instruction Following through Theory of Mind (SIFToM), to enable robots to pragmatically follow human instructions under diverse speech conditions by inferring the human's goal and joint plan as prior for speech perception and understanding. We test SIFToM in simulated home experiments (VirtualHome 2). Results show that the SIFToM model outperforms state-of-the-art speech and language models, approaching human-level accuracy on challenging speech instruction following tasks. We then demonstrate its ability at the task planning level on a mobile manipulator for breakfast preparation tasks.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# メタバースにおける最初のアバター印象を用いたアンチディグライズ認証システム

An Anti-disguise Authentication System Using the First Impression of Avatar in Metaverse ( http://arxiv.org/abs/2409.10850v1 )

ライセンス: Link先を確認
Zhenyong Zhang, Kedi Yang, Youliang Tian, Jianfeng Ma, (参考訳) メタバースは物理的な世界と平行な広大な仮想世界であり、ユーザーは物理的な世界の時間的・空間的制限を突破する様々なサービスを楽しむためにアバターとして振る舞う。 メタバースは、敵が自分のアバターを偽装して他人を騙すアバターとして任意のデジタル外観を作成することができる。 本稿では,古い友人を識別する物理世界からの最初の印象のアイデアを生かした,アンチ・ディグライズ・認証手法を提案する。 具体的には、メタバースの最初のミーティングシナリオを格納し、アバター間の認証を支援するためにリコールする。 敵が第1印象を交換・鍛造することを防止するため,カメレオンに基づく署名暗号化機構を構築し,暗号文認証プロトコルを設計し,暗号化されたアイデンティティの公衆の検証性を確保する。 セキュリティ分析の結果,提案した署名暗号化機構は,セキュリティ要件だけでなく,公的な検証可能性も満たしていることがわかった。 さらに、暗号文認証プロトコルは、最初の印象に対する置換および鍛造攻撃を防御する能力を有する。 大規模な実験により、提案したアバター認証システムは、ブロックチェーン上の低ストレージ消費で、解離防止認証を実現することができることが示された。

Metaverse is a vast virtual world parallel to the physical world, where the user acts as an avatar to enjoy various services that break through the temporal and spatial limitations of the physical world. Metaverse allows users to create arbitrary digital appearances as their own avatars by which an adversary may disguise his/her avatar to fraud others. In this paper, we propose an anti-disguise authentication method that draws on the idea of the first impression from the physical world to recognize an old friend. Specifically, the first meeting scenario in the metaverse is stored and recalled to help the authentication between avatars. To prevent the adversary from replacing and forging the first impression, we construct a chameleon-based signcryption mechanism and design a ciphertext authentication protocol to ensure the public verifiability of encrypted identities. The security analysis shows that the proposed signcryption mechanism meets not only the security requirement but also the public verifiability. Besides, the ciphertext authentication protocol has the capability of defending against the replacing and forging attacks on the first impression. Extensive experiments show that the proposed avatar authentication system is able to achieve anti-disguise authentication at a low storage consumption on the blockchain.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 非局所性、変動性絡み込み証人および非局所的測定による絡み合いの検出と保護

Detecting and protecting entanglement through nonlocality, variational entanglement witness, and nonlocal measurements ( http://arxiv.org/abs/2409.10852v1 )

ライセンス: Link先を確認
Haruki Matsunaga, Le Bin Ho, (参考訳) 本稿では,量子エンタングルメントの検出と保護を強化するための高度な手法を提案する。 遠方で粒子が接続された場合の絡み合いは非局所性によって表され、クレーター=ホルン=シモニー=ホルト(英語版)(CHSH)の不等式を通じて測定できる。 不平等を犯すことは絡み合いを裏付けるが、絡み合いはそのような違反なしにも存在する。 この制限を克服するために、CHSH違反を絡み合い尺度として使用し、より完全な検出のために変分絡み合い証を導入する。 さらに,CHSHの不等式と変分絡みの双方における期待値を測定するための非局所測定フレームワークを提案する。 これらの非局所的な測定は、絡み合い粒子の内在的相関を利用しており、絡み合いの検出と維持のためのより信頼性の高いアプローチを提供する。 本稿では, 量子技術の実用化に大きく貢献し, 絡みの検知と維持が不可欠である。

We present an advanced method to enhance the detection and protection of quantum entanglement, a key concept in quantum mechanics for computing, communication, and beyond. Entanglement, where particles remain connected over distance, can be indicated by nonlocality, measurable through the Clauser-Horne-Shimony-Holt (CHSH) inequality. While violating the inequality confirms entanglement, entanglement can still exist without such violations. To overcome this limitation, we use the CHSH violation as an entanglement measure and introduce a variational entanglement witness for more complete detection. Moreover, we propose a nonlocal measurement framework to measure the expectation values in both the CHSH inequality and variational entanglement witness. These nonlocal measurements exploit the intrinsic correlations between entangled particles, providing a more reliable approach for detecting and maintaining entanglement. This paper significantly contributes to the practical application of quantum technologies, where detecting and maintaining entanglement are essential.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 局所PITマッピングを用いた校正多変量回帰

Calibrated Multivariate Regression with Localized PIT Mappings ( http://arxiv.org/abs/2409.10855v1 )

ライセンス: Link先を確認
Lucas Kock, G. S. Rodrigues, Scott A. Sisson, Nadja Klein, David J. Nott, (参考訳) 校正は、予測された不確実性が観測された不確実性と一致することを保証する。 単変量確率予測の校正手法に関する広範な文献があるが、多変量予測の校正に関する研究はより限定的である。 本稿では,多変量キャリブレーションに対処するポストホックリカレーション手法を提案する。 提案手法は,限界確率積分変換値のベクトルと観測空間の間の局所写像を構築し,連続的,離散的,混合的な応答に適用可能なフレキシブルでモデルのない解を提供する。 このアプローチの2つのバージョンを示す: 1つはK-アネレスト近傍を使い、もう1つは正規化フローを使用する。 それぞれの手法は異なる状況において独自の強みを持つ。 深層ニューラルネットワークの通貨為替レート予測の再検討と,多変量応答が離散成分と連続成分の両方を持つインドにおける幼児栄養失調の回帰モデルの改善という,2つの実データ応用に対するアプローチの有効性を実証する。

Calibration ensures that predicted uncertainties align with observed uncertainties. While there is an extensive literature on recalibration methods for univariate probabilistic forecasts, work on calibration for multivariate forecasts is much more limited. This paper introduces a novel post-hoc recalibration approach that addresses multivariate calibration for potentially misspecified models. Our method involves constructing local mappings between vectors of marginal probability integral transform values and the space of observations, providing a flexible and model free solution applicable to continuous, discrete, and mixed responses. We present two versions of our approach: one uses K-nearest neighbors, and the other uses normalizing flows. Each method has its own strengths in different situations. We demonstrate the effectiveness of our approach on two real data applications: recalibrating a deep neural network's currency exchange rate forecast and improving a regression model for childhood malnutrition in India for which the multivariate response has both discrete and continuous components.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 超伝導デバイス上でのHarrow-Hassidim-LloydアルゴリズムによるHele-Shaw流れの解法:効率と課題に関する研究

Solving the Hele-Shaw flow using the Harrow-Hassidim-Lloyd algorithm on superconducting devices: A study of efficiency and challenges ( http://arxiv.org/abs/2409.10857v1 )

ライセンス: Link先を確認
Muralikrishnan Gopalakrishnan Meena, Kalyana C. Gottiparthi, Justin G. Lietz, Antigoni Georgiadou, Eduardo Antonio Coello Pérez, (参考訳) 実用的な流体流問題を扱う量子プロセッサの開発は、遠いが有望なフロンティアを表している。 量子アルゴリズム、特に線形解法における最近の進歩は、古典的な流体解法に対する量子解への道のりを照らしている。 しかし,現実のハードウェア上での理想フロー方程式の解法におけるこれらの量子線形系アルゴリズム(QLSA)の能力を評価することは,現実的な流体力学応用における将来の発展に不可欠である。 本研究では, Harrow-Hassidim-Lloyd (HHL) アルゴリズムを用いて, 理想化された流動問題, 特にHele-Shaw流の線形方程式系を高精度に解き, 正準QLSA, Harrow-Hassidim-Lloyd (HHL) アルゴリズムの有効性について検討する。 本研究は,HHLソルバの精度と計算コストの分析に焦点をあてる。 解析器の安定性と収束性を評価するために, ショットベースシミュレーションを量子シミュレータ上で実施する。 さらに,超伝導量子デバイス上でのHHLソルバの実行から得られる知見を共有した。 量子デバイス固有のキュービット測定,ゲート操作,およびキュービットデコヒーレンスによる誤差を軽減するために,様々なエラー抑制と緩和手法を用いる。 予備評価は,流動問題の解法としてQLSAを用いることで,より複雑な量子ユーティリティスケール評価を可能にするための基礎的なステップとして機能する。

The development of quantum processors capable of handling practical fluid flow problems represents a distant yet promising frontier. Recent strides in quantum algorithms, particularly linear solvers, have illuminated the path toward quantum solutions for classical fluid flow solvers. However, assessing the capability of these quantum linear systems algorithms (QLSAs) in solving ideal flow equations on real hardware is crucial for their future development in practical fluid flow applications. In this study, we examine the capability of a canonical QLSA, the Harrow-Hassidim-Lloyd (HHL) algorithm, in accurately solving the system of linear equations governing an idealized fluid flow problem, specifically the Hele-Shaw flow. Our investigation focuses on analyzing the accuracy and computational cost of the HHL solver. To gauge the stability and convergence of the solver, we conduct shots-based simulations on quantum simulators. Furthermore, we share insights gained from executing the HHL solver on superconducting quantum devices. To mitigate errors arising from qubit measurement, gate operations, and qubit decoherence inherent in quantum devices, we employ various error suppression and mitigation techniques. Our preliminary assessments serve as a foundational step towards enabling more complex quantum utility scale evaluation of using QLSA for solving fluid flow problems.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 分岐境界によるダイナミックレンジ低減

Dynamic Range Reduction via Branch-and-Bound ( http://arxiv.org/abs/2409.10863v1 )

ライセンス: Link先を確認
Thore Gerlach, Nico Piatkowski, (参考訳) 機械学習と人工知能における高性能コンピューティングの需要は、Tensor Processing Units (TPU)、Graphics Processing Units (GPU)、Field-Programmable Gate Arrays (FPGA)のような特別なハードウェアアクセラレータの開発につながった。 これらのアクセラレータを強化するための重要な戦略は、算術演算における精度の低下である。 精度の低下は、メモリ帯域幅の要求とエネルギー消費を最小化し、大規模およびモバイルデプロイメントに必須であり、サイクル当たりのより並列な操作を可能にし、ハードウェアリソースの利用を最大化することでスループットを向上させる。 この戦略は、NP-hard quadratic unconstrained binary optimization (QUBO) 問題を機械学習で解く上でも不可欠である。 量子アニールのような特別なハードウェアソルバは、精度の低下から大きな恩恵を受ける。 本稿では,QUBO問題において,動的範囲を複雑性の尺度として利用することにより,精度の低下を図るための完全原理の分岐境界アルゴリズムを提案する。 実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。

The demand for high-performance computing in machine learning and artificial intelligence has led to the development of specialized hardware accelerators like Tensor Processing Units (TPUs), Graphics Processing Units (GPUs), and Field-Programmable Gate Arrays (FPGAs). A key strategy to enhance these accelerators is the reduction of precision in arithmetic operations, which increases processing speed and lowers latency - crucial for real-time AI applications. Precision reduction minimizes memory bandwidth requirements and energy consumption, essential for large-scale and mobile deployments, and increases throughput by enabling more parallel operations per cycle, maximizing hardware resource utilization. This strategy is equally vital for solving NP-hard quadratic unconstrained binary optimization (QUBO) problems common in machine learning, which often require high precision for accurate representation. Special hardware solvers, such as quantum annealers, benefit significantly from precision reduction. This paper introduces a fully principled Branch-and-Bound algorithm for reducing precision needs in QUBO problems by utilizing dynamic range as a measure of complexity. Experiments validate our algorithm's effectiveness on an actual quantum annealer.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 階層的注意ショートカットによる適応型大規模言語モデル

Adaptive Large Language Models By Layerwise Attention Shortcuts ( http://arxiv.org/abs/2409.10870v1 )

ライセンス: Link先を確認
Prateek Verma, Mert Pilanci, (参考訳) トランスフォーマーアーキテクチャは、現代のAI革命のバックボーンである。 しかし、それらは単に同じブロックを数十の層に積み重ねて、あるブロックから別のブロックへ順次情報を処理することに基づいている。 本稿では,この課題に対処し,LLMライクなセットアップの適応計算を導入し,アテンション機構を通じて最終層が全ての中間層に適合すると仮定し,計算用bf{attention shortcuts} を導入することを提案する。 これらのショートカットはアーキテクチャの深さとコンテキストを適応させることができる。 音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。 モデルが入力トークンに応じてコンテキストと深さに適応する層間で複雑な依存関係を学習する証拠を注意マップで示します。

Transformer architectures are the backbone of the modern AI revolution. However, they are based on simply stacking the same blocks in dozens of layers and processing information sequentially from one block to another. In this paper, we propose to challenge this and introduce adaptive computations for LLM-like setups, which allow the final layer to attend to all of the intermediate layers as it deems fit through the attention mechanism, thereby introducing computational \textbf{attention shortcuts}. These shortcuts can thus make the architecture depth and context adaptive. We showcase four different datasets, namely acoustic tokens, natural language, and symbolic music, and we achieve superior performance for GPT-like architecture. We give evidence via attention maps that the models learn complex dependencies across layers that are adaptive in context and depth depending on the input tokens.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# LSTMを用いた Transformer と Seq2Seq を用いたアメリカ手話テキスト翻訳

American Sign Language to Text Translation using Transformer and Seq2Seq with LSTM ( http://arxiv.org/abs/2409.10874v1 )

ライセンス: Link先を確認
Gregorius Guntur Sunardi Putra, Adifa Widyadhani Chanda D'Layla, Dimas Wahono, Riyanarto Sarno, Agus Tri Haryono, (参考訳) 手話翻訳は、手、体、口の動きを通して言葉を表現しているため、聴覚と聴覚のコミュニケーションにおいて重要な問題の一つである。 アメリカン手話(American Sign Language)は、使われる手話の一つで、そのうちの1つはアルファベット記号である。 ニューラルマシン翻訳技術の発展は手話翻訳に向けて進んでいる。 Transformerは自然言語処理の最先端となった。 本研究では,手話からテキストへの翻訳において,TransformerとSeq2Seq(Sequence-to-Sequence)モデルを比較した。 さらに,Residual Long Short-Term Memory (ResidualLSTM) をTransformerに追加して実験を行った。 TransformerへのResidualLSTMの追加により、BLEUスコア値に基づいてTransformerモデルの性能が23.37%低下する。 一方、Transformer自身はSeq2Seqモデルと比較してBLEUスコア値を28.14増加させる。

Sign language translation is one of the important issues in communication between deaf and hearing people, as it expresses words through hand, body, and mouth movements. American Sign Language is one of the sign languages used, one of which is the alphabetic sign. The development of neural machine translation technology is moving towards sign language translation. Transformer became the state-of-the-art in natural language processing. This study compares the Transformer with the Sequence-to-Sequence (Seq2Seq) model in translating sign language to text. In addition, an experiment was conducted by adding Residual Long Short-Term Memory (ResidualLSTM) in the Transformer. The addition of ResidualLSTM to the Transformer reduces the performance of the Transformer model by 23.37% based on the BLEU Score value. In comparison, the Transformer itself increases the BLEU Score value by 28.14 compared to the Seq2Seq model.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# 適応型光音響CTのためのニューラルネットワーク

Neural Fields for Adaptive Photoacoustic Computed Tomography ( http://arxiv.org/abs/2409.10876v1 )

ライセンス: Link先を確認
Tianao Li, Manxiu Cui, Cheng Ma, Emma Alexander, (参考訳) 光音響CT(PACT)は広範に応用された非侵襲的な画像モダリティである。 従来のPACT画像再構成アルゴリズムは、組織内の音の異種速度(SOS)による波面歪みに悩まされ、画像劣化を引き起こす。 これらの効果を考慮に入れると画質が向上するが、SOS分布の測定は実験的に高価である。 もう一つのアプローチは、PA信号のみを用いて初期圧力画像とSOSを共同で再構成することである。 既存の共同再構築手法には、計算コストの高いこと、SOSを直接回復できないこと、不正確な単純化仮定に依存すること、といった制限がある。 インプシット神経表現(インプシット神経表現、英: Implicit Neural representation)は、座標ベースニューラルネットワークを用いて物理場の効率的かつ連続的な表現を学ぶための、コンピュータビジョンの新たな技術である。 本研究では、ニューラルネットワークを利用した効率的な自己教師型フレームワークであるNF-APACTを導入し、正確で堅牢なマルチチャネルデコンボリューションを実現するためのSOSを推定する。 本手法は,SOSの収差を既存手法よりも高速かつ高精度に除去する。 実験で収集したファントムおよび生体内データを用いて,新しい数値ファントムを用いて,本手法の有効性を実証した。 我々のコードと数値ファントムはhttps://github.com/Lukeli0425/NF-APACT.comで入手できる。

Photoacoustic computed tomography (PACT) is a non-invasive imaging modality with wide medical applications. Conventional PACT image reconstruction algorithms suffer from wavefront distortion caused by the heterogeneous speed of sound (SOS) in tissue, which leads to image degradation. Accounting for these effects improves image quality, but measuring the SOS distribution is experimentally expensive. An alternative approach is to perform joint reconstruction of the initial pressure image and SOS using only the PA signals. Existing joint reconstruction methods come with limitations: high computational cost, inability to directly recover SOS, and reliance on inaccurate simplifying assumptions. Implicit neural representation, or neural fields, is an emerging technique in computer vision to learn an efficient and continuous representation of physical fields with a coordinate-based neural network. In this work, we introduce NF-APACT, an efficient self-supervised framework utilizing neural fields to estimate the SOS in service of an accurate and robust multi-channel deconvolution. Our method removes SOS aberrations an order of magnitude faster and more accurately than existing methods. We demonstrate the success of our method on a novel numerical phantom as well as an experimentally collected phantom and in vivo data. Our code and numerical phantom are available at https://github.com/Lukeli0425/NF-APACT.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# S/Zn共重合シリコントンネル効果トランジスタの室温におけるパウリスピン遮断

Pauli spin blockade at room temperature in S/Zn-codoped silicon tunnel field effect transistors ( http://arxiv.org/abs/2409.10881v1 )

ライセンス: Link先を確認
Yoshisuke Ban, Kimihiko Kato, Shota Iizuka, Hiroshi Oka, Shigenori Murakami, Koji Ishibashi, Satoshi Moriyama, Takahiro Mori, Keiji Ono, (参考訳) パウリスピン遮断(英: Pauli spin blockade、PSB)は、量子ドット(QD)と量子ビットの読み出しにおけるスピンに関する基礎研究に用いられている。 PSBの動作温度はQDによって制限され、10K以下であり、幅広いアプリケーション開発を制限する。 ここでは、電界効果トランジスタのチャネル内の1つの深部ドーパントが室温QDとして機能し、2つの異なる深部ドーパントが室温までPSBを示すことを示す。 特性導電性は、PSBを識別する手段を提供し、PSBデバイスを感度<20 uTの磁気センサとして機能させる。 磁気共鳴によるPSBのリフティングも低温で観測される。 このユニークなシステムは、シリコン技術に基づく室温量子技術を実現することが期待されている。

Pauli spin blockade (PSB) has been used in fundamental studies on spins in quantum dots (QDs) and qubit readouts. The operating temperature of PSB is limited by that of QDs and remains below 10 K, limiting wide application development. Herein, we confirm that a single deep dopant in the channel of a field effect transistor functions as a room-temperature QD; consequently, transport through two different deep dopants exhibits PSB up to room temperature. The characteristic magnetoconductance provides a means to identify PSB and enables the PSB device to function as a magnetic sensor with a sensitivity of <20 uT. Liftings of PSB by magnetic resonance are also observed at low temperatures. This unique system is expected to realize room-temperature quantum technologies based on silicon technology.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# CREAM:会議要約のための基準フリーELO関連自動評価

CREAM: Comparison-Based Reference-Free ELO-Ranked Automatic Evaluation for Meeting Summarization ( http://arxiv.org/abs/2409.10883v1 )

ライセンス: Link先を確認
Ziwei Gong, Lin Ai, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Zehui Wu, Ahmad Emami, Julia Hirschberg, (参考訳) 大規模言語モデル(LLM)は要約のための自動評価手法への関心を喚起し、人間の評価に対するより高速でコスト効率の高い代替手段を提供する。 しかし、長文要約や対話に基づく会議要約といった複雑なタスクに適用された場合、既存の手法はしばしば不足する。 本稿では,会議要約評価の独特な課題に対処する新しいフレームワークであるCREAM(Comparison-Based Reference-Free Elo-Ranked Automatic Evaluation for Meeting Summarization)を紹介する。 CREAMは、連鎖推論とキーファクトアライメントを組み合わせることで、参照を必要とせずにモデル生成要約の簡潔さと完全性を評価する。 ELOランキングシステムを利用することで、異なるモデルの品質や迅速な構成を比較するための堅牢なメカニズムを提供する。

Large Language Models (LLMs) have spurred interest in automatic evaluation methods for summarization, offering a faster, more cost-effective alternative to human evaluation. However, existing methods often fall short when applied to complex tasks like long-context summarizations and dialogue-based meeting summarizations. In this paper, we introduce CREAM (Comparison-Based Reference-Free Elo-Ranked Automatic Evaluation for Meeting Summarization), a novel framework that addresses the unique challenges of evaluating meeting summaries. CREAM leverages a combination of chain-of-thought reasoning and key facts alignment to assess conciseness and completeness of model-generated summaries without requiring reference. By employing an ELO ranking system, our approach provides a robust mechanism for comparing the quality of different models or prompt configurations.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# メムリスタに基づくニューロモーフィックシステムにおけるコントラスト学習

Contrastive Learning in Memristor-based Neuromorphic Systems ( http://arxiv.org/abs/2409.10887v1 )

ライセンス: Link先を確認
Cory Merkel, Alexander Ororbia, (参考訳) 第3世代のニューラルネットワークであるスパイクニューラルネットワークは、今日のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。 本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型可塑性(CSDP)の概念実証を設計し,検討する。 実験により,CSDPのハードウェア実装は,複雑な勾配計算に頼らずに単純な論理関数を学習できることが実証された。

Spiking neural networks, the third generation of artificial neural networks, have become an important family of neuron-based models that sidestep many of the key limitations facing modern-day backpropagation-trained deep networks, including their high energy inefficiency and long-criticized biological implausibility. In this work, we design and investigate a proof-of-concept instantiation of contrastive-signal-dependent plasticity (CSDP), a neuromorphic form of forward-forward-based, backpropagation-free learning. Our experimental simulations demonstrate that a hardware implementation of CSDP is capable of learning simple logic functions without the need to resort to complex gradient calculations.
翻訳日:2024-09-18 18:06:56 公開日:2024-09-17
# N$-qubit状態の2つの族に対する多部交絡対非局所性

Multipartite entanglement vs nonlocality for two families of $N$-qubit states ( http://arxiv.org/abs/2409.10888v1 )

ライセンス: Link先を確認
Sanchit Srivastava, Shohini Ghose, (参考訳) 多重量子ビットの量子状態は、量子ビット間の絡み合いが存在するときにベル型不等式に反し、相関の非局所的な振る舞いを示す。 Svetlichnyの不等式違反を特徴とする多部構造と真の多部構造非局所性の関係を,N-$qubit状態の2つのファミリに対して解析した。 一般化されたGHZ族に対して、Svetlichnyの不等式は、任意の数の量子ビットに対して$n-$tangleが1/2$未満であるときに違反しないことを示す。 一方、最大スライス状態は、$n-$tangle が 0 でないときは常に Svetlichny の不等式に反し、その違反は qubit の数が偶数であるとき、tangle とともに単調に増加する。 我々の研究は、以前3つのキュービットに対して導かれたトライアングルとスヴェットリニュの不等式違反の関係を一般化する。

Quantum states of multiple qubits can violate Bell-type inequalities when there is entanglement present between the qubits, indicating nonlocal behaviour of correlations. We analyze the relation between multipartite entanglement and genuine multipartite nonlocality, characterized by Svetlichny inequality violations, for two families of $N-$qubit states. We show that for the generalized GHZ family of states, Svetlichny inequality is not violated when the $n-$tangle is less than $1/2$ for any number of qubits. On the other hand, the maximal slice states always violate the Svetlichny inequality when $n-$tangle is nonzero, and the violation increases monotonically with tangle when the number of qubits is even. Our work generalizes the relations between tangle and Svetlichny inequality violation previously derived for three qubits.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# ディープフェイク動画をリアルタイムで検出する「Fake Shaking the Fake」

Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes ( http://arxiv.org/abs/2409.10889v1 )

ライセンス: Link先を確認
Zhixin Xie, Jun Luo, (参考訳) 生成AIの一種であるリアルタイムディープフェイク(Real-time Deepfake)は、ビデオ内の既存のコンテンツ(例えば、顔を別のものと交換する)を"生成する"ことができる。 非常に残念なことに、金融詐欺や政治的誤報を含む悪意ある目的のために、ディープフェイクビデオ(ウェブ会議、ビデオ通話、アイデンティティ認証)を作成するために誤用されてきた。 ディープフェイク検出(ディープフェイク検出)は、ディープフェイクに対する対策として、学術的なコミュニティからかなりの関心を集めているが、既存の研究は一般的に、目に見えないデータセットを超えるパフォーマンスの少ない受動的特徴の学習に依存している。 本稿では,物理干渉に適応できないディープフェイクモデルを革新的に活用する,新しいリアルタイムディープフェイク検出手法であるSFakeを提案する。 具体的には、SFakeはスマートフォンの機械的振動を誘発するプローブを積極的に送信する。 その結果、SFakeは、顔領域とプローブパターンとの整合性に基づいて、顔がディープフェイクによって入れ替えられるか否かを判定する。 SFakeを実装し、自己構築したデータセット上での有効性を評価し、他の6つの検出手法と比較する。 その結果,SFakeは検出精度が向上し,処理速度が向上し,メモリ消費も低下することがわかった。

Real-time deepfake, a type of generative AI, is capable of "creating" non-existing contents (e.g., swapping one's face with another) in a video. It has been, very unfortunately, misused to produce deepfake videos (during web conferences, video calls, and identity authentication) for malicious purposes, including financial scams and political misinformation. Deepfake detection, as the countermeasure against deepfake, has attracted considerable attention from the academic community, yet existing works typically rely on learning passive features that may perform poorly beyond seen datasets. In this paper, we propose SFake, a new real-time deepfake detection method that innovatively exploits deepfake models' inability to adapt to physical interference. Specifically, SFake actively sends probes to trigger mechanical vibrations on the smartphone, resulting in the controllable feature on the footage. Consequently, SFake determines whether the face is swapped by deepfake based on the consistency of the facial area with the probe pattern. We implement SFake, evaluate its effectiveness on a self-built dataset, and compare it with six other detection methods. The results show that SFake outperforms other detection methods with higher detection accuracy, faster process speed, and lower memory consumption.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# SkinMamba: クロススケールグローバルステートモデリングと周波数境界ガイダンスを備えた高精度皮膚病変分割アーキテクチャ

SkinMamba: A Precision Skin Lesion Segmentation Architecture with Cross-Scale Global State Modeling and Frequency Boundary Guidance ( http://arxiv.org/abs/2409.10890v1 )

ライセンス: Link先を確認
Shun Zou, Mingya Zhang, Bingjian Fan, Zhengyi Zhou, Xiuguo Zou, (参考訳) 皮膚病変のセグメンテーションは早期皮膚癌を同定するための重要な方法である。 近年,畳み込みニューラルネットワーク(CNN)とTransformerベースの手法が広く採用されている。 さらに、CNNとTransformerの組み合わせは、グローバルな関係とローカルな関係を効果的に統合するが、Transformerの二次的な複雑さによって制限される。 そこで我々は,SkinMamba という,Mamba と CNN をベースとしたハイブリッドアーキテクチャを提案する。 強力な長距離依存性モデリングとローカル機能抽出機能を提供しながら、線形複雑性を維持している。 具体的には、グローバルなコンテキスト関係とマクロレベルでのクロススケール情報交換をキャプチャし、グローバルな状態における専門家のコミュニケーションを可能にするSRSSB(Scale Residual State Space Block)を提案する。 皮膚病変の分節化は, 病変の大きさや不明瞭な対象領域に関連する課題を効果的に解決する。 さらに、モデルダウンサンプリング時の境界のぼかしや情報損失を軽減するために、デコーダの復号化を支援するために保持情報を使用しながら、正確な境界セグメンテーションを導くのに十分な境界条件を提供する周波数境界ガイドモジュール(FBGM)を導入する。 最後に,2つのパブリック病変セグメンテーションデータセット(ISIC2017とISIC2018)の比較およびアブレーション実験を行い,皮膚病変セグメンテーションタスクにおけるSkinMambaの強い競争性を示した。 コードはhttps://github.com/zs1314/SkinMambaで入手できる。

Skin lesion segmentation is a crucial method for identifying early skin cancer. In recent years, both convolutional neural network (CNN) and Transformer-based methods have been widely applied. Moreover, combining CNN and Transformer effectively integrates global and local relationships, but remains limited by the quadratic complexity of Transformer. To address this, we propose a hybrid architecture based on Mamba and CNN, called SkinMamba. It maintains linear complexity while offering powerful long-range dependency modeling and local feature extraction capabilities. Specifically, we introduce the Scale Residual State Space Block (SRSSB), which captures global contextual relationships and cross-scale information exchange at a macro level, enabling expert communication in a global state. This effectively addresses challenges in skin lesion segmentation related to varying lesion sizes and inconspicuous target areas. Additionally, to mitigate boundary blurring and information loss during model downsampling, we introduce the Frequency Boundary Guided Module (FBGM), providing sufficient boundary priors to guide precise boundary segmentation, while also using the retained information to assist the decoder in the decoding process. Finally, we conducted comparative and ablation experiments on two public lesion segmentation datasets (ISIC2017 and ISIC2018), and the results demonstrate the strong competitiveness of SkinMamba in skin lesion segmentation tasks. The code is available at https://github.com/zs1314/SkinMamba.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# Blackboardアーキテクチャに基づくシステム脆弱性解析ツールの技術的アップグレードと強化

Technical Upgrades to and Enhancements of a System Vulnerability Analysis Tool Based on the Blackboard Architecture ( http://arxiv.org/abs/2409.10892v1 )

ライセンス: Link先を確認
Matthew Tassava, Cameron Kolodjski, Jeremy Straub, (参考訳) 複雑なミッションクリティカルシステム(CMCS)の解析を行うシステム脆弱性解析技術(SVAT)は,従来の浸透試験によるリスクを負うことなく,オフラインで行うことができない。 このシステムは、システムセキュリティに対する潜在的な脅威を特定するために、脆弱性のパスベースの分析を使用する。 このシステムでは、ブラックボードアーキテクチャのルールファクトパラダイムに基づく一般化ロジックが実装され、オペレーションおよびネットワーク攻撃結果レビュー(SONARR)のためのソフトウェアが実装された。 本稿では,このツールに追加された追加機能の概要と,その有効性とSONARRアルゴリズムの新たなインメモリ処理機能の性能特性を解析するための実験について述べる。 性能試験の結果とネットワークアーキテクチャとの関係について論じる。 論文は、マルチスレッドの実装、機密性、完全性、可用性などの分析指標の追加、ヒューリスティックな開発の改善など、今後の研究の道のりについて議論で締めくくっている。

A system vulnerability analysis technique (SVAT) for the analysis of complex mission critical systems (CMCS) that cannot be taken offline or subjected to the risks posed by traditional penetration testing was previously developed. This system uses path-based analysis of vulnerabilities to identify potential threats to system security. Generalization logic building on the Blackboard Architecture's rule-fact paradigm was implemented in this system, the software for operation and network attack results review (SONARR). This paper presents an overview of additional functionality that has been added to this tool and the experimentation that was conducted to analyze their efficacy and the performance benefits of the new in-memory processing capabilities of the SONARR algorithm. The results of the performance tests and their relation to networks' architecture are discussed. The paper concludes with a discussion of avenues of future work, including the implementation of multithreading, additional analysis metrics like confidentiality, integrity, and availability, and improved heuristic development.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# マルチスレッドおよびその他の機能の導入による侵入試験のリスクを負わないシステムに対するセキュリティテストソフトの強化

Enhancing Security Testing Software for Systems that Cannot be Subjected to the Risks of Penetration Testing Through the Incorporation of Multi-threading and and Other Capabilities ( http://arxiv.org/abs/2409.10893v1 )

ライセンス: Link先を確認
Matthew Tassava, Cameron Kolodjski, Jordan Milbrath, Jeremy Straub, (参考訳) 複雑なミッションクリティカルシステム(CMCS)のためのシステム脆弱性解析ツール(SVAT)の開発は、運用およびネットワーク攻撃結果レビュー(SONARR)のためのソフトウェアを開発した。 このソフトウェアは、ブラックボードアーキテクチャの上に構築され、そのルールファクトロジックを使用して、モデルネットワークを評価し、攻撃者がネットワーク内の脆弱性を悪用することでそれらを通過する可能性のある経路を特定する。 SONARRオブジェクトとアルゴリズムは以前開発されたが、大規模なネットワークを解析するには性能が不十分であった。 本稿では,SONARRの性能向上と大規模ネットワークの解析を容易にするために開発されたマルチスレッドSONARRアルゴリズムとその他の拡張について述べる。

The development of a system vulnerability analysis tool (SVAT) for complex mission critical systems (CMCS) produced the software for operation and network attack results review (SONARR). This software builds upon the Blackboard Architecture and uses its a rule-fact logic to assess model networks to identify potential pathways that an attacker might take through them via the exploitation of vulnerabilities within the network. The SONARR objects and algorithm were developed previously; however, performance was insufficient for analyzing large networks. This paper describes and analyzes the performance of a multi-threaded SONARR algorithm and other enhancements which were developed to increase SONARR's performance and facilitate the analysis of large networks.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# AutoSpec: ニューラルネットワーク仕様の自動生成

AutoSpec: Automated Generation of Neural Network Specifications ( http://arxiv.org/abs/2409.10897v1 )

ライセンス: Link先を確認
Shuowei Jin, Francis Y. Yan, Cheng Tan, Anuj Kalia, Xenofon Foukas, Z. Morley Mao, (参考訳) 学習強化システムにおけるニューラルネットワークの採用の増加は、モデル安全性と堅牢性、特に安全クリティカルドメインの重要性を強調している。 ニューラルネットワークの形式的検証の進展にもかかわらず、現在のプラクティスでは、さまざまなシナリオで期待されるモデルの振る舞いを規定するプロパティであるモデル仕様を手動で定義する必要がある。 しかし、この手動のプロセスは人間のミスをしがちで、スコープが限られており、時間がかかります。 本稿では,学習強化システムにおけるニューラルネットワークの包括的かつ正確な仕様を自動的に生成する最初のフレームワークであるAutoSpecを紹介する。 また、モデル仕様の精度とカバレッジを評価するための最初のメトリクスセットを提案し、将来の比較のためのベンチマークを確立する。 4つの異なるアプリケーションで評価したところ、AutoSpecは人間の定義した仕様よりも優れており、2つのベースラインアプローチが提案されている。

The increasing adoption of neural networks in learning-augmented systems highlights the importance of model safety and robustness, particularly in safety-critical domains. Despite progress in the formal verification of neural networks, current practices require users to manually define model specifications -- properties that dictate expected model behavior in various scenarios. This manual process, however, is prone to human error, limited in scope, and time-consuming. In this paper, we introduce AutoSpec, the first framework to automatically generate comprehensive and accurate specifications for neural networks in learning-augmented systems. We also propose the first set of metrics for assessing the accuracy and coverage of model specifications, establishing a benchmark for future comparisons. Our evaluation across four distinct applications shows that AutoSpec outperforms human-defined specifications as well as two baseline approaches introduced in this study.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# WaterQualityNeT:ハイブリッドディープラーニングモデルによるネパールの季節水質予測

WaterQualityNeT: Prediction of Seasonal Water Quality of Nepal Using Hybrid Deep Learning Models ( http://arxiv.org/abs/2409.10898v1 )

ライセンス: Link先を確認
Biplov Paneru, Bishwash Paneru, (参考訳) 安全で汚染されていない水の供給を確保することは、水質の監視に欠かせない。 本稿では,多くの水質パラメータを持つ小さなデータセットを用いてネパールの季節的な水質を予測するためのハイブリッド深層学習モデルを提案する。 このモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を統合し、データの時間的および空間的パターンを活用する。 その結果,従来の手法に比べて予測精度が大幅に向上し,水質を積極的に制御するための信頼性の高いツールが得られた。 WQIパラメータを使って人々を、良い、悪い、そして平均的なグループに分類したモデルは、テストで92%の時間を実行しました。 同様に、R2スコアは0.97で、根平均平方誤差は回帰分析を用いてWQI値を予測するときに2.87である。 さらに、回帰法と分類法の両方を用いる多機能アプリケーションは、WQI値を予測するために構築される。

Ensuring a safe and uncontaminated water supply is contingent upon the monitoring of water quality, especially in developing countries such as Nepal, where water sources are susceptible to pollution. This paper presents a hybrid deep learning model for predicting Nepal's seasonal water quality using a small dataset with many water quality parameters. The model integrates convolutional neural networks (CNN) and recurrent neural networks (RNN) to exploit temporal and spatial patterns in the data. The results demonstrate significant improvements in forecast accuracy over traditional methods, providing a reliable tool for proactive control of water quality. The model that used WQI parameters to classify people into good, poor, and average groups performed 92% of the time in testing. Similarly, the R2 score was 0.97 and the root mean square error was 2.87 when predicting WQI values using regression analysis. Additionally, a multifunctional application that uses both a regression and a classification approach is built to predict WQI values.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# TrajSSL: トラジェクトリ強化された半スーパービジョンの3Dオブジェクト検出

TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2409.10901v1 )

ライセンス: Link先を確認
Philip Jacobson, Yichen Xie, Mingyu Ding, Chenfeng Xu, Masayoshi Tomizuka, Wei Zhan, Ming C. Wu, (参考訳) 半教師付き3Dオブジェクト検出は、大規模自律運転認識データセットを手動でラベル付けする課題を回避するために使用される一般的な戦略である。 Pseudo-labeling approach to semi-supervised learning(英語版)では、大きな未ラベルデータセット上の機械生成擬似ラベルと、小さな手動ラベル付きデータセットを併用してトレーニングを行う教師学習フレームワークが採用されている。 本研究では,運転場面で捉えた長期的時間的情報を活用することにより,擬似ラベルの品質向上の課題に対処する。 具体的には、事前学習した動き予測モデルを利用して擬似ラベルデータ上に物体軌跡を生成することにより、学生モデルトレーニングをさらに強化する。 提案手法は,複数の動作予測出力のフレーム間の整合性を確立することにより,擬似ラベルの品質を2つの異なる方法で向上させる。 第2に、予測対象のトラックを直接擬似ラベル付きシーンに挿入することで、偽陰性検出を補償する。 nuScenesデータセットの実験では,提案手法の有効性が示され,各種設定における標準的な半教師付きアプローチの性能が向上した。

Semi-supervised 3D object detection is a common strategy employed to circumvent the challenge of manually labeling large-scale autonomous driving perception datasets. Pseudo-labeling approaches to semi-supervised learning adopt a teacher-student framework in which machine-generated pseudo-labels on a large unlabeled dataset are used in combination with a small manually-labeled dataset for training. In this work, we address the problem of improving pseudo-label quality through leveraging long-term temporal information captured in driving scenes. More specifically, we leverage pre-trained motion-forecasting models to generate object trajectories on pseudo-labeled data to further enhance the student model training. Our approach improves pseudo-label quality in two distinct manners: first, we suppress false positive pseudo-labels through establishing consistency across multiple frames of motion forecasting outputs. Second, we compensate for false negative detections by directly inserting predicted object tracks into the pseudo-labeled scene. Experiments on the nuScenes dataset demonstrate the effectiveness of our approach, improving the performance of standard semi-supervised approaches in a variety of settings.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# ヒッグス粒子の同定のための分類器への修正の評価

Evaluating Modifications to Classifiers for Identification of Higgs Bosons ( http://arxiv.org/abs/2409.10902v1 )

ライセンス: Link先を確認
Rishivarshil Nelakurti, Christopher Hill, (参考訳) 2012年にATLASとCMSの実験で大型ハドロン衝突型加速器(LHC)の衝突データから発見されたヒッグス粒子は、高エネルギー物理学(HEP)において重要な反射点となった。 現在、ヒッグスの生産過程をLHC実験で正確に測定し、宇宙の洞察を得て、目に見えない物理学を見つけることが不可欠です。 LHC実験が生み出す膨大なデータを解析するために、古典的な機械学習は貴重なツールとなった。 しかし、古典的な分類器は、しばしばヒッグス生産過程の検出に苦労し、ヒッグス粒子の誤ったラベル付けに繋がる。 本稿では、量子機械学習(QML)を用いて、この分類問題に取り組むことを目的とする。

The Higgs boson, discovered back in 2012 through collision data at the Large Hadron Collider (LHC) by ATLAS and CMS experiments, marked a significant inflection point in High Energy Physics (HEP). Today, it's crucial to precisely measure Higgs production processes with LHC experiments in order to gain insights into the universe and find any invisible physics. To analyze the vast data that LHC experiments generate, classical machine learning has become an invaluable tool. However, classical classifiers often struggle with detecting higgs production processes, leading to incorrect labeling of Higgs Bosons. This paper aims to tackle this classification problem by investigating the use of quantum machine learning (QML).
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# Attention-Seeker: 教師なしキーフレーズ抽出のための動的自己注意スコアリング

Attention-Seeker: Dynamic Self-Attention Scoring for Unsupervised Keyphrase Extraction ( http://arxiv.org/abs/2409.10907v1 )

ライセンス: Link先を確認
Erwin D. López Z., Cheng Tang, Atsushi Shimada, (参考訳) 本稿では,大規模言語モデルからの自己注意マップを利用して,候補句の重要性を推定する,教師なしキーフレーズ抽出手法であるAttention-Seekerを提案する。 このアプローチでは、レイヤ、ヘッド、アテンションベクターなど、特定のコンポーネントを特定します。 これらのコンポーネントによって提供される注意重みは、候補句のスコアに使用される。 パラメータのマニュアルチューニング(例えば、ヘッドの選択、プロンプト、ハイパーパラメータ)を必要とする従来のモデルとは異なり、注意-シーカーは手動調整なしで入力テキストに動的に適応し、実用性を高める。 我々は、Inspec、SemEval2010、SemEval2017、Krapivinの4つの公開データセットに対して、Attention-Seekerを評価する。 その結果、パラメータチューニングがなくても、Attention-Seekerはほとんどのベースラインモデルより優れており、4つのデータセットのうち3つで最先端のパフォーマンスを実現し、特に長い文書からキーフレーズを抽出することに優れていた。

This paper proposes Attention-Seeker, an unsupervised keyphrase extraction method that leverages self-attention maps from a Large Language Model to estimate the importance of candidate phrases. Our approach identifies specific components - such as layers, heads, and attention vectors - where the model pays significant attention to the key topics of the text. The attention weights provided by these components are then used to score the candidate phrases. Unlike previous models that require manual tuning of parameters (e.g., selection of heads, prompts, hyperparameters), Attention-Seeker dynamically adapts to the input text without any manual adjustments, enhancing its practical applicability. We evaluate Attention-Seeker on four publicly available datasets: Inspec, SemEval2010, SemEval2017, and Krapivin. Our results demonstrate that, even without parameter tuning, Attention-Seeker outperforms most baseline models, achieving state-of-the-art performance on three out of four datasets, particularly excelling in extracting keyphrases from long documents.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# 非適応サブセットクエリによるクラスタリング

Clustering with Non-adaptive Subset Queries ( http://arxiv.org/abs/2409.10908v1 )

ライセンス: Link先を確認
Hadley Black, Euiwoong Lee, Arya Mazumdar, Barna Saha, (参考訳) ペアワイズな同クラスタクエリを問うことで、セットの基盤となるクラスタリングを$U$$n$ポイントで回収することは、この10年で大きな関心を集めてきた。 クエリ $S \subset U$, $|S|=2$ が与えられたとき、オラクルは、ポイントが同じクラスタにあり、そうでなければ、イエスを返す。 ペアワイズクエリを用いた適応アルゴリズムでは、必要なクエリの数は$\Theta(nk)$で、$k$はクラスタの数である。 しかし、適応的でないスキームは$\Omega(n^2)$クエリを必要とし、これは全ての点を問うことで得られる自明な$O(n^2)$上限と一致する。 非適応クエリの二次障壁を断ち切るために、この問題を$|S|>2$のサブセットクエリに一般化し、オラクルは$S$と交差するクラスタの数を返す。 非有界サイズのサブセットクエリを許せば、適応的なスキームで$O(n)$クエリが可能である(Chakrabarty-Liao, 2024)。 しかし、非適応アルゴリズムの領域は全く不明である。 本稿では,サブセットクエリを用いたクラスタリングのための非適応アルゴリズムを提案する。 我々の主な結果は、$O(n \log k \cdot (\log k + \log\log n)^2)$クエリを作成する非適応アルゴリズムであり、$k$が定数であるときに$O(n \log \log n)$に改善される。 クエリサイズが制限されたアルゴリズムも検討しています。 この設定では、$\Omega(\max(n^2/s^2,n))$クエリが必要であることを証明し、$\tilde{O}(n^2k/s^2)$クエリを任意の$s \leq \sqrt{n}$および$\tilde{O}(n^2/s)$クエリを$s \leq n$とするアルゴリズムを得る。 また、クラスタのバランスが取れた場合には、$O(n \log k) + \tilde{O}(k)$および$O(n\log^2 k)$クエリを生成する非適応アルゴリズムを得る。 最後に,2ラウンドの適応性を実現するため,一般の場合で$O(n \log k)$クエリと,クラスタのバランスが取れた場合には$O(n \log \log k)$クエリを生成するアルゴリズムを提案する。

Recovering the underlying clustering of a set $U$ of $n$ points by asking pair-wise same-cluster queries has garnered significant interest in the last decade. Given a query $S \subset U$, $|S|=2$, the oracle returns yes if the points are in the same cluster and no otherwise. For adaptive algorithms with pair-wise queries, the number of required queries is known to be $\Theta(nk)$, where $k$ is the number of clusters. However, non-adaptive schemes require $\Omega(n^2)$ queries, which matches the trivial $O(n^2)$ upper bound attained by querying every pair of points. To break the quadratic barrier for non-adaptive queries, we study a generalization of this problem to subset queries for $|S|>2$, where the oracle returns the number of clusters intersecting $S$. Allowing for subset queries of unbounded size, $O(n)$ queries is possible with an adaptive scheme (Chakrabarty-Liao, 2024). However, the realm of non-adaptive algorithms is completely unknown. In this paper, we give the first non-adaptive algorithms for clustering with subset queries. Our main result is a non-adaptive algorithm making $O(n \log k \cdot (\log k + \log\log n)^2)$ queries, which improves to $O(n \log \log n)$ when $k$ is a constant. We also consider algorithms with a restricted query size of at most $s$. In this setting we prove that $\Omega(\max(n^2/s^2,n))$ queries are necessary and obtain algorithms making $\tilde{O}(n^2k/s^2)$ queries for any $s \leq \sqrt{n}$ and $\tilde{O}(n^2/s)$ queries for any $s \leq n$. We also consider the natural special case when the clusters are balanced, obtaining non-adaptive algorithms which make $O(n \log k) + \tilde{O}(k)$ and $O(n\log^2 k)$ queries. Finally, allowing two rounds of adaptivity, we give an algorithm making $O(n \log k)$ queries in the general case and $O(n \log \log k)$ queries when the clusters are balanced.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# GenCRF: インテント駆動情報検索のための生成クラスタリングと修正フレームワーク

GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval ( http://arxiv.org/abs/2409.10909v1 )

ライセンス: Link先を確認
Wonduk Seo, Haojie Zhang, Yueyang Zhang, Changhao Zhang, Songyao Duan, Lixin Su, Daiting Shi, Jiashu Zhao, Dawei Yin, (参考訳) Information Retrieval(IR)では,ユーザの入力クエリを自動的に修正することで,単一検索成功率の向上を目的としたクエリ再構成がよく知られている。 最近の手法では、Large Language Models (LLM) を利用してクエリのリフォームを改善するが、しばしば制限された冗長な拡張を生成し、多種多様なインテントをキャプチャする効果を制限する可能性がある。 本稿では,生成クラスタリングと再構成フレームワークであるGenCRFを提案する。 GenCRFはLLMを活用して、カスタマイズされたプロンプトを使用して初期クエリから可変クエリを生成し、それをグループにまとめて、多様なインテントを明確に表現する。 さらに、このフレームワークは、多様なインテントクエリと革新的な重み付けされた集約戦略を組み合わせることで、検索性能を最適化し、新しいクエリ評価リワードモデル(QERM)を決定的に統合し、フィードバックループを通じてプロセスを洗練させる。 BEIRベンチマークの実証実験により、GenCRFは最先端のパフォーマンスを達成し、nDCG@10で以前のクエリ修正SOTAを最大12%上回った。 これらの技術は様々なLSMに適応することができ、レトリバーの性能を大幅に向上させ、情報検索の分野を推し進める。

Query reformulation is a well-known problem in Information Retrieval (IR) aimed at enhancing single search successful completion rate by automatically modifying user's input query. Recent methods leverage Large Language Models (LLMs) to improve query reformulation, but often generate limited and redundant expansions, potentially constraining their effectiveness in capturing diverse intents. In this paper, we propose GenCRF: a Generative Clustering and Reformulation Framework to capture diverse intentions adaptively based on multiple differentiated, well-generated queries in the retrieval phase for the first time. GenCRF leverages LLMs to generate variable queries from the initial query using customized prompts, then clusters them into groups to distinctly represent diverse intents. Furthermore, the framework explores to combine diverse intents query with innovative weighted aggregation strategies to optimize retrieval performance and crucially integrates a novel Query Evaluation Rewarding Model (QERM) to refine the process through feedback loops. Empirical experiments on the BEIR benchmark demonstrate that GenCRF achieves state-of-the-art performance, surpassing previous query reformulation SOTAs by up to 12% on nDCG@10. These techniques can be adapted to various LLMs, significantly boosting retriever performance and advancing the field of Information Retrieval.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# 結合移動境界PDEのための物理インフォームドニューラルネットワーク(PINN)手法

A Physics Informed Neural Network (PINN) Methodology for Coupled Moving Boundary PDEs ( http://arxiv.org/abs/2409.10910v1 )

ライセンス: Link先を確認
Shivprasad Kathane, Shyamprasad Karagadde, (参考訳) 物理情報ニューラルネットワーク(Physor-Informed Neural Network, PINN)は、物理の知識と既知の制約を深層学習の構成要素に統合することにより、微分方程式(DE)を用いてモデル化された物理問題を解くのに役立つ新しいマルチタスク学習フレームワークである。 物質科学と力学における多くの物理問題は、DESを解きながら界面フラックスバランス条件を満たすような移動境界を含む。 そのようなシステムの例としては、自由表面の流れ、衝撃伝播、純合金の凝固などがある。 近年の研究では、結合のないシステム(純粋なシステムの固化など)に対するPINNの適用性について検討されているが、本研究では、複数の制御パラメータ(エネルギーと種、および複数のインターフェースバランス方程式)を含む結合システムを解決するためのPINNベースのアプローチを報告している。 本手法では,各変数に対して,各位相を個別に処理した個別のネットワークと,時間的学習と適応的損失重み付けを交互に行うトレーニング戦略と,最適化空間を段階的に削減するスキームとからなるアーキテクチャを用いる。 二元合金凝固のベンチマーク問題を解く一方で、界面に特徴的な不連続性を持つ複雑な組成プロファイルを捉えることに成功し、その結果の予測は解析解とよく一致している。 この手順は、特に低データ状態や測定結果が新しい物理を明らかにする場合において、他の過渡多物理問題を解くために一般化することができる。

Physics-Informed Neural Network (PINN) is a novel multi-task learning framework useful for solving physical problems modeled using differential equations (DEs) by integrating the knowledge of physics and known constraints into the components of deep learning. A large class of physical problems in materials science and mechanics involve moving boundaries, where interface flux balance conditions are to be satisfied while solving DEs. Examples of such systems include free surface flows, shock propagation, solidification of pure and alloy systems etc. While recent research works have explored applicability of PINNs for an uncoupled system (such as solidification of pure system), the present work reports a PINN-based approach to solve coupled systems involving multiple governing parameters (energy and species, along with multiple interface balance equations). This methodology employs an architecture consisting of a separate network for each variable with a separate treatment of each phase, a training strategy which alternates between temporal learning and adaptive loss weighting, and a scheme which progressively reduces the optimisation space. While solving the benchmark problem of binary alloy solidification, it is distinctly successful at capturing the complex composition profile, which has a characteristic discontinuity at the interface and the resulting predictions align well with the analytical solutions. The procedure can be generalised for solving other transient multiphysics problems especially in the low-data regime and in cases where measurements can reveal new physics.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# AMEGO:長いEGO中心のビデオからのアクティブメモリ

AMEGO: Active Memory from long EGOcentric videos ( http://arxiv.org/abs/2409.10917v1 )

ライセンス: Link先を確認
Gabriele Goletto, Tushar Nagarajan, Giuseppe Averta, Dima Damen, (参考訳) エゴセントリックなビデオは個人の日常体験にユニークな視点を与えるが、その非構造的な性質は知覚に挑戦を与える。 本稿では,非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。 AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに集中し、重要な位置とオブジェクトの相互作用をキャプチャする。 この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。 さらに, EPIC-KITCHENSからの難易度の高い視覚的クエリの20K以上からなる, AMB (Active Memories Benchmark) を導入する。 これらのクエリは、詳細なビデオ理解能力を評価するために、さまざまなレベルのビデオ推論(シーケンス、並行性、時間的グラウンド)をカバーする。 AMBではAMEGOの性能が向上し、他のQAベースラインをかなり上回りました。

Egocentric videos provide a unique perspective into individuals' daily experiences, yet their unstructured nature presents challenges for perception. In this paper, we introduce AMEGO, a novel approach aimed at enhancing the comprehension of very-long egocentric videos. Inspired by the human's ability to maintain information from a single watching, AMEGO focuses on constructing a self-contained representations from one egocentric video, capturing key locations and object interactions. This representation is semantic-free and facilitates multiple queries without the need to reprocess the entire visual content. Additionally, to evaluate our understanding of very-long egocentric videos, we introduce the new Active Memories Benchmark (AMB), composed of more than 20K of highly challenging visual queries from EPIC-KITCHENS. These queries cover different levels of video reasoning (sequencing, concurrency and temporal grounding) to assess detailed video understanding capabilities. We showcase improved performance of AMEGO on AMB, surpassing other video QA baselines by a substantial margin.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# FSL-HDnn:特徴抽出と超次元計算を併用した5.7TOPS/W エンドツーエンドFew-shot Learning Classifier Accelerator

FSL-HDnn: A 5.7 TOPS/W End-to-end Few-shot Learning Classifier Accelerator with Feature Extraction and Hyperdimensional Computing ( http://arxiv.org/abs/2409.10918v1 )

ライセンス: Link先を確認
Haichao Yang, Chang Eun Song, Weihong Xu, Behnam Khaleghi, Uday Mallappa, Monil Shah, Keming Fan, Mingu Kang, Tajana Rosing, (参考訳) 本稿では,40nm CMOSプロセスにおける勾配なし学習技術を通じて,特徴抽出,分類,およびオンチップ数ショット学習(FSL)のエンドツーエンドパイプラインを実装したエネルギー効率の高い加速器であるFSL-HDnnを紹介する。 FSL-HDnnは、軽量クラスタリング特徴抽出器と超次元計算(HDC)の2つの低消費電力モジュールを統合している。 特徴抽出器は、最適化されたCNNに基づく特徴抽出に高度な重みクラスタリングとパターン再利用戦略を利用する。 一方,HDCは高次元ベクトルを用いた軽量FSL分類器の新しい手法として登場し,従来の距離ベース手法と比較してトレーニング精度が向上した。 この双対加群シナジーは、複雑な勾配の必要性を排除して学習プロセスを単純化するだけでなく、エネルギー効率と性能を劇的に向上させる。 具体的には、FSL-HDnnは特徴1抽出に5.7TOPS/W、訓練強度フェーズに0.78TOPS/Wのエネルギー効率を達成し、それぞれ2.6Xと6.6Xの改善を実現している。

This paper introduces FSL-HDnn, an energy-efficient accelerator that implements the end-to-end pipeline of feature extraction, classification, and on-chip few-shot learning (FSL) through gradient-free learning techniques in a 40 nm CMOS process. At its core, FSL-HDnn integrates two low-power modules: Weight clustering feature extractor and Hyperdimensional Computing (HDC). Feature extractor utilizes advanced weight clustering and pattern reuse strategies for optimized CNN-based feature extraction. Meanwhile, HDC emerges as a novel approach for lightweight FSL classifier, employing hyperdimensional vectors to improve training accuracy significantly compared to traditional distance-based approaches. This dual-module synergy not only simplifies the learning process by eliminating the need for complex gradients but also dramatically enhances energy efficiency and performance. Specifically, FSL-HDnn achieves an Intensity unprecedented energy efficiency of 5.7 TOPS/W for feature 1 extraction and 0.78 TOPS/W for classification and learning Training Intensity phases, achieving improvements of 2.6X and 6.6X, respectively, Storage over current state-of-the-art CNN and FSL processors.
翻訳日:2024-09-18 17:48:51 公開日:2024-09-17
# KALE:不均一グラフを付加したアートワーク画像キャプションシステム

KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph ( http://arxiv.org/abs/2409.10921v1 )

ライセンス: Link先を確認
Yanbei Jiang, Krista A. Ehinger, Jey Han Lau, (参考訳) 精巧な絵画によって伝えられる物語を探求することはイメージキャプションの課題であり、その目的は視覚的内容だけでなく、作品の意味を深く解釈することにある。 この課題は、多彩な解釈と様々な芸術学校や様式にまたがる様々な美学の原則のために、美術作品のイメージにとって特に複雑である。 これに対応して,アートのメタデータを付加知識として統合することにより,既存の視覚言語モデルを強化する新しいアプローチであるKALE Knowledge-Augmented Vision-Language Modelを提示する。 KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。 グラフ表現の学習を最適化するために,画像と対応するメタデータとの類似性を最大化する,新たなモーダルアライメント損失を導入する。 実験の結果, KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して, 高い性能(特にCIDErで評価された場合)を達成できた。 プロジェクトのソースコードはhttps://github.com/Yanbei-Jiang/Artwork-Interpretationで公開されている。

Exploring the narratives conveyed by fine-art paintings is a challenge in image captioning, where the goal is to generate descriptions that not only precisely represent the visual content but also offer a in-depth interpretation of the artwork's meaning. The task is particularly complex for artwork images due to their diverse interpretations and varied aesthetic principles across different artistic schools and styles. In response to this, we present KALE Knowledge-Augmented vision-Language model for artwork Elaborations), a novel approach that enhances existing vision-language models by integrating artwork metadata as additional knowledge. KALE incorporates the metadata in two ways: firstly as direct textual input, and secondly through a multimodal heterogeneous knowledge graph. To optimize the learning of graph representations, we introduce a new cross-modal alignment loss that maximizes the similarity between the image and its corresponding metadata. Experimental results demonstrate that KALE achieves strong performance (when evaluated with CIDEr, in particular) over existing state-of-the-art work across several artwork datasets. Source code of the project is available at https://github.com/Yanbei-Jiang/Artwork-Interpretation.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# 反ESIA:電磁誘導攻撃の解析と緩和効果

Anti-ESIA: Analyzing and Mitigating Impacts of Electromagnetic Signal Injection Attacks ( http://arxiv.org/abs/2409.10922v1 )

ライセンス: Link先を確認
Denglin Kang, Youqian Zhang, Wai Cheong Tam, Eugene Y. Fu, (参考訳) カメラは多くの重要なインテリジェントシステムの不可欠なコンポーネントである。 しかし、ESIA(Electromagnetic Signal Injection Attacks)と呼ばれる脅威が高まっているため、ESIAはカメラが捉えた画像を遠隔操作することができ、悪意ある行動や破滅的な結果をもたらす可能性がある。 この脅威の深刻さにもかかわらず、ESIAの有効性の根本的な理由は未だ理解されておらず、効果的な対策が欠如している。 本論文は,ESIAを画素損失とカラーストリップの2つの異なる側面から研究することによって,これらのギャップに対処することを目的とする。 画像分類タスクにおいて,これらの側面を別々に解析することにより,ESIAが知的システムを侵害する方法についてより深く理解する。 さらに,ESIAの効果を緩和し,その限界を認識しつつ,軽量なソリューションを探究する。 本研究は,カメラセキュリティとインテリジェントシステム分野における今後の研究・開発に有用な知見を提供する。

Cameras are integral components of many critical intelligent systems. However, a growing threat, known as Electromagnetic Signal Injection Attacks (ESIA), poses a significant risk to these systems, where ESIA enables attackers to remotely manipulate images captured by cameras, potentially leading to malicious actions and catastrophic consequences. Despite the severity of this threat, the underlying reasons for ESIA's effectiveness remain poorly understood, and effective countermeasures are lacking. This paper aims to address these gaps by investigating ESIA from two distinct aspects: pixel loss and color strips. By analyzing these aspects separately on image classification tasks, we gain a deeper understanding of how ESIA can compromise intelligent systems. Additionally, we explore a lightweight solution to mitigate the effects of ESIA while acknowledging its limitations. Our findings provide valuable insights for future research and development in the field of camera security and intelligent systems.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# HGSLoc:3DGSベースのヒューリスティックカメラポス・リファインメント

HGSLoc: 3DGS-based Heuristic Camera Pose Refinement ( http://arxiv.org/abs/2409.10925v1 )

ライセンス: Link先を確認
Zhongyan Niu, Zhen Tan, (参考訳) 視覚的ローカライゼーションは、既知のシーン表現内のカメラのポーズと方向を決定するプロセスを指す。 この課題は、照明の変化や視角の変化といった要因によってしばしば複雑になる。 本稿では,HGSLocを提案する。HGSLocは3次元再構成とヒューリスティック・リファインメント・ストラテジーを統合し,より高速なポーズ推定を実現するための軽量・プラグ・アンド・プレイ・ポーズ最適化フレームワークである。 具体的には、3D表現と高忠実度レンダリングのための明示的な幾何学的マップを導入し、高品質な合成ビューの生成が正確な視覚的ローカライゼーションをサポートする。 提案手法は,NeRFに基づくニューラルネットワークのローカライズ手法と比較して,高速なレンダリング速度とローカライズ精度を示す。 提案手法では,目標ノードの探索を高速に行うことができ,ステップレベルの最適化ステップを設定すれば,誤差の少ないシナリオにおけるポーズ精度を向上させることができる。 慎重に設計されたヒューリスティック関数により効率の良い最適化機能を提供し、大まかなローカライズ推定における誤りの迅速な低減を可能にする。 提案手法は,複雑なニューラルネットワークモデルへの依存を軽減するとともに,雑音に対する堅牢性の向上と,課題のある環境での局所化精度の向上を,ニューラルネットワーク共同最適化戦略と比較した。 本稿では,3次元再構成とヒューリスティック・リファインメント・ストラテジーの統合による視覚的ローカライゼーションの新たなアプローチを提案する。

Visual localization refers to the process of determining camera poses and orientation within a known scene representation. This task is often complicated by factors such as illumination changes and variations in viewing angles. In this paper, we propose HGSLoc, a novel lightweight, plug and-play pose optimization framework, which integrates 3D reconstruction with a heuristic refinement strategy to achieve higher pose estimation accuracy. Specifically, we introduce an explicit geometric map for 3D representation and high-fidelity rendering, allowing the generation of high-quality synthesized views to support accurate visual localization. Our method demonstrates a faster rendering speed and higher localization accuracy compared to NeRF-based neural rendering localization approaches. We introduce a heuristic refinement strategy, its efficient optimization capability can quickly locate the target node, while we set the step-level optimization step to enhance the pose accuracy in the scenarios with small errors. With carefully designed heuristic functions, it offers efficient optimization capabilities, enabling rapid error reduction in rough localization estimations. Our method mitigates the dependence on complex neural network models while demonstrating improved robustness against noise and higher localization accuracy in challenging environments, as compared to neural network joint optimization strategies. The optimization framework proposed in this paper introduces novel approaches to visual localization by integrating the advantages of 3D reconstruction and heuristic refinement strategy, which demonstrates strong performance across multiple benchmark datasets, including 7Scenes and DB dataset.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# 推進:ティニーファインチューニング付きステアリングLDM

Propulsion: Steering LLM with Tiny Fine-Tuning ( http://arxiv.org/abs/2409.10927v1 )

ライセンス: Link先を確認
Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理(NLP)とその関連分野に革命をもたらした。 しかし、これらのモデルを特定のタスクのために微調整することは、計算的に高価であり、事前学習された特徴を劣化させるリスクがある。 これらの課題に対処するために,計算オーバーヘッドを大幅に削減しつつ,タスク固有の性能を最適化する新しいパラメータ効率的な微調整法であるPropulsionを提案する。 物理運動の制御調整の概念に触発されて、Propulsionは、事前訓練されたモデルの特定の次元を選択的に再スケールし、モデルのパラメータを変更することなく、タスク目標に向けて出力予測を誘導する。 事前学習層に軽量で訓練可能な推進パラメータを導入することで、微調整時に更新されるパラメータの数を最小化し、既存の知識の過度な適合や上書きを防止する。 我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。 実証的に、Propulsionはパラメータ数を355.3百万から0.086百万に減らし、ベンチマーク間の競争性能を維持しながら、LoRAのような標準的なアプローチに比べて10倍の削減を実現している。

The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing (NLP) and related fields. However, fine-tuning these models for specific tasks remains computationally expensive and risks degrading pre-learned features. To address these challenges, we propose Propulsion, a novel parameter efficient fine-tuning (PEFT) method designed to optimize task-specific performance while drastically reducing computational overhead. Inspired by the concept of controlled adjustments in physical motion, Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters. By introducing lightweight, trainable Propulsion parameters at the pre-trained layer, we minimize the number of parameters updated during fine-tuning, preventing overfitting or overwriting of existing knowledge. Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters. Empirically, Propulsion reduces the parameter count from 355.3 million to just 0.086 million, achieving over a 10x reduction compared to standard approaches like LoRA while maintaining competitive performance across benchmarks.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# スマートグリッドとエネルギー貯蔵システムを用いた公開鍵基盤のオンライン認証プロトコル

An Enhanced Online Certificate Status Protocol for Public Key Infrastructure with Smart Grid and Energy Storage System ( http://arxiv.org/abs/2409.10929v1 )

ライセンス: Link先を確認
Hong-Sheng Huang, Cheng-Che Chuang, Jhih-Zen Shih, Hsuan-Tung Chen, Hung-Min Sun, (参考訳) 証明書のステータスチェックの効率性は、公開鍵インフラストラクチャ(PKI)における重要な指標の1つである。 これにより、RFC 6960 で定義された Online Certificate Status Protocol (OCSP) 標準を設計し、OCSP コンポーネントの実装に開発者を導くことになった。 しかし,PKIによる認証がますます普及しているため,クライアントとサーバ間の通信を不正な要素から保護することが不可欠である。 これはSSL/TLS技術を使用してセキュアなチャネルを確立することで実現でき、認証機関(CA)は証明書のステータス情報を安全に転送することができる。 本研究では,我々のスマートグリッド環境におけるOCSPクエリコストを最適化するOCSPステープリング手法を提案する。 このアプローチは、デバイス言語メッセージ仕様(DLMS)サーバからOCSPサーバへのクエリ数を削減します。 実験の結果,OCSPステープリングにより効率とセキュリティが向上し,スマートグリッドのより堅牢なアーキテクチャが実現された。

The efficiency of checking certificate status is one of the key indicators in the public key infrastructure (PKI). This prompted researchers to design the Online Certificate Status Protocol (OCSP) standard, defined in RFC 6960, to guide developers in implementing OCSP components. However, as the environment increasingly relies on PKI for identity authentication, it is essential to protect the communication between clients and servers from rogue elements. This can be achieved by using SSL/TLS techniques to establish a secure channel, allowing Certificate Authorities (CAs) to safely transfer certificate status information. In this work, we introduce the OCSP Stapling approach to optimize OCSP query costs in our smart grid environment. This approach reduces the number of queries from the Device Language Message Specification (DLMS) server to the OCSP server. Our experimental results show that OCSP stapling increases both efficiency and security, creating a more robust architecture for the smart grid.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# ハイブリッド量子機械学習を用いた冠状動脈疾患の早期診断

Early Detection of Coronary Heart Disease Using Hybrid Quantum Machine Learning Approach ( http://arxiv.org/abs/2409.10932v1 )

ライセンス: Link先を確認
Mehroush Banday, Sherin Zafar, Parul Agarwal, M Afshar Alam, Abubeker K M, (参考訳) 冠動脈疾患 (CHD) は重症心疾患であり, 治療成績の改善と医療費の節減により早期診断が不可欠である。 量子コンピューティングと機械学習(ML)技術の主流となる開発は、CHD診断の性能に実用的な改善をもたらす可能性がある。 量子機械学習(QML)は、高いパフォーマンスと能力のために、様々な分野に多大な関心を集めています。 医療業界における量子的な飛躍は、処理能力を高め、複数のモデルを最適化する。 QMLの技術は心疾患を予測し早期発見に役立つ可能性がある。 本稿では,冠状心疾患のリスクを予測するために,QML分類器に基づくアンサンブル機械学習モデルを用いたハイブリッドアプローチを提案する。 我々のアプローチは、多次元医療データに対処するユニークな能力を持ち、マルチステップの推論フレームワークで量子および古典的MLアルゴリズムを融合させることにより、手法の堅牢性を再評価する。 心臓病と死亡率の顕著な上昇は、世界の人間の健康と世界経済に影響を及ぼす。 心臓死亡率と死亡率の低下は、心臓病の早期発見を必要とする。 本研究では,従来の機械学習アルゴリズムでは実現不可能な複雑な問題に対処し,計算コストを最小限に抑えるために,量子コンピューティング機能を用いたハイブリッド手法を提案する。 提案手法はRaspberry Pi 5 Graphics Processing Unit(GPU)プラットフォームで開発され,CHDおよび健康管理に苦しむ患者の臨床および画像データを統合した広範なデータセット上でテストされている。 従来の機械学習モデルと比較して、CHDを用いたハイブリッドQMLモデルの精度、感度、F1スコア、特異性が高い。

Coronary heart disease (CHD) is a severe cardiac disease, and hence, its early diagnosis is essential as it improves treatment results and saves money on medical care. The prevailing development of quantum computing and machine learning (ML) technologies may bring practical improvement to the performance of CHD diagnosis. Quantum machine learning (QML) is receiving tremendous interest in various disciplines due to its higher performance and capabilities. A quantum leap in the healthcare industry will increase processing power and optimise multiple models. Techniques for QML have the potential to forecast cardiac disease and help in early detection. To predict the risk of coronary heart disease, a hybrid approach utilizing an ensemble machine learning model based on QML classifiers is presented in this paper. Our approach, with its unique ability to address multidimensional healthcare data, reassures the method's robustness by fusing quantum and classical ML algorithms in a multi-step inferential framework. The marked rise in heart disease and death rates impacts worldwide human health and the global economy. Reducing cardiac morbidity and mortality requires early detection of heart disease. In this research, a hybrid approach utilizes techniques with quantum computing capabilities to tackle complex problems that are not amenable to conventional machine learning algorithms and to minimize computational expenses. The proposed method has been developed in the Raspberry Pi 5 Graphics Processing Unit (GPU) platform and tested on a broad dataset that integrates clinical and imaging data from patients suffering from CHD and healthy controls. Compared to classical machine learning models, the accuracy, sensitivity, F1 score, and specificity of the proposed hybrid QML model used with CHD are manifold higher.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# RoadRunner M&M -- 自律オフロードナビゲーションのためのマルチレンジマルチ解像度トラバーサビリティマップの学習

RoadRunner M&M -- Learning Multi-range Multi-resolution Traversability Maps for Autonomous Off-road Navigation ( http://arxiv.org/abs/2409.10940v1 )

ライセンス: Link先を確認
Manthan Patel, Jonas Frey, Deegan Atha, Patrick Spieler, Marco Hutter, Shehryar Khattak, (参考訳) オフロード環境での自律型ロボットナビゲーションは、地形の幾何学と移動可能性に関する包括的理解を必要とする。 劣化した知覚条件とより長い範囲の幾何学的情報により、特に高速運転時の問題に挑戦する。 さらに、センサ・ツー・マッピングのレイテンシとルック・アヘッドマップの範囲は、車両の最大速度を制限することができる。 先日のRoadRunnerの上に構築されたこの作業では,長距離(100m)の可逆性推定の課題に対処する。 Our RoadRunner (M&M) は,複数範囲 (50m, 100m) および解像度 (0.2m, 0.8m) で,入力された複数の画像とLiDARボクセルマップを直接予測する,エンドツーエンドの学習ベースフレームワークである。 本手法は,後方および衛星デジタル標高マップにおいて,既存の走行可能性推定スタック(X-Racer)からの予測を融合させることにより発生する密集した監視信号を利用して,自己監督的な訓練を行う。 RoadRunner M&Mは、高度マッピングで最大50%、RoadRunner上でのトラバーサビリティ推定で30%の大幅な改善を実現し、リアルタイムのパフォーマンスを達成しながら、X-Racerと比較して30%以上のリージョンを予測できる。 様々なアウト・オブ・ディストリビューションデータセットの実験では、私たちのデータ駆動アプローチが、新しい非構造化環境に一般化し始めています。 提案するフレームワークをクローズドループに統合し,実環境における自律型高速オフロードロボットナビゲーションを実証する。 Project Page: https://leggedrobotics.github.io/roadrunner_mm/

Autonomous robot navigation in off-road environments requires a comprehensive understanding of the terrain geometry and traversability. The degraded perceptual conditions and sparse geometric information at longer ranges make the problem challenging especially when driving at high speeds. Furthermore, the sensing-to-mapping latency and the look-ahead map range can limit the maximum speed of the vehicle. Building on top of the recent work RoadRunner, in this work, we address the challenge of long-range (100 m) traversability estimation. Our RoadRunner (M&M) is an end-to-end learning-based framework that directly predicts the traversability and elevation maps at multiple ranges (50 m, 100 m) and resolutions (0.2 m, 0.8 m) taking as input multiple images and a LiDAR voxel map. Our method is trained in a self-supervised manner by leveraging the dense supervision signal generated by fusing predictions from an existing traversability estimation stack (X-Racer) in hindsight and satellite Digital Elevation Maps. RoadRunner M&M achieves a significant improvement of up to 50% for elevation mapping and 30% for traversability estimation over RoadRunner, and is able to predict in 30% more regions compared to X-Racer while achieving real-time performance. Experiments on various out-of-distribution datasets also demonstrate that our data-driven approach starts to generalize to novel unstructured environments. We integrate our proposed framework in closed-loop with the path planner to demonstrate autonomous high-speed off-road robotic navigation in challenging real-world environments. Project Page: https://leggedrobotics.github.io/roadrunner_mm/
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# TinyMLの最適化: 時系列分類におけるデータ取得率の低減がマイクロコントローラに与える影響

Optimizing TinyML: The Impact of Reduced Data Acquisition Rates for Time Series Classification on Microcontrollers ( http://arxiv.org/abs/2409.10942v1 )

ライセンス: Link先を確認
Riya Samanta, Bidyut Saha, Soumya K. Ghosh, Ram Babu Roy, (参考訳) TinyML(Tiny Machine Learning)は、センサに接続されたマイクロコントローラユニット(MCU)に直接機械学習の推論を効率よく、低コストで、プライバシを保存することができる。 これらの制約された環境に対するモデル最適化が不可欠です。 本稿では,データ取得率の低減が時系列分類におけるTinyMLモデルに与える影響について考察する。 データサンプリング頻度を下げることで、同様の分類精度を維持しつつ、RAM使用量、エネルギー消費量、レイテンシ、MAC操作を約4倍削減することを目指している。 ベンチマークデータセット(UCIHAR, WISDM, PAMAP2, MHEALTH, MITBIH, PTB)を用いて行った実験では,データ取得率の低減がエネルギー消費と計算負荷を大幅に削減し, 精度の低下を最小に抑えた。 例えば、MITBIHとTBデータセットの取得率75\%の削減は、RAM使用量の60\%の削減、MAC操作75\%の削減、レイテンシ74\%の削減、エネルギー消費70%の削減を、精度の低下なしに達成した。 これらの結果は、制約のある環境で効率的なTinyMLモデルをデプロイするための貴重な洞察を提供する。

Tiny Machine Learning (TinyML) enables efficient, lowcost, and privacy preserving machine learning inference directly on microcontroller units (MCUs) connected to sensors. Optimizing models for these constrained environments is crucial. This paper investigates how reducing data acquisition rates affects TinyML models for time series classification, focusing on resource-constrained, battery operated IoT devices. By lowering data sampling frequency, we aim to reduce computational demands RAM usage, energy consumption, latency, and MAC operations by approximately fourfold while maintaining similar classification accuracies. Our experiments with six benchmark datasets (UCIHAR, WISDM, PAMAP2, MHEALTH, MITBIH, and PTB) showed that reducing data acquisition rates significantly cut energy consumption and computational load, with minimal accuracy loss. For example, a 75\% reduction in acquisition rate for MITBIH and PTB datasets led to a 60\% decrease in RAM usage, 75\% reduction in MAC operations, 74\% decrease in latency, and 70\% reduction in energy consumption, without accuracy loss. These results offer valuable insights for deploying efficient TinyML models in constrained environments.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# Contrasformer: 神経変性状態同定のための脳ネットワークコントラスト変換器

Contrasformer: A Brain Network Contrastive Transformer for Neurodegenerative Condition Identification ( http://arxiv.org/abs/2409.10944v1 )

ライセンス: Link先を確認
Jiaxing Xu, Kai He, Mengcheng Lan, Qingtian Bian, Wei Li, Tieying Li, Yiping Ke, Miao Qiao, (参考訳) 神経疾患を理解することは神経科学の基本的な問題であり、機能的磁気共鳴イメージング(fMRI)データから得られる脳ネットワークの分析を必要とすることが多い。 グラフニューラルネットワーク(GNN)やグラフトランスフォーマーがさまざまな領域で普及しているにも関わらず、それらを脳ネットワークに適用することは課題に直面している。 特に、データセットは、サブ人口間の分布シフトとノードアイデンティティの無視によって引き起こされるノイズに大きく影響され、どちらも疾患固有のパターンの識別を妨げている。 これらの課題に対処するために,新しいコントラスト型脳ネットワークトランスフォーマーであるContrasformerを提案する。 2ストリームのアテンション機構により、サブポピュレーション間の分布シフトに対処するために、事前知識付きコントラストグラフを生成する。 アイデンティティの埋め込みによる横断的な注意はノードの同一性を強調し、3つの補助的損失によってグループ一貫性が保証される。 コントラスフォーマーは4つの異なる疾患にまたがる4つの機能的脳ネットワークデータセットに基づいて評価され、最大10.8倍の精度向上を達成し、脳ネットワークの最先端の手法よりも優れている。 ケーススタディは、特に神経科学の文脈において、その解釈可能性を示している。 本稿では,脳ネットワーク解析のソリューションを提供し,神経疾患に関する貴重な知見を提供する。 私たちのコードは \url{https://github.com/AngusMonroe/Contrasformer} で利用可能です。

Understanding neurological disorder is a fundamental problem in neuroscience, which often requires the analysis of brain networks derived from functional magnetic resonance imaging (fMRI) data. Despite the prevalence of Graph Neural Networks (GNNs) and Graph Transformers in various domains, applying them to brain networks faces challenges. Specifically, the datasets are severely impacted by the noises caused by distribution shifts across sub-populations and the neglect of node identities, both obstruct the identification of disease-specific patterns. To tackle these challenges, we propose Contrasformer, a novel contrastive brain network Transformer. It generates a prior-knowledge-enhanced contrast graph to address the distribution shifts across sub-populations by a two-stream attention mechanism. A cross attention with identity embedding highlights the identity of nodes, and three auxiliary losses ensure group consistency. Evaluated on 4 functional brain network datasets over 4 different diseases, Contrasformer outperforms the state-of-the-art methods for brain networks by achieving up to 10.8\% improvement in accuracy, which demonstrates its efficacy in neurological disorder identification. Case studies illustrate its interpretability, especially in the context of neuroscience. This paper provides a solution for analyzing brain networks, offering valuable insights into neurological disorders. Our code is available at \url{https://github.com/AngusMonroe/Contrasformer}.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# 不均衡群に対する公平な異常検出

Fair Anomaly Detection For Imbalanced Groups ( http://arxiv.org/abs/2409.10951v1 )

ライセンス: Link先を確認
Ziwei Wu, Lecheng Zheng, Yuancheng Yu, Ruizhong Qiu, John Birge, Jingrui He, (参考訳) 異常検出(AD)は、金融における不正検出やサイバーセキュリティの侵入検出など、現実の多くのアプリケーションで数十年にわたって広く研究されてきた。 保護された群と保護されていない群との間の不均衡の性質と、通常の例と異常の非均衡分布のため、既存のほとんどの異常検出手法の学習目的は、支配されていない群にのみ集中する傾向にある。 このように、多くの研究者が、異常検出におけるモデルフェアネスの確保の重要性について認識している。 しかしながら、既存の公正な異常検出法は、保護群よりも保護群が豊富である不均衡なシナリオにおいて、保護群からのほとんどの正常な例を異常にラベル付けする傾向にある。 この現象は、頻繁なパターン(すなわち保護されていないグループ)の学習に統計的に焦点を合わせながら、表現されていないパターン(すなわち保護されていないグループ)を見渡すという、学習目的の不適切な設計によって引き起こされる。 これらの問題に対処するため,不均衡シナリオを対象としたフェアネス対応異常検出手法であるFairADを提案する。 フェアネスを意識したコントラスト学習モジュールと、フェアネスを確保し、不均衡なデータ問題に対処するリバランシングオートエンコーダモジュールで構成されている。 さらに,提案したコントラスト学習規則化がグループフェアネスを保証していることを示す理論解析を行った。 実証的研究は、複数の実世界のデータセットにおけるFairADの有効性と効率を実証している。

Anomaly detection (AD) has been widely studied for decades in many real-world applications, including fraud detection in finance, and intrusion detection for cybersecurity, etc. Due to the imbalanced nature between protected and unprotected groups and the imbalanced distributions of normal examples and anomalies, the learning objectives of most existing anomaly detection methods tend to solely concentrate on the dominating unprotected group. Thus, it has been recognized by many researchers about the significance of ensuring model fairness in anomaly detection. However, the existing fair anomaly detection methods tend to erroneously label most normal examples from the protected group as anomalies in the imbalanced scenario where the unprotected group is more abundant than the protected group. This phenomenon is caused by the improper design of learning objectives, which statistically focus on learning the frequent patterns (i.e., the unprotected group) while overlooking the under-represented patterns (i.e., the protected group). To address these issues, we propose FairAD, a fairness-aware anomaly detection method targeting the imbalanced scenario. It consists of a fairness-aware contrastive learning module and a rebalancing autoencoder module to ensure fairness and handle the imbalanced data issue, respectively. Moreover, we provide the theoretical analysis that shows our proposed contrastive learning regularization guarantees group fairness. Empirical studies demonstrate the effectiveness and efficiency of FairAD across multiple real-world datasets.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# リテラルFBCN:MRI画像からの脳疾患分類のための軽量高速双線形畳み込みネットワーク

Lite-FBCN: Lightweight Fast Bilinear Convolutional Network for Brain Disease Classification from MRI Image ( http://arxiv.org/abs/2409.10952v1 )

ライセンス: Link先を確認
Dewinda Julianensi Rumala, Reza Fuad Rachmadi, Anggraini Dwi Sensusiati, I Ketut Eddy Purnama, (参考訳) 磁気共鳴イメージング(MRI)スキャンによる脳疾患分類における計算効率の高い高精度の達成は、特に粗さと微粒度の区別が重要である場合に困難である。 現在のディープラーニング手法は、精度と計算要求のバランスをとるのに苦労することが多い。 この問題に対処するために,ライトウェイト高速双線形畳み込みネットワークLite-FBCNを提案する。 従来のデュアルネットワークバイリニアモデルとは異なり、Lite-FBCNはシングルネットワークアーキテクチャを使用し、計算負荷を大幅に削減する。 Lite-FBCNは、軽量で訓練済みのCNNを活用して、関連する特徴を抽出し、双線形プールの前にチャネル還元層を組み込み、特徴写像の次元を最小化し、コンパクトな双線形ベクトルをもたらす。 クロスバリデーションとホールドアウトデータに対する大規模な評価は、Lite-FBCNがベースラインCNNを上回るだけでなく、既存の双線形モデルよりも優れていることを示している。 MobileNetV1を使用したLite-FBCNは、クロスバリデーションで98.10%の精度、ホールドアウトデータで69.37%(ベースラインよりも3%改善)を達成した。 UMAPビジュアライゼーションは、関連する脳疾患のクラスを識別する効果をさらに確認する。 さらに、Lite-FBCNは、リソース制約またはリアルタイム臨床環境における診断能力を向上するための有望なソリューションとして、パフォーマンスと計算効率のトレードオフを最適に位置づけている。

Achieving high accuracy with computational efficiency in brain disease classification from Magnetic Resonance Imaging (MRI) scans is challenging, particularly when both coarse and fine-grained distinctions are crucial. Current deep learning methods often struggle to balance accuracy with computational demands. We propose Lite-FBCN, a novel Lightweight Fast Bilinear Convolutional Network designed to address this issue. Unlike traditional dual-network bilinear models, Lite-FBCN utilizes a single-network architecture, significantly reducing computational load. Lite-FBCN leverages lightweight, pre-trained CNNs fine-tuned to extract relevant features and incorporates a channel reducer layer before bilinear pooling, minimizing feature map dimensionality and resulting in a compact bilinear vector. Extensive evaluations on cross-validation and hold-out data demonstrate that Lite-FBCN not only surpasses baseline CNNs but also outperforms existing bilinear models. Lite-FBCN with MobileNetV1 attains 98.10% accuracy in cross-validation and 69.37% on hold-out data (a 3% improvement over the baseline). UMAP visualizations further confirm its effectiveness in distinguishing closely related brain disease classes. Moreover, its optimal trade-off between performance and computational efficiency positions Lite-FBCN as a promising solution for enhancing diagnostic capabilities in resource-constrained and or real-time clinical environments.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# 大規模言語モデルにおける文脈指向性の調査:記憶力とエビデンススタイルの役割

Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style ( http://arxiv.org/abs/2409.10955v1 )

ライセンス: Link先を確認
Yuepei Li, Kang Zhou, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li, (参考訳) Retrieval-augmented Generation (RAG)は、外部情報を応答生成プロセスに組み込むことで、Large Language Models (LLM)を改善する。 しかし、LLMがいかに文脈忠実であるか、どの要因がLLMの文脈忠実性に影響を与えるのかは未解明のままである。 本研究では,記憶力とエビデンス提示が外的エビデンスに対するLLMの受容性に及ぼす影響について検討した。 本研究では,LLMの異なるパラフレーズに対する応答のばらつきを測定することで,LLMの記憶強度を定量化する手法を提案する。 また,様々なスタイルのエビデンスを評価するために,様々なスタイルのエビデンスも生成する。 評価には2つのデータセットが使用される。一般的な質問を持つNatural Questions (NQ)と、長い質問を特徴とするPopQAだ。 以上の結果から,LPMはメモリ強度が高い場合,特に GPT-4 などのより大きな LLM に対して,内部記憶に依存する傾向が示唆された。 一方、言い換えられた証拠を示すことは、単純な反復や詳細の追加に比べてLLMの受容性を著しく向上させる。

Retrieval-augmented generation (RAG) improves Large Language Models (LLMs) by incorporating external information into the response generation process. However, how context-faithful LLMs are and what factors influence LLMs' context-faithfulness remain largely unexplored. In this study, we investigate the impact of memory strength and evidence presentation on LLMs' receptiveness to external evidence. We introduce a method to quantify the memory strength of LLMs by measuring the divergence in LLMs' responses to different paraphrases of the same question, which is not considered by previous works. We also generate evidence in various styles to evaluate the effects of evidence in different styles. Two datasets are used for evaluation: Natural Questions (NQ) with popular questions and popQA featuring long-tail questions. Our results show that for questions with high memory strength, LLMs are more likely to rely on internal memory, particularly for larger LLMs such as GPT-4. On the other hand, presenting paraphrased evidence significantly increases LLMs' receptiveness compared to simple repetition or adding details.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# Versatile Incremental Learning:クラスとドメインに依存しないインクリメンタルラーニングを目指して

Versatile Incremental Learning: Towards Class and Domain-Agnostic Incremental Learning ( http://arxiv.org/abs/2409.10956v1 )

ライセンス: Link先を確認
Min-Yeong Park, Jae-Ho Lee, Gyeong-Moon Park, (参考訳) インクリメンタルラーニング(IL)は、破滅的な忘れを克服しつつ、逐次的な入力タスクから知識を蓄積することを目的としている。 既存のILメソッドは、入力タスクがそれぞれクラスIL(CIL)またはドメインIL(DIL)と呼ばれるクラスまたはドメインの増分しか持たないと仮定する。 本研究では,モデルのどのクラスやドメインが次のタスクで増加するのかを事前に持っていないVersatile Incremental Learning (VIL) という,より困難で現実的で未探索のILシナリオについて考察する。 提案したVILシナリオでは、モデルがクラス内ドメインの混乱とドメイン間クラス間の混乱に直面し、学習知識に干渉することなく新しい知識を蓄積できない。 これらの問題に対処するため,Incremental Classifier with Adaptation Shift cONtrol (ICON) という,シンプルで効果的なILフレームワークを提案する。 学習可能なモジュールのシフトに基づいて、クラスタベースの適応シフトコントロール(CAST)と呼ばれる新しい正規化手法を設計し、学習済みの知識との混同を回避し、新たな知識をより効率的に蓄積する。 さらに、インクリメンタル分類器(IC)を導入し、出力ノードを拡張して、前の知識を維持しながら、単一のクラスに対応する異なるドメインからのオーバーライト問題に対処する。 我々は3つのベンチマークで広範囲に実験を行い、特に次のタスクがランダムに変更される場合において、すべてのシナリオでメソッドの有効性を示す。 実装コードはhttps://github.com/KHU-AGI/VILで公開しています。

Incremental Learning (IL) aims to accumulate knowledge from sequential input tasks while overcoming catastrophic forgetting. Existing IL methods typically assume that an incoming task has only increments of classes or domains, referred to as Class IL (CIL) or Domain IL (DIL), respectively. In this work, we consider a more challenging and realistic but under-explored IL scenario, named Versatile Incremental Learning (VIL), in which a model has no prior of which of the classes or domains will increase in the next task. In the proposed VIL scenario, the model faces intra-class domain confusion and inter-domain class confusion, which makes the model fail to accumulate new knowledge without interference with learned knowledge. To address these issues, we propose a simple yet effective IL framework, named Incremental Classifier with Adaptation Shift cONtrol (ICON). Based on shifts of learnable modules, we design a novel regularization method called Cluster-based Adaptation Shift conTrol (CAST) to control the model to avoid confusion with the previously learned knowledge and thereby accumulate the new knowledge more effectively. Moreover, we introduce an Incremental Classifier (IC) which expands its output nodes to address the overwriting issue from different domains corresponding to a single class while maintaining the previous knowledge. We conducted extensive experiments on three benchmarks, showcasing the effectiveness of our method across all the scenarios, particularly in cases where the next task can be randomly altered. Our implementation code is available at https://github.com/KHU-AGI/VIL.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# 透かしインフォームドブレンディングによる潜時拡散モデルの効果的なユーザ属性化に向けて

Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending ( http://arxiv.org/abs/2409.10958v1 )

ライセンス: Link先を確認
Yongyang Pan, Xiaohong Liu, Siqi Luo, Yi Xin, Xiao Guo, Xiaoming Liu, Xiongkuo Min, Guangtao Zhai, (参考訳) マルチモーダルな大言語モデルの急速な進歩により、テキスト記述から超現実的な画像の作成が可能になった。 しかし、これらの進歩は、不正使用に対する重大な懸念を引き起こし、より広範な配布を妨げる。 従来の透かし方式は、複雑な統合や画質の劣化を必要とすることが多い。 これらの課題に対処するため,我々はWatermark-Informed Blending (TEAWIB) を用いた潜伏拡散モデルの効果的なユーザ属性化に向けた新しいフレームワークを提案する。 TEAWIBは、ユーザ固有の透かしをジェネレーティブモデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。 このアプローチにより、各ユーザがオリジナルのモデルパラメータを変更したり、画像の品質を損なうことなく、事前設定されたパラメータセットをモデルに直接適用できる。 さらに、ノイズと拡張操作をピクセルレベルに埋め込んで、透かし画像のさらなるセキュア化と安定化を図る。 TEAWIBの有効性を検証し、知覚的品質と属性の精度で最先端の性能を示す。

Rapid advancements in multimodal large language models have enabled the creation of hyper-realistic images from textual descriptions. However, these advancements also raise significant concerns about unauthorized use, which hinders their broader distribution. Traditional watermarking methods often require complex integration or degrade image quality. To address these challenges, we introduce a novel framework Towards Effective user Attribution for latent diffusion models via Watermark-Informed Blending (TEAWIB). TEAWIB incorporates a unique ready-to-use configuration approach that allows seamless integration of user-specific watermarks into generative models. This approach ensures that each user can directly apply a pre-configured set of parameters to the model without altering the original model parameters or compromising image quality. Additionally, noise and augmentation operations are embedded at the pixel level to further secure and stabilize watermarked images. Extensive experiments validate the effectiveness of TEAWIB, showcasing the state-of-the-art performance in perceptual quality and attribution accuracy.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# コードレビューコメント生成におけるレビュアエクスペリエンスの活用

Leveraging Reviewer Experience in Code Review Comment Generation ( http://arxiv.org/abs/2409.10959v1 )

ライセンス: Link先を確認
Hong Yi Lin, Patanamon Thongtanunam, Christoph Treude, Michael W. Godfrey, Chunhua Liu, Wachiraphan Charoenwet, (参考訳) 最新のコードレビューは、新しく書かれたコード内の潜在的な問題を特定することを目的とした、ユビキタスなソフトウェア品質保証プロセスである。 その効果にもかかわらず、このプロセスは、関係する人間レビュアーからの多大な努力を必要とする。 この作業を緩和するために、研究者は人間のレビュアーを模倣して自然言語のコードレビューを提供するディープラーニングモデルを訓練した。 正式には、このタスクはコードレビューコメント生成として知られている。 これまでの研究は、トランスファーラーニングやトランスフォーマーアーキテクチャといった機械学習技術とニューラルモデルを活用することで、このタスクの改善を実証してきた。 しかし、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、生成されたレビューの品質は、まだサブ最適のままである。 これは部分的には、コードレビューが公開フォーラムで実施されているオープンソースプロジェクトから得られたデータによるもので、レビュアーは様々なレベルのソフトウェア開発経験を持ち、フィードバックの品質に影響を与える可能性があるためである。 この変化に対応するため,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活用できる一連の経験学習手法を提案する。 具体的には、モデルの損失関数の重みとして、レビューのオーサリングとプロジェクトのオーサシップのレビューを利用する、経験型損失関数(ELF)を提案する。 この方法を通じて、経験豊富なレビュアーのコードレビューはモデルの振る舞いに大きな影響を与える。 SOTAモデルと比較すると、ELFは精度、情報性、コメントタイプでより高い品質のレビューを生成することができた。 この研究の重要な貢献は、AIベースの自動コードレビューモデルの設計に、レビュアエクスペリエンスのような従来のソフトウェアエンジニアリングの概念をどのように組み込むことができるかの実証である。

Modern code review is a ubiquitous software quality assurance process aimed at identifying potential issues within newly written code. Despite its effectiveness, the process demands large amounts of effort from the human reviewers involved. To help alleviate this workload, researchers have trained deep learning models to imitate human reviewers in providing natural language code reviews. Formally, this task is known as code review comment generation. Prior work has demonstrated improvements in this task by leveraging machine learning techniques and neural models, such as transfer learning and the transformer architecture. However, the quality of the model generated reviews remain sub-optimal due to the quality of the open-source code review data used in model training. This is in part due to the data obtained from open-source projects where code reviews are conducted in a public forum, and reviewers possess varying levels of software development experience, potentially affecting the quality of their feedback. To accommodate for this variation, we propose a suite of experience-aware training methods that utilise the reviewers' past authoring and reviewing experiences as signals for review quality. Specifically, we propose experience-aware loss functions (ELF), which use the reviewers' authoring and reviewing ownership of a project as weights in the model's loss function. Through this method, experienced reviewers' code reviews yield larger influence over the model's behaviour. Compared to the SOTA model, ELF was able to generate higher quality reviews in terms of accuracy, informativeness, and comment types generated. The key contribution of this work is the demonstration of how traditional software engineering concepts such as reviewer experience can be integrated into the design of AI-based automated code review models.
翻訳日:2024-09-18 17:38:43 公開日:2024-09-17
# エネルギーに基づく抗体最適化とスクリーニング強化のためのアクティブラーニング

Active learning for energy-based antibody optimization and enhanced screening ( http://arxiv.org/abs/2409.10964v1 )

ライセンス: Link先を確認
Kairi Furui, Masahito Ohue, (参考訳) タンパク質結合性アフィニティの正確な予測と最適化は、治療用抗体の開発に不可欠である。 機械学習に基づく予測法$\Delta\Delta G$は大規模な突然変異スクリーニングに適しているが、既存のバインダーを使わずにターゲットに対する複数の突然変異の効果を予測するのに苦労している。 エネルギー関数に基づく手法は、より正確ではあるが、時間がかかり、大規模なスクリーニングには理想的ではない。 そこで本研究では,深層学習モデルを効率よく訓練し,特定の目標に対するエネルギー関数を学習する能動的学習ワークフローを提案する。 本手法はRDE-NetworkディープラーニングモデルとRosetaのエネルギー関数に基づくFlex ddGを統合し,Flex ddGに結合するミュータントを効率的に探索する。 HER2結合型Trastuzumab変異体を標的としたケーススタディでは,ランダム選択よりもスクリーニング性能が有意に向上し,実験的な$\Delta\Delta G$データなしでより優れた結合特性を持つ変異体を同定できることが実証された。 このワークフローは、より効率的な抗体開発を実現するために、機械学習、物理ベースの計算、アクティブな学習を組み合わせることで、計算抗体設計を前進させる。

Accurate prediction and optimization of protein-protein binding affinity is crucial for therapeutic antibody development. Although machine learning-based prediction methods $\Delta\Delta G$ are suitable for large-scale mutant screening, they struggle to predict the effects of multiple mutations for targets without existing binders. Energy function-based methods, though more accurate, are time consuming and not ideal for large-scale screening. To address this, we propose an active learning workflow that efficiently trains a deep learning model to learn energy functions for specific targets, combining the advantages of both approaches. Our method integrates the RDE-Network deep learning model with Rosetta's energy function-based Flex ddG to efficiently explore mutants that bind to Flex ddG. In a case study targeting HER2-binding Trastuzumab mutants, our approach significantly improved the screening performance over random selection and demonstrated the ability to identify mutants with better binding properties without experimental $\Delta\Delta G$ data. This workflow advances computational antibody design by combining machine learning, physics-based computations, and active learning to achieve more efficient antibody development.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# 低資源アフリカ言語における多言語モデルの言語間移動

Cross-lingual transfer of multilingual models on low resource African Languages ( http://arxiv.org/abs/2409.10965v1 )

ライセンス: Link先を確認
Harish Thangaraj, Ananya Chenat, Jaskaran Singh Walia, Vukosi Marivate, (参考訳) 大規模多言語モデルは、非常に高度な自然言語処理(NLP)研究を持っている。 しかし、その高いリソース要求と多様なデータソースからの潜在的なバイアスは、低リソース言語全体での有効性を懸念している。 対照的に、単一の言語で訓練されたモノリンガルモデルは、ターゲット言語のニュアンスをよりよく捉え、より正確な結果をもたらす可能性がある。 本研究は,Kinyarwanda と Kirundi に焦点をあてて,ハイリソース言語から低リソース言語へ,モノリンガルモデルとマルチリンガルモデルの両方を対象としたクロスリンガルトランスファー機能をベンチマークする。 マルチ言語BERT (mBERT) や AfriBERT, BantuBERTa などのトランスフォーマーアーキテクチャと BiGRU, CNN, char-CNN などのニューラルネットワークアーキテクチャの性能を評価する。 モデルはキニャルワンダで訓練され、キルンディでテストされ、微調整が適用され、性能改善の程度と破滅的な忘れ物の評価に使用された。 AfriBERTは微調整後に88.3%の最高言語間精度を達成し、BiGRUは83.3%の精度で最高の性能のニューラルモデルとして登場した。 また,学習後の元の言語における忘れ度も分析する。 モノリンガルモデルは競争力を持ち続けているが、この研究は資源制限された設定において、多言語モデルが強い言語間転送機能を提供することを強調している。

Large multilingual models have significantly advanced natural language processing (NLP) research. However, their high resource demands and potential biases from diverse data sources have raised concerns about their effectiveness across low-resource languages. In contrast, monolingual models, trained on a single language, may better capture the nuances of the target language, potentially providing more accurate results. This study benchmarks the cross-lingual transfer capabilities from a high-resource language to a low-resource language for both, monolingual and multilingual models, focusing on Kinyarwanda and Kirundi, two Bantu languages. We evaluate the performance of transformer based architectures like Multilingual BERT (mBERT), AfriBERT, and BantuBERTa against neural-based architectures such as BiGRU, CNN, and char-CNN. The models were trained on Kinyarwanda and tested on Kirundi, with fine-tuning applied to assess the extent of performance improvement and catastrophic forgetting. AfriBERT achieved the highest cross-lingual accuracy of 88.3% after fine-tuning, while BiGRU emerged as the best-performing neural model with 83.3% accuracy. We also analyze the degree of forgetting in the original language post-fine-tuning. While monolingual models remain competitive, this study highlights that multilingual models offer strong cross-lingual transfer capabilities in resource limited settings.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# CUNSB-RFIE : 網膜基底画像強調における文脈認識型無ペアニューラルシュリンガーブリッジ

CUNSB-RFIE: Context-aware Unpaired Neural Schr"{o}dinger Bridge in Retinal Fundus Image Enhancement ( http://arxiv.org/abs/2409.10966v1 )

ライセンス: Link先を確認
Xuanzhao Dong, Vamsi Krishna Vasa, Wenhui Zhu, Peijie Qiu, Xiwen Chen, Yi Su, Yujian Xiong, Zhangsihao Yang, Yanxi Chen, Yalin Wang, (参考訳) 網膜基底撮影は網膜疾患の診断とモニタリングに重要である。 しかし、全身的不完全性や手術者/患者関連要因は、高品質な網膜画像の取得を妨げる可能性がある。 網膜画像強調のこれまでの取り組みは、トレーニング安定性と出力多様性のトレードオフによって制限されるGANに主に依存していた。 対照的に、シュル\{o}dinger Bridge (SB) は2つの任意の分布の間の確率微分方程式(SDE)をモデル化するために最適輸送(OT)理論を利用してより安定した解を提供する。 これにより、SBは低画質の網膜画像を高品質の網膜に効果的に変換できる。 本研究では,網膜画像強調のための画像から画像への変換パイプラインを提案するために,SBフレームワークを利用する。 さらに、従来の方法では血管などの微細な構造を捉えることができないことが多い。 これを解決するために,我々は,管状構造をより保存しやすくするダイナミック・スネーク・コンボリューション(Dynamic Snake Convolution)を導入し,パイプラインを強化した。 得られた網膜基底画像強調フレームワークを,テクスチャを意識したUnpaired Neural Schr\"{o}dinger Bridge (CUNSB-RFIE) と命名した。 我々の知る限りでは、これが網膜画像強調のためにSBアプローチを使った最初の試みである。 大規模データセットを用いた実験結果から, ダウンストリームタスクにおける画像品質と性能の観点から, 最先端の教師あり教師なし手法と比較して, 提案手法の利点が示された。

Retinal fundus photography is significant in diagnosing and monitoring retinal diseases. However, systemic imperfections and operator/patient-related factors can hinder the acquisition of high-quality retinal images. Previous efforts in retinal image enhancement primarily relied on GANs, which are limited by the trade-off between training stability and output diversity. In contrast, the Schr\"{o}dinger Bridge (SB), offers a more stable solution by utilizing Optimal Transport (OT) theory to model a stochastic differential equation (SDE) between two arbitrary distributions. This allows SB to effectively transform low-quality retinal images into their high-quality counterparts. In this work, we leverage the SB framework to propose an image-to-image translation pipeline for retinal image enhancement. Additionally, previous methods often fail to capture fine structural details, such as blood vessels. To address this, we enhance our pipeline by introducing Dynamic Snake Convolution, whose tortuous receptive field can better preserve tubular structures. We name the resulting retinal fundus image enhancement framework the Context-aware Unpaired Neural Schr\"{o}dinger Bridge (CUNSB-RFIE). To the best of our knowledge, this is the first endeavor to use the SB approach for retinal image enhancement. Experimental results on a large-scale dataset demonstrate the advantage of the proposed method compared to several state-of-the-art supervised and unsupervised methods in terms of image quality and performance on downstream tasks.The code is available at \url{https://github.com/Retinal-Research/CUNSB-RFIE}.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# 相対表現:トポロジカル・幾何学的視点

Relative Representations: Topological and Geometric Perspectives ( http://arxiv.org/abs/2409.10967v1 )

ライセンス: Link先を確認
Alejandro García-Castellanos, Giovanni Luca Marchetti, Danica Kragic, Martina Scolamiero, (参考訳) 相対表現はゼロショットモデルの縫合に対する確立されたアプローチであり、ディープニューラルネットワークの潜在空間の非トレーニング可能な変換からなる。 トポロジカル・幾何学的性質の洞察に基づき,相対表現の2つの改善を提案する。 まず、相対変換における正規化手順を導入し、非等方的再スケーリングや置換に不変となる。 後者は共通活性化関数によって誘導されるパラメータ空間の対称性と一致する。 第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。 提案手法は,いずれもゼロショットモデル縫合の性能向上を図った自然言語処理に関する実証的研究である。

Relative representations are an established approach to zero-shot model stitching, consisting of a non-trainable transformation of the latent space of a deep neural network. Based on insights of topological and geometric nature, we propose two improvements to relative representations. First, we introduce a normalization procedure in the relative transformation, resulting in invariance to non-isotropic rescalings and permutations. The latter coincides with the symmetries in parameter space induced by common activation functions. Second, we propose to deploy topological densification when fine-tuning relative representations, a topological regularization loss encouraging clustering within classes. We provide an empirical investigation on a natural language task, where both the proposed variations yield improved performance on zero-shot model stitching.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# コード切替データを用いたLLMにおける多言語音声生成と認識能力の強化

Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data ( http://arxiv.org/abs/2409.10969v1 )

ライセンス: Link先を確認
Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen, (参考訳) 大きな言語モデル(LLM)は、生成タスクと認識タスクの両方において音声領域で探索されてきたが、それらのアプリケーションは、多言語およびコードスイッチング(CS)のコンテキストにおいて限定的な探索によって、主にモノリンガルのシナリオに限られている。 さらに、VALL-EやQwen-Audioのように、音声認識や認識タスクは別々に扱われることが多い。 本稿では,MutltiLingual MultiTask (MLMT)モデルを提案する。 さらに,異なる言語から単語を分割・結合し,CSデータに頼ることなくCS合成能力を備えたLLMを具備する効率的なデータ構築手法を開発した。 実験結果から,我々のモデルはデータスケールに匹敵する他のベースラインよりも優れていることが示された。 さらに,データ構築手法は,CS音声合成機能を備えたLLMを,任意の話者に匹敵する話者整合性と類似性を持つとともに,多言語音声生成・認識タスクにおけるLLMの性能を向上させる。

While large language models (LLMs) have been explored in the speech domain for both generation and recognition tasks, their applications are predominantly confined to the monolingual scenario, with limited exploration in multilingual and code-switched (CS) contexts. Additionally, speech generation and recognition tasks are often handled separately, such as VALL-E and Qwen-Audio. In this paper, we propose a MutltiLingual MultiTask (MLMT) model, integrating multilingual speech generation and recognition tasks within the single LLM. Furthermore, we develop an effective data construction approach that splits and concatenates words from different languages to equip LLMs with CS synthesis ability without relying on CS data. The experimental results demonstrate that our model outperforms other baselines with a comparable data scale. Furthermore, our data construction approach not only equips LLMs with CS speech synthesis capability with comparable speaker consistency and similarity to any given speaker, but also improves the performance of LLMs in multilingual speech generation and recognition tasks.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# 演算子学習のためのガウス過程に向けて : 計算力学のための不確実性認識分解独立演算子学習アルゴリズム

Towards Gaussian Process for operator learning: an uncertainty aware resolution independent operator learning algorithm for computational mechanics ( http://arxiv.org/abs/2409.10972v1 )

ライセンス: Link先を確認
Sawan Kumar, Rajdip Nayek, Souvik Chakraborty, (参考訳) 計算力学における正確で効率的でスケーラブルなソリューションに対する需要の高まりは、信頼性の高い不確実性定量化を提供しながら、大規模なデータセットを効率的に処理できる高度な演算子学習アルゴリズムの必要性を強調している。 本稿では、パラメトリック微分方程式を解くための新しいガウス過程(GP)に基づくニューラル演算子を提案する。 提案手法は、決定論的ニューラル演算子の表現能力と従来のGPの不確実性認識を活用する。 特に,ニューラルネットワークを用いて学習した潜時空間でGPカーネルを定式化した'neural operator-embedded kernel''を提案する。 さらに,ニューラル演算子パラメータとGPハイパーパラメータを同時にトレーニングするために,確率的双対降下(SDD)アルゴリズムを利用する。 私たちのアプローチは a)分解能依存性と b) 従来のGPモデルの3次複雑さにより,計算力学などの高次元および非線形パラメトリックシステムにおいて,入力分解能の独立性とスケーラビリティが実現される。 本手法を非線形パラメトリック偏微分方程式(PDE)の範囲に適用し,標準GPモデルやウェーブレットニューラル演算子と比較して計算効率と精度の両面で優れていることを示す。 実験結果から,不確実性推定におけるロバスト性を維持しつつ,計算力学のスケーラブルかつ信頼性の高い演算子学習アルゴリズムとして位置づけながら,複雑なPDEを解く上で,このフレームワークの有効性を強調した。

The growing demand for accurate, efficient, and scalable solutions in computational mechanics highlights the need for advanced operator learning algorithms that can efficiently handle large datasets while providing reliable uncertainty quantification. This paper introduces a novel Gaussian Process (GP) based neural operator for solving parametric differential equations. The approach proposed leverages the expressive capability of deterministic neural operators and the uncertainty awareness of conventional GP. In particular, we propose a ``neural operator-embedded kernel'' wherein the GP kernel is formulated in the latent space learned using a neural operator. Further, we exploit a stochastic dual descent (SDD) algorithm for simultaneously training the neural operator parameters and the GP hyperparameters. Our approach addresses the (a) resolution dependence and (b) cubic complexity of traditional GP models, allowing for input-resolution independence and scalability in high-dimensional and non-linear parametric systems, such as those encountered in computational mechanics. We apply our method to a range of non-linear parametric partial differential equations (PDEs) and demonstrate its superiority in both computational efficiency and accuracy compared to standard GP models and wavelet neural operators. Our experimental results highlight the efficacy of this framework in solving complex PDEs while maintaining robustness in uncertainty estimation, positioning it as a scalable and reliable operator-learning algorithm for computational mechanics.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# 2レベル系の多重光子散乱によるサブポアソニアン光子統計の直接的観察

Direct experimental observation of sub-poissonian photon statistics by means of multi-photon scattering on a two-level system ( http://arxiv.org/abs/2409.10975v1 )

ライセンス: Link先を確認
A. Yu. Dmitriev, A. V. Vasenin, S. A. Gunin, S. V. Remizov, A. A. Elistratov, W. V. Pogosov, O. V. Astafiev, (参考訳) 半無限導波路に強く結合した2レベル超伝導人工原子のカスケードは、量子非線形光学において非自明な現象を観測するための有望なツールである。 プローブ原子は、ソースから放射される反結合放射線を散乱させ、特定の特性を持つ磁場を生成することができる。 我々は、コヒーレントcw励起源からの非古典光とプローブに作用する他のコヒーレント波との波動混合を実験的に実証した。 プローブ上の2つの古典波の混合スペクトルと異なる波動混合定常スペクトルの特異な特徴を観察する。 これらの特徴は、2つの原子の強く結合したカスケード系の理論を適用することでよく説明される。 さらに、原子の放射定数の様々な比について、非古典的な混合スペクトルを予測する理論を解析する。 実験および数値的な結果は、光源から1つの光子しか持たない多重光子散乱過程の優位性を確認するものである。 本研究では, 準定常状態における原子の絡み合いを評価し, ソースフィールドの2次相関関数と特定の散乱光子に対応する波動混合側ピークとの接続性について述べる。

A cascade of two-level superconducting artificial atoms -- a source and a probe -- strongly coupled to a semi-infinite waveguide is a promising tool for observing nontrivial phenomena in quantum nonlinear optics. The probe atom can scatter an antibunched radiation emitted from the source, thereby generating a field with specific properties. We experimentally demonstrate wave mixing between nonclassical light from the coherently cw-pumped source and another coherent wave acting on the probe. We observe unique features in the wave mixing stationary spectrum which differs from mixing spectrum of two classical waves on the probe. These features are well described by adapting the theory for a strongly coupled cascaded system of two atoms. We further analyze the theory to predict non-classical mixing spectra for various ratios of atoms' radiative constants. Both experimental and numerical results confirm the domination of multi-photon scattering process with only a single photon from the source. We evaluate entanglement of atoms in the quasistationary state and illustrate the connection between the expected second-order correlation function of source's field and wave mixing side peaks corresponding to a certain number of scattered photons.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# エッジベースデノイング画像圧縮

Edge-based Denoising Image Compression ( http://arxiv.org/abs/2409.10978v1 )

ライセンス: Link先を確認
Ryugo Morita, Hitoshi Nishimura, Ko Watanabe, Andreas Dengel, Jinjia Zhou, (参考訳) 近年,特に生成モデルによる深層学習に基づく画像圧縮が重要な研究領域として浮上している。 大幅な進歩にもかかわらず、再構成された画像のシャープネスと品質の低下、モード崩壊による非効率の学習、送信時のデータ損失といった課題は継続した。 これらの問題に対処するため,拡散モデルにデノナイジングステップを組み込んだ新しい圧縮モデルを提案し,潜時空間の活用によるサブ情報(e, edge, depth)による画像再構成の忠実度を著しく向上させる。 実験により,既存のモデルと比較した場合,画像の画質や圧縮効率の点で,本モデルが優れているか同等の結果が得られることを示した。 特に,再構成画像の完全性を維持するためにエッジ推定ネットワークを導入し,画像圧縮の現在の限界に対する堅牢な解決策を提供することにより,部分的画像損失や過度ノイズのシナリオに優れる。

In recent years, deep learning-based image compression, particularly through generative models, has emerged as a pivotal area of research. Despite significant advancements, challenges such as diminished sharpness and quality in reconstructed images, learning inefficiencies due to mode collapse, and data loss during transmission persist. To address these issues, we propose a novel compression model that incorporates a denoising step with diffusion models, significantly enhancing image reconstruction fidelity by sub-information(e.g., edge and depth) from leveraging latent space. Empirical experiments demonstrate that our model achieves superior or comparable results in terms of image quality and compression efficiency when measured against the existing models. Notably, our model excels in scenarios of partial image loss or excessive noise by introducing an edge estimation network to preserve the integrity of reconstructed images, offering a robust solution to the current limitations of image compression.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# PSFHS Challenge Report:Pubic Symphysis and Fetal Head Segmentation from intrapartum Ultrasound Images

PSFHS Challenge Report: Pubic Symphysis and Fetal Head Segmentation from Intrapartum Ultrasound Images ( http://arxiv.org/abs/2409.10980v1 )

ライセンス: Link先を確認
Jieyun Bai, Zihao Zhou, Zhanhong Ou, Gregor Koehler, Raphael Stock, Klaus Maier-Hein, Marawan Elbatel, Robert Martí, Xiaomeng Li, Yaoyang Qiu, Panjie Gou, Gongping Chen, Lei Zhao, Jianxun Zhang, Yu Dai, Fangyijie Wang, Guénolé Silvestre, Kathleen Curran, Hongkun Sun, Jing Xu, Pengzhou Cai, Lu Jiang, Libin Lan, Dong Ni, Mei Zhong, Gaowen Chen, Víctor M. Campello, Yaosheng Lu, Karim Lekadir, (参考訳) 国際産婦人科超音波協会(ISUOG)が提唱する胎児・母体構造物の分画は, 定量的診断と臨床的意思決定のための重要な第一歩である。 これは、専門職の専門的な分析を必要とする。 i) 非常に時間と費用がかかり、 二 しばしば一貫性のない結果が得られること。 バイオメトリのための自動セグメンテーションアルゴリズムの有用性は証明されているが、既存の結果はまだ最適ではない。 第26回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2023)と共に、この領域の進歩を推し進めるため、PSFHS(Pubic Symphysis-Fetal Head Segmentation)のグランドチャレンジが開催された。 この課題は、国際規模での自動セグメンテーションアルゴリズムの開発を強化することを目的としており、2つの病院から3つの病院にまたがる2台の超音波装置から収集された5,101個のパルタ内超音波画像で、これまでで最大のデータセットを提供する。 科学界の熱狂的な参加により、第2ステージに進むため、最初の段階で193名の登録者から179名中上位8名が選ばれた。 これらのアルゴリズムは、パルタ内超音波画像から自動PSFHSの最先端性を高めている。 結果の徹底的な分析は、この分野で進行中の課題を指摘し、今後の作業に対する推奨事項を概説した。 最上位のソリューションと完全なデータセットは引き続き公開されており、部分的超音波画像のための自動セグメンテーションとバイオメトリーのさらなる進歩を後押ししている。

Segmentation of the fetal and maternal structures, particularly intrapartum ultrasound imaging as advocated by the International Society of Ultrasound in Obstetrics and Gynecology (ISUOG) for monitoring labor progression, is a crucial first step for quantitative diagnosis and clinical decision-making. This requires specialized analysis by obstetrics professionals, in a task that i) is highly time- and cost-consuming and ii) often yields inconsistent results. The utility of automatic segmentation algorithms for biometry has been proven, though existing results remain suboptimal. To push forward advancements in this area, the Grand Challenge on Pubic Symphysis-Fetal Head Segmentation (PSFHS) was held alongside the 26th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2023). This challenge aimed to enhance the development of automatic segmentation algorithms at an international scale, providing the largest dataset to date with 5,101 intrapartum ultrasound images collected from two ultrasound machines across three hospitals from two institutions. The scientific community's enthusiastic participation led to the selection of the top 8 out of 179 entries from 193 registrants in the initial phase to proceed to the competition's second stage. These algorithms have elevated the state-of-the-art in automatic PSFHS from intrapartum ultrasound images. A thorough analysis of the results pinpointed ongoing challenges in the field and outlined recommendations for future work. The top solutions and the complete dataset remain publicly available, fostering further advancements in automatic segmentation and biometry for intrapartum ultrasound imaging.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# ブートストラップデータ選択による音声音声翻訳によるアンダーソース言語における音声感情認識の改善

Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection ( http://arxiv.org/abs/2409.10985v1 )

ライセンス: Link先を確認
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee, (参考訳) 音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。 しかし、英語や中国語以外の言語ではラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。 本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。 具体的には、表現型音声音声翻訳(S2ST)と新しいブートストラップデータ選択パイプラインを組み合わせて、対象言語でラベル付きデータを生成する。 大規模な実験により,本手法は様々な上流モデルや言語にまたがって有効かつ一般化可能であることが示された。 提案手法により,よりスケーラブルで堅牢な多言語SERシステムの開発が容易になる可能性が示唆された。

Speech Emotion Recognition (SER) is a crucial component in developing general-purpose AI agents capable of natural human-computer interaction. However, building robust multilingual SER systems remains challenging due to the scarcity of labeled data in languages other than English and Chinese. In this paper, we propose an approach to enhance SER performance in low SER resource languages by leveraging data from high-resource languages. Specifically, we employ expressive Speech-to-Speech translation (S2ST) combined with a novel bootstrapping data selection pipeline to generate labeled data in the target language. Extensive experiments demonstrate that our method is both effective and generalizable across different upstream models and languages. Our results suggest that this approach can facilitate the development of more scalable and robust multilingual SER systems.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# ビジネスプロセスモデルにおける制御-フロー再構成攻撃

Control-flow Reconstruction Attacks on Business Process Models ( http://arxiv.org/abs/2409.10986v1 )

ライセンス: Link先を確認
Henrik Kirchmann, Stephan A. Fahrenkrog-Petersen, Felix Mannhardt, Matthias Weidlich, (参考訳) ビジネスプロセスのas-isデータを含むイベントログから、プロセスモデルを自動的に生成することも可能だ。 このようなモデルは、特定の記録されたプロセス実行の制御フローを一般化するが、実行頻度などの行動統計学でも注釈付けされることが多く、モデルが公開されると、元のプロセス実行に関する特定の洞察が再構築され、外部の関係者がビジネスプロセスに関する機密情報を抽出することができる。 この研究は、プロセスモデルに基づいて、このような再構築の試みを経験的に調査した最初のものである。 この目的のために,プロセスツリーからの制御フローを再構築する様々なプレイアウト戦略を提案する。 プロセスモデルに対するこのような再構築攻撃の可能性を評価し、その結果、それらを公開することによって生じるリスクを、複数の実世界のデータセットに対して元のログと比較する。

Process models may be automatically generated from event logs that contain as-is data of a business process. While such models generalize over the control-flow of specific, recorded process executions, they are often also annotated with behavioural statistics, such as execution frequencies.Based thereon, once a model is published, certain insights about the original process executions may be reconstructed, so that an external party may extract confidential information about the business process. This work is the first to empirically investigate such reconstruction attempts based on process models. To this end, we propose different play-out strategies that reconstruct the control-flow from process trees, potentially exploiting frequency annotations. To assess the potential success of such reconstruction attacks on process models, and hence the risks imposed by publishing them, we compare the reconstructed process executions with those of the original log for several real-world datasets.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# GOSt-MT: 機械翻訳における作業関連性バイアスの知識グラフ

GOSt-MT: A Knowledge Graph for Occupation-related Gender Biases in Machine Translation ( http://arxiv.org/abs/2409.10989v1 )

ライセンス: Link先を確認
Orfeas Menis Mastromichalakis, Giorgos Filandrianos, Eva Tsouparopoulou, Dimitris Parsanoglou, Maria Symeonaki, Giorgos Stamou, (参考訳) 機械翻訳(MT)システムにおけるジェンダーバイアスは、しばしば有害なステレオタイプを補強する重大な課題を引き起こす。 特に、職業が特定の性別と不正確な関係にある労働領域では、そのような偏見は伝統的なジェンダーのステレオタイプを持続させ、社会に大きな影響を及ぼす。 これらの問題に対処することは、公平かつ正確なMTシステムの確保に不可欠である。 本稿では, GOSt-MT (Gender and Occupation Statistics for Machine Translation) Knowledge Graph の作成を通じて, 職業関連性バイアスを研究するための新しい手法を提案する。 GOSt-MTは、MTトレーニングで使用される実世界の労働データとテキストコーパスからの包括的性別統計を統合している。 この知識グラフは、英語、フランス語、ギリシア語にまたがる男女バイアスの詳細な分析を可能にし、永続的なステレオタイプと介入を必要とする領域の同定を容易にする。 GOSt-MTは、労働市場とMTシステムの両方でどのように職業がジェンダー化されているかを理解するための構造化された枠組みを提供することによって、MTシステムをより公平にし、自動翻訳における性別バイアスを減らすことを目的とした取り組みに貢献している。

Gender bias in machine translation (MT) systems poses significant challenges that often result in the reinforcement of harmful stereotypes. Especially in the labour domain where frequently occupations are inaccurately associated with specific genders, such biases perpetuate traditional gender stereotypes with a significant impact on society. Addressing these issues is crucial for ensuring equitable and accurate MT systems. This paper introduces a novel approach to studying occupation-related gender bias through the creation of the GOSt-MT (Gender and Occupation Statistics for Machine Translation) Knowledge Graph. GOSt-MT integrates comprehensive gender statistics from real-world labour data and textual corpora used in MT training. This Knowledge Graph allows for a detailed analysis of gender bias across English, French, and Greek, facilitating the identification of persistent stereotypes and areas requiring intervention. By providing a structured framework for understanding how occupations are gendered in both labour markets and MT systems, GOSt-MT contributes to efforts aimed at making MT systems more equitable and reducing gender biases in automated translations.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# より少ない: 効率的なマルチモーダルLCMのための簡易かつ効果的なトーケン削減法

Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs ( http://arxiv.org/abs/2409.10994v1 )

ライセンス: Link先を確認
Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang, (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩は、様々な領域で顕著なパフォーマンスをもたらした。 しかし、この進歩はこれらのモデルの資源消費が大幅に増加したことに伴う。 MLLMの効率向上を目的とした新しいアプローチであるTRIM(CLIP Metric)を導入し,その性能を損なうことなくその効率向上を図る。 視覚質問応答(VQA)タスクにおける人間の注意パターンにインスパイアされたTRIMは、画像トークンの選択と縮小について、新たな視点を示す。 TRIM法は12のデータセットにまたがって広範囲にテストされており、その結果は、一貫した性能を維持しながら、計算オーバーヘッドを大幅に削減したことを示している。 本研究はMLLMの効率的な開発において重要な一歩を踏み出し,高性能モデルのアクセシビリティ向上と持続可能性向上に寄与する。

The rapid advancement of Multimodal Large Language Models (MLLMs) has led to remarkable performances across various domains. However, this progress is accompanied by a substantial surge in the resource consumption of these models. We address this pressing issue by introducing a new approach, Token Reduction using CLIP Metric (TRIM), aimed at improving the efficiency of MLLMs without sacrificing their performance. Inspired by human attention patterns in Visual Question Answering (VQA) tasks, TRIM presents a fresh perspective on the selection and reduction of image tokens. The TRIM method has been extensively tested across 12 datasets, and the results demonstrate a significant reduction in computational overhead while maintaining a consistent level of performance. This research marks a critical stride in efficient MLLM development, promoting greater accessibility and sustainability of high-performing models.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# SynthSOD:オーケストラ音源分離のための不均一データセットの開発

SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation ( http://arxiv.org/abs/2409.10995v1 )

ライセンス: Link先を確認
Jaime Garcia-Martinez, David Diaz-Guerra, Archontis Politis, Tuomas Virtanen, Julio J. Carabias-Orti, Pedro Vera-Candeas, (参考訳) 音源分離の最近の進歩は、特に混合トラックからのボーカル、ドラム、ベース要素の分離において顕著に進展している。 これらの開発は、これらの特定のコンポーネント専用の大規模マルチトラックデータセットの作成と使用に大きく依存している。 しかし、オーケストラ録音から同様の音源を抽出するという課題は、包括的でクリーンな(出血のない)マルチトラックデータセットが不足していることから、広く検討されていない。 本稿では,SynthSODと呼ばれる新しいマルチトラック・データセットについて紹介する。このデータセットは,様々な力学,自然テンポの変化,スタイル,条件を含む,リアルな(高品質なサウンドフォントを用いた)トレーニングセットを作成するためのシミュレーション手法を用いて開発されている。 さらに、我々の合成データセットw.r.tで訓練されたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実証し、その性能を合成と実環境の両方で評価する。

Recent advancements in music source separation have significantly progressed, particularly in isolating vocals, drums, and bass elements from mixed tracks. These developments owe much to the creation and use of large-scale, multitrack datasets dedicated to these specific components. However, the challenge of extracting similarly sounding sources from orchestra recordings has not been extensively explored, largely due to a scarcity of comprehensive and clean (i.e bleed-free) multitrack datasets. In this paper, we introduce a novel multitrack dataset called SynthSOD, developed using a set of simulation techniques to create a realistic (i.e. using high-quality soundfonts), musically motivated, and heterogeneous training set comprising different dynamics, natural tempo changes, styles, and conditions. Moreover, we demonstrate the application of a widely used baseline music separation model trained on our synthesized dataset w.r.t to the well-known EnsembleSet, and evaluate its performance under both synthetic and real-world conditions.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# GINTRIP:情報ボトルネックとプロトタイプに基づく解釈可能な時間グラフ回帰

GINTRIP: Interpretable Temporal Graph Regression using Information bottleneck and Prototype-based method ( http://arxiv.org/abs/2409.10996v1 )

ライセンス: Link先を確認
Ali Royat, Seyed Mohamad Moghadas, Lesley De Cruz, Adrian Munteanu, (参考訳) ディープニューラルネットワーク(DNN)は、さまざまな領域で顕著なパフォーマンスを示しているが、時間グラフ回帰タスクへの応用は、解釈可能性に関する重大な課題に直面している。 この重要な問題は、DNNの本質的な複雑さとグラフ内の時空間パターンの両方に根ざしたものであり、革新的な解決策を求めている。 グラフニューラルネットワーク(GNN)の解釈可能性に関する懸念は、私たちの知る限りでは、DNNの理解を反映しているが、Information Bottleneck(IB)の原則とプロトタイプベースの手法を組み合わせることで、時間的GNNの解釈可能性に対処する顕著な研究は行われていない。 本研究は,時間グラフ回帰モデルの解釈可能性を高めるために,これらの手法を一意に統合する新しい手法を提案する。 In \underline{T}emporal \underline{R}egression task using \underline{I}nformation bottleneck and \underline{P}rototype (GINTRIP) framework, the first combined application of IB and prototype-based method for interpretable temporal graph task。 IB原則の適用性をグラフ回帰タスクに拡張する、相互情報(MI)に基づく新たな理論的境界を導出する。 我々は教師なしの補助的分類ヘッドを導入し、マルチタスク学習と多様な概念表現を育成し、モデルのボトルネックの解釈可能性を高める。 本モデルは実世界のトラフィックデータセットに基づいて評価され,予測精度と解釈可能性関連指標の両方において既存手法よりも優れていた。

Deep neural networks (DNNs) have demonstrated remarkable performance across various domains, yet their application to temporal graph regression tasks faces significant challenges regarding interpretability. This critical issue, rooted in the inherent complexity of both DNNs and underlying spatio-temporal patterns in the graph, calls for innovative solutions. While interpretability concerns in Graph Neural Networks (GNNs) mirror those of DNNs, to the best of our knowledge, no notable work has addressed the interpretability of temporal GNNs using a combination of Information Bottleneck (IB) principles and prototype-based methods. Our research introduces a novel approach that uniquely integrates these techniques to enhance the interpretability of temporal graph regression models. The key contributions of our work are threefold: We introduce the \underline{G}raph \underline{IN}terpretability in \underline{T}emporal \underline{R}egression task using \underline{I}nformation bottleneck and \underline{P}rototype (GINTRIP) framework, the first combined application of IB and prototype-based methods for interpretable temporal graph tasks. We derive a novel theoretical bound on mutual information (MI), extending the applicability of IB principles to graph regression tasks. We incorporate an unsupervised auxiliary classification head, fostering multi-task learning and diverse concept representation, which enhances the model bottleneck's interpretability. Our model is evaluated on real-world traffic datasets, outperforming existing methods in both forecasting accuracy and interpretability-related metrics.
翻訳日:2024-09-18 17:28:59 公開日:2024-09-17
# コンテキストリーチ:トランスフォーマーベースのQAモデルのロバスト性を評価する

Contextual Breach: Assessing the Robustness of Transformer-based QA Models ( http://arxiv.org/abs/2409.10997v1 )

ライセンス: Link先を確認
Asir Saadat, Nahian Ibn Asad, Md Farhan Ishmam, (参考訳) 文脈問合せモデルは、現実のシナリオでよく見られる、入力コンテキストに対する敵の摂動に影響を受けやすい。 これらの逆方向ノイズは、テキスト入力を歪ませることで、モデルの性能を劣化させるように設計されている。 我々は,SQuADデータセット上の5つの異なる強度レベルをそれぞれ適用し,異なる7種類の逆方向ノイズを文脈に組み込んだユニークなデータセットを提案する。 このロバスト性を定量化するために、様々なノイズタイプやレベルにわたってモデル性能を評価するための標準化された尺度を提供するロバストネス指標を利用する。 トランスフォーマーに基づく質問応答モデルの実験は、現実的なテキスト入力におけるモデルの性能に関する堅牢性脆弱性と重要な洞察を明らかにしている。

Contextual question-answering models are susceptible to adversarial perturbations to input context, commonly observed in real-world scenarios. These adversarial noises are designed to degrade the performance of the model by distorting the textual input. We introduce a unique dataset that incorporates seven distinct types of adversarial noise into the context, each applied at five different intensity levels on the SQuAD dataset. To quantify the robustness, we utilize robustness metrics providing a standardized measure for assessing model performance across varying noise types and levels. Experiments on transformer-based question-answering models reveal robustness vulnerabilities and important insights into the model's performance in realistic textual input.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 音声言語モデルの性能向上と学習指導

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models ( http://arxiv.org/abs/2409.10999v1 )

ライセンス: Link先を確認
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul, (参考訳) 音声言語モデルは、音声入力を理解し、音声認識や音声キャプションといった命令に基づいて様々なオーディオ関連タスクを実行することができる。 オーディオ言語モデルは、主に事前訓練されたオーディオエンコーダと大きな言語モデル(LLM)から初期化されている。 これらの事前訓練されたコンポーネントは、複数の言語をサポートするために開発されたが、オーディオ言語モデルは、主に英語のデータに基づいて訓練されており、英語の命令や英語の音声入力に限る可能性がある。 まず,タイ語を例として,未保存言語における既存の音声言語モデルの性能について検討する。 本稿では,多言語バックボーン上に構築されているにもかかわらず,低リソース言語に対して,音声言語モデルが言語間創発能力を示すことはないことを示す。 第2に、ターゲット言語と英語に最適化された音声言語モデルを開発するためのデータ混合について検討する。 さらに。 本稿では,音声理解と音声指示追従機能を単一の統一モデルに統合する。 本実験は,低リソース言語と英語の双方において,命令追従能力を向上させるためのデータ混合に関する知見を提供する。 我々のモデルであるTyphoon-Audioは、既存のオープンソースオーディオ言語モデルよりもかなり優れており、英語とタイ語の両方で最先端のGemini-1.5-Proに匹敵する。

Audio language models can understand audio inputs and perform a range of audio-related tasks based on instructions, such as speech recognition and audio captioning, where the instructions are usually textual prompts. Audio language models are mostly initialized from pre-trained audio encoders and large language models (LLMs). Although these pre-trained components were developed to support multiple languages, audio-language models are trained predominantly on English data, which may limit their usability to only English instructions or English speech inputs. First, this paper examines the performance of existing audio language models in an underserved language using Thai as an example. This paper demonstrates that, despite being built on multilingual backbones, audio language models do not exhibit cross-lingual emergent abilities to low-resource languages. Second, this paper studies data mixture for developing audio language models that are optimized for a target language as well as English. In addition. this paper integrates audio comprehension and speech instruction-following capabilities into a single unified model. Our experiments provide insights into data mixture for enhancing instruction-following capabilities in both a low-resource language and English. Our model, Typhoon-Audio, outperforms existing open-source audio language models by a considerable margin, and it is comparable to state-of-the-art Gemini-1.5-Pro in both English and Thai languages.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# Masked Audio Token Modeling and Semantic Knowledge Distillation を用いたシングルステージTS

Single-stage TTS with Masked Audio Token Modeling and Semantic Knowledge Distillation ( http://arxiv.org/abs/2409.11003v1 )

ライセンス: Link先を確認
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh, Xiaoyu Liu, Gautam Bhattacharya, (参考訳) 音声トークンモデリングは音声合成の強力なフレームワークとなり、セマンティックトークンを用いた2段階のアプローチが普及している。 本稿では,高品質な音声を単一段階で生成できる意味知識蒸留法を導入することにより,このプロセスを単純化することを目的とする。 提案モデルでは, 音声品質, 聞きやすさ, 話者類似性を, 単段ベースラインと比較して改善する。 2段階のシステムはいまだ知性に繋がるが、我々のモデルは、同等の音声品質を提供しながら、そのギャップを著しく狭めている。 これらの結果は、よりコンパクトで合理化されたアーキテクチャで効率よく高品質なTSを実現するためのシングルステージモデルの可能性を示している。

Audio token modeling has become a powerful framework for speech synthesis, with two-stage approaches employing semantic tokens remaining prevalent. In this paper, we aim to simplify this process by introducing a semantic knowledge distillation method that enables high-quality speech generation in a single stage. Our proposed model improves speech quality, intelligibility, and speaker similarity compared to a single-stage baseline. Although two-stage systems still lead in intelligibility, our model significantly narrows the gap while delivering comparable speech quality. These findings showcase the potential of single-stage models to achieve efficient, high-quality TTS with a more compact and streamlined architecture.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# CAST: 視覚言語モデルのためのクロスプラットフォームアライメント類似性テスト

CAST: Cross-modal Alignment Similarity Test for Vision Language Models ( http://arxiv.org/abs/2409.11007v1 )

ライセンス: Link先を確認
Gautier Dagan, Olga Loginova, Anil Batra, (参考訳) 視覚言語モデル(VLM)は通常、モデルのシーンに対する理解を評価する視覚質問回答(VQA)タスクで評価される。 優れたVQAパフォーマンスは、このモデルが視覚と言語の両方の入力を必要とする幅広いタスクでうまく機能することを示す証拠として捉えられている。 しかし、シーン認識型VQAは、入力バイアスを完全に捉えたり、モダリティ間のミスアライメントによって引き起こされる幻覚を評価できない。 そこで本研究では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。 このテストでは、2つのシーン間の類似点をテキストのみ、画像のみ、または両方で識別し、それらが生成する類似点の真偽を評価する。 比較すべき基礎的真実は存在しないため、この評価は客観的な精度ではなく、VLMが内部的に出力に一貫性があるかどうかに重点を置いている。 すべての自己整合モデルが有能あるいは正確であるわけではないが、すべての有能なVLMは自己整合である必要がある。

Vision Language Models (VLMs) are typically evaluated with Visual Question Answering (VQA) tasks which assess a model's understanding of scenes. Good VQA performance is taken as evidence that the model will perform well on a broader range of tasks that require both visual and language inputs. However, scene-aware VQA does not fully capture input biases or assess hallucinations caused by a misalignment between modalities. To address this, we propose a Cross-modal Alignment Similarity Test (CAST) to probe VLMs for self-consistency across modalities. This test involves asking the models to identify similarities between two scenes through text-only, image-only, or both and then assess the truthfulness of the similarities they generate. Since there is no ground-truth to compare against, this evaluation does not focus on objective accuracy but rather on whether VLMs are internally consistent in their outputs. We argue that while not all self-consistent models are capable or accurate, all capable VLMs must be self-consistent.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 高次元縦データに対する潜時混合効果モデル

Latent mixed-effect models for high-dimensional longitudinal data ( http://arxiv.org/abs/2409.11008v1 )

ライセンス: Link先を確認
Priscilla Ong, Manuel Haußmann, Otto Lönnroth, Harri Lähdesmäki, (参考訳) 縦データのモデリングは重要な課題ですが、難しい作業です。 これらのデータセットは高次元であり、非線形効果と時間変化の共変を含む。 ガウス過程 (GP) は時系列データをモデル化する能力から, 将来性のあるアプローチとして現れる。 しかし、長手データの特徴である豊富な共変量を完全に活用するためには、訓練と苦労がかかるため、実践者が効果的に利用することは困難である。 本研究では,線形混合モデル(LMM)と退化変分推論を利用して,VAEの条件付き事前条件を提供するとともに,スケーラブルで解釈可能な,同定可能なモデルであるLMM-VAEを提案する。 我々は,GPに基づく手法と理論的な関係を強調し,この手法の統一的な枠組みを提供する。 提案手法は,シミュレーションおよび実世界のデータセットにまたがる既存のアプローチと競合する。

Modelling longitudinal data is an important yet challenging task. These datasets can be high-dimensional, contain non-linear effects and time-varying covariates. Gaussian process (GP) prior-based variational autoencoders (VAEs) have emerged as a promising approach due to their ability to model time-series data. However, they are costly to train and struggle to fully exploit the rich covariates characteristic of longitudinal data, making them difficult for practitioners to use effectively. In this work, we leverage linear mixed models (LMMs) and amortized variational inference to provide conditional priors for VAEs, and propose LMM-VAE, a scalable, interpretable and identifiable model. We highlight theoretical connections between it and GP-based techniques, providing a unified framework for this class of methods. Our proposal performs competitively compared to existing approaches across simulated and real-world datasets.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# MM2Latent:マルチモーダル支援によるGANのテキスト・インタフェース画像生成と編集

MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance ( http://arxiv.org/abs/2409.11010v1 )

ライセンス: Link先を確認
Debin Meng, Christos Tzelepis, Ioannis Patras, Georgios Tzimiropoulos, (参考訳) 人物像の生成は画像生成領域においてホットなトピックであり、egマスク・ツー・フェイス・ジェネレーションとテキスト・ツー・フェイス・ジェネレーションである。 しかし、これらの単一モード生成法は、画像生成における制御性に欠ける。 可制御性は、様々なモダリティの利点と相補性を探求することによって向上することができる。 例えば、多様な属性やマスクを制御したり、空間的な位置を制御したりすることで、テキストの利点を活用できる。 マルチモーダル生成における現在の最先端の手法は、広範なハイパーパラメータ、推論段階における手動操作、トレーニングと推論中のかなりの計算要求、実際の画像を編集できないことによる制限に直面している。 本稿では,マルチモーダル画像生成と編集のための実践的フレームワークMM2Latentを提案する。 画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。 本稿では,StyleGANのw潜在空間にマルチモーダル入力をマッピングするために,マッピングネットワークをトレーニングする戦略を提案する。 提案する枠組み 1)推論段階でのハイパーパラメータと手動操作を除去する。 2)高速な推論速度を保証し、 3) 実際の画像の編集を可能にする。 広汎な実験により,本手法はGAN法や拡散法を超越したマルチモーダル画像生成において優れた性能を示すことが示された。 また、マルチモーダル画像編集にも有効であり、GAN法や拡散法よりも高速である。 コードは、https://github.com/Open-Debin/MM2Latentで公開しています。

Generating human portraits is a hot topic in the image generation area, e.g. mask-to-face generation and text-to-face generation. However, these unimodal generation methods lack controllability in image generation. Controllability can be enhanced by exploring the advantages and complementarities of various modalities. For instance, we can utilize the advantages of text in controlling diverse attributes and masks in controlling spatial locations. Current state-of-the-art methods in multimodal generation face limitations due to their reliance on extensive hyperparameters, manual operations during the inference stage, substantial computational demands during training and inference, or inability to edit real images. In this paper, we propose a practical framework - MM2Latent - for multimodal image generation and editing. We use StyleGAN2 as our image generator, FaRL for text encoding, and train an autoencoders for spatial modalities like mask, sketch and 3DMM. We propose a strategy that involves training a mapping network to map the multimodal input into the w latent space of StyleGAN. The proposed framework 1) eliminates hyperparameters and manual operations in the inference stage, 2) ensures fast inference speeds, and 3) enables the editing of real images. Extensive experiments demonstrate that our method exhibits superior performance in multimodal image generation, surpassing recent GAN- and diffusion-based methods. Also, it proves effective in multimodal image editing and is faster than GAN- and diffusion-based methods. We make the code publicly available at: https://github.com/Open-Debin/MM2Latent
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 3次元拡散モデルを用いた人工骨を用いたCTスキャンにおける大腿骨骨転移のセグメンテーション

Enhanced segmentation of femoral bone metastasis in CT scans of patients using synthetic data generation with 3D diffusion models ( http://arxiv.org/abs/2409.11011v1 )

ライセンス: Link先を確認
Emile Saillard, Aurélie Levillain, David Mitton, Jean-Baptiste Pialat, Cyrille Confavreux, Hélène Follet, Thomas Grenier, (参考訳) 目的: 骨転移は患者の生活の質に大きな影響を与え, サイズや位置の面では多様であり, セグメンテーションは複雑である。 手技の分節は時間を要するため、専門家の分節は操作者の多様性に左右されるため、CTスキャン上の骨転移の正確かつ再現可能な分節を得るのが困難な作業である。 材料と方法: ディープラーニング手法はセグメント化タスクを効率的に処理するが、新しいイメージを一般化するためには、専門的な手動セグメンテーションとともに大きなデータセットを必要とする。 本稿では,3D Denoising Diffusion Probabilistic Models (DDPM) を用いた自動データ合成パイプラインを提案する。 われわれは29の既存の病変と26の健康な大腿骨を用いて新しいリアルな合成転移画像を作成し,シミュレーションボリュームの多様性とリアリズムを改善するためにDDPMを訓練した。 また,手動セグメンテーションにおける操作者の変動について検討した。 結果: 5675新巻を作成した後, 実データと合成データを用いた3次元U-Netセグメンテーションモデルを用いて, セグメンテーション性能を比較した。 結論: 実験結果から, 合成データを用いたセグメンテーションモデルの方が実数量のみのセグメンテーションモデルよりも優れており, 操作者の変動を考慮した場合, 特に良好に機能することがわかった。

Purpose: Bone metastasis have a major impact on the quality of life of patients and they are diverse in terms of size and location, making their segmentation complex. Manual segmentation is time-consuming, and expert segmentations are subject to operator variability, which makes obtaining accurate and reproducible segmentations of bone metastasis on CT-scans a challenging yet important task to achieve. Materials and Methods: Deep learning methods tackle segmentation tasks efficiently but require large datasets along with expert manual segmentations to generalize on new images. We propose an automated data synthesis pipeline using 3D Denoising Diffusion Probabilistic Models (DDPM) to enchance the segmentation of femoral metastasis from CT-scan volumes of patients. We used 29 existing lesions along with 26 healthy femurs to create new realistic synthetic metastatic images, and trained a DDPM to improve the diversity and realism of the simulated volumes. We also investigated the operator variability on manual segmentation. Results: We created 5675 new volumes, then trained 3D U-Net segmentation models on real and synthetic data to compare segmentation performance, and we evaluated the performance of the models depending on the amount of synthetic data used in training. Conclusion: Our results showed that segmentation models trained with synthetic data outperformed those trained on real volumes only, and that those models perform especially well when considering operator variability.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# マンバの可能性を解き明かす:クロスモデル知識蒸留によるLiDAR3Dスパース検出器の強化

Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation ( http://arxiv.org/abs/2409.11018v1 )

ライセンス: Link先を確認
Rui Yu, Runkai Zhao, Jiagen Li, Qingsong Zhao, Songhao Zhu, HuaiCheng Yan, Meng Wang, (参考訳) 精度と速度のバランスをとるLiDARベースの3Dオブジェクト検出器は、自律走行とロボットナビゲーションシステムにおいてリアルタイムの認識を達成するために不可欠である。 点雲検出の精度を高めるため、視覚的理解のためのグローバルコンテキストの統合により、点雲が全体空間情報を把握できる能力が改善される。 しかし、既存のLiDAR検出モデルの多くは複雑な特徴変換と抽出プロセスに依存しており、リアルタイム性能の低下と資源消費の増大を招き、実用性が制限されている。 本研究では, FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。 高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。 具体的には、ダイナミックVoxel GroupとAdaptive Attention戦略をスパースバックボーンに統合し、効果的なグローバルな視覚コンテキストモデリングのためのスケール適応型教師モデルを作成する。 適応器の機能調整に続いて,潜時空間特徴監視とスパンヘッド蒸留を通じてトランスフォーマーからマンバへの知識伝達を行い,性能向上と効率的な学生モデルを実現する。 WaymoおよびnuScenesデータセット上でのフレームワークの評価を行い、現在のSoTA方式に比べて4倍のリソース消費削減と1~2倍の性能向上を実現した。

The LiDAR-based 3D object detector that strikes a balance between accuracy and speed is crucial for achieving real-time perception in autonomous driving and robotic navigation systems. To enhance the accuracy of point cloud detection, integrating global context for visual understanding improves the point clouds ability to grasp overall spatial information. However, many existing LiDAR detection models depend on intricate feature transformation and extraction processes, leading to poor real-time performance and high resource consumption, which limits their practical effectiveness. In this work, we propose a Faster LiDAR 3D object detection framework, called FASD, which implements heterogeneous model distillation by adaptively uniform cross-model voxel features. We aim to distill the transformer's capacity for high-performance sequence modeling into Mamba models with low FLOPs, achieving a significant improvement in accuracy through knowledge transfer. Specifically, Dynamic Voxel Group and Adaptive Attention strategies are integrated into the sparse backbone, creating a robust teacher model with scale-adaptive attention for effective global visual context modeling. Following feature alignment with the Adapter, we transfer knowledge from the Transformer to the Mamba through latent space feature supervision and span-head distillation, resulting in improved performance and an efficient student model. We evaluated the framework on the Waymo and nuScenes datasets, achieving a 4x reduction in resource consumption and a 1-2\% performance improvement over the current SoTA methods.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 任意の位相変換を応用するための量子プロトコル

A quantum protocol for applying arbitrary phase transformations ( http://arxiv.org/abs/2409.11020v1 )

ライセンス: Link先を確認
Siavash Davani, Falk Eilenberger, (参考訳) 状態 $|\phi\rangle=\sum\phi(x)\,|x\rangle$ を生成する作用素が与えられたとき、我々は $|\psi\rangle=\sum\psi(x)\,|x\rangle$ の任意の入力状態を $|\psi'\rangle=\sum\psi(x)\,e^{i\alpha|\phi(x)|^2}\,|x\rangle$ に変換する量子プロトコルを提案する。 したがって、このプロトコルは異なる位相プロファイルを適用できるという意味でプログラム可能であり、異なる$|\phi\rangle$状態を各実行時の入力パラメータとして選択することで、異なる位相プロファイルを適用できる。 したがって、量子コンピュータを介して信号に位相を適用する問題は、所望の位相プロファイルに対応する状態 $|\phi\rangle$ を初期化する問題に還元される。 さらに、ハミルトンシミュレーションにおいて、このプロトコルの応用の可能性についても論じる。

Given an operator that produces the state $|\phi\rangle=\sum\phi(x)\,|x\rangle$, we propose a quantum protocol that transforms any input state of the form $|\psi\rangle=\sum\psi(x)\,|x\rangle$ to $|\psi'\rangle=\sum\psi(x)\,e^{i\alpha|\phi(x)|^2}\,|x\rangle$. This protocol is thus programmable in the sense that one can use it to apply different phase profiles $e^{i\alpha|\phi(x)|^2}$ by choosing different $|\phi\rangle$ states as the input parameter at each run. Therefore, the problem of applying phases to a signal via a quantum computer is reduced to the problem of initializing a state $|\phi\rangle$ that corresponds to the desired phase profile. Furthermore, we discuss possible applications of this protocol, most importantly in Hamiltonian simulation.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# GEIC:大規模言語モデルを用いたユニバーサルおよび多言語名付きエンティティ認識

GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2409.11022v1 )

ライセンス: Link先を確認
Hanjun Luo, Yibing Jin, Xuecheng Liu, Tong Shang, Ruizhe Chen, Zuozhu Liu, (参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて従来の手法に取って代わっている。 それでも、名前付きエンティティ認識(NER)では、既存のLCMベースのメソッドはベースラインよりも性能が低く、計算リソースが大幅に必要であり、アプリケーションを制限する。 本稿では,NER タスクに対する LLM の事前知識と自己認識機構を活用するために設計された,ジェネレーションベース抽出とインコンテキスト分類(GEIC)の課題を紹介する。 次に,多言語GEICフレームワークであるCascadeNERを提案する。 CascadeNER はモデルカスケードを用いて2つの小パラメータ LLM を独立に抽出・分類し、精度を高めながら資源消費を減らす。 また、LLM用に特別に設計された最初のNERデータセットであるAnythingNERについても紹介する。 実験によると、CascadeNERはCrossNERやFewNERDなど、低リソースできめ細かいシナリオで最先端のパフォーマンスを実現している。 私たちの仕事は公然とアクセスできます。

Large Language Models (LLMs) have supplanted traditional methods in numerous natural language processing tasks. Nonetheless, in Named Entity Recognition (NER), existing LLM-based methods underperform compared to baselines and require significantly more computational resources, limiting their application. In this paper, we introduce the task of generation-based extraction and in-context classification (GEIC), designed to leverage LLMs' prior knowledge and self-attention mechanisms for NER tasks. We then propose CascadeNER, a universal and multilingual GEIC framework for few-shot and zero-shot NER. CascadeNER employs model cascading to utilize two small-parameter LLMs to extract and classify independently, reducing resource consumption while enhancing accuracy. We also introduce AnythingNER, the first NER dataset specifically designed for LLMs, including 8 languages, 155 entity types and a novel dynamic categorization system. Experiments show that CascadeNER achieves state-of-the-art performance on low-resource and fine-grained scenarios, including CrossNER and FewNERD. Our work is openly accessible.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# D2Vformer: 時間位置埋め込みに基づくフレキシブル時系列予測モデル

D2Vformer: A Flexible Time Series Prediction Model Based on Time Position Embedding ( http://arxiv.org/abs/2409.11024v1 )

ライセンス: Link先を確認
Xiaobao Song, Hao Wang, Liwei Deng, Yuxin He, Wenming Cao, Chi-Sing Leungc, (参考訳) 時間位置埋め込みは時間ステップの位置情報をキャプチャし、しばしば時系列モデルの予測能力を高める補助的な入力として機能する。 しかし、既存のモデルは、複雑な時間的位置情報を捕捉し、これらの埋め込みを効果的に活用する際の限界を示す。 これらの制約に対処するため,本稿ではD2Vformerと呼ばれる新しいモデルを提案する。 RNNやTransformerに依存する一般的な予測手法とは異なり、予測シーケンスが入力シーケンスに隣接していないシナリオや、その長さが動的に変化するシナリオを直接扱うことができる。 従来の方法と比較して、D2Vformerは間違いなくかなりの量のトレーニングリソースを節約する。 D2Vformerでは、Date2Vecモジュールはタイムスタンプ情報と特徴シーケンスを使用して時間位置の埋め込みを生成する。 その後、D2Vformerは、アテンション機構を利用して、入力シーケンスの埋め込みと予測シーケンスとの時間的位置の類似性を探索し、この類似性に基づいて予測を生成する新しい融合ブロックを導入する。 6つのデータセットに対する広範な実験により、Date2Vecは他の時間位置埋め込み法よりも優れており、D2Vformerは固定長および可変長の予測タスクにおいて最先端の手法を超越していることを示した。

Time position embeddings capture the positional information of time steps, often serving as auxiliary inputs to enhance the predictive capabilities of time series models. However, existing models exhibit limitations in capturing intricate time positional information and effectively utilizing these embeddings. To address these limitations, this paper proposes a novel model called D2Vformer. Unlike typical prediction methods that rely on RNNs or Transformers, this approach can directly handle scenarios where the predicted sequence is not adjacent to the input sequence or where its length dynamically changes. In comparison to conventional methods, D2Vformer undoubtedly saves a significant amount of training resources. In D2Vformer, the Date2Vec module uses the timestamp information and feature sequences to generate time position embeddings. Afterward, D2Vformer introduces a new fusion block that utilizes an attention mechanism to explore the similarity in time positions between the embeddings of the input sequence and the predicted sequence, thereby generating predictions based on this similarity. Through extensive experiments on six datasets, we demonstrate that Date2Vec outperforms other time position embedding methods, and D2Vformer surpasses state-of-the-art methods in both fixed-length and variable-length prediction tasks.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 大規模言語モデルのプロンプト難読化

Prompt Obfuscation for Large Language Models ( http://arxiv.org/abs/2409.11026v1 )

ライセンス: Link先を確認
David Pape, Thorsten Eisenhofer, Lea Schönherr, (参考訳) 基盤となる大きな言語モデル(LLM)によって実行されるタスクを記述するための詳細な命令を含むシステムプロンプトは、基礎モデルを最小限のオーバーヘッドでツールやサービスに簡単に変換できる。 ユーティリティに重大な影響を与えるため、ソフトウェア製品のコードと同様、知的財産と見なされることが多い。 しかし、プロンプトインジェクションを用いることで、抽出システムプロンプトを容易に得ることができる。 現在、システムプロンプトの盗難防止に有効な対策はなく、すべての保護機構をバイパスするプロンプトインジェクションを慎重に行うことで、すべての安全対策を回避することが可能であり、従来のシステムプロンプトの代替案を提案する。 本稿では,システム自体の実用性をほとんどオーバーヘッドなく維持しながら,システムプロンプトの抽出を防止するために,プロンプト難読化を導入する。 中心となる考え方は、同じ機能につながる元のシステムプロンプトの表現を見つけることであるが、難読化されたシステムプロンプトには、元のシステムプロンプトに関する結論を導き出すための情報が含まれていない。 機能を維持しながら難解なプロンプト表現を見つけるために最適化に基づく手法を実装した。 提案手法を評価するために,元のシステムプロンプトと難読化システムプロンプトを用いてシステムの性能を比較するため,8種類のメトリクスを調査し,難読化バージョンが元のシステムと常に同等であることを示す。 さらに3つの異なる難読化攻撃を行い、難読化プロンプトとLCM自体にアクセスしても、常に意味のある情報を抽出できないことを示す。 全体として,プロンプト難読化は知的財産の保護に有効な方法であり,元のシステムと同一の実用性を維持しつつも有効であることを示した。

System prompts that include detailed instructions to describe the task performed by the underlying large language model (LLM) can easily transform foundation models into tools and services with minimal overhead. Because of their crucial impact on the utility, they are often considered intellectual property, similar to the code of a software product. However, extracting system prompts is easily possible by using prompt injection. As of today, there is no effective countermeasure to prevent the stealing of system prompts and all safeguarding efforts could be evaded with carefully crafted prompt injections that bypass all protection mechanisms.In this work, we propose an alternative to conventional system prompts. We introduce prompt obfuscation to prevent the extraction of the system prompt while maintaining the utility of the system itself with only little overhead. The core idea is to find a representation of the original system prompt that leads to the same functionality, while the obfuscated system prompt does not contain any information that allows conclusions to be drawn about the original system prompt. We implement an optimization-based method to find an obfuscated prompt representation while maintaining the functionality. To evaluate our approach, we investigate eight different metrics to compare the performance of a system using the original and the obfuscated system prompts, and we show that the obfuscated version is constantly on par with the original one. We further perform three different deobfuscation attacks and show that with access to the obfuscated prompt and the LLM itself, we are not able to consistently extract meaningful information. Overall, we showed that prompt obfuscation can be an effective method to protect intellectual property while maintaining the same utility as the original system prompt.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# コンピュータビジョンを用いた自然界における数値性と非数値的視等級の分布の推定

Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision ( http://arxiv.org/abs/2409.11028v1 )

ライセンス: Link先を確認
Kuinan Hou, Marco Zorzi, Alberto Testolin, (参考訳) 人間は多くの動物種と共有しており、視覚的なシーンにおける物体の数を知覚し、概ね表す能力を持っている。 この能力は幼少期を通じて改善され、学習と開発が私たちの数感覚を形成する上で重要な役割を担っていることを示唆している。 この仮説は、深層学習に基づく計算的な研究によってさらに支持されており、様々な項目で画像の統計構造を学習するニューラルネットワークにおいて、数奇性知覚が自然に現れることが示されている。 しかしながら、ニューラルネットワークモデルは通常、自然環境の統計的構造を忠実に反映しない合成データセットを使用して訓練される。 本研究では、コンピュータビジョンアルゴリズムの最近の進歩を利用して、日常の状況においてオブジェクトを描写した何千もの実画像を含む大規模データセットにおいて、特異度と非数値等級の分布を推定できる独自のパイプラインを設計、実装している。 自然の視覚的な場面では,異なる数値の出現頻度は法則分布に従い,数値が累積領域や凸殻といった多くの連続的な大きさと強く相関していることが示される。

Humans share with many animal species the ability to perceive and approximately represent the number of objects in visual scenes. This ability improves throughout childhood, suggesting that learning and development play a key role in shaping our number sense. This hypothesis is further supported by computational investigations based on deep learning, which have shown that numerosity perception can spontaneously emerge in neural networks that learn the statistical structure of images with a varying number of items. However, neural network models are usually trained using synthetic datasets that might not faithfully reflect the statistical structure of natural environments. In this work, we exploit recent advances in computer vision algorithms to design and implement an original pipeline that can be used to estimate the distribution of numerosity and non-numerical magnitudes in large-scale datasets containing thousands of real images depicting objects in daily life situations. We show that in natural visual scenes the frequency of appearance of different numerosities follows a power law distribution and that numerosity is strongly correlated with many continuous magnitudes, such as cumulative areas and convex hull, which might explain why numerosity judgements are often influenced by these non-numerical cues.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 階層的ナラティブ分析 - 生成AIの知覚を明らかにする

Hierarchical Narrative Analysis: Unraveling Perceptions of Generative AI ( http://arxiv.org/abs/2409.11032v1 )

ライセンス: Link先を確認
Riona Matsuoka, Hiroki Matsumoto, Takahiro Yoshida, Tomohiro Watanabe, Ryoma Kondo, Ryohei Hisano, (参考訳) 文章は著者の視点を反映しており、文学の徹底的な分析が人文科学や社会科学などの分野における重要な研究手法となっている。 しかし、感情分析やトピックモデリングのような従来のテキストマイニング技術は、より深い議論的パターンを示す階層的な物語構造を捉える能力に制限がある。 このギャップに対処するために,大規模言語モデル(LLM)を利用して,これらの構造を階層的な枠組みに抽出・整理する手法を提案する。 我々は,日本の文化庁が収集した生成AIに関する世論を分析し,サポーターや批評家の物語と比較することによって,このアプローチを検証した。 我々の分析は、生成的AIに対する多様な意見に影響を与える要因のより明確な可視化を提供し、合意と不一致の構造に関する深い洞察を提供する。

Written texts reflect an author's perspective, making the thorough analysis of literature a key research method in fields such as the humanities and social sciences. However, conventional text mining techniques like sentiment analysis and topic modeling are limited in their ability to capture the hierarchical narrative structures that reveal deeper argumentative patterns. To address this gap, we propose a method that leverages large language models (LLMs) to extract and organize these structures into a hierarchical framework. We validate this approach by analyzing public opinions on generative AI collected by Japan's Agency for Cultural Affairs, comparing the narratives of supporters and critics. Our analysis provides clearer visualization of the factors influencing divergent opinions on generative AI, offering deeper insights into the structures of agreement and disagreement.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# 冷たいRydberg量子気体中の動的トポロジカル相転移

Dynamical topological phase transition in cold Rydberg quantum gases ( http://arxiv.org/abs/2409.11035v1 )

ライセンス: Link先を確認
Jun Zhang, Ya-Jun Wang, Bang Liu, Li-Hua Zhang, Zheng-Yuan Zhang, Shi-Yao Shao, Qing Li, Han-Chao Chen, Yu Ma, Tian-Yu Han, Qi-Feng Wang, Jia-Dou Nan, Yi-Ming Yin, Dong-Yang Zhu, Bao-Sen Shi, Dong-Sheng Ding, (参考訳) 相転移の研究は、多体系が異なる条件下でどのように振る舞うかについての洞察を与え、対称性の破れ、臨界現象、位相的性質を理解することを可能にする。 高励起リドバーグ原子における強い長距離相互作用は、エキゾチックな創発的位相を探索するための多目的なプラットフォームを作る。 本稿では,マイクロ波駆動下での低温リドバーグ原子ガス中の動的トポロジカル相転移の実験的観察について報告する。 プローブ強度を変化させながら系の透過曲線を測定することにより、臨界点を横切ると、異なる巻数で特徴づけられる複雑なヒステリシス軌道を観測する。 曲がり角が反転する遷移状態において、これらのヒステリシス軌道の位相はより非自明な構造へと進化する。 トポロジカルな軌道は騒音に対して頑丈であることが示され、動的条件下での剛性を確認する。 これらの知見は、多体系における複雑な動的トポロジカル位相の出現の洞察に寄与する。

Study of phase transitions provide insights into how a many-body system behaves under different conditions, enabling us to understand the symmetry breaking, critical phenomena, and topological properties. Strong long-range interactions in highly excited Rydberg atoms create a versatile platform for exploring exotic emergent topological phases. Here, we report the experimental observation of dynamical topological phase transitions in cold Rydberg atomic gases under a microwave field driving. By measuring the system transmission curves while varying the probe intensity, we observe complex hysteresis trajectories characterized by distinct winding numbers as they cross the critical point. At the transition state, where the winding number flips, the topology of these hysteresis trajectories evolves into more non-trivial structures. The topological trajectories are shown to be robust against noise, confirming their rigidity in dynamic conditions. These findings contribute to the insights of emergence of complex dynamical topological phases in many-body systems.
翻訳日:2024-09-18 17:18:54 公開日:2024-09-17
# Cobotのノーコードプログラミングに向けて:会話型プログラミングのための大規模コードモデルによるコード合成実験

Towards No-Code Programming of Cobots: Experiments with Code Synthesis by Large Code Models for Conversational Programming ( http://arxiv.org/abs/2409.11041v1 )

ライセンス: Link先を確認
Kranti Chalamalasetti, Sherzod Hakimov, David Schlangen, (参考訳) 最近、家庭環境におけるロボットの研究が盛んに行われているが、現在、ほとんどのロボットが店の床で発見されており、人間とロボットの相互作用はそこで起きている。 組立ライン上で人間と一緒に働くように設計された「協調ロボット」(コボット)は、伝統的に専門家のプログラミングを必要とし、変更を行う能力や手動指導を制限し、その結果のプログラムの表現力を制限する。 これらの制約に対処するために,Large Language Models (LLMs) と,特に会話コード生成のためのコンテキスト内学習能力について検討する。 最初のステップとして、業界アセンブリのシナリオをシミュレートするための基盤となるように設計された2Dビルディングタスクである‘反復アセンブリタスク’であるRATSを定義します。 このタスクでは、‘プログラマ’は、自然言語を使って、あるアセンブリをどのように構築するかについて、コボットに指示する。 ターゲット構造と、さまざまな例示(ヒューマンライサード、テンプレートベース、モデル生成)と、サンプルコードとをペアリングするデータセットを作成します。 そこで本研究では,テキスト内例から,このようなコードを合成するための最先端のLLMの能力を体系的に評価する。 シミュレーション環境での評価では,LLMは正確な「第1次コード」を生成することができるが,「高次コード」を生成する問題(関数やループの使用など)がある。

While there has been a lot of research recently on robots in household environments, at the present time, most robots in existence can be found on shop floors, and most interactions between humans and robots happen there. ``Collaborative robots'' (cobots) designed to work alongside humans on assembly lines traditionally require expert programming, limiting ability to make changes, or manual guidance, limiting expressivity of the resulting programs. To address these limitations, we explore using Large Language Models (LLMs), and in particular, their abilities of doing in-context learning, for conversational code generation. As a first step, we define RATS, the ``Repetitive Assembly Task'', a 2D building task designed to lay the foundation for simulating industry assembly scenarios. In this task, a `programmer' instructs a cobot, using natural language, on how a certain assembly is to be built; that is, the programmer induces a program, through natural language. We create a dataset that pairs target structures with various example instructions (human-authored, template-based, and model-generated) and example code. With this, we systematically evaluate the capabilities of state-of-the-art LLMs for synthesising this kind of code, given in-context examples. Evaluating in a simulated environment, we find that LLMs are capable of generating accurate `first order code' (instruction sequences), but have problems producing `higher-order code' (abstractions such as functions, or use of loops).
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# 2次元イジング場理論のクロスキャップ状態と双対性

Crosscap states and duality of Ising field theory in two dimensions ( http://arxiv.org/abs/2409.11046v1 )

ライセンス: Link先を確認
Yueshui Zhang, Ying-Hai Wu, Lei Wang, Hong-Hao Tu, (参考訳) 2次元イジング場理論に対して、2つの異なるクロスキャップ状態を提案する。 これらの2つのクロスキャップ状態は、反ポッド点におけるイジングスピンまたは双対スピン(ドメイン壁)を同定し、クラマース・ワニエ双対変換を介して関連があることが示されている。 我々はマヨラナ自由場表現を導出し、ボゾン化法を拡張して、異なるクロスキャップ境界を持つ2次元イジング共形場理論(CFT)の相関関数を計算する。 さらに、2次元イジング場理論において、クラインボトルエントロピーを普遍的スケーリング関数として計算する共形摂動理論(Phys. Rev. 130, 151602 (2023))を開発した。 この研究で発展した形式主義は、関連する作用素によって摂動される他の多くの2次元 CFT に適用できる。

We propose two distinct crosscap states for the two-dimensional (2D) Ising field theory. These two crosscap states, identifying Ising spins or dual spins (domain walls) at antipodal points, are shown to be related via the Kramers-Wannier duality transformation. We derive their Majorana free field representations and extend bosonization techniques to calculate correlation functions of the 2D Ising conformal field theory (CFT) with different crosscap boundaries. We further develop a conformal perturbation theory to calculate the Klein bottle entropy as a universal scaling function [Phys. Rev. Lett. 130, 151602 (2023)] in the 2D Ising field theory. The formalism developed in this work is applicable to many other 2D CFTs perturbed by relevant operators.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# 超高精細画像認識のためのダウンサンプリング層間適応器

Down-Sampling Inter-Layer Adapter for Parameter and Computation Efficient Ultra-Fine-Grained Image Recognition ( http://arxiv.org/abs/2409.11051v1 )

ライセンス: Link先を確認
Edwin Arkel Rios, Femiloye Oyerinde, Min-Chun Hu, Bo-Cheng Lai, (参考訳) 超微細粒画像認識(UFGIR)は、微細粒画像認識(FGIR)における種レベルでの分類とは対照的に、同一種内の品種を区別するなど、クラス間で非常に小さな差異を持つ物体を分類する。 この作業の難しさは、カテゴリ毎にサンプルが不足しているために悪化している。 これらの課題に対処するために、バックボーンパラメータが凍結され、追加モジュールの小さなセットのみを微調整するパラメータ効率の高い設定で、ダウンサンプリング層間アダプタを採用する新しいアプローチを導入する。 ダブルブランチのダウンサンプリングを統合することで,パラメータ数と浮動小数点演算(FLOP)を著しく削減し,本手法を効率的にする。 10個のデータセットに対する総合的な実験により,本手法は,資源制約環境における実用的応用の可能性を強調し,優れた精度・コスト性能が得られることを示した。 特に,本手法は,パラメータ効率設定における他の手法と比較して,平均精度を少なくとも6.8 %向上させるとともに,現在のUFGIR法に比べて訓練可能なパラメータを少なくとも123 倍少なくし,FLOPを他の手法と比較して平均30 %削減する。

Ultra-fine-grained image recognition (UFGIR) categorizes objects with extremely small differences between classes, such as distinguishing between cultivars within the same species, as opposed to species-level classification in fine-grained image recognition (FGIR). The difficulty of this task is exacerbated due to the scarcity of samples per category. To tackle these challenges we introduce a novel approach employing down-sampling inter-layer adapters in a parameter-efficient setting, where the backbone parameters are frozen and we only fine-tune a small set of additional modules. By integrating dual-branch down-sampling, we significantly reduce the number of parameters and floating-point operations (FLOPs) required, making our method highly efficient. Comprehensive experiments on ten datasets demonstrate that our approach obtains outstanding accuracy-cost performance, highlighting its potential for practical applications in resource-constrained environments. In particular, our method increases the average accuracy by at least 6.8\% compared to other methods in the parameter-efficient setting while requiring at least 123x less trainable parameters compared to current state-of-the-art UFGIR methods and reducing the FLOPs by 30\% in average compared to other methods.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# 不整合二元分類器に対する論理的アラーム

A logical alarm for misaligned binary classifiers ( http://arxiv.org/abs/2409.11052v1 )

ライセンス: Link先を確認
Andrés Corrada-Emmanuel, Ilya Parker, Ramesh Bharadwaj, (参考訳) 2人のエージェントが彼らの決定に異を唱えるなら、どちらも正しいとは思えないかもしれない。 この直感は、二分分類タスクを実行したエージェントを評価するために形式化されている。 共同テストに関する合意や意見の相違により, 論理的に応答に整合したグループ評価が確立できる。 これは、二項応答子のすべての評価によって普遍的に従わなければならない公理(代数的関係)の集合を確立することによってなされる。 N = 1, 2$ の公理は、完全に論理的なアラームを構築するために使用され、少なくとも1つのアンサンブルメンバーがラベルのないデータのみを使用して誤動作していることを証明できる。 このアプローチと形式的ソフトウェア検証の類似点と,近年の安全保証AIの課題に対する実用性について論じる。

If two agents disagree in their decisions, we may suspect they are not both correct. This intuition is formalized for evaluating agents that have carried out a binary classification task. Their agreements and disagreements on a joint test allow us to establish the only group evaluations logically consistent with their responses. This is done by establishing a set of axioms (algebraic relations) that must be universally obeyed by all evaluations of binary responders. A complete set of such axioms are possible for each ensemble of size N. The axioms for $N = 1, 2$ are used to construct a fully logical alarm - one that can prove that at least one ensemble member is malfunctioning using only unlabeled data. The similarities of this approach to formal software verification and its utility for recent agendas of safe guaranteed AI are discussed.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# 量子命令型大規模言語モデルの総合的評価:最大405Bまでの実験的検討

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B ( http://arxiv.org/abs/2409.11055v1 )

ライセンス: Link先を確認
Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon, (参考訳) 従来の研究では、パープレキシティやいくつかの基本的な知識タスクや古いデータセットといった限られたメトリクスを使用して、定量化したLLMを評価してきた。 さらに、Llama 3.1のような405Bまでの大規模モデルも十分に検討されていない。 本稿では、7Bから405Bまでのモデルにおいて、様々な量子化手法(GPTQ, AWQ, SmoothQuant, FP8)における命令調整LDMの性能を評価する。 13のベンチマークを用いて、コモンセンスQ&A、知識と言語理解、指示追従、幻覚検出、数学、対話の6つのタスクタイプのパフォーマンスを評価する。 その結果,(1)より大型のLDMを小型のFP16 LLMと同等の大きさに定量化することは,幻覚検出や命令以外のほとんどのベンチマークにおいて,一般的には性能が向上すること,(2)重みのみの手法が大きなモデルにおいて良好な結果をもたらすこと,(3)タスクの難易度が量子化による精度劣化に大きく影響しないこと,(4)MT-Bench評価手法は近年の高性能LCMにおいて,識別力に限界があること,などが判明した。

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q\&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# 大規模言語モデルは多言語学習者にとって良いもの : LLMが言語横断プロンプトと出会うとき

Large Language Models are Good Multi-lingual Learners : When LLMs Meet Cross-lingual Prompts ( http://arxiv.org/abs/2409.11056v1 )

ライセンス: Link先を確認
Teng Wang, Zhenqi He, Wing-Yin Yu, Xiaojin Fu, Xiongwei Han, (参考訳) LLM(Large Language Models)の出現により、現実世界のアプリケーションのためのルールベースのデータ生成がよりアクセスしやすくなってきた。 自然言語の本質的な曖昧さとルールセットの複雑さ、特に長い文脈では、LLMは特定の規則に従うのにしばしば苦労し、少なくとも1つを省略する。 長大かつ複雑な文脈におけるLLMの推論と理解を高めるため,MLPromptという,LLMが他の言語に従おうとする誤りを自動で翻訳するマルチ言語プロンプトを提案する。 さまざまなタスクにわたる公開データセットの実験結果から、MLPromptは、Chain of Thought、Tree of Thought、Self-Consistencyといった最先端のプロンプト手法より優れていることが示されている。 さらに,MLPromptを構造化データ生成の自動チェック機構に統合するフレームワークと,テキストからMIPインスタンスへの特定のケーススタディを導入する。 さらに,テキストからSQLまでのフレームワークを拡張して,構造化データ合成に向けた生成能力を実証する。

With the advent of Large Language Models (LLMs), generating rule-based data for real-world applications has become more accessible. Due to the inherent ambiguity of natural language and the complexity of rule sets, especially in long contexts, LLMs often struggle to follow all specified rules, frequently omitting at least one. To enhance the reasoning and understanding of LLMs on long and complex contexts, we propose a novel prompting strategy Multi-Lingual Prompt, namely MLPrompt, which automatically translates the error-prone rule that an LLM struggles to follow into another language, thus drawing greater attention to it. Experimental results on public datasets across various tasks have shown MLPrompt can outperform state-of-the-art prompting methods such as Chain of Thought, Tree of Thought, and Self-Consistency. Additionally, we introduce a framework integrating MLPrompt with an auto-checking mechanism for structured data generation, with a specific case study in text-to-MIP instances. Further, we extend the proposed framework for text-to-SQL to demonstrate its generation ability towards structured data synthesis.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# KVPruner: 高速かつメモリ効率の良い大規模言語モデルのための構造解析

KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models ( http://arxiv.org/abs/2409.11057v1 )

ライセンス: Link先を確認
Bo Lv, Quan Zhou, Xuanang Ding, Yan Wang, Zeming Ma, (参考訳) キー値(KV)キャッシュに関連するボトルネックは、大規模言語モデルの推論プロセスにおいて大きな課題となる。 深度プルーニングは推論を加速するが、広範囲な回復訓練が必要であり、最大2週間を要する。 一方、ワイドプルーニングは性能の多くを保ちながら、若干の速度向上をもたらす。 これらの課題に対処するため、我々はKVPrunerを提案し、性能を維持しながらモデル効率を向上させる。 提案手法は,グローバルなパープレキシティ分析を用いて,ブロックごとの重要度を判定し,ブロック内の非必要KVチャネルを創出するための複数の戦略を提供する。 オリジナルのモデルと比較して、KVPrunerはランタイムメモリ使用量を50%削減し、スループットを35%以上向上させた。 さらに本手法では,性能を回復するために,小さなデータセット上でのLORAの微調整を2時間しか必要としない。

The bottleneck associated with the key-value(KV) cache presents a significant challenge during the inference processes of large language models. While depth pruning accelerates inference, it requires extensive recovery training, which can take up to two weeks. On the other hand, width pruning retains much of the performance but offers slight speed gains. To tackle these challenges, we propose KVPruner to improve model efficiency while maintaining performance. Our method uses global perplexity-based analysis to determine the importance ratio for each block and provides multiple strategies to prune non-essential KV channels within blocks. Compared to the original model, KVPruner reduces runtime memory usage by 50% and boosts throughput by over 35%. Additionally, our method requires only two hours of LoRA fine-tuning on small datasets to recover most of the performance.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# マルチUAV探査のためのオンラインアクター・クリティカル強化学習

On-policy Actor-Critic Reinforcement Learning for Multi-UAV Exploration ( http://arxiv.org/abs/2409.11058v1 )

ライセンス: Link先を確認
Ali Moltajaei Farid, Jafar Roshanian, Malek Mouhoub, (参考訳) 無人航空機(UAV)は、精密農業、捜索救助、リモートセンシングなど、様々な分野で人気が高まっている。 しかし、未知の環境を探索することは依然として重要な課題である。 本研究の目的は,政策最適化(PPO)と政治強化学習(RL)を併用して,複数のUAVによる関心領域の「2次元」を探索することにある。 UAVは障害物同士の衝突を回避し、分散した方法で探査を行う。 提案手法は、深層畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)を用いて、UAVと既にカバーされている領域を特定することを含む。 ポリシー勾配 (PG) や非同期・アドバンスト・アクター・クリティカル (A3C) といった他のRL手法と比較して, シミュレーションの結果は提案したPPO手法の優位性を示している。 また, LSTMとCNNを併用することで, 探索を改善できることが示唆された。 提案手法は未知の環境で動作しなければならないため,提案手法は訓練された地図と異なる新たな地図が得られた場合に適用可能であることを示した。 最後に、ハイパーパラメータのチューニングが全体的なパフォーマンスにどのように影響するかを示した。

Unmanned aerial vehicles (UAVs) have become increasingly popular in various fields, including precision agriculture, search and rescue, and remote sensing. However, exploring unknown environments remains a significant challenge. This study aims to address this challenge by utilizing on-policy Reinforcement Learning (RL) with Proximal Policy Optimization (PPO) to explore the {two dimensional} area of interest with multiple UAVs. The UAVs will avoid collision with obstacles and each other and do the exploration in a distributed manner. The proposed solution includes actor-critic networks using deep convolutional neural networks {(CNN)} and long short-term memory (LSTM) for identifying the UAVs and areas that have already been covered. Compared to other RL techniques, such as policy gradient (PG) and asynchronous advantage actor-critic (A3C), the simulation results demonstrate the superiority of the proposed PPO approach. Also, the results show that combining LSTM with CNN in critic can improve exploration. Since the proposed exploration has to work in unknown environments, the results showed that the proposed setup can complete the coverage when we have new maps that differ from the trained maps. Finally, we showed how tuning hyper parameters may affect the overall performance.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# OneEncoder: モダリティの進行的アライメントのための軽量フレームワーク

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities ( http://arxiv.org/abs/2409.11059v1 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, (参考訳) クロスモーダルアライメント 学習は、テキスト、画像、オーディオ、ビデオなどのさまざまなモダリティからの情報を統合して、統一されたモデルを作成する。 このアプローチは共有表現を開発し、モダリティ間の相関関係を学習し、視覚的質問応答や視覚的コンテンツ分析などの応用を可能にする。 現在のテクニックは、大規模なモダリティ固有のエンコーダに依存しており、広範囲な整列したデータセット(例えば、テキストイメージ、テキストオーディオ、画像オーディオ)をスクラッチから微調整またはトレーニングする必要がある。 このアプローチには制限があります。 (i)大規模なエンコーダを広範囲のデータセットで訓練する必要があるため、非常に高価である。 二 整列した大データセットの取得は困難であり、 (iii)新しいモダリティを追加するには、これらのモダリティを組み込むためにフレームワーク全体をトレーニングする必要がある。 これらの問題に対処するために、我々は4つのモダリティ(画像、テキスト、オーディオ、ビデオ)を段階的に表現し整列する軽量フレームワークであるOneEncoderを提案する。 当初私たちは、画像とテキストのモダリティを調整するために、軽量のユニバーサルプロジェクションモジュール(UP)をトレーニングしました。 そして、事前訓練されたUPを凍結し、将来的なモダリティを、すでに整列しているものへ徐々に調整する。 OneEncoderは、軽量な設計のため、膨大なアライメントデータセットが利用できないシナリオであっても、効率的かつ費用対効果で運用する。 小さなペアデータセットに基づいてトレーニングされ、分類、クエリ、視覚的な質問応答といったタスクにおいて、大きなデータセットや特殊なエンコーダに依存するメソッドを超越したパフォーマンスを示す。

Cross-modal alignment Learning integrates information from different modalities like text, image, audio and video to create unified models. This approach develops shared representations and learns correlations between modalities, enabling applications such as visual question answering and audiovisual content analysis. Current techniques rely on large modality-specific encoders, necessitating fine-tuning or training from scratch on vast aligned datasets (e.g., text-image, text-audio, image-audio). This approach has limitations: (i) it is very expensive due to the need for training large encoders on extensive datasets, (ii) acquiring aligned large paired datasets is challenging, and (iii) adding new modalities requires retraining the entire framework to incorporate these modalities. To address these issues, we propose OneEncoder, a lightweight framework that progressively represents and aligns four modalities (image, text, audio, video). Initially, we train a lightweight Universal Projection module (UP) to align image and text modalities. Then, we freeze the pretrained UP and progressively align future modalities to those already aligned. OneEncoder operates efficiently and cost-effectively, even in scenarios where vast aligned datasets are unavailable, due to its lightweight design. Trained on small paired datasets, it shows strong performance in tasks like classification, querying, and visual question answering, surpassing methods that rely on large datasets and specialized encoders.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# HMF : 動的術中血圧予測のためのハイブリッド多要素フレームワーク

HMF: A Hybrid Multi-Factor Framework for Dynamic Intraoperative Hypotension Prediction ( http://arxiv.org/abs/2409.11064v1 )

ライセンス: Link先を確認
Mingyue Cheng, Jintao Zhang, Zhiding Liu, Chunli Liu, Yanhu Xie, (参考訳) 平均動脈圧(MAP)を用いた術中低血圧(IOH)予測は,術中患者の予後に重要な意味を持つ重要な研究領域である。 しかし、既存のアプローチは、生理学的信号の動的な性質を無視する静的なモデリングパラダイムを主に採用している。 本稿では,血圧予測タスクとしてIOH予測を再構成するHMF(Hybrid Multi-Factor)フレームワークを提案する。 本フレームワークでは,MAP系列の時間的進化をパッチベースの入力表現によって効果的に捉えるために,Transformerエンコーダを活用し,入力生理的系列を正確な解析のために情報的パッチに分割する。 生理的系列における分布シフトの課題に対処するために,本研究では,(1)対称性の正規化と非正規化プロセスが,統計特性における分布のドリフトを緩和し,様々な条件にまたがるモデルのロバスト性を確保すること,(2)入力系列を傾向と季節成分に分解し,固有配列依存のより正確なモデリングを可能にするシーケンス分解という,2つの重要なイノベーションを取り入れた。 2つの実世界のデータセットで実施された大規模な実験は、競合するベースラインと比較して、我々のアプローチの優れた性能を示しており、特に正確なIOH予測に不可欠な入力系列の微妙な変動を捉えている。

Intraoperative hypotension (IOH) prediction using Mean Arterial Pressure (MAP) is a critical research area with significant implications for patient outcomes during surgery. However, existing approaches predominantly employ static modeling paradigms that overlook the dynamic nature of physiological signals. In this paper, we introduce a novel Hybrid Multi-Factor (HMF) framework that reformulates IOH prediction as a blood pressure forecasting task. Our framework leverages a Transformer encoder, specifically designed to effectively capture the temporal evolution of MAP series through a patch-based input representation, which segments the input physiological series into informative patches for accurate analysis. To address the challenges of distribution shift in physiological series, our approach incorporates two key innovations: (1) Symmetric normalization and de-normalization processes help mitigate distributional drift in statistical properties, thereby ensuring the model's robustness across varying conditions, and (2) Sequence decomposition, which disaggregates the input series into trend and seasonal components, allowing for a more precise modeling of inherent sequence dependencies. Extensive experiments conducted on two real-world datasets demonstrate the superior performance of our approach compared to competitive baselines, particularly in capturing the nuanced variations in input series that are crucial for accurate IOH prediction.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# MLIRコンパイラにおけるコード最適化のための強化学習環境

A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler ( http://arxiv.org/abs/2409.11068v1 )

ライセンス: Link先を確認
Nazim Bendib, Iheb Nassim Aouadj, Riyadh Baghdadi, (参考訳) コード最適化は、コードパフォーマンスの向上を目的とした重要なタスクである。 しかし、このプロセスは面倒で複雑であり、自動コード最適化技術の必要性を強調している。 機械学習技術である強化学習(RL)は、そのような複雑な最適化問題に対処するための有望なアプローチとして登場した。 本稿では,MLIRコンパイラ研究の促進を目的とした,MLIRコンパイラの最初のRL環境について紹介する。 また、より単純な作用部分空間のカルテシアン積として作用空間の新たな定式化を提案し、より効率的かつ効率的な最適化を可能にした。 実験の結果,提案した環境はMLIR操作を効果的に最適化することができ,TensorFlowに匹敵する性能を示し,コンパイラフレームワークにおけるRLベースの最適化の可能性を強調した。

Code optimization is a crucial task aimed at enhancing code performance. However, this process is often tedious and complex, highlighting the necessity for automatic code optimization techniques. Reinforcement Learning (RL), a machine learning technique, has emerged as a promising approach for tackling such complex optimization problems. In this project, we introduce the first RL environment for the MLIR compiler, dedicated to facilitating MLIR compiler research, and enabling automatic code optimization using Multi-Action Reinforcement Learning. We also propose a novel formulation of the action space as a Cartesian product of simpler action subspaces, enabling more efficient and effective optimizations. Experimental results demonstrate that our proposed environment allows for an effective optimization of MLIR operations, and yields comparable performance to TensorFlow, surpassing it in multiple cases, highlighting the potential of RL-based optimization in compiler frameworks.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# ParquetデータセットフォーマットとMixed Precisionトレーニングを用いた回帰アルゴリズムによる機械学習カーボンフットプリントの改善

Improve Machine Learning carbon footprint using Parquet dataset format and Mixed Precision training for regression algorithms ( http://arxiv.org/abs/2409.11071v1 )

ライセンス: Link先を確認
Andrew Antonopoulos, (参考訳) 本研究は、私の修士論文の第2部であり、回帰MLモデルをトレーニングしながら、Comma-Separated-Values(CSV)とparquetデータセットフォーマットをデフォルト浮動小数点(32bit)とNvidia混合精度(16bit,32bit)と比較した。 分類テストと分析に特化した第1部と同じカスタムPCが実験のために構築され、バッチサイズ、ニューロン、エポックなどの異なるMLハイパーパラメータがDeep Neural Networks (DNN)を構築するために選ばれた。 DNNのデフォルトのハイパーパラメータ値によるベンチマークテストが参照として使用され、実験では異なる設定の組み合わせが使用された。 結果はExcelに記録され、グループ間の平均値を計算し、グラフとテーブルを用いて比較するために記述統計が選択された。 その結果, 混合精度と特定のハイパーパラメータを併用した場合, 有意差は認められなかった。 ベンチマークと比較すると、回帰モデルの最適化は7ワットから11ワットまでの消費電力を削減した。 その結果,混合精度は消費電力の向上に寄与するが,過度パラメータを慎重に検討する必要があることがわかった。 多数のバッチサイズとニューロンが電力消費に悪影響を及ぼす。 しかし,本研究では,ANOVAとTテストの関係を比較するために,推論統計(特にANOVAとTテスト)を必要とした。 その結果, 回帰試験における平均値と受理H0との間に有意な有意な有意差は認められなかった。 したがって、異なるML技術とParquetデータセットフォーマットを選択することで、計算消費電力と全体のML炭素フットプリントを改善することはできない。 しかし、GPUのクラスタによるより広範な実装は、本質的な要因であり、統計分析の結果を変える可能性があるため、サンプルサイズを著しく増大させることができる。

This study was the 2nd part of my dissertation for my master degree and compared the power consumption using the Comma-Separated-Values (CSV) and parquet dataset format with the default floating point (32bit) and Nvidia mixed precision (16bit and 32bit) while training a regression ML model. The same custom PC as per the 1st part, which was dedicated to the classification testing and analysis, was built to perform the experiments, and different ML hyper-parameters, such as batch size, neurons, and epochs, were chosen to build Deep Neural Networks (DNN). A benchmarking test with default hyper-parameter values for the DNN was used as a reference, while the experiments used a combination of different settings. The results were recorded in Excel, and descriptive statistics were chosen to calculate the mean between the groups and compare them using graphs and tables. The outcome was positive when using mixed precision combined with specific hyper-parameters. Compared to the benchmarking, optimising the regression models reduced the power consumption between 7 and 11 Watts. The regression results show that while mixed precision can help improve power consumption, we must carefully consider the hyper-parameters. A high number of batch sizes and neurons will negatively affect power consumption. However, this research required inferential statistics, specifically ANOVA and T-test, to compare the relationship between the means. The results reported no statistical significance between the means in the regression tests and accepted H0. Therefore, choosing different ML techniques and the Parquet dataset format will not improve the computational power consumption and the overall ML carbon footprint. However, a more extensive implementation with a cluster of GPUs can increase the sample size significantly, as it is an essential factor and can change the outcome of the statistical analysis.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# RoMath: ルーマニアの数学的推論ベンチマーク

RoMath: A Mathematical Reasoning Benchmark in Romanian ( http://arxiv.org/abs/2409.11074v1 )

ライセンス: Link先を確認
Adrian Cosma, Ana-Maria Bucur, Emilian Radoi, (参考訳) 数学は、主に人間の理解のために、長い間自然言語を通して伝えられてきた。 機械化数学と証明アシスタントの台頭により、非公式な数学的テキストを理解する必要性が高まっているが、既存のベンチマークのほとんどは英語のみに焦点を絞っており、他の言語を見下ろしている。 本稿では,RoMath-Baccalaureate,RoMath-Competitions,RoMath-Syntheticの3つのデータセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。 独特な言語的特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処し、単純な自動翻訳以上の専門的なリソースの必要性を強調している。 いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。 コードとデータセットを利用可能にしています。

Mathematics has long been conveyed through natural language, primarily for human understanding. With the rise of mechanized mathematics and proof assistants, there is a growing need to understand informal mathematical text, yet most existing benchmarks focus solely on English, overlooking other languages. This paper introduces RoMath, a Romanian mathematical reasoning benchmark suite comprising three datasets: RoMath-Baccalaureate, RoMath-Competitions and RoMath-Synthetic, which cover a range of mathematical domains and difficulty levels, aiming to improve non-English language models and promote multilingual AI development. By focusing on Romanian, a low-resource language with unique linguistic features, RoMath addresses the limitations of Anglo-centric models and emphasizes the need for dedicated resources beyond simple automatic translation. We benchmark several open-weight language models, highlighting the importance of creating resources for underrepresented languages. We make the code and dataset available.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# ShapeAug++: イベントデータのためのより現実的な形状拡張

ShapeAug++: More Realistic Shape Augmentation for Event Data ( http://arxiv.org/abs/2409.11075v1 )

ライセンス: Link先を確認
Katharina Bendig, René Schuster, Didier Stricker, (参考訳) 最新のダイナミックビジョンセンサー(DVS)は、レイテンシ、ダイナミックレンジ、エネルギー消費の点でRGBカメラよりも優れているため、近年大きな注目を集めている。 これは、イベントカメラが動きのぼやけを軽減し、夜間の視界を可能にするため、自律的なアプリケーションにとって特に関心がある。 現実の自律的な設定における課題の1つは、前景オブジェクトがバックグラウンドでの交通参加者の視界を妨げているオクルージョンである。 ShapeAugメソッドは、イベントデータ拡張のために線形パス上を移動するオブジェクトから生じるシミュレーションイベントを使用することで、この問題に対処する。 しかし、形状や動きは複雑さに欠けており、シミュレーションは現実世界の物体の挙動に似ていない。 そこで本稿では,ランダムに生成される多角形と曲面運動を含むShapeAugの拡張版であるShapeAug++を提案する。 複数のDVS分類データセットにおいて,本手法の優位性を示し,ShapeAugと比較してトップ1の精度を最大3.7%向上させた。

The novel Dynamic Vision Sensors (DVSs) gained a great amount of attention recently as they are superior compared to RGB cameras in terms of latency, dynamic range and energy consumption. This is particularly of interest for autonomous applications since event cameras are able to alleviate motion blur and allow for night vision. One challenge in real-world autonomous settings is occlusion where foreground objects hinder the view on traffic participants in the background. The ShapeAug method addresses this problem by using simulated events resulting from objects moving on linear paths for event data augmentation. However, the shapes and movements lack complexity, making the simulation fail to resemble the behavior of objects in the real world. Therefore in this paper, we propose ShapeAug++, an extended version of ShapeAug which involves randomly generated polygons as well as curved movements. We show the superiority of our method on multiple DVS classification datasets, improving the top-1 accuracy by up to 3.7% compared to ShapeAug.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# MonoKAN: Certified Monotonic Kolmogorov-Arnold Network

MonoKAN: Certified Monotonic Kolmogorov-Arnold Network ( http://arxiv.org/abs/2409.11078v1 )

ライセンス: Link先を確認
Alejandro Polo-Molina, David Alfaya, Jose Portela, (参考訳) ANN(Artificial Neural Networks)は、パターンを効果的に認識し、複雑な問題を解くことによって、様々な分野を著しく進歩させてきた。 これらの進歩にもかかわらず、透明性と説明責任が不可欠であるアプリケーションにおいて、それらの解釈可能性は依然として重要な課題である。 これを解決するために、説明可能なAI(XAI)は、ANNの解読を進歩させたが、解釈可能性だけでは不十分であることが多い。 特定のアプリケーションでは、モデル予測は専門家が提案した要件と一致し、時には部分的な単調性制約によって例示されなければならない。 単調なアプローチは従来の多層パーセプトロン(MLP)の文献で見られるが、解釈可能性と証明された部分的単調性の両方を達成するのに依然として困難に直面している。 近年,スプライスとしてパラメタライズされた学習可能なアクティベーション関数に基づくKANアーキテクチャが,MLPのより解釈可能な代替品として提案されている。 そこで我々は,kanアーキテクチャをベースとした新しいANNアーキテクチャMonoKANを導入し,解釈性を高めつつ,認証された部分的単調性を実現する。 これを実現するために立方体のハーマイトスプラインを使用し、単純条件の集合を通して単調性を保証する。 さらに、これらのスプラインの線形結合における正の重みを用いることで、入力と出力の間のモノトニックな関係を保存する。 実験の結果,MonoKANは解釈可能性の向上だけでなく,ほとんどのベンチマークにおいて予測性能の向上を実現し,最先端のモノトニックMLPアプローチよりも優れていた。

Artificial Neural Networks (ANNs) have significantly advanced various fields by effectively recognizing patterns and solving complex problems. Despite these advancements, their interpretability remains a critical challenge, especially in applications where transparency and accountability are essential. To address this, explainable AI (XAI) has made progress in demystifying ANNs, yet interpretability alone is often insufficient. In certain applications, model predictions must align with expert-imposed requirements, sometimes exemplified by partial monotonicity constraints. While monotonic approaches are found in the literature for traditional Multi-layer Perceptrons (MLPs), they still face difficulties in achieving both interpretability and certified partial monotonicity. Recently, the Kolmogorov-Arnold Network (KAN) architecture, based on learnable activation functions parametrized as splines, has been proposed as a more interpretable alternative to MLPs. Building on this, we introduce a novel ANN architecture called MonoKAN, which is based on the KAN architecture and achieves certified partial monotonicity while enhancing interpretability. To achieve this, we employ cubic Hermite splines, which guarantee monotonicity through a set of straightforward conditions. Additionally, by using positive weights in the linear combinations of these splines, we ensure that the network preserves the monotonic relationships between input and output. Our experiments demonstrate that MonoKAN not only enhances interpretability but also improves predictive performance across the majority of benchmarks, outperforming state-of-the-art monotonic MLP approaches.
翻訳日:2024-09-18 17:05:36 公開日:2024-09-17
# レーザーシステムアライメントの自動化への3つのアプローチとその資源的意味:事例研究

Three Approaches to the Automation of Laser System Alignment and Their Resource Implications: A Case Study ( http://arxiv.org/abs/2409.11090v1 )

ライセンス: Link先を確認
David A. Robb, Donald Risbridger, Ben Mills, Ildar Rakhmatulin, Xianwen Kong, Mustafa Erden, M. J. Daniel Esser, Richard M. Carter, Mike J. Chantler, (参考訳) 光システムのアライメントは、その製造における重要なステップである。 調整は通常、熟練したオペレーターのかなりの知識と専門知識を必要とする。 このようなプロセスの自動化にはいくつかの潜在的な利点がありますが、追加のリソースと事前コストが必要です。 単純な2つのミラーシステムのケーススタディを通じて、3つの異なる自動化アプローチを特定し、検証する。 それらは、人工知能、手動アライメントのプラクティスを模倣するプラクティス主導、第一原理からモデリングするデザイン主導である。 これらのアプローチは3つの異なる種類の知識を生かしていることがわかった。 1)基本的なシステム知識(制御、測定及び目標) 2行動技能及び専門知識 3)基本的なシステム設計知識。 我々は、人的資源において異なる自動化アプローチが著しく異なることを示し、サンプリング予算を計測する。 このことは、そのようなタスクの自動化を考える実践者やマネジメントに影響を与えます。

The alignment of optical systems is a critical step in their manufacture. Alignment normally requires considerable knowledge and expertise of skilled operators. The automation of such processes has several potential advantages, but requires additional resource and upfront costs. Through a case study of a simple two mirror system we identify and examine three different automation approaches. They are: artificial neural networks; practice-led, which mimics manual alignment practices; and design-led, modelling from first principles. We find that these approaches make use of three different types of knowledge 1) basic system knowledge (of controls, measurements and goals); 2) behavioural skills and expertise, and 3) fundamental system design knowledge. We demonstrate that the different automation approaches vary significantly in human resources, and measurement sampling budgets. This will have implications for practitioners and management considering the automation of such tasks.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# オンラインアロケーションといくつかのサンプルによるオークション

Online Combinatorial Allocations and Auctions with Few Samples ( http://arxiv.org/abs/2409.11091v1 )

ライセンス: Link先を確認
Paul Dütting, Thomas Kesselheim, Brendan Lucier, Rebecca Reiffenhäuser, Sahil Singla, (参考訳) オンラインの組合せ割当/オークションでは、n個の入札者が順次到着し、それぞれm個の不可分なアイテムのサブセットに対する組合せのバリュエーション(サブモジュール/XOSなど)を持つ。 その目的は、入札者評価の合計として定義された全福祉を最大化するために、直ちに残りの項目のサブセットを割り当てることである。 入札者の評価が既知の独立分布から来ると、長い研究がこの問題を研究している。 特に、サブモジュール/XOSのバリュエーションでは、各アイテムに固定価格を設定する2競合アルゴリズム/メカニズムが知られており、購入者はこれらの価格から残りのアイテムのお気に入りのサブセットを取る。 しかし、これらのアルゴリズムは伝統的に、アルゴリズムへの入力の一部として、基礎となる分布の可用性を前提としている。 この仮定とは対照的に、実際のシナリオでは、限られたサンプル可用性によって複雑なタスクである分布の学習を必要とすることが多い。 本稿では,O(1)競合アルゴリズムの実現可能性について,基礎となる入札者分布から限られた数のサンプルにしかアクセスできないという現実的な制約の下で検討する。 最初の主な貢献は, サブモジュール/XOS評価のためのO(1)競合アルゴリズムを得るのに, 各入札者分布からのサンプルだけで十分であることを示している。 この結果は秘書スタイルの分析の新たな拡張を活用し、アルゴリズムが自身と競うためにサンプルを利用する。 オンラインではありますが、この最初のアプローチは、オンラインの真実のメカニズムを提供していません。 2つ目の主な貢献は、サブモジュラー/XOSアセスメントと任意の定数$\epsilon>0$に対して(2+\epsilon)$-competitive online truthful mechanism を得るのに十分であることを示している。 この結果は、単体預言不等式問題に対する中央値に基づくアルゴリズムを、複数項目の組合せ設定に一般化したものである。

In online combinatorial allocations/auctions, n bidders sequentially arrive, each with a combinatorial valuation (such as submodular/XOS) over subsets of m indivisible items. The aim is to immediately allocate a subset of the remaining items to maximize the total welfare, defined as the sum of bidder valuations. A long line of work has studied this problem when the bidder valuations come from known independent distributions. In particular, for submodular/XOS valuations, we know 2-competitive algorithms/mechanisms that set a fixed price for each item and the arriving bidders take their favorite subset of the remaining items given these prices. However, these algorithms traditionally presume the availability of the underlying distributions as part of the input to the algorithm. Contrary to this assumption, practical scenarios often require the learning of distributions, a task complicated by limited sample availability. This paper investigates the feasibility of achieving O(1)-competitive algorithms under the realistic constraint of having access to only a limited number of samples from the underlying bidder distributions. Our first main contribution shows that a mere single sample from each bidder distribution is sufficient to yield an O(1)-competitive algorithm for submodular/XOS valuations. This result leverages a novel extension of the secretary-style analysis, employing the sample to have the algorithm compete against itself. Although online, this first approach does not provide an online truthful mechanism. Our second main contribution shows that a polynomial number of samples suffices to yield a $(2+\epsilon)$-competitive online truthful mechanism for submodular/XOS valuations and any constant $\epsilon>0$. This result is based on a generalization of the median-based algorithm for the single-item prophet inequality problem to combinatorial settings with multiple items.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# Fractional Naive Bayes (FNB): 擬似重み付き選択型ベイズ分類器の非凸最適化

Fractional Naive Bayes (FNB): non-convex optimization for a parsimonious weighted selective naive Bayes classifier ( http://arxiv.org/abs/2409.11100v1 )

ライセンス: Link先を確認
Carine Hue, Marc Boullé, (参考訳) 非常に多数の入力変数を持つデータセットの教師付き分類について検討する。 na\\ive Bayes分類器は、多くの実データアプリケーションにおいて、その単純さ、スケーラビリティ、有効性において魅力的である。 目的変数が与えられた入力変数の条件独立性の強い na\"ive Bayes 仮定が有効でない場合、変数の選択とモデル平均化は、性能を改善するための2つの一般的な方法である。 na\\ive Bayes分類器の場合、モデルの重み付けスキームは変数の重み付けスキームに還元される。 ここでは、そのような重み付きNa\"ive Bayes分類器における可変重みの直接推定に焦点を当てる。 本稿では,各入力変数に対する事前の罰則化コストを考慮した,モデル対数様のスパース正規化を提案する。 これまでの平均化ベースの分類器と比較して、我々の主な目標は、より少ない変数と同等のパフォーマンスを持つ同種のロバストモデルを得ることです。 変数重みの直接推定は、いくつかの2段階アルゴリズムを提案し比較する非凸最適化問題に相当する。 第一に、凸緩和によって得られる基準は標準勾配法のいくつかの変種を用いて最小化される。 そして、初期非凸最適化問題を、第1段階の結果を初期化して局所最適化法を用いて解決する。 提案したアルゴリズムは、ベンチマークデータセットで評価され、参照平均化に基づく分類器に位置付けされる最適化ベースの重み付けされたna\"ive Bayes分類器をもたらす。

We study supervised classification for datasets with a very large number of input variables. The na\"ive Bayes classifier is attractive for its simplicity, scalability and effectiveness in many real data applications. When the strong na\"ive Bayes assumption of conditional independence of the input variables given the target variable is not valid, variable selection and model averaging are two common ways to improve the performance. In the case of the na\"ive Bayes classifier, the resulting weighting scheme on the models reduces to a weighting scheme on the variables. Here we focus on direct estimation of variable weights in such a weighted na\"ive Bayes classifier. We propose a sparse regularization of the model log-likelihood, which takes into account prior penalization costs related to each input variable. Compared to averaging based classifiers used up until now, our main goal is to obtain parsimonious robust models with less variables and equivalent performance. The direct estimation of the variable weights amounts to a non-convex optimization problem for which we propose and compare several two-stage algorithms. First, the criterion obtained by convex relaxation is minimized using several variants of standard gradient methods. Then, the initial non-convex optimization problem is solved using local optimization methods initialized with the result of the first stage. The various proposed algorithms result in optimization-based weighted na\"ive Bayes classifiers, that are evaluated on benchmark datasets and positioned w.r.t. to a reference averaging-based classifier.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 深度に基づくRGBを用いた3次元人文推定のためのプリビレジド情報

Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB ( http://arxiv.org/abs/2409.11104v1 )

ライセンス: Link先を確認
Alessandro Simoni, Francesco Marchetti, Guido Borghi, Federico Becattini, Davide Davoli, Lorenzo Garattoni, Gianpiero Francesca, Lorenzo Seidenari, Roberto Vezzani, (参考訳) 近年のコンピュータビジョン研究の進歩にもかかわらず、単一のRGB画像から3D人間のポーズを推定することは難しい課題であり、複数の3Dポーズは画像上の同じ2Dプロジェクションに対応できる。 この文脈では、深度データは、シーン内の物体とカメラの間の距離に関する追加の制約を提供することで、2D情報を曖昧にするのに役立ちます。 残念ながら、正確な深度データの取得は屋内空間に限られており、通常は特定の深度技術やデバイスに結びついているので、一般化能力を制限している。 本稿では、RGBカメラ中心のランドスケープにおいて、より広い適用性と適応性を損なうことなく、奥行き情報の利点を活用できる手法を提案する。 提案手法は,主観的情報のパラダイムを生かし,推定時に与えられるRGBフレームから深度情報を幻覚できるヒートマップに基づく3次元ポーズ推定器からなる。 より正確には、深度情報は、RGBベースの幻覚ネットワークを強制して、深度データのみに基づいて事前訓練されたバックボーンに似た特徴を学習することによって、トレーニング中にのみ使用される。 このアプローチは、限られた小さなデータセットを扱う場合でも有効であることが証明されている。 実験結果から,プリビリージド・インフォメーションのパラダイムはモデルの性能を著しく向上させ,RGB画像のみを用いた深度情報の効率的な抽出を可能にした。

Despite the recent advances in computer vision research, estimating the 3D human pose from single RGB images remains a challenging task, as multiple 3D poses can correspond to the same 2D projection on the image. In this context, depth data could help to disambiguate the 2D information by providing additional constraints about the distance between objects in the scene and the camera. Unfortunately, the acquisition of accurate depth data is limited to indoor spaces and usually is tied to specific depth technologies and devices, thus limiting generalization capabilities. In this paper, we propose a method able to leverage the benefits of depth information without compromising its broader applicability and adaptability in a predominantly RGB-camera-centric landscape. Our approach consists of a heatmap-based 3D pose estimator that, leveraging the paradigm of Privileged Information, is able to hallucinate depth information from the RGB frames given at inference time. More precisely, depth information is used exclusively during training by enforcing our RGB-based hallucination network to learn similar features to a backbone pre-trained only on depth data. This approach proves to be effective even when dealing with limited and small datasets. Experimental results reveal that the paradigm of Privileged Information significantly enhances the model's performance, enabling efficient extraction of depth information by using only RGB images.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# WSIs分類におけるMILの信頼性の定量的評価

Quantitative Evaluation of MILs' Reliability For WSIs Classification ( http://arxiv.org/abs/2409.11110v1 )

ライセンス: Link先を確認
Hassan Keshvarikhojasteh, (参考訳) 信頼性のあるモデルは信頼でき、基本的なドメイン知識が与えられたら許容できる予測を提供する。 したがって、特に医療アプリケーションにおいて、信頼性の高いモデルの開発とデプロイが重要である。 しかし、計算病理学における全スライド画像(WSI)分類のために設計された多重インスタンス学習(MIL)モデルは、信頼性の観点からは評価されない。 そこで本論文では,MILモデルの信頼性を3つの提案指標と比較し,領域別アノテートデータセットを3つ使用した。 アーキテクチャ設計や計算効率は高いが,平均プールインスタンス(MEAN-POOL-INS)モデルは,他のネットワークよりも信頼性が高い。 結果を再現するコードはhttps://github.com/tueimage/MILs'R で参照できる。

Reliable models are dependable and provide predictions acceptable given basic domain knowledge. Therefore, it is critical to develop and deploy reliable models, especially for healthcare applications. However, Multiple Instance Learning (MIL) models designed for Whole Slide Images (WSIs) classification in computational pathology are not evaluated in terms of reliability. Hence, in this paper we compare the reliability of MIL models with three suggested metrics and use three region-wise annotated datasets. We find the mean pooling instance (MEAN-POOL-INS) model more reliable than other networks despite its naive architecture design and computation efficiency. The code to reproduce the results is accessible at https://github.com/tueimage/MILs'R .
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 学習画像圧縮のためのFew-Shot領域適応

Few-Shot Domain Adaptation for Learned Image Compression ( http://arxiv.org/abs/2409.11111v1 )

ライセンス: Link先を確認
Tianyu Zhang, Haotian Zhang, Yuqi Li, Li Li, Dong Liu, (参考訳) 学習画像圧縮(lic)は、次世代画像圧縮技術に期待できる技術として、最先端の速度歪み性能を達成した。 しかし、トレーニング済みのlicモデルは、通常、トレーニング外領域の画像に適用した場合、大幅なパフォーマンス劣化を被り、一般化能力の低下を示唆する。 そこで本研究では,プレトレーニングモデルにプラグイン・アンド・プレイアダプタを組み込むことにより,licの領域適応手法を提案する。 潜伏チャネルと周波数成分の類似性からインスピレーションを得て,LISPの領域間隙を解析し,トレーニング外領域画像が事前学習されたチャネルの分解を阻害することを観察する。 そこで本研究では,コンボリューションベースのアダプタと低ランクアダプタを用いたチャネルワイズ再配置手法を提案する。 提案手法は,H.266/VVCイントラ符号化に匹敵する性能を25個のターゲットドメインサンプルで達成し,事前学習モデルを大幅に向上することを示す。 さらに,本手法は,パラメータの2\%以下を送信しながら,フルモデルファインチューンの性能と一致させる。

Learned image compression (LIC) has achieved state-of-the-art rate-distortion performance, deemed promising for next-generation image compression techniques. However, pre-trained LIC models usually suffer from significant performance degradation when applied to out-of-training-domain images, implying their poor generalization capabilities. To tackle this problem, we propose a few-shot domain adaptation method for LIC by integrating plug-and-play adapters into pre-trained models. Drawing inspiration from the analogy between latent channels and frequency components, we examine domain gaps in LIC and observe that out-of-training-domain images disrupt pre-trained channel-wise decomposition. Consequently, we introduce a method for channel-wise re-allocation using convolution-based adapters and low-rank adapters, which are lightweight and compatible to mainstream LIC schemes. Extensive experiments across multiple domains and multiple representative LIC schemes demonstrate that our method significantly enhances pre-trained models, achieving comparable performance to H.266/VVC intra coding with merely 25 target-domain samples. Additionally, our method matches the performance of full-model finetune while transmitting fewer than $2\%$ of the parameters.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 語指導ゲームにおける人・大言語モデル戦術の戦略的洞察

Strategic Insights in Human and Large Language Model Tactics at Word Guessing Games ( http://arxiv.org/abs/2409.11112v1 )

ライセンス: Link先を確認
Matīss Rikters, Sanita Reinsone, (参考訳) 2022年の初めには、単純化された口語表現のゲームが嵐によって世界を席巻し、原版以外の多くの言語にも適応した。 本稿では,2年以上に渡り発展してきた日常的なゲームプレイヤーの戦略を考察する。 頻繁な選手の25%から集められた調査は、日々の旅を続けるための戦略とモチベーションを明らかにしている。 また、2つの異なる言語でゲームを理解し、プレイする際の、いくつかの人気のあるオープンアクセス型大規模言語モデルシステムとオープンソースモデルの能力についても検討する。 結果は、正しい推定長さを維持し、繰り返しを生成するための特定のモデルの苦労と、存在しない単語や屈折の幻覚を浮き彫りにする。

At the beginning of 2022, a simplistic word-guessing game took the world by storm and was further adapted to many languages beyond the original English version. In this paper, we examine the strategies of daily word-guessing game players that have evolved during a period of over two years. A survey gathered from 25% of frequent players reveals their strategies and motivations for continuing the daily journey. We also explore the capability of several popular open-access large language model systems and open-source models at comprehending and playing the game in two different languages. Results highlight the struggles of certain models to maintain correct guess length and generate repetitions, as well as hallucinations of non-existent words and inflections.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 分布外インテント検出のためのダイバーシティグラウンドチャネルプロトタイプ学習

Diversity-grounded Channel Prototypical Learning for Out-of-Distribution Intent Detection ( http://arxiv.org/abs/2409.11114v1 )

ライセンス: Link先を確認
Bo Liu, Liming Zhan, Yujie Feng, Zexin Lu, Chengqiang Xie, Lei Xue, Xiao-Ming Wu, Albert Y. S. Lam, (参考訳) タスク指向対話システムでは、実世界のシナリオで発生する不正な発話を効果的に処理する必要がある。 本研究は, 大規模言語モデル(LLM)のための新たな微調整フレームワークを提案する。IDクラス名から派生したプロトタイプとのセマンティックマッチングを利用する, 内分布(ID)意図分類と外分布(OOD)意図検出を強化することを目的とした。 LLMの高度に区別可能な表現を利用することで、ダイバーシティグラウンドのプロンプトチューニングアプローチを用いて、各IDクラスのセマンティックプロトタイプを構築する。 私たちは、IDクラスとOODクラスがセマンティックに近接しているが区別されていない、難易度の高いOODコンテキストで、我々のフレームワークを厳格にテストします。 徹底的な評価のために,本手法を一般的な微調整手法と比較した。 実験結果から,本手法は,少数ショットID意図分類と近OOD意図検出の両タスクにおいて,優れた性能を示すことがわかった。

In the realm of task-oriented dialogue systems, a robust intent detection mechanism must effectively handle malformed utterances encountered in real-world scenarios. This study presents a novel fine-tuning framework for large language models (LLMs) aimed at enhancing in-distribution (ID) intent classification and out-of-distribution (OOD) intent detection, which utilizes semantic matching with prototypes derived from ID class names. By harnessing the highly distinguishable representations of LLMs, we construct semantic prototypes for each ID class using a diversity-grounded prompt tuning approach. We rigorously test our framework in a challenging OOD context, where ID and OOD classes are semantically close yet distinct, referred to as \emph{near} OOD detection. For a thorough assessment, we benchmark our method against the prevalent fine-tuning approaches. The experimental findings reveal that our method demonstrates superior performance in both few-shot ID intent classification and near-OOD intent detection tasks.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 光密度原子アンサンブルにおける光拡散のその場測定

In-situ measurements of light diffusion in an optically dense atomic ensemble ( http://arxiv.org/abs/2409.11117v1 )

ライセンス: Link先を確認
Antoine Glicenstein, Apoorva Apoorva, Daniel Benedicto Orenes, Hector Letellier, Alvaro Mitchell Galvão de Melo, Raphaël Saint-Jalm, Robin Kaiser, (参考訳) 本研究では, 低温原子の光学的に厚いアンサンブル内でのその場での光輸送を解析し, アルカリ-希土類金属の内部構造を利用した新しい方法を提案する。 大型原子雲の中心に光励起を発生させる手法を実証し,その伝播を複数の散乱現象を通して観察する。 雲の大きさが輸送平均自由経路よりもかなり大きい場合、拡散状態が同定される。 拡散係数,輸送速度,輸送時間などの重要なパラメータを測定し,拡散モデルとよく一致していることを示す。 また、システム内で発射される光子の周波数を制御できることを実証した。 このアプローチにより、原子アンサンブルにおける光拡散の時間的および空間的に解決された直接観測が可能となり、新しい拡散状態の探索に有望な道を提供する。

This study introduces a novel method to investigate in-situ light transport within optically thick ensembles of cold atoms, exploiting the internal structure of alkaline-earth metals. A method for creating an optical excitation at the center of a large atomic cloud is demonstrated, and we observe its propagation through multiple scattering events. In conditions where the cloud size is significantly larger than the transport mean free path, a diffusive regime is identified. We measure key parameters including the diffusion coefficient, transport velocity, and transport time, finding a good agreement with diffusion models. We also demonstrate that the frequency of the photons launched inside the system can be controlled. This approach enables direct time- and space-resolved observation of light diffusion in atomic ensembles, offering a promising avenue for exploring new diffusion regimes.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 全スライド画像分類のためのコホート認識と対向的相互情報最小化によるマルチコホートフレームワーク

Multi-Cohort Framework with Cohort-Aware Attention and Adversarial Mutual-Information Minimization for Whole Slide Image Classification ( http://arxiv.org/abs/2409.11119v1 )

ライセンス: Link先を確認
Sharon Peled, Yosef E. Maruvka, Moti Freiman, (参考訳) ホイルスライド画像(WSI)は病理組織学的解析を含む様々な臨床応用に重要である。 しかし、この分野における現在のディープラーニングアプローチは、主に個々の腫瘍タイプ、モデルの一般化と拡張性を制限することに焦点を当てている。 この比較的狭い焦点は、最終的に、組織学的に固有の異質性と、異なる腫瘍の様々な形態学的および分子的特徴に由来する。 そこで本研究では,腫瘍の多様性を活かしたマルチコホートWSI解析手法を提案する。 コホート・アウェア・アテンション(Cohort-Aware Attention)モジュールを導入し,腫瘍特異的および腫瘍特異的な病理パターンを捕捉し,腫瘍間の一般化を促進する。 さらに,相互情報の最小化により,コホート固有のバイアスを最小限に抑えるために,逆コホート正規化機構を構築する。 さらに,コホート不均衡を緩和し,偏りのない学習を促進するために,階層的なサンプルバランス戦略を開発する。 これらを合わせて、非バイアス多重コホートWSI分析のための凝集性フレームワークを形成する。 独自に構築されたマルチ癌データセットに対する大規模な実験は、一般化の大幅な改善を示し、様々ながんタイプにまたがるWSI分類のためのスケーラブルなソリューションを提供する。 実験のコードはlink>で公開されています。

Whole Slide Images (WSIs) are critical for various clinical applications, including histopathological analysis. However, current deep learning approaches in this field predominantly focus on individual tumor types, limiting model generalization and scalability. This relatively narrow focus ultimately stems from the inherent heterogeneity in histopathology and the diverse morphological and molecular characteristics of different tumors. To this end, we propose a novel approach for multi-cohort WSI analysis, designed to leverage the diversity of different tumor types. We introduce a Cohort-Aware Attention module, enabling the capture of both shared and tumor-specific pathological patterns, enhancing cross-tumor generalization. Furthermore, we construct an adversarial cohort regularization mechanism to minimize cohort-specific biases through mutual information minimization. Additionally, we develop a hierarchical sample balancing strategy to mitigate cohort imbalances and promote unbiased learning. Together, these form a cohesive framework for unbiased multi-cohort WSI analysis. Extensive experiments on a uniquely constructed multi-cancer dataset demonstrate significant improvements in generalization, providing a scalable solution for WSI classification across diverse cancer types. Our code for the experiments is publicly available at <link>.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# ペア状態からの教師なし状態学習

Unsupervised state learning from pairs of states ( http://arxiv.org/abs/2409.11120v1 )

ライセンス: Link先を確認
Pranjal Agarwal, Nada Ali, Camilla Polvara, Martin Isbjörn Trappe, Berthold-Georg Englert, Mark Hillery, (参考訳) 各キュービットが2つの純粋な状態のうちの1つであることが保証されているようなキュービットの列を受信すると仮定するが、それらの状態が何であるかは分かっていない。 タスクは状態を決定するか、それらを識別するPOVM(Positive Operator Valued Measure)を構築することです。 これは教師なし学習の量子アナログと見なすことができる。 問題は、より多くの情報がなければ、決定できる全ての行列はシーケンスの密度行列であり、一般に密度行列は多くの異なる方法で純粋な状態に分解できることである。 この問題を解決するには、古典的または量子的な追加情報が必要である。 各キュービットの余分なコピーが供給された場合、すなわち、一つのキュービットではなく、同じ状態のキュービットのペアを受け取ると、そのタスクが達成されることを示す。 次に、量子ビット対の列の測定を数値的にシミュレートし、未知の状態とその発生確率を高精度に知ることができることを示す。

Suppose you receive a sequence of qubits where each qubit is guaranteed to be in one of two pure states, but you do not know what those states are. Your task is to either determine the states or to construct a POVM (Positive Operator Valued Measure) that will discriminate them. This can be viewed as a quantum analog of unsupervised learning. A problem is that without more information, all that can be determined is the density matrix of the sequence, and, in general, density matrices can be decomposed into pure states in many different ways. To solve the problem additional information, either classical or quantum, is required. We show that if an additional copy of each qubit is supplied, that is, one receives pairs of qubits, both in the same state, rather than single qubits, the task can be accomplished. We then simulate numerically the measurement of a sequence of qubit pairs and show that the unknown states and their respective probabilities of occurrence can be found with high accuracy.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# ULOC:超広帯域域の複雑な大規模環境におけるローカライズ学習

ULOC: Learning to Localize in Complex Large-Scale Environments with Ultra-Wideband Ranges ( http://arxiv.org/abs/2409.11122v1 )

ライセンス: Link先を確認
Thien-Minh Nguyen, Yizhuo Yang, Tien-Dat Nguyen, Shenghai Yuan, Lihua Xie, (参考訳) UWBベースの手法は、小規模領域において高いローカライズ精度を実現することができるが、大規模環境では、その精度と信頼性が著しく課題となっている。 本稿では,ULOC for Ultra-Wideband (UWB) という学習フレームワークを提案する。 まず、アンカーは実際の位置を知ることなく環境に展開される。 そして、車両が環境中を移動するときにUWB観測を収集する。 同時に、事前の地図に(自己ローカライゼーション上の)データを登録してトレーニングラベルを提供することにより、マップ一貫性のポーズ推定を開発する。 そこで我々は,複雑な大規模環境下でUWBの帯域幅パターンを学習するMAMBAに基づくネットワークを提案する。 実験により,我々のソリューションは,最先端技術と比較して大規模で高精度なローカライゼーションを実現することができることを示した。 ソースコードはhttps://github.com/brytsknguyen/uloc.comで公開しています。

While UWB-based methods can achieve high localization accuracy in small-scale areas, their accuracy and reliability are significantly challenged in large-scale environments. In this paper, we propose a learning-based framework named ULOC for Ultra-Wideband (UWB) based localization in such complex large-scale environments. First, anchors are deployed in the environment without knowledge of their actual position. Then, UWB observations are collected when the vehicle travels in the environment. At the same time, map-consistent pose estimates are developed from registering (onboard self-localization) data with the prior map to provide the training labels. We then propose a network based on MAMBA that learns the ranging patterns of UWBs over a complex large-scale environment. The experiment demonstrates that our solution can ensure high localization accuracy on a large scale compared to the state-of-the-art. We release our source code to benefit the community at https://github.com/brytsknguyen/uloc.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 蒸留支援学習型アプローチによる勾配のないポストホック説明可能性

Gradient-free Post-hoc Explainability Using Distillation Aided Learnable Approach ( http://arxiv.org/abs/2409.11123v1 )

ライセンス: Link先を確認
Debarpan Bhattacharya, Amir H. Poorjam, Deepak Mittal, Sriram Ganapathy, (参考訳) 人工知能(AI)の最近の進歩は、クエリアクセスしか持たない大規模なモデルがいくつかリリースされ、ホック後の勾配のない方法でディープモデルの説明可能性の強いケースとなっている。 本稿では, モデル非依存勾配自由アプリケーションにおいて, サリエンシに基づく説明を生成しようとする蒸留支援説明可能性 (DAX) の枠組みを提案する。 DAXアプローチは、マスク生成ネットワークと蒸留ネットワークを備えた学習可能な環境における説明の問題を引き起こす。 マスク生成ネットワークは入力の正当領域を検出する乗算器マスクを生成するのを学習し、学生蒸留ネットワークはブラックボックスモデルの局所挙動を近似することを目的としている。 そこで我々は,ローカルな摂動入力サンプルを用いたDAXフレームワークにおける2つのネットワークの協調最適化を提案し,ブラックボックスモデルへの入力出力アクセスからターゲットを抽出した。 我々は,様々なモード(画像と音声)でDAXを広範囲に評価し,さまざまな評価セット(真実との結合,削除ベースおよび主観的人間評価に基づく尺度)を用いて分類し,9ドルの異なる手法で評価する。 これらの評価において、DAXは、すべてのモダリティと評価指標において、既存のアプローチを著しく上回っている。

The recent advancements in artificial intelligence (AI), with the release of several large models having only query access, make a strong case for explainability of deep models in a post-hoc gradient free manner. In this paper, we propose a framework, named distillation aided explainability (DAX), that attempts to generate a saliency-based explanation in a model agnostic gradient free application. The DAX approach poses the problem of explanation in a learnable setting with a mask generation network and a distillation network. The mask generation network learns to generate the multiplier mask that finds the salient regions of the input, while the student distillation network aims to approximate the local behavior of the black-box model. We propose a joint optimization of the two networks in the DAX framework using the locally perturbed input samples, with the targets derived from input-output access to the black-box model. We extensively evaluate DAX across different modalities (image and audio), in a classification setting, using a diverse set of evaluations (intersection over union with ground truth, deletion based and subjective human evaluation based measures) and benchmark it with respect to $9$ different methods. In these evaluations, the DAX significantly outperforms the existing approaches on all modalities and evaluation metrics.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# 多モード選択型VTを用いた加齢黄斑変性仲間眼の遺伝情報解析

Genetic Information Analysis of Age-Related Macular Degeneration Fellow Eye Using Multi-Modal Selective ViT ( http://arxiv.org/abs/2409.11128v1 )

ライセンス: Link先を確認
Yoichi Furukawa, Satoshi Kamiya, Yoichi Sakurada, Kenji Kashiwagi, Kazuhiro Hotta, (参考訳) 近年,機械学習を用いた医療データ分析が盛んに行われている。 老化関連黄斑変性(AMD)の発症は遺伝子多型と関連していると考えられている。 しかし、遺伝子解析は高価であり、人工知能は補助を提供するかもしれない。 本稿では,眼底・光コヒーレンス・トモグラフィー(OCT)画像と医療記録を用いて,AMDに対する複数の感受性遺伝子の存在を予測する手法を提案する。 実験結果から、複数のモダリティからの情報を統合することで、80$\%以上の精度で感受性遺伝子の存在を効果的に予測できることが示された。

In recent years, there has been significant development in the analysis of medical data using machine learning. It is believed that the onset of Age-related Macular Degeneration (AMD) is associated with genetic polymorphisms. However, genetic analysis is costly, and artificial intelligence may offer assistance. This paper presents a method that predict the presence of multiple susceptibility genes for AMD using fundus and Optical Coherence Tomography (OCT) images, as well as medical records. Experimental results demonstrate that integrating information from multiple modalities can effectively predict the presence of susceptibility genes with over 80$\%$ accuracy.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# グラフリオーダによるグラフニューラルネットワークトレーニングの高速化 : 実験的検討

Can Graph Reordering Speed Up Graph Neural Network Training? An Experimental Study ( http://arxiv.org/abs/2409.11129v1 )

ライセンス: Link先を確認
Nikolai Merkel, Pierre Toussing, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) グラフニューラルネットワーク(Graph Neural Network, GNN)は、グラフ構造化データから学習可能なニューラルネットワークの一種である。 しかし、大規模グラフ上でのGNNのトレーニングは、スパースグラフ構造とニューラルネットワーク操作を組み合わせた近隣の頂点からの高次元特徴の反復的な集約が困難である。 グラフの間隔は、しばしば最適なメモリアクセスパターンと長いトレーニング時間をもたらす。 グラフの並べ替えは、グラフデータのレイアウトを改善するための最適化戦略である。 グラフ解析処理の高速化には有効であることが示されているが、GNNトレーニングのパフォーマンスへの影響はまだ調査されていない。 レイヤ数、隠蔽次元数、GNNモデルで使用される特徴サイズ、ニューラルネットワーク操作、大きな中間頂点状態、GPUアクセラレーションなどのGNNハイパーパラメータ。 我々の研究は、PyTorch GeometricとDeep Graph Libraryという2つの最先端GNNシステムにおいて、12の並べ替え戦略を実証的に評価することで、このギャップを埋める。 以上の結果から,CPUとGPUによるトレーニングのトレーニング時間を短縮する上で,グラフの並べ替えが有効であることが示唆された。 さらに、GNNハイパーパラメータがリオーダーの有効性に影響を与えること、リオーダー戦略の選択においてメトリクスのリオーダーが重要な役割を担っていること、CPUベースのトレーニングよりもGPUベースのライトウェイトリオーダが優れていること、そして投資されたリオーダ時間の多くが償却可能であること、などが分かる。

Graph neural networks (GNNs) are a type of neural network capable of learning on graph-structured data. However, training GNNs on large-scale graphs is challenging due to iterative aggregations of high-dimensional features from neighboring vertices within sparse graph structures combined with neural network operations. The sparsity of graphs frequently results in suboptimal memory access patterns and longer training time. Graph reordering is an optimization strategy aiming to improve the graph data layout. It has shown to be effective to speed up graph analytics workloads, but its effect on the performance of GNN training has not been investigated yet. The generalization of reordering to GNN performance is nontrivial, as multiple aspects must be considered: GNN hyper-parameters such as the number of layers, the number of hidden dimensions, and the feature size used in the GNN model, neural network operations, large intermediate vertex states, and GPU acceleration. In our work, we close this gap by performing an empirical evaluation of 12 reordering strategies in two state-of-the-art GNN systems, PyTorch Geometric and Deep Graph Library. Our results show that graph reordering is effective in reducing training time for CPU- and GPU-based training, respectively. Further, we find that GNN hyper-parameters influence the effectiveness of reordering, that reordering metrics play an important role in selecting a reordering strategy, that lightweight reordering performs better for GPU-based than for CPU-based training, and that invested reordering time can in many cases be amortized.
翻訳日:2024-09-18 16:55:21 公開日:2024-09-17
# Promptriever: トレーニングされたレトリバーは、言語モデルのようにプロンプトできる

Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models ( http://arxiv.org/abs/2409.11136v1 )

ライセンス: Link先を確認
Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel, (参考訳) Instruction-tuned Language Model (LM) は命令型コマンドに応答でき、基本言語に比べて自然なユーザインタフェースを提供する。 本稿では,LMのように誘導できる最初の検索モデルであるPromptrieverを紹介する。 Promptrieverをトレーニングするために、500k近いインスタンスにまたがるMS MARCOからインスタンスレベルの新しいトレーニングセットをキュレートし、リリースする。 Promptrieverは、標準的な検索タスクで高いパフォーマンスを達成するだけでなく、指示に従う。 1) FollowIRの詳細な関連命令(+14.3 p-MRR / +3.1 nDCG)に対する大きな利得(SoTAの取得)、(2)クエリ+インストラクション(+12.9 Robustness@10, InstructIR)における語彙選択/表現に対するロバスト性(+1.4 average increase)、(3)検索性能を確実に向上させるプロンプトによるハイパーパラメータ検索機能(BEIRにおける+1.4 average increase)。 Promptriever氏は、検索モデルがクエリ毎にプロンプトで制御可能であることを実証し、将来の作業のためのステージを設定し、LMプロンプトと情報検索のテクニックを連携させる。

Instruction-tuned language models (LM) are able to respond to imperative commands, providing a more natural user interface compared to their base counterparts. In this work, we present Promptriever, the first retrieval model able to be prompted like an LM. To train Promptriever, we curate and release a new instance-level instruction training set from MS MARCO, spanning nearly 500k instances. Promptriever not only achieves strong performance on standard retrieval tasks, but also follows instructions. We observe: (1) large gains (reaching SoTA) on following detailed relevance instructions (+14.3 p-MRR / +3.1 nDCG on FollowIR), (2) significantly increased robustness to lexical choices/phrasing in the query+instruction (+12.9 Robustness@10 on InstructIR), and (3) the ability to perform hyperparameter search via prompting to reliably improve retrieval performance (+1.4 average increase on BEIR). Promptriever demonstrates that retrieval models can be controlled with prompts on a per-query basis, setting the stage for future work aligning LM prompting techniques with information retrieval.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 完備シンプレクティックマッピングを用いた一般化ハミルトニアンの学習

Learning Generalized Hamiltonians using fully Symplectic Mappings ( http://arxiv.org/abs/2409.11138v1 )

ライセンス: Link先を確認
Harsh Choudhary, Chandan Gupta, Vyacheslav kungrutsev, Melvin Leok, Georgios Korpas, (参考訳) 多くの重要な物理系はハミルトニアン系の進化と説明できるが、これは保守的であり、エネルギーは進化を通して保存されるという重要な性質を持つ。 物理情報ニューラルネットワーク、特にハミルトンニューラルネットワークは、構造的帰納バイアスをNNモデルに組み込むメカニズムとして登場した。 物理的不変性が確保されることで、標準NNよりもサンプルの複雑さと分布外精度が大幅に向上する。 ハミルトニアンをその標準変数(典型的には位置と速度)の関数として、システムのサンプル観測から学習し、システム同定とシステムの挙動の長期予測において重要なタスクとなる。 しかし、ハミルトン系の長期保存特性を真に保存するためには、シンプレクティック積分器をシステムのシミュレーションの前方通過に用いる必要がある。 シンプレクティックスキームは文献で使われてきたが、これらのスキームは、分離可能なハミルトニアンや拡張可能な非分離性ハミルトニアンなど、明示的なアルゴリズムに還元される状況に限られている。 一般化された非分離ハミルトニアンに拡張し、シンプレクティック積分器の自己随伴性に言及し、計算的に集約的なバックプロパゲーションをODEソルバでバイパスする。 本手法は雑音に対して頑健であり,ノイズ観測から状態変数がサンプリングされた場合のハミルトニアン系の近似が良好であることを示す。 数値計算の結果,ハミルトンの復元と保全に関する手法の性能を示すとともに,非分離系に対して特に有利であることを示す。

Many important physical systems can be described as the evolution of a Hamiltonian system, which has the important property of being conservative, that is, energy is conserved throughout the evolution. Physics Informed Neural Networks and in particular Hamiltonian Neural Networks have emerged as a mechanism to incorporate structural inductive bias into the NN model. By ensuring physical invariances are conserved, the models exhibit significantly better sample complexity and out-of-distribution accuracy than standard NNs. Learning the Hamiltonian as a function of its canonical variables, typically position and velocity, from sample observations of the system thus becomes a critical task in system identification and long-term prediction of system behavior. However, to truly preserve the long-run physical conservation properties of Hamiltonian systems, one must use symplectic integrators for a forward pass of the system's simulation. While symplectic schemes have been used in the literature, they are thus far limited to situations when they reduce to explicit algorithms, which include the case of separable Hamiltonians or augmented non-separable Hamiltonians. We extend it to generalized non-separable Hamiltonians, and noting the self-adjoint property of symplectic integrators, we bypass computationally intensive backpropagation through an ODE solver. We show that the method is robust to noise and provides a good approximation of the system Hamiltonian when the state variables are sampled from a noisy observation. In the numerical results, we show the performance of the method concerning Hamiltonian reconstruction and conservation, indicating its particular advantage for non-separable systems.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 空間的スケーリング変動を有する画像データセット上の拡張スケール共変およびスケール不変ガウス微分ネットワークのスケール一般化特性

Scale generalisation properties of extended scale-covariant and scale-invariant Gaussian derivative networks on image datasets with spatial scaling variations ( http://arxiv.org/abs/2409.11140v1 )

ライセンス: Link先を確認
Andrzej Perzanowski, Tony Lindeberg, (参考訳) 本稿では,スケール共変およびスケール不変ガウス微分ネットワークのスケール一般化特性について,概念的およびアルゴリズム的拡張を補完した詳細な解析を行った。 この目的のために、ガウス微分ネットワークはFashion-MNISTとCIFAR-10データセットの新たな再スケールバージョンで評価され、トレーニングデータには存在しないテストデータの4倍の空間的スケーリングのばらつきがある。 さらに、既存のSTIRデータセットの評価では、ガウス微分ネットワークは、他のディープネットワークのデータセットに対して以前報告されたよりも、より優れたスケールの一般化を実現している。 まず、ガウス微分ネットワークは、新しいデータセット上で非常に優れたスケールの一般化特性を持ち、スケール上の特徴応答の平均プールは、スケール上の最大プールのアプローチよりも良い結果をもたらす可能性があることを実験的に実証した。 そして,最終層の後における空間最大プーリング機構を用いることで,画像領域における非中心オブジェクトの局所化が可能であり,スケールの一般化特性が維持可能であることを示す。 また、トレーニング中の規則化は、スケールチャネルドロップアウトと呼ばれるスケールチャネルをまたいだドロップアウトを適用することで、パフォーマンスとスケールの一般化の両方を改善することも示している。 さらなるアブレーション研究では、ガウス微分核の離散的類似に基づくガウス微分ネットワークの判別が、ガウス微分核の他の離散的近似の集合と比較すると、ガウス微分作用素と組み合わせて、最も良いか最も良いかを示す。 最後に、アクティベーションマップと学習された受容場を視覚化することにより、ガウス微分ネットワークが非常に優れた説明性を持つことを示す。

This paper presents an in-depth analysis of the scale generalisation properties of the scale-covariant and scale-invariant Gaussian derivative networks, complemented with both conceptual and algorithmic extensions. For this purpose, Gaussian derivative networks are evaluated on new rescaled versions of the Fashion-MNIST and the CIFAR-10 datasets, with spatial scaling variations over a factor of 4 in the testing data, that are not present in the training data. Additionally, evaluations on the previously existing STIR datasets show that the Gaussian derivative networks achieve better scale generalisation than previously reported for these datasets for other types of deep networks. We first experimentally demonstrate that the Gaussian derivative networks have quite good scale generalisation properties on the new datasets, and that average pooling of feature responses over scales may sometimes also lead to better results than the previously used approach of max pooling over scales. Then, we demonstrate that using a spatial max pooling mechanism after the final layer enables localisation of non-centred objects in image domain, with maintained scale generalisation properties. We also show that regularisation during training, by applying dropout across the scale channels, referred to as scale-channel dropout, improves both the performance and the scale generalisation. In additional ablation studies, we demonstrate that discretisations of Gaussian derivative networks, based on the discrete analogue of the Gaussian kernel in combination with central difference operators, perform best or among the best, compared to a set of other discrete approximations of the Gaussian derivative kernels. Finally, by visualising the activation maps and the learned receptive fields, we demonstrate that the Gaussian derivative networks have very good explainability properties.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 有限集合からの線形システム同定のためのサンプル複雑度境界

Sample Complexity Bounds for Linear System Identification from a Finite Set ( http://arxiv.org/abs/2409.11141v1 )

ライセンス: Link先を確認
Nicolas Chatzikiriakos, Andrea Iannelli, (参考訳) 本稿では、軌跡データを用いた可能なシステムの有限集合からLTIシステムを特定する問題に対する有限標本視点について考察する。 この目的のために、最大極大推定器を用いて真のシステムを特定し、サンプルの複雑さを上限とする。 重要なことに、導出した境界は潜在的に制限的な安定性の仮定に依存しない。 さらに、情報理論のツールを活用して、使用済み推定器とは独立に保持されるサンプルの複雑さに対する低いバウンドを提供する。 得られたサンプル複雑性境界を解析的および数値的に解析する。

This paper considers a finite sample perspective on the problem of identifying an LTI system from a finite set of possible systems using trajectory data. To this end, we use the maximum likelihood estimator to identify the true system and provide an upper bound for its sample complexity. Crucially, the derived bound does not rely on a potentially restrictive stability assumption. Additionally, we leverage tools from information theory to provide a lower bound to the sample complexity that holds independently of the used estimator. The derived sample complexity bounds are analyzed analytically and numerically.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# Semformer: セマンティックプランニングを伴うトランスフォーマー言語モデル

Semformer: Transformer Language Models with Semantic Planning ( http://arxiv.org/abs/2409.11143v1 )

ライセンス: Link先を確認
Yongjing Yin, Junran Ding, Kai Song, Yue Zhang, (参考訳) 次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。 トレーニングフェーズの間、モデルは教師の強制力を使用し、前のすべての真実のトークンに基づいてトークンを予測する。 しかし、このアプローチはショートカットを作成するために発見され、明らかにプレフィックスを利用して、将来のトークンに急激な適合を図り、次のトークン予測器の精度を損なう可能性がある。 本稿では,応答のセマンティック・プランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。 具体的には、プレフィックスに計画トークンのシーケンスを組み込み、自動エンコーダによって誘導される応答の潜在意味表現を予測するために計画トークン表現を誘導する。 最小限の計画タスク(すなわちグラフパスフィニング)において、我々のモデルはほぼ完璧な性能を示し、ショートカット学習を効果的に軽減する。 さらに,Semformer をスクラッチから 125M パラメータで事前訓練し,その効果をパープレキシティ,文脈内学習,要約タスクの微調整などで実証した。

Next-token prediction serves as the dominant component in current neural language models. During the training phase, the model employs teacher forcing, which predicts tokens based on all preceding ground truth tokens. However, this approach has been found to create shortcuts, utilizing the revealed prefix to spuriously fit future tokens, potentially compromising the accuracy of the next-token predictor. In this paper, we introduce Semformer, a novel method of training a Transformer language model that explicitly models the semantic planning of response. Specifically, we incorporate a sequence of planning tokens into the prefix, guiding the planning token representations to predict the latent semantic representations of the response, which are induced by an autoencoder. In a minimal planning task (i.e., graph path-finding), our model exhibits near-perfect performance and effectively mitigates shortcut learning, a feat that standard training methods and baseline models have been unable to accomplish. Furthermore, we pretrain Semformer from scratch with 125M parameters, demonstrating its efficacy through measures of perplexity, in-context learning, and fine-tuning on summarization tasks.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# フォース, ボット! -- イベントベースのリプレーニングを備えたフォース対応プロDMP

Use the Force, Bot! -- Force-Aware ProDMP with Event-Based Replanning ( http://arxiv.org/abs/2409.11144v1 )

ライセンス: Link先を確認
Paul Werner Lödige, Maximilian Xiling Li, Rudolf Lioutikov, (参考訳) ムーブメントプリミティブ(英: Movement Primitives、MP)は、モジュラーロボットの軌跡を表現・生成するための確立された方法である。 本研究は,確率的運動プリミティブ(probabilistic Dynamic Movement Primitives, ProDMP)に力覚を与える新しいアプローチであるFA-ProDMPを提示する。 FA-ProDMPは、測定と所望の力を考慮に入れ、実行中に軌道に適応する。 滑らかな軌道を提供し、複数の軌道上の位置と力の相関を捉えている。 FA-ProDMPは複数の力軸をサポートしており、カルデシアンや関節の空間制御には依存しない。 これによりFA-ProDMPは、研磨、切断、産業組み立てなどのリッチな操作タスクをデモから学ぶための貴重なツールとなる。 FA-ProDMPを確実に評価するために、この研究は、人気のLego Technicピンにインスパイアされたモジュール式の3DプリントタスクスイートPOEMPELも導入した。 POEMPELは産業用ペグインホール組立タスクを強制要求で模倣する。 位置、方向、プラグ剛性などの調整のパラメータが複数用意されており、必要な力の方向と量を変える。 実験の結果, FA-ProDMPはPOEMPELセットアップや電源プラグ挿入タスクにおいて他のMP式よりも優れており, 測定力に基づく再設計能力が高いことがわかった。 これらの結果は、FA-ProDMPがコンタクトリッチな操作タスクにおけるロボットシステムの性能をいかに向上させるかを示している。

Movement Primitives (MPs) are a well-established method for representing and generating modular robot trajectories. This work presents FA-ProDMP, a new approach which introduces force awareness to Probabilistic Dynamic Movement Primitives (ProDMP). FA-ProDMP adapts the trajectory during runtime to account for measured and desired forces. It offers smooth trajectories and captures position and force correlations over multiple trajectories, e.g. a set of human demonstrations. FA-ProDMP supports multiple axes of force and is thus agnostic to cartesian or joint space control. This makes FA-ProDMP a valuable tool for learning contact rich manipulation tasks such as polishing, cutting or industrial assembly from demonstration. In order to reliably evaluate FA-ProDMP, this work additionally introduces a modular, 3D printed task suite called POEMPEL, inspired by the popular Lego Technic pins. POEMPEL mimics industrial peg-in-hole assembly tasks with force requirements. It offers multiple parameters of adjustment, such as position, orientation and plug stiffness level, thus varying the direction and amount of required forces. Our experiments show that FA-ProDMP outperforms other MP formulations on the POEMPEL setup and a electrical power plug insertion task, due to its replanning capabilities based on the measured forces. These findings highlight how FA-ProDMP enhances the performance of robotic systems in contact-rich manipulation tasks.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 潜時拡散モデルを用いた高分解能音声再生

High-Resolution Speech Restoration with Latent Diffusion Model ( http://arxiv.org/abs/2409.11145v1 )

ライセンス: Link先を確認
Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu, (参考訳) 従来の音声強調法は、単一の歪みに着目して復元作業を単純化することが多い。 複数の歪みを処理する生成モデルは、しばしば電話の再構成や高周波ハーモニクスに苦しむため、呼吸やガスのアーチファクトは、再構成された音声の信頼性を低下させる。 これらのモデルもまた計算的に要求され、多くのソリューションは広帯域の周波数範囲で出力を出力することに制限されており、プロのアプリケーションに適合する可能性を制限する。 これらの課題に対処するために,48kHzでサンプリングした複数の歪みを除去し,音声記録をスタジオ品質に復元する潜在拡散に基づく新しい生成モデルHi-ResLDMを提案する。 我々は、GANとCFM(Conditional Flow Matching)コンポーネントを活用する最先端手法に対してHi-ResLDMをベンチマークし、高周波帯域の詳細を再生する際の優れた性能を示す。 Hi-ResLDMは、非侵襲的指標に優れるだけでなく、人間の評価にも一貫して好まれ、侵入的評価に競争力を発揮し、高分解能音声復元に最適である。

Traditional speech enhancement methods often oversimplify the task of restoration by focusing on a single type of distortion. Generative models that handle multiple distortions frequently struggle with phone reconstruction and high-frequency harmonics, leading to breathing and gasping artifacts that reduce the intelligibility of reconstructed speech. These models are also computationally demanding, and many solutions are restricted to producing outputs in the wide-band frequency range, which limits their suitability for professional applications. To address these challenges, we propose Hi-ResLDM, a novel generative model based on latent diffusion designed to remove multiple distortions and restore speech recordings to studio quality, sampled at 48kHz. We benchmark Hi-ResLDM against state-of-the-art methods that leverage GAN and Conditional Flow Matching (CFM) components, demonstrating superior performance in regenerating high-frequency-band details. Hi-ResLDM not only excels in non-instrusive metrics but is also consistently preferred in human evaluation and performs competitively on intrusive evaluations, making it ideal for high-resolution speech restoration.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 文脈内学習における経験的検索のための推論グラフの強化

Reasoning Graph Enhanced Exemplars Retrieval for In-Context Learning ( http://arxiv.org/abs/2409.11147v1 )

ライセンス: Link先を確認
Yukang Lin, Bingchen Zhong, Shuoran Jiang, Joanna Siebert, Qingcai Chen, (参考訳) 大規模言語モデル (LLM) は, 卓越した数発の学習能力を示し, 文脈内学習 (ICL) 技術により, NLPタスクのパラダイムを統一した。 ICLの成功にもかかわらず、模範的なデモの質はLLMのパフォーマンスに大きな影響を及ぼす可能性がある。 既存の例選択法は主に、クエリと候補例のセマンティックな類似性に焦点を当てている。 一方、推論ステップ間の論理的接続は、問題解決プロセスの記述にも有用である。 本稿では,Reasoning Graph-enhanced Exemplar Retrieval(RGER)という新しい手法を提案する。 RGER はまず LLM を取得して初期応答を生成し、次に中間的な問題解決ステップをグラフ構造に表現する。 その後、グラフカーネルを使用して、意味的および構造的類似性のある例を選択する。 広範囲にわたる実験は、構造的関係がクエリと候補例のアライメントに役立つことを実証している。 数学とロジット推論タスクにおけるRGERの有効性は、最先端の検索に基づくアプローチよりも優れていることを示している。 私たちのコードはhttps://github.com/Yukang-Lin/RGER.comで公開されています。

Large language models(LLMs) have exhibited remarkable few-shot learning capabilities and unified the paradigm of NLP tasks through the in-context learning(ICL) technique. Despite the success of ICL, the quality of the exemplar demonstrations can significantly influence the LLM's performance. Existing exemplar selection methods mainly focus on the semantic similarity between queries and candidate exemplars. On the other hand, the logical connections between reasoning steps can be beneficial to depict the problem-solving process as well. In this paper, we proposes a novel method named Reasoning Graph-enhanced Exemplar Retrieval(RGER). RGER first quires LLM to generate an initial response, then expresses intermediate problem-solving steps to a graph structure. After that, it employs graph kernel to select exemplars with semantic and structural similarity. Extensive experiments demonstrate the structural relationship is helpful to the alignment of queries and candidate exemplars. The efficacy of RGER on math and logit reasoning tasks showcases its superiority over state-of-the-art retrieval-based approaches. Our code is released at https://github.com/Yukang-Lin/RGER.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 視覚的に拡張された言語モデルの効率性向上

Improving the Efficiency of Visually Augmented Language Models ( http://arxiv.org/abs/2409.11148v1 )

ライセンス: Link先を確認
Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune, (参考訳) 自己回帰言語モデル(LM)の顕著な性能にもかかわらず、報告バイアスのため、LMには視覚的知識がないことが示されている。 視覚的知識でLMを拡張するために、既存のソリューションはしばしば明示的なイメージに依存し、時間を要する検索や画像生成システムを必要とする。 本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。 代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。 公平な比較のために、画像検索と表現を用いた視覚拡張型LMであるVALMを修正し、視覚的に接地されたテキスト表現と直接連携する。 我々はこの新しいモデル BLIND-VALM を命名する。 BLIND-VALM は VALM for Visual Language Understanding (VLU), Natural Language Understanding (NLU) および Language Modeling タスクと同等に動作するが, より効率的でシンプルである。 また、VALMの計算予算内でモデルをスケールアップし、モデルの増加または事前学習コーパスサイズを向上し、全ての評価タスクにおいてVALMより優れていることを示す。

Despite the impressive performance of autoregressive Language Models (LM) it has been shown that due to reporting bias, LMs lack visual knowledge, i.e. they do not know much about the visual world and its properties. To augment LMs with visual knowledge, existing solutions often rely on explicit images, requiring time-consuming retrieval or image generation systems. This paper shows that explicit images are not necessary to visually augment an LM. Instead, we use visually-grounded text representations obtained from the well-known CLIP multimodal system. For a fair comparison, we modify VALM, a visually-augmented LM which uses image retrieval and representation, to work directly with visually-grounded text representations. We name this new model BLIND-VALM. We show that BLIND-VALM performs on par with VALM for Visual Language Understanding (VLU), Natural Language Understanding (NLU) and Language Modeling tasks, despite being significantly more efficient and simpler. We also show that scaling up our model within the compute budget of VALM, either increasing the model or pre-training corpus size, we outperform VALM for all the evaluation tasks.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# SAGED: カスタマイズ可能なフェアネス校正を備えた言語モデルのための全体論的なバイアスベンチマークパイプライン

SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration ( http://arxiv.org/abs/2409.11149v1 )

ライセンス: Link先を確認
Xin Guan, Nathaniel Demchak, Saloni Gupta, Ze Wang, Ediz Ertekin Jr., Adriano Koshiyama, Emre Kazim, Zekun Wu, (参考訳) バイアスのない大規模言語モデルの開発は極めて重要であると広く認識されているが、既存のベンチマークはスコープの制限、汚染、公平性基準の欠如によるバイアスの検出に不足している。 SAGED(-Bias)はこれらの問題に対処する最初の総合的なベンチマークパイプラインである。 パイプラインは、スクレイピング材料、ベンチマークの組み立て、レスポンスの生成、数値的な特徴の抽出、異質なメトリクスの診断の5つのコアステージを含んでいる。 SAGEDには、インパクト比やマックスZスコアなどのバイアス集中といった最大差のメトリクスが含まれている。 SAGEDは、プロンプトにおける評価ツールのバイアスと文脈バイアスが評価を歪ませる可能性があることに気付き、修正のためのデファクトブランチとベースラインキャリブレーションを実装している。 デモでは、Gemma2、Llama3.1、Mistral、Qwen2など、人気のある8bレベルのモデルでG20諸国でSAGEDを使用します。 感情分析により、MistralとQwen2はGemma2やLlama3.1よりも最大差とバイアス濃度が低いが、すべてのモデルがロシアや(Qwen2を除く)中国に偏っていることが判明した。 ロールプレイングの米国大統領をモデルとするさらなる実験により、偏見は不均一な方向に増幅しシフトする。 さらに、Qwen2 と Mistral はロールプレイングには関与せず、Llama3.1 と Gemma2 のロールプレイング・トランプはビデンやハリスよりも特に集中しており、これらのモデルにおけるロールプレイングのパフォーマンスバイアスを示している。

The development of unbiased large language models is widely recognized as crucial, yet existing benchmarks fall short in detecting biases due to limited scope, contamination, and lack of a fairness baseline. SAGED(-Bias) is the first holistic benchmarking pipeline to address these problems. The pipeline encompasses five core stages: scraping materials, assembling benchmarks, generating responses, extracting numeric features, and diagnosing with disparity metrics. SAGED includes metrics for max disparity, such as impact ratio, and bias concentration, such as Max Z-scores. Noticing that assessment tool bias and contextual bias in prompts can distort evaluation, SAGED implements counterfactual branching and baseline calibration for mitigation. For demonstration, we use SAGED on G20 Countries with popular 8b-level models including Gemma2, Llama3.1, Mistral, and Qwen2. With sentiment analysis, we find that while Mistral and Qwen2 show lower max disparity and higher bias concentration than Gemma2 and Llama3.1, all models are notably biased against countries like Russia and (except for Qwen2) China. With further experiments to have models role-playing U.S. (vice-/former-) presidents, we see bias amplifies and shifts in heterogeneous directions. Moreover, we see Qwen2 and Mistral not engage in role-playing, while Llama3.1 and Gemma2 role-play Trump notably more intensively than Biden and Harris, indicating role-playing performance bias in these models.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# UltimateDO: Channel2heightによる3Dオブジェクト検出による職業予測の効率化

UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height ( http://arxiv.org/abs/2409.11160v1 )

ライセンス: Link先を確認
Zichen Yu, Changyong Shu, (参考訳) 現代自律運転システムにおける2つの標準課題として, 作業と3次元物体検出が特徴的である。 より正確で時間を要するトレードオフを持つエッジチップにそれらをデプロイするために、現代のアプローチでは、個々のタスクのためのスタンドアロンモデルをデプロイするか、別々のヘッドを持つマルチタスクパラダイムを設計する。 しかし、それらは3D畳み込み、トランスフォーマーなど、配置上の困難やタスク調整の欠陥に悩まされる可能性がある。 代わりに、多様なチップへの展開を容易にし、少ない時間で高精度なフレームワークを開発するべきだ、と私たちは主張する。 そこで我々は,3次元物体検出と占有予測の相互作用のパラダイムを再考し,モデルを2次元畳み込みで再構成し,それぞれが貢献するタスクを優先順位付けする。 そこで本研究では,FlashOccの光占有率予測ヘッドを3次元物体検出ネットワークに結合し,それぞれ1.1msの時間しか消費しない高速な3次元物体検出と占有率予測(UltimateDO)を実現する手法を提案する。 我々は、挑戦的なnuScenesシリーズベンチマークでUltimateDOをインスタンス化する。

Occupancy and 3D object detection are characterized as two standard tasks in modern autonomous driving system. In order to deploy them on a series of edge chips with better precision and time-consuming trade-off, contemporary approaches either deploy standalone models for individual tasks, or design a multi-task paradigm with separate heads. However, they might suffer from deployment difficulties (i.e., 3D convolution, transformer and so on) or deficiencies in task coordination. Instead, we argue that a favorable framework should be devised in pursuit of ease deployment on diverse chips and high precision with little time-consuming. Oriented at this, we revisit the paradigm for interaction between 3D object detection and occupancy prediction, reformulate the model with 2D convolution and prioritize the tasks such that each contributes to other. Thus, we propose a method to achieve fast 3D object detection and occupancy prediction (UltimateDO), wherein the light occupancy prediction head in FlashOcc is married to 3D object detection network, with negligible additional timeconsuming of only 1.1ms while facilitating each other. We instantiate UltimateDO on the challenging nuScenes-series benchmarks.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 視覚障害者を支援するロボットモビリティ支援のための合成データ強化

Synthetic data augmentation for robotic mobility aids to support blind and low vision people ( http://arxiv.org/abs/2409.11164v1 )

ライセンス: Link先を確認
Hochul Hwang, Krisha Adhikari, Satya Shodhaka, Donghyun Kim, (参考訳) 視覚障害者のためのロボットモビリティ支援(BLV)は、様々なナビゲーションタスクに特化した深層学習に基づく視覚モデルに大きく依存している。 しかし、これらのモデルの性能は実世界のデータセットの可用性と多様性によって制約されることが多く、様々なタスクに十分な量の収集が困難である。 本研究では,Unreal Engine 4を用いて生成した合成データの有効性について検討した。 本研究は, 実世界のデータと比較して, 多タスク間のモデル性能を向上し, その可能性と限界を両立させることを実証するものである。 ロボットモビリティ支援の開発において、合成データ生成の最適化に関する貴重な洞察を提供する。 さらに、生成した合成データセットを公開して、BLV個人のための支援技術に関する継続的な研究を支援する。

Robotic mobility aids for blind and low-vision (BLV) individuals rely heavily on deep learning-based vision models specialized for various navigational tasks. However, the performance of these models is often constrained by the availability and diversity of real-world datasets, which are challenging to collect in sufficient quantities for different tasks. In this study, we investigate the effectiveness of synthetic data, generated using Unreal Engine 4, for training robust vision models for this safety-critical application. Our findings demonstrate that synthetic data can enhance model performance across multiple tasks, showcasing both its potential and its limitations when compared to real-world data. We offer valuable insights into optimizing synthetic data generation for developing robotic mobility aids. Additionally, we publicly release our generated synthetic dataset to support ongoing research in assistive technologies for BLV individuals, available at https://hchlhwang.github.io/SToP.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# コミュニティ間の文字表現の差異を捉える:ファンドムによる最初の研究

Capturing Differences in Character Representations Between Communities: An Initial Study with Fandom ( http://arxiv.org/abs/2409.11170v1 )

ライセンス: Link先を確認
Bianca N. Y. Kang, (参考訳) 社会言語学理論は、物語がどのように再編集され、共同構築され、協調的な環境で再認識されるかを強調している。 本研究は、物語の世界における重要な部分であるキャラクターの再解釈に焦点を当て、オンラインコミュニティ間でどのように計算的に比較されるかを研究する。 オンラインファンドム(オンラインファンドム)は、データとして、2つのコミュニティとオリジナルテキスト間の文字表現の変化を探索するために、定性的に研究されている非常に共同的な現象である。 具体的には、ハリー・ポッターの小説、r/ハリー・ポッターのサブレディット、および『アーカイヴ・オブ・アーカイヴ・オブ・アーティファクト』のファンフィクションのテキストを分析し、キャラクターの言及の変化、共起ネットワークからの集中度対策、セマンティック・アソシエーションについて分析した。 ファンは過去の作品で見られるような二次的なキャラクターをほとんど増やさないが、2つのファンコミュニティはキャラクターの異なるサブセットを優先している。 単語の埋め込みテストは、フェミニニティ/男性性、残酷さ、美という性的な概念に関して、コミュニティ間で同じキャラクターの非常に異なる関連性を示す。 さらに,ロマンスペアリング間で解析された男性キャラクタのファンフィクション記述は,男性ロマンスにおける女性コーディネート特性が高く,定性理論と一致する。 その結果,コミュニティ全体での物語的要素の再概念化と,ファンドムに関する定性的研究を支援するための計算手法の可能性が高まった。

Sociolinguistic theories have highlighted how narratives are often retold, co-constructed and reconceptualized in collaborative settings. This working paper focuses on the re-interpretation of characters, an integral part of the narrative story-world, and attempts to study how this may be computationally compared between online communities. Using online fandom - a highly communal phenomenon that has been largely studied qualitatively - as data, computational methods were applied to explore shifts in character representations between two communities and the original text. Specifically, text from the Harry Potter novels, r/HarryPotter subreddit, and fanfiction on Archive of Our Own were analyzed for changes in character mentions, centrality measures from co-occurrence networks, and semantic associations. While fandom elevates secondary characters as found in past work, the two fan communities prioritize different subsets of characters. Word embedding tests reveal starkly different associations of the same characters between communities on the gendered concepts of femininity/masculinity, cruelty, and beauty. Furthermore, fanfiction descriptions of a male character analyzed between romance pairings scored higher for feminine-coded characteristics in male-male romance, matching past qualitative theorizing. The results high-light the potential for computational methods to assist in capturing the re-conceptualization of narrative elements across communities and in supporting qualitative research on fandom.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# Annealed Winner-Takes-All for Motion Forecasting

Annealed Winner-Takes-All for Motion Forecasting ( http://arxiv.org/abs/2409.11172v1 )

ライセンス: Link先を確認
Yihong Xu, Victor Letzelter, Mickaël Chen, Éloi Zablocki, Matthieu Cord, (参考訳) 自律運転では、運動予測は、近くのエージェントの将来の軌跡を予測し、エゴ車両が行動を予測し、安全に運転するのを助けることを目的としている。 重要な課題は、MCL(Multiple Choice Learning)アーキテクチャとWinner-Takes-All(WTA)トレーニング目標を備えたデータ駆動モデルを使って、さまざまな将来の予測を生成することだ。 しかし、これらの手法は初期化感度と訓練不安定性に直面している。 さらに、限られた性能を補うために、いくつかのアプローチでは、予測数を著しく減少させるために、推論中に選択後のステップを必要とする、大量の仮説によるトレーニングに依存している。 これらの問題に対処するため、最近導入されたMCL法により、Winner-Takes-All Los (aWTA) によるMCL法の収束性を向上する手法である。 本稿では,AWTAの損失を最先端の動作予測モデルに統合して,最小限の仮説のみを用いて性能を向上させる方法を示す。 我々の手法は、通常WTAを用いて訓練された任意の軌道予測モデルに容易に組み込むことができ、大幅な改善をもたらす。 将来の動き予測モデルへの我々のアプローチの適用を容易にするため、コードは受理時に公開される。

In autonomous driving, motion prediction aims at forecasting the future trajectories of nearby agents, helping the ego vehicle to anticipate behaviors and drive safely. A key challenge is generating a diverse set of future predictions, commonly addressed using data-driven models with Multiple Choice Learning (MCL) architectures and Winner-Takes-All (WTA) training objectives. However, these methods face initialization sensitivity and training instabilities. Additionally, to compensate for limited performance, some approaches rely on training with a large set of hypotheses, requiring a post-selection step during inference to significantly reduce the number of predictions. To tackle these issues, we take inspiration from annealed MCL, a recently introduced technique that improves the convergence properties of MCL methods through an annealed Winner-Takes-All loss (aWTA). In this paper, we demonstrate how the aWTA loss can be integrated with state-of-the-art motion forecasting models to enhance their performance using only a minimal set of hypotheses, eliminating the need for the cumbersome post-selection step. Our approach can be easily incorporated into any trajectory prediction model normally trained using WTA and yields significant improvements. To facilitate the application of our approach to future motion forecasting models, the code will be made publicly available upon acceptance: https://github.com/valeoai/MF_aWTA.
翻訳日:2024-09-18 16:45:13 公開日:2024-09-17
# 自己監督型グラフ変換器による脳ネットワーク内の流入ノードの同定

Identifying Influential nodes in Brain Networks via Self-Supervised Graph-Transformer ( http://arxiv.org/abs/2409.11174v1 )

ライセンス: Link先を確認
Yanqing Kang, Di Zhu, Haiyang Zhang, Enze Shi, Sigang Yu, Jinru Wu, Xuhui Wang, Xuan Liu, Geng Chen, Xi Jiang, Tuo Zhang, Shu Zhang, (参考訳) 脳ネットワークにおける影響ノード(Iノード)の研究は、脳イメージングの分野において非常に重要である。 既存の研究の多くは、脳接続ハブをIノードとみなしている。 しかし、このアプローチは、特にそのアーキテクチャが完全に理解されていない場合、脳ネットワークの本質的な特性を無視するグラフ理論からの事前知識に大きく依存する。 対照的に、自己教師型ディープラーニングはデータから直接意味のある表現を学習することができる。 このアプローチは、現在の研究にも欠けている脳ネットワークのためのIノードの探索を可能にする。 本稿では,グラフ変換器(SSGR-GT)をベースとした自己改善グラフ再構成フレームワークを提案する。 まず、自己監督モデルとして、SSGR-GTは再建に対する脳ノードの重要性を抽出する。 第2に、SSGR-GTはGraph-Transformerを使用している。 第3に、Iノードのマルチモーダル解析は、機能的および構造的脳情報を組み合わせたグラフベースの融合技術を使用する。 得られたI-nodesは, 上前頭葉, 外側頭頂葉, 外側頭頂葉などの重要な領域に分布し, 合計56個を異なる実験で同定した。 これらのIノードは、他の領域よりも多くの脳ネットワークに関与し、繊維接続が長く、構造接続においてより中心的な位置を占める。 また、機能的ネットワークと構造的ネットワークの両方において、強い接続性と高いノード効率を示す。 さらに、Iノードと構造的および機能的なリッチクラブの間には大きな重複がある。 これらの知見は脳ネットワーク内のI-ノードの理解を高め、脳の働きのメカニズムをさらに理解するための新たな知見を提供する。

Studying influential nodes (I-nodes) in brain networks is of great significance in the field of brain imaging. Most existing studies consider brain connectivity hubs as I-nodes. However, this approach relies heavily on prior knowledge from graph theory, which may overlook the intrinsic characteristics of the brain network, especially when its architecture is not fully understood. In contrast, self-supervised deep learning can learn meaningful representations directly from the data. This approach enables the exploration of I-nodes for brain networks, which is also lacking in current studies. This paper proposes a Self-Supervised Graph Reconstruction framework based on Graph-Transformer (SSGR-GT) to identify I-nodes, which has three main characteristics. First, as a self-supervised model, SSGR-GT extracts the importance of brain nodes to the reconstruction. Second, SSGR-GT uses Graph-Transformer, which is well-suited for extracting features from brain graphs, combining both local and global characteristics. Third, multimodal analysis of I-nodes uses graph-based fusion technology, combining functional and structural brain information. The I-nodes we obtained are distributed in critical areas such as the superior frontal lobe, lateral parietal lobe, and lateral occipital lobe, with a total of 56 identified across different experiments. These I-nodes are involved in more brain networks than other regions, have longer fiber connections, and occupy more central positions in structural connectivity. They also exhibit strong connectivity and high node efficiency in both functional and structural networks. Furthermore, there is a significant overlap between the I-nodes and both the structural and functional rich-club. These findings enhance our understanding of the I-nodes within the brain network, and provide new insights for future research in further understanding the brain working mechanisms.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# SuperCoder2.0: 自律型プログラマとしてのLCMの実現可能性を探る技術レポート

SuperCoder2.0: Technical Report on Exploring the feasibility of LLMs as Autonomous Programmer ( http://arxiv.org/abs/2409.11190v1 )

ライセンス: Link先を確認
Anmol Gautam, Kishore Kumar, Adarsh Jha, Mukunda NS, Ishaan Bhola, (参考訳) 我々は,人工知能によるソフトウェア開発の強化を目的とした,高度な自律システムであるSuperCoder2.0を紹介する。 このシステムは、AIネイティブな開発アプローチとインテリジェントエージェントを組み合わせて、完全に自律的なコーディングを可能にする。 主な重点分野は、エラー出力トレースバックを備えたリトライ機構、リンティング問題を最小化するために抽象構文木(ast)解析を使用した包括的なコード書き換えと置換、検索拡張生成のためのコード埋め込み技術、特定の行数を特定するのではなく、問題解決のためのローカライズ方法に焦点を当てている。 この手法では、コードベースのナビゲーションとバグのローカライゼーションに3段階の階層的な検索スペース削減アプローチが採用されている:Retrieval Augmented Generation (RAG)とRepository File Level Mapを使用して候補ファイルを識別し、(2)File Level Schematic Mapを使用して最も関連性の高いファイルに絞り込み、(3)これらのファイル内で「関連する場所」を抽出する。 コード編集は、CodeGenerationとCodeEditingという2つのモジュールを通じて実行され、異なる温度値で複数のソリューションを生成し、コード整合性を維持するためにメソッドやクラス全体を置き換える。 フィードバックループはリポジトリレベルのテストケースを実行し、ソリューションを検証する。 SWE-bench Liteデータセットで実施された実験は、SuperCoder2.0の有効性を示し、上位5候補の84.33%で正しいファイルローカライゼーションを実現し、テストインスタンスの34%の解決に成功した。 このパフォーマンスは、SuperCoder2.0をSWE-benchのリーダーボードで世界第4位に位置づけている。 多様なリポジトリや問題タイプを扱うシステムの能力は、自律ソフトウェア開発の汎用ツールとしての可能性を強調している。 今後の作業は、コード編集プロセスの洗練と、改良された自然言語からコードマッピングのための高度な埋め込みモデルを探求することに集中する。

We present SuperCoder2.0, an advanced autonomous system designed to enhance software development through artificial intelligence. The system combines an AI-native development approach with intelligent agents to enable fully autonomous coding. Key focus areas include a retry mechanism with error output traceback, comprehensive code rewriting and replacement using Abstract Syntax Tree (ast) parsing to minimize linting issues, code embedding technique for retrieval-augmented generation, and a focus on localizing methods for problem-solving rather than identifying specific line numbers. The methodology employs a three-step hierarchical search space reduction approach for code base navigation and bug localization:utilizing Retrieval Augmented Generation (RAG) and a Repository File Level Map to identify candidate files, (2) narrowing down to the most relevant files using a File Level Schematic Map, and (3) extracting 'relevant locations' within these files. Code editing is performed through a two-part module comprising CodeGeneration and CodeEditing, which generates multiple solutions at different temperature values and replaces entire methods or classes to maintain code integrity. A feedback loop executes repository-level test cases to validate and refine solutions. Experiments conducted on the SWE-bench Lite dataset demonstrate SuperCoder2.0's effectiveness, achieving correct file localization in 84.33% of cases within the top 5 candidates and successfully resolving 34% of test instances. This performance places SuperCoder2.0 fourth globally on the SWE-bench leaderboard. The system's ability to handle diverse repositories and problem types highlights its potential as a versatile tool for autonomous software development. Future work will focus on refining the code editing process and exploring advanced embedding models for improved natural language to code mapping.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# 倫理的パーソナルAIアプリケーションに向けて:長期記憶を持つAIアシスタントの実践的考察

Towards Ethical Personal AI Applications: Practical Considerations for AI Assistants with Long-Term Memory ( http://arxiv.org/abs/2409.11192v1 )

ライセンス: Link先を確認
Eunhae Lee, (参考訳) トラクションを増大させる長期記憶機能(LTM)の応用分野は、パーソナルAIコンパニオンとアシスタントである。 過去のインタラクションを維持し、コンテキストに適応し、ユーザの好みに適応する能力によって、パーソナルAIコンパニオンとアシスタントは、AIとのインタラクション方法の大幅なシフトを約束し、個人的および専門的な設定では欠かせないものになる。 しかし、この進歩は新たな課題と脆弱性を導入し、これらのシステムの展開と広範囲な利用について慎重に検討する必要がある。 本研究の目的は、総合的な評価手法を用いて、LTM機能を備えたパーソナルAIアプリケーションを構築およびデプロイすることの幅広い意味について検討することである。 これは3つの方法で行われます。 1)LTMの大規模言語モデルにおける技術基盤の見直し 2)現在のパーソナルAIコンパニオンやアシスタントを調査し、 3)これらのアプリケーションのデプロイと利用に関する重要な考察と意味を分析する。

One application area of long-term memory (LTM) capabilities with increasing traction is personal AI companions and assistants. With the ability to retain and contextualize past interactions and adapt to user preferences, personal AI companions and assistants promise a profound shift in how we interact with AI and are on track to become indispensable in personal and professional settings. However, this advancement introduces new challenges and vulnerabilities that require careful consideration regarding the deployment and widespread use of these systems. The goal of this paper is to explore the broader implications of building and deploying personal AI applications with LTM capabilities using a holistic evaluation approach. This will be done in three ways: 1) reviewing the technological underpinnings of LTM in Large Language Models, 2) surveying current personal AI companions and assistants, and 3) analyzing critical considerations and implications of deploying and using these applications.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# SDP:学習可能なチャネルワイズ膜閾値を用いたロボットマニピュレーションのためのスパイキング拡散政策

SDP: Spiking Diffusion Policy for Robotic Manipulation with Learnable Channel-Wise Membrane Thresholds ( http://arxiv.org/abs/2409.11195v1 )

ライセンス: Link先を確認
Zhixing Hou, Maoxu Gao, Hang Yu, Mengyu Yang, Chio-In Ieong, (参考訳) 本稿では,スパイキングニューロンと学習可能なチャネルワイド膜閾値(LCMT)を拡散ポリシモデルに統合することにより,ロボット操作のためのスパイキング拡散ポリシー(SDP)学習手法を提案する。 具体的には、提案するSDPモデルでは、スパイキングニューラルネットワーク(SNN)内での拡散学習のバックボーンとしてU-Netアーキテクチャを採用している。 スパイク畳み込み操作とLeaky Integrate-and-Fire(LIF)ノードの間の残コネクションを戦略的に配置することで、スパイク状態の破壊を防止する。 さらに、時相符号化ブロックと時相復号ブロックを導入し、時間ステップ$T_S$で静的および動的データを変換し、スパイク形式でSNN内のデータの送信を可能にする。 さらに,膜電位閾値の適応的取得を可能にするLCMTを提案し,膜電位の変動条件とチャネル間の発火速度とを一致させ,手動でハイパーパラメータを設定・調整する煩雑なプロセスを回避する。 SNN の時間ステップ $T_S=4$ で 7 つのタスクに対する SDP モデルの評価を行い、ベースライン SNN 法よりも高速な収束速度とともに、ANN の時間ステップに匹敵する結果を得る。 この改良は、45nmのハードウェア上で推定される動的エネルギー消費の94.3\%の削減を伴う。

This paper introduces a Spiking Diffusion Policy (SDP) learning method for robotic manipulation by integrating Spiking Neurons and Learnable Channel-wise Membrane Thresholds (LCMT) into the diffusion policy model, thereby enhancing computational efficiency and achieving high performance in evaluated tasks. Specifically, the proposed SDP model employs the U-Net architecture as the backbone for diffusion learning within the Spiking Neural Network (SNN). It strategically places residual connections between the spike convolution operations and the Leaky Integrate-and-Fire (LIF) nodes, thereby preventing disruptions to the spiking states. Additionally, we introduce a temporal encoding block and a temporal decoding block to transform static and dynamic data with timestep $T_S$ into each other, enabling the transmission of data within the SNN in spike format. Furthermore, we propose LCMT to enable the adaptive acquisition of membrane potential thresholds, thereby matching the conditions of varying membrane potentials and firing rates across channels and avoiding the cumbersome process of manually setting and tuning hyperparameters. Evaluating the SDP model on seven distinct tasks with SNN timestep $T_S=4$, we achieve results comparable to those of the ANN counterparts, along with faster convergence speeds than the baseline SNN method. This improvement is accompanied by a reduction of 94.3\% in dynamic energy consumption estimated on 45nm hardware.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# 一般化Wigner-Yanaseスキュー情報による非古典的相関の定量化

Quantifying nonclassical correlation via the generalized Wigner-Yanase skew information ( http://arxiv.org/abs/2409.11198v1 )

ライセンス: Link先を確認
Yan Hong, Xinlan Hao, Limin Gao, (参考訳) 非古典的相関は量子情報理論において重要な概念であり、古典物理学の範囲を超える量子系の間に存在する特別なタイプの相関を参照する。 本稿では、有名な量子フィッシャー情報とウィグナー・ヤネーゼスキュー情報が特別な場合である一般化ウィグナー・ヤネーゼスキュー情報という重要な性質を持つ情報の族の概念を紹介し、一般化ウィグナー・ヤネーゼスキュー情報を2つのカテゴリ(直交基底と固定非退化スペクトルを持つエルミート作用素)に分類し、これに基づいて、二部量子状態の非古典的相関を定量化するための2つの異なる指標形式を提案する。 これらの2種類の指標の重要な性質を調べただけでなく、特定の例を通して、それらが実際にいくつかの非古典的相関を捉えることができることを示した。 さらに、これらの2種類の指標は、両分極純状態の絡み合い尺度に還元されることが判明した。 具体的には、これらの2つの指標と絡み合いの指標である$I$-concurrenceの関係を導出する。

Nonclassical correlation is an important concept in quantum information theory, referring to a special type of correlation that exists between quantum systems, which surpasses the scope of classical physics. In this paper, we introduce the concept of a family of information with important properties, namely the generalized Wigner-Yanase skew information, of which the famous quantum Fisher information and Wigner-Yanase skew information are special cases.We classify the local observables in the generalized Wigner-Yanase skew information into two categories (i.e., orthonormal bases and a Hermitian operator with a fixed nondegenerate spectrum), and based on this, we propose two different forms of indicators to quantify nonclassical correlations of bipartite quantum states. We have not only investigated some important properties of these two kinds of indicators but also illustrated through specific examples that they can indeed capture some nonclassical correlations. Furthermore, we find that these two types of indicators reduce to entanglement measure for bipartite pure states. Specifically, we also derive the relationship between these two indicators and the entanglement measure $I$-concurrence.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# LoRa Communication for Agriculture 4.0:オポチュニティ、課題、今後の方向性

LoRa Communication for Agriculture 4.0: Opportunities, Challenges, and Future Directions ( http://arxiv.org/abs/2409.11200v1 )

ライセンス: Link先を確認
Lameya Aldhaheri, Noor Alshehhi, Irfana Ilyas Jameela Manzil, Ruhul Amin Khalil, Shumaila Javaid, Nasir Saeed, Mohamed-Slim Alouini, (参考訳) スマート農業の新興分野は、IoT(Internet of Things)を活用して農業プラクティスに革命をもたらす。 本稿では,農業用IoTシステムにおける長距離無線通信の鍵となるLong Range(LoRa)技術の転換可能性について検討する。 既存の文献をレビューすることで、スマート農業におけるコミュニケーションの観点から、LoRaの展望と課題に焦点を当てた研究のギャップを特定する。 我々は,LoRaを基盤とした農業ネットワークの詳細,ネットワークアーキテクチャの設計,農業環境に合わせた物理層(PHY)の考察,土壌特性を考慮した水路モデリング技術について検討した。 さらに,大規模農業景観におけるネットワーク網の拡充とデータ伝達の最適化という課題に対処する中継・ルーティング機構について検討した。 現実的な側面に移行して,センサ配置戦略とエネルギー管理技術について議論し,実世界の展開に対する洞察を提供する。 LoRaと農業用IoTアプリケーションで使用されている他の無線通信技術の比較分析は、この文脈におけるその強みと弱点を強調している。 さらに,LoRaをベースとした農業4.0の可能性を活用するための今後の研究の方向性について概説する。 これには、多様な農業環境のためのチャネルモデリングの進歩、新しい中継ルーティングアルゴリズム、ハイパースペクトルイメージングやドローンベースのセンシングといった新興センサー技術の統合、オンデバイス人工知能(AI)モデル、持続可能なソリューションなどが含まれる。 この調査は、研究者、技術者、実践者がLoRa技術を使ってスマート農業のイニシアチブを理解し、実装し、推進するためのガイドとなる。

The emerging field of smart agriculture leverages the Internet of Things (IoT) to revolutionize farming practices. This paper investigates the transformative potential of Long Range (LoRa) technology as a key enabler of long-range wireless communication for agricultural IoT systems. By reviewing existing literature, we identify a gap in research specifically focused on LoRa's prospects and challenges from a communication perspective in smart agriculture. We delve into the details of LoRa-based agricultural networks, covering network architecture design, Physical Layer (PHY) considerations tailored to the agricultural environment, and channel modeling techniques that account for soil characteristics. The paper further explores relaying and routing mechanisms that address the challenges of extending network coverage and optimizing data transmission in vast agricultural landscapes. Transitioning to practical aspects, we discuss sensor deployment strategies and energy management techniques, offering insights for real-world deployments. A comparative analysis of LoRa with other wireless communication technologies employed in agricultural IoT applications highlights its strengths and weaknesses in this context. Furthermore, the paper outlines several future research directions to leverage the potential of LoRa-based agriculture 4.0. These include advancements in channel modeling for diverse farming environments, novel relay routing algorithms, integrating emerging sensor technologies like hyper-spectral imaging and drone-based sensing, on-device Artificial Intelligence (AI) models, and sustainable solutions. This survey can guide researchers, technologists, and practitioners to understand, implement, and propel smart agriculture initiatives using LoRa technology.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# HS3-Bench:運転シナリオにおけるハイパースペクトルセマンティックセグメンテーションのためのベンチマークと強力なベースライン

HS3-Bench: A Benchmark and Strong Baseline for Hyperspectral Semantic Segmentation in Driving Scenarios ( http://arxiv.org/abs/2409.11205v1 )

ライセンス: Link先を確認
Nick Theisen, Robin Bartsch, Dietrich Paulus, Peer Neubert, (参考訳) セマンティックセグメンテーションは、シーンと内部のオブジェクトを理解するために多くの視覚アプリケーションにとって重要なステップである。 ハイパースペクトルイメージング技術の最近の進歩により、運転シナリオへの応用が可能となり、デバイスがRGBカメラよりも有利になることを期待している。 いくつかのデータセットが存在するが、このタスクの進捗を体系的に測定し、ハイパースペクトルデータの利点を評価するための標準ベンチマークは存在しない。 本稿では,HyperSpectral Semantic Segmentationベンチマーク(HS3-Bench)を提供することにより,このギャップを解消する。 3つの駆動シナリオデータセットからの注釈付きハイパースペクトル画像を組み合わせて、標準化されたメトリクス、実装、評価プロトコルを提供する。 このベンチマークは、個々のデータセットを事前トレーニングすることなく、以前の最先端のパフォーマンスを上回る2つの強力なベースラインモデルを生成するために使用します。 さらに,既存の学習手法は,追加のハイパースペクトルチャネルを活用することよりも,追加のRGBトレーニングデータを活用することのメリットが示唆された。 このことは、運転シナリオにおけるセマンティックセグメンテーションのためのハイパースペクトルイメージングの今後の研究に重要な疑問をもたらす。 ベンチマークと強力なベースラインアプローチを実行するためのコードは、https://github.com/nickstheisen/hyperseg.comで公開されている。

Semantic segmentation is an essential step for many vision applications in order to understand a scene and the objects within. Recent progress in hyperspectral imaging technology enables the application in driving scenarios and the hope is that the devices perceptive abilities provide an advantage over RGB-cameras. Even though some datasets exist, there is no standard benchmark available to systematically measure progress on this task and evaluate the benefit of hyperspectral data. In this paper, we work towards closing this gap by providing the HyperSpectral Semantic Segmentation benchmark (HS3-Bench). It combines annotated hyperspectral images from three driving scenario datasets and provides standardized metrics, implementations, and evaluation protocols. We use the benchmark to derive two strong baseline models that surpass the previous state-of-the-art performances with and without pre-training on the individual datasets. Further, our results indicate that the existing learning-based methods benefit more from leveraging additional RGB training data than from leveraging the additional hyperspectral channels. This poses important questions for future research on hyperspectral imaging for semantic segmentation in driving scenarios. Code to run the benchmark and the strong baseline approaches are available under https://github.com/nickstheisen/hyperseg.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# 交通力学の高度表現のための高次進化グラフ

High-Order Evolving Graphs for Enhanced Representation of Traffic Dynamics ( http://arxiv.org/abs/2409.11206v1 )

ライセンス: Link先を確認
Aditya Humnabadkar, Arindam Sikdar, Benjamin Cave, Huaizhong Zhang, Paul Bakaki, Ardhendu Behera, (参考訳) 本稿では,自律運転環境における時空間表現の改善を目的とした高次進化グラフを用いた交通動態解析のための革新的なフレームワークを提案する。 提案手法は,リアルタイムに交通シーン内の複雑な相互作用を効果的にモデル化する,時間的双方向二部グラフを構築する。 グラフニューラルネットワーク(GNN)と高次多重集約戦略を統合することにより,交通シーンのダイナミックスモデリングを大幅に強化し,これらのインタラクションをより正確かつ詳細に分析する。 さらに、GraphSAGEフレームワークにインスパイアされた帰納的学習技術を導入し、再トレーニングを必要とせず、新しい交通シナリオに適応できるようにし、堅牢な一般化を実現する。 ROADおよびROAD Waymoデータセットに関する広範な実験を通じて、さらなる開発のための包括的なベースラインを確立し、トラフィックの挙動を正確に把握する手法の可能性を示す。 本研究は,交通行動解析における高次統計モーメントの価値と特徴有意な注意機構を強調し,自動運転技術の進歩に向けた基礎を築いた。 私たちのソースコードは、https://github.com/Addy-1998/High\_Order\_Graphs.comで公開されています。

We present an innovative framework for traffic dynamics analysis using High-Order Evolving Graphs, designed to improve spatio-temporal representations in autonomous driving contexts. Our approach constructs temporal bidirectional bipartite graphs that effectively model the complex interactions within traffic scenes in real-time. By integrating Graph Neural Networks (GNNs) with high-order multi-aggregation strategies, we significantly enhance the modeling of traffic scene dynamics, providing a more accurate and detailed analysis of these interactions. Additionally, we incorporate inductive learning techniques inspired by the GraphSAGE framework, enabling our model to adapt to new and unseen traffic scenarios without the need for retraining, thus ensuring robust generalization. Through extensive experiments on the ROAD and ROAD Waymo datasets, we establish a comprehensive baseline for further developments, demonstrating the potential of our method in accurately capturing traffic behavior. Our results emphasize the value of high-order statistical moments and feature-gated attention mechanisms in improving traffic behavior analysis, laying the groundwork for advancing autonomous driving technologies. Our source code is available at: https://github.com/Addy-1998/High\_Order\_Graphs
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# 適応量子固有解法からの励起状態の整合:部分空間拡大対状態平均戦略

Challenging Excited States from Adaptive Quantum Eigensolvers: Subspace Expansions vs. State-Averaged Strategies ( http://arxiv.org/abs/2409.11210v1 )

ライセンス: Link先を確認
Harper R. Grimsley, Francesco A. Evangelista, (参考訳) 強相関分子の電子構造の予測は、短期量子コンピュータへの有望な応用である。 基底状態の波動関数には重要な注意が払われているが、分子の励起状態は比較的解明されていない。 本研究では、基底状態を得るための単一参照手法であるADAPT-VQEアルゴリズムと、複数の状態の同時計算のための状態平均一般化について考察する。 我々は、長方形および線型 H$_4$ および BeH$_2$ に対して、MORE-ADAPT-VQE と呼ばれるこのアプローチは、単参照 ADAPT-VQE 計算 q-sc-EOM に基づくアナラゴス法よりも小さな励起多様体をうまく活用できることを示した。 特に、MORE-ADAPT-VQEは、避けられた交差と異なる対称性の状態間の交差の両方を正確に記述することができる。 より正確な励起状態エネルギーに加えて、MORE-ADAPT-VQEは従来のADAPT-VQEとq-sc-EOMが競合する状況下で正確な遷移双極子モーメントを回復することができる。 これらの改善は、難しい励起状態問題に対する量子コンピュータの使用に向けた有望な方向を示唆している。

The prediction of electronic structure for strongly correlated molecules represents a promising application for near-term quantum computers. Significant attention has been paid to ground state wavefunctions, but excited states of molecules are relatively unexplored. In this work, we consider the ADAPT-VQE algorithm, a single-reference approach for obtaining ground states, and its state-averaged generalization for computing multiple states at once. We demonstrate for both rectangular and linear H$_4$, as well as for BeH$_2$, that this approach, which we call MORE-ADAPT-VQE, can make better use of small excitation manifolds than an analagous method based on a single-reference ADAPT-VQE calculation, q-sc-EOM. In particular, MORE-ADAPT-VQE is able to accurately describe both avoided crossings and crossings between states of different symmetries. In addition to more accurate excited state energies, MORE-ADAPT-VQE can recover accurate transition dipole moments in situations where traditional ADAPT-VQE and q-sc-EOM struggle. These improvements suggest a promising direction toward the use of quantum computers for difficult excited state problems.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# SplatFields:スパルス3次元および4次元再構成のためのニューラルガウススプラット

SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction ( http://arxiv.org/abs/2409.11211v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer, (参考訳) マルチビュー画像から3D静的シーンと4Dダイナミックイベントをディジタイズすることは、コンピュータビジョンとグラフィックスにおいて長年の課題であった。 近年, 3D Gaussian Splatting (3DGS) が実用的かつスケーラブルな再構築手法として登場し, その印象的な再構築品質, リアルタイムレンダリング機能, 広く使用されている可視化ツールとの互換性などにより人気を博している。 しかし、高品質なシーン再構築を実現するためには、かなりの数のインプットビューが必要である。 この課題は特にダイナミックなシーンをキャプチャする上で深刻で、広いカメラアレイを配置することは違法にコストがかかる可能性がある。 本研究では,スパース再構成における3DGS手法の最適性能に寄与する要因の一つとしてスプレート特徴の空間的自己相関が欠如していることを明らかにする。 この問題に対処するため,暗黙的ニューラルネットワークの出力としてモデル化することで,スプレート特徴を効果的に正規化する最適化手法を提案する。 これにより、様々なシナリオにおける再構築品質が一貫した向上をもたらす。 当社のアプローチは,異なるセットアップやシーンの複雑さをまたいだ広範なテストによって実証されるような,静的および動的ケースを効果的に処理する。

Digitizing 3D static scenes and 4D dynamic events from multi-view images has long been a challenge in computer vision and graphics. Recently, 3D Gaussian Splatting (3DGS) has emerged as a practical and scalable reconstruction method, gaining popularity due to its impressive reconstruction quality, real-time rendering capabilities, and compatibility with widely used visualization tools. However, the method requires a substantial number of input views to achieve high-quality scene reconstruction, introducing a significant practical bottleneck. This challenge is especially severe in capturing dynamic scenes, where deploying an extensive camera array can be prohibitively costly. In this work, we identify the lack of spatial autocorrelation of splat features as one of the factors contributing to the suboptimal performance of the 3DGS technique in sparse reconstruction settings. To address the issue, we propose an optimization strategy that effectively regularizes splat features by modeling them as the outputs of a corresponding implicit neural field. This results in a consistent enhancement of reconstruction quality across various scenarios. Our approach effectively handles static and dynamic cases, as demonstrated by extensive testing across different setups and scene complexities.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# 不確実性強化された選好最適化による自己進化型大規模言語モデル

Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization ( http://arxiv.org/abs/2409.11212v1 )

ライセンス: Link先を確認
Jianing Wang, Yang Zhou, Xiaocheng Zhang, Mengjiao Bao, Peng Yan, (参考訳) 反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっているが、ループで得られるノイズの多い選好データが多すぎるため、まだパフォーマンスが急落している。 この問題に対処するために、信頼性の高いフィードバックでLLMを自己進化させるために、 \textbf{U}ncertainty-enhanced \textbf{P}reference \textbf{O}ptimization (UPO) フレームワークを提案する。 鍵となる考え方は、ペアワイド不確実性推定と司法的に信頼できるフィードバックサンプリングを行うことにより、現在の方針と報奨モデルから導かれるノイズの多い選好データを緩和することである。 この目標を達成するために,ベイジアンニューラルネットワーク (BNN) にモンテカルロ (MC) のドロップアウトを組み込んだ推定器モデルを導入する。 報酬スコアに基づいて生成した応答を直接フィルタリングする既存の手法と比較して、推定器はモデルの不確実性をペアワイズに焦点を合わせ、報酬モデルの確認バイアス問題を効果的に回避する。 さらに、優先最適化の堅牢性を改善するための不確実性向上自己進化アルゴリズムを提案し、高い報酬と確実性の両方でLLMが応答を生成することを奨励する。 複数のベンチマークに対する大規模な実験により、我々のフレームワークはノイズ問題を大幅に軽減し、反復的選好最適化の性能を向上することが示された。

Iterative preference optimization has recently become one of the de-facto training paradigms for large language models (LLMs), but the performance is still underwhelming due to too much noisy preference data yielded in the loop. To combat this issue, we present an \textbf{U}ncertainty-enhanced \textbf{P}reference \textbf{O}ptimization (UPO) framework to make the LLM self-evolve with reliable feedback. The key idea is mitigating the noisy preference data derived from the current policy and reward models by performing pair-wise uncertainty estimation and judiciously reliable feedback sampling. To reach this goal, we thus introduce an estimator model, which incorporates Monte Carlo (MC) dropout in Bayesian neural network (BNN) to perform uncertainty estimation for the preference data derived from the LLM policy. Compared to the existing methods that directly filter generated responses based on the reward score, the estimator focuses on the model uncertainty in a pair-wise manner and effectively bypasses the confirmation bias problem of the reward model. Additionally, we also propose an uncertainty-enhanced self-evolution algorithm to improve the robustness of preference optimization and encourage the LLM to generate responses with both high reward and certainty. Extensive experiments over multiple benchmarks demonstrate that our framework substantially alleviates the noisy problem and improves the performance of iterative preference optimization.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-17
# コントラスト的アスペクトベース感性分析のためのChatGPTに基づく拡張戦略の探索

Exploring ChatGPT-based Augmentation Strategies for Contrastive Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2409.11218v1 )

ライセンス: Link先を確認
Lingling Xu, Haoran Xie, S. Joe Qin, Fu Lee Wang, Xiaohui Tao, (参考訳) アスペクトベースの感情分析(ABSA)は、文中の特定の側面の言葉に対する感情を識別し、製品、サービス、トピックの特定の側面に関するニュアンスな視点と態度を明らかにする。 しかし、ラベル付きデータの不足は、高品質なモデルをトレーニングする上で大きな課題となる。 この問題に対処するために、我々は、多言語モデル(LLM)であるChatGPTを用いたデータ拡張の可能性を探り、アスペクト項に対する感情分類性能を向上させる。 具体的には,ChatGPTに基づく3つのデータ拡張戦略について検討する。 文脈に焦点をあてたデータ拡張は、アスペクト項をそのまま保ちながら文中の文脈語の単語表現を変更することに焦点を当てる。 対照的に、アスペクトにフォーカスしたデータ拡張は、アスペクト用語を変更することを目的としている。 Context-Aspectデータ拡張は、上記の2つのデータ拡張を統合して、強化されたサンプルを生成する。 さらに,コントラスト学習をABSAタスクに組み込んで性能向上を図る。 大規模な実験により,3つのデータ拡張手法がすべて性能改善につながることが示され,コンテキストアスペクティブなデータ拡張戦略がベースラインモデルの性能を上回っている。

Aspect-based sentiment analysis (ABSA) involves identifying sentiment towards specific aspect terms in a sentence and allows us to uncover nuanced perspectives and attitudes on particular aspects of a product, service, or topic. However, the scarcity of labeled data poses a significant challenge to training high-quality models. To address this issue, we explore the potential of data augmentation using ChatGPT, a well-performing large language model (LLM), to enhance the sentiment classification performance towards aspect terms. Specifically, we explore three data augmentation strategies based on ChatGPT: context-focused, aspect-focused, and context-aspect data augmentation techniques. Context-focused data augmentation focuses on changing the word expression of context words in the sentence while keeping aspect terms unchanged. In contrast, aspect-focused data augmentation aims to change aspect terms but keep context words unchanged. Context-Aspect data augmentation integrates the above two data augmentations to generate augmented samples. Furthermore, we incorporate contrastive learning into the ABSA tasks to improve performance. Extensive experiments show that all three data augmentation techniques lead to performance improvements, with the context-aspect data augmentation strategy performing best and surpassing the performance of the baseline models.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# Score Forgetting Distillation: 拡散モデルにおける機械学習のためのスウィフトでデータフリーな手法

Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models ( http://arxiv.org/abs/2409.11219v1 )

ライセンス: Link先を確認
Tianqi Chen, Shujian Zhang, Mingyuan Zhou, (参考訳) 機械学習コミュニティは、現代のジェネレーティブAI(GenAI)モデルにおいて、信頼と安全性を促進することの重要性をますます認識している。 我々は、安全でセキュアで信頼性の高いGenAIモデルを開発するための重要な基盤として、機械学習(MU)を定めている。 従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。 本稿では,「安全でない」クラスや概念の条件スコアを「安全でない」クラスと整合させることにより,拡散モデルにおける望ましくない情報の忘れを促進させる,革新的なMU手法である「スコアフォーッティング蒸留(SFD)」を紹介する。 実データを必要としないため,本フレームワークでは,事前学習した拡散モデルのスコア蒸留目標にスコアベースのMU損失を組み込む。 これは、所望の生成能力を保ちつつ、ワンステップジェネレータによる合成データの生成を可能にする正規化用語として機能する。 事前学習したラベル条件およびテキスト・ツー・イメージ拡散モデルを用いた実験により,本手法は,他のクラスや概念の品質を維持しつつ,生成中の対象クラスや概念の忘れ忘れを効果的に促進することを示した。 この未学習で蒸留された拡散は、MUにおける新しい概念の先駆けとなるだけでなく、拡散モデルの生成速度も加速する。 拡散モデルとデータセットに関する実験と研究により、拡散モデルにおけるMUのアプローチが一般化可能であり、有効であり、有利であることが確認された。

The machine learning community is increasingly recognizing the importance of fostering trust and safety in modern generative AI (GenAI) models. We posit machine unlearning (MU) as a crucial foundation for developing safe, secure, and trustworthy GenAI models. Traditional MU methods often rely on stringent assumptions and require access to real data. This paper introduces Score Forgetting Distillation (SFD), an innovative MU approach that promotes the forgetting of undesirable information in diffusion models by aligning the conditional scores of ``unsafe'' classes or concepts with those of ``safe'' ones. To eliminate the need for real data, our SFD framework incorporates a score-based MU loss into the score distillation objective of a pretrained diffusion model. This serves as a regularization term that preserves desired generation capabilities while enabling the production of synthetic data through a one-step generator. Our experiments on pretrained label-conditional and text-to-image diffusion models demonstrate that our method effectively accelerates the forgetting of target classes or concepts during generation, while preserving the quality of other classes or concepts. This unlearned and distilled diffusion not only pioneers a novel concept in MU but also accelerates the generation speed of diffusion models. Our experiments and studies on a range of diffusion models and datasets confirm that our approach is generalizable, effective, and advantageous for MU in diffusion models.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# マルチモーダルアテンション強化機能融合による週ごとの異常ウイルス検出

Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection ( http://arxiv.org/abs/2409.11223v1 )

ライセンス: Link先を確認
Yuta Kaneko, Abu Saleh Musa Miah, Najmul Hassan, Hyoun-Sup Lee, Si-Woong Jang, Jungpil Shin, (参考訳) 弱教師付きビデオ異常検出(WS-VAD)は、インテリジェントな監視システムの開発において、コンピュータビジョンにおいて重要な領域である。 本システムではRGBビデオ,光流,音声信号の3つの特徴ストリームを用いて,各ストリームが付加されたアテンションモジュールを用いて補完的な空間的特徴と時間的特徴を抽出し,検出精度とロバスト性を向上させる。 第1のストリームでは,第1のステージはVTベースのCLIPモジュールで構成され,第1のステージはI3DおよびTCAをベースとした豊富な時空間特徴と平行に結合したトップk機能を持つRGBビデオから,空間的・時間的特徴を改善するために,注目に基づく多段階特徴強調手法を採用した。 第2段階は、正規データと異常データの表現を同時に学習するUncertainty-Regulated Dual Memory Units (UR-DMU)モデルを用いて、時間的依存関係を効果的にキャプチャし、第3段階は、最も関連する時空間の特徴を選択するために使用される。 第2ストリームは、ディープラーニングとアテンションモジュールの統合を利用して、フローデータモダリティに基づく特徴から、注目に基づく時空間的特徴を抽出した。 音声ストリームは、VGGishモデルと統合されたアテンションモジュールを用いて聴覚手がかりをキャプチャし、音響パターンに基づいて異常を検出する。 これらのストリームは、視覚分析だけでは検出不可能な異常事象を示す動きと音声信号を組み込むことで、モデルを豊かにする。 多モード融合の連結は各モードの強度を活用し、3つのデータセットの異常検出精度とロバスト性を大幅に改善する包括的特徴セットをもたらす。 3つのベンチマークデータセットによる広範な実験とハイパフォーマンスにより、既存の最先端システムよりも提案システムの有効性が証明された。

Weakly supervised video anomaly detection (WS-VAD) is a crucial area in computer vision for developing intelligent surveillance systems. This system uses three feature streams: RGB video, optical flow, and audio signals, where each stream extracts complementary spatial and temporal features using an enhanced attention module to improve detection accuracy and robustness. In the first stream, we employed an attention-based, multi-stage feature enhancement approach to improve spatial and temporal features from the RGB video where the first stage consists of a ViT-based CLIP module, with top-k features concatenated in parallel with I3D and Temporal Contextual Aggregation (TCA) based rich spatiotemporal features. The second stage effectively captures temporal dependencies using the Uncertainty-Regulated Dual Memory Units (UR-DMU) model, which learns representations of normal and abnormal data simultaneously, and the third stage is employed to select the most relevant spatiotemporal features. The second stream extracted enhanced attention-based spatiotemporal features from the flow data modality-based feature by taking advantage of the integration of the deep learning and attention module. The audio stream captures auditory cues using an attention module integrated with the VGGish model, aiming to detect anomalies based on sound patterns. These streams enrich the model by incorporating motion and audio signals often indicative of abnormal events undetectable through visual analysis alone. The concatenation of the multimodal fusion leverages the strengths of each modality, resulting in a comprehensive feature set that significantly improves anomaly detection accuracy and robustness across three datasets. The extensive experiment and high performance with the three benchmark datasets proved the effectiveness of the proposed system over the existing state-of-the-art system.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# コンジョイント分析を用いた生体計測システムの人間中心リスク評価

A Human-Centered Risk Evaluation of Biometric Systems Using Conjoint Analysis ( http://arxiv.org/abs/2409.11224v1 )

ライセンス: Link先を確認
Tetsushi Ohki, Narishige Abe, Hidetsugu Uchida, Shigefumi Yamada, (参考訳) 生体認証システムは、その利便性で知られ、様々な分野に広く採用されている。 しかし、彼らのセキュリティは、認証アルゴリズムとデプロイメント環境によってリスクに直面している。 現在のリスク評価手法は、攻撃者のモチベーションの重要な要素を取り入れる上で重大な課題に直面しており、不完全な評価につながっている。 本稿では, コンジョイント分析を用いて, 監視カメラなどのリスク要因が攻撃者のモチベーションに与える影響を定量化するために, 新たな人間中心型リスク評価フレームワークを提案する。 本フレームワークは、False Acceptance Rate(FAR)とアタック確率を組み込んだリスク値を算出し、ユースケース間の総合的な比較を可能にする。 600人の日本人参加者を対象とした調査では,攻撃者のモチベーションにどう影響するかを示すとともに,本手法の有効性を示した。 このアプローチは、生体認証システムをカスタマイズし、ユーザビリティを維持しながらセキュリティを高めるのに役立つ。

Biometric recognition systems, known for their convenience, are widely adopted across various fields. However, their security faces risks depending on the authentication algorithm and deployment environment. Current risk assessment methods faces significant challenges in incorporating the crucial factor of attacker's motivation, leading to incomplete evaluations. This paper presents a novel human-centered risk evaluation framework using conjoint analysis to quantify the impact of risk factors, such as surveillance cameras, on attacker's motivation. Our framework calculates risk values incorporating the False Acceptance Rate (FAR) and attack probability, allowing comprehensive comparisons across use cases. A survey of 600 Japanese participants demonstrates our method's effectiveness, showing how security measures influence attacker's motivation. This approach helps decision-makers customize biometric systems to enhance security while maintaining usability.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# リモートセンシングにおける一般的なFew-Shotセマンティックセマンティックセマンティックセグメンテーション:チャレンジとベンチマーク

Generalized Few-Shot Semantic Segmentation in Remote Sensing: Challenge and Benchmark ( http://arxiv.org/abs/2409.11227v1 )

ライセンス: Link先を確認
Clifford Broni-Bediako, Junshi Xia, Jian Song, Hongruixuan Chen, Mennatullah Siam, Naoto Yokoya, (参考訳) ラベル付きデータによる学習は、リモートセンシングなど、さまざまなアプリケーションにおいて難しい問題である。 ほとんどショットのセマンティックセグメンテーションは、ディープラーニングモデルがトレーニング中に見られない新しいクラスのラベル付き例から学ぶことを奨励する1つのアプローチである。 一般化された数ショットセグメンテーション設定では、モデルが新しいクラスに適応するだけでなく、トレーニングベースクラスで強力なパフォーマンスを維持することを奨励する追加の課題がある。 従来のデータセットやベンチマークでは、リモートセンシングにおける数ショットセグメンテーション設定について論じていたが、リモートセンシングのための一般化された数ショットセグメンテーションベンチマークを最初に提案した。 一般化された設定はより現実的で困難であり、リモートセンシングコンテキスト内でそれを探索する必要がある。 一般化された数ショット評価設定のためにラベル付けされた追加クラスを備えたOpenEarthMapの拡張データセットをリリースする。 データセットはOpenEarthMapのランドカバーマッピングでリリースされ、CVPR 2024と共同でL3D-IVUワークショップで一般化された数ショットチャレンジが実施された。 本研究は,データセットと課題の詳細を要約し,検証とテストセットの2段階のベンチマーク結果を提供する。

Learning with limited labelled data is a challenging problem in various applications, including remote sensing. Few-shot semantic segmentation is one approach that can encourage deep learning models to learn from few labelled examples for novel classes not seen during the training. The generalized few-shot segmentation setting has an additional challenge which encourages models not only to adapt to the novel classes but also to maintain strong performance on the training base classes. While previous datasets and benchmarks discussed the few-shot segmentation setting in remote sensing, we are the first to propose a generalized few-shot segmentation benchmark for remote sensing. The generalized setting is more realistic and challenging, which necessitates exploring it within the remote sensing context. We release the dataset augmenting OpenEarthMap with additional classes labelled for the generalized few-shot evaluation setting. The dataset is released during the OpenEarthMap land cover mapping generalized few-shot challenge in the L3D-IVU workshop in conjunction with CVPR 2024. In this work, we summarize the dataset and challenge details in addition to providing the benchmark results on the two phases of the challenge for the validation and test sets.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# ニューラルオーディオコーデックにおける音源歪みの学習

Learning Source Disentanglement in Neural Audio Codec ( http://arxiv.org/abs/2409.11228v1 )

ライセンス: Link先を確認
Xiaoyu Bie, Xubo Liu, Gaël Richard, (参考訳) ニューラルオーディオコーデックは、連続したオーディオ信号を離散トークンに効率よく変換することで、かなり高度なオーディオ圧縮を有する。 これらのコーデックは高品質な音を保存し、これらのトークンで訓練された生成モデルを通じて洗練された音を生成することができる。 しかし、既存のニューラルコーデックモデルは、通常、大きな、未分化のオーディオデータセットに基づいて訓練され、音声、音楽、環境音といった音領域間の重要な相違を無視している。 これはデータモデリングを複雑にし、音生成の制御性にさらなる課題をもたらす。 これらの問題に対処するために、オーディオ符号化とソース分離を組み合わせた新しいアプローチである Source-Disentangled Neural Audio Codec (SD-Codec) を導入する。 SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。 実験結果から,SD-Codecは競合再生品質を維持するだけでなく,分離結果に支えられ,遅延空間における異なるソースのアンタングル化を成功させ,オーディオコーデックの解釈可能性を高め,音声生成プロセスに対する潜在的な微妙な制御を提供することが示唆された。

Neural audio codecs have significantly advanced audio compression by efficiently converting continuous audio signals into discrete tokens. These codecs preserve high-quality sound and enable sophisticated sound generation through generative models trained on these tokens. However, existing neural codec models are typically trained on large, undifferentiated audio datasets, neglecting the essential discrepancies between sound domains like speech, music, and environmental sound effects. This oversight complicates data modeling and poses additional challenges to the controllability of sound generation. To tackle these issues, we introduce the Source-Disentangled Neural Audio Codec (SD-Codec), a novel approach that combines audio coding and source separation. By jointly learning audio resynthesis and separation, SD-Codec explicitly assigns audio signals from different domains to distinct codebooks, sets of discrete representations. Experimental results indicate that SD-Codec not only maintains competitive resynthesis quality but also, supported by the separation results, demonstrates successful disentanglement of different sources in the latent space, thereby enhancing interpretability in audio codec and providing potential finer control over the audio generation process.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# ランダムK-SAT問題の解法におけるOpenAI O1-Previewモデルの高速解析: LLMは自己解法か外部SAT解法か?

Fast Analysis of the OpenAI O1-Preview Model in Solving Random K-SAT Problem: Does the LLM Solve the Problem Itself or Call an External SAT Solver? ( http://arxiv.org/abs/2409.11232v1 )

ライセンス: Link先を確認
Raffaele Marino, (参考訳) 本稿では、K$\in {2,3,4}$のランダムなK-SATインスタンスを$\alpha=M/N$の関数として解く際に、OpenAI O1-previewモデルの性能分析を行い、$M$は節数であり、$N$は満足できる問題の変数数である。 私は、モデルが直接解決するのではなく、外部SATソルバを呼び出してインスタンスを解決できることを示します。 外部ソルバを使用したにもかかわらず、モデルでは不正な代入を出力として報告している。 さらに,OpenAI O1-previewモデルがインテリジェンスの火花を示すのか,あるいはブール適合性問題に代入する際のランダムな推測を単に行うのかを定量化する分析手法を提案し,提案する。

In this manuscript I present an analysis on the performance of OpenAI O1-preview model in solving random K-SAT instances for K$\in {2,3,4}$ as a function of $\alpha=M/N$ where $M$ is the number of clauses and $N$ is the number of variables of the satisfiable problem. I show that the model can call an external SAT solver to solve the instances, rather than solving them directly. Despite using external solvers, the model reports incorrect assignments as output. Moreover, I propose and present an analysis to quantify whether the OpenAI O1-preview model demonstrates a spark of intelligence or merely makes random guesses when outputting an assignment for a Boolean satisfiability problem.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# 大規模言語モデルのタスク特化性能に及ぼす圧縮手法の影響評価

Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models ( http://arxiv.org/abs/2409.11233v1 )

ライセンス: Link先を確認
Bishwash Khanal, Jeffery M. Capone, (参考訳) 大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかるため、効率的な圧縮技術の必要性が高まっている。 本研究では,LLaMA-2-7Bモデルに対する一般的な圧縮手法であるMagnitude Pruning, SparseGPT, Wandaの影響を評価し,モデルサイズ削減,ダウンストリームタスク性能,キャリブレーションデータの役割のトレードオフに着目した。 以上の結果から,SparseGPTとWandaは50%の間隔でもパープレキシティを保ちつつも,下流作業では有意に低下し,唯一の評価基準としてパープレキシティの欠如が浮き彫りとなった。 これを解決するために、Jensen-Shannon (JS) Divergenceを、圧縮後のモデル行動の微妙な変化を捉える、より包括的なメトリクスとして紹介する。 さらに,タスク固有のキャリブレーションデータが,一般的なキャリブレーションデータと比較して圧縮モデルの下流性能を著しく向上させることを示した。 本研究は, LLM圧縮の複雑さとその実用への応用を十分に理解するために, 多様な評価指標と慎重な校正データ選択が必要であることを明らかにする。

Large language models (LLMs) offer powerful capabilities but incur substantial computational costs, driving the need for efficient compression techniques. This study evaluates the impact of popular compression methods - Magnitude Pruning, SparseGPT, and Wanda - on the LLaMA-2-7B model, focusing on the trade-offs between model size reduction, downstream task performance, and the role of calibration data. Our findings reveal that while SparseGPT and Wanda preserve perplexity even at 50% sparsity, they suffer significant degradation on downstream tasks, highlighting the inadequacy of perplexity as the sole evaluation metric. To address this, we introduce Jensen-Shannon (JS) Divergence as a more comprehensive metric that captures nuanced changes in model behavior post-compression. We further demonstrate that task-specific calibration data significantly enhances the downstream performance of compressed models compared to general calibration data. This research underscores the necessity for diverse evaluation metrics and careful calibration data selection to fully understand the complexities of LLM compression and its implications for practical applications.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# STCMOT:UAVによる複数物体追跡のための時空間結合学習

STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking ( http://arxiv.org/abs/2409.11234v1 )

ライセンス: Link先を確認
Jianbo Ma, Chuanming Tang, Fei Wu, Can Zhao, Jianlin Zhang, Zhiyong Xu, (参考訳) 無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。 現在のMOTトラッカーは、正確な対象検出結果とターゲット再識別(ReID)の正確なマッチングに依存している。 これらの手法は,物体関係のモデル化における時間的手がかりを見越しながら,対象空間特性の最適化に重点を置いている。 上記の課題に対処するため, 歴史的埋め込み機能を用いてReIDの表現と検出機能を逐次的にモデル化する新しい時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。 具体的には、隣接するフレーム協調に基づく個別の埋め込みの識別性を高めるために、時間的埋め込み促進モジュールを導入する。 そして、軌道埋め込みを時間検出精製モジュールで伝播させ、時間フィールド内の有意な目標位置をマイニングする。 VisDrone2019 と UAVDT データセットに関する大規模な実験では、STCMOT がMOTA と IDF1 のメトリクスで新しい最先端のパフォーマンスを設定できることを示した。 ソースコードはhttps://github.com/ydhcg-BoBo/STCMOTで公開されている。

Multiple object tracking (MOT) in Unmanned Aerial Vehicle (UAV) videos is important for diverse applications in computer vision. Current MOT trackers rely on accurate object detection results and precise matching of target reidentification (ReID). These methods focus on optimizing target spatial attributes while overlooking temporal cues in modelling object relationships, especially for challenging tracking conditions such as object deformation and blurring, etc. To address the above-mentioned issues, we propose a novel Spatio-Temporal Cohesion Multiple Object Tracking framework (STCMOT), which utilizes historical embedding features to model the representation of ReID and detection features in a sequential order. Concretely, a temporal embedding boosting module is introduced to enhance the discriminability of individual embedding based on adjacent frame cooperation. While the trajectory embedding is then propagated by a temporal detection refinement module to mine salient target locations in the temporal field. Extensive experiments on the VisDrone2019 and UAVDT datasets demonstrate our STCMOT sets a new state-of-the-art performance in MOTA and IDF1 metrics. The source codes are released at https://github.com/ydhcg-BoBo/STCMOT.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# SLAck: セマンティック、ロケーション、外観はオープン語彙追跡を意識する

SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking ( http://arxiv.org/abs/2409.11235v1 )

ライセンス: Link先を確認
Siyuan Li, Lei Ke, Yung-Hsu Yang, Luigi Piccinelli, Mattia Segù, Martin Danelljan, Luc Van Gool, (参考訳) Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。 現在、最高のパフォーマンスの手法は主に純粋な外観マッチングに基づいている。 大語彙シナリオにおける動きパターンの複雑さと新しい対象の不安定な分類のため、動作と意味論の手がかりは無視されるか、既存の手法による最終的なマッチングステップにおけるヒューリスティックスに基づいて適用される。 本稿では,関連の初期段階における意味論,位置,外観を協調的に検討し,軽量な空間的・時間的オブジェクトグラフを通じて,すべての貴重な情報を統合する方法を学ぶ統合フレームワークSLAckを提案する。 提案手法は,異なるキューを融合するための複雑な後処理ヒューリスティックを排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。 ベルとホイッスルがなければ、オープン語彙MOTとTAO TETAベンチマークによる新しいクラス追跡の最先端手法よりも優れている。 我々のコードは \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck} で入手できる。

Open-vocabulary Multiple Object Tracking (MOT) aims to generalize trackers to novel categories not in the training set. Currently, the best-performing methods are mainly based on pure appearance matching. Due to the complexity of motion patterns in the large-vocabulary scenarios and unstable classification of the novel objects, the motion and semantics cues are either ignored or applied based on heuristics in the final matching steps by existing methods. In this paper, we present a unified framework SLAck that jointly considers semantics, location, and appearance priors in the early steps of association and learns how to integrate all valuable information through a lightweight spatial and temporal object graph. Our method eliminates complex post-processing heuristics for fusing different cues and boosts the association performance significantly for large-scale open-vocabulary tracking. Without bells and whistles, we outperform previous state-of-the-art methods for novel classes tracking on the open-vocabulary MOT and TAO TETA benchmarks. Our code is available at \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck}.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# 構造型ディジタルツイン技術におけるコストインフォームド次元性低減

Cost-informed dimensionality reduction for structural digital twin technologies ( http://arxiv.org/abs/2409.11236v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Keith Worden, Nikolaos Dervilis, Timothy J. Rogers, (参考訳) 分類モデルは、資産管理決定を支援するために使用される構造的デジタルツイン技術の重要な構成要素である。 分類モデルを開発する際の重要な考慮事項は入力の次元性(つまり特徴空間)である。 次元が高すぎる場合、'次元の帰結'は、その粗い頭部を後退させ、予測性能を低下させる。 このような効果を緩和するために、実践者は次元還元技術を用いることができる。 本論文は, 構造資産管理のための次元還元に関する決定論的アプローチを定式化したものである。 このアプローチでは、次元が減少し識別情報が失われる可能性があるため、帰属的誤分類コストを最小限に抑えることが目的である。 この定式化は固有値問題として構築され、決定過程の文脈で考慮すると、分類ミスのコストに応じて重み付けされたクラス間の分離性を持つ。 このアプローチは、合成ケーススタディを用いて実証される。

Classification models are a key component of structural digital twin technologies used for supporting asset management decision-making. An important consideration when developing classification models is the dimensionality of the input, or feature space, used. If the dimensionality is too high, then the `curse of dimensionality' may rear its ugly head; manifesting as reduced predictive performance. To mitigate such effects, practitioners can employ dimensionality reduction techniques. The current paper formulates a decision-theoretic approach to dimensionality reduction for structural asset management. In this approach, the aim is to keep incurred misclassification costs to a minimum, as the dimensionality is reduced and discriminatory information may be lost. This formulation is constructed as an eigenvalue problem, with separabilities between classes weighted according to the cost of misclassifying them when considered in the context of a decision process. The approach is demonstrated using a synthetic case study.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# 自由飛行ロボットシステムのための軌道追従制御器の学習促進のための対称性の活用

Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems ( http://arxiv.org/abs/2409.11238v1 )

ライセンス: Link先を確認
Jake Welde, Nishanth Rao, Pratik Kunapuli, Dinesh Jayaraman, Vijay Kumar, (参考訳) トラッキングコントローラにより、ロボットシステムは計画された基準軌道を正確に追従することができる。 特に、強化学習(RL)は、複雑な力学と控えめなオンライン計算予算を持つシステムのための制御器の合成において有望であることを示す。 しかしながら、RLのサンプル効率の低さと報酬設計の課題は、特に高次元システムにおいて、トレーニングを遅く、時には不安定にする。 本研究では,フローティングベースを持つロボットシステムの固有リー群対称性を活用して,トラッキングコントローラの学習における課題を軽減する。 我々は、物理状態と参照状態の両方の進化を捉えるマルコフ決定過程(MDP)として、一般的な追跡問題をモデル化する。 次に、基礎となるダイナミックスとランニングコストの対称性が、低次元の「商」MDPで訓練されたポリシーを元のシステムの最適トラッキングコントローラに持ち上げることができるマッピングであるMDP準同型に導かれることを証明した。 我々は、この対称性に富んだアプローチを、PPO(Proximal Policy Optimization)を用いて、粒子(強制点質量)、アストローブ(完全な宇宙ロボット)、クアドロター(不動系)の3つのシステムのトラッキングコントローラを学習する。 その結果,対称性を意識したアプローチはトレーニングを加速し,同一のトレーニングステップの後に追跡誤差を減少させることがわかった。

Tracking controllers enable robotic systems to accurately follow planned reference trajectories. In particular, reinforcement learning (RL) has shown promise in the synthesis of controllers for systems with complex dynamics and modest online compute budgets. However, the poor sample efficiency of RL and the challenges of reward design make training slow and sometimes unstable, especially for high-dimensional systems. In this work, we leverage the inherent Lie group symmetries of robotic systems with a floating base to mitigate these challenges when learning tracking controllers. We model a general tracking problem as a Markov decision process (MDP) that captures the evolution of both the physical and reference states. Next, we prove that symmetry in the underlying dynamics and running costs leads to an MDP homomorphism, a mapping that allows a policy trained on a lower-dimensional "quotient" MDP to be lifted to an optimal tracking controller for the original system. We compare this symmetry-informed approach to an unstructured baseline, using Proximal Policy Optimization (PPO) to learn tracking controllers for three systems: the Particle (a forced point mass), the Astrobee (a fullyactuated space robot), and the Quadrotor (an underactuated system). Results show that a symmetry-aware approach both accelerates training and reduces tracking error after the same number of training steps.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# LLM-as-a-Judge & Reward Model - できることとできないこと

LLM-as-a-Judge & Reward Model: What They Can and Cannot Do ( http://arxiv.org/abs/2409.11239v1 )

ライセンス: Link先を確認
Guijin Son, Hyunwoo Ko, Hoyoung Lee, Yewon Kim, Seunghyeok Hong, (参考訳) LLM-as-a-Judge(英語版)と報酬モデル(英語版)は、大規模言語モデル(LLM)評価のための多選択質問や人間のアノテータの代替として広く用いられている。 彼らの効果は、長文反応の評価において輝き、リーダーボードの評価や、強化学習を通じてLSMを調整するためのプロキシとして重要な役割を担っている。 しかし、その人気にもかかわらず、その英語以外での効力はほとんど解明されていない。 本稿では,自動評価器の総合的な分析を行い,非英語環境における評価器の挙動に関する重要な知見を報告する。 まず、英語の評価能力が、言語能力そのものよりも言語固有の能力に大きく影響していることを発見し、英語で訓練された評価者が、そのスキルを他の言語に簡単に移行できるようにする。 第2に,LLMが事実的不正確さ,文化的誤表現,不必要な言語の存在など,誤りを検出し,罰せられない重大な欠点を特定する。 最後に,韓国語で5,012人のアノテーションを含む,最初の非英語メタ評価データセットであるKudgeをリリースする。

LLM-as-a-Judge and reward models are widely used alternatives of multiple-choice questions or human annotators for large language model (LLM) evaluation. Their efficacy shines in evaluating long-form responses, serving a critical role as evaluators of leaderboards and as proxies to align LLMs via reinforcement learning. However, despite their popularity, their effectiveness outside of English remains largely unexplored. In this paper, we conduct a comprehensive analysis on automated evaluators, reporting key findings on their behavior in a non-English environment. First, we discover that English evaluation capabilities significantly influence language-specific capabilities, often more than the language proficiency itself, enabling evaluators trained in English to easily transfer their skills to other languages. Second, we identify critical shortcomings, where LLMs fail to detect and penalize errors, such as factual inaccuracies, cultural misrepresentations, and the presence of unwanted language. Finally, we release Kudge, the first non-English meta-evaluation dataset containing 5,012 human annotations in Korean.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# 統合センシング,コミュニケーション,計算によるフェデレーション学習:フレームワークとパフォーマンス分析

Federated Learning with Integrated Sensing, Communication, and Computation: Frameworks and Performance Analysis ( http://arxiv.org/abs/2409.11240v1 )

ライセンス: Link先を確認
Yipeng Liang, Qimei Chen, Hao Jiang, (参考訳) 6G時代の統合感覚・コミュニケーション・計算(ISCC)の出現に伴い、ISCC(FL-ISCC)との連携学習、サンプル収集、局所訓練、パラメータ交換・集約の統合が進み、訓練効率の向上への関心が高まっている。 現在、FL-ISCCは主にFedAVG-ISCCとFedSGD-ISCCの2つのアルゴリズムを含んでいる。 しかし、これらのアルゴリズムの性能と利点に関する理論的理解は依然として限られている。 このギャップに対処するために、FedAVG-ISCCとFedSGD-ISCCの両方を実装したFL-ISCCフレームワークについて検討する。 FLの遅延とエネルギー消費を低減させるISCCフレームワークの有意義な可能性を実験的に実証した。 さらに、理論的分析と比較を行う。 1) サンプル収集と通信エラーの両方がアルゴリズム性能に悪影響を及ぼし,FL-ISCCアプリケーションを最適化するための注意深い設計の必要性を強調した。 2)FedAVG-ISCCはIIDデータ下ではFedSGD-ISCCよりも優れた性能を示した。 3)FedSGD-ISCCは非IIDデータにおいてFedAVG-ISCCよりも堅牢であり,非IIDデータの増加に伴いFedAVG-ISCCの複数のローカル更新がパフォーマンスを悪化させる。 FedSGD-ISCCはID条件と同様の性能を維持している。 4) FedSGD-ISCCはFedAVG-ISCCよりも通信エラーに対する耐性が高く,通信エラーの増加に伴う性能低下に悩まされている。

With the emergence of integrated sensing, communication, and computation (ISCC) in the upcoming 6G era, federated learning with ISCC (FL-ISCC), integrating sample collection, local training, and parameter exchange and aggregation, has garnered increasing interest for enhancing training efficiency. Currently, FL-ISCC primarily includes two algorithms: FedAVG-ISCC and FedSGD-ISCC. However, the theoretical understanding of the performance and advantages of these algorithms remains limited. To address this gap, we investigate a general FL-ISCC framework, implementing both FedAVG-ISCC and FedSGD-ISCC. We experimentally demonstrate the substantial potential of the ISCC framework in reducing latency and energy consumption in FL. Furthermore, we provide a theoretical analysis and comparison. The results reveal that:1) Both sample collection and communication errors negatively impact algorithm performance, highlighting the need for careful design to optimize FL-ISCC applications. 2) FedAVG-ISCC performs better than FedSGD-ISCC under IID data due to its advantage with multiple local updates. 3) FedSGD-ISCC is more robust than FedAVG-ISCC under non-IID data, where the multiple local updates in FedAVG-ISCC worsen performance as non-IID data increases. FedSGD-ISCC maintains performance levels similar to IID conditions. 4) FedSGD-ISCC is more resilient to communication errors than FedAVG-ISCC, which suffers from significant performance degradation as communication errors increase.Extensive simulations confirm the effectiveness of the FL-ISCC framework and validate our theoretical analysis.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# 自発的インフォーマル音声データセットによる句読解

Spontaneous Informal Speech Dataset for Punctuation Restoration ( http://arxiv.org/abs/2409.11241v1 )

ライセンス: Link先を確認
Xing Yi Liu, Homayoon Beigi, (参考訳) 現在、句読取復元モデルは、ほぼ完全に構造化されたスクリプトコーパスで評価されている。 一方、現実世界のASRシステムと後処理パイプラインは、典型的には、顕著な不規則性、乱れ、完全文法からの逸脱を伴う自然発話に適用される。 この相違に対処するために,非公式な音声ソースから抽出された句読解回復データセットであるSponSpeechを紹介し,句読解とケーシング情報を含む。 データセットの公開に加えて、より多くのデータを生成するために使用できるフィルタリングパイプラインも提供しています。 フィルタリングパイプラインは,音声と文字起こしの双方の品質について検討する。 また,モデルが音声情報を利用して文法的に曖昧な句読点を予測できる能力を評価することを目的とした,'challenging'テストセットを慎重に構築する。 SponSpeechはhttps://github.com/GitHubAccountAnonymous/PRで利用可能であり、データセットの構築とモデル実行のためのすべてのコードが含まれている。

Presently, punctuation restoration models are evaluated almost solely on well-structured, scripted corpora. On the other hand, real-world ASR systems and post-processing pipelines typically apply towards spontaneous speech with significant irregularities, stutters, and deviations from perfect grammar. To address this discrepancy, we introduce SponSpeech, a punctuation restoration dataset derived from informal speech sources, which includes punctuation and casing information. In addition to publicly releasing the dataset, we contribute a filtering pipeline that can be used to generate more data. Our filtering pipeline examines the quality of both speech audio and transcription text. We also carefully construct a ``challenging" test set, aimed at evaluating models' ability to leverage audio information to predict otherwise grammatically ambiguous punctuation. SponSpeech is available at https://github.com/GitHubAccountAnonymous/PR, along with all code for dataset building and model runs.
翻訳日:2024-09-18 16:25:29 公開日:2024-09-17
# RAGにおけるLLMの信頼性測定と向上 : 接地属性と再利用学習を通して

Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse ( http://arxiv.org/abs/2409.11242v1 )

ライセンス: Link先を確認
Maojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria, (参考訳) LLMは、検索拡張生成システム(RAG)の不可欠な部分である。 エンド・ツー・エンドのRAGシステムの品質評価に多くの研究が焦点を当てているが、RAGタスクにおけるLCMの適切性を理解するための研究は乏しい。 そこで我々は,RAGフレームワークにおけるLCMの信頼性を総合的に評価する新たな尺度であるTrust-Scoreを導入する。 本研究では,LLMをRAGタスクに効果的に適応させるには,文脈内学習などの様々なプロンプト手法が不十分であることを示す。 そこで我々は,LLMをより高い信頼スコアに整合させるフレームワークであるTrust-Alignを提案する。 LLaMA-3-8bは,ASQA(10.7),QAMPARI(29.2),ELI5(14.9)において,オープンソースLLMよりも大幅に優れていた。 コードについては、https://github.com/declare-lab/trust-align.comで公開しています。

LLMs are an integral part of retrieval-augmented generation (RAG) systems. While many studies focus on evaluating the quality of end-to-end RAG systems, there is a lack of research on understanding the appropriateness of an LLM for the RAG task. Thus, we introduce a new metric, Trust-Score, that provides a holistic evaluation of the trustworthiness of LLMs in an RAG framework. We show that various prompting methods, such as in-context learning, fail to adapt LLMs effectively to the RAG task. Thus, we propose Trust-Align, a framework to align LLMs for higher Trust-Score. LLaMA-3-8b, aligned with our method, significantly outperforms open-source LLMs of comparable sizes on ASQA (up 10.7), QAMPARI (up 29.2) and ELI5 (up 14.9). We release our code at: https://github.com/declare-lab/trust-align.
翻訳日:2024-09-18 16:13:34 公開日:2024-09-17
# トレーニング中のリニアリカレンシバイアスは、トランスフォーマーのフィットを読書時間に改善する

Linear Recency Bias During Training Improves Transformers' Fit to Reading Times ( http://arxiv.org/abs/2409.11250v1 )

ライセンス: Link先を確認
Christian Clark, Byung-Doh Oh, William Schuler, (参考訳) 近年の心理言語学的研究は、人間の読解時間と言語モデルからの予備的な推定とを比較し、人間の文章処理の難しさを形作る要因について研究している。 従来の研究は、トランスフォーマーの副次的価値と読書時間との間に強い適合性を示してきた。 しかし、標準的なトランスフォーマーは、メモリ崩壊を含む人間の言語処理のモデルとは異なり、以前の言語コンテキスト全体の損失のない表現で動作する。 このギャップを埋めるために,ALiBi (Press et al , 2022) を用いたTransformerモデルの修正を行った。 ALiBiによる推定は、標準的なTransformerベースラインと比較して、人間の読み出し時間に適している。 その後のアテンションヘッドの分析では、ALiBiのスロープの混合 -- それぞれのアテンションヘッドのメモリ減衰率を決定する -- が、ALiBiのモデルがさまざまな種類の言語的依存関係を追跡するのを助けることで、改善に重要な役割を果たしている可能性が示唆されている。

Recent psycholinguistic research has compared human reading times to surprisal estimates from language models to study the factors shaping human sentence processing difficulty. Previous studies have shown a strong fit between surprisal values from Transformers and reading times. However, standard Transformers work with a lossless representation of the entire previous linguistic context, unlike models of human language processing that include memory decay. To bridge this gap, this paper evaluates a modification of the Transformer model that uses ALiBi (Press et al., 2022), a recency bias added to attention scores. Surprisal estimates with ALiBi show an improved fit to human reading times compared to a standard Transformer baseline. A subsequent analysis of attention heads suggests that ALiBi's mixture of slopes -- which determine the rate of memory decay in each attention head -- may play a role in the improvement by helping models with ALiBi to track different kinds of linguistic dependencies.
翻訳日:2024-09-18 16:13:34 公開日:2024-09-17
# WER We Stand:Urdu ASRモデルのベンチマーク

WER We Stand: Benchmarking Urdu ASR Models ( http://arxiv.org/abs/2409.11252v1 )

ライセンス: Link先を確認
Samee Arif, Aamina Jamal Khan, Mustafa Abbas, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,Urdu Automatic Speech Recognition(ASR)モデルの総合評価を行う。 単語誤り率(Word Error Rate, WER)を用いたWhisper, MMS, Seamless-M4Tの3つのASRモデルファミリーの性能解析を行い, 挿入, 削除, 置換を含む最も頻繁な誤り語および誤り型を詳細に検討した。 本分析は,読解音声と会話音声の2種類のデータセットを用いて行う。 特に、Urdu ASRモデルのベンチマーク用に設計された最初の会話音声データセットを提示する。 読み上げ音声データセットでは、スムーズな広さが他のASRモデルより優れているのに対し、ささやきの広さは会話音声データセットでは最高であることがわかった。 さらに、この評価は、定量的メトリクスのみを用いて、Urduのような低リソース言語に対するASRモデルを評価する複雑さを強調し、堅牢なUrduテキスト正規化システムの必要性を強調している。 この知見は,Urduのような低リソース言語のための堅牢なASRシステムの開発に有用である。

This paper presents a comprehensive evaluation of Urdu Automatic Speech Recognition (ASR) models. We analyze the performance of three ASR model families: Whisper, MMS, and Seamless-M4T using Word Error Rate (WER), along with a detailed examination of the most frequent wrong words and error types including insertions, deletions, and substitutions. Our analysis is conducted using two types of datasets, read speech and conversational speech. Notably, we present the first conversational speech dataset designed for benchmarking Urdu ASR models. We find that seamless-large outperforms other ASR models on the read speech dataset, while whisper-large performs best on the conversational speech dataset. Furthermore, this evaluation highlights the complexities of assessing ASR models for low-resource languages like Urdu using quantitative metrics alone and emphasizes the need for a robust Urdu text normalization system. Our findings contribute valuable insights for developing robust ASR systems for low-resource languages like Urdu.
翻訳日:2024-09-18 16:13:34 公開日:2024-09-17
# 文脈的埋め込みのノルムが変化を決定する

Norm of Mean Contextualized Embeddings Determines their Variance ( http://arxiv.org/abs/2409.11253v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Hidetoshi Shimodaira, (参考訳) コンテキスト化された埋め込みは、同じトークンであってもコンテキストによって異なり、埋め込み空間内の分布を形成する。 この分布を解析するために、平均埋め込みのノルムと埋め込みの分散に着目した。 本研究では,これらの値が統計の分散に関するよく知られた公式に従っていることをまず実証し,効率的な逐次計算法を提案する。 そして,複数のトランスフォーマーモデルの中間層からの埋め込みを観察することにより,ノルムと分散の間の強いトレードオフ関係を見出した。 このトレードオフは、Transformerモデルで使用されるレイヤ正規化メカニズムの影響を受けている可能性が高い。 さらに,トークン埋め込みの集合をクラスタとして扱うと,埋め込み集合全体の分散を理論的にクラスタ内分散とクラスタ間分散に分解できることを示す。 実験により,トランスフォーマーモデルの層が深くなるにつれて,埋め込みは起源から遠く離れ,クラスタ間分散は相対的に減少し,クラスタ内分散は相対的に増加することがわかった。 これらの結果は、層間の埋め込み空間の異方性に関する既存の研究と一致している。

Contextualized embeddings vary by context, even for the same token, and form a distribution in the embedding space. To analyze this distribution, we focus on the norm of the mean embedding and the variance of the embeddings. In this study, we first demonstrate that these values follow the well-known formula for variance in statistics and provide an efficient sequential computation method. Then, by observing embeddings from intermediate layers of several Transformer models, we found a strong trade-off relationship between the norm and the variance: as the mean embedding becomes closer to the origin, the variance increases. This trade-off is likely influenced by the layer normalization mechanism used in Transformer models. Furthermore, when the sets of token embeddings are treated as clusters, we show that the variance of the entire embedding set can theoretically be decomposed into the within-cluster variance and the between-cluster variance. We found experimentally that as the layers of Transformer models deepen, the embeddings move farther from the origin, the between-cluster variance relatively decreases, and the within-cluster variance relatively increases. These results are consistent with existing studies on the anisotropy of the embedding spaces across layers.
翻訳日:2024-09-18 16:13:34 公開日:2024-09-17
# 新たな悪意あるパケット認識を目指して : わずかなショット学習アプローチ

Towards Novel Malicious Packet Recognition: A Few-Shot Learning Approach ( http://arxiv.org/abs/2409.11254v1 )

ライセンス: Link先を確認
Kyle Stein, Andrew A. Mahyari, Guillermo Francia III, Eman El-Sheikh, (参考訳) ネットワークの複雑化と接続性の向上に伴い,新たなマルウェア検出手法の必要性が高まっている。 従来のセキュリティ防衛は、今日のサイバー攻撃の先進的な戦術に対する効果が薄れつつある。 Deep Packet Inspection (DPI)は、単純なメタデータ分析を超えてネットワークトラフィックの詳細な分析を提供する、ネットワークセキュリティを強化する重要な技術として登場した。 DPIはパケットヘッダだけでなくペイロードの内容も調査し、ネットワークを横断するデータに関する詳細な洞察を提供する。 本研究では,大規模言語モデル(LLM)と少数ショット学習を活用して,ラベルの少ない新規なマルウェアタイプを正確に認識する手法を提案する。 提案手法では,既知のマルウェアに対して事前学習したLSMを用いて,パケットから埋め込みを抽出する。 埋め込みは、未確認のマルウェアタイプのラベル付きサンプルと並行して使用される。 この技術は、モデルを異なるマルウェア表現に順応させ、トレーニングされたクラスと見えないクラスごとに堅牢な埋め込みを生成するように設計されている。 LLMから埋め込みを抽出した後、最小ラベル付きデータによる性能向上のために、少数ショット学習を利用する。 評価では,ネットワークトラフィックとIoT(Internet of Things)環境におけるマルウェアの種類を特定することに焦点を当てた。 提案手法では,2つのデータセットの平均精度86.35%,F1スコア86.40%の有望な結果を示す。

As the complexity and connectivity of networks increase, the need for novel malware detection approaches becomes imperative. Traditional security defenses are becoming less effective against the advanced tactics of today's cyberattacks. Deep Packet Inspection (DPI) has emerged as a key technology in strengthening network security, offering detailed analysis of network traffic that goes beyond simple metadata analysis. DPI examines not only the packet headers but also the payload content within, offering a thorough insight into the data traversing the network. This study proposes a novel approach that leverages a large language model (LLM) and few-shot learning to accurately recognizes novel, unseen malware types with few labels samples. Our proposed approach uses a pretrained LLM on known malware types to extract the embeddings from packets. The embeddings are then used alongside few labeled samples of an unseen malware type. This technique is designed to acclimate the model to different malware representations, further enabling it to generate robust embeddings for each trained and unseen classes. Following the extraction of embeddings from the LLM, few-shot learning is utilized to enhance performance with minimal labeled data. Our evaluation, which utilized two renowned datasets, focused on identifying malware types within network traffic and Internet of Things (IoT) environments. Our approach shows promising results with an average accuracy of 86.35% and F1-Score of 86.40% on different malware types across the two datasets.
翻訳日:2024-09-18 16:13:34 公開日:2024-09-17
# プラグインとしてのテンポラル:事前訓練された画像デノイアで教師なしのビデオデノイア

Temporal As a Plugin: Unsupervised Video Denoising with Pre-Trained Image Denoisers ( http://arxiv.org/abs/2409.11256v1 )

ライセンス: Link先を確認
Zixuan Fu, Lanqing Guo, Chong Wang, Yufei Wang, Zhihao Li, Bihan Wen, (参考訳) 近年のディープラーニングの進歩は、画像とビデオの雑音化において顕著な結果を示し、ノイズのない大量のノイズとノイズのないデータのペアを監督に利用している。 しかし、ダイナミックシーンのためのペアビデオを取得するという課題は、ディープ・ビデオ・デノベーション・テクニックの実践的な展開を妨げている。 対照的に、この障害は、ペアデータの入手がより容易な画像復調において、あまり顕著ではない。 このように、よく訓練された画像復調器は、映像復調のための信頼性の高い空間的先行として機能する。 本稿では,教師なしの時間的モジュールを事前学習した画像復号器に統合する,‘Temporal As a Plugin'(TAP)’という,教師なしビデオ復号化フレームワークを提案する。 時間的加群を組み込むことで、ノイズの多いフレームをまたがる時間的情報を活用することができ、空間的 denoising のパワーを補完することができる。 さらに,生成した擬似クリーンビデオフレームを用いて各時間モジュールを改良し,ネットワークの性能を段階的に向上するプログレッシブ微調整戦略を導入する。 他の教師なしビデオ復号化手法と比較して,本フレームワークは,SRGBと生ビデオ復号化データセットの両方において優れた性能を示す。

Recent advancements in deep learning have shown impressive results in image and video denoising, leveraging extensive pairs of noisy and noise-free data for supervision. However, the challenge of acquiring paired videos for dynamic scenes hampers the practical deployment of deep video denoising techniques. In contrast, this obstacle is less pronounced in image denoising, where paired data is more readily available. Thus, a well-trained image denoiser could serve as a reliable spatial prior for video denoising. In this paper, we propose a novel unsupervised video denoising framework, named ``Temporal As a Plugin'' (TAP), which integrates tunable temporal modules into a pre-trained image denoiser. By incorporating temporal modules, our method can harness temporal information across noisy frames, complementing its power of spatial denoising. Furthermore, we introduce a progressive fine-tuning strategy that refines each temporal module using the generated pseudo clean video frames, progressively enhancing the network's denoising performance. Compared to other unsupervised video denoising methods, our framework demonstrates superior performance on both sRGB and raw video denoising datasets.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# サイドチャネル強化学習攻撃によるスライシングネットワークの攻撃

Attacking Slicing Network via Side-channel Reinforcement Learning Attack ( http://arxiv.org/abs/2409.11258v1 )

ライセンス: Link先を確認
Wei Shao, Chandra Thapa, Rayne Holland, Sarah Ali Siddiqui, Seyit Camtepe, (参考訳) 5Gと将来の6Gネットワークのネットワークスライシングにより、共有物理インフラ上で複数の仮想化ネットワークを作成できるようになる。 この革新的なアプローチは、特定のビジネスタイプや業界ユーザに対応するように調整されたネットワークを提供することを可能にし、よりカスタマイズされた効率的なサービスを提供する。 しかし、ネットワークスライシングにおける共有メモリとキャッシュは、まだ完全に対処されていないセキュリティ脆弱性を導入している。 本稿では,ネットワークスライシング環境に特化して設計された,強化学習に基づくサイドチャネルキャッシュ攻撃フレームワークを提案する。 従来のキャッシュ攻撃手法とは異なり、我々のフレームワークは強化学習を利用して、認証キーやユーザ登録データなどの機密情報を格納したキャッシュ位置を動的に識別し、活用する。 1つのスライスネットワークが漏洩していると仮定し、攻撃者が別の共有スライスを誘導して登録要求を送信し、クリティカルデータのキャッシュ位置を推定する方法を実証する。 攻撃スライスと被害者スライスの間の強化学習による推測ゲームとしてキャッシュタイミングチャネルアタックを定式化することにより、センシティブな情報を含むメモリブロックをピンポイントする可能なアクションを効率的に探索する。 実験の結果, 精度の高いデータの保存位置を正確に同定し, 約95%から98パーセントの成功率を達成した。 この高いレベルの精度は、共有ネットワークスライシング環境の潜在的なリスクを浮き彫りにして、このような高度なサイドチャネル攻撃から保護するための堅牢なセキュリティ対策の必要性を強調している。

Network slicing in 5G and the future 6G networks will enable the creation of multiple virtualized networks on a shared physical infrastructure. This innovative approach enables the provision of tailored networks to accommodate specific business types or industry users, thus delivering more customized and efficient services. However, the shared memory and cache in network slicing introduce security vulnerabilities that have yet to be fully addressed. In this paper, we introduce a reinforcement learning-based side-channel cache attack framework specifically designed for network slicing environments. Unlike traditional cache attack methods, our framework leverages reinforcement learning to dynamically identify and exploit cache locations storing sensitive information, such as authentication keys and user registration data. We assume that one slice network is compromised and demonstrate how the attacker can induce another shared slice to send registration requests, thereby estimating the cache locations of critical data. By formulating the cache timing channel attack as a reinforcement learning-driven guessing game between the attack slice and the victim slice, our model efficiently explores possible actions to pinpoint memory blocks containing sensitive information. Experimental results showcase the superiority of our approach, achieving a success rate of approximately 95\% to 98\% in accurately identifying the storage locations of sensitive data. This high level of accuracy underscores the potential risks in shared network slicing environments and highlights the need for robust security measures to safeguard against such advanced side-channel attacks.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# D波量子アニールを用いたフラストレーションのあるイジング正方格子のモデリング

Modeling a frustrated Ising square lattice with the D-Wave Quantum Annealer ( http://arxiv.org/abs/2409.11259v1 )

ライセンス: Link先を確認
C. Marin, A. Fontana, V. Bellani, F. Pederiva, A. Quaranta, F. Rossella, A. Salamon, G. Salina, (参考訳) 2次元(2次元)正方格子上の近傍相互作用を持つイジングモデルは、強磁性-常磁性遷移を研究する最も単純なモデルの一つである。 このモデルは、理論的にも数値的にも、材料の磁気相転移の研究のパラダイムとなっている。 古典的コンピュータで得られた主な結果の簡単なレビューの後、二つの結合定数 J1 と J2 を持つ対角線隣り同士の反強磁性相互作用を追加することで、より複雑なイジングモデルD波量子アニールの実装方法を示す。 このシステムの力学はフラストレーションのため、単純なイジングモデルよりもリッチであり、強磁性相と常磁性相に加えて第3のストライプ(または反強磁性)相を示す。 本研究では,D-Waveハードウェア上での3つの相すべてを観察し,鎖強度やアニーリング時間などの異なるアニーリングパラメータによる解の挙動を調査し,強磁性結合と反強磁性結合の比を変化させることで相転移を同定する方法を示した。 同じシステムは古典的コンピュータ上で研究され、自由パラメータとして温度(D-Waveに固定された)を考慮し、全位相図を探索する可能性がある。

The Ising model with nearest-neighbor interactions on a two-dimensional (2D) square lattice is one of the simplest models for studying ferro-magnetic to para-magnetic transitions. Extensive results are available in the literature for this model, which has become a paradigm for the study of magnetic phase transitions in materials, both theoretically and numerically. After a brief review of the main results obtained with a classical computer, we show how to implement on the D- Wave quantum annealer a more complex Ising model with the addition of competing antiferromagnetic interactions between the diagonal next-to-nearest neighbors with two coupling constants J1 and J2. The dynamics of this system, owing to frustration, are richer than those of the simple Ising model and exhibit a third striped (or antiferromagnetic) phase in addition to the ferro- and para-magnetic phases. In this work, we observed all three phases on the D-Wave hardware, studied the behavior of the solution with different annealing parameters, such as the chain strength and annealing time, and showed how to identify the phase transition by varying the ratio between the ferromagnetic and antiferromagnetic couplings. The same system is studied on a classical computer, with the possibility of taking into account the temperature (fixed on D-Wave) as a free parameter and to explore the full phase diagram: some comparative conclusions with D-Wave are drawn.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# 振幅不安定性における量子ジャンプ--コヒーレントで可逆な状態の局在を追跡する

Quantum jumps in amplitude bistability: tracking a coherent and invertible state localization ( http://arxiv.org/abs/2409.11260v1 )

ライセンス: Link先を確認
Th. K. Mavrogordatos, (参考訳) オープン駆動Jaynes-Cummingsモデルにおいて,光の巨視的準安定状態の間に生じる量子ジャンプの性質について検討する。 我々は、[H. J. Carmichael, Phys. Rev. X 5, 031028 (2015)]で考慮されたゼロ自然放出の限界において、高光子状態から真空状態へのジャンプには2つの段階が伴うことを発見した。 第1部は、量子軌道理論によって予測される零測度レコードの例において、状態重ね合わせの局所化によってコヒーレントでモデル化される。 基礎となる進化は不安定な状態(しばしば複雑な状態に分裂する)によって媒介され、条件付き密度行列とそれに対応する空洞場の準確率分布によって同定される。 不安定な状態はその後真空に崩壊し、ジャンプを完了させる。 ローカライゼーションにおけるコヒーレンスにより、初期値のヌル測定光子平均を反転させることができ、キャビティ寿命のごく一部を持続する完全なスイッチを考慮できる。 この機構はバイスタブル信号の真空から高光子状態へのジャンプと対照的である。 自然放出は局所化においてコヒーレンスを低下させ、ジャンプを延長する。

We investigate the nature of quantum jumps occurring between macroscopic metastable states of light in the open driven Jaynes-Cummings model. We find that, in the limit of zero spontaneous emission considered in [H. J. Carmichael, Phys. Rev. X 5, 031028 (2015)], the jumps from a high-photon state to the vacuum state entail two stages. The first part is coherent and modelled by the localization of a state superposition, in the example of a null-measurement record predicted by quantum trajectory theory. The underlying evolution is mediated by an unstable state (which often splits to a complex of states), identified by the conditioned density matrix and the corresponding quasiprobability distribution of the cavity field. The unstable state subsequently decays to the vacuum to complete the jump. Coherence in the localization allows for inverting the null-measurement photon average about its initial value, to account for the full switch which typically lasts a small fraction of the cavity lifetime. This mechanism is contrasted to the jumps leading from the vacuum to the high-photon state in the bistable signal. Spontaneous emission degrades coherence in the localization, and prolongs the jumps.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# ストーリーテリングのアート:動的マルチモーダルナラティブのためのマルチエージェント生成AI

The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives ( http://arxiv.org/abs/2409.11261v1 )

ライセンス: Link先を確認
Samee Arif, Taimoor Arif, Aamina Jamal Khan, Muhammad Saad Haroon, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。 このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。 本稿では,共同創造過程,テキスト音声モデルを用いた話し言葉への物語の適応,およびテキスト音声技術による文脈関連視覚への変換について述べる。 本評価では,生成した物語の言語学,テキストから音声への変換品質,生成した視覚の精度について検討する。

This paper introduces the concept of an education tool that utilizes Generative Artificial Intelligence (GenAI) to enhance storytelling for children. The system combines GenAI-driven narrative co-creation, text-to-speech conversion, and text-to-video generation to produce an engaging experience for learners. We describe the co-creation process, the adaptation of narratives into spoken words using text-to-speech models, and the transformation of these narratives into contextually relevant visuals through text-to-video technology. Our evaluation covers the linguistics of the generated stories, the text-to-speech conversion quality, and the accuracy of the generated visuals.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# 家庭の音:音声除去された音声イベント検出用家庭用オーディオデータセット

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection ( http://arxiv.org/abs/2409.11262v1 )

ライセンス: Link先を確認
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh, Mark D. Plumbley, (参考訳) 本稿では,高齢者の幸福感向上を目的としたスマートホームアプリケーションのための音声イベント検出研究を支援する住宅用オーディオデータセットを提案する。 このデータセットは、55~80歳の8人の家庭に7日間の音声記録システムを展開することで構築される。 音響特性は、詳細なフロアプランと建設材料情報を通して記録され、AIモデル展開のための記録環境の複製を可能にする。 事前訓練された音声ニューラルネットワークを用いて、他の音声イベントを含むセグメントを保存しながら、音声を含むセグメントを検出し、除去する、新しい自動音声除去パイプラインを開発する。 得られたデータセットは、住宅空間内の日常生活の音環境と活動を正確に把握するプライバシーに準拠したオーディオ記録で構成されている。 本稿では,データセット作成手法,カスケードモデルアーキテクチャを利用した音声除去パイプライン,音声ラベル分布の解析を行い,音声除去プロセスの検証を行う。 このデータセットは、家庭内アプリケーションに特化した音響イベント検出モデルの開発とベンチマークを可能にする。

This paper presents a residential audio dataset to support sound event detection research for smart home applications aimed at promoting wellbeing for older adults. The dataset is constructed by deploying audio recording systems in the homes of 8 participants aged 55-80 years for a 7-day period. Acoustic characteristics are documented through detailed floor plans and construction material information to enable replication of the recording environments for AI model deployment. A novel automated speech removal pipeline is developed, using pre-trained audio neural networks to detect and remove segments containing spoken voice, while preserving segments containing other sound events. The resulting dataset consists of privacy-compliant audio recordings that accurately capture the soundscapes and activities of daily living within residential spaces. The paper details the dataset creation methodology, the speech removal pipeline utilizing cascaded model architectures, and an analysis of the vocal label distribution to validate the speech removal process. This dataset enables the development and benchmarking of sound event detection models tailored specifically for in-home applications.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# バイオインスパイアされたマンバ--選択状態空間モデルにおける時間的局所性と生物工学的学習

Bio-Inspired Mamba: Temporal Locality and Bioplausible Learning in Selective State Space Models ( http://arxiv.org/abs/2409.11263v1 )

ライセンス: Link先を確認
Jiahao Qin, (参考訳) 本稿では,バイオインスパイアされたマンバ(BIM)について紹介する。BIMは,生物学習の原則をマンバアーキテクチャと統合した,選択状態空間モデルのための新しいオンライン学習フレームワークである。 BIMはリアルタイム・リカレント・ラーニング(RTRL)とSpike-Timing-Dependent Plasticity(STDP)のようなローカル・ラーニング・ルールを組み合わせることで、スパイキングニューラルネットワークのトレーニングにおける時間的局所性と生物学的妥当性の課題に対処する。 我々のアプローチは、時間とSTDPによるバックプロパゲーションの本質的にの接続を活用し、長距離依存関係をキャプチャする能力を維持するための計算効率の良い代替手段を提供する。 言語モデリング,音声認識,バイオメディカル信号解析におけるBIMの評価を行い,生物学習の原則を順守しつつ,従来の手法と競合する性能を実証した。 その結果、ニューロモルフィックハードウェアの実装におけるエネルギー効率とポテンシャルが改善された。 BIMは生物学的に妥当な機械学習の分野を前進させるだけでなく、生物学的ニューラルネットワークにおける時間情報処理のメカニズムに関する洞察も提供する。

This paper introduces Bio-Inspired Mamba (BIM), a novel online learning framework for selective state space models that integrates biological learning principles with the Mamba architecture. BIM combines Real-Time Recurrent Learning (RTRL) with Spike-Timing-Dependent Plasticity (STDP)-like local learning rules, addressing the challenges of temporal locality and biological plausibility in training spiking neural networks. Our approach leverages the inherent connection between backpropagation through time and STDP, offering a computationally efficient alternative that maintains the ability to capture long-range dependencies. We evaluate BIM on language modeling, speech recognition, and biomedical signal analysis tasks, demonstrating competitive performance against traditional methods while adhering to biological learning principles. Results show improved energy efficiency and potential for neuromorphic hardware implementation. BIM not only advances the field of biologically plausible machine learning but also provides insights into the mechanisms of temporal information processing in biological neural networks.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# LC-Protonets:ワールドミュージックオーディオタギングのためのマルチラベルFew-shot Learning

LC-Protonets: Multi-label Few-shot learning for world music audio tagging ( http://arxiv.org/abs/2409.11264v1 )

ライセンス: Link先を確認
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos, (参考訳) 本稿では,ラベル結合型プロトタイプネットワーク (LC-Protonets) を導入し,複数ラベルの複数ショット分類の問題に対処する。 プロトタイプネットワークを拡張して、LC-Protonetsはラベルごとに1つのプロトタイプを生成するが、これはラベルごとに1つのプロトタイプではなく、限られたトレーニング項目に存在するラベルのパワーセットに由来する。 本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用し,文献の既存手法に対して評価する。 その結果,LC-Protonetsを多ラベル分類に用いる場合,ほぼすべての領域で性能が向上し,トレーニング設定も大幅に向上した。 数発の学習モデルをスクラッチからトレーニングすることに加えて,教師付き学習によって得られた事前学習モデルを用いて,特徴空間にアイテムを埋め込む方法について検討する。 ファインチューニングは、全ての手法の一般化能力を改善するが、LCプロトネットは、比較手法とは対照的に、微調整なしで高いレベルの性能を達成する。 提案手法のスケーラビリティを解析し,実験結果から詳細な定量的指標を提供する。 実装と実験的なセットアップは公開されており、将来の研究のためのベンチマークを提供している。

We introduce Label-Combination Prototypical Networks (LC-Protonets) to address the problem of multi-label few-shot classification, where a model must generalize to new classes based on only a few available examples. Extending Prototypical Networks, LC-Protonets generate one prototype per label combination, derived from the power set of labels present in the limited training items, rather than one prototype per label. Our method is applied to automatic audio tagging across diverse music datasets, covering various cultures and including both modern and traditional music, and is evaluated against existing approaches in the literature. The results demonstrate a significant performance improvement in almost all domains and training setups when using LC-Protonets for multi-label classification. In addition to training a few-shot learning model from scratch, we explore the use of a pre-trained model, obtained via supervised learning, to embed items in the feature space. Fine-tuning improves the generalization ability of all methods, yet LC-Protonets achieve high-level performance even without fine-tuning, in contrast to the comparative approaches. We finally analyze the scalability of the proposed method, providing detailed quantitative metrics from our experiments. The implementation and experimental setup are made publicly available, offering a benchmark for future research.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# クロスValidated Targeted Maximum Likelihood Estimation の性能評価

Performance of Cross-Validated Targeted Maximum Likelihood Estimation ( http://arxiv.org/abs/2409.11265v1 )

ライセンス: Link先を確認
Matthew J. Smith, Rachael V. Phillips, Camille Maringe, Miguel Angel Luque Fernandez, (参考訳) 背景: 目的最大推定(TMLE)のような因果推論の高度な手法は、統計的推論に一定の条件を必要とする。 しかし、データの疎度や近陽性違反による差別性がない状況では、Donskerクラス条件が違反される。 このような状況では、TMLEのばらつきはI型エラーのインフレーションやカバー不足に悩まされ、保守的な信頼区間につながる。 TMLEアルゴリズム(CVTMLE)のクロスバリデーションは, 肯定性やDonskerクラス違反の設定において, TMLEに比べて性能が向上することが示唆されている。 本研究の目的は, CVTMLE と TMLE を比較し, CVTMLE の性能について検討することである。 方法: 我々はLeger et al (2022)に記載されているデータ生成機構を用いて,モンテカルロ実験を異なるDonskerクラス違反下で実行した。 そこで我々は,回帰木法と非回帰木法を併用した超学習者ライブラリを用いたTMLEとCVTMLEの統計的性能について検討した。 結果: CVTMLEは, 偏差に悪影響を及ぼすことなく, 信頼性区間を著しく改善し, 特に試料サイズが小さかったり, ほぼ肯定的であったりした場合に有意な影響が認められた。 さらに、標準TMLEとアンサンブル超学習者に基づく初期推定を用いた回帰木の導入により、バイアスと分散が増加し、統計的推測が無効になる。 結論: CVTMLEを使用する場合, 回帰木を用いたり, データの疎度, ほぼ正当性違反のどちらの下でも, 有効な統計的推測を得るためには, ドンスカークラス条件が不要であることが示されている。 CVTMLEは,超学習者ライブラリの選択に対してはるかに敏感であり,超学習者ライブラリがより柔軟な候補を用いており,過度に適合する傾向にある場合に,より優れた推定と推測を提供することを示す。

Background: Advanced methods for causal inference, such as targeted maximum likelihood estimation (TMLE), require certain conditions for statistical inference. However, in situations where there is not differentiability due to data sparsity or near-positivity violations, the Donsker class condition is violated. In such situations, TMLE variance can suffer from inflation of the type I error and poor coverage, leading to conservative confidence intervals. Cross-validation of the TMLE algorithm (CVTMLE) has been suggested to improve on performance compared to TMLE in settings of positivity or Donsker class violations. We aim to investigate the performance of CVTMLE compared to TMLE in various settings. Methods: We utilised the data-generating mechanism as described in Leger et al. (2022) to run a Monte Carlo experiment under different Donsker class violations. Then, we evaluated the respective statistical performances of TMLE and CVTMLE with different super learner libraries, with and without regression tree methods. Results: We found that CVTMLE vastly improves confidence interval coverage without adversely affecting bias, particularly in settings with small sample sizes and near-positivity violations. Furthermore, incorporating regression trees using standard TMLE with ensemble super learner-based initial estimates increases bias and variance leading to invalid statistical inference. Conclusions: It has been shown that when using CVTMLE the Donsker class condition is no longer necessary to obtain valid statistical inference when using regression trees and under either data sparsity or near-positivity violations. We show through simulations that CVTMLE is much less sensitive to the choice of the super learner library and thereby provides better estimation and inference in cases where the super learner library uses more flexible candidates and is prone to overfitting.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# 強化学習とモデル予測制御の統合とマイクログリッドへの応用

Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids ( http://arxiv.org/abs/2409.11267v1 )

ライセンス: Link先を確認
Caio Fabio Oliveira da Silva, Azita Dabiri, Bart De Schutter, (参考訳) 本研究では、強化学習とモデル予測制御(MPC)を統合し、混合力学系における有限水平最適制御問題を効率的に解くアプローチを提案する。 離散的かつ連続的な決定変数を持つシステムの最適化に基づく制御は、次元性の呪いに苦しむ混合整数二次プログラムや線形プログラムのオンライン解を必要とする。 本研究の目的は,離散変数の決定と連続変数の決定を効果的に分離することでこの問題を軽減することである。 さらに,予測の地平線による可能性行動数の組合せ的増加を緩和するために,分離Q関数の定義を考案し,学習問題をより難易度の高いものにする。 強化学習を用いることで、MPCコントローラのオンライン最適化問題を、混合整数線形(四進数)プログラムから線形(四進数)プログラムに還元し、計算時間を劇的に短縮する。 実世界のデータを基にしたマイクログリッドのシミュレーション実験により,提案手法はMPC手法のオンライン計算時間を著しく短縮し,最適性ギャップが小さく,実現可能性の高いポリシーを生成することを示した。

This work proposes an approach that integrates reinforcement learning and model predictive control (MPC) to efficiently solve finite-horizon optimal control problems in mixed-logical dynamical systems. Optimization-based control of such systems with discrete and continuous decision variables entails the online solution of mixed-integer quadratic or linear programs, which suffer from the curse of dimensionality. Our approach aims at mitigating this issue by effectively decoupling the decision on the discrete variables and the decision on the continuous variables. Moreover, to mitigate the combinatorial growth in the number of possible actions due to the prediction horizon, we conceive the definition of decoupled Q-functions to make the learning problem more tractable. The use of reinforcement learning reduces the online optimization problem of the MPC controller from a mixed-integer linear (quadratic) program to a linear (quadratic) program, greatly reducing the computational time. Simulation experiments for a microgrid, based on real-world data, demonstrate that the proposed method significantly reduces the online computation time of the MPC approach and that it generates policies with small optimality gaps and high feasibility rates.
翻訳日:2024-09-18 16:13:33 公開日:2024-09-17
# 人種の一貫性のない知覚を用いた人種的偏見の検証

Testing for racial bias using inconsistent perceptions of race ( http://arxiv.org/abs/2409.11269v1 )

ライセンス: Link先を確認
Nora Gera, Emma Pierson, (参考訳) 人種バイアス試験は、異なる人種の2人が異なる扱いを受けるかどうかを一般的に評価する。 根本的な課題は、2人が様々な点で異なるため、人種以外の要因が治療の違いを説明する可能性があることである。 ここでは,2人比較の難しさを回避し,その代わりに,$\textit{same person}$が人種によって異なる場合に異なる扱いがなされているかどうかを評価することにより,バイアステストを提案する。 警察の交通停止におけるバイアステストに本手法を適用し, ヒスパニック系と認識される場合と, 白人と認識される場合とでは, 同じドライバーが警察によって捜索・逮捕される傾向にあることを確認した。 我々のテストは、人種、性別、その他のアイデンティティデータが自己報告ではなく認識され、同じ人が複数回観察される他のデータセットに広く適用されます。

Tests for racial bias commonly assess whether two people of different races are treated differently. A fundamental challenge is that, because two people may differ in many ways, factors besides race might explain differences in treatment. Here, we propose a test for bias which circumvents the difficulty of comparing two people by instead assessing whether the $\textit{same person}$ is treated differently when their race is perceived differently. We apply our method to test for bias in police traffic stops, finding that the same driver is likelier to be searched or arrested by police when they are perceived as Hispanic than when they are perceived as white. Our test is broadly applicable to other datasets where race, gender, or other identity data are perceived rather than self-reported, and the same person is observed multiple times.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# RISにおけるジョイントフェーズとプリコーダ最適化のためのメタラーニングニューラルネットワークを考慮した幾何学

Geometry Aware Meta-Learning Neural Network for Joint Phase and Precoder Optimization in RIS ( http://arxiv.org/abs/2409.11270v1 )

ライセンス: Link先を確認
Dahlia Devapriya, Sheetal Kalyani, (参考訳) 再構成可能なインテリジェントサーフェス(RIS)支援システムでは、基地局でのプリコーダ行列とRIS要素の位相シフトの合同最適化は、かなり複雑である。 本稿では,マルチユーザ複数入力単一出力システムにおける重み付け総和率を最大化する,複雑で幾何を考慮したメタラーニングニューラルネットワークを提案する。 位相シフトとプレコーダの球面幾何学に複素円幾何学を利用することにより、最適化はリーマン多様体上で起こり、より早く収束する。 我々は、位相シフトに複雑な値のニューラルネットワークを使用し、Eulerにインスパイアされたプレコーダネットワークのアップデートを行った。 我々のアプローチは、既存のニューラルネットワークベースのアルゴリズムよりも優れており、より重み付けされた総和率、消費電力の低減、およびはるかに高速な収束を提供する。 具体的には、既存の作業と比較して0.7bpsの加重和率の改善と1.8dBmのパワーゲインにより、100エポックに近い速度で収束する。

In reconfigurable intelligent surface (RIS) aided systems, the joint optimization of the precoder matrix at the base station and the phase shifts of the RIS elements involves significant complexity. In this paper, we propose a complex-valued, geometry aware meta-learning neural network that maximizes the weighted sum rate in a multi-user multiple input single output system. By leveraging the complex circle geometry for phase shifts and spherical geometry for the precoder, the optimization occurs on Riemannian manifolds, leading to faster convergence. We use a complex-valued neural network for phase shifts and an Euler inspired update for the precoder network. Our approach outperforms existing neural network-based algorithms, offering higher weighted sum rates, lower power consumption, and significantly faster convergence. Specifically, it converges faster by nearly 100 epochs, with a 0.7 bps improvement in weighted sum rate and a 1.8 dBm power gain when compared with existing work.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# オープンソースの多言語大規模言語モデルLOLA

LOLA -- An Open-Source Massively Multilingual Large Language Model ( http://arxiv.org/abs/2409.11272v1 )

ライセンス: Link先を確認
Nikit Srivastava, Denis Kuchelev, Tatiana Moteu, Kshitij Shetty, Michael Roeder, Diego Moussallem, Hamada Zahera, Axel-Cyrille Ngonga Ngomo, (参考訳) 本稿では,160言語以上で訓練された多言語多言語大言語モデルLOLAについて,Sparse Mixture-of-Experts Transformerアーキテクチャを用いて述べる。 我々のアーキテクチャと実装の選択は、効率を維持しつつ言語多様性を活用することの課題に対処し、多言語性の共通の落とし穴を避ける。 評価結果を解析した結果,自然言語生成と理解タスクにおける競合性能が示された。 さらに、学習した専門家引き抜き機構は、暗黙の系統的言語パターンを利用して、多言語性の呪いを和らげる可能性を実証する。 トレーニングプロセスの詳細、データセットの分析、モデルの強みと制限のバランスの取れた探索などを提供しています。 オープンソースモデルとして、LOLAは再現性を促進し、将来の研究の堅牢な基盤として機能する。 この結果から,言語間での強力なスケーラブルな性能を持つ計算効率のよい多言語モデルの開発が可能となった。

This paper presents LOLA, a massively multilingual large language model trained on more than 160 languages using a sparse Mixture-of-Experts Transformer architecture. Our architectural and implementation choices address the challenge of harnessing linguistic diversity while maintaining efficiency and avoiding the common pitfalls of multilinguality. Our analysis of the evaluation results shows competitive performance in natural language generation and understanding tasks. Additionally, we demonstrate how the learned expert-routing mechanism exploits implicit phylogenetic linguistic patterns to potentially alleviate the curse of multilinguality. We provide an in-depth look at the training process, an analysis of the datasets, and a balanced exploration of the model's strengths and limitations. As an open-source model, LOLA promotes reproducibility and serves as a robust foundation for future research. Our findings enable the development of compute-efficient multilingual models with strong, scalable performance across languages.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 一般化Wigner-Yanaseスキュー情報と分散に基づく多部量子系の絡み合い基準のいくつかの家系

Several families of entanglement criteria for multipartite quantum systems based on generalized Wigner-Yanase skew information and variance ( http://arxiv.org/abs/2409.11273v1 )

ライセンス: Link先を確認
Yan Hong, Xinlan Hao, Limin Gao, (参考訳) 多くの量子応用において量子エンタングルメントは重要な役割を果たすが、特に多部量子系や高次元量子系において量子エンタングルメントを検出することは依然として困難である。 本稿では、一般化されたウィグナー・ヤネーゼスキュー情報と分散を用いた多部量子状態または高次元量子状態の絡み合いを検出するための絡み合い基準のいくつかの家系を提案する。 また、一般化されたウィグナー・ヤネーゼスキュー情報に基づく基準と、特定の例による分散に基づく代替指標との相補的な特徴を明らかにする。 これらの基準の利点を概説し、他の基準によって認識されていない絡み合い状態を検出することができるため、絡み合い基準の組み合わせがより強力な検出能力を有することを示す。

Quantum entanglement plays a critical role in many quantum applications, but detecting entanglement, especially in multipartite or high-dimensional quantum systems, remains a challenge. In this paper, we propose several families of entanglement criteria for detecting entanglement in multipartite or high-dimensional quantum states using generalized Wigner-Yanase skew information and variance. We also reveal a complementary character between the criteria based on generalized Wigner-Yanase skew information and an alternative one based on variance through specific examples. We illustrate the merits of these criteria and show that the combination of the entanglement criteria has a stronger detection capability, as it is capable of detecting entangled states that remain unrecognized by other criteria.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 音声翻訳における言語拡張のためのタスク算術

Task Arithmetic for Language Expansion in Speech Translation ( http://arxiv.org/abs/2409.11274v1 )

ライセンス: Link先を確認
Yao-Fei Cheng, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Wen Shen Teo, Siddhant Arora, Shinji Watanabe, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、音声テキストの多モーダル基礎モデルに関心を持ち、命令ベースの音声翻訳(ST)において高いパフォーマンスを達成している。 しかし、既存の命令調整STシステムから言語ペアを拡張するのは、新しいデータセットと以前のデータセットの組み合わせで再学習する必要があるため、コストがかかる。 タスク算術を用いて,新しい言語ペアと既存モデルで訓練されたモデルを統合することで,新しい言語ペアを拡張することを提案する。 そこで,STに対するタスク演算の直接適用により,統合されたモデルでは命令に従わないことが判明した。 言語を混乱させないために,追加の言語制御モデルとマージする拡張タスク演算法を提案する。 命令に従って適切なターゲット言語トークンを生成するように訓練されている。 提案する言語制御モデルは,言語混乱を解消し,言語拡張を実現することができることを示す。 MuST-CとCoVoST-2の実験では、それぞれ4.66と4.92のBLEUスコアが改善されている。 さらに、我々のタスク演算フレームワークを用いることで、ペアSTトレーニングデータも事前学習STモデルも使用できない言語ペアに拡張できることを示す。 まず, 機械翻訳(MT)システムからタスクアナログを用いてSTシステムを合成し, 合成STシステムを既存のSTモデルにマージする。

Recent advances in large language models (LLMs) have gained interest in speech-text multimodal foundation models, achieving strong performance on instruction-based speech translation (ST). However, expanding language pairs from an existing instruction-tuned ST system is costly due to the necessity of re-training on a combination of new and previous datasets. We propose to expand new language pairs by merging the model trained on new language pairs and the existing model, using task arithmetic. We find that the direct application of task arithmetic for ST causes the merged model to fail to follow instructions; thus, generating translation in incorrect languages. To eliminate language confusion, we propose an augmented task arithmetic method that merges an additional language control model. It is trained to generate the correct target language token following the instructions. Our experiments demonstrate that our proposed language control model can achieve language expansion by eliminating language confusion. In our MuST-C and CoVoST-2 experiments, it shows up to 4.66 and 4.92 BLEU scores improvement, respectively. In addition, we demonstrate the use of our task arithmetic framework can expand to a language pair where neither paired ST training data nor a pre-trained ST model is available. We first synthesize the ST system from machine translation (MT) systems via task analogy, then merge the synthesized ST system to the existing ST model.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# Hackphyr: ネットワークセキュリティ環境のためのローカルな微調整LDMエージェント

Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments ( http://arxiv.org/abs/2409.11276v1 )

ライセンス: Link先を確認
Maria Rigaki, Carlos Catania, Sebastian Garcia, (参考訳) 大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野において顕著な可能性を示している。 商用クラウドベースのLLMを使用することは、プライバシの懸念やコスト、ネットワーク接続の制約により、望ましくない場合がある。 本稿では、ネットワークセキュリティ環境において、レッドチームエージェントとして使用されるローカルな微調整LDMであるHackphyrを提案する。 我々の微調整された70億のパラメータモデルは、単一のGPUカード上で動作可能で、GPT-4のようなより大きくより強力な商用モデルと同等のパフォーマンスを達成できます。 Hackphyrは、GPT-3.5-turboやQラーニングエージェントのようなベースラインなど他のモデルよりも明らかに優れている。 この性能を達成するために、ベースモデルの能力を高めるために、タスク固有のサイバーセキュリティデータセットを作成しました。 最後に,エージェントの行動の包括的分析を行い,このようなエージェントの計画能力と潜在的な欠点についての洞察を提供し,サイバーセキュリティの文脈におけるLCMベースのエージェントのより広範な理解に寄与した。

Large Language Models (LLMs) have shown remarkable potential across various domains, including cybersecurity. Using commercial cloud-based LLMs may be undesirable due to privacy concerns, costs, and network connectivity constraints. In this paper, we present Hackphyr, a locally fine-tuned LLM to be used as a red-team agent within network security environments. Our fine-tuned 7 billion parameter model can run on a single GPU card and achieves performance comparable with much larger and more powerful commercial models such as GPT-4. Hackphyr clearly outperforms other models, including GPT-3.5-turbo, and baselines, such as Q-learning agents in complex, previously unseen scenarios. To achieve this performance, we generated a new task-specific cybersecurity dataset to enhance the base model's capabilities. Finally, we conducted a comprehensive analysis of the agents' behaviors that provides insights into the planning abilities and potential shortcomings of such agents, contributing to the broader understanding of LLM-based agents in cybersecurity contexts
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 機械学習と理論遅延-現象学的考察

Machine Learning and Theory Ladenness -- A Phenomenological Account ( http://arxiv.org/abs/2409.11277v1 )

ライセンス: Link先を確認
Alberto Termine, Emanuele Ratti, Alessandro Facchini, (参考訳) 近年、科学研究における機械学習(ML)の方法論の普及は、理論の怠慢に関する議論を引き起こしている。 より具体的には、MLモデル(MLM)とMLモデリング戦略がMLの使用と実装の分野(物理、化学、生物学など)のドメイン理論にどのように影響するかという質問として、理論の怠慢の問題が再燃している。 一方で、従来のML(pre ML)とML補助科学に差はないと主張する者もいる。 どちらの場合も、理論は現象の分析とモデルの構築と利用において必須かつ避けられない役割を果たす。 MLの方法論やモデルは理論とは独立であり、場合によっては理論も自由であると主張する者もいる。 本稿では,両者の立場が単純すぎること,ML手法とドメイン理論との相互作用の理解を前進させるものではないことを論じる。 具体的には,ML支援科学における理論の怠慢の分析を行う。 我々の分析では、MLMの構築はドメイン理論とは比較的独立して行うことができるが、特定のドメイン内でのこれらのモデルの実践的実装と解釈は、基礎的な理論的仮定と背景知識に依存している。

In recent years, the dissemination of machine learning (ML) methodologies in scientific research has prompted discussions on theory ladenness. More specifically, the issue of theory ladenness has remerged as questions about whether and how ML models (MLMs) and ML modelling strategies are impacted by the domain theory of the scientific field in which ML is used and implemented (e.g., physics, chemistry, biology, etc). On the one hand, some have argued that there is no difference between traditional (pre ML) and ML assisted science. In both cases, theory plays an essential and unavoidable role in the analysis of phenomena and the construction and use of models. Others have argued instead that ML methodologies and models are theory independent and, in some cases, even theory free. In this article, we argue that both positions are overly simplistic and do not advance our understanding of the interplay between ML methods and domain theories. Specifically, we provide an analysis of theory ladenness in ML assisted science. Our analysis reveals that, while the construction of MLMs can be relatively independent of domain theory, the practical implementation and interpretation of these models within a given specific domain still relies on fundamental theoretical assumptions and background knowledge.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# P-RAG: 毎日の身体的タスクを計画するためのプログレッシブな検索生成

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task ( http://arxiv.org/abs/2409.11279v1 )

ライセンス: Link先を確認
Weiye Xu, Min Wang, Wengang Zhou, Houqiang Li, (参考訳) Embodied Everyday Taskは、インボディードAIコミュニティで一般的なタスクであり、自然言語の指示と視覚的な観察に基づいてアクションのシーケンスをエージェントに要求する。 従来の学習ベースのアプローチは2つの課題に直面します。 第一に、自然言語命令は明示的なタスクプランニングを欠いていることが多い。 第二に、タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。 LLM(Large Language Model)に基づく以前の研究は、タスク固有の知識の欠如によるパフォーマンスの低下や、いくつかのサンプルとして真実に依存していた。 上記の制約に対処するために,LLMの強力な言語処理能力を効果的に活用するだけでなく,基本構造を使わずにタスク固有の知識を徐々に蓄積する,プログレッシブ・レトリーバル拡張生成(P-RAG)という新しい手法を提案する。 データベースから関連情報をワンショットで取得して生成を支援する従来のRAG手法と比較して,P-RAGはデータベースを段階的に更新する反復的アプローチを導入する。 各イテレーションにおいて、P-RAGは最新のデータベースを取得し、現在のインタラクションの実験参照として、前のインタラクションから履歴情報を取得する。 さらに、類似したタスクを検索するだけでなく、類似した状況の検索を取り入れて、より価値のある参照体験を提供する、よりきめ細かい検索手法も導入する。 大規模な実験により、P-RAGは真理を生かさずに競争結果を達成し、自己評価によってさらに性能を向上させることができることが明らかになった。

Embodied Everyday Task is a popular task in the embodied AI community, requiring agents to make a sequence of actions based on natural language instructions and visual observations. Traditional learning-based approaches face two challenges. Firstly, natural language instructions often lack explicit task planning. Secondly, extensive training is required to equip models with knowledge of the task environment. Previous works based on Large Language Model (LLM) either suffer from poor performance due to the lack of task-specific knowledge or rely on ground truth as few-shot samples. To address the above limitations, we propose a novel approach called Progressive Retrieval Augmented Generation (P-RAG), which not only effectively leverages the powerful language processing capabilities of LLMs but also progressively accumulates task-specific knowledge without ground-truth. Compared to the conventional RAG methods, which retrieve relevant information from the database in a one-shot manner to assist generation, P-RAG introduces an iterative approach to progressively update the database. In each iteration, P-RAG retrieves the latest database and obtains historical information from the previous interaction as experiential references for the current interaction. Moreover, we also introduce a more granular retrieval scheme that not only retrieves similar tasks but also incorporates retrieval of similar situations to provide more valuable reference experiences. Extensive experiments reveal that P-RAG achieves competitive results without utilizing ground truth and can even further improve performance through self-iterations.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 文書理解のための蒸留技術を活用したFLAN-T5の事例

Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 ( http://arxiv.org/abs/2409.11282v1 )

ライセンス: Link先を確認
Marcel Lamott, Muhammad Armaghan Shakir, (参考訳) ビジネスレポートや環境アセスメントなど、標準化されていないドキュメントを含む様々な形式のデジタルドキュメントの急増は、ドキュメント理解の重要性の高まりを浮き彫りにしている。 Large Language Models (LLMs) は様々な自然言語処理タスクにまたがっているが、Document Understandingへの直接の応用は依然として課題である。 これまでの研究では、この領域におけるLLMの有用性が実証されているが、その大きな計算要求は、効果的にデプロイすることを困難にしている。 さらに、プロプライエタリなBlackbox LLMはオープンソースよりも優れており、幅広いアクセシビリティの障壁となっている。 本稿では,大容量LLMのパワーを生かし,計算限界を調節しながら,蒸留法を利用して文書理解の領域を掘り下げる。 具体的には,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。 本手法は,効果的な知識伝達を促進するために,ラベリングとカリキュラム学習機構を統合している。 本研究は,資源集約型LCMと実用アプリケーションとのギャップを埋めるスケーラブルなソリューションを提供することにより,文書理解手法の進歩に寄与する。 本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにし, 自然言語処理や文書理解領域の進歩を促進することを目的とした。

The surge of digital documents in various formats, including less standardized documents such as business reports and environmental assessments, underscores the growing importance of Document Understanding. While Large Language Models (LLMs) have showcased prowess across diverse natural language processing tasks, their direct application to Document Understanding remains a challenge. Previous research has demonstrated the utility of LLMs in this domain, yet their significant computational demands make them challenging to deploy effectively. Additionally, proprietary Blackbox LLMs often outperform their open-source counterparts, posing a barrier to widespread accessibility. In this paper, we delve into the realm of document understanding, leveraging distillation methods to harness the power of large LLMs while accommodating computational limitations. Specifically, we present a novel approach wherein we distill document understanding knowledge from the proprietary LLM ChatGPT into FLAN-T5. Our methodology integrates labeling and curriculum-learning mechanisms to facilitate efficient knowledge transfer. This work contributes to the advancement of document understanding methodologies by offering a scalable solution that bridges the gap between resource-intensive LLMs and practical applications. Our findings underscore the potential of distillation techniques in facilitating the deployment of sophisticated language models in real-world scenarios, thereby fostering advancements in natural language processing and document comprehension domains.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# グラフベース文脈知識トリプルモデリングによるテキスト生成のためのゼロリソース幻覚検出

Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling ( http://arxiv.org/abs/2409.11283v1 )

ライセンス: Link先を確認
Xinyue Fang, Zhen Huang, Zhiliang Tian, Minghui Fang, Ziyi Pan, Quntian Fang, Zhihua Wen, Hengyue Pan, Dongsheng Li, (参考訳) LLMは優れたパフォーマンスを得るが、幻覚に悩まされる。 幻覚の検出に関するほとんどの研究は、忠実さの確認が容易な簡潔で具体的な正解の質問に焦点を当てている。 オープンな回答を持つテキスト生成のための幻覚検出はより困難である。 一部の研究者は、生成したテキストの幻覚を検出するために外部知識を使用しているが、特定のシナリオに対する外部リソースへのアクセスは困難である。 外部資源のない長文テキストにおける幻覚検出に関する最近の研究は、複数のサンプル出力の整合性比較を行っている。 長いテキストを扱うために、研究者は長いテキストを複数の事実に分割し、それぞれの事実の一貫性を個別に比較した。 しかし,これらの手法は(1)複数の事実間の一致をほとんど達成しておらず,(2)複数の事実間の依存関係を見落としている。 本稿では,テキスト生成のためのグラフベースの文脈認識(GCA)幻覚検出手法を提案する。 特に,複数の事実を整列させるために,複数の知識を抽出する三方向応答セグメンテーションを行う。 文脈知識三重項(ファクト)間の依存関係をモデル化するため、文脈三重項をグラフ内に構築し、RGCNを介してメッセージパッシングや集約を通じて三重項の相互作用を強化する。 長文における知識三重項の欠落を回避するため,知識三重項の再構成によりLLMに基づく逆検証を行う。 実験により,本モデルは幻覚検出を増強し,全てのベースラインを抜粋することが示された。

LLMs obtain remarkable performance but suffer from hallucinations. Most research on detecting hallucination focuses on the questions with short and concrete correct answers that are easy to check the faithfulness. Hallucination detections for text generation with open-ended answers are more challenging. Some researchers use external knowledge to detect hallucinations in generated texts, but external resources for specific scenarios are hard to access. Recent studies on detecting hallucinations in long text without external resources conduct consistency comparison among multiple sampled outputs. To handle long texts, researchers split long texts into multiple facts and individually compare the consistency of each pairs of facts. However, these methods (1) hardly achieve alignment among multiple facts; (2) overlook dependencies between multiple contextual facts. In this paper, we propose a graph-based context-aware (GCA) hallucination detection for text generations, which aligns knowledge facts and considers the dependencies between contextual knowledge triples in consistency comparison. Particularly, to align multiple facts, we conduct a triple-oriented response segmentation to extract multiple knowledge triples. To model dependencies among contextual knowledge triple (facts), we construct contextual triple into a graph and enhance triples' interactions via message passing and aggregating via RGCN. To avoid the omission of knowledge triples in long text, we conduct a LLM-based reverse verification via reconstructing the knowledge triples. Experiments show that our model enhances hallucination detection and excels all baselines.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 自動車走行問題のためのニューラルネットワーク

Neural Networks for Vehicle Routing Problem ( http://arxiv.org/abs/2409.11290v1 )

ライセンス: Link先を確認
László Kovács, Ali Jlidi, (参考訳) 車両ルーティング問題は、特定の場所で顧客のニーズを満たすために車両の経路を最適化することである。 ルートグラフは、いくつかのレベルの補給所と顧客位置で構成されている。 長年にわたりいくつかの最適化手法が開発され、そのほとんどは遺伝的アルゴリズム、シミュレートされたアニーリング、タブーサーチ、アリコロニー最適化、ファイアフライアルゴリズムといった古典的なヒューリスティックなアルゴリズムに基づいている。 機械学習の最近の進歩は、複雑な問題に取り組むために、ニューラルネットワークの豊富なファミリーである新しいツールセットを提供する。 ニューラルネットワークを応用する主な領域は、分類と回帰の領域である。 ルート最適化はニューラルネットワークの新たな課題と見なすことができる。 この記事では、まずニューラルネットワークツールの適用性の分析を行い、次に、新しいグラフィカルニューラルネットワークモデルを詳細に示す。 テスト実験に基づく効率解析は,提案したNNアーキテクチャの適用性を示す。

The Vehicle Routing Problem is about optimizing the routes of vehicles to meet the needs of customers at specific locations. The route graph consists of depots on several levels and customer positions. Several optimization methods have been developed over the years, most of which are based on some type of classic heuristic: genetic algorithm, simulated annealing, tabu search, ant colony optimization, firefly algorithm. Recent developments in machine learning provide a new toolset, the rich family of neural networks, for tackling complex problems. The main area of application of neural networks is the area of classification and regression. Route optimization can be viewed as a new challenge for neural networks. The article first presents an analysis of the applicability of neural network tools, then a novel graphical neural network model is presented in detail. The efficiency analysis based on test experiments shows the applicability of the proposed NN architecture.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# ナビゲーションプロセスマイニング:pm4pyを用いたケーススタディ

Navigating Process Mining: A Case study using pm4py ( http://arxiv.org/abs/2409.11294v1 )

ライセンス: Link先を確認
Ali Jlidi, László Kovács, (参考訳) ビジネスプロセスに関する洞察を得るために、イベントデータを分析するための強力なツールとして、プロセスマイニング技術が登場した。 本稿では,Python の pm4py ライブラリを用いた道路交通微粒化プロセスの包括的解析を行う。 まず、イベントログデータセットをインポートして、アクティビティの分散やプロセスのバリエーションなど、その特性を調べます。 フィルタリングと統計的解析により、プロセスの実行における重要なパターンとバリエーションを明らかにする。 次に、イベントログデータからプロセスモデルを発見するために、Alpha Miner、Inductive Miner、Huristic Minerなどのプロセスマイニングアルゴリズムを適用した。 発見されたモデルを視覚化して、プロセス内のワークフロー構造と依存関係を理解します。 さらに,基礎となるプロセスのダイナミックスを捕捉する際のマイニング手法の長所と短所についても論じる。 その結果,道路交通きめ細かな管理プロセスの効率と有効性に光を当て,プロセス最適化と意思決定に有用な洞察を提供することができた。 本研究では,プロセスマイニング作業の容易化におけるpm4pyの有用性と実世界のビジネスプロセス分析の可能性を示す。

Process-mining techniques have emerged as powerful tools for analyzing event data to gain insights into business processes. In this paper, we present a comprehensive analysis of road traffic fine management processes using the pm4py library in Python. We start by importing an event log dataset and explore its characteristics, including the distribution of activities and process variants. Through filtering and statistical analysis, we uncover key patterns and variations in the process executions. Subsequently, we apply various process-mining algorithms, including the Alpha Miner, Inductive Miner, and Heuristic Miner, to discover process models from the event log data. We visualize the discovered models to understand the workflow structures and dependencies within the process. Additionally, we discuss the strengths and limitations of each mining approach in capturing the underlying process dynamics. Our findings shed light on the efficiency and effectiveness of road traffic fine management processes, providing valuable insights for process optimization and decision-making. This study demonstrates the utility of pm4py in facilitating process mining tasks and its potential for analyzing real-world business processes.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# EIA: プライバシ漏洩のためのジェネリストWebエージェントに対する環境注入攻撃

EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage ( http://arxiv.org/abs/2409.11295v1 )

ライセンス: Link先を確認
Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun, (参考訳) ジェネラリストのウェブエージェントは急速に進化し、驚くべき可能性を示している。 しかし、これらにかかわる前例のない安全リスクがある。 本研究は,一般のWebエージェントが敵対的環境下でのプライバシーリスクに関する最初の研究を行うことにより,このギャップを狭めることを目的としている。 まず、敵の標的、制約、攻撃シナリオについて議論する脅威モデルを提案する。 特に,ユーザの個人識別可能な情報(PII)を盗んだり,ユーザ要求全体を盗んだりする。 これらの目的を達成するために,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。 この攻撃は、エージェントが動作するさまざまな環境に順応するように設計された悪意のあるコンテンツを注入し、意図しないアクションを実行する。 この作業は、プライバシーシナリオに特化してEIAをインスタンス化する。 悪意のあるWeb要素を挿入し、Webエージェントを誤解させる命令と共に、プライベート情報を漏洩させ、さらにCSSとJavaScriptの機能を活用して、ステルス性を維持する。 我々は、Mind2Webデータセットから、現実的なWebサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークであるSeeeActを使用して、広範な実験を行う。 その結果、EIAはユーザーの特定のPIIを盗む際に最大70%のASRを達成することが示された。 完全なユーザリクエストのスタイリングはもっと難しいが、EIAの緩和バージョンは依然として16%のASRを達成することができる。 これらの結果にも拘わらず、高い自律性とセキュリティのトレードオフを浮き彫りにして、慎重に人間の検査によって攻撃が検出できることに注意する必要がある。 このことは,人事監督の異なるレベルにおけるEIAの有効性と,一般ウェブエージェントに対する防衛効果に関する詳細な議論につながっている。

Generalist web agents have evolved rapidly and demonstrated remarkable potential. However, there are unprecedented safety risks associated with these them, which are nearly unexplored so far. In this work, we aim to narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a threat model that discusses the adversarial targets, constraints, and attack scenarios. Particularly, we consider two types of adversarial targets: stealing users' specific personally identifiable information (PII) or stealing the entire user request. To achieve these objectives, we propose a novel attack method, termed Environmental Injection Attack (EIA). This attack injects malicious content designed to adapt well to different environments where the agents operate, causing them to perform unintended actions. This work instantiates EIA specifically for the privacy scenario. It inserts malicious web elements alongside persuasive instructions that mislead web agents into leaking private information, and can further leverage CSS and JavaScript features to remain stealthy. We collect 177 actions steps that involve diverse PII categories on realistic websites from the Mind2Web dataset, and conduct extensive experiments using one of the most capable generalist web agent frameworks to date, SeeAct. The results demonstrate that EIA achieves up to 70% ASR in stealing users' specific PII. Stealing full user requests is more challenging, but a relaxed version of EIA can still achieve 16% ASR. Despite these concerning results, it is important to note that the attack can still be detectable through careful human inspection, highlighting a trade-off between high autonomy and security. This leads to our detailed discussion on the efficacy of EIA under different levels of human supervision as well as implications on defenses for generalist web agents.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# TTT-Unet: バイオメディカルイメージセグメンテーションのためのテスト時間トレーニング層によるU-Netの強化

TTT-Unet: Enhancing U-Net with Test-Time Training Layers for biomedical image segmentation ( http://arxiv.org/abs/2409.11299v1 )

ライセンス: Link先を確認
Rong Zhou, Zhengqing Yuan, Zhiling Yan, Weixiang Sun, Kai Zhang, Yiwei Li, Yanfang Ye, Xiang Li, Lifang He, Lichao Sun, (参考訳) バイオメディカルイメージセグメンテーションは、様々な疾患を正確に診断し、分析するために重要である。 しかし、このタスクに最もよく使用されるアーキテクチャである畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、CNN固有の局所性とトランスフォーマーの計算複雑性のために、長距離依存を効果的に捉えるのに苦労する。 バイオメディカルイメージセグメンテーションのための従来のU-Netアーキテクチャにテスト時間トレーニング(TTT)層を統合する新しいフレームワークであるTT-Unetを導入する。 TTT-Unetはテスト期間中にモデルパラメータを動的に調整し、局所的特徴と長距離的特徴の両方をキャプチャするモデルの能力を向上する。 TTT-Unetは,CTおよびMR画像における3次元腹部臓器の分画,内視鏡画像における計器の分画,顕微鏡画像における細胞分画など,複数の医用画像データセット上で評価される。 その結果,TT-Unetは全タスクにおける最先端CNNベースおよびトランスフォーマーベースセグメンテーションモデルより一貫して優れていた。 コードはhttps://github.com/rongzhou7/TTT-Unet.comで公開されている。

Biomedical image segmentation is crucial for accurately diagnosing and analyzing various diseases. However, Convolutional Neural Networks (CNNs) and Transformers, the most commonly used architectures for this task, struggle to effectively capture long-range dependencies due to the inherent locality of CNNs and the computational complexity of Transformers. To address this limitation, we introduce TTT-Unet, a novel framework that integrates Test-Time Training (TTT) layers into the traditional U-Net architecture for biomedical image segmentation. TTT-Unet dynamically adjusts model parameters during the testing time, enhancing the model's ability to capture both local and long-range features. We evaluate TTT-Unet on multiple medical imaging datasets, including 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images. The results demonstrate that TTT-Unet consistently outperforms state-of-the-art CNN-based and Transformer-based segmentation models across all tasks. The code is available at https://github.com/rongzhou7/TTT-Unet.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# 電子ヘラルド非古典光

Electrons herald non-classical light ( http://arxiv.org/abs/2409.11300v1 )

ライセンス: Link先を確認
Germaine Arend, Guanhao Huang, Armin Feist, Yujia Yang, Jan-Wilke Henke, Zheru Qiu, Hao Jeng, Arslan Sajid Raja, Rudolf Haindl, Rui Ning Wang, Tobias J. Kippenberg, Claus Ropers, (参考訳) 自由電子は広範で普遍的な電磁場源である。 過去数十年間、X線管が生成する非コヒーレント放射から、自由電子レーザーの並外れた輝きまで、電子発生放射の多くの側面をずっとコントロールしてきた。 個々の電子と電磁場の間の量子化されたエネルギー交換の基本的なプロセスにより、電子ビームは将来の可変量子光の源となる。 しかし、そのような放射の量子的特徴は粒子の相関と結びついており、さらなる応用のために共同の電子状態とフォトニック状態を求める。 ここでは、自由電子による光の非古典状態のコヒーレントパラメトリック生成を示す。 量子化された電子エネルギー損失は、誘電体導波路で発生する光子の数を示す。 ハンベリー・ブラウン・ツイツ測定では、電子が支配する単一光子状態は反バンチング強度相関によって明らかにされるが、個々の電子の2量子エネルギー損失は2光子偶然に発音される。 このアプローチは、自由電子ビームとの制御された相互作用に基づいて、より数の多いフォックやその他の光学量子状態の調整を容易にする。

Free electrons are a widespread and universal source of electromagnetic fields. The past decades witnessed ever-growing control over many aspects of electron-generated radiation, from the incoherent emission produced by X-ray tubes to the exceptional brilliance of free-electron lasers. Reduced to the elementary process of quantized energy exchange between individual electrons and the electromagnetic field, electron beams may facilitate future sources of tunable quantum light. However, the quantum features of such radiation are tied to the correlation of the particles, calling for the joint electronic and photonic state to be explored for further applications. Here, we demonstrate the coherent parametric generation of non-classical states of light by free electrons. We show that the quantized electron energy loss heralds the number of photons generated in a dielectric waveguide. In Hanbury-Brown-Twiss measurements, an electron-heralded single-photon state is revealed via antibunching intensity correlations, while two-quantum energy losses of individual electrons yield pronounced two-photon coincidences. The approach facilitates the tailored preparation of higher-number Fock and other optical quantum states based on controlled interactions with free-electron beams.
翻訳日:2024-09-18 15:57:32 公開日:2024-09-17
# LoRAを超えて - 時系列基礎モデルのための効率的なファインチューニング技術を探る

Beyond LoRA: Exploring Efficient Fine-Tuning Techniques for Time Series Foundational Models ( http://arxiv.org/abs/2409.11302v1 )

ライセンス: Link先を確認
Divij Gupta, Anubhav Bhatti, Surajsinh Parmar, (参考訳) 時系列ファウンデーションモデル(TSFM)は、小売、金融、交通といった領域にまたがる複雑な大規模時系列データをモデル化する能力に注目が集まっている。 しかし、医療のような機密性の高いドメイン固有の分野への応用は、主に、公開データセットが少ない専門的なドメイン外のタスクのためにこれらのモデルを微調整することが困難であるため、依然として困難である。 本研究では,これらの限界に対処するためのパラメータ・エフェクト・ファイン・チューニング(PEFT)技術の利用について検討し,医療応用,特に敗血症患者に対するICUバイタル予測に焦点を当てた。 本研究はChronos TSFMの複数構成に対する2つの選択的 (BitFit と LayerNorm Tuning) および2つの付加的 (VeRA と FourierFT) PEFT 手法の導入と評価を行った。 比較分析により,これらのPEFT手法のいくつかはパラメータ効率や領域適応の点でLoRAよりも優れており,SOTA(State-of-the-art)の確立によってICUの重要予測タスクが達成されることが示された。 興味深いことに、FourierFTはChronos (Tiny) の変種に適用し、ベンチマークの700Kのパラメータと比較して2,400のパラメータのみを微調整した。

Time Series Foundation Models (TSFMs) have recently garnered attention for their ability to model complex, large-scale time series data across domains such as retail, finance, and transportation. However, their application to sensitive, domain-specific fields like healthcare remains challenging, primarily due to the difficulty of fine-tuning these models for specialized, out-of-domain tasks with scarce publicly available datasets. In this work, we explore the use of Parameter-Efficient Fine-Tuning (PEFT) techniques to address these limitations, focusing on healthcare applications, particularly ICU vitals forecasting for sepsis patients. We introduce and evaluate two selective (BitFit and LayerNorm Tuning) and two additive (VeRA and FourierFT) PEFT techniques on multiple configurations of the Chronos TSFM for forecasting vital signs of sepsis patients. Our comparative analysis demonstrates that some of these PEFT methods outperform LoRA in terms of parameter efficiency and domain adaptation, establishing state-of-the-art (SOTA) results in ICU vital forecasting tasks. Interestingly, FourierFT applied to the Chronos (Tiny) variant surpasses the SOTA model while fine-tuning only 2,400 parameters compared to the 700K parameters of the benchmark.
翻訳日:2024-09-18 15:47:41 公開日:2024-09-17
# ファジィコミットとブロックチェーンに基づく分散バイオメトリック認証

Decentralized Biometric Authentication based on Fuzzy Commitments and Blockchain ( http://arxiv.org/abs/2409.11303v1 )

ライセンス: Link先を確認
Nibras Abo Alzahab, Giulia Rafaiani, Massimo Battaglioni, Franco Chiaraluce, Marco Baldi, (参考訳) 暗号通貨をサポートするために導入されたブロックチェーン技術は、今日、アルゴリズムの一般的な情報ストレージと実行のための分散インフラストラクチャを提供する。 本稿では,古典的に中央集権システムを用いて行われるバイオメトリック認証に着目し,分散化のメリットを享受する。 しかし、このような目的のためには、バイオメトリックアプリケーションとブロックチェーン技術の間に固有の矛盾を克服する必要がある。 本稿では,ブロックチェーンベースのバイオメトリック認証プロトコルを提案する。プライバシや個人情報,特にユーザの生体特性を保護しながら,分散化とレジリエンスを実現する。 提案するプロトコルは,バイオメトリックデータを開示せずに生体認証を行うためのファジィコミットメント方式を利用する。 また、関連する攻撃を考慮し、提案するプロトコルのセキュリティも分析する。

Blockchain technology, which was introduced for supporting cryptocurrencies, today provides a decentralized infrastructure for general information storage and execution of algorithms, thus enabling the conversion of many applications and services from a centralized and intermediated model to a decentralized and disintermediated one. In this paper we focus on biometric authentication, which is classically performed using centralized systems, and could hence benefit from decentralization. For such a purpose, however, an inherent contradiction between biometric applications and blockchain technology must be overcome, as the former require keeping biometric features private, while blockchain is a public infrastructure. We propose a blockchain-based biometric authentication protocol that enables decentralization and resilience while protecting the privacy, personal data, and, in particular, biometric features of users. The protocol we propose leverages fuzzy commitment schemes to allow biometric authentication to be performed without disclosing biometric data. We also analyze the security of the protocol we propose by considering some relevant attacks.
翻訳日:2024-09-18 15:47:41 公開日:2024-09-17
# GS-Net: 汎用的なPlug-and-Play 3D Gaussian Splatting Module

GS-Net: Generalizable Plug-and-Play 3D Gaussian Splatting Module ( http://arxiv.org/abs/2409.11307v1 )

ライセンス: Link先を確認
Yichen Zhang, Zihan Wang, Jiali Han, Peilin Li, Jiaxun Zhang, Jianqiang Wang, Lei He, Keqiang Li, (参考訳) 3D Gaussian Splatting (3DGS)は、プリミティブベースの表現とボリュームレンダリングの長所を統合し、リアルタイムで高品質なレンダリングを可能にする。 しかし、3DGSモデルは典型的にはシングルシーントレーニングに過度に適合し、一般化と実用性の両方を制限するSfM(Structure from Motion)点雲からヒューリスティックに派生したガウス楕円体の初期化に非常に敏感である。 これらの制約に対処するため,GS-Netを提案する。これはガウス楕円体をスパースSfM点雲から高密度化し,幾何学的構造表現を向上する汎用3DGSモジュールである。 我々の知る限り、GS-Netはクロスシーンの一般化機能を備えた最初のプラグアンドプレイ3DGSモジュールです。 さらに、CARLA-NVSデータセットを導入し、追加のカメラ視点を取り入れて、再現性とレンダリング品質を徹底的に評価する。 3DGSにGS-Netを適用すると、従来の視点では2.08dB、新しい視点では1.86dBのPSNRが向上し、手法の有効性と堅牢性が確認される。

3D Gaussian Splatting (3DGS) integrates the strengths of primitive-based representations and volumetric rendering techniques, enabling real-time, high-quality rendering. However, 3DGS models typically overfit to single-scene training and are highly sensitive to the initialization of Gaussian ellipsoids, heuristically derived from Structure from Motion (SfM) point clouds, which limits both generalization and practicality. To address these limitations, we propose GS-Net, a generalizable, plug-and-play 3DGS module that densifies Gaussian ellipsoids from sparse SfM point clouds, enhancing geometric structure representation. To the best of our knowledge, GS-Net is the first plug-and-play 3DGS module with cross-scene generalization capabilities. Additionally, we introduce the CARLA-NVS dataset, which incorporates additional camera viewpoints to thoroughly evaluate reconstruction and rendering quality. Extensive experiments demonstrate that applying GS-Net to 3DGS yields a PSNR improvement of 2.08 dB for conventional viewpoints and 1.86 dB for novel viewpoints, confirming the method's effectiveness and robustness.
翻訳日:2024-09-18 15:47:41 公開日:2024-09-17
# SpMis: 合成音声誤報検出の検討

SpMis: An Investigation of Synthetic Spoken Misinformation Detection ( http://arxiv.org/abs/2409.11308v1 )

ライセンス: Link先を確認
Peizhuo Liu, Li Wang, Renqiang He, Haorui He, Lei Wang, Huadi Zheng, Jie Shi, Tong Xiao, Zhizheng Wu, (参考訳) 近年, 音声生成技術は急速に進歩し, 生成モデルや大規模訓練技術によって促進されている。 これらの発展により、高品質な合成音声の制作が可能になったが、この技術の誤用、特に合成誤報の発生も懸念されている。 近年の研究では、機械生成音声と人間生成音声の区別に重点を置いているが、より緊急な課題は、音声コンテンツ中の誤情報を検出することである。 このタスクでは、話者識別、トピック、合成などの要素を徹底的に分析する必要がある。 このニーズに対処するため、我々はオープンソースのデータセットSpMisを導入し、合成音声誤情報検出の初期調査を行う。 SpMisには、5つの共通トピックにわたる1,000人以上の話者から合成された音声が含まれており、最先端のテキスト音声システムを利用している。 また,本研究は将来的な検出能力を示すが,この重要な領域における研究の重要さを浮き彫りにしながら,実践上の課題も浮き彫りにしている。

In recent years, speech generation technology has advanced rapidly, fueled by generative models and large-scale training techniques. While these developments have enabled the production of high-quality synthetic speech, they have also raised concerns about the misuse of this technology, particularly for generating synthetic misinformation. Current research primarily focuses on distinguishing machine-generated speech from human-produced speech, but the more urgent challenge is detecting misinformation within spoken content. This task requires a thorough analysis of factors such as speaker identity, topic, and synthesis. To address this need, we conduct an initial investigation into synthetic spoken misinformation detection by introducing an open-source dataset, SpMis. SpMis includes speech synthesized from over 1,000 speakers across five common topics, utilizing state-of-the-art text-to-speech systems. Although our results show promising detection capabilities, they also reveal substantial challenges for practical implementation, underscoring the importance of ongoing research in this critical area.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 同期可能なハイブリッドサブシステムコード

Synchronizable hybrid subsystem codes ( http://arxiv.org/abs/2409.11312v1 )

ライセンス: Link先を確認
Theerapat Tansuwannont, Andrew Nemec, (参考訳) 量子同期可能符号(Quantum synchronizable codes)は、パウリの誤りだけでなく、ブロック同期の誤りも訂正できる量子誤り訂正符号である。 コードは2つの古典的巡回コードから構成できる: $\mathcal{C}$, $\mathcal{D}$ fulfilling $\mathcal{C}^{\perp} \subset \mathcal{C} \subset \mathcal{D}$ via the Calderbank-Shor-Steane (CSS) code construction。 本研究では, 量子同期可能符号, サブシステム符号, および, 同じ一対の古典的巡回符号から構築されたハイブリッド符号間の接続を確立する。 パウリと同期の誤りを訂正し、サブシステム構造を用いてエラーを計測し、古典情報と量子情報の両方を同時に送信できる、同期可能なハイブリッドサブシステムコードを構築する方法も提案する。 また、訂正可能な同期エラー数、ゲージ量子ビット数、符号の論理的古典ビット数とのトレードオフも確立する。 さらに,本研究の主構成から関連するコードをカバーする古典的なコードから,CSSタイプのハイブリッドサブシステムコードとハイブリッドサブシステムコードを構築するための一般的な手法を提案する。

Quantum synchronizable codes are quantum error correcting codes that can correct not only Pauli errors but also errors in block synchronization. The code can be constructed from two classical cyclic codes $\mathcal{C}$, $\mathcal{D}$ satisfying $\mathcal{C}^{\perp} \subset \mathcal{C} \subset \mathcal{D}$ through the Calderbank-Shor-Steane (CSS) code construction. In this work, we establish connections between quantum synchronizable codes, subsystem codes, and hybrid codes constructed from the same pair of classical cyclic codes. We also propose a method to construct a synchronizable hybrid subsystem code which can correct both Pauli and synchronization errors, is resilient to gauge errors by virtue of the subsystem structure, and can transmit both classical and quantum information, all at the same time. The trade-offs between the number of synchronization errors that the code can correct, the number of gauge qubits, and the number of logical classical bits of the code are also established. In addition, we propose general methods to construct hybrid and hybrid subsystem codes of CSS type from classical codes, which cover relevant codes from our main construction.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# ログ中の感性情報に関する実証的研究

An Empirical Study of Sensitive Information in Logs ( http://arxiv.org/abs/2409.11313v1 )

ライセンス: Link先を確認
Roozbeh Aghili, Heng Li, Foutse Khomh, (参考訳) ソフトウェアログは、ソフトウェアシステムの実行中に生成され、異常検出や故障診断などの様々な開発および分析活動に不可欠である。 しかし、これらのログに機密情報が存在することは、特にPII(Personally Identible Information)や準識別について重要なプライバシー上の懸念を引き起こす。 一般的なデータのプライバシは広く研究されているが、ソフトウェアログの特定のプライバシ領域は、センシティブな定義と匿名化のための標準化されたガイドラインが欠如しているため、未調査のままである。 このギャップを軽減するために、本研究では、複数の視点からソフトウェアログのプライバシーを包括的に分析する。 まず、潜在的に機密性の高い属性を特定するために、公開可能な25のログデータセットの分析から始めます。 このステップの結果に基づいて、プライバシー規制、研究文献、産業プラクティスの3つの視点に焦点を当てる。 我々はまず、ログ内の機密情報に関する法的要件を理解するために、GDPR(General Data Protection Regulation)やCCPA(California Consumer Privacy Act)といった主要なデータプライバシ規制を分析します。 第2に、ログ匿名化における共通プライバシー属性とプラクティスを特定するための体系的な文献レビューを行い、既存のアプローチのギャップを明らかにする。 最後に、45人の業界プロフェッショナルを対象に、ログ匿名化プラクティスに関する実践的な洞察を収集する。 当社の調査結果は、ログプライバシに関するさまざまな視点に光を当て、標準化されたガイドラインの必要性を強調しながら、技術や効率の問題などの業界の課題を明らかにしました。 規制,学術,産業の観点からの洞察を組み合わせることで,ソフトウェアログ内の機密情報を識別し,保護するための,より明確なフレームワークの提供を目指す。

Software logs, generated during the runtime of software systems, are essential for various development and analysis activities, such as anomaly detection and failure diagnosis. However, the presence of sensitive information in these logs poses significant privacy concerns, particularly regarding Personally Identifiable Information (PII) and quasi-identifiers that could lead to re-identification risks. While general data privacy has been extensively studied, the specific domain of privacy in software logs remains underexplored, with inconsistent definitions of sensitivity and a lack of standardized guidelines for anonymization. To mitigate this gap, this study offers a comprehensive analysis of privacy in software logs from multiple perspectives. We start by performing an analysis of 25 publicly available log datasets to identify potentially sensitive attributes. Based on the result of this step, we focus on three perspectives: privacy regulations, research literature, and industry practices. We first analyze key data privacy regulations, such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA), to understand the legal requirements concerning sensitive information in logs. Second, we conduct a systematic literature review to identify common privacy attributes and practices in log anonymization, revealing gaps in existing approaches. Finally, we survey 45 industry professionals to capture practical insights on log anonymization practices. Our findings shed light on various perspectives of log privacy and reveal industry challenges, such as technical and efficiency issues while highlighting the need for standardized guidelines. By combining insights from regulatory, academic, and industry perspectives, our study aims to provide a clearer framework for identifying and protecting sensitive information in software logs.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 先進的AI安全のための国際標準への貢献におけるAI安全研究所の役割

The Role of AI Safety Institutes in Contributing to International Standards for Frontier AI Safety ( http://arxiv.org/abs/2409.11314v1 )

ライセンス: Link先を確認
Kristina Fort, (参考訳) 国際標準は、フロンティアAIシステムが世界中で開発され、安全に展開されることを保証するために不可欠である。 AI安全研究所(AISIs)は、社内の技術専門知識を持ち、国際的関与の義務を持ち、政府機関である間、国家AIエコシステムに力を注ぐため、特に、AI安全のための国際標準設定プロセスに貢献するために適当である、と我々は主張する。 本稿では,AISIの関与に関する3つのモデルを提案し,評価する。 1.ソウル宣言署名書 2.米国(およびその他のソウル宣言署名者)と中国 3.グローバルに包括的。 様々な強みを生かして、これらのモデルは相互に排他的ではない。 むしろ、AISIの中心的な役割が、異なるトラック間の一貫性と、AI安全性の焦点における一貫性を保証する、マルチトラックシステムソリューションを提供する。

International standards are crucial for ensuring that frontier AI systems are developed and deployed safely around the world. Since the AI Safety Institutes (AISIs) possess in-house technical expertise, mandate for international engagement, and convening power in the national AI ecosystem while being a government institution, we argue that they are particularly well-positioned to contribute to the international standard-setting processes for AI safety. In this paper, we propose and evaluate three models for AISI involvement: 1. Seoul Declaration Signatories, 2. US (and other Seoul Declaration Signatories) and China, and 3. Globally Inclusive. Leveraging their diverse strengths, these models are not mutually exclusive. Rather, they offer a multi-track system solution in which the central role of AISIs guarantees coherence among the different tracks and consistency in their AI safety focus.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# fMRI-3D:fMRIに基づく3次元再構成の総合的データセット

fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction ( http://arxiv.org/abs/2409.11315v1 )

ライセンス: Link先を確認
Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu, (参考訳) Recon3DMindとして紹介された機能的磁気共鳴イメージング(fMRI)データからの3次元視覚の再構成は、認知神経科学とコンピュータビジョンの両方において重要な関心事である。 この課題を進めるために、15人の参加者のデータを含むfMRI-3Dデータセットを提示し、合計4768個の3Dオブジェクトを提示する。 fMRI-Shapeはhttps://huggingface.co/datasets/Fudan-fMRI/fMRI-Shapeで、fMRI-Objaverseではhttps://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverseで利用可能である。 fMRI-Objaverseには、5人の被験者のデータが含まれており、そのうち4人はfMRI-Shapeのコアセットの一部であり、各被験者は117のカテゴリで3142個の3Dオブジェクトを閲覧し、それぞれにテキストキャプションを添付している。 これにより、データセットの多様性と潜在的な応用が大幅に向上する。 さらに,fMRI信号から3次元視覚情報を復号化するための新しいフレームワークMinD-3Dを提案する。 このフレームワークは、まず神経融合エンコーダを用いてfMRIデータから特徴を抽出、集約し、次に特徴橋拡散モデルを用いて視覚的特徴を生成し、最終的に生成変換器デコーダを用いて3Dオブジェクトを再構成する。 モデルの性能を評価するために、セマンティックレベルと構造レベルの両方でメトリクスを設計することで、新しいベンチマークを構築します。 さらに,fMRI信号における抽出した特徴と視覚的ROIの属性について,アウト・オブ・ディストリビューション・セッティングにおけるモデルの有効性を評価した。 我々の実験は、MinD-3Dが意味的・空間的精度の高い3Dオブジェクトを再構築するだけでなく、人間の脳が3D視覚情報をどのように処理するかの理解を深めることを示した。 プロジェクトページ: https://jianxgao.github.io/MinD-3D。

Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind in our conference work, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4768 3D objects. The dataset comprises two components: fMRI-Shape, previously introduced and accessible at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the Core set in fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Additionally, we propose MinD-3D, a novel framework designed to decode 3D visual information from fMRI signals. The framework first extracts and aggregates features from fMRI data using a neuro-fusion encoder, then employs a feature-bridge diffusion model to generate visual features, and finally reconstructs the 3D object using a generative transformer decoder. We establish new benchmarks by designing metrics at both semantic and structural levels to evaluate model performance. Furthermore, we assess our model's effectiveness in an Out-of-Distribution setting and analyze the attribution of the extracted features and the visual ROIs in fMRI signals. Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with high semantic and spatial accuracy but also deepens our understanding of how human brain processes 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# MSDNet: Transformer-Guided PrototypingによるFew-Shot Semantic Segmentationのためのマルチスケールデコーダ

MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping ( http://arxiv.org/abs/2409.11316v1 )

ライセンス: Link先を確認
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh, (参考訳) セマンティックセグメンテーション(Semantic Semantic Segmentation)は、クエリイメージ内のオブジェクトのセグメンテーションという課題に、わずかに注釈付きの例で対処する。 しかし、従来の最先端手法の多くは、複雑な局所的な意味的特徴を捨てるか、高い計算複雑性に悩まされるかのどちらかである。 これらの課題に対処するために,トランスフォーマーアーキテクチャに基づくFew-shot Semantic Segmentationフレームワークを提案する。 提案手法では,空間変換器デコーダとコンテキストマスク生成モジュールを導入し,サポート画像とクエリ画像間の関係理解を改善する。 さらに,様々な解像度の特徴を階層的に取り入れることで,セグメンテーションマスクを洗練するためのマルチスケールデコーダを導入する。 さらに,本手法では,中間エンコーダ段階からのグローバルな特徴を統合し,コンテキスト理解を改善しつつ,複雑さを低減する軽量な構造を維持している。 この性能と効率のバランスは,1ショット設定と5ショット設定の両方で,$PASCAL-5^i$や$COCO-20^i$といったベンチマークデータセット上で,最先端の結果を得ることを可能にする。 特に、150万のパラメータしか持たない我々のモデルは、既存の方法論の限界を克服しつつ、競争性能を示している。 https://github.com/amirrezafateh/MSDNet

Few-shot Semantic Segmentation addresses the challenge of segmenting objects in query images with only a handful of annotated examples. However, many previous state-of-the-art methods either have to discard intricate local semantic features or suffer from high computational complexity. To address these challenges, we propose a new Few-shot Semantic Segmentation framework based on the transformer architecture. Our approach introduces the spatial transformer decoder and the contextual mask generation module to improve the relational understanding between support and query images. Moreover, we introduce a multi-scale decoder to refine the segmentation mask by incorporating features from different resolutions in a hierarchical manner. Additionally, our approach integrates global features from intermediate encoder stages to improve contextual understanding, while maintaining a lightweight structure to reduce complexity. This balance between performance and efficiency enables our method to achieve state-of-the-art results on benchmark datasets such as $PASCAL-5^i$ and $COCO-20^i$ in both 1-shot and 5-shot settings. Notably, our model with only 1.5 million parameters demonstrates competitive performance while overcoming limitations of existing methodologies. https://github.com/amirrezafateh/MSDNet
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 長い散逸量子力学のための変圧器に基づくモデル

A short trajectory is all you need: A transformer-based model for long-time dissipative quantum dynamics ( http://arxiv.org/abs/2409.11320v1 )

ライセンス: Link先を確認
Luis E. Herrera Rodríguez, Alexei A. Kananenka, (参考訳) このコミュニケーションでは,自己注意層を持つトランスフォーマーアーキテクチャに基づく深層人工ニューラルネットワークが,システムの短時間の人口動態が知られているような散逸環境に結合した量子システムの長時間の人口動態を予測できることを実証する。 この研究で開発されたトランスフォーマーニューラルネットワークモデルは、弱いシステムバス結合から強結合非マルコフ状態に至るまで、スピンボソンモデルの長時間のダイナミクスを効率よく、非常に正確に予測する。 我々のモデルは、リカレントニューラルネットワークのような古典的な予測モデルよりも正確であり、カーネルリッジ回帰に基づく量子散逸系の力学をシミュレーションするための最先端モデルに匹敵する。

In this communication we demonstrate that a deep artificial neural network based on a transformer architecture with self-attention layers can predict the long-time population dynamics of a quantum system coupled to a dissipative environment provided that the short-time population dynamics of the system is known. The transformer neural network model developed in this work predicts the long-time dynamics of spin-boson model efficiently and very accurately across different regimes, from weak system-bath coupling to strong coupling non-Markovian regimes. Our model is more accurate than classical forecasting models, such as recurrent neural networks and is comparable to the state-of-the-art models for simulating the dynamics of quantum dissipative systems, based on kernel ridge regression.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# SOAP:Adamを使ったシャンプーの改善と安定化

SOAP: Improving and Stabilizing Shampoo using Adam ( http://arxiv.org/abs/2409.11321v1 )

ライセンス: Link先を確認
Nikhil Vyas, Depen Morwani, Rosie Zhao, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham Kakade, (参考訳) ディープラーニング最適化タスクにおいて,Adamよりも高次プレコンディショニング手法であるSampooの有効性を示す証拠が増えている。 しかしながら、シャンプーの欠点は、第1および第2モーメント量の平均を更新するだけであるAdamと比較して、追加のハイパーパラメータと計算オーバーヘッドを含んでいる。 この研究は、シャンプー(1/2のパワーで実装)とアダムのメモリ効率の近似であるアダファクターの間の公式な接続を確立し、シャンプーのプレコンディショナーの固有基底において、シャンプーがアダファクタを実行することと等価であることを示す。 $\textbf{S}$hampo$\textbf{O}$ with $\textbf{A}$dam in the $\textbf{P}$reconditioner's eigenbasis (SOAP)。 シャンプーの計算効率の改善に関して、最も単純なアプローチはシャンプーの固有分解をあまり頻繁に計算することである。 残念ながら、我々の経験的な結果が示すように、この周波数でパフォーマンスが悪化する。 SOAPは、Adamのように第2モーメントの実行平均を継続的に更新し、現在の(ゆっくりと変化する)座標ベースでこの劣化を緩和します。 さらに、SOAPは、回転した空間でAdamを実行することと等価であるため、Adamと比較して1つの追加のハイパーパラメータ(プレコンディショニング周波数)しか導入しない。 私たちは、360mと660mサイズのモデルで事前トレーニングを行う言語モデル上で、SOAPを実証的に評価します。 大規模なバッチシステムでは、SOAPはAdamWと比較してイテレーションの回数を40%以上削減し、ウォールクロック時間を35%以上削減します。 SOAPの実装はhttps://github.com/nikhilvyas/SOAPで公開されている。

There is growing evidence of the effectiveness of Shampoo, a higher-order preconditioning method, over Adam in deep learning optimization tasks. However, Shampoo's drawbacks include additional hyperparameters and computational overhead when compared to Adam, which only updates running averages of first- and second-moment quantities. This work establishes a formal connection between Shampoo (implemented with the 1/2 power) and Adafactor -- a memory-efficient approximation of Adam -- showing that Shampoo is equivalent to running Adafactor in the eigenbasis of Shampoo's preconditioner. This insight leads to the design of a simpler and computationally efficient algorithm: $\textbf{S}$hampo$\textbf{O}$ with $\textbf{A}$dam in the $\textbf{P}$reconditioner's eigenbasis (SOAP). With regards to improving Shampoo's computational efficiency, the most straightforward approach would be to simply compute Shampoo's eigendecomposition less frequently. Unfortunately, as our empirical results show, this leads to performance degradation that worsens with this frequency. SOAP mitigates this degradation by continually updating the running average of the second moment, just as Adam does, but in the current (slowly changing) coordinate basis. Furthermore, since SOAP is equivalent to running Adam in a rotated space, it introduces only one additional hyperparameter (the preconditioning frequency) compared to Adam. We empirically evaluate SOAP on language model pre-training with 360m and 660m sized models. In the large batch regime, SOAP reduces the number of iterations by over 40% and wall clock time by over 35% compared to AdamW, with approximately 20% improvements in both metrics compared to Shampoo. An implementation of SOAP is available at https://github.com/nikhilvyas/SOAP.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# LPT++: 長い尾を持つエキスパートの混在を効果的に訓練する

LPT++: Efficient Training on Mixture of Long-tailed Experts ( http://arxiv.org/abs/2409.11323v1 )

ライセンス: Link先を確認
Bowen Dong, Pan Zhou, Wangmeng Zuo, (参考訳) LPT++は,パラメータ効率の良い微調整(PEFT)と学習可能なモデルアンサンブルを組み合わせた,長い尾の分類のための包括的フレームワークである。 LPT++は3つのコアコンポーネントを統合することで、凍結したビジョントランスフォーマー(ViT)を強化する。 1つ目は、長い尾のプロンプトと視覚的アダプタを集約して、事前訓練されたモデルをターゲット領域に適応させ、一方で識別能力を向上させる、普遍的な長い尾の適応モジュールである。 2つ目は、長い尾を持つエキスパートフレームワークと、より正確な予測を生成するために、視覚のみと視覚言語(VL)の両方のモデルエキスパートからの信頼度スコアに対する再重み付け係数を適応的に計算するMoEスコアラーの混合である。 最後に、LCT++は3段階のトレーニングフレームワークを採用しており、各クリティカルモジュールを別々に学習することで、安定的で効果的な分類訓練パラダイムを実現する。 また,LPT++ のシンプルなバージョンである LPT も提案する。これは視覚のみの事前訓練された ViT と長い尾のプロンプトのみを統合して,単一のモデル法を定式化する。 LPTは、VL事前訓練モデルなしでは同等のパフォーマンスを達成する一方で、長い尾のプロンプトがどのように機能するかを明確に示すことができる。 実験によると、トレーニング可能なパラメータを1%追加するだけで、LPT++はすべてのパラメータに対して同等の精度を達成できる。

We introduce LPT++, a comprehensive framework for long-tailed classification that combines parameter-efficient fine-tuning (PEFT) with a learnable model ensemble. LPT++ enhances frozen Vision Transformers (ViTs) through the integration of three core components. The first is a universal long-tailed adaptation module, which aggregates long-tailed prompts and visual adapters to adapt the pretrained model to the target domain, meanwhile improving its discriminative ability. The second is the mixture of long-tailed experts framework with a mixture-of-experts (MoE) scorer, which adaptively calculates reweighting coefficients for confidence scores from both visual-only and visual-language (VL) model experts to generate more accurate predictions. Finally, LPT++ employs a three-phase training framework, wherein each critical module is learned separately, resulting in a stable and effective long-tailed classification training paradigm. Besides, we also propose the simple version of LPT++ namely LPT, which only integrates visual-only pretrained ViT and long-tailed prompts to formulate a single model method. LPT can clearly illustrate how long-tailed prompts works meanwhile achieving comparable performance without VL pretrained models. Experiments show that, with only ~1% extra trainable parameters, LPT++ achieves comparable accuracy against all the counterparts.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# TopoMaskV2: 道路トポロジー問題に対するインスタンスマスクに基づく拡張定式化

TopoMaskV2: Enhanced Instance-Mask-Based Formulation for the Road Topology Problem ( http://arxiv.org/abs/2409.11325v1 )

ライセンス: Link先を確認
M. Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel, (参考訳) 近年,道路トポロジ問題を解く上での利点から,幹線道路の表現が普及している。 中心線予測を強化するため,我々は TopoMask という新しいアプローチを開発した。 キーポイントやパラメトリックメソッドに依存する従来の方法とは異なり、TopoMaskは、マスク付きアテンションベースのトランスフォーマーアーキテクチャと組み合わせたインスタンスマスクベースの定式化を使用している。 本稿では,フロー情報によるマスクインスタンスの強化を目的としたクアッド指向ラベル表現を導入し,マスクから中心への変換を行うための処理後手法を設計する。 さらに、インスタンスマスクの定式化はパラメトリックベジエ回帰に相補的な情報を提供し、両方の出力を融合させることで検出およびトポロジー性能が向上することを示した。 さらに,Lft Splat法における柱仮定の欠点を分析し,多重ビン構成を適用した。 実験の結果、TopoMaskはOpenLane-V2データセットで最先端のパフォーマンスを達成し、Subset-Aでは44.1から49.4に、V1.1 OLSベースラインでは44.7から51.8に増加した。

Recently, the centerline has become a popular representation of lanes due to its advantages in solving the road topology problem. To enhance centerline prediction, we have developed a new approach called TopoMask. Unlike previous methods that rely on keypoints or parametric methods, TopoMask utilizes an instance-mask-based formulation coupled with a masked-attention-based transformer architecture. We introduce a quad-direction label representation to enrich the mask instances with flow information and design a corresponding post-processing technique for mask-to-centerline conversion. Additionally, we demonstrate that the instance-mask formulation provides complementary information to parametric Bezier regressions, and fusing both outputs leads to improved detection and topology performance. Moreover, we analyze the shortcomings of the pillar assumption in the Lift Splat technique and adapt a multi-height bin configuration. Experimental results show that TopoMask achieves state-of-the-art performance in the OpenLane-V2 dataset, increasing from 44.1 to 49.4 for Subset-A and 44.7 to 51.8 for Subset-B in the V1.1 OLS baseline.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 不安定な連続時間確率線形制御系の学習

Learning Unstable Continuous-Time Stochastic Linear Control Systems ( http://arxiv.org/abs/2409.11327v1 )

ライセンス: Link先を確認
Reza Sadeghi Hafshejani, Mohamad Kazem Shirani Fradonbeh, (参考訳) 有限長状態軌跡に基づく確率的連続時間力学のシステム同定問題について検討する。 適切なランダム化制御入力を用いて不安定なオープンループ行列を推定する手法を提案する。 そして, 推定誤差が軌道長, 励起率, 信号と雑音の比で減衰し, 次元的に増大することを示す理論的性能保証を確立する。 力学の学習率を示す数値図も提供される。 理論的解析を行うため、我々は独立して興味を持つ新しい技術ツールを開発する。 これには、高度に定常なマーチンガレットに対する漸近的でない確率的境界や、反復対数の一般化された法則などが含まれる。

We study the problem of system identification for stochastic continuous-time dynamics, based on a single finite-length state trajectory. We present a method for estimating the possibly unstable open-loop matrix by employing properly randomized control inputs. Then, we establish theoretical performance guarantees showing that the estimation error decays with trajectory length, a measure of excitability, and the signal-to-noise ratio, while it grows with dimension. Numerical illustrations that showcase the rates of learning the dynamics, will be provided as well. To perform the theoretical analysis, we develop new technical tools that are of independent interest. That includes non-asymptotic stochastic bounds for highly non-stationary martingales and generalized laws of iterated logarithms, among others.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 自己蒸留を用いたオンライン授業増分学習におけるカタストロフィック・フォーミングの削減

Reducing Catastrophic Forgetting in Online Class Incremental Learning Using Self-Distillation ( http://arxiv.org/abs/2409.11329v1 )

ライセンス: Link先を確認
Kotaro Nagata, Hiromu Ono, Kazuhiro Hotta, (参考訳) 連続学習では、モデルが新しいタスクを学ぶと、過去の知識が忘れられるという破滅的な忘れ込みが深刻な問題となる。 この問題を解決するために様々な方法が提案されている。 過去のタスクからのデータを後続のトレーニングで再生するリプレイ手法は,精度がよい。 しかし、リプレイ法は限られたメモリバッファの一般化性に問題がある。 本稿では,教師としての浅層層を高度に一般化可能な出力を用いて,自己蒸留により伝達可能な知識を取得することで,この問題を解決することを試みた。 さらに、多数のクラスや挑戦的なデータを扱う場合、集中せず、過度な適合を経験していないことを学習するリスクがある。 そこで我々は,新しいメモリ更新手法により,誤分類サンプルの保存を優先することで,より効率的かつ徹底的な学習を実現することを試みた。 提案手法は,CIFAR10,CIFAR100,MinimageNetデータセットを用いた実験により,従来の手法よりも優れていることを確認した。

In continual learning, there is a serious problem of catastrophic forgetting, in which previous knowledge is forgotten when a model learns new tasks. Various methods have been proposed to solve this problem. Replay methods which replay data from previous tasks in later training, have shown good accuracy. However, replay methods have a generalizability problem from a limited memory buffer. In this paper, we tried to solve this problem by acquiring transferable knowledge through self-distillation using highly generalizable output in shallow layer as a teacher. Furthermore, when we deal with a large number of classes or challenging data, there is a risk of learning not converging and not experiencing overfitting. Therefore, we attempted to achieve more efficient and thorough learning by prioritizing the storage of easily misclassified samples through a new method of memory update. We confirmed that our proposed method outperformed conventional methods by experiments on CIFAR10, CIFAR100, and MiniimageNet datasets.
翻訳日:2024-09-18 15:47:40 公開日:2024-09-17
# 異方性ポテンシャルを持つ強結合格子のフラットバンド

Flatbands in tight-binding lattices with anisotropic potentials ( http://arxiv.org/abs/2409.11336v1 )

ライセンス: Link先を確認
Arindam Mallick, Alexei Andreanov, (参考訳) ブラヴェス格子上の強結合モデルは、ある方向に沿って変化し、横方向に沿って一定である異方性オンサイトポテンシャルを持つ。 反$\mathcal{PT}$対称ハミルトニアン [Phys. A 105, L021305 (2022)] におけるフラットバンドに関するこれまでの研究から着想を得て、ホッピングとポテンシャルの形状を調整して$E=0$フラットバンドを持つ反$\mathcal{PT}$対称ハミルトニアンを構築した。 この構成は、有界および非有界ポテンシャルを持つ正方格子に対して説明される。 短距離変換不変なハミルトン多様体のフラットバンドとは異なり、$E=0$フラットバンドはコンパクトな局所化状態を持たないと推測する。 代わりに、フラットバンド固有状態は、有界ポテンシャルのポテンシャル強度を高めることにより、ポテンシャル方向に沿った局在遷移を示す。 有界ポテンシャルに対しては、フラットバンド固有状態はポテンシャル強度に関係なく常に局所化される。

We consider tight-binding models on Bravais lattices with anisotropic onsite potentials that vary along a given direction and are constant along the transverse one. Inspired by our previous work on flatbands in anti-$\mathcal{PT}$ symmetric Hamiltonians [Phys. Rev. A 105, L021305 (2022)], we construct an anti-$\mathcal{PT}$ symmetric Hamiltonians with an $E=0$ flatband by tuning the hoppings and the shapes of potentials. This construction is illustrated for the square lattice with bounded and unbounded potentials. Unlike flatbands in short-ranged translationally invariant Hamiltonians, we conjecture that the considered $E=0$ flatbands do not host compact localized states. Instead the flatband eigenstates exhibit a localization transition along the potential direction upon increasing the potential strength for bounded potentials. For unbounded potentials flatband eigenstates are always localized irrespective of the potential strength.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# モード内オーバーラップ低減によるCLIP適応

CLIP Adaptation by Intra-modal Overlap Reduction ( http://arxiv.org/abs/2409.11338v1 )

ライセンス: Link先を確認
Alexey Kravets, Vinay Namboodiri, (参考訳) 数発の分類のために、事前訓練された基礎的なCLIPモデルを適用するために多くの方法が提案されている。 CLIPは大規模なコーパスで訓練されているため、数発の分類に適応することで、うまく一般化される。 本研究では,画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。 比較学習により,CLIPモデルからの埋め込みは画像空間に高いコサイン類似度分布を示す。 モーダル内のオーバーラップに対処するために、Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングすることを提案する。 我々は、広範囲な経験的分析を通して、我々の貢献を検証し、モーダル内重なりを減少させることが証明される。 a) 多くの標準データセットのパフォーマンスの改善。 ロ 配電シフトに対する堅牢性の向上及び c) 下流タスクに対してより差別的な特徴をレンダリングする高機能分散。

Numerous methods have been proposed to adapt a pre-trained foundational CLIP model for few-shot classification. As CLIP is trained on a large corpus, it generalises well through adaptation to few-shot classification. In this work, we analyse the intra-modal overlap in image space in terms of embedding representation. Our analysis shows that, due to contrastive learning, embeddings from CLIP model exhibit high cosine similarity distribution overlap in the image space between paired and unpaired examples affecting the performance of few-shot training-free classification methods which rely on similarity in the image space for their predictions. To tackle intra-modal overlap we propose to train a lightweight adapter on a generic set of samples from the Google Open Images dataset demonstrating that this improves accuracy for few-shot training-free classification. We validate our contribution through extensive empirical analysis and demonstrate that reducing the intra-modal overlap leads to a) improved performance on a number of standard datasets, b) increased robustness to distribution shift and c) higher feature variance rendering the features more discriminative for downstream tasks.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# OmniGen:統一イメージ生成

OmniGen: Unified Image Generation ( http://arxiv.org/abs/2409.11340v1 )

ライセンス: Link先を確認
Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu, (参考訳) 本稿では,統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。 一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGenは様々な制御条件を処理するために、制御ネットやIP-Adapterなどの追加モジュールを必要としない。 OmniGenisの特徴は以下の通りである。 1)統一:OmniGenはテキスト・画像生成機能だけでなく,画像編集,主観駆動生成,視覚条件生成などの下流タスクも本質的にサポートしている。 さらに、OmniGenは、エッジ検出や人間のポーズ認識などの画像生成タスクに変換することで、古典的なコンピュータビジョンタスクを処理できる。 2) シンプルさ: OmniGenのアーキテクチャは高度に単純化されており、追加のテキストエンコーダを必要としない。 さらに、既存の拡散モデルよりもユーザフレンドリで、余分な前処理ステップ(例えば、人間のポーズ推定)を必要とせずに、複雑なタスクをインストラクションを通じて達成し、画像生成のワークフローを大幅に単純化する。 3)知識伝達: 統一形式での学習を通じて,OmniGenは,さまざまなタスク間で知識を効果的に伝達し,目に見えないタスクやドメインを管理し,新たな能力を示す。 また、モデルの推論能力とチェーン・オブ・シント機構の潜在的な応用についても検討する。 この研究は汎用画像生成モデルの最初の試みであり、未解決の問題もいくつか残っている。 私たちは関連リソースをhttps://github.com/VectorSpaceLab/OmniGenでオープンソース化し、この分野の進歩を後押しします。

In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 公開量子コンピュータにおけるno-signalingの違反

Violation of no-signaling on a public quantum computer ( http://arxiv.org/abs/2409.11348v1 )

ライセンス: Link先を確認
Tomasz Rybotycki, Tomasz Białecki, Josep Batle, Adam Bednorz, (参考訳) ノーシグナリング(英: no-signaling)とは、コミュニケーションチャネルが存在しない限り、双方向システムでは情報を転送できないというノンコミュニケーション定理の帰結である。 これはまた、量子非局所性に関するベルの定理の仮定の副産物でもある。 我々は、IBM Quantumデバイスからの量子ビットのバイパーティタイトシステムにおいて、非常に大きな統計で符号付けをテストし、重大な違反を引き起こした。 IBM Quantumの時間と空間スケールは原則としてサブルミナル通信を除外することはできないが、信号伝達に繋がる明らかな物理的メカニズムは存在しない。 ベル試験で見られるように、違反も同様のレベルにある。 したがって、厳密な空間的条件で決定的に除外されるためには、違反の原因となる可能性のある技術的欠陥を確認し、より大きな統計でループホールのないベル試験を繰り返すことが義務付けられている。

No-signaling is a consequence of the no-communication theorem that states that bipartite systems cannot transfer information unless a communication channel exists. It is also a by-product of the assumptions of Bell theorem about quantum nonlocality. We have tested no-signaling in bipartite systems of qubits from IBM Quantum devices in extremely large statistics, resulting in significant violations. Although the time and space scales of IBM Quantum cannot in principle rule out subluminal communications, there is no obvious physical mechanism leading to signaling. The violation is also at similar level as observed in Bell tests. It is therefore mandatory to check possible technical imperfections that may cause the violation and to repeat the loophole-free Bell test at much larger statistics, in order to be ruled out definitively at strict spacelike conditions.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# フローサイトメトリーによる急性骨髄性白血病検出のためのリアルタイム機械学習システムの臨床的検討

Clinical Validation of a Real-Time Machine Learning-based System for the Detection of Acute Myeloid Leukemia by Flow Cytometry ( http://arxiv.org/abs/2409.11350v1 )

ライセンス: Link先を確認
Lauren M. Zuromski, Jacob Durtschi, Aimal Aziz, Jeffrey Chumley, Mark Dewey, Paul English, Muir Morrison, Keith Simmon, Blaine Whipple, Brendan O'Fallon, David P. Ng, (参考訳) フローサイトメトリーにおける機械学習(ML)モデルは、エラー率を減らし、再現性を高め、臨床実験室の効率を高める可能性がある。 フローサイトメトリーデータのための多くのMLモデルが提案されているが、そのようなモデルの臨床的展開についてはほとんど研究されていない。 臨床実験室におけるMLモデルの潜在的な利益を実現するには、正確なモデルだけでなく、自動推論、エラー検出、分析とモニタリング、構造化データ抽出のためのインフラが必要である。 本稿では,急性骨髄性白血病(AML)の検出のためのMLモデルについて述べる。 私たちのインフラストラクチャは、モデル推論のためのクラウドのレジリエンスとスケーラビリティ、モデル再現性とリソース管理を提供するKubernetesベースのワークフローシステム、フルテキストレポートから構造化診断を抽出するシステムを活用しています。 モデル監視と可視化のプラットフォームについても述べています。 最後に、ターンアラウンド時間に対する影響のデプロイ後分析を行い、生産精度を元の検証統計と比較する。

Machine-learning (ML) models in flow cytometry have the potential to reduce error rates, increase reproducibility, and boost the efficiency of clinical labs. While numerous ML models for flow cytometry data have been proposed, few studies have described the clinical deployment of such models. Realizing the potential gains of ML models in clinical labs requires not only an accurate model, but infrastructure for automated inference, error detection, analytics and monitoring, and structured data extraction. Here, we describe an ML model for detection of Acute Myeloid Leukemia (AML), along with the infrastructure supporting clinical implementation. Our infrastructure leverages the resilience and scalability of the cloud for model inference, a Kubernetes-based workflow system that provides model reproducibility and resource management, and a system for extracting structured diagnoses from full-text reports. We also describe our model monitoring and visualization platform, an essential element for ensuring continued model accuracy. Finally, we present a post-deployment analysis of impacts on turn-around time and compare production accuracy to the original validation statistics.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# THaMES:大規模言語モデルにおける幻覚の緩和と評価のためのエンドツーエンドツール

THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models ( http://arxiv.org/abs/2409.11353v1 )

ライセンス: Link先を確認
Mengfei Liang, Archish Arun, Zekun Wu, Cristian Munoz, Jonathan Lutch, Emre Kazim, Adriano Koshiyama, Philip Treleaven, (参考訳) 事実的不正確なコンテンツの生成である幻覚は、Large Language Models (LLMs)における課題の増大である。 既存の検出と緩和方法は、しばしば分離され、標準化されたパイプラインが欠如している、ドメイン固有のニーズに対して不十分である。 本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMES(Tool for Hallucination Mitigations and Evaluations)を紹介する。 THaMESは、LLMにおける幻覚の評価と緩和のためのエンドツーエンドソリューションを提供し、自動テストセット生成、マルチフェイスベンチマーク、適応可能な緩和戦略を備えている。 あらゆるコーパスからテストセットの作成を自動化し、バッチ処理、重み付けサンプリング、偽物検証といったテクニックを通じて、高いデータ品質、多様性、コスト効率を確保する。 THaMESは、テキスト生成やバイナリ分類など、さまざまなタスクにおける幻覚の検出と低減、インコンテキスト学習(ICL)、検索拡張生成(RAG)、パラメータ効率のよい微調整(PEFT)といった最適な緩和戦略の適用など、モデルの能力を評価する。 学術論文、政治ニュース、ウィキペディアの知識ベースを用いた最先端のLCMの評価では、GPT-4oのような商用モデルはICLよりもRAGの方が利益があり、Llama-3.1-8B-InstructやMistral-NemoのようなオープンウェイトモデルはICLより利益がある。 さらに、PEFTは両方の評価タスクにおいてLlama-3.1-8B-Instructの性能を大幅に向上させる。

Hallucination, the generation of factually incorrect content, is a growing challenge in Large Language Models (LLMs). Existing detection and mitigation methods are often isolated and insufficient for domain-specific needs, lacking a standardized pipeline. This paper introduces THaMES (Tool for Hallucination Mitigations and EvaluationS), an integrated framework and library addressing this gap. THaMES offers an end-to-end solution for evaluating and mitigating hallucinations in LLMs, featuring automated test set generation, multifaceted benchmarking, and adaptable mitigation strategies. It automates test set creation from any corpus, ensuring high data quality, diversity, and cost-efficiency through techniques like batch processing, weighted sampling, and counterfactual validation. THaMES assesses a model's ability to detect and reduce hallucinations across various tasks, including text generation and binary classification, applying optimal mitigation strategies like In-Context Learning (ICL), Retrieval Augmented Generation (RAG), and Parameter-Efficient Fine-tuning (PEFT). Evaluations of state-of-the-art LLMs using a knowledge base of academic papers, political news, and Wikipedia reveal that commercial models like GPT-4o benefit more from RAG than ICL, while open-weight models like Llama-3.1-8B-Instruct and Mistral-Nemo gain more from ICL. Additionally, PEFT significantly enhances the performance of Llama-3.1-8B-Instruct in both evaluation tasks.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 微調整型画像共有拡散モデル(動画あり)

Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think ( http://arxiv.org/abs/2409.11355v1 )

ライセンス: Link先を確認
Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe, (参考訳) 近年の研究では、画像条件の画像生成タスクとして深度推定をキャストすることにより、大きな拡散モデルを高精度な単眼深度推定器として再利用できることが示されている。 提案したモデルは最先端の結果を得たが、多段階推論による高い計算要求は、多くのシナリオでの使用を制限した。 本稿では,これまで気付かれていなかった推論パイプラインの欠陥によって,認識された非効率が引き起こされたことを示す。 固定モデルは、200$\times$よりも高速で、これまで報告された最も優れた構成と互換性がある。 ダウンストリームタスク性能を最適化するために、タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、一般的なゼロショットベンチマークにおいて、他の拡散ベース深さおよび正規推定モデルよりも優れた決定論的モデルを得る。 この微調整プロトコルは、安定拡散に直接作用し、現在の最先端拡散に基づく深さと正規推定モデルに匹敵する性能を達成し、先行研究から引き出された結論のいくつかを疑問視する。

Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200$\times$ faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# RenderWorld: 自己監督型3Dラベルを備えた世界モデル

RenderWorld: World Model with Self-Supervised 3D Label ( http://arxiv.org/abs/2409.11356v1 )

ライセンス: Link先を確認
Ziyang Yan, Wenzhen Dong, Yihua Shao, Yuhang Lu, Liu Haiyang, Jingwen Liu, Haozhe Wang, Zhe Wang, Yan Wang, Fabio Remondino, Yuexin Ma, (参考訳) ビジョンのみのエンドツーエンド自動運転は、LiDARのビジョン融合よりもコスト効率が良いだけでなく、従来の方法よりも信頼性が高い。 RenderWorldは、視覚のみのエンド・ツー・エンドの自動運転フレームワークであり、自己監督型ガウス型Img2Occモジュールを用いて3次元占有ラベルを生成し、AM-VAEでラベルを符号化し、世界モデルを用いて予測と計画を行う。 RenderWorldはGaussian Splattingを使用して3Dシーンを表現し、2D画像をレンダリングすることでセグメンテーションの精度を大幅に改善し、NeRFベースの方法と比較してGPUメモリ使用量を削減している。 AM-VAEを空気と空気を別々にエンコードすることで、RenderWorldはよりきめ細かなシーン要素表現を実現し、4D占有予測と自己回帰的世界モデルからのモーションプランニングの両方で最先端のパフォーマンスを実現する。

End-to-end autonomous driving with vision-only is not only more cost-effective compared to LiDAR-vision fusion but also more reliable than traditional methods. To achieve a economical and robust purely visual autonomous driving system, we propose RenderWorld, a vision-only end-to-end autonomous driving framework, which generates 3D occupancy labels using a self-supervised gaussian-based Img2Occ Module, then encodes the labels by AM-VAE, and uses world model for forecasting and planning. RenderWorld employs Gaussian Splatting to represent 3D scenes and render 2D images greatly improves segmentation accuracy and reduces GPU memory consumption compared with NeRF-based methods. By applying AM-VAE to encode air and non-air separately, RenderWorld achieves more fine-grained scene element representation, leading to state-of-the-art performance in both 4D occupancy forecasting and motion planning from autoregressive world model.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 西洋のスタイルと文化の最小化に向けてのAIの提案

AI Suggestions Homogenize Writing Toward Western Styles and Diminish Cultural Nuances ( http://arxiv.org/abs/2409.11360v1 )

ライセンス: Link先を確認
Dhruv Agarwal, Mor Naaman, Aditya Vashistha, (参考訳) 大規模言語モデル(LLM)は、コーディングツールや記述アシスタントなど、日々の製品やサービスに統合されている。 これらの組み込みAIアプリケーションがグローバルにデプロイされるにつれて、これらのアプリケーションを支えるAIモデルが西洋の価値観を優先する、という懸念が高まっている。 本稿では,西洋中心のAIモデルが,異なる文化的背景を持つユーザに対して提案書を提示した場合に何が起こるかを検討する。 インドと米国からの参加者118名を対象に,AI提案と無関係の文章作成タスクを完了した異文化間比較実験を行った。 分析の結果、AIはインド人に比べて、アメリカ人の効率が向上したことがわかった。 さらに、AIの提案は、インド人の参加者が西洋の文章スタイルを採用するきっかけとなり、何を書くかだけでなく、どのように書くかも変えた。 これらの結果は、西洋中心のAIモデルは、文章を西洋の規範に向けて均質化し、文化的な表現を区別するニュアンスを減少させることを示している。

Large language models (LLMs) are being increasingly integrated into everyday products and services, such as coding tools and writing assistants. As these embedded AI applications are deployed globally, there is a growing concern that the AI models underlying these applications prioritize Western values. This paper investigates what happens when a Western-centric AI model provides writing suggestions to users from a different cultural background. We conducted a cross-cultural controlled experiment with 118 participants from India and the United States who completed culturally grounded writing tasks with and without AI suggestions. Our analysis reveals that AI provided greater efficiency gains for Americans compared to Indians. Moreover, AI suggestions led Indian participants to adopt Western writing styles, altering not just what is written but also how it is written. These findings show that Western-centric AI models homogenize writing toward Western norms, diminishing nuances that differentiate cultural expression.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# CORE-Bench: 計算再現性エージェントベンチマークによる出版研究の信頼性向上

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark ( http://arxiv.org/abs/2409.11363v1 )

ライセンス: Link先を確認
Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan, (参考訳) AIエージェントは、科学研究の実施を含む、さまざまな連続的なタスクでユーザを助ける可能性がある。 有用なエージェントの開発を促進するために、より重要なことは、現実の関心のあるタスクと直接対応できる、挑戦的なベンチマークが必要です。 本稿では,AIエージェントの精度を計測し,計算再現性(Computer reproducibility,Computer reproducibility)という科学的研究の極めて重要な側面に対処するためのベンチマークを紹介する。 このタスクは、科学的なプロセスの基本であり、提供されたコードとデータを使って研究の結果を再現する。 CORE-Bench (Computational Reproducibility Agent Benchmark) は3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。 CORE-Benchのタスクは3つの難易度からなり、言語のみと視覚言語の両方を含む。 エージェントの精度を高速かつ並列に測定し、連続的な実装と比較して各実行時の評価時間を短縮する評価システムを提案する。 汎用オートGPTとタスク特異的エージェントであるCORE-Agentの2種類のベースラインエージェントを評価した。 GPT-4oとGPT-4o-miniの2つの基礎言語モデルを用いて両方の変種を検証した。 最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。 既存の作業を再現できるエージェントを持つことは、新しい研究を行い、他の研究エージェントのパフォーマンスを検証し改善できるエージェントを構築するための必要なステップである。 我々は、CORE-Benchが再現性を改善し、将来の研究エージェントの開発を促進することを願っている。

AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# CoCA:立憲校正による多モーダル大言語モデルの安全性向上

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration ( http://arxiv.org/abs/2409.11365v1 )

ライセンス: Link先を確認
Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong, Lingpeng Kong, Xin Jiang, Zhenguo Li, (参考訳) マルチモーダルな大言語モデル(MLLM)の展開は、大規模言語モデル(LLM)の優れたパワーのおかげで、視覚的な入力を含む会話に多大な成功を収めた。 これらのMLLMは通常、LLMをベースとして構築され、画像エンコーダによってLLMのトークン埋め込み空間に画像を処理する。 しかし、視覚的モダリティの統合は独特な脆弱性をもたらしている: MLLMは悪意のある視覚的入力に影響を受けやすくなり、LLMが人間の価値に合わせてテキストデータセットで訓練されているにもかかわらず、機密性や有害な応答を引き起こす傾向にある。 本稿では,「MLLMは悪意ある画像入力に対して安全を意識しているか?」という質問を最初に提起する。 MLLMの入力に安全性要件を規定する原則を付加すると,モデルの安全性意識が向上することがわかった。 この現象は、画像入力に対するMLLMの安全性認識の存在を検証し、モダリティギャップによってのみ弱められる。 次に, MLLMの出力分布を校正することにより, MLLMの安全性を向上する, CoCA と呼ばれる簡易かつ効果的な手法を提案する。 提案した戦略は,モデルが元の能力を失うことなく,元の安全性を回復するのに役立つ。 マルチモーダル安全性と理解ベンチマークにおけるアプローチの有効性を検証する。

The deployment of multimodal large language models (MLLMs) has demonstrated remarkable success in engaging in conversations involving visual inputs, thanks to the superior power of large language models (LLMs). Those MLLMs are typically built based on the LLMs, with an image encoder to process images into the token embedding space of the LLMs. However, the integration of visual modality has introduced a unique vulnerability: the MLLM becomes susceptible to malicious visual inputs and prone to generating sensitive or harmful responses, even though the LLM has been trained on textual dataset to align with human value. In this paper, we first raise the question: ``Do the MLLMs possess safety-awareness against malicious image inputs?". We find that after adding a principle that specifies the safety requirement into the input of the MLLM, the model's safety awareness becomes boosted. This phenomenon verifies the existence of MLLM's safety-awareness against image inputs, it is only weakened by the modality gap. We then introduce a simple yet effective technique termed CoCA, which amplifies the safety-awareness of the MLLM by calibrating its output distribution. Our proposed strategy helps the model reclaim its original safety awareness without losing its original capabilities. We verify the effectiveness of our approach on both multimodal safety and understanding benchmarks.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# OSV:1ステップで高画質映像を再生できる

OSV: One Step is Enough for High-Quality Image to Video Generation ( http://arxiv.org/abs/2409.11367v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang, (参考訳) ビデオ拡散モデルは高品質なビデオを生成する大きな可能性を示しており、ますます人気が高まっている。 しかし、その本質的に反復的な性質は、かなりの計算と時間的コストをもたらす。 推論ステップ(一貫性蒸留など)とGANトレーニング(これらのアプローチは、パフォーマンスやトレーニングの安定性に欠けることが多い)を減らし、ビデオ拡散を加速する努力がなされている。 本研究では, これらの課題に対処するために, 一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階のトレーニングフレームワークを提案する。 さらに,ビデオラテントを復号化する必要をなくし,最終性能を向上させる新しい映像識別器の設計を提案する。 本モデルでは,高画質映像を1ステップで生成可能であり,さらに性能向上を図るため,多段改良が可能である。 OpenWebVid-1Mベンチマークによる定量的評価は,既存の手法よりも大幅に優れていることを示している。 特に, 安定蒸留法であるAnimateLCM (FVD 184.79) の8段階性能を超え, 高度安定ビデオ拡散法 (FVD 156.94) の25段階性能に近づいた。

Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 共役光の効率的な最適化による分子の2光子吸収の制御

Manipulating Two-Photon Absorption of Molecules through Efficient Optimization of Entangled Light ( http://arxiv.org/abs/2409.11368v1 )

ライセンス: Link先を確認
Sajal Kumar Giri, George C. Schatz, (参考訳) パラメトリックダウンコンバージョン源からのパルス絡み合った光子の特異な時間的・スペクトル的特徴をスペクトル位相の最適化により電子励起の操作に利用する方法を報告する。 2光子吸収によりアクセス可能な電子状態を選択的に励起するために、ベイズ最適化に基づく新しい包括的な最適化プロトコルが開発されている。 最適化手法を用いて, チオフェンデンドリマーの2光子吸収確率を最大20倍に向上させることができるが, 古典的な光は最適でないことがわかった。 さらに、光子絡み込みを含む最適化は、他の方法では不可能な選択的励起を可能にする。 最適化に加えて, 絡み合った光が古典的な光に対して消滅的に小さい分子電子状態を励起できることを示す, 絡み合った2光子吸収の小さな絡み合い時間制限について検討した。 これらの機会をチオフェンデンドリマーに適用して実証する。

We report how the unique temporal and spectral features of pulsed entangled photons from a parametric downconversion source can be utilized for manipulating electronic excitations through the optimization of their spectral phase. A new comprehensive optimization protocol based on Bayesian optimization has been developed in this work to selectively excite electronic states accessible by two-photon absorption. Using our optimization method, the entangled two-photon absorption probability for a thiophene dendrimer can be enhanced by up to a factor of 20 while classical light turns out to be nonoptimizable. Moreover, the optimization involving photon entanglement enables selective excitation that would not be possible otherwise. In addition to optimization, we have explored entangled two-photon absorption in the small entanglement time limit showing that entangled light can excite molecular electronic states that are vanishingly small for classical light. We demonstrate these opportunities with an application to a thiophene dendrimer.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 空間認識言語とオーディオ埋め込みの学習

Learning Spatially-Aware Language and Audio Embedding ( http://arxiv.org/abs/2409.11369v1 )

ライセンス: Link先を確認
Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, Barry-John Theobald, Jonathan Sheaffer, Miguel Sarabia, (参考訳) 人間は不正確な自然言語の記述から音のシーンを描写することができる。 例えば、"ライオンロアは私のすぐ後ろから来た!"というフレーズを与えられたアコースティックな環境を想像するのは簡単です。 機械が同じ理解度を持つためには、機械はライオンが何であるか(意味的属性)、"behind"という概念が何であるか(空間的属性)、これらの言語情報の断片が音の意味的・空間的属性とどのように一致しているかを知る必要がある。 音声シーンと自然なテキスト記述のマッピングを学習する最先端オーディオ基盤モデルは、非空間的オーディオとテキストペアで訓練され、したがって空間的認識が欠如している。 対照的に、音事象の局所化と検出モデルは、一定数のクラスから音を認識することに限定されており、自然言語を用いて記述された位置(例えば、"next to me")ではなく、ソースを絶対位置(eg , 0.2m)にローカライズする。 これらのギャップに対処するために,マルチモーダルコントラスト学習を用いて学習した空間認識音声およびテキスト埋め込みモデルを提案する。 ELSAは、音声の空間的および意味的要素を記述する非空間的オーディオ、空間的オーディオ、およびオープン語彙テキストキャプションをサポートする。 ELSAの訓練: (a)4,738時間に及ぶ3つのオープンソースオーディオデータセットの音声とキャプションを空間的に増強し, b) コントラスト学習を用いて,非空間的オーディオの意味と空間的オーディオの意味と空間的属性をキャプチャするエンコーダを設計する。 ELSAは、セマンティック検索と3Dソースのローカライゼーションの両方において最先端と競合している。 特に、ELSAはベースライン上のオーディオ・トゥ・テキストとテキスト・トゥ・オーディオのR@1を+2.8%で達成し、ベースライン上の3Dソースのローカライゼーションにおいて-11.6{\deg}平均絶対エラーを上回ります。

Humans can picture a sound scene given an imprecise natural language description. For example, it is easy to imagine an acoustic environment given a phrase like "the lion roar came from right behind me!". For a machine to have the same degree of comprehension, the machine must know what a lion is (semantic attribute), what the concept of "behind" is (spatial attribute) and how these pieces of linguistic information align with the semantic and spatial attributes of the sound (what a roar sounds like when its coming from behind). State-of-the-art audio foundation models which learn to map between audio scenes and natural textual descriptions, are trained on non-spatial audio and text pairs, and hence lack spatial awareness. In contrast, sound event localization and detection models are limited to recognizing sounds from a fixed number of classes, and they localize the source to absolute position (e.g., 0.2m) rather than a position described using natural language (e.g., "next to me"). To address these gaps, we present ELSA a spatially aware-audio and text embedding model trained using multimodal contrastive learning. ELSA supports non-spatial audio, spatial audio, and open vocabulary text captions describing both the spatial and semantic components of sound. To train ELSA: (a) we spatially augment the audio and captions of three open-source audio datasets totaling 4,738 hours of audio, and (b) we design an encoder to capture the semantics of non-spatial audio, and the semantics and spatial attributes of spatial audio using contrastive learning. ELSA is competitive with state-of-the-art for both semantic retrieval and 3D source localization. In particular, ELSA achieves +2.8% mean audio-to-text and text-to-audio R@1 above the baseline, and outperforms by -11.6{\deg} mean-absolute-error in 3D source localization over the baseline.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# 平面波画像のためのコンパクトインプシットニューラル表現

Compact Implicit Neural Representations for Plane Wave Images ( http://arxiv.org/abs/2409.11370v1 )

ライセンス: Link先を確認
Mathilde Monvoisin, Yuxin Zhang, Diana Mateus, (参考訳) 超高速平面波(PW)イメージングは、しばしば音化角度によって異なる人工物や影を生成する。 Inlicit Neural Representation (INRs) を用いた複数平面列をコンパクトに符号化し,重要な向きに依存した情報を保存する手法を提案する。 我々の知る限り、これはPW角補間のためのINRの最初の応用である。 提案手法では, 高精度な物理強調レンダリング技術を用いたMLPモデルを用いる。 SSIM,PSNR,標準超音波計測値を用いて定量評価を行い,定性的な視覚評価を行い,本手法の有効性を確認した。 さらに,75PW画像を直接保存するにはモデル重量が530KB必要であり,圧縮比は約15:1である。

Ultrafast Plane-Wave (PW) imaging often produces artifacts and shadows that vary with insonification angles. We propose a novel approach using Implicit Neural Representations (INRs) to compactly encode multi-planar sequences while preserving crucial orientation-dependent information. To our knowledge, this is the first application of INRs for PW angular interpolation. Our method employs a Multi-Layer Perceptron (MLP)-based model with a concise physics-enhanced rendering technique. Quantitative evaluations using SSIM, PSNR, and standard ultrasound metrics, along with qualitative visual assessments, confirm the effectiveness of our approach. Additionally, our method demonstrates significant storage efficiency, with model weights requiring 530 KB compared to 8 MB for directly storing the 75 PW images, achieving a notable compression ratio of approximately 15:1.
翻訳日:2024-09-18 15:37:15 公開日:2024-09-17
# グラフニューラルネットワークによるセマンティックセグメンテーションの不確かさと予測品質の推定

Uncertainty and Prediction Quality Estimation for Semantic Segmentation via Graph Neural Networks ( http://arxiv.org/abs/2409.11373v1 )

ライセンス: Link先を確認
Edgar Heinert, Stephan Tilgner, Timo Palm, Matthias Rottmann, (参考訳) 自動車認識や医用画像などの安全クリティカルなアプリケーションにおけるセマンティックセグメンテーションにディープニューラルネットワーク(DNN)を使用する場合、不確実性推定や予測品質推定などを通じて、実行時にパフォーマンスを見積もることが重要です。 以前の研究では、主に画素レベルの不確実性評価が行われた。 本研究では,いわゆるメタ分類と回帰を用いてオブジェクトレベルでの不確かさを推定し,それぞれ不確かさと予測品質を推定する。 これらの研究において、予測セグメントは、その不確実性や予測品質を個別に推定する。 しかし、隣接するセグメントは、与えられた予測セグメントが高品質であるかどうかに関する追加のヒントを与え、本研究で研究する。 セグメントレベルのメトリクスを示す不確実性に基づいて、グラフニューラルネットワーク(GNN)を用いて、各セグメントのメトリクスと近隣セグメントのメトリクスの関係をモデル化する。 異なるGNNアーキテクチャを比較し、顕著なパフォーマンス改善を実現しています。

When employing deep neural networks (DNNs) for semantic segmentation in safety-critical applications like automotive perception or medical imaging, it is important to estimate their performance at runtime, e.g. via uncertainty estimates or prediction quality estimates. Previous works mostly performed uncertainty estimation on pixel-level. In a line of research, a connected-component-wise (segment-wise) perspective was taken, approaching uncertainty estimation on an object-level by performing so-called meta classification and regression to estimate uncertainty and prediction quality, respectively. In those works, each predicted segment is considered individually to estimate its uncertainty or prediction quality. However, the neighboring segments may provide additional hints on whether a given predicted segment is of high quality, which we study in the present work. On the basis of uncertainty indicating metrics on segment-level, we use graph neural networks (GNNs) to model the relationship of a given segment's quality as a function of the given segment's metrics as well as those of its neighboring segments. We compare different GNN architectures and achieve a notable performance improvement.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# Multi-OCT-SelfNet:マルチソースデータフュージョンによる自己改善学習の統合によるマルチクラス網膜疾患の分類

Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification ( http://arxiv.org/abs/2409.11375v1 )

ライセンス: Link先を確認
Fatema-E- Jannat, Sina Gholami, Jennifer I. Lim, Theodore Leng, Minhaj Nur Alam, Hamed Tabkhi, (参考訳) 医療分野において、大きなデータセットを取得することは、プライバシー上の懸念から大きな課題となる。 それでも、網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。 より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。 データの不足は、スケーラブルな医療AIソリューションの実装において、大きな障壁となる。 この問題に対処するため,我々は多モードデータセットからのデータ表現をより深く理解し,多モードデータセットの表現をより深く理解するために,多モードデータセットの表現をより深く理解するためにSwinV2を開発し,光学コヒーレンストモグラフィ(OCT)画像を用いた眼疾患検出のための新たなデータへの外挿能力を高めることで,パフォーマンスの向上と新たなデータへの一般化を実現した。 我々は、下流の教師付き分類器に2段階の訓練手法、自己教師付き事前学習、微調整を採用する。 各種エンコーダのバックボーンを使用し,データ融合やデータ可用性の設定の低さ,自己教師付き事前学習シナリオのない3つのデータセットを対象としたアブレーション調査では,本手法の堅牢性を強調した。 その結果,これらの多種多様な条件に対して一貫した性能を示し,ベースラインモデルであるResNet-50と比較して優れた一般化能力を示した。

In the medical domain, acquiring large datasets poses significant challenges due to privacy concerns. Nonetheless, the development of a robust deep-learning model for retinal disease diagnosis necessitates a substantial dataset for training. The capacity to generalize effectively on smaller datasets remains a persistent challenge. The scarcity of data presents a significant barrier to the practical implementation of scalable medical AI solutions. To address this issue, we've combined a wide range of data sources to improve performance and generalization to new data by giving it a deeper understanding of the data representation from multi-modal datasets and developed a self-supervised framework based on large language models (LLMs), SwinV2 to gain a deeper understanding of multi-modal dataset representations, enhancing the model's ability to extrapolate to new data for the detection of eye diseases using optical coherence tomography (OCT) images. We adopt a two-phase training methodology, self-supervised pre-training, and fine-tuning on a downstream supervised classifier. An ablation study conducted across three datasets employing various encoder backbones, without data fusion, with low data availability setting, and without self-supervised pre-training scenarios, highlights the robustness of our method. Our findings demonstrate consistent performance across these diverse conditions, showcasing superior generalization capabilities compared to the baseline model, ResNet-50.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# LLMによる時系列推論に向けて

Towards Time Series Reasoning with LLMs ( http://arxiv.org/abs/2409.11376v1 )

ライセンス: Link先を確認
Winnie Chow, Lauren Gardiner, Haraldur T. Hallgrímsson, Maxwell A. Xu, Shirley You Ren, (参考訳) マルチモーダルな大規模言語モデル (MLLM) は視覚などの領域における理解と推論の多くの進歩を可能にしてきたが、この広範な成功をまだ見ていない。 時系列MLLMに関する先行研究は、時系列予測において有望な性能を示したが、自然言語の時系列推論にLLMをどのように使用できるかを示す研究はほとんどない。 本稿では,ゼロショット性能の強い領域にまたがる一般化可能な情報を学習する,新しいマルチモーダル時系列LPM手法を提案する。 まず,LLM上に軽量な時系列エンコーダをトレーニングし,時系列情報を直接抽出する。 そこで,本モデルにチェーン・オブ・イン・シンクテッドな時系列タスクを付加し,推論経路の生成を促す。 本モデルでは,特定の時系列特徴(例えば,傾き,周波数)を反映した潜時表現を学習し,様々な領域におけるゼロショット推論タスクにおいて,GPT-4oよりも優れることを示す。

Multi-modal large language models (MLLMs) have enabled numerous advances in understanding and reasoning in domains like vision, but we have not yet seen this broad success for time-series. Although prior works on time-series MLLMs have shown promising performance in time-series forecasting, very few works show how an LLM could be used for time-series reasoning in natural language. We propose a novel multi-modal time-series LLM approach that learns generalizable information across various domains with powerful zero-shot performance. First, we train a lightweight time-series encoder on top of an LLM to directly extract time-series information. Then, we fine-tune our model with chain-of-thought augmented time-series tasks to encourage the model to generate reasoning paths. We show that our model learns a latent representation that reflects specific time-series features (e.g. slope, frequency), as well as outperforming GPT-4o on a set of zero-shot reasoning tasks on a variety of domains.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 動的機能接続に関する機械学習 - 約束、落とし穴、解釈

Machine Learning on Dynamic Functional Connectivity: Promise, Pitfalls, and Interpretations ( http://arxiv.org/abs/2409.11377v1 )

ライセンス: Link先を確認
Jiaqi Ding, Tingting Dan, Ziquan Wei, Hyuna Cho, Paul J. Laurienti, Won Hwa Kim, Guorong Wu, (参考訳) 既存のfMRI(Function Magnetic Resonance Imaging)データは、データ駆動アプローチを用いて、機能的ゆらぎと人間の認知/行動の関係を理解する新たな機会を提供する。 そのために機械学習は、血液酸素レベル依存(BOLD)シグナルの体積画像から認知状態を予測するための膨大な努力をしてきた。 しかし、脳機能の複雑な性質のため、学習性能と発見に対する評価は、現在の最先端技術(SOTA)間では一致しないことが多い。 6つの公開データベースから得られた34,887件のデータサンプルを,大規模に既存のニューロイメージングデータを活用することにより,ニューロサイエンス領域の知識に根ざした方法論をリンクすることによって,機能的ニューロイメージングの深部モデル設計のための実証的ガイドラインの確立を目指す。 特に,1)fMRIを用いた認知的タスク認識と疾患診断における現在のSOTA性能はどのようなものか,という点に注目する。 2) 現在の深層モデルの限界は何か。 そして(3)新しいニューロイメージングアプリケーションに適した機械学習バックボーンを選択するための一般的なガイドラインは何か。 以上の課題に対処するため,様々な場面で総合的な評価と統計的分析を行った。

An unprecedented amount of existing functional Magnetic Resonance Imaging (fMRI) data provides a new opportunity to understand the relationship between functional fluctuation and human cognition/behavior using a data-driven approach. To that end, tremendous efforts have been made in machine learning to predict cognitive states from evolving volumetric images of blood-oxygen-level-dependent (BOLD) signals. Due to the complex nature of brain function, however, the evaluation on learning performance and discoveries are not often consistent across current state-of-the-arts (SOTA). By capitalizing on large-scale existing neuroimaging data (34,887 data samples from six public databases), we seek to establish a well-founded empirical guideline for designing deep models for functional neuroimages by linking the methodology underpinning with knowledge from the neuroscience domain. Specifically, we put the spotlight on (1) What is the current SOTA performance in cognitive task recognition and disease diagnosis using fMRI? (2) What are the limitations of current deep models? and (3) What is the general guideline for selecting the suitable machine learning backbone for new neuroimaging applications? We have conducted a comprehensive evaluation and statistical analysis, in various settings, to answer the above outstanding questions.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 多様性とコンカ - 反復的リファインメントによる多様性中心のデータ選択

Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement ( http://arxiv.org/abs/2409.11378v1 )

ライセンス: Link先を確認
Simon Yu, Liangyu Chen, Sara Ahmadian, Marzieh Fadaee, (参考訳) 命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。 命令データセットが増加するにつれて、効果的なトレーニングのための最適なデータを選択することがますます重要になる。 この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか? 既存の研究は、サブセット選択のインスタンス品質のような局所的な基準を強調することが多いが、データ多様性に焦点を絞ったグローバルなアプローチはより重要である、と我々は主張する。 提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。 本稿では,クラスタからインスタンスをサンプリングし,各クラスタの重要度を再評価し,トレーニング毎の重みをサンプリングする,アクティブな学習手法にインスパイアされた反復的改善手法を提案する。 このアプローチは、アウトレーヤの効果を低減し、低品質のデータを含むクラスタを自動的にフィルタリングする。 自然言語推論,一般世界知識,コードおよび数学推論タスクの広範な評価を通じて,各家庭の微調整モデルによる一貫した改善を観察し,ランダム選択よりも7%,最先端サンプリング法より3.8%向上した。 本研究は, LLMの微調整における多様性優先サンプリングの重要性を強調し, 幅広い評価課題における性能向上を図っている。 私たちのコードはhttps://github.com/for-ai/iterative-data-selection.comで利用可能です。

Finetuning large language models on instruction data is crucial for enhancing pre-trained knowledge and improving instruction-following capabilities. As instruction datasets proliferate, selecting optimal data for effective training becomes increasingly important. This work addresses the question: How can we determine the optimal subset of data for effective training? While existing research often emphasizes local criteria like instance quality for subset selection, we argue that a global approach focused on data diversity is more critical. Our method employs k-means clustering to ensure the selected subset effectively represents the full dataset. We propose an iterative refinement method inspired by active learning techniques to resample instances from clusters, reassessing each cluster's importance and sampling weight in every training iteration. This approach reduces the effect of outliers and automatically filters out clusters containing low-quality data. Through extensive evaluation across natural language reasoning, general world knowledge, code and math reasoning tasks, and by fine-tuning models from various families, we observe consistent improvements, achieving a 7% increase over random selection and a 3.8% improvement over state-of-the-art sampling methods. Our work highlights the significance of diversity-first sampling when finetuning LLMs to enhance performance across a broad array of evaluation tasks. Our code is available at https://github.com/for-ai/iterative-data-selection.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 拡散モデルのばらつきを考慮した超音波画像強調

Ultrasound Image Enhancement with the Variance of Diffusion Models ( http://arxiv.org/abs/2409.11380v1 )

ライセンス: Link先を確認
Yuxin Zhang, Clément Huneau, Jérôme Idier, Diana Mateus, (参考訳) 超音波画像は医学で広く使われているにもかかわらず、信号と雑音の比率と全体的な画質に影響を及ぼす様々なノイズや人工物に悩まされることが多い。 超音波画像の強調にはコントラスト、解像度、スペックル保存の微妙なバランスが必要である。 本稿では,適応ビームフォーミングと拡散型分散イメージングを併用してこの問題に対処する新しい手法を提案する。 Eigenspace-based Minimum Variance (EBMV) ビームフォーミングを適用し,超音波データに微調整した拡散モデルを用いて,複数の拡散復号化サンプル間の分散を計算し,高品質な非特異画像を生成する。 このアプローチは、超音波の固有乗法ノイズと拡散モデルの確率的性質の両方を活用する。 公開データセットを用いた実験結果から,単一平面波取得による画像再構成の高速化に本手法の有効性が示された。 コードはhttps://github.com/Yuxin-Zhang-Jasmine/IUS2024_Diffusion.comで公開されている。

Ultrasound imaging, despite its widespread use in medicine, often suffers from various sources of noise and artifacts that impact the signal-to-noise ratio and overall image quality. Enhancing ultrasound images requires a delicate balance between contrast, resolution, and speckle preservation. This paper introduces a novel approach that integrates adaptive beamforming with denoising diffusion-based variance imaging to address this challenge. By applying Eigenspace-Based Minimum Variance (EBMV) beamforming and employing a denoising diffusion model fine-tuned on ultrasound data, our method computes the variance across multiple diffusion-denoised samples to produce high-quality despeckled images. This approach leverages both the inherent multiplicative noise of ultrasound and the stochastic nature of diffusion models. Experimental results on a publicly available dataset demonstrate the effectiveness of our method in achieving superior image reconstructions from single plane-wave acquisitions. The code is available at: https://github.com/Yuxin-Zhang-Jasmine/IUS2024_Diffusion.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 機械学習のためのトレーニングデータセット生成:視覚に基づくナビゲーションへの応用

Training Datasets Generation for Machine Learning: Application to Vision Based Navigation ( http://arxiv.org/abs/2409.11383v1 )

ライセンス: Link先を確認
Jérémy Lebreton, Ingo Ahrns, Roland Brochard, Christoph Haskamp, Matthieu Le Goff, Nicolas Menga, Nicolas Ollagnier, Ralf Regele, Francesco Capolupo, Massimo Casasco, (参考訳) 視覚ベースのナビゲーションは、画像から情報を抽出した後、GNCの精密センサーとしてカメラを利用する。 宇宙アプリケーションにおける機械学習の採用を可能にするために、利用可能なトレーニングデータセットがアルゴリズムの検証に適していることの実証が障害のひとつだ。 本研究の目的は,機械学習アルゴリズムの学習に適した画像とメタデータのデータセットを作成することである。 2つのユースケースが選択され、基礎的真実を含むデータセットを検証するための堅牢な方法論が開発された。 最初のユースケースは、人工衛星ENVISATのモックアップである人造物体を持つ軌道上のランデブーである。 第2のユースケースは、月面着陸シナリオである。 データセットは、DLR TRONの研究所とAirbus Roboticの研究室から、Model CaptureとGenerative Adversarial Networksを使ったSurRenderソフトウェアによる高忠実度イメージシミュレータから、アーカイブデータセット(Chang'e 3)から作成されました。 ユースケース定義には、アルゴリズムをベンチマークとして選択することが含まれ、AIベースのポーズ推定アルゴリズムと高密度光フローアルゴリズムが選択された。 最終的に、SurRenderと選択された実験施設で生成されたデータセットが機械学習アルゴリズムのトレーニングに適していることが実証された。

Vision Based Navigation consists in utilizing cameras as precision sensors for GNC after extracting information from images. To enable the adoption of machine learning for space applications, one of obstacles is the demonstration that available training datasets are adequate to validate the algorithms. The objective of the study is to generate datasets of images and metadata suitable for training machine learning algorithms. Two use cases were selected and a robust methodology was developed to validate the datasets including the ground truth. The first use case is in-orbit rendezvous with a man-made object: a mockup of satellite ENVISAT. The second use case is a Lunar landing scenario. Datasets were produced from archival datasets (Chang'e 3), from the laboratory at DLR TRON facility and at Airbus Robotic laboratory, from SurRender software high fidelity image simulator using Model Capture and from Generative Adversarial Networks. The use case definition included the selection of algorithms as benchmark: an AI-based pose estimation algorithm and a dense optical flow algorithm were selected. Eventually it is demonstrated that datasets produced with SurRender and selected laboratory facilities are adequate to train machine learning algorithms.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 比例的特徴空間の正規化

Normalization in Proportional Feature Spaces ( http://arxiv.org/abs/2409.11389v1 )

ライセンス: Link先を確認
Alexandre Benatti, Luciano da F. Costa, (参考訳) 特徴正規化の主題は、データ表現、キャラクタリゼーション、可視化、分析、比較、分類、モデリングにおいて重要な中心的な役割を果たす。 適切な正規化手法の選択は、関連する特徴の種類や特徴、その後に先述のデータ処理に使用する方法、検討中の特定の問題を考慮する必要がある。 データ解析とモデリングに典型的に関係する多くの部分の1つとして正規化がどのように構成されるかを簡単に検討した後、一様かつ比例的な特徴と比較操作の観点から特徴正規化の重要な課題に対処した。 より一般的な右スキュート特徴も近似的に考慮される。 均一な特徴空間と比例的な特徴空間の双対関係と、それぞれの比較の整合性を記述することを含む、いくつかの概念、性質、結果について述べ、議論する。 特徴の非分散に基づく2つの正規化可能性を示すとともに、本質的な正規化を含むジャカード類似度指数の修正版についても述べる。 先進的な概念と手法を説明するために,予備実験を行った。

The subject of features normalization plays an important central role in data representation, characterization, visualization, analysis, comparison, classification, and modeling, as it can substantially influence and be influenced by all of these activities and respective aspects. The selection of an appropriate normalization method needs to take into account the type and characteristics of the involved features, the methods to be used subsequently for the just mentioned data processing, as well as the specific questions being considered. After briefly considering how normalization constitutes one of the many interrelated parts typically involved in data analysis and modeling, the present work addressed the important issue of feature normalization from the perspective of uniform and proportional (right skewed) features and comparison operations. More general right skewed features are also considered in an approximated manner. Several concepts, properties, and results are described and discussed, including the description of a duality relationship between uniform and proportional feature spaces and respective comparisons, specifying conditions for consistency between comparisons in each of the two domains. Two normalization possibilities based on non-centralized dispersion of features are also presented, and also described is a modified version of the Jaccard similarity index which incorporates intrinsically normalization. Preliminary experiments are presented in order to illustrate the developed concepts and methods.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# ファカライゼーションの効果的なゼロショットアノテーションは誰か?

Says Who? Effective Zero-Shot Annotation of Focalization ( http://arxiv.org/abs/2409.11390v1 )

ライセンス: Link先を確認
Rebecca M. M. Hicke, Yuri Bizzoni, Pascale Feldkamp, Ross Deans Kristensen-McLachlan, (参考訳) 物語が提示される視点であるフォカライゼーションは、幅広い語彙文法的特徴を通じて符号化され、読み手解釈の対象となる。 さらに、訓練された読者は解釈について定期的に意見が一致せず、この問題は計算的に難解である可能性があることを示唆している。 本稿では,同時代の大言語モデル (LLM) が,文章のアノテート時にどのように機能するかを検証する実験を行う。 この課題の難しさにもかかわらず、LLMは我々の実験で訓練された人間のアノテータに匹敵する性能を示した。 本稿では,スティーブン・キングの小説と共著したケーススタディを用いて,この手法がコンピュータ文学研究に有用であることを示す。

Focalization, the perspective through which narrative is presented, is encoded via a wide range of lexico-grammatical features and is subject to reader interpretation. Moreover, trained readers regularly disagree on interpretations, suggesting that this problem may be computationally intractable. In this paper, we provide experiments to test how well contemporary Large Language Models (LLMs) perform when annotating literary texts for focalization mode. Despite the challenging nature of the task, LLMs show comparable performance to trained human annotators in our experiments. We provide a case study working with the novels of Stephen King to demonstrate the usefulness of this approach for computational literary studies, illustrating how focalization can be studied at scale.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# LLM-Agent-UMF:マルチアクティブ/パッシブコアエージェントのシームレス統合のためのLLMベースエージェント統一モデリングフレームワーク

LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents ( http://arxiv.org/abs/2409.11393v1 )

ライセンス: Link先を確認
Amine B. Hassouna, Hana Chaari, Ines Belhaj, (参考訳) LLMベースのエージェントへのツールの統合は、スタンドアロンのLCMと従来のエージェントの限られた能力の難しさを克服する。 しかし、これらの技術の統合と、いくつかの最先端技術における提案された拡張は、統一されていないソフトウェアアーキテクチャに続き、モジュラリティの欠如につながった。 実際、彼らは主に機能に焦点を当て、エージェント内のコンポーネントの境界の定義を見落としていた。 このことは、LLMベースのエージェントの開発において、機能的・ソフトウェア的両面から明確な基盤を確立する統一的なフレームワークを提案することによって、我々が本論文で論じる研究者間の用語的・アーキテクチャ的あいまいさを引き起こした。 我々のフレームワークである LLM-Agent-UMF (LLM-based Agent Unified Modeling Framework) は、エージェントの異なるコンポーネント、LDMの設定、そして新しく導入された要素とは別のツールを明確に区別します。 コアエージェントの内部構造の違いは、それらを受動型と能動型の分類に分類するきっかけとなった。 そこで本研究では,多様なエージェントの特徴を組み合わせたマルチコアエージェントアーキテクチャを提案する。 評価のために、我々はこのフレームワークを最先端のエージェントの選択に適用し、それらの機能との整合性を実証し、見落としているアーキテクチャの側面を明確にした。 さらに,本提案アーキテクチャの4つの特徴を,ハイブリッドアクティブ/パッシブコアエージェントシステムに組み込むことで,徹底的に評価した。 この分析は、潜在的な改善に関する明確な洞察を与え、特定のエージェントの組み合わせに関わる課題を強調した。

The integration of tools in LLM-based agents overcame the difficulties of standalone LLMs and traditional agents' limited capabilities. However, the conjunction of these technologies and the proposed enhancements in several state-of-the-art works followed a non-unified software architecture resulting in a lack of modularity. Indeed, they focused mainly on functionalities and overlooked the definition of the component's boundaries within the agent. This caused terminological and architectural ambiguities between researchers which we addressed in this paper by proposing a unified framework that establishes a clear foundation for LLM-based agents' development from both functional and software architectural perspectives. Our framework, LLM-Agent-UMF (LLM-based Agent Unified Modeling Framework), clearly distinguishes between the different components of an agent, setting LLMs, and tools apart from a newly introduced element: the core-agent, playing the role of the central coordinator of the agent which comprises five modules: planning, memory, profile, action, and security, the latter often neglected in previous works. Differences in the internal structure of core-agents led us to classify them into a taxonomy of passive and active types. Based on this, we proposed different multi-core agent architectures combining unique characteristics of various individual agents. For evaluation purposes, we applied this framework to a selection of state-of-the-art agents, thereby demonstrating its alignment with their functionalities and clarifying the overlooked architectural aspects. Moreover, we thoroughly assessed four of our proposed architectures by integrating distinctive agents into hybrid active/passive core-agents' systems. This analysis provided clear insights into potential improvements and highlighted the challenges involved in the combination of specific agents.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# ねじり振動子の量子制限光レバー計測

Quantum-limited optical lever measurement of a torsion oscillator ( http://arxiv.org/abs/2409.11397v1 )

ライセンス: Link先を確認
Christian M. Pluchar, Aman R. Agrawal, Dalziel J. Wilson, (参考訳) 光レバーは高精度変位センサであり、幅広い用途がある。 原理的には、標準量子限界(SQL)で雑音を付加した機械振動子の運動を追跡することができるが、この性能を示すには例外的に高いトルク感度の振動子を必要とする。 ここでは、Si$_3$N$_4$ナノリボンの10^{-20}\,\text{Nm}/\sqrt{\text{Hz}}$と10^{-10}\,\text{rad}/\sqrt{\text{Hz}}$のトルク感度を持つ10^7$トーションモードの光学的レバー測定について述べる。 従来の強度雑音に対する収差の補正と免疫の活用により,SQLの下の20dBの精度で角変位の測定を実現し,トルクアクチュエータとして位置変調レーザビームを用いて,室温から$\sim5000$フォノンまでフィードバック冷却を行った。 我々の研究は、新しいねじり量子光学のクラスの可能性を示している。

The optical lever is a precision displacement sensor with broad applications. In principle, it can track the motion of a mechanical oscillator with added noise at the Standard Quantum Limit (SQL); however, demonstrating this performance requires an oscillator with an exceptionally high torque sensitivity, or, equivalently, zero-point angular displacement spectral density. Here, we describe optical lever measurements on Si$_3$N$_4$ nanoribbons possessing $Q>3\times 10^7$ torsion modes with torque sensitivities of $10^{-20}\,\text{N m}/\sqrt{\text{Hz}}$ and zero-point displacement spectral densities of $10^{-10}\,\text{rad}/\sqrt{\text{Hz}}$. Compensating aberrations and leveraging immunity to classical intensity noise, we realize angular displacement measurements with imprecisions 20 dB below the SQL and demonstrate feedback cooling, using a position modulated laser beam as a torque actuator, from room temperature to $\sim5000$ phonons. Our study signals the potential for a new class of torsional quantum optomechanics.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# NVLM:オープンフロンティアクラスのマルチモーダルLCM

NVLM: Open Frontier-Class Multimodal LLMs ( http://arxiv.org/abs/2409.11402v1 )

ライセンス: Link先を確認
Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping, (参考訳) NVLM 1.0は、フロンティアクラスのマルチモーダル大言語モデル(LLM)のファミリーで、視覚言語タスクにおける最先端の成果を達成し、主要なプロプライエタリモデル(例えば、GPT-4o)とオープンアクセスモデル(例えば、Llama 3-V 405B、InternVL 2)に匹敵する。 興味深いことに、NVLM 1.0はマルチモーダルトレーニング後のLLMバックボーンよりもテキストのみのパフォーマンスが改善されている。 モデル設計では,デコーダのみのマルチモーダルLLM (eg , LLaVA) とクロスアテンションベースモデル (eg , Flamingo) の総合的な比較を行う。 両アプローチの長所と短所に基づいて,学習効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。 さらに,タイルベースの動的高解像度画像に対する1次元タイルタグ付け設計を導入し,マルチモーダル推論やOCR関連タスクの性能を大幅に向上させる。 トレーニングデータに関しては、マルチモーダル事前学習と教師付き微調整データセットの詳細情報を慎重にキュレートし、提供します。 この結果から,データセットの品質とタスクの多様性は,事前学習フェーズにおいても,すべてのアーキテクチャにわたって,スケールよりも重要であることが示唆された。 特に,NVLM-1.0モデルのプロダクショングレードのマルチモーダリティを開発し,LLMのバックボーンに比べてテキストのみの性能を維持・改善しつつ,視覚言語タスクの卓越性を向上する。 これを実現するために、高品質なテキストのみのデータセットを多モーダルトレーニングに組み込んで、大量のマルチモーダル数学や推論データと組み合わせることで、モーダルをまたいだ数学やコーディング能力の強化を実現した。 この分野の研究を進めるため、私たちはモデルウェイトをリリースし、コミュニティ向けのコードをオープンソース化します。

We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# AraDiCE:LLMにおける方言と文化能力のベンチマーク

AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs ( http://arxiv.org/abs/2409.11404v1 )

ライセンス: Link先を確認
Basel Mousi, Nadir Durrani, Fatema Ahmad, Md. Arid Hasan, Maram Hasanain, Tameem Kabbani, Fahim Dalvi, Shammur Absar Chowdhury, Firoj Alam, (参考訳) 方言の多様性が豊富にあるアラビア語は、大きな言語モデル、特に方言の変種において顕著に不足している。 我々は、機械翻訳(MT)と人間の後編集を組み合わせて作成した現代標準アラビア語(MSA)とともに、方言に7つの合成データセットを導入することで、このギャップに対処する。 本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。 我々は、低資源アラビア語方言を中心に、方言理解と生成に関するLLMを評価した。 さらに,湾岸地域,エジプト地域,レバント地域の文化意識を評価するために設計された,初となるきめ細かいベンチマークを導入し,LCMの評価に新たな次元を提供する。 以上の結果から,Jais や AceGPT のようなアラビア語固有のモデルは,方言課題における多言語モデルよりも優れているが,方言の識別,生成,翻訳において重要な課題が持続していることが示唆された。 この研究は、およそ45Kの後編集サンプル、文化ベンチマークに貢献し、多様なアラビア方言や文化的文脈のニュアンスを捉える上で、LLMのパフォーマンスを改善するための調整されたトレーニングの重要性を強調している。 本研究で検証した方言翻訳モデルとベンチマークをリリースする。

Arabic, with its rich diversity of dialects, remains significantly underrepresented in Large Language Models, particularly in dialectal variations. We address this gap by introducing seven synthetic datasets in dialects alongside Modern Standard Arabic (MSA), created using Machine Translation (MT) combined with human post-editing. We present AraDiCE, a benchmark for Arabic Dialect and Cultural Evaluation. We evaluate LLMs on dialect comprehension and generation, focusing specifically on low-resource Arabic dialects. Additionally, we introduce the first-ever fine-grained benchmark designed to evaluate cultural awareness across the Gulf, Egypt, and Levant regions, providing a novel dimension to LLM evaluation. Our findings demonstrate that while Arabic-specific models like Jais and AceGPT outperform multilingual models on dialectal tasks, significant challenges persist in dialect identification, generation, and translation. This work contributes ~45K post-edited samples, a cultural benchmark, and highlights the importance of tailored training to improve LLM performance in capturing the nuances of diverse Arabic dialects and cultural contexts. We will release the dialectal translation models and benchmarks curated in this study.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# Phidias: 参照拡散によるテキスト・画像・3次元条件からの3次元コンテンツ生成モデル

Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion ( http://arxiv.org/abs/2409.11406v1 )

ライセンス: Link先を確認
Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau, (参考訳) 3Dモデリングでは、デザイナはしばしば既存の3Dモデルを使って新しいものを作成する。 このプラクティスは、参照付加3D生成に拡散を利用する新しい生成モデルであるPhidiasの開発にインスピレーションを与えている。 画像が与えられた場合、検索またはユーザが提供する3D参照モデルを利用して生成プロセスをガイドし、生成品質、一般化能力、制御性を向上させる。 私たちのモデルは3つの重要なコンポーネントを統合します。 1)条件付け強度を動的に変調するメタControlNet。 2【入力画像と3D参照との相違を緩和する動的参照ルーティング】 3)漸進的なカリキュラムによる自己指導訓練を可能にする自己参照強化。 これらの設計は、既存の手法よりも明らかに改善されている。 Phidiasは、テキスト、画像、および汎用的なアプリケーションを用いた3D生成のための統一されたフレームワークを確立する。

In 3D modeling, designers often use an existing 3D model as a reference to create new ones. This practice has inspired the development of Phidias, a novel generative model that uses diffusion for reference-augmented 3D generation. Given an image, our method leverages a retrieved or user-provided 3D reference model to guide the generation process, thereby enhancing the generation quality, generalization ability, and controllability. Our model integrates three key components: 1) meta-ControlNet that dynamically modulates the conditioning strength, 2) dynamic reference routing that mitigates misalignment between the input image and 3D reference, and 3) self-reference augmentations that enable self-supervised training with a progressive curriculum. Collectively, these designs result in a clear improvement over existing methods. Phidias establishes a unified framework for 3D generation using text, image, and 3D conditions with versatile applications.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# ユニタリ回路における保存スーパーオペレータの非ユニバーサリティ

Non-Universality from Conserved Superoperators in Unitary Circuits ( http://arxiv.org/abs/2409.11407v1 )

ライセンス: Link先を確認
Marco Lastres, Frank Pollmann, Sanjay Moudgalya, (参考訳) 量子制御理論における重要な結果は、局所的ユニタリゲートの「ユニバーサリティ」すなわち、$L$クォーディットのシステムのグローバルなユニタリ進化が、局所的ユニタリゲートの合成によって実現されるという事実である。 一般的に、すべてのグローバル対称ユニタリは、$k$-局所対称ユニタリゲートを使って構成できるわけではない。 これはまた、対称局所ハミルトニアンによって実装できる力学を制限する。 本稿では、そのような設定における普遍性に対する障害は、一般に、制限されたゲート集合によるユニタリ進化に関連する超作用素対称性の観点で理解することができることを示す。 これらの超作用素対称性は作用素ヒルベルト空間の分解をブロックし、作用素空間の接続を規定し、したがって動的リー代数の構造を規定する。 我々は、他の量子多体系における対称性を体系的に導出するために用いられる可換代数の枠組みを用いて、ゲート構造から超作用素対称性を体系的に導出することで、これをいくつかの例で明確に示す。 我々は、超作用素対称性の異なる構造に由来する2つの異なる非ユニバーサリティを明確に記述し、その物理観測可能性におけるシグネチャについて議論する。 全体として、我々の研究はユニタリ回路の普遍性を探求し、その欠如による物理的帰結を導出するための包括的な枠組みを確立している。

An important result in the theory of quantum control is the "universality" of $2$-local unitary gates, i.e. the fact that any global unitary evolution of a system of $L$ qudits can be implemented by composition of $2$-local unitary gates. Surprisingly, recent results have shown that universality can break down in the presence of symmetries: in general, not all globally symmetric unitaries can be constructed using $k$-local symmetric unitary gates. This also restricts the dynamics that can be implemented by symmetric local Hamiltonians. In this paper, we show that obstructions to universality in such settings can in general be understood in terms of superoperator symmetries associated with unitary evolution by restricted sets of gates. These superoperator symmetries lead to block decompositions of the operator Hilbert space, which dictate the connectivity of operator space, and hence the structure of the dynamical Lie algebra. We demonstrate this explicitly in several examples by systematically deriving the superoperator symmetries from the gate structure using the framework of commutant algebras, which has been used to systematically derive symmetries in other quantum many-body systems. We clearly delineate two different types of non-universality, which stem from different structures of the superoperator symmetries, and discuss its signatures in physical observables. In all, our work establishes a comprehensive framework to explore the universality of unitary circuits and derive physical consequences of its absence.
翻訳日:2024-09-18 15:25:38 公開日:2024-09-17
# 注意行列のトポロジカル解析による変圧器の予測の不確かさの推定

Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices ( http://arxiv.org/abs/2308.11295v3 )

ライセンス: Link先を確認
Elizaveta Kostenok, Daniil Cherniavskii, Alexey Zaytsev, (参考訳) トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定しているが、その予測の不確かさを確実に推定することは大きな課題である。 既存の不確実性推定(UE)技術は、基本的なヒューリスティックよりも最小限の改善を提供するか、高価なアンサンブルモデルに依存するか、分類タスクにおいて不足することが多い。 さらに、線形探索シナリオにおけるUEの共通埋め込みを利用する試みは、わずかに利得しか得られず、代替モデルコンポーネントを探索すべきであることを示している。 モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。 提案手法は,注意行列から位相的特徴を抽出し,モデルの内部力学の低次元的解釈可能な表現を提供する。 さらに,頭部と層間の注意パターンを比較するためのトポロジ的特徴を導入する。 提案手法は,アクセプタビリティ判定と人工テキスト検出のベンチマークにおいて,既存のUE手法よりも優れた性能を示し,大規模言語モデルにおける不確実性評価のための,より効率的かつ解釈可能なソリューションを提供する。

Transformer-based language models have set new benchmarks across a wide range of NLP tasks, yet reliably estimating the uncertainty of their predictions remains a significant challenge. Existing uncertainty estimation (UE) techniques often fall short in classification tasks, either offering minimal improvements over basic heuristics or relying on costly ensemble models. Moreover, attempts to leverage common embeddings for UE in linear probing scenarios have yielded only modest gains, indicating that alternative model components should be explored. We tackle these limitations by harnessing the geometry of attention maps across multiple heads and layers to assess model confidence. Our approach extracts topological features from attention matrices, providing a low-dimensional, interpretable representation of the model's internal dynamics. Additionally, we introduce topological features to compare attention patterns across heads and layers. Our method significantly outperforms existing UE techniques on benchmarks for acceptability judgments and artificial text detection, offering a more efficient and interpretable solution for uncertainty estimation in large-scale language models.
翻訳日:2024-09-18 13:27:52 公開日:2024-09-17
# ファインマン経路積分に基づく量子光コヒーレンス理論

Quantum optical coherence theory based on Feynman's path integral ( http://arxiv.org/abs/2407.18478v3 )

ライセンス: Link先を確認
Jianbin Liu, Yu Zhou, Hui Chen, Huaibin Zheng, Yuchen He, Fuli Li, Zhuo Xu, (参考訳) マクスウェルの電磁理論とグラウバーの量子的コヒーレンス理論に基づく古典的光学的コヒーレンス理論と比較して、ファインマンの量子力学の経路積分の定式化に基づく量子光学的コヒーレンス理論は、光学的コヒーレンスを研究する新しいツールを提供する。 数学的計算と物理解釈の関連性を理解する利点がある。 本稿では、ファインマンの経路積分に基づく量子光コヒーレンス理論を紹介し、レビューする。 2つの独立した光の過渡的な1次干渉の結果から、古典光学教科書で導入された熱光の電界の古典的モデルが正確でないと予測される。 熱光の2光子束と絡み合った光子対のHong-Ou-Mandelディップの物理は、それぞれ構成的および破壊的な2光子干渉によって解釈できる。 ファインマンの経路積分に基づく量子光コヒーレンス理論は光のコヒーレンス特性を理解するのに役立つ。

Compared to classical optical coherence theory based on Maxwell's electromagnetic theory and Glauber's quantum optical coherence theory based on matrix mechanics formulation of quantum mechanics, quantum optical coherence theory based on Feynman's path integral formulation of quantum mechanics provides a novel tool to study optical coherence. It has the advantage of understanding the connection between mathematical calculations and physical interpretations better. Quantum optical coherence theory based on Feynman's path integral is introduced and reviewed in this paper. Based on the results of transient first-order interference of two independent light beams, it is predicted that the classical model for electric field of thermal light introduced by classical optical textbooks may not be accurate. The physics of two-photon bunching of thermal light and Hong-Ou-Mandel dip of entangled photon pairs is the same, which can be interpreted by constructive and destructive two-photon interference, respectively. Quantum optical coherence theory based on Feynman's path integral is helpful to understand the coherence properties of light, which may eventually lead us to the answer of the question: what is a photon?
翻訳日:2024-09-18 13:27:52 公開日:2024-09-17
# CROSS: オープンソースソフトウェアのためのコントリビュータとプロジェクトのインタラクションライフサイクルモデル

CROSS: A Contributor-Project Interaction Lifecycle Model for Open Source Software ( http://arxiv.org/abs/2409.08267v2 )

ライセンス: Link先を確認
Tapajit Dey, Brian Fitzgerald, Sherae Daniel, (参考訳) オープンソースソフトウェア(OSS)が広く採用されているにもかかわらず、その持続性は、セキュリティ上の脆弱性や、OSSプロジェクトが減少するにつれて、しばしば不適切なエンド・オブ・サービス(EoS)プロセスを考えると、依然として重要な関心事である。 既存のOSSコミュニティ参加モデル、例えば、オニオンモデルやエピソードコントリビューションモデルは、価値ある洞察を提供するが、基本的には互換性がなく、OSSプロジェクトへのコントリビュータ関与の包括的イメージを提供していない。 本稿では,オープンソースのコントリビュータ・プロジェクト間インタラクションライフサイクルモデルであるCROSSモデルを提案し,コントリビュータ・プロジェクト間のインタラクションの様々なライフサイクルステージと,各ステージに関係する駆動と維持力について述べる。 OSSコミュニティ、組織行動、人的資源開発に関する既存の研究を合成することにより、コントリビュータの関与のさまざまなアーキティパルケースを説明し、特にEoS/オフボードシナリオにおける研究ギャップを強調します。 CROSSモデルはOSSプロジェクトの持続可能性を理解し、拡張するための基盤を提供し、将来の研究と実践的な応用のための堅牢な基盤を提供する。

Despite the widespread adoption of open source software (OSS), its sustainability remains a critical concern, particularly in light of security vulnerabilities and the often inadequate end-of-service (EoS) processes for OSS projects as they decline. Existing models of OSS community participation, like the Onion model and the episodic contribution model, offer valuable insights but are fundamentally incompatible and fail to provide a comprehensive picture of contributor engagement with OSS projects. This paper addresses these gaps by proposing the CROSS model, a novel contributor-project interaction lifecycle model for open source, which delineates the various lifecycle stages of contributor-project interaction, along with the driving and retaining forces pertinent to each stage. By synthesizing existing research on OSS communities, organizational behavior, and human resource development, it explains a range of archetypal cases of contributor engagement and highlights research gaps, especially in EoS/offboarding scenarios. The CROSS model provides a foundation for understanding and enhancing the sustainability of OSS projects, offering a robust foundation for future research and practical application.
翻訳日:2024-09-18 13:27:52 公開日:2024-09-17
# HLTCOE JHUが2024年の音声プライバシー問題に出場

HLTCOE JHU Submission to the Voice Privacy Challenge 2024 ( http://arxiv.org/abs/2409.08913v2 )

ライセンス: Link先を確認
Henry Li Xinyuan, Zexin Cai, Ashi Garg, Kevin Duh, Leibny Paola García-Perera, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner, (参考訳) 本稿では,kNN-VC法やWavLM音声変換法などの音声変換システム,Whisper-VITSなどのテキスト音声変換システムなど,音声プライバシチャレンジのためのシステムを提案する。 音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者のアイデンティティを隠蔽することが困難であることがわかった。 最後に、2つのカテゴリの長所と短所のバランスをとろうとするランダムな混合システムを提案し、UARを47%に保ちながら40%以上の強靭なEERを実現した。

We present a number of systems for the Voice Privacy Challenge, including voice conversion based systems such as the kNN-VC method and the WavLM voice Conversion method, and text-to-speech (TTS) based systems including Whisper-VITS. We found that while voice conversion systems better preserve emotional content, they struggle to conceal speaker identity in semi-white-box attack scenarios; conversely, TTS methods perform better at anonymization and worse at emotion preservation. Finally, we propose a random admixture system which seeks to balance out the strengths and weaknesses of the two category of systems, achieving a strong EER of over 40% while maintaining UAR at a respectable 47%.
翻訳日:2024-09-18 13:27:52 公開日:2024-09-17
# マルチイルミネーション合成による放射界リライト化への拡散アプローチ

A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis ( http://arxiv.org/abs/2409.08947v2 )

ライセンス: Link先を確認
Yohan Poirier-Ginter, Alban Gauthier, Julien Philip, Jean-Francois Lalonde, George Drettakis, (参考訳) 照度場は、単一の照度条件下でキャプチャされることが多いマルチビューデータに対して、非常に過小評価され、特に複数のオブジェクトを含むフルシーンでは困難である。 本研究では,2次元画像拡散モデルから抽出した先行情報を利用して,このような単一照度データを用いた照度場を作成する手法を提案する。 私たちはまず、光方向によって条件付けられた多重照度データセット上の2次元拡散モデルを微調整し、単一の照度キャプチャーを、直接定義された光方向から現実的(しかし、おそらくは矛盾する)マルチ照度データセットに拡張できるようにしました。 我々はこの拡張データを用いて3次元ガウススプラットで表現された照度場を生成する。 低周波照明における光方向の直接制御を可能にするために,光方向をパラメータ化した多層パーセプトロンを用いて外観を表現する。 複数ビューの一貫性を強制し、不正確さを克服するために、画像ごとの補助特徴ベクトルを最適化する。 そこで,本手法では2次元拡散モデルを用いて実写3次元リライティングを実現し,実写3次元画像の合成と実写多視点データの合成を行った。 プロジェクトサイト https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/

Relighting radiance fields is severely underconstrained for multi-view data, which is most often captured under a single illumination condition; It is especially hard for full scenes containing multiple objects. We introduce a method to create relightable radiance fields using such single-illumination data by exploiting priors extracted from 2D image diffusion models. We first fine-tune a 2D diffusion model on a multi-illumination dataset conditioned by light direction, allowing us to augment a single-illumination capture into a realistic -- but possibly inconsistent -- multi-illumination dataset from directly defined light directions. We use this augmented data to create a relightable radiance field represented by 3D Gaussian splats. To allow direct control of light direction for low-frequency lighting, we represent appearance with a multi-layer perceptron parameterized on light direction. To enforce multi-view consistency and overcome inaccuracies we optimize a per-image auxiliary feature vector. We show results on synthetic and real multi-view data under single illumination, demonstrating that our method successfully exploits 2D diffusion model priors to allow realistic 3D relighting for complete scenes. Project site https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# Wave-U-Mamba: 高品質で効率的な音声超解像のためのエンドツーエンドフレームワーク

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution ( http://arxiv.org/abs/2409.09337v2 )

ライセンス: Link先を確認
Yongjoon Lee, Chanwoo Kim, (参考訳) SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。 従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。 しかし、ログメルの特徴は位相情報を欠いているため、このことは再構成フェーズにおける性能劣化をもたらす可能性がある。 SSM(Selective State Spaces Models)の最近の進歩に触発されて、時間領域でSSRを直接実行するWave-U-Mambaと呼ばれる手法を提案する。 WSRGlow、NU-Wave 2、AudioSRなどのモデルを含む比較研究において、Wave-U-Mambaは8kHzから24kHzの低分解能サンプリングレートで最低の対数スペクトル距離(LSD)を達成し、優れた性能を示す。 さらに、平均オピニオンスコア(MOS)を用いて評価した主観評価の結果、本手法が自然および人的品質のSSRを生成することが明らかとなった。 さらに、Wave-U-Mambaは、単一のA100 GPUのベースラインモデルよりも9倍高速な高分解能音声を生成しながら、これらの結果を達成する。

Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as log-mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 kHz to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2% of those in the baseline models.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# PIP-Loco:四足歩行ロボットロコモーションのための固有受容無限水平計画フレームワーク

PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion ( http://arxiv.org/abs/2409.09441v2 )

ライセンス: Link先を確認
Aditya Shirwatkar, Naman Saxena, Kishore Chandra, Shishir Kolathaya, (参考訳) 四足歩行のためのモデル予測制御(MPC)のコアとなる強みは、制約を強制し、水平線上のコマンド列の解釈可能性を提供する能力である。 しかし、計画できるにもかかわらず、MPCはタスクの複雑さに対処するのに苦労し、しばしば急速に変化する表面における堅牢な振る舞いを達成するのに失敗する。 一方、モデルフリー強化学習(RL)法は、複数の地形においてMPCよりも優れており、創発的な動きを示すが、本質的に制約に対処したり、計画を実行する能力は欠如している。 これらの制約に対処するため、私たちは、RLとプロポロセプティブプランニングを統合し、水平線を通したアジャイルで安全な移動行動を可能にするフレームワークを提案します。 MPCに触発されて、速度推定器とドリーマーモジュールを含む内部モデルを組み込んだ。 トレーニング中、フレームワークは専門家の方針と、共同依存型の内部モデルを学び、移動行動を改善するための探索を促進する。 デプロイ中、Dreamerモジュールは無限水平MPC問題を解決する。 内部モデル成分のアブレーション研究を通じてトレーニングフレームワークのロバスト性を検証し、トレーニングノイズに対するロバスト性の向上を実証した。 最後に,シミュレーションとハードウェアの両方において,マルチテレインシナリオに対するアプローチを評価した。

A core strength of Model Predictive Control (MPC) for quadrupedal locomotion has been its ability to enforce constraints and provide interpretability of the sequence of commands over the horizon. However, despite being able to plan, MPC struggles to scale with task complexity, often failing to achieve robust behavior on rapidly changing surfaces. On the other hand, model-free Reinforcement Learning (RL) methods have outperformed MPC on multiple terrains, showing emergent motions but inherently lack any ability to handle constraints or perform planning. To address these limitations, we propose a framework that integrates proprioceptive planning with RL, allowing for agile and safe locomotion behaviors through the horizon. Inspired by MPC, we incorporate an internal model that includes a velocity estimator and a Dreamer module. During training, the framework learns an expert policy and an internal model that are co-dependent, facilitating exploration for improved locomotion behaviors. During deployment, the Dreamer module solves an infinite-horizon MPC problem, adapting actions and velocity commands to respect the constraints. We validate the robustness of our training framework through ablation studies on internal model components and demonstrate improved robustness to training noise. Finally, we evaluate our approach across multi-terrain scenarios in both simulation and hardware.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# AACessTalk: 文脈指導とカード勧告による最小言語自閉症児と親とのコミュニケーションの育成

AACessTalk: Fostering Communication between Minimally Verbal Autistic Children and Parents with Contextual Guidance and Card Recommendation ( http://arxiv.org/abs/2409.09641v2 )

ライセンス: Link先を確認
Dasom Choi, SoHyun Park, Kyungah Lee, Hwajung Hong, Young-Ho Kim, (参考訳) MVA(Minimumly verbal autistic)の子供たちは、言葉や非言語で親とコミュニケーションをとるため、親はしばしば子供たちに微妙な感情やニーズを表現させ、そのニュアンスなシグナルをつかむように促すことに苦労する。 AACessTalkはタブレットベースのAIによるコミュニケーションシステムで、MVAの子供と親との有意義な交流を促進する。 AACessTalkは、親が会話で子供と会話するためのリアルタイムガイドを提供し、その結果、子供に文脈的な語彙カードを推奨する。 11のMVA子育てダイドを用いた2週間の展開調査を通じて,AACessTalkが日常会話の実践と相互関与をいかに促進するかを検討した。 以上の結果から,すべてのダイアドから高いエンゲージメントが得られ,会話やターンテイクの頻度が増大した。 AACessTalkはまた、両親に自身の相互作用戦略を探求するよう促し、子供たちにコミュニケーションにより多くのエージェンシーを持つことを奨励した。 親-MVA子間相互作用におけるバランスの取れたコミュニケーションダイナミクスのための設計技術の重要性について論じる。

As minimally verbal autistic (MVA) children communicate with parents through few words and nonverbal cues, parents often struggle to encourage their children to express subtle emotions and needs and to grasp their nuanced signals. We present AACessTalk, a tablet-based, AI-mediated communication system that facilitates meaningful exchanges between an MVA child and a parent. AACessTalk provides real-time guides to the parent to engage the child in conversation and, in turn, recommends contextual vocabulary cards to the child. Through a two-week deployment study with 11 MVA child-parent dyads, we examine how AACessTalk fosters everyday conversation practice and mutual engagement. Our findings show high engagement from all dyads, leading to increased frequency of conversation and turn-taking. AACessTalk also encouraged parents to explore their own interaction strategies and empowered the children to have more agency in communication. We discuss the implications of designing technologies for balanced communication dynamics in parent-MVA child interaction.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# ExploreSelf: 大規模言語モデルによる適応的ガイダンスによる個人的課題に対するユーザ主導の探索と考察

ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language Models ( http://arxiv.org/abs/2409.09662v2 )

ライセンス: Link先を確認
Inhwa Song, SoHyun Park, Sachin R. Pendse, Jessica Lee Schleider, Munmun De Choudhury, Young-Ho Kim, (参考訳) 言葉でストレスに満ちた経験を表現することは精神的および身体的健康を改善することが証明されているが、個人は思考や感情を組織化するのに苦慮しているため、しばしば文章の介入に悩まされる。 リフレクティブプロンプトは方向を提供するために使われており、大きな言語モデル(LLM)は、調整されたガイダンスを提供する可能性を実証している。 現在のシステムでは、リフレクションを指示する柔軟性を制限していることが多い。 そこで我々は,LLM駆動型アプリケーションであるExploreSelfを紹介した。 ExploreSelfを使えば、動的に生成された質問を通じて適応的なサポートを受けられる。 参加者19名を対象にした探索的研究を通じて,探索セフを用いた個人的課題の探索と考察について検討した。 以上の結果から,参加者は指導的支援と行動の自由のバランスを重んじ,より深いエンゲージメントと洞察に繋がったことが示唆された。 本研究は, ユーザエンパワーメントを効果的に促進するLCM駆動型ツールの設計の意義を考察する。

Expressing stressful experiences in words is proven to improve mental and physical health, but individuals often disengage with writing interventions as they struggle to organize their thoughts and emotions. Reflective prompts have been used to provide direction, and large language models (LLMs) have demonstrated the potential to provide tailored guidance. Current systems often limit users' flexibility to direct their reflections. We thus present ExploreSelf, an LLM-driven application designed to empower users to control their reflective journey. ExploreSelf allows users to receive adaptive support through dynamically generated questions. Through an exploratory study with 19 participants, we examine how participants explore and reflect on personal challenges using ExploreSelf. Our findings demonstrate that participants valued the balance between guided support and freedom to control their reflective journey, leading to deeper engagement and insight. Building on our findings, we discuss implications for designing LLM-driven tools that promote user empowerment through effective reflective practices.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# VGG-Tex:高忠実度モノクローナル3次元顔再構成のための視覚幾何学誘導顔のテクスチャ推定モデル

VGG-Tex: A Vivid Geometry-Guided Facial Texture Estimation Model for High Fidelity Monocular 3D Face Reconstruction ( http://arxiv.org/abs/2409.09740v2 )

ライセンス: Link先を確認
Haoyu Wu, Ziqiao Peng, Xukun Zhou, Yunfei Cheng, Jun He, Hongyan Liu, Zhaoxin Fan, (参考訳) モノクル画像からの3次元顔の再構成は、拡張現実などの様々な応用の開発を促進している。 既存の手法は目覚ましい進歩を遂げているが、そのほとんどは幾何学的復元を重視し、テクスチャ予測の重要性を軽視している。 この問題に対処するため,我々は,高忠実度モノクル3次元顔再構成のために設計されたVGG-Texという新しい顔テクスチャ推定モデルを提案する。 このアプローチの核心は、2次元紫外線テクスチャ推定の結果を高めるために、3Dパラメトリック先行値を活用することである。 具体的には、VGG-Texは、顔属性エンコードモジュール、幾何学誘導テクスチャジェネレータ、可視性強化テクスチャコンプリートモジュールを含む。 これらのコンポーネントは、パラメトリックな前駆体を抽出し、初期テクスチャを生成し、テクスチャの詳細を精製する役割を担っている。 テクスチャ・テクスチャの相補性原理に基づき、VGG-Texはテクスチャ誘導幾何精細モジュールを導入し、再構成された3次元面の全体的な忠実さとそれに伴う損失のバランスをとる。 包括的実験により,本手法は既存の最先端手法と比較してテクスチャ再構築性能を著しく向上することが示された。

3D face reconstruction from monocular images has promoted the development of various applications such as augmented reality. Though existing methods have made remarkable progress, most of them emphasize geometric reconstruction, while overlooking the importance of texture prediction. To address this issue, we propose VGG-Tex, a novel Vivid Geometry-Guided Facial Texture Estimation model designed for High Fidelity Monocular 3D Face Reconstruction. The core of this approach is leveraging 3D parametric priors to enhance the outcomes of 2D UV texture estimation. Specifically, VGG-Tex includes a Facial Attributes Encoding Module, a Geometry-Guided Texture Generator, and a Visibility-Enhanced Texture Completion Module. These components are responsible for extracting parametric priors, generating initial textures, and refining texture details, respectively. Based on the geometry-texture complementarity principle, VGG-Tex also introduces a Texture-guided Geometry Refinement Module to further balance the overall fidelity of the reconstructed 3D faces, along with corresponding losses. Comprehensive experiments demonstrate that our method significantly improves texture reconstruction performance compared to existing state-of-the-art methods.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# 大規模言語モデルに基づく生成誤差補正:音声認識、話者タグ付け、感情認識の課題と基礎

Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition ( http://arxiv.org/abs/2409.09785v2 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Taejin Park, Yuan Gong, Yuanchao Li, Zhehuai Chen, Yen-Ting Lin, Chen Chen, Yuchen Hu, Kunal Dhawan, Piotr Żelasko, Chao Zhang, Yun-Nung Chen, Yu Tsao, Jagadeesh Balam, Boris Ginsburg, Sabato Marco Siniscalchi, Eng Siong Chng, Peter Bell, Catherine Lai, Shinji Watanabe, Andreas Stolcke, (参考訳) 生成AI技術の最近の進歩を踏まえると、大きな言語モデル(LLM)が、凍結した事前訓練された自動音声認識(ASR)モデルからテキストデコード結果を用いて、音響モデリングタスクをどのように強化できるかが重要な疑問である。 音声処理における言語モデリングの新機能を探るため,生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。 この課題は、ASR後の3つの言語モデリングタスクから成っている。 (i)ASR後の転写補正 (二)話者タグ付け、及び (三)感情認識。 これらのタスクは、オープンな事前訓練された言語モデルやエージェントベースのAPIを利用することで、音声ベースのインターフェースを扱う将来のLLMベースのエージェントのエミュレートを目的としている。 また,ベースライン評価から得られた知見や,今後の評価設計における教訓についても論じる。

Given recent advances in generative AI technology, a key question is how large language models (LLMs) can enhance acoustic modeling tasks using text decoding results from a frozen, pretrained automatic speech recognition (ASR) model. To explore new capabilities in language modeling for speech processing, we introduce the generative speech transcription error correction (GenSEC) challenge. This challenge comprises three post-ASR language modeling tasks: (i) post-ASR transcription correction, (ii) speaker tagging, and (iii) emotion recognition. These tasks aim to emulate future LLM-based agents handling voice-based interfaces while remaining accessible to a broad audience by utilizing open pretrained language models or agent-based APIs. We also discuss insights from baseline evaluations, as well as lessons learned for designing future evaluations.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# マスケッド言語モデリングを用いた低再同定リスクを有する合成自由テキスト医療記録の生成

Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling ( http://arxiv.org/abs/2409.09831v2 )

ライセンス: Link先を確認
Samuel Belkadi, Libo Ren, Nicolo Micheletti, Lifeng Han, Goran Nenadic, (参考訳) 本稿では,Masked Language Modeling (MLM) を用いて,退院要約,入院ノート,医師対応など,人工的なフリーテキスト医療記録を生成するシステムを提案する。 本システムは,重要な多様性を導入し,再識別リスクを最小限に抑えつつ,記録の重要な情報を保存するように設計されている。 このシステムは、Philterを使って保護された健康情報(PHI)をマスクし、次いで、重要な医療情報を保持するための医療エンティティ認識(NER)モデルを組み込む。 総合的な可読性に影響を与えることなく, 合成出力の多様性と忠実性のトレードオフをバランスさせるために, マスク比とマスク充填技術について検討した。 以上の結果から,HIPAA準拠のPHIリコール率0.96と0.035の低い再同定リスクを達成しつつ,高品質な合成データを生成することが可能であることが示唆された。 さらに、NERタスクを用いた下流評価では、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスで、合成データを効果的にトレーニングすることができる。 システムの柔軟性により、特定のユースケースに適応することが可能になり、医療研究や医療応用におけるプライバシー保護データ生成の貴重なツールとなる。

In this paper, we present a system that generates synthetic free-text medical records, such as discharge summaries, admission notes and doctor correspondences, using Masked Language Modeling (MLM). Our system is designed to preserve the critical information of the records while introducing significant diversity and minimizing re-identification risk. The system incorporates a de-identification component that uses Philter to mask Protected Health Information (PHI), followed by a Medical Entity Recognition (NER) model to retain key medical information. We explore various masking ratios and mask-filling techniques to balance the trade-off between diversity and fidelity in the synthetic outputs without affecting overall readability. Our results demonstrate that the system can produce high-quality synthetic data with significant diversity while achieving a HIPAA-compliant PHI recall rate of 0.96 and a low re-identification risk of 0.035. Furthermore, downstream evaluations using a NER task reveal that the synthetic data can be effectively used to train models with performance comparable to those trained on real data. The flexibility of the system allows it to be adapted for specific use cases, making it a valuable tool for privacy-preserving data generation in medical research and healthcare applications.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# 格子フェルミオンに対する測定分解能強化コヒーレンス

Measurement resolution enhanced coherence for lattice fermions ( http://arxiv.org/abs/2409.09878v2 )

ライセンス: Link先を確認
H. M. Hurst, Yik Haw Teoh, I. B. Spielman, (参考訳) 弱測定は、測定バックアクションによるデコヒーレンスを最小限にしながら、量子システムからターゲット情報を抽出することを可能にする。 しかし、多体量子系のバックアクションは波動関数の崩壊に予期せぬ影響を及ぼす。 理論的には、1次元格子内の弱測定された非相互作用フェルミオンからなる最小多粒子モデルについて検討する。 単点分解能のオンサイト占有数を繰り返し測定することで、初期状態に関わらず、システムをフォック状態に向けて確率的に駆動する。 これは、原則として、単一部位の空間分解能を持っていなくてもよい。 空間分解能の低下が各量子軌道の確率的進化の速度と許容された最終状態の両方に強く影響する16の部位を持つ系について数値的に示す。 ヒルベルト空間はバックアクションのない部分空間(BFS)に分割することができ、それらの要素はこれらの測度と区別できない。 反復測定は、任意の初期状態を単一のBFSに駆動し、測定プロセスの固定点である定常状態に導く。 最大32箇所までの系に対するこれらのBFSの特性を正確に計算し、測定分解能が適度に低下しても、非自明な定常的絡み合いとコヒーレンスをもたらすことを発見した。

Weak measurement enables the extraction of targeted information from a quantum system while minimizing decoherence due to measurement backaction. However, in many-body quantum systems backaction can have unexpected effects on wavefunction collapse. We theoretically study a minimal many-particle model consisting of weakly measured non-interacting fermions in a one dimensional lattice. Repeated measurement of on-site occupation number with single-site resolution stochastically drives the system toward a Fock state, regardless of the initial state. This need not be the case for measurements that do not, even in principle, have single-site spatial resolution. We numerically show for systems with up to 16 sites that decreasing the spatial resolution strongly affects both the rate of stochastic evolution for each quantum trajectory and the allowed final states. The full Hilbert space can be partitioned into backaction-free subspaces (BFSs) the elements of which are indistinguishable to these measurements. Repeated measurements will drive any initial state into a single BFS, leading to a steady state that is a fixed point of the measurement process. We exactly calculate the properties of these BFSs for systems up to 32 sites and find that even for moderate reductions in measurement resolution they yield non-trivial steady state entanglement and coherence.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# 米国における人工オピオイド危機の空間的ダイナミクスの追跡と解析のための移動型グラフニューラルネットワーク「モビリティ-GNN」

Mobility-GNN: a human mobility-based graph neural network for tracking and analyzing the spatial dynamics of the synthetic opioid crisis in the USA, 2013-2020 ( http://arxiv.org/abs/2409.09945v2 )

ライセンス: Link先を確認
Zhiyue Xia, Kathleen Stewart, (参考訳) 合成オピオイド(英: Synthetic opioids)は、アメリカ合衆国で最も一般的な薬物である。 疾病予防管理センターは2018年、薬物過剰摂取死の約70%がオピオイド、オピオイド関連死亡の67%が合成オピオイドによるものであると報告した。 本研究は,2013年から2020年にかけてのアメリカにおける合成オピオイドの拡散について検討し,合成オピオイド関連死の時空間パターンと他の重要なオピオイド,ヘロインとの関連性を検討した。 郡間の空間的つながりをグラフ畳み込みニューラルネットワークモデルに組み込んで、合成オピオイド関連死の拡散を表現し分析し、ヘロイン関連死の文脈で分析した。

Synthetic opioids are the most common drugs involved in drug-involved overdose mortalities in the U.S. The Center for Disease Control and Prevention reported that in 2018, about 70% of all drug overdose deaths involved opioids and 67% of all opioid-involved deaths were accounted for by synthetic opioids. In this study, we investigated the spread of synthetic opioids between 2013 and 2020 in the U.S., and analyzed the relationship between the spatiotemporal pattern of synthetic opioid-involved deaths and another key opioid, heroin, and compared patterns of deaths involving these two types of drugs during this time period. Spatial connections between counties were incorporated into a graph convolutional neural network model to represent and analyze the spread of synthetic opioid-involved deaths, and in the context of heroin-involved deaths.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# GPT-O1はすべてのバグを排除できるか? クイックバグにおけるGPT-Family LLMの評価

Can GPT-O1 Kill All Bugs? An Evaluation of GPT-Family LLMs on QuixBugs ( http://arxiv.org/abs/2409.10033v2 )

ライセンス: Link先を確認
Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang, (参考訳) LLMは長い間、自動プログラム修復(APR)において顕著な効果を示しており、OpenAIのChatGPTはこの領域で最も広く使われているモデルの1つである。 GPTファミリーモデルの継続的なイテレーションとアップグレードを通じて、バグ修正のパフォーマンスは、すでに最先端レベルに達している。 しかしながら、APR上でのGPTファミリーモデルの異なるバージョンの有効性とバリエーションを比較する研究はほとんどない。 本研究は,最近のGPT-o1モデル公開に触発されて,APRにおけるGPT-ファミリーモデルの異なるバージョンの有効性を比較するための最初の研究である。 我々は,最新のGPTファミリーモデル(O1-previewとO1-mini),GPT-4o,およびAPRにおけるChatGPTの歴史的評価を行った。 我々は, 修復成功率, 修理コスト, 応答長, 行動パターンなど, 複数の評価視点から, その他のLCMとAPRの4つのモデルに対する実験的検討を行った。 その結果、O1の修復能力は以前のGPTファミリーモデルよりも優れており、ベンチマークで40のバグを全て修正することができた。 我々の研究は、APRにおけるGPTファミリーモデルの適用について、より詳細な調査の基盤となることができる。

LLMs have long demonstrated remarkable effectiveness in automatic program repair (APR), with OpenAI's ChatGPT being one of the most widely used models in this domain. Through continuous iterations and upgrades of GPT-family models, their performance in fixing bugs has already reached state-of-the-art levels. However, there are few works comparing the effectiveness and variations of different versions of GPT-family models on APR. In this work, inspired by the recent public release of the GPT-o1 models, we conduct the first study to compare the effectiveness of different versions of the GPT-family models in APR. We evaluate the performance of the latest version of the GPT-family models (i.e., O1-preview and O1-mini), GPT-4o, and the historical version of ChatGPT on APR. We conduct an empirical study of the four GPT-family models against other LLMs and APR techniques on the QuixBugs benchmark from multiple evaluation perspectives, including repair success rate, repair cost, response length, and behavior patterns. The results demonstrate that O1's repair capability exceeds that of prior GPT-family models, successfully fixing all 40 bugs in the benchmark. Our work can serve as a foundation for further in-depth exploration of the applications of GPT-family models in APR.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# jina-embeddings-v3: Task LoRAによる多言語埋め込み

jina-embeddings-v3: Multilingual Embeddings With Task LoRA ( http://arxiv.org/abs/2409.10173v2 )

ライセンス: Link先を確認
Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao, (参考訳) 5億7000万のパラメータを持つ新しいテキスト埋め込みモデルであるjina-embeddings-v3を導入する。 このモデルは、クエリ文書検索、クラスタリング、分類、テキストマッチングのための高品質な埋め込みを生成するために、タスク固有のローランク適応(LoRA)アダプタのセットを含んでいる。 さらに、Matryoshka Representation Learningはトレーニングプロセスに統合され、パフォーマンスを損なうことなく埋め込み次元を柔軟に切り離すことができる。 MTEBベンチマークの評価によると、jina-embeddings-v3は、OpenAIとCohereの英語タスクへの最新のプロプライエタリな埋め込みよりも優れており、マルチリンガル-e5-大規模命令よりも優れたパフォーマンスを実現している。

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# 拡散検出による音声認識モデルの拡張

Augmenting Automatic Speech Recognition Models with Disfluency Detection ( http://arxiv.org/abs/2409.10177v2 )

ライセンス: Link先を確認
Robin Amann, Zhaolin Li, Barbara Bruno, Jan Niehues, (参考訳) 音声の拡散は、会話や自発的な発話でよく起こる。 しかし、標準的な自動音声認識(ASR)モデルは、典型的には流用文字で訓練されているため、これらの不一致を正確に認識するのに苦労する。 現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。 加えて、以前の作業ではモデル微調整がしばしば必要であり、限られた種類の分散に対処する。 本研究では,任意のASRモデルを拡張するための推論のみのアプローチを提案する。 まず、ASRモデルでは、音声不一致の書き起こしが難しいことを実証する。 次に, 単語レベルのタイムスタンプを効果的に把握しつつ, 単語レベルのタイムスタンプを予測するために, 改良されたコネクショニスト時間分類(CTC)に基づく強制アライメントアルゴリズムを提案する。 さらに、タイムスタンプ間のアライメントギャップを、不適切な音声や沈黙を含むものとして分類するモデルを開発する。 このモデルは精度81.62%、F1スコア80.07%を達成する。 分散データセット上でアライメントギャップの検出と分類の強化パイプラインをテストする。 以上の結果から,最初に書き起こしに失敗した単語の74.13%を抽出し,下流タスクにこのパイプラインの可能性を実証した。

Speech disfluency commonly occurs in conversational and spontaneous speech. However, standard Automatic Speech Recognition (ASR) models struggle to accurately recognize these disfluencies because they are typically trained on fluent transcripts. Current research mainly focuses on detecting disfluencies within transcripts, overlooking their exact location and duration in the speech. Additionally, previous work often requires model fine-tuning and addresses limited types of disfluencies. In this work, we present an inference-only approach to augment any ASR model with the ability to detect open-set disfluencies. We first demonstrate that ASR models have difficulty transcribing speech disfluencies. Next, this work proposes a modified Connectionist Temporal Classification(CTC)-based forced alignment algorithm from \cite{kurzinger2020ctc} to predict word-level timestamps while effectively capturing disfluent speech. Additionally, we develop a model to classify alignment gaps between timestamps as either containing disfluent speech or silence. This model achieves an accuracy of 81.62% and an F1-score of 80.07%. We test the augmentation pipeline of alignment gap detection and classification on a disfluent dataset. Our results show that we captured 74.13% of the words that were initially missed by the transcription, demonstrating the potential of this pipeline for downstream tasks.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# Schrodingerの記憶: 大規模言語モデル

Schrodinger's Memory: Large Language Models ( http://arxiv.org/abs/2409.10482v2 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) 記憶がすべての人間の活動の基礎であり、記憶がなければ、人々は日々の生活の中でどんなタスクも実行できなくなるでしょう。 LLM(Large Language Models)の開発に伴い、言語能力は人間に匹敵するものになりつつある。 しかし、LLMにはメモリがありますか? 現在のパフォーマンスに基づいて、LLMはメモリを示すように見える。 では、このメモリの基盤となるメカニズムは何ですか? これまでの研究では、LLMの記憶能力と基礎となる理論の深い研究が欠けていた。 本稿では,LLMのメモリ機構を説明するために,Universal Approximation Theorem (UAT) を用いる。 また,様々なLCMの記憶能力を検証する実験を行い,これらの記憶能力に基づいてその能力を評価する新しい手法を提案する。 LLMメモリはSchr\"odingerのメモリのように動作し、特定のメモリがクエリされたときにのみ観測可能である。 クエリに応答して、モデルがその出力に基づいてメモリを保持するかどうかを判断するのみである。 最後に、人間の脳とLDMの記憶能力を比較し、それらの操作機構の類似点と相違点を明らかにすることで、この概念を拡張した。

Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr\"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
翻訳日:2024-09-18 13:22:58 公開日:2024-09-17
# Flash STU:高速スペクトル変換ユニット

Flash STU: Fast Spectral Transform Units ( http://arxiv.org/abs/2409.10489v2 )

ライセンス: Link先を確認
Y. Isabel Liu, Windsor Nguyen, Yagiz Devre, Evan Dogariu, Anirudha Majumdar, Elad Hazan, (参考訳) 本稿では、スペクトル変換ユニットの効率的でオープンソースのPyTorch実装について述べる。 本研究では,言語,ロボット工学,シミュレートされた力学系を含むいくつかのモードにおけるシーケンス予測タスクについて検討する。 同じパラメータ数に対して、STUとその変種は、トランスフォーマーや様々なモードにわたる他の主要な状態空間モデルよりも優れていることが分かる。

This paper describes an efficient, open source PyTorch implementation of the Spectral Transform Unit. We investigate sequence prediction tasks over several modalities including language, robotics, and simulated dynamical systems. We find that for the same parameter count, the STU and its variants outperform the Transformer as well as other leading state space models across various modalities.
翻訳日:2024-09-18 13:22:57 公開日:2024-09-17
# ディープラーニングに基づく3Dセグメンテーション:サーベイ

Deep Learning Based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v5 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Saeed Anwar, Ajmal Mian, (参考訳) 3Dセグメンテーションは、自律運転とロボット工学の応用でコンピュータビジョンの根幹的で難しい問題である。 コンピュータビジョン、グラフィックス、機械学習のコミュニティから大きな注目を集めている。 手作りの特徴と機械学習の分類器に基づく従来の3Dセグメンテーション手法は、一般化能力に欠けていた。 2Dコンピュータビジョンの成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールとなっている。 この結果、さまざまなベンチマークデータセットで評価された文献に多くのメソッドが流入した。 RGB-Dとポイントクラウドセグメンテーションに関する調査論文は存在するが、最近の詳細な調査では、すべての3Dデータモダリティとアプリケーションドメインをカバーしている。 本稿では,このギャップを埋め,ディープラーニングに基づく3Dセグメンテーション技術の最近の進歩を包括的に調査する。 過去6年間の220以上の作品をカバーし、その強みと制限を分析し、ベンチマークデータセット上での競合結果について議論する。 この調査は、最も一般的に使用されているパイプラインの概要を提供し、最終的に将来有望な研究方向性を強調している。

3D segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving and robotics. It has received significant attention from the computer vision, graphics and machine learning communities. Conventional methods for 3D segmentation, based on hand-crafted features and machine learning classifiers, lack generalization ability. Driven by their success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks. This has led to an influx of many methods in the literature that have been evaluated on different benchmark datasets. Whereas survey papers on RGB-D and point cloud segmentation exist, there is a lack of a recent in-depth survey that covers all 3D data modalities and application domains. This paper fills the gap and comprehensively surveys the recent progress in deep learning-based 3D segmentation techniques. We cover over 220 works from the last six years, analyze their strengths and limitations, and discuss their competitive results on benchmark datasets. The survey provides a summary of the most commonly used pipelines and finally highlights promising research directions for the future.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# 概念の深さを探る: 大規模言語モデルはどのように異なる層で知識を取得するか?

Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? ( http://arxiv.org/abs/2404.07066v4 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Jingyuan Huang, Qingcheng Zeng, Zhenting Wang, Wenyue Hua, Haiyan Zhao, Kai Mei, Yanda Meng, Kaize Ding, Fan Yang, Mengnan Du, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。 しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。 本稿では,LLMが異なる層における様々な複雑な概念を処理しているという仮説を考察し,より複雑な概念がより深い層で獲得されることを示唆する「概念深度」の概念を紹介した。 具体的には、概念を抽象化のレベルに基づいて分類し、現実的、感情的、推論的なタスクにおいて複雑さを増す順に定義する。 タスクの3つの領域にまたがる様々なデータセット上で,様々なLLMファミリー(Gemma, LLaMA, Qwen)のレイヤワイズ表現を用いた広範囲な探索実験を行った。 我々の研究結果によると、モデルでは浅い層で単純なタスクの探索を効率的に行うことができ、より複雑なタスクは正確な理解のためにより深い層を必要とする。 さらに、入力にノイズを加え、モデルの重みを定量化するような外部要因が、層ワイド表現にどのように影響するかを検討する。 以上の結果から, これらの因子は, より深い層を探索するまで, LLMの概念的理解の発達を妨げることが示唆された。 提案する概念と実験的な洞察により,LSMの基盤となるメカニズムの理解が促進されることを期待する。 私たちのコードは \url{https://github.com/Luckfort/CD} で利用可能です。

Large language models (LLMs) have shown remarkable performances across a wide range of tasks. However, the mechanisms by which these models encode tasks of varying complexities remain poorly understood. In this paper, we explore the hypothesis that LLMs process concepts of varying complexities in different layers, introducing the idea of ``Concept Depth'' to suggest that more complex concepts are typically acquired in deeper layers. Specifically, we categorize concepts based on their level of abstraction, defining them in the order of increasing complexity within factual, emotional, and inferential tasks. We conduct extensive probing experiments using layer-wise representations across various LLM families (Gemma, LLaMA, Qwen) on various datasets spanning the three domains of tasks. Our findings reveal that models could efficiently conduct probing for simpler tasks in shallow layers, and more complex tasks typically necessitate deeper layers for accurate understanding. Additionally, we examine how external factors, such as adding noise to the input and quantizing the model weights, might affect layer-wise representations. Our findings suggest that these factors can impede the development of a conceptual understanding of LLMs until deeper layers are explored. We hope that our proposed concept and experimental insights will enhance the understanding of the mechanisms underlying LLMs. Our codes are available at \url{https://github.com/Luckfort/CD}.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# 長い尾にある音楽の自動タグ付け:数秒のアプローチ

Music auto-tagging in the long tail: A few-shot approach ( http://arxiv.org/abs/2409.07730v2 )

ライセンス: Link先を確認
T. Aleksandra Ma, Alexander Lerch, (参考訳) デジタル音楽の分野では、タグを使って広範囲なデータベースから楽曲を効率的に整理し、検索することが、音楽カタログの所有者にとって不可欠である。 専門家による人間のタグ付けは労働集約的であるが、ほとんどは正確である。一方、教師付き学習による自動タグ付けは、精度を満足するが、事前に定義されたトレーニングタグのセットに制限されている。 タグの意味を理解するために、少数の人間が提供する例からモデルを学習し、その後、これらのタグを自律的に適用することで、この小さな定義済みのタグのセットを超えて、実行可能なソリューションを提供する。 本稿では,事前学習されたモデルから,線形プローブとしても知られる軽量線形分類器への特徴を入力として利用することにより,少数ショット学習手法をマルチラベル音楽の自動タグに組み込むことを提案する。 本研究は,クラス数やクラス毎のサンプル数によって異なる数式パラメトリゼーションの他,人気の高い事前学習機能についても検討する。 実験により,事前学習した特徴を持つ単純なモデルでは,タグ毎の20サンプルなど,トレーニングデータを大幅に削減しつつ,最先端モデルに近い性能が得られることが示された。 さらに、トレーニングデータセット全体をトレーニングする場合、線形プローブは主要なモデルと競合する。 提案手法は,ラベル付きデータに制限のあるロングテールタグを自動的に割り当てるという問題に効果的に対処できることが示唆された。

In the realm of digital music, using tags to efficiently organize and retrieve music from extensive databases is crucial for music catalog owners. Human tagging by experts is labor-intensive but mostly accurate, whereas automatic tagging through supervised learning has approached satisfying accuracy but is restricted to a predefined set of training tags. Few-shot learning offers a viable solution to expand beyond this small set of predefined tags by enabling models to learn from only a few human-provided examples to understand tag meanings and subsequently apply these tags autonomously. We propose to integrate few-shot learning methodology into multi-label music auto-tagging by using features from pre-trained models as inputs to a lightweight linear classifier, also known as a linear probe. We investigate different popular pre-trained features, as well as different few-shot parametrizations with varying numbers of classes and samples per class. Our experiments demonstrate that a simple model with pre-trained features can achieve performance close to state-of-the-art models while using significantly less training data, such as 20 samples per tag. Additionally, our linear probe performs competitively with leading models when trained on the entire training dataset. The results show that this transfer learning-based few-shot approach could effectively address the issue of automatically assigning long-tail tags with only limited labeled data.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# TSELM:離散トークンと言語モデルを用いた話者抽出

TSELM: Target Speaker Extraction using Discrete Tokens and Language Models ( http://arxiv.org/abs/2409.07841v3 )

ライセンス: Link先を確認
Beilong Tang, Bang Zeng, Ming Li, (参考訳) 本稿では,離散トークンと言語モデルを利用した新たなターゲット話者抽出ネットワークであるTSELMを提案する。 TSELMは、WavLMからの複数の離散層を入力トークンとして利用し、ターゲット話者情報を統合するためのクロスアテンション機構を組み込んでいる。 言語モデルはシーケンスの依存関係をキャプチャするために使用され、スケーラブルなHiFi-GANはトークンからオーディオを再構築するために使用される。 クロスエントロピー損失を適用することで、TSELMは出力トークンの確率分布をモデル化し、オーディオ生成の複雑な回帰問題を分類タスクに変換する。 実験結果から,TSELMは音声品質において優れた結果が得られることがわかった。

We propose TSELM, a novel target speaker extraction network that leverages discrete tokens and language models. TSELM utilizes multiple discretized layers from WavLM as input tokens and incorporates cross-attention mechanisms to integrate target speaker information. Language models are employed to capture the sequence dependencies, while a scalable HiFi-GAN is used to reconstruct the audio from the tokens. By applying a cross-entropy loss, TSELM models the probability distribution of output tokens, thus converting the complex regression problem of audio generation into a classification task. Experimental results show that TSELM achieves excellent results in speech quality and comparable results in speech intelligibility.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# ハイブリッドMLモデルによるチリ電力セクターの風速予測

Operational Wind Speed Forecasts for Chile's Electric Power Sector Using a Hybrid ML Model ( http://arxiv.org/abs/2409.09263v2 )

ライセンス: Link先を確認
Dhruv Suri, Praneet Dutta, Flora Xue, Ines Azevedo, Ravi Jain, (参考訳) チリの電力部門は再生可能エネルギーを動力とする未来に向かって進んでいるため、電力網の運営には再生可能エネルギーの正確な予測が不可欠である。 再生可能エネルギー源の統合は、化石燃料源と比較して非常に変動し、クリーンエネルギーの入手が遅れる、その発電を管理するという運用上の困難のため、特に困難である。 これを軽減するために、チリの火力発電所における風と太陽からの断続的な発電の増加の影響を定量化し、チリの2つのカスタムMLモデルを組み合わせたハイブリッド風速予測手法を導入する。 第1のモデルは短期予測のためのMLモデルであるTiDEをベースとし、第2のモデルはグラフニューラルネットワークであるGraphCastをベースとして、中期予測は最大10日である。 本手法は, 短期予測では4-21%, 中長期予測では5-23%, チリの温暖化, 削減, システムレベルの排出に対する風力発電の影響を直接的に低減できる。

As Chile's electric power sector advances toward a future powered by renewable energy, accurate forecasting of renewable generation is essential for managing grid operations. The integration of renewable energy sources is particularly challenging due to the operational difficulties of managing their power generation, which is highly variable compared to fossil fuel sources, delaying the availability of clean energy. To mitigate this, we quantify the impact of increasing intermittent generation from wind and solar on thermal power plants in Chile and introduce a hybrid wind speed forecasting methodology which combines two custom ML models for Chile. The first model is based on TiDE, an MLP-based ML model for short-term forecasts, and the second is based on a graph neural network, GraphCast, for medium-term forecasts up to 10 days. Our hybrid approach outperforms the most accurate operational deterministic systems by 4-21% for short-term forecasts and 5-23% for medium-term forecasts and can directly lower the impact of wind generation on thermal ramping, curtailment, and system-level emissions in Chile.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# 紙ソーストレースのためのLLMを用いたアンサンブル学習:GPUフリーアプローチ

LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach ( http://arxiv.org/abs/2409.09383v2 )

ライセンス: Link先を確認
Kunlong Chen, Junjun Wang, Zhaoqun Chen, Kunjin Chen, Yitian Chen, (参考訳) 我々は,KDD CUP 2024紙ソース追跡コンテストに参加し,第3位を獲得した。 このコンペティションは参加者に対して、与えられた学術論文の基準資料(すなわち、コンペティションの主催者によって言及されるref-sources)を特定するよう指示した。 BERTやChatGLMといったトレーニング済みのニューラルネットワークモデルを微調整することで、この問題に対処しているほとんどのチームとは異なり、私たちの主要なアプローチは、クローズドソースの大規模言語モデル(LLM)を使用していました。 近年のLLM技術の進歩により、ゼロショットや少数ショットのシナリオで複雑な推論タスクに対処できることが、クローズドソースのLLMで実証されている。 その結果,GPUの欠如により,提案した論文から予測された参照ソースを直接生成するために,クローズドソースLLMを用いた。 私たちはさらに、アンサンブル学習を通じてこれらの予測を洗練しました。 特に,モデルトレーニングにGPUを使わなくても,受賞したアプローチの中では,本手法が唯一であった。 コードはhttps://github.com/Cklwanfifa/KDDCUP2024-PSTで公開されている。

We participated in the KDD CUP 2024 paper source tracing competition and achieved the 3rd place. This competition tasked participants with identifying the reference sources (i.e., ref-sources, as referred to by the organizers of the competition) of given academic papers. Unlike most teams that addressed this challenge by fine-tuning pre-trained neural language models such as BERT or ChatGLM, our primary approach utilized closed-source large language models (LLMs). With recent advancements in LLM technology, closed-source LLMs have demonstrated the capability to tackle complex reasoning tasks in zero-shot or few-shot scenarios. Consequently, in the absence of GPUs, we employed closed-source LLMs to directly generate predicted reference sources from the provided papers. We further refined these predictions through ensemble learning. Notably, our method was the only one among the award-winning approaches that did not require the use of GPUs for model training. Code available at https://github.com/Cklwanfifa/KDDCUP2024-PST.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# REG:視覚的検出とセグメント化モデルを用いたタイ国高速道路における道路アセット検出のための一般化された音声損失の修正

REG: Refined Generalized Focal Loss for Road Asset Detection on Thai Highways Using Vision-Based Detection and Segmentation Models ( http://arxiv.org/abs/2409.09877v2 )

ライセンス: Link先を確認
Teerapong Panboonyuen, (参考訳) 本稿では,先進的なRefined Generalized Focal Loss (REG) の定式化により,タイの高速道路における重要な道路資産を検知・分断するための新しい枠組みを提案する。 提案手法は,最先端の視覚に基づく検出・セグメンテーションモデルに統合され,クラス不均衡と,パビリオン,歩行者橋,情報標識,シングルアームポール,バス停,警告標識,コンクリートガードレールなどの道路要素の局所化という課題に効果的に対処する。 検出とセグメンテーションの精度を改善するために、複数のタスク間でREGを最適化するマルチタスク学習戦略が採用された。 REGは、道路資産の空間分布を考慮に入れた空間コンテキスト調整項と、様々な照明条件や散在した背景などの複雑な環境における予測の不確実性を捉える確率的改善項を組み込むことにより、さらに強化される。 我々の厳密な数学的定式化は、REGが局所化と分類誤差を最小限に抑えながら、検出しにくいインスタンスに適応重み付けを適用して、より簡単な例を示す。 実験の結果、80.34のmAP50と77.87のF1スコアを達成し、従来の方法よりも大幅に性能が向上した。 本研究は、道路資産検出・分断の堅牢性と正確性を高めるため、道路安全・インフラ管理の改善に寄与する、高度な損失関数改善の能力を強調した。 数学の背景と関連する方法に関する詳細な議論については、以前の研究を \url{https://github.com/kaopanboonyuen/REG} で参照してください。

This paper introduces a novel framework for detecting and segmenting critical road assets on Thai highways using an advanced Refined Generalized Focal Loss (REG) formulation. Integrated into state-of-the-art vision-based detection and segmentation models, the proposed method effectively addresses class imbalance and the challenges of localizing small, underrepresented road elements, including pavilions, pedestrian bridges, information signs, single-arm poles, bus stops, warning signs, and concrete guardrails. To improve both detection and segmentation accuracy, a multi-task learning strategy is adopted, optimizing REG across multiple tasks. REG is further enhanced by incorporating a spatial-contextual adjustment term, which accounts for the spatial distribution of road assets, and a probabilistic refinement that captures prediction uncertainty in complex environments, such as varying lighting conditions and cluttered backgrounds. Our rigorous mathematical formulation demonstrates that REG minimizes localization and classification errors by applying adaptive weighting to hard-to-detect instances while down-weighting easier examples. Experimental results show a substantial performance improvement, achieving a mAP50 of 80.34 and an F1-score of 77.87, significantly outperforming conventional methods. This research underscores the capability of advanced loss function refinements to enhance the robustness and accuracy of road asset detection and segmentation, thereby contributing to improved road safety and infrastructure management. For an in-depth discussion of the mathematical background and related methods, please refer to previous work available at \url{https://github.com/kaopanboonyuen/REG}.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# 強い収束保証をもつ確率的非凸最適化のための可変化一階法

Variance-reduced first-order methods for deterministically constrained stochastic nonconvex optimization with strong convergence guarantees ( http://arxiv.org/abs/2409.09906v2 )

ライセンス: Link先を確認
Zhaosong Lu, Sanyou Mei, Yifeng Xiao, (参考訳) 本稿では,決定論的に制約された確率的最適化問題のクラスについて検討する。 既存の方法は、通常$\epsilon$-stochastic固定点を見つけることを目的としている。 しかし、多くの実践的応用において、制約がほぼ確実に満たされることが重要であり、そのような$\epsilon$-stochasticな定常点が、重大な制約違反のリスクのために望ましくない可能性がある。 そこで本研究では, 確率成分の確率勾配を, 確率成分の傾きを正確に計算しながら, 再帰的モーメントスキームか, 縮退的ポリアクモーメントスキームのいずれかを用いて計算する, 単一ループ分散帰納確率一階法を提案する。 パラメータ $\theta \geq 1$ や他の適切な仮定で誤差境界条件の下では、提案手法がサンプル複雑性と一階演算複雑性を$\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$で達成し、より強い$\epsilon$-stochastic 定常点を求めるために、制約違反が$\epsilon$ 内にあり、期待される一階定常度が$\epsilon$ 内にあることを証明している。 我々の知る限りでは、これは証明可能な複雑性を保証する手法を開発し、ほぼすべての制約を確実性で満たすような問題の確率的定常点を見つけるための最初の試みである。

In this paper, we study a class of deterministically constrained stochastic optimization problems. Existing methods typically aim to find an $\epsilon$-stochastic stationary point, where the expected violations of both constraints and first-order stationarity are within a prescribed accuracy $\epsilon$. However, in many practical applications, it is crucial that the constraints be nearly satisfied with certainty, making such an $\epsilon$-stochastic stationary point potentially undesirable due to the risk of significant constraint violations. To address this issue, we propose single-loop variance-reduced stochastic first-order methods, where the stochastic gradient of the stochastic component is computed using either a truncated recursive momentum scheme or a truncated Polyak momentum scheme for variance reduction, while the gradient of the deterministic component is computed exactly. Under the error bound condition with a parameter $\theta \geq 1$ and other suitable assumptions, we establish that the proposed methods achieve a sample complexity and first-order operation complexity of $\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$ for finding a stronger $\epsilon$-stochastic stationary point, where the constraint violation is within $\epsilon$ with certainty, and the expected violation of first-order stationarity is within $\epsilon$. To the best of our knowledge, this is the first work to develop methods with provable complexity guarantees for finding an approximate stochastic stationary point of such problems that nearly satisfies all constraints with certainty.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# GlobalMapNet: ベクトル化されたグローバルHDマップ構築のためのオンラインフレームワーク

GlobalMapNet: An Online Framework for Vectorized Global HD Map Construction ( http://arxiv.org/abs/2409.10063v2 )

ライセンス: Link先を確認
Anqi Shi, Yuze Cai, Xiangyu Chen, Jian Pu, Zeyu Fu, Hong Lu, (参考訳) 高精細(HD)マップは自律運転システムに不可欠である。 伝統的に、スケーラビリティに制限のあるHDマップを構築するために、高価で労働集約的なパイプラインが実装されている。 近年、クラウドソーシングとオンラインマッピングが2つの代替手法として登場しているが、それぞれに制限がある。 本稿では,クラウドソーシングとオンラインマッピングの利点を生かして,ベクトル化されたグローバルマップを直接生成するための新しい手法,すなわちグローバルマップ構築法を提案する。 我々は,ベクトル化されたグローバルHDマップ構築のための最初のオンラインフレームワークであるGlobalMapNetを紹介した。 グローバルマップをゼロから生成するために,ローカルマップのマッチングとマージを連続的に行うGlobalMapBuilderを提案する。 我々は、重複マップ要素を除去し、クリーンマップを生成する新しいアルゴリズム、Map NMSを設計する。 また,過去の地図情報を集約し,予測の一貫性を向上させるため,GlobalMapFusionを提案する。 我々は、広く認識されているArgoverse2とnuScenesの2つのデータセット上でGlobalMapNetを調べ、我々のフレームワークがグローバルに一貫した結果を生成することができることを示す。

High-definition (HD) maps are essential for autonomous driving systems. Traditionally, an expensive and labor-intensive pipeline is implemented to construct HD maps, which is limited in scalability. In recent years, crowdsourcing and online mapping have emerged as two alternative methods, but they have limitations respectively. In this paper, we provide a novel methodology, namely global map construction, to perform direct generation of vectorized global maps, combining the benefits of crowdsourcing and online mapping. We introduce GlobalMapNet, the first online framework for vectorized global HD map construction, which updates and utilizes a global map on the ego vehicle. To generate the global map from scratch, we propose GlobalMapBuilder to match and merge local maps continuously. We design a new algorithm, Map NMS, to remove duplicate map elements and produce a clean map. We also propose GlobalMapFusion to aggregate historical map information, improving consistency of prediction. We examine GlobalMapNet on two widely recognized datasets, Argoverse2 and nuScenes, showing that our framework is capable of generating globally consistent results.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17
# Fuse4Seg: 画像レベル融合に基づくマルチモーダル医療画像セグメンテーション

Fuse4Seg: Image-Level Fusion Based Multi-Modality Medical Image Segmentation ( http://arxiv.org/abs/2409.10328v2 )

ライセンス: Link先を確認
Yuchen Guo, Weifeng Su, (参考訳) マルチモーダルな医用画像セグメント化は、多様な画像モダリティを統合することで、複雑な疾患の診断と理解を高める重要な可能性を秘めているが、既存の手法は主に特徴レベルの融合戦略に依存している。 我々は、現在の特徴レベルの融合戦略は、評価制御なしでニューラルネットワークの中間層で特徴をマージするため、様々な画像モダリティのセマンティックな不整合や不整合が生じやすいと主張している。 これを軽減するために,医用画像分割と医用画像融合の相互依存関係をモデル化するバイレベルラーニングフレームワークFuse4Segを導入する。 画像レベルの融合プロセスは、階層化された最適化アプローチによってセグメント化結果をガイドし、拡張するためにシームレスに使用される。 さらに、セグメンテーションモジュールから得られる知識は、融合モジュールを効果的に強化することができる。 これにより、得られた融合画像が、すべてのモダリティからの情報を正確にアマルガメートするコヒーレント表現であることが保証される。 さらに,BraTSデータセットに基づくBraTS-Fuseベンチマークを構築し,2040対のオリジナル画像,マルチモーダル融合画像,地上真実を含む。 このベンチマークは、画像レベルの医療セグメンテーションを提供するだけでなく、これまでで最大の医療画像融合データセットでもある。 いくつかの公開データセットに対する大規模な実験とベンチマークにより、従来のSOTA(State-of-the-art)手法よりも、我々のアプローチの方が優れていることが示された。

Although multi-modality medical image segmentation holds significant potential for enhancing the diagnosis and understanding of complex diseases by integrating diverse imaging modalities, existing methods predominantly rely on feature-level fusion strategies. We argue the current feature-level fusion strategy is prone to semantic inconsistencies and misalignments across various imaging modalities because it merges features at intermediate layers in a neural network without evaluative control. To mitigate this, we introduce a novel image-level fusion based multi-modality medical image segmentation method, Fuse4Seg, which is a bi-level learning framework designed to model the intertwined dependencies between medical image segmentation and medical image fusion. The image-level fusion process is seamlessly employed to guide and enhance the segmentation results through a layered optimization approach. Besides, the knowledge gained from the segmentation module can effectively enhance the fusion module. This ensures that the resultant fused image is a coherent representation that accurately amalgamates information from all modalities. Moreover, we construct a BraTS-Fuse benchmark based on BraTS dataset, which includes 2040 paired original images, multi-modal fusion images, and ground truth. This benchmark not only serves image-level medical segmentation but is also the largest dataset for medical image fusion to date. Extensive experiments on several public datasets and our benchmark demonstrate the superiority of our approach over prior state-of-the-art (SOTA) methodologies.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-17