このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240912となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 大規模言語モデルを用いた機械翻訳: Decoder と Encoder-Decoder の比較
Machine Translation with Large Language Models: Decoder Only vs. Encoder-Decoder ( http://arxiv.org/abs/2409.13747v1 ) ライセンス: Link先を確認 | Abhinav P. M., SujayKumar Reddy M, Oswald Christopher, | (参考訳) このプロジェクトは"Machine Translation with Large Language Models: Decoder-only vs. Encoder-Decoder"と題され、多言語機械翻訳(MT)モデルの開発を目指している。
インドの地域言語、特にテルグ語、タミル語、マラヤラムに焦点をあてたこのモデルは、様々な言語対の正確かつ文脈的に適切な翻訳を可能にしようとしている。
Decoder-onlyとEncoder-Decoderアーキテクチャを比較することで、翻訳品質と効率を最適化し、言語間コミュニケーションツールを進化させることを目標とし、精度と文脈に適した高品質な翻訳を実現するためのモデルを開発することを目的とする。
大規模な言語モデルを活用し、特にDecoderのみとEncoder-Decoderアーキテクチャの有効性を比較することで、プロジェクトは多言語コンテキスト間の翻訳性能と効率を最適化することを目指している。
本研究は、厳密な実験と分析を通じて、機械翻訳の分野を前進させ、異なるモデルアーキテクチャの有効性に関する貴重な洞察を提供し、言語間通信ツールの強化への道を開くことを目的とする。
This project, titled "Machine Translation with Large Language Models: Decoder-only vs. Encoder-Decoder," aims to develop a multilingual machine translation (MT) model. Focused on Indian regional languages, especially Telugu, Tamil, and Malayalam, the model seeks to enable accurate and contextually appropriate translations across diverse language pairs. By comparing Decoder-only and Encoder-Decoder architectures, the project aims to optimize translation quality and efficiency, advancing cross-linguistic communication tools.The primary objective is to develop a model capable of delivering high-quality translations that are accurate and contextually appropriate. By leveraging large language models, specifically comparing the effectiveness of Decoder-only and Encoder-Decoder architectures, the project seeks to optimize translation performance and efficiency across multilingual contexts. Through rigorous experimentation and analysis, this project aims to advance the field of machine translation, contributing valuable insights into the effectiveness of different model architectures and paving the way for enhanced cross-linguistic communication tools. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-12 |
# TheraGen: 世代ごとのセラピー
TheraGen: Therapy for Every Generation ( http://arxiv.org/abs/2409.13748v1 ) ライセンス: Link先を確認 | Kartikey Doshi, Jimit Shah, Narendra Shekokar, | (参考訳) 我々は、LLaMA 2 7Bモデルを利用した高度なAIを活用したメンタルヘルスチャットボットであるTheraGenを紹介する。
このアプローチは、言語モデルとトランスフォーマーアーキテクチャの最近の進歩に基づいている。
TheraGenは、100万件の会話エントリの大規模なデータセットを活用し、匿名化された治療書き起こし、オンラインのメンタルヘルス議論、そしてAPAリソースを含む心理学的文献を組み合わせることで、一日中パーソナライズされ、思いやりのあるメンタルヘルスを提供する。
本実装では, 伝達学習, 微調整, 高度な訓練技術を用いて, 性能を最適化する。
TheraGenはシームレスなインタラクションのためのユーザフレンドリなインターフェースを提供し、共感的な応答とエビデンスベースの対処戦略を提供する。
評価結果は高い満足度を示し,94%のユーザが精神的幸福感の改善を報告している。
このシステムはBLEUスコア0.67、ROUGEスコア0.62を達成し、強い応答精度を示した。
1395ミリ秒の平均応答時間で、TheraGenはリアルタイムで効率的なサポートを保証する。
TheraGenは、プロのセラピーの代わりにはならないが、ユーザーの健康を著しく改善し、メンタルヘルス治療におけるアクセシビリティのギャップに対処する貴重な補完ツールとして機能する。
本稿では、TheraGenのアーキテクチャ、トレーニング方法論、倫理的考察、今後の方向性について詳述し、AI支援精神医療の分野の成長に寄与し、メンタルヘルスサポートの強化ニーズに対するスケーラブルなソリューションを提供する。
We present TheraGen, an advanced AI-powered mental health chatbot utilizing the LLaMA 2 7B model. This approach builds upon recent advancements in language models and transformer architectures. TheraGen provides all-day personalized, compassionate mental health care by leveraging a large dataset of 1 million conversational entries, combining anonymized therapy transcripts, online mental health discussions, and psychological literature, including APA resources. Our implementation employs transfer learning, fine-tuning, and advanced training techniques to optimize performance. TheraGen offers a user-friendly interface for seamless interaction, providing empathetic responses and evidence-based coping strategies. Evaluation results demonstrate high user satisfaction rates, with 94% of users reporting improved mental well-being. The system achieved a BLEU score of 0.67 and a ROUGE score of 0.62, indicating strong response accuracy. With an average response time of 1395 milliseconds, TheraGen ensures real-time, efficient support. While not a replacement for professional therapy, TheraGen serves as a valuable complementary tool, significantly improving user well-being and addressing the accessibility gap in mental health treatments. This paper details TheraGen's architecture, training methodology, ethical considerations, and future directions, contributing to the growing field of AI-assisted mental healthcare and offering a scalable solution to the pressing need for mental health support. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-12 |
# ScriptSmith: 自動Bashスクリプト生成、アセスメント、リファインメントを通じてIT運用を強化する統一LLMフレームワーク
ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement ( http://arxiv.org/abs/2409.17166v1 ) ライセンス: Link先を確認 | Oishik Chatterjee, Pooja Aggarwal, Suranjana Samanta, Ting Dai, Prateeti Mohapatra, Debanjana Kar, Ruchi Mahindru, Steve Barbieri, Eugen Postea, Brad Blancett, Arthur De Magalhaes, | (参考訳) サイト信頼性エンジニアリング(SRE)の急速な発展の中で、サイトおよびクラウドアプリケーションの問題を管理し解決するための効率的で効果的なソリューションの需要が最重要である。
本稿では,大規模言語モデル(LLM)を用いて,スクリプト生成,評価,改良のためのアクション自動化の革新的アプローチを提案する。
LLMの能力を活用することで、スクリプトの作成とデバッグに関わる人的労力を大幅に削減し、SREチームの生産性を高めることを目指している。
実験では、SREで一般的に使用されるツールであるBashスクリプトにフォーカスし、100タスクのCodeSiftデータセットと153タスクのInterCodeデータセットを含む。
その結果,LLMはスクリプトを効率よく評価・精査し,実行環境におけるスクリプト検証の必要性を低減できることがわかった。
結果は、このフレームワークがスクリプト生成において7~10%の全体的な改善を示していることを示している。
In the rapidly evolving landscape of site reliability engineering (SRE), the demand for efficient and effective solutions to manage and resolve issues in site and cloud applications is paramount. This paper presents an innovative approach to action automation using large language models (LLMs) for script generation, assessment, and refinement. By leveraging the capabilities of LLMs, we aim to significantly reduce the human effort involved in writing and debugging scripts, thereby enhancing the productivity of SRE teams. Our experiments focus on Bash scripts, a commonly used tool in SRE, and involve the CodeSift dataset of 100 tasks and the InterCode dataset of 153 tasks. The results show that LLMs can automatically assess and refine scripts efficiently, reducing the need for script validation in an execution environment. Results demonstrate that the framework shows an overall improvement of 7-10% in script generation. | 翻訳日:2024-11-06 16:50:22 公開日:2024-09-12 |
# リスク・アット・アット・リスク(VaR)に現況市場条件を取り入れたポートフォリオストレステスト
Portfolio Stress Testing and Value at Risk (VaR) Incorporating Current Market Conditions ( http://arxiv.org/abs/2409.18970v1 ) ライセンス: Link先を確認 | Krishan Mohan Nagpal, | (参考訳) リスク・アット・リスク(VaR)とストレス・テスト(Scress testing)は、ポートフォリオリスク管理において、悪い市場の動きによる潜在的な市場価値損失を見積もるために最も広く使われているアプローチの1つである。
VaRは、指定された地平線(例えば1日や10日)上の所望の信頼レベル(例えば95%)における価値の潜在的な損失を定量化する。
シナリオ設計とストレステストでは、厳しい不況や特定の関心事(急激な増加や地政学的な出来事など)に関わるような極端な市場シナリオを構築し、ポートフォリオにおけるそのようなシナリオの潜在的影響を定量化する。
本研究の目的は,VaRのストレスシナリオ設計と評価に市場条件を組み込むことによって,短期的にポートフォリオリスクに関するより正確かつ現実的な洞察を提供するアプローチを提案することである。
提案手法は、ある期間の歴史が市場状況と「より類似している」場合、市場変化の歴史的観察をより重くする歴史データに基づく。
マーケット条件のクラスタは、変動推論(VI)と呼ばれる機械学習アプローチを使用して識別される。
VIに基づくアルゴリズムは最適化手法を用いて、クラスタ割り当て(マーケットレシエーション)の後方確率密度の解析的近似と、ポートフォリオ値の変化に対する異なる結果の確率を求める。
2020年ごろの詳細な変動期間は、提案手法の性能、特にVaRとストレスシナリオが市場状況の変化に迅速に適応しているかを示すために使用される。
提案手法のもう1つの利点は、市場条件をクラスタに分類することで、異なる市場条件下でのポートフォリオパフォーマンスに関する有用な洞察を得ることができることである。
Value at Risk (VaR) and stress testing are two of the most widely used approaches in portfolio risk management to estimate potential market value losses under adverse market moves. VaR quantifies potential loss in value over a specified horizon (such as one day or ten days) at a desired confidence level (such as 95'th percentile). In scenario design and stress testing, the goal is to construct extreme market scenarios such as those involving severe recession or a specific event of concern (such as a rapid increase in rates or a geopolitical event), and quantify potential impact of such scenarios on the portfolio. The goal of this paper is to propose an approach for incorporating prevailing market conditions in stress scenario design and estimation of VaR so that they provide more accurate and realistic insights about portfolio risk over the near term. The proposed approach is based on historical data where historical observations of market changes are given more weight if a certain period in history is "more similar" to the prevailing market conditions. Clusters of market conditions are identified using a Machine Learning approach called Variational Inference (VI) where for each cluster future changes in portfolio value are similar. VI based algorithm uses optimization techniques to obtain analytical approximations of the posterior probability density of cluster assignments (market regimes) and probabilities of different outcomes for changes in portfolio value. Covid related volatile period around the year 2020 is used to illustrate the performance of the proposed approach and in particular show how VaR and stress scenarios adapt quickly to changing market conditions. Another advantage of the proposed approach is that classification of market conditions into clusters can provide useful insights about portfolio performance under different market conditions. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-12 |
# 感情情報の早期共同学習によるマルチモーダルモデルの構築
Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better ( http://arxiv.org/abs/2409.18971v1 ) ライセンス: Link先を確認 | Mengying Ge, Mingyang Li, Dongkai Tang, Pengbo Li, Kuo Liu, Shuhao Deng, Songbai Pu, Long Liu, Yang Song, Tao Zhang, | (参考訳) 本稿では,マルチモーダル感情認識チャレンジ(MER2024)のサブチャレンジにおける感情認識のソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するため,我々は,音声とテキストの協調訓練を最初に行う大規模言語モデルに基づく早期融合戦略を採用した。
また、Audio-Textモードと他の機能との連携も遅れる。
データ不足とクラス不均衡の問題を解決するために,データマイニングには複数ターンのマルチモデル投票を用いる。
さらに,音声特徴の質を高めるために,音声の音源分離を前処理に利用した。
我々のモデルは MER2024-SEMI と MER2024-NOISE の両方で \textbf{2nd} をランク付けし,本手法の有効性を検証した。
In this paper, we present our solutions for emotion recognition in the sub-challenges of Multimodal Emotion Recognition Challenge (MER2024). To mitigate the modal competition issue between audio and text, we adopt an early fusion strategy based on a large language model, where joint training of audio and text is conducted initially. And the joint Audio-Text modal feature will be late-fused with other unimodal features. In order to solve the problems of data insufficiency and class imbalance, We use multiple turns of multi-model voting for data mining. Moreover, to enhance the quality of audio features, we employ speech source separation to preprocess audios. Our model ranks \textbf{2nd} in both MER2024-SEMI and MER2024-NOISE, validating our method's effectiveness. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-12 |
# EEG-EMG FAコンバータ:脳波とEMGの融合のための周波数対応コンバータ
EEG-EMG FAConformer: Frequency Aware Conv-Transformer for the fusion of EEG and EMG ( http://arxiv.org/abs/2409.18973v1 ) ライセンス: Link先を確認 | ZhengXiao He, Minghong Cai, Letian Li, Siyuan Tian, Ren-Jie Dai, | (参考訳) 運動パターン認識パラダイムは、運動機能回復を目的とした脳-コンピュータインタフェース(BCI)の主要な形態であり、最も容易に促進できる応用である。
近年、多くの研究者がMIベースのBCIリハビリテーショントレーニングシステムにおいて、実際の運動制御の実行を同時に行うよう患者に勧めている。
筋電図(EMG)信号は、運動の実行を評価する最も直接的な生理的信号である。
マルチモーダル信号融合は、事実上モータパターンの復号化に重要である。
そこで我々は,脳波とEMG信号に対するマルチモーダル動作パターン認識アルゴリズム,EEG-EMG FAConformerを導入する。
特に脳波情報を正確かつ効率的に符号化するための周波数帯域アテンションモジュールを考案する。
さらに、マルチスケール核融合モジュール、独立チャネル特異的畳み込みモジュール(ICSCM)、そして、脳波やEMG信号の不適切な情報を効果的に排除し、隠れたダイナミクスを完全に活用できるフューズモジュールのようなモジュールが開発され、大きな効果を示します。
大規模な実験により、EEG-EMG FAConformerはJeong2020データセットの既存の手法を超え、優れたパフォーマンス、高い堅牢性、印象的な安定性を示している。
Motor pattern recognition paradigms are the main forms of Brain-Computer Interfaces(BCI) aimed at motor function rehabilitation and are the most easily promoted applications. In recent years, many researchers have suggested encouraging patients to perform real motor control execution simultaneously in MI-based BCI rehabilitation training systems. Electromyography (EMG) signals are the most direct physiological signals that can assess the execution of movements. Multimodal signal fusion is practically significant for decoding motor patterns. Therefore, we introduce a multimodal motion pattern recognition algorithm for EEG and EMG signals: EEG-EMG FAConformer, a method with several attention modules correlated with temporal and frequency information for motor pattern recognition. We especially devise a frequency band attention module to encode EEG information accurately and efficiently. What's more, modules like Multi-Scale Fusion Module, Independent Channel-Specific Convolution Module(ICSCM), and Fuse Module which can effectively eliminate irrelevant information in EEG and EMG signals and fully exploit hidden dynamics are developed and show great effects. Extensive experiments show that EEG-EMG FAConformer surpasses existing methods on Jeong2020 dataset, showcasing outstanding performance, high robustness and impressive stability. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-12 |
# 財政政策への機械学習と計量的アプローチ--ウルグアイにおける産業投資ダイナミクスの理解(1974-2010)
Machine Learning and Econometric Approaches to Fiscal Policies: Understanding Industrial Investment Dynamics in Uruguay (1974-2010) ( http://arxiv.org/abs/2410.00002v1 ) ライセンス: Link先を確認 | Diego Vallarino, | (参考訳) 本稿では,1974年から2010年までのウルグアイにおける産業投資に対する財政インセンティブの影響について検討する。
本研究では,エコノメトリモデルと機械学習技術を組み合わせた混合手法を用いて,財政利益の短期的および長期的効果を産業投資に与える影響について検討した。
結果は、長期的産業成長の推進における財政インセンティブの重要な役割を裏付けるとともに、安定したマクロ経済環境、公共投資、信用へのアクセスの重要性を強調している。
機械学習モデルは、財政利益と為替レートのような他のマクロ経済要因との間の非線形相互作用に関するさらなる洞察を与え、財政政策の調整の必要性を強調している。
この発見は、財政的なインセンティブと広範な経済改革が組み合わさって、新興国における産業発展を効果的に促進できることを示唆する重要な政策上の意味を持つ。
This paper examines the impact of fiscal incentives on industrial investment in Uruguay from 1974 to 2010. Using a mixed-method approach that combines econometric models with machine learning techniques, the study investigates both the short-term and long-term effects of fiscal benefits on industrial investment. The results confirm the significant role of fiscal incentives in driving long-term industrial growth, while also highlighting the importance of a stable macroeconomic environment, public investment, and access to credit. Machine learning models provide additional insights into nonlinear interactions between fiscal benefits and other macroeconomic factors, such as exchange rates, emphasizing the need for tailored fiscal policies. The findings have important policy implications, suggesting that fiscal incentives, when combined with broader economic reforms, can effectively promote industrial development in emerging economies. | 翻訳日:2024-11-05 15:38:59 公開日:2024-09-12 |
# Retro-li: ノイズ類似検索とドメインシフトの一般化をサポートする小型検索生成
Retro-li: Small-Scale Retrieval Augmented Generation Supporting Noisy Similarity Searches and Domain Shift Generalization ( http://arxiv.org/abs/2410.00004v1 ) ライセンス: Link先を確認 | Gentiana Rashiti, Geethan Karunaratne, Mrinmaya Sachan, Abu Sebastian, Abbas Rahimi, | (参考訳) Retroのような検索拡張生成(RAG)システムは、数兆のエントリを含む非パラメトリックメモリのデータベースから検索することで、言語モデリング能力を改善し、毒性と幻覚を低減することが示されている。
Retro-liを導入することで、検索は小規模なデータベースでも有効であるが、より正確でより良い隣人を求めることができる。
これは、適切な意味的類似性探索を使用することで達成できる。
さらに、非パラメトリックメモリへの正規化を初めて提案し、推論中に近隣の検索操作がうるさい場合の難易度を著しく低減し、ドメインシフトが発生した場合の一般化を改善する。
また、Retro-liの非パラメトリックメモリはアナログインメモリ・コンピューティング・ハードウェア上で実装可能である可能性を示し、O(1)探索時間を示すとともに、近隣の検索においてノイズを発生させ、性能損失が最小 (1%) であることを示す。
私たちのコードは、https://github.com/IBM/Retrieval-Enhanced-Transformer-Little.comで利用可能です。
The retrieval augmented generation (RAG) system such as Retro has been shown to improve language modeling capabilities and reduce toxicity and hallucinations by retrieving from a database of non-parametric memory containing trillions of entries. We introduce Retro-li that shows retrieval can also help using a small-scale database, but it demands more accurate and better neighbors when searching in a smaller hence sparser non-parametric memory. This can be met by using a proper semantic similarity search. We further propose adding a regularization to the non-parametric memory for the first time: it significantly reduces perplexity when the neighbor search operations are noisy during inference, and it improves generalization when a domain shift occurs. We also show that Retro-li's non-parametric memory can potentially be implemented on analog in-memory computing hardware, exhibiting O(1) search time while causing noise in retrieving neighbors, with minimal (<1%) performance loss. Our code is available at: https://github.com/IBM/Retrieval-Enhanced-Transformer-Little. | 翻訳日:2024-11-05 15:38:58 公開日:2024-09-12 |
# DVS: 新しいCNNアンサンブルを用いた血液がん検出
DVS: Blood cancer detection using novel CNN-based ensemble approach ( http://arxiv.org/abs/2410.05272v1 ) ライセンス: Link先を確認 | Md Taimur Ahad, Israt Jahan Payel, Bo Song, Yan Li, | (参考訳) 早期に検出された場合のみ、適切な診断が可能である。
毎年124万人以上の新しい血液がんが世界中で報告されている。
この病気により世界中に約6,000のがんがある。
がんの検出と分類の重要性から、研究者は血液がんの分類のためにディープ畳み込みニューラルネットワークを評価するようになった。
本研究の目的は,最新の畳み込みニューラルネットワーク(CNN)による血液悪性腫瘍の検出と分類の有効性について,詳細な調査を行うことである。
本研究は, 深層畳み込みニューラルネットワーク (D-CNN) の可能性を検討することに焦点を当て, 基礎的CNNモデルだけでなく, 伝達学習法によって改善され, アンサンブル戦略に組み込まれたモデルを用いて, 高い精度で多種多様な血液型を検出することに焦点を当てた。
本稿では,CNNから派生した5つのディープラーニングアーキテクチャを包括的に調査する。
これらのモデル、すなわち、VGG19、ResNet152v2、SeresNet152、ResNet101、DenseNet201は、アンサンブル学習技術とトランスファー学習戦略を統合する。
DenseNet201 (98.08%)、VGG19 (96.94%)、SeresNet152 (90.93%)の比較では、DVSがCNNを上回っている。
DenseNet201は95.00%の精度でVGG19は72.29%、SeresNet152は94.16%だった。
この研究で、アンサンブルDVSモデルは98.76%の精度を達成した。
本研究から, 組立型DVSモデルは, 血液がんの検出と分類に最適である。
Blood cancer can only be diagnosed properly if it is detected early. Each year, more than 1.24 million new cases of blood cancer are reported worldwide. There are about 6,000 cancers worldwide due to this disease. The importance of cancer detection and classification has prompted researchers to evaluate Deep Convolutional Neural Networks for the purpose of classifying blood cancers. The objective of this research is to conduct an in-depth investigation of the efficacy and suitability of modern Convolutional Neural Network (CNN) architectures for the detection and classification of blood malignancies. The study focuses on investigating the potential of Deep Convolutional Neural Networks (D-CNNs), comprising not only the foundational CNN models but also those improved through transfer learning methods and incorporated into ensemble strategies, to detect diverse forms of blood cancer with a high degree of accuracy. This paper provides a comprehensive investigation into five deep learning architectures derived from CNNs. These models, namely VGG19, ResNet152v2, SEresNet152, ResNet101, and DenseNet201, integrate ensemble learning techniques with transfer learning strategies. A comparison of DenseNet201 (98.08%), VGG19 (96.94%), and SEresNet152 (90.93%) shows that DVS outperforms CNN. With transfer learning, DenseNet201 had 95.00% accuracy, VGG19 had 72.29%, and SEresNet152 had 94.16%. In the study, the ensemble DVS model achieved 98.76% accuracy. Based on our study, the ensemble DVS model is the best for detecting and classifying blood cancers. | 翻訳日:2024-11-01 19:47:38 公開日:2024-09-12 |
# 再検索型世代を内部に導入する際の脆弱性について
知識集約型アプリケーションドメイン
On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains ( http://arxiv.org/abs/2409.17275v1 ) ライセンス: Link先を確認 | Xun Xian, Ganghua Wang, Xuan Bi, Jayanth Srinivasa, Ashish Kundu, Charles Fleming, Mingyi Hong, Jie Ding | (参考訳) Retrieval-Augmented Generation (RAG)は、医療、金融、法的文脈といった知識集約的な領域において、大規模言語モデル(LLM)の性能を高めるために実証的に示されている。
クエリが与えられたら、RAGはコーパスから関連文書を取得し、それらをLLMの生成プロセスに統合する。
本研究では,RAGの対角的ロバスト性について検討し,検索システムの検討に焦点をあてた。
まず, コーパス, 検索, クエリ, ターゲット情報の組み合わせを225種類に分けて, 医療用Q\&Aにおける普遍的な毒殺攻撃に対して, 検索システムが脆弱であることを示す。
このような攻撃では、敵は個人が特定できる情報など、標的とする幅広い情報を含む有毒な文書を生成する。
これらの有毒な文書をコーパスに挿入すると、攻撃者が特定したクエリを使用する限り、どのユーザでも正確に検索することができる。
この脆弱性を理解するために, クエリの埋め込みから有毒文書へのずれは, 有毒文書と有毒文書との高い類似性が保たれるパターンに従う傾向にあり, 正確な検索を可能にすることを発見した。
これらの知見に基づいて,RAGの安全性を確保するために,新たな検出ベースの防御法を開発した。
様々なQ\&A領域にまたがる広範囲な実験を通して,提案手法がほぼ全てのケースにおいて常に優れた検出率を達成できることを示した。
Retrieval-Augmented Generation (RAG) has been empirically shown to enhance the performance of large language models (LLMs) in knowledge-intensive domains such as healthcare, finance, and legal contexts. Given a query, RAG retrieves relevant documents from a corpus and integrates them into the LLMs' generation process. In this study, we investigate the adversarial robustness of RAG, focusing specifically on examining the retrieval system. First, across 225 different setup combinations of corpus, retriever, query, and targeted information, we show that retrieval systems are vulnerable to universal poisoning attacks in medical Q\&A. In such attacks, adversaries generate poisoned documents containing a broad spectrum of targeted information, such as personally identifiable information. When these poisoned documents are inserted into a corpus, they can be accurately retrieved by any users, as long as attacker-specified queries are used. To understand this vulnerability, we discovered that the deviation from the query's embedding to that of the poisoned document tends to follow a pattern in which the high similarity between the poisoned document and the query is retained, thereby enabling precise retrieval. Based on these findings, we develop a new detection-based defense to ensure the safe use of RAG. Through extensive experiments spanning various Q\&A domains, we observed that our proposed method consistently achieves excellent detection rates in nearly all cases. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-12 |
# フェイクプライバシを持つ生成データ - 生成されたデータに基づいて、微調整された大規模言語モデルの危険性を隠蔽する
Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data ( http://arxiv.org/abs/2409.11423v1 ) ライセンス: Link先を確認 | Atilla Akkus, Mingjie Li, Junjie Chu, Michael Backes, Yang Zhang, Sinem Sav, | (参考訳) 大規模言語モデル(LLM)は、特に微調整後の領域固有のタスクでかなりの成功を収めている。
しかし、実際のデータによる微調整は通常、特に事前トレーニングデータに微調整サンプルが存在する場合、プライバシー上のリスクにつながる。
実際のデータの欠点を避けるため、開発者はしばしば、従来のモデルによって生成されたデータが実際の関連するデータから遠く離れているため、微調整のために合成データを自動生成する手法を用いる。
しかし、LLMの高度な機能を考えると、実データとLLM生成データの区別は無視されるようになり、実際のデータのようなプライバシー上のリスクにつながる可能性がある。
本稿では、LLM生成データによる微調整によってプライバシーが向上するか、さらなるプライバシーリスクが生じるか」という重要な疑問を調査することで、この未解決問題の実証分析を行う。
本研究は,LLM生成データの構造に基づいて,非構造化データを用いた教師付き微調整と自己インストラクションチューニングという,生成データによる微調整の2つの主要なアプローチに焦点を当てた。
生成されたデータを微調整した後、PII(Personal Information Identifier)によるPII(Personal Information Identifier)抽出が成功した。
さらに、 Pythia-6.9b の ROC-AUC スコアは、自己指示法により、ベースモデルよりも ROC-AUC スコアが 40\% 以上改善されている。
その結果、生成されたデータを微調整する場合、LCMの潜在的なプライバシーリスクが示唆された。
Large language models (LLMs) have shown considerable success in a range of domain-specific tasks, especially after fine-tuning. However, fine-tuning with real-world data usually leads to privacy risks, particularly when the fine-tuning samples exist in the pre-training data. To avoid the shortcomings of real data, developers often employ methods to automatically generate synthetic data for fine-tuning, as data generated by traditional models are often far away from the real-world pertaining data. However, given the advanced capabilities of LLMs, the distinction between real data and LLM-generated data has become negligible, which may also lead to privacy risks like real data. In this paper, we present an empirical analysis of this underexplored issue by investigating a key question: "Does fine-tuning with LLM-generated data enhance privacy, or does it pose additional privacy risks?" Based on the structure of LLM's generated data, our research focuses on two primary approaches to fine-tuning with generated data: supervised fine-tuning with unstructured generated data and self-instruct tuning. The number of successful Personal Information Identifier (PII) extractions for Pythia after fine-tuning our generated data raised over $20\%$. Furthermore, the ROC-AUC score of membership inference attacks for Pythia-6.9b after self-instruct methods also achieves more than $40\%$ improvements on ROC-AUC score than base models. The results indicate the potential privacy risks in LLMs when fine-tuning with the generated data. | 翻訳日:2024-09-19 22:12:27 公開日:2024-09-12 |
# オピニオン形成に向けて:ボットとユーザインタラクションにおける深層強化学習アプローチ
Towards Opinion Shaping: A Deep Reinforcement Learning Approach in Bot-User Interactions ( http://arxiv.org/abs/2409.11426v1 ) ライセンス: Link先を確認 | Farbod Siahkali, Saba Samadi, Hamed Kebriaei, | (参考訳) 本稿では,SBCM(Stochastic bounded Confidence Model)に着目し,ユーザ-ボットインタラクションによるソーシャルネットワークアルゴリズムの干渉の影響について検討する。
本稿では,エージェントが制御するボットをネットワークに配置する手法と,広告予算で運用するさまざまな状況下でのターゲット広告の2つのアプローチについて検討する。
本研究は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムと、その変種を統合して、異なるDeep Reinforcement Learning (DRL)を実験する。
最後に, この手法がソーシャルプラットフォームに広告資源を配置する可能性を示す, 効果的な意見形成をもたらすことを示す実験結果が得られた。
This paper aims to investigate the impact of interference in social network algorithms via user-bot interactions, focusing on the Stochastic Bounded Confidence Model (SBCM). This paper explores two approaches: positioning bots controlled by agents into the network and targeted advertising under various circumstances, operating with an advertising budget. This study integrates the Deep Deterministic Policy Gradient (DDPG) algorithm and its variants to experiment with different Deep Reinforcement Learning (DRL). Finally, experimental results demonstrate that this approach can result in efficient opinion shaping, indicating its potential in deploying advertising resources on social platforms. | 翻訳日:2024-09-19 22:12:27 公開日:2024-09-12 |
# LogoRA:ロバスト時系列分類のための局所言語表現アライメント
LogoRA: Local-Global Representation Alignment for Robust Time Series Classification ( http://arxiv.org/abs/2409.12169v1 ) ライセンス: Link先を確認 | Huanyu Zhang, Yi-Fan Zhang, Zhang Zhang, Qingsong Wen, Liang Wang, | (参考訳) 時系列の教師なしドメイン適応(UDA)は、予測精度を維持し、新しいドメインに効果的に適応できるドメイン固有の違いを無視して、様々な時間的シナリオにまたがる一貫性のあるパターンを特定するモデルを教えることを目的としている。
しかし,既存のUDA手法は時系列データにおけるグローバル特徴とローカル特徴の両方を適切に抽出・整合させることに苦慮している。
この問題に対処するために,マルチスケールの畳み込み分岐とパッチ変換分岐からなる2分岐エンコーダを用いたLogoRA(LogoRA)を提案する。
エンコーダは、時系列から局所表現と大域表現の両方を抽出することができる。
融合モジュールはこれらの表現を統合するために導入され、マルチスケールの観点からドメイン不変の機能アライメントが強化される。
効果的なアライメントを実現するため、LogoRAでは、ソースドメイン上の不変機能学習(invariant feature learning)のような戦略を採用し、細かなアライメントと動的時間ワープベースの機能アライメントに三重項損失を利用する。
さらに、逆トレーニングとクラスごとのプロトタイプアライメントによって、ソースとターゲットのドメインギャップを低減する。
4つの時系列データセットに対する評価は、LogoRAが最大12.52\%の強いベースラインを上回り、時系列UDAタスクにおいてその優位性を示していることを示している。
Unsupervised domain adaptation (UDA) of time series aims to teach models to identify consistent patterns across various temporal scenarios, disregarding domain-specific differences, which can maintain their predictive accuracy and effectively adapt to new domains. However, existing UDA methods struggle to adequately extract and align both global and local features in time series data. To address this issue, we propose the Local-Global Representation Alignment framework (LogoRA), which employs a two-branch encoder, comprising a multi-scale convolutional branch and a patching transformer branch. The encoder enables the extraction of both local and global representations from time series. A fusion module is then introduced to integrate these representations, enhancing domain-invariant feature alignment from multi-scale perspectives. To achieve effective alignment, LogoRA employs strategies like invariant feature learning on the source domain, utilizing triplet loss for fine alignment and dynamic time warping-based feature alignment. Additionally, it reduces source-target domain gaps through adversarial training and per-class prototype alignment. Our evaluations on four time-series datasets demonstrate that LogoRA outperforms strong baselines by up to $12.52\%$, showcasing its superiority in time series UDA tasks. | 翻訳日:2024-09-19 16:21:44 公開日:2024-09-12 |
# Sigma: マルチモーダルセマンティックセマンティックセグメンテーションのためのSamese Mamba Network
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation ( http://arxiv.org/abs/2404.04256v2 ) ライセンス: Link先を確認 | Zifu Wan, Pingping Zhang, Yuhao Wang, Silong Yong, Simon Stepputtis, Katia Sycara, Yaqi Xie, | (参考訳) マルチモーダルセマンティックセグメンテーションはAIエージェントの認識とシーン理解を大幅に強化する。
従来のRGBと並行して熱や深度といった追加のモダリティ(X-モダリティ)を活用することで、より堅牢で信頼性の高い予測が可能になる。
本研究では,先進マンバを用いたマルチモーダルセマンティックセマンティックセグメンテーションのためのシームズ・マンバネットワークであるSigmaを紹介する。
局所受容場に制限がある従来のCNNや、2次複雑性の犠牲で世界受容場を提供するビジョントランスフォーマ(ViT)とは異なり、我々のモデルは線形複雑度で世界受容場を実現する。
シームズエンコーダを用いて,マンバをベースとした核融合機構を革新することにより,異なるモーダルから重要な情報を効果的に選択する。
次にデコーダを開発し、モデルのチャネルワイド・モデリング能力を向上する。
提案手法はRGB-ThermalとRGB-Depthのセマンティックセマンティックセグメンテーションタスクにおいて厳密に評価され,その優位性を実証し,マルチモーダル認識タスクにおけるステートスペースモデル(SSM)の初成功例を示す。
コードはhttps://github.com/zifuwan/Sigma.comで入手できる。
Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable prediction. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation utilizing the advanced Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields with linear complexity. By employing a Siamese encoder and innovating a Mamba-based fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our proposed method is rigorously evaluated on both RGB-Thermal and RGB-Depth semantic segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-12 |
# meds_reader: 高速で効率的なEHR処理ライブラリ
meds_reader: A fast and efficient EHR processing library ( http://arxiv.org/abs/2409.09095v1 ) ライセンス: Link先を確認 | Ethan Steinberg, Michael Wornow, Suhana Bedi, Jason Alan Fries, Matthew B. A. McDermott, Nigam H. Shah, | (参考訳) 医療における機械学習の需要の増加は、ますます大きな電子健康記録(EHR)データセットを処理する必要があるが、既存のパイプラインは計算効率が良く、スケーラブルではない。
本稿では,効率的なEHRデータ処理のために最適化されたPythonパッケージであるmeds_readerを紹介する。
次に、主要な2つのEHR処理パイプラインのキーコンポーネントを再実装し、メモリ、スピード、ディスク使用率を10~100倍改善することで、meds_readerの利点を実証する。
meds_readerのコードはhttps://github.com/som-shahlab/meds_readerにある。
The growing demand for machine learning in healthcare requires processing increasingly large electronic health record (EHR) datasets, but existing pipelines are not computationally efficient or scalable. In this paper, we introduce meds_reader, an optimized Python package for efficient EHR data processing that is designed to take advantage of many intrinsic properties of EHR data for improved speed. We then demonstrate the benefits of meds_reader by reimplementing key components of two major EHR processing pipelines, achieving 10-100x improvements in memory, speed, and disk usage. The code for meds_reader can be found at https://github.com/som-shahlab/meds_reader. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-12 |
# リー群とその同次空間上の定常核とガウス過程 I:コンパクトケース
Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the compact case ( http://arxiv.org/abs/2208.14960v4 ) ライセンス: Link先を確認 | Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy, | (参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。
彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。
多くの応用、特に物理科学や工学において、また地理統計学や神経科学などの分野では、対称性への不変性は、考慮できる事前情報の最も基本的な形態の1つである。
そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。
本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。
私たちの技術はそれを可能にします
(i)共分散カーネルを計算し、
(ii)そのような空間上で定義された前ガウス過程と後ガウス過程のサンプルは、どちらも実際的な方法で定義される。
この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。
我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。
Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners. | 翻訳日:2024-09-17 00:06:41 公開日:2024-09-12 |
# 難易度推定による言語モデルにおけるデミスティフィケーションプロンプ
Demystifying Prompts in Language Models via Perplexity Estimation ( http://arxiv.org/abs/2212.04037v2 ) ライセンス: Link先を確認 | Hila Gonen, Srini Iyer, Terra Blevins, Noah A. Smith, Luke Zettlemoyer, | (参考訳) 言語モデルは、さまざまなゼロショットと少数ショットの学習問題を実行するように促すことができる。
しかし、パフォーマンスはプロンプトの選択によって大きく異なり、なぜこれが起きているのか、どのようにベストなプロンプトを選択するのかはまだ分かっていません。
本研究では、この分散に寄与する要因を分析し、新しい経験的仮説を確立する。
幅広いタスクにおいて、プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
その結果,(1)手書きプロンプトの小さなシードセットを GPT3 とバックトランスレーションを用いて言い換えることで自動的に拡張し,(2) 性能において最も低いパープレキシティプロンプトを選択して顕著な利得を得る,というプロンプトを生成する方法が考案された。
Language models can be prompted to perform a wide variety of zero- and few-shot learning problems. However, performance varies significantly with the choice of prompt, and we do not yet understand why this happens or how to pick the best prompts. In this work, we analyze the factors that contribute to this variance and establish a new empirical hypothesis: the performance of a prompt is coupled with the extent to which the model is familiar with the language it contains. Over a wide range of tasks, we show that the lower the perplexity of the prompt is, the better the prompt is able to perform the task. As a result, we devise a method for creating prompts: (1) automatically extend a small seed set of manually written prompts by paraphrasing using GPT3 and backtranslation and (2) choose the lowest perplexity prompts to get significant gains in performance. | 翻訳日:2024-09-17 00:06:41 公開日:2024-09-12 |
# リー群とその同次空間上の定常核とガウス過程 II:非コンパクト対称空間
Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces II: non-compact symmetric spaces ( http://arxiv.org/abs/2301.13088v4 ) ライセンス: Link先を確認 | Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy, | (参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。
彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。
多くの応用、特に物理科学や工学において、また地理統計学や神経科学などの分野では、対称性への不変性は、考慮できる事前情報の最も基本的な形態の1つである。
そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。
本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。
私たちの技術はそれを可能にします
(i)共分散カーネルを計算し、
(ii)そのような空間上で定義された前ガウス過程と後ガウス過程のサンプルは、どちらも実際的な方法で定義される。
この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。
我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。
Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners. | 翻訳日:2024-09-16 23:56:50 公開日:2024-09-12 |
# モロッコ方言の知覚分析データセット:アラビア方言とラテン方言のギャップを埋める
Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect ( http://arxiv.org/abs/2303.15987v3 ) ライセンス: Link先を確認 | Mouad Jbel, Mourad Jabrane, Imad Hafidi, Abdulmutallib Metrane, | (参考訳) 感情や意見をテキストで表現する自動的プロセスである感性分析は、自然言語処理の分野で広く研究されてきた。
しかし、まだ表現されていない側面の1つはモロッコ方言の感情分析であり、独特な言語的景観と複数の文字の共存を誇っている。
感情分析における以前の研究は主にアラビア文字を用いた方言を対象としていた。
これらの取り組みは貴重な洞察を与えたが、アラビア文字とラテン文字の混在を特徴とするモロッコのウェブコンテンツの複雑さを完全には捉えていないかもしれない。
その結果,モロッコの言語多様性のスペクトル全体を網羅する感情分析の拡張の重要性が示唆された。
我々の研究の中心は、モロッコ方言の感情分析のための最大の公開データセットの作成であり、アラビア語の文字だけでなくラテン文字で書かれたモロッコ方言も含んでいる。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストと、モロッコ方言で利用可能な停止語のリストを構築できた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
プリプロセッシングステップの重要性を示すために、生データと前処理データの両方を用いて実験を行った。
私たちはモデルで92%の精度を達成でき、その負債をさらに証明するために、モロッコ方言のより小さな公開データセットでモデルをテストしました。
Sentiment analysis, the automated process of determining emotions or opinions expressed in text, has seen extensive exploration in the field of natural language processing. However, one aspect that has remained underrepresented is the sentiment analysis of the Moroccan dialect, which boasts a unique linguistic landscape and the coexistence of multiple scripts. Previous works in sentiment analysis primarily targeted dialects employing Arabic script. While these efforts provided valuable insights, they may not fully capture the complexity of Moroccan web content, which features a blend of Arabic and Latin script. As a result, our study emphasizes the importance of extending sentiment analysis to encompass the entire spectrum of Moroccan linguistic diversity. Central to our research is the creation of the largest public dataset for Moroccan dialect sentiment analysis that incorporates not only Moroccan dialect written in Arabic script but also in Latin letters. By assembling a diverse range of textual data, we were able to construct a dataset with a range of 20 000 manually labeled text in Moroccan dialect and also publicly available lists of stop words in Moroccan dialect. To dive into sentiment analysis, we conducted a comparative study on multiple Machine learning models to assess their compatibility with our dataset. Experiments were performed using both raw and preprocessed data to show the importance of the preprocessing step. We were able to achieve 92% accuracy in our model and to further prove its liability we tested our model on smaller publicly available datasets of Moroccan dialect and the results were favorable. | 翻訳日:2024-09-16 23:56:50 公開日:2024-09-12 |
# 捕捉されたイオンテストベッド上の誤差緩和、最適化、および外挿
Error mitigation, optimization, and extrapolation on a trapped ion testbed ( http://arxiv.org/abs/2307.07027v4 ) ライセンス: Link先を確認 | Oliver G. Maupin, Ashlyn D. Burch, Brandon Ruzic, Christopher G. Yale, Antonio Russo, Daniel S. Lobser, Melissa C. Revelle, Matthew N. Chow, Susan M. Clark, Andrew J. Landahl, Peter J. Love, | (参考訳) 現在のノイズの多い中間スケール量子(NISQ)トラップイオンデバイスは、未確認の場合には計算の精度に大きな影響を及ぼすエラーを受ける。
ゼロノイズ補間(ZNE)と呼ばれる誤差軽減の形式は、必要なキュービット数を増やすことなく、これらのエラーに対するアルゴリズムの感度を低下させることができる。
本稿では, この誤差緩和手法を変分量子固有解法 (VQE) アルゴリズムに統合し, 現実雑音下での0.8アングストロームにおけるHeH+分子の基底状態を計算する方法について検討する。
量子科学計算オープンユーザテストベッド(QSCOUT)トラップイオンデバイスを用いて、2ビットゲートの時間伸長、サイドバンドパラメータのスケーリング、および2ビットゲートの同一性操作をアンザッツ回路に挿入する3つの方法をテストする。
時間ストレッチとサイドバンド振幅のスケーリングは、ノイズをゼロに外挿できる方法で、特定のハードウェア上のノイズをスケールできない。
変分最適化後のグローバルゲートID挿入と外挿によるノイズのスケーリングにより, 化学的精度は低いが, 誤差0.127+-0.008 Hartreeの非エラー緩和推定よりも大幅に改善した。
本手法の有効性は, デバイスアーキテクチャの適切な実装を選択することによる。
Current noisy intermediate-scale quantum (NISQ) trapped-ion devices are subject to errors which can significantly impact the accuracy of calculations if left unchecked. A form of error mitigation called zero noise extrapolation (ZNE) can decrease an algorithm's sensitivity to these errors without increasing the number of required qubits. Here, we explore different methods for integrating this error mitigation technique into the Variational Quantum Eigensolver (VQE) algorithm for calculating the ground state of the HeH+ molecule at 0.8 Angstrom in the presence of realistic noise. Using the Quantum Scientific Computing Open User Testbed (QSCOUT) trapped-ion device, we test three methods of scaling noise for extrapolation: time-stretching the two-qubit gates, scaling the sideband amplitude parameter, and inserting two-qubit gate identity operations into the ansatz circuit. We find time-stretching and sideband amplitude scaling fail to scale the noise on our particular hardware in a way that can be directly extrapolated to zero noise. Scaling our noise with global gate identity insertions and extrapolating after variational optimization, we achieve an estimate of the ground state energy within -0.004 +- 0.04 Hartree; outside chemical accuracy, but greatly improved over our non-error-mitigated estimate with error 0.127 +- 0.008 Hartree. Our results show that the efficacy of this error mitigation technique depends on choosing the correct implementation for a given device architecture. | 翻訳日:2024-09-16 23:56:50 公開日:2024-09-12 |
# 高密度イジング最適化問題のための数個の超伝導量子ビットと数千個のゲートを用いた量子回路の設計と実行
Design and execution of quantum circuits using tens of superconducting qubits and thousands of gates for dense Ising optimization problems ( http://arxiv.org/abs/2308.12423v4 ) ライセンス: Link先を確認 | Filip B. Maciejewski, Stuart Hadfield, Benjamin Hall, Mark Hodson, Maxime Dupont, Bram Evert, James Sud, M. Sohaib Alam, Zhihui Wang, Stephen Jeffrey, Bhuvanesh Sundar, P. Aaron Lott, Shon Grabbe, Eleanor G. Rieffel, Matthew J. Reagor, Davide Venturelli, | (参考訳) 本研究では,各層におけるコストハミルトニアンのすべての相互作用のサブセットをパラメトリズする,既存のアンサツェから派生した,変動最適化のためのハードウェア効率の良いアンサッツを開発する。
ゲートオーダリングを変動パラメータとして扱うことにより,実験において大きな性能向上が期待できる。
我々は,Rigetti Aspen-M-3トランスモンプロセッサの50ビット線形鎖サブシステム上で,完全連結シェリントン・カークパトリック・ハミルトンのコンパイル最適化実装を実験的に実施した。
実験の結果, 高レベルのノイズが存在するにもかかわらず, 最適回路設計において, 最適化角度とゲートオーダーの平均性能は回路深度とともに増大することがわかった。
最大5000個の2量子ビットおよび5000個の1量子ビットネイティブゲートを含む回路において、ランダムな推定オラクルを使用するよりも、性能が大幅に向上したことを報告した。
我々はまた、現在の量子プロセッサと将来の量子プロセッサをより効果的に活用するために、この結果の様々な利点について論じる。
We develop a hardware-efficient ansatz for variational optimization, derived from existing ansatze in the literature, that parametrizes subsets of all interactions in the Cost Hamiltonian in each layer. We treat gate orderings as a variational parameter and observe that doing so can provide significant performance boosts in experiments. We carried out experimental runs of a compilation-optimized implementation of fully-connected Sherrington-Kirkpatrick Hamiltonians on a 50-qubit linear-chain subsystem of Rigetti Aspen-M-3 transmon processor. Our results indicate that, for the best circuit designs tested, the average performance at optimized angles and gate orderings increases with circuit depth (using more parameters), despite the presence of a high level of noise. We report performance significantly better than using a random guess oracle for circuits involving up to approx 5000 two-qubit and approx 5000 one-qubit native gates. We additionally discuss various takeaways of our results toward more effective utilization of current and future quantum processors for optimization. | 翻訳日:2024-09-16 23:56:50 公開日:2024-09-12 |
# 高調波発生における半古典図形の限界について
On the limitations of the semi-classical picture in high harmonic generation ( http://arxiv.org/abs/2308.15087v3 ) ライセンス: Link先を確認 | Philipp Stammer, | (参考訳) 高調波発生過程の量子光学的定式化の最近の進歩は、成功した半古典的モデルがその限界を示す点に達した。
これまでのところ、この過程を駆動する光源は、古典的な画像と一致してレーザーによって提供されると考えられていた。
しかし、量子光学は、光子数状態の明るい励起真空のような古典的な領域を超えた光場を考えることができる。
両方の電界状態は平均的な電界振幅を消失させるが、十分な高強度の高調波放射を発生させる可能性がある。
このことは、半古典的画像の有効範囲に関する新しい疑問を提起し、質問される可能性のある質問の領域を拡張することができる。
The recent progress in the quantum optical formulation of the process of high harmonic generation has reached a point where the successful semi-classical model shows its limitations. So far the light source which drives the process was considered to be provided by a laser, in agreement with the classical picture. However, quantum optics allows to consider light fields beyond the classical realm, such as bright squeezed vacuum of photon number states. Both field states have vanishing mean electric field amplitudes, but can still lead to the generation of high harmonic radiation for sufficiently high intensities. This poses new questions about the range of validity of the semi-classical picture, and allows to extend the domain of questions which could possibly be asked. | 翻訳日:2024-09-16 23:56:50 公開日:2024-09-12 |
# 高調波発生における量子光学コヒーレンスの存在
Absence of quantum optical coherence in high harmonic generation ( http://arxiv.org/abs/2309.05010v4 ) ライセンス: Link先を確認 | Philipp Stammer, | (参考訳) 高調波発生過程における駆動場の光学位相と高調波のコヒーレンス特性は、アト秒物理学における基本的な概念である。
ここでは、未決定光位相を示す古典的および非古典的光場を非コヒーレントにすることにより、その過程を推し進めることを検討する。
これにより、高調波発生に量子光学コヒーレンスの概念を導入し、電場が消滅しても非コヒーレント放射から高調波を発生させることができることを示す。
我々は、キャリアエンベロープ位相不安定場によって駆動されたハーモニクスの量子状態を明確に導き、生成したハーモニクスが不整合であり、電場振幅がゼロであることを示す。
それぞれの高調波の量子状態は光子数ベースでは対角的であるが、それでも広く考慮されているコヒーレント調和波と全く同じ光子統計を持つ。
このことから、コヒーレントな高調波放射を仮定することは、より好ましいアンサンブルの誤認から生じる可能性があると結論付けている。
これらの知見は、アト秒実験と高調波放射特性についてどのように推測するかに大きな影響を及ぼす。
The optical phase of the driving field in the process of high harmonic generation and the coherence properties of the harmonics are fundamental concepts in attosecond physics. Here, we consider to drive the process by incoherent classical and non-classical light fields exhibiting an undetermined optical phase. With this we introduce the notion of quantum optical coherence into high harmonic generation, and show that high harmonics can be generated from incoherent radiation despite having a vanishing electric field. We explicitly derive the quantum state of the harmonics when driven by carrier-envelope phase unstable fields and show that the generated harmonics are incoherent and exhibiting zero electric field amplitudes. We find that the quantum state of each harmonic is diagonal in its photon number basis, but nevertheless has the exact same photon statistics as the widely considered coherent harmonics. From this we conclude that assuming coherent harmonic radiation can originate from a preferred ensemble fallacy. These findings have profound implications for attosecond experiments and how to infer about the harmonic radiation properties. | 翻訳日:2024-09-16 23:47:01 公開日:2024-09-12 |
# 自己改善を暗黙的に学習する言語モデルの構築
Enabling Language Models to Implicitly Learn Self-Improvement ( http://arxiv.org/abs/2310.00898v4 ) ライセンス: Link先を確認 | Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji, | (参考訳) 大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
しかし、これらのタスクの本質的なオープンエンドな性質は、モデル応答の品質を常に改善する余地があることを暗示している。
この課題に対処するため、LLMの性能を高めるために様々なアプローチが提案されている。
LLMが応答品質を自己改善することに注力し、多種多様な高品質のトレーニングデータを集めるための広範囲な人的アノテーションへの依存を減らしている。
近年, その有効性, 効率, 利便性などにより, 自己改善手法としてプロンプトベースの手法が広く研究されている。
しかしながら、これらの手法は通常、LSMへの入力として明示的に完全に記述されたルーブリックを必要とする。
改善のための現実の複雑な目標(例えば、より有用で有害でないもの)を、手動で引き起こし、すべての必要なルーリックを提供することは、高価で難しい。
この目的のために,人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
PITは、人間の余分な努力なしに報酬モデルのトレーニングに使用される好みデータのみを必要とする。
具体的には、人間のフィードバック(RLHF)からの強化学習のトレーニング目標を、与えられた入力に対する応答品質を最大化する代わりに、参照応答に条件付けられた応答の質的ギャップを最大化する。
このようにして、PITは人間の好みに合わせた改善目標を暗黙的に訓練する。
実世界の2つのデータセットと1つの合成データセットを用いた実験により,本手法がプロンプトベース手法よりも優れていることが示された。
Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) -- instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods. | 翻訳日:2024-09-16 23:47:01 公開日:2024-09-12 |
# 非凸確率勾配における非調整一般化ハミルトンモンテカルロの反射結合
Reflection coupling for unadjusted generalized Hamiltonian Monte Carlo in the nonconvex stochastic gradient case ( http://arxiv.org/abs/2310.18774v3 ) ライセンス: Link先を確認 | Martin Chak, Pierre Monmarché, | (参考訳) ワッサーシュタイン 1-距離の明示的な速度での縮約は、非凸条件下で確率勾配を持つ一般化ハミルトニアン・モンテカルロに対して成立する。
検討されたアルゴリズムは、分子動力学シミュレーションで一般的に使用される動力学ランゲヴィン拡散の分割スキームを含む。
チェーンに存在する慣性に対応する縮退ノイズ構造に対応するために、特性的に離散時間結合と収縮証明を考案する。
その結果、定量的ガウス濃度境界は経験的平均に対して与えられる。
ワッサーシュタインの2次元距離と全変動の収束性も、数値バイアス推定とともに与えられる。
Contraction in Wasserstein 1-distance with explicit rates is established for generalized Hamiltonian Monte Carlo with stochastic gradients under possibly nonconvex conditions. The algorithms considered include splitting schemes of kinetic Langevin diffusion commonly used in molecular dynamics simulations. To accommodate the degenerate noise structure corresponding to inertia existing in the chain, a characteristically discrete-in-time coupling and contraction proof is devised. As consequence, quantitative Gaussian concentration bounds are provided for empirical averages. Convergence in Wasserstein 2-distance and total variation are also given, together with numerical bias estimates. | 翻訳日:2024-09-16 23:47:01 公開日:2024-09-12 |
# 圧縮型オートエンコーダを用いた変分ベイズ画像復元
Variational Bayes image restoration with compressive autoencoders ( http://arxiv.org/abs/2311.17744v3 ) ライセンス: Link先を確認 | Maud Biquard, Marie Chabert, Florence Genin, Christophe Latry, Thomas Oberlin, | (参考訳) 逆問題の正規化は、計算イメージングにおいて最重要となる。
ニューラルネットワークが効率的な画像表現を学習する能力は、最近、強力なデータ駆動型正規化器の設計に活用されている。
最先端のプラグ・アンド・プレイ法はニューラルデノイザによって提供される暗黙の正則化に依存しているが、代替ベイズ的手法では、生成モデルの潜在空間における最大Aポストエリオーリ(MAP)推定を明示的な正則化とみなす。
しかし、最先端の深層生成モデルは、デノイザーに比べて膨大な量のトレーニングデータを必要とする。
さらに、その複雑さは、潜在MAPの導出に関わる最適化を妨げている。
本研究では,まず圧縮型オートエンコーダを提案する。
これらのネットワークは、フレキシブルな潜在性を持つ可変オートエンコーダと見なすことができ、最先端の生成モデルよりも小さく、訓練が容易である。
第2の貢献として、変分推論の枠組み内で潜時推定を行う変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
画像データセット BSD と FFHQ の実験結果によると、VBLE は最先端のプラグ・アンド・プレイ法と同等の性能を示しながら、既存の後方サンプリング技術よりもはるかに高速に不確実性を定量化することができる。
Regularization of inverse problems is of paramount importance in computational imaging. The ability of neural networks to learn efficient image representations has been recently exploited to design powerful data-driven regularizers. While state-of-the-art plug-and-play methods rely on an implicit regularization provided by neural denoisers, alternative Bayesian approaches consider Maximum A Posteriori (MAP) estimation in the latent space of a generative model, thus with an explicit regularization. However, state-of-the-art deep generative models require a huge amount of training data compared to denoisers. Besides, their complexity hampers the optimization involved in latent MAP derivation. In this work, we first propose to use compressive autoencoders instead. These networks, which can be seen as variational autoencoders with a flexible latent prior, are smaller and easier to train than state-of-the-art generative models. As a second contribution, we introduce the Variational Bayes Latent Estimation (VBLE) algorithm, which performs latent estimation within the framework of variational inference. Thanks to a simple yet efficient parameterization of the variational posterior, VBLE allows for fast and easy (approximate) posterior sampling.Experimental results on image datasets BSD and FFHQ demonstrate that VBLE reaches similar performance than state-of-the-art plug-and-play methods, while being able to quantify uncertainties significantly faster than other existing posterior sampling techniques. | 翻訳日:2024-09-16 23:47:01 公開日:2024-09-12 |
# 物質科学のための量子中心型スーパーコンピュータ : 課題と今後の展望
Quantum-centric Supercomputing for Materials Science: A Perspective on Challenges and Future Directions ( http://arxiv.org/abs/2312.09733v2 ) ライセンス: Link先を確認 | Yuri Alexeev, Maximilian Amsler, Paul Baity, Marco Antonio Barroca, Sanzio Bassini, Torey Battelle, Daan Camps, David Casanova, Young Jai Choi, Frederic T. Chong, Charles Chung, Chris Codella, Antonio D. Corcoles, James Cruise, Alberto Di Meglio, Jonathan Dubois, Ivan Duran, Thomas Eckl, Sophia Economou, Stephan Eidenbenz, Bruce Elmegreen, Clyde Fare, Ismael Faro, Cristina Sanz Fernández, Rodrigo Neumann Barros Ferreira, Keisuke Fuji, Bryce Fuller, Laura Gagliardi, Giulia Galli, Jennifer R. Glick, Isacco Gobbi, Pranav Gokhale, Salvador de la Puente Gonzalez, Johannes Greiner, Bill Gropp, Michele Grossi, Emanuel Gull, Burns Healy, Benchen Huang, Travis S. Humble, Nobuyasu Ito, Artur F. Izmaylov, Ali Javadi-Abhari, Douglas Jennewein, Shantenu Jha, Liang Jiang, Barbara Jones, Wibe Albert de Jong, Petar Jurcevic, William Kirby, Stefan Kister, Masahiro Kitagawa, Joel Klassen, Katherine Klymko, Kwangwon Koh, Masaaki Kondo, Doga Murat Kurkcuoglu, Krzysztof Kurowski, Teodoro Laino, Ryan Landfield, Matt Leininger, Vicente Leyton-Ortega, Ang Li, Meifeng Lin, Junyu Liu, Nicolas Lorente, Andre Luckow, Simon Martiel, Francisco Martin-Fernandez, Margaret Martonosi, Claire Marvinney, Arcesio Castaneda Medina, Dirk Merten, Antonio Mezzacapo, Kristel Michielsen, Abhishek Mitra, Tushar Mittal, Kyungsun Moon, Joel Moore, Mario Motta, Young-Hye Na, Yunseong Nam, Prineha Narang, Yu-ya Ohnishi, Daniele Ottaviani, Matthew Otten, Scott Pakin, Vincent R. Pascuzzi, Ed Penault, Tomasz Piontek, Jed Pitera, Patrick Rall, Gokul Subramanian Ravi, Niall Robertson, Matteo Rossi, Piotr Rydlichowski, Hoon Ryu, Georgy Samsonidze, Mitsuhisa Sato, Nishant Saurabh, Vidushi Sharma, Kunal Sharma, Soyoung Shin, George Slessman, Mathias Steiner, Iskandar Sitdikov, In-Saeng Suh, Eric Switzer, Wei Tang, Joel Thompson, Synge Todo, Minh Tran, Dimitar Trenev, Christian Trott, Huan-Hsin Tseng, Esin Tureci, David García Valinas, Sofia Vallecorsa, Christopher Wever, Konrad Wojciechowski, Xiaodi Wu, Shinjae Yoo, Nobuyuki Yoshioka, Victor Wen-zhe Yu, Seiji Yunoki, Sergiy Zhuk, Dmitry Zubarev, | (参考訳) 計算モデルは、新しい材料の設計、評価、発見に不可欠なツールである。
材料科学におけるハードな計算タスクは、既存の高性能スーパーコンピュータセンターの限界を延長し、そのシミュレーション、分析、データ資源の多くを消費する。
一方、量子コンピューティングは、材料科学に必要な多くの計算タスクを加速する可能性を持つ新興技術である。
そのためには、量子技術は、近似結果の検証、難題の同定、量子中心のスーパーコンピュータにおけるシナジーなど、従来の高性能コンピューティングと相互作用する必要がある。
本稿では,量子中心型スーパーコンピュータが材料科学における重要な計算問題,代表的なユースケースを解決するために直面する課題,そして提案する新たな方向性について考察する。
Computational models are an essential tool for the design, characterization, and discovery of novel materials. Hard computational tasks in materials science stretch the limits of existing high-performance supercomputing centers, consuming much of their simulation, analysis, and data resources. Quantum computing, on the other hand, is an emerging technology with the potential to accelerate many of the computational tasks needed for materials science. In order to do that, the quantum technology must interact with conventional high-performance computing in several ways: approximate results validation, identification of hard problems, and synergies in quantum-centric supercomputing. In this paper, we provide a perspective on how quantum-centric supercomputing can help address critical computational problems in materials science, the challenges to face in order to solve representative use cases, and new suggested directions. | 翻訳日:2024-09-16 23:47:01 公開日:2024-09-12 |
# ジェネレーティブゴースト:AIアフターリーブのメリットとリスクを予想する
Generative Ghosts: Anticipating Benefits and Risks of AI Afterlives ( http://arxiv.org/abs/2402.01662v3 ) ライセンス: Link先を確認 | Meredith Ringel Morris, Jed R. Brubaker, | (参考訳) AIシステムは、パフォーマンスの幅と深さの両方を急速に改善するので、特定の人物をモデルにしたエージェントの可能性を含む、ますます強力で現実的なエージェントを作るのに役立ちます。
私たちは、生涯のうちに、愛する人や、死後の世界と対話するカスタムAIエージェントを作るのが一般的になるかもしれないと予測しています。
このようなエージェントは、創造者が生み出したコンテンツを単にパーローするだけでなく、新しいコンテンツを生成できるからです。
本稿では,AIアフターリーブ技術の歴史を振り返り,個々の愛好家やスタートアップ企業が生成ゴーストを創りだそうとする初期の試みを含める。
次に、生成ゴーストの潜在的な実装を詳述した新しいデザイン空間を導入し、この分類学を用いて、生成ゴーストをデザインするための様々なアプローチの実践的および倫理的含意について、個人や社会に対する潜在的肯定的および否定的な影響を含む議論を行う。
これらの考察に基づき、我々は、AIとHCI研究コミュニティのための研究課題を策定し、この新技術のリスク/利益の展望をよりよく理解し、最終的にAIの後遺物を創造し、対話し、安全かつ有益な方法でそれをすることを望む人々に力を与えます。
As AI systems quickly improve in both breadth and depth of performance, they lend themselves to creating increasingly powerful and realistic agents, including the possibility of agents modeled on specific people. We anticipate that within our lifetimes it may become common practice for people to create a custom AI agent to interact with loved ones and/or the broader world after death; indeed, the past year has seen a boom in startups purporting to offer such services. We call these "generative ghosts," since such agents will be capable of generating novel content rather than merely parroting content produced by their creator while living. In this paper, we reflect on the history of technologies for AI afterlives, including current early attempts by individual enthusiasts and by startup companies to create generative ghosts. We then introduce a novel design space detailing potential implementations of generative ghosts, and use this taxonomy to ground discussion of the practical and ethical implications of various approaches to designing generative ghosts, including potential positive and negative impacts on individuals and society. Based on these considerations, we lay out a research agenda for the AI and HCI research communities to better understand the risk/benefit landscape of this novel technology so as to ultimately empower people who wish to create and interact with AI afterlives to do so in a safe and beneficial manner. | 翻訳日:2024-09-16 23:37:02 公開日:2024-09-12 |
# 大規模言語モデルとゲーム: 調査とロードマップ
Large Language Models and Games: A Survey and Roadmap ( http://arxiv.org/abs/2402.18659v3 ) ライセンス: Link先を確認 | Roberto Gallotta, Graham Todd, Marvin Zammit, Sam Earle, Antonios Liapis, Julian Togelius, Georgios N. Yannakakis, | (参考訳) 近年、大型言語モデル(LLM)の研究が爆発的に増加し、この話題に対する公的な関与が伴っている。
自然言語処理におけるニッチな領域として始まったが、LLMはゲームを含む幅広いアプリケーションや領域で顕著なポテンシャルを示してきた。
本稿では,ゲームにおけるLLMの様々な応用における現状を調査し,ゲーム内でLLMが果たす役割について述べる。
ここでは,ゲーム分野におけるLLMの潜在的な可能性と限界を整理し,ゲーム分野におけるLLMの今後の活用に向けた未探索領域と将来的な方向性について論じる。
LLMとゲームの交差点における最初の総合的な調査とロードマップとして、このエキサイティングな新しい分野において、この論文が画期的な研究とイノベーションの基礎となることを期待する。
Recent years have seen an explosive increase in research on large language models (LLMs), and accompanying public engagement on the topic. While starting as a niche area within natural language processing, LLMs have shown remarkable potential across a broad range of applications and domains, including games. This paper surveys the current state of the art across the various applications of LLMs in and for games, and identifies the different roles LLMs can take within a game. Importantly, we discuss underexplored areas and promising directions for future uses of LLMs in games and we reconcile the potential and limitations of LLMs within the games domain. As the first comprehensive survey and roadmap at the intersection of LLMs and games, we are hopeful that this paper will serve as the basis for groundbreaking research and innovation in this exciting new field. | 翻訳日:2024-09-16 23:37:02 公開日:2024-09-12 |
# フィードバックからのパラメータ効率の良い強化学習
Parameter Efficient Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2403.10704v2 ) ライセンス: Link先を確認 | Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Simral Chaudhary, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon, | (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、事前訓練されたLarge Language and Vision-Language Models (LLMs, VLMs) と人間の嗜好を効果的に一致させるが、その計算コストと複雑さは、その普及を妨げている。
微調整の計算負担を軽減するため、LoRAのようなパラメータ効率の良い手法が導入された。
本研究では,リワードモデリングや強化学習にLoRAファインタニングを活用したパラメータ有効強化学習(PE-RLHF)のセットアップを実証的に評価する。
PE-RLHFセットアップを、要約、無害/重大な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットに対して、トレーニングされたモデルの有効性、必要なトレーニングリソースについてベンチマークする。
その結果,PE-RLHFはRLHFと同等の性能を示し,トレーニング時間(報酬モデルでは最大90%,RLでは30%,メモリフットプリント(報酬モデルでは最大50%,RLでは27%)を大幅に短縮した。
報奨モデルと強化学習の両方のためのモデルサイズを,LoRAのランクにまたがる包括的改善を提供する。
RLHFの計算負担を軽減することにより,LLMやVLMのアライメント技術として,PE-RLHFの広範な採用を推し進める。
While Reinforcement Learning from Human Feedback (RLHF) effectively aligns pretrained Large Language and Vision-Language Models (LLMs, and VLMs) with human preferences, its computational cost and complexity hamper its wider adoption. To alleviate some of the computational burden of fine-tuning, parameter efficient methods, like LoRA were introduced. In this work, we empirically evaluate the setup of Parameter Efficient Reinforcement Learning from Human Feedback (PE-RLHF) that leverages LoRA fine-tuning for Reward Modeling, and Reinforcement Learning. We benchmark the PE-RLHF setup on six diverse datasets spanning summarization, harmless/helpful response generation, UI automation, and visual question answering in terms of effectiveness of the trained models, and the training resources required. Our findings show, for the first time, that PE-RLHF achieves comparable performance to RLHF, while significantly reducing training time (up to 90% faster for reward models, and 30% faster for RL), and memory footprint (up to 50% reduction for reward models, and 27% for RL). We provide comprehensive ablations across LoRA ranks, and model sizes for both reward modeling and reinforcement learning. By mitigating the computational burden associated with RLHF, we push for a broader adoption of PE-RLHF as an alignment technique for LLMs and VLMs. | 翻訳日:2024-09-16 23:27:08 公開日:2024-09-12 |
# 大規模言語モデルの推論能力:抽象と推論コーパスの詳細な分析
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus ( http://arxiv.org/abs/2403.11793v2 ) ライセンス: Link先を確認 | Seungpil Lee, Woochang Sim, Donghyeon Shin, Wongyu Seo, Jiwon Park, Seokki Lee, Sanha Hwang, Sejin Kim, Sundong Kim, | (参考訳) 大規模言語モデル(LLM)の推論能力を評価する既存の手法は結果中心であり,推論プロセスの評価が困難である。
プロセス中心の方法で大規模言語モデルの推論と文脈理解能力を評価するために,ARCデータセットを用いた新しい手法を提案する。
ARCは問題解決のために厳密な論理構造を必要としており、モデル推論能力と人間の比較を容易にするベンチマークである。
実験の結果、大きな言語モデルは推論能力が弱いが、論理的一貫性、構成性、生産性の点でまだ遅れていることが明らかとなった。
実験では,LLMの推論能力を強調し,人間レベルの推論を実現するための開発経路を提案する。
The existing methods for evaluating the inference abilities of Large Language Models (LLMs) have been results-centric, making it difficult to assess the inference process. We introduce a new approach using the Abstraction and Reasoning Corpus (ARC) dataset to evaluate the inference and contextual understanding abilities of large language models in a process-centric manner. ARC demands rigorous logical structures for problem-solving, making it a benchmark that facilitates the comparison of model inference abilities with humans. Experimental results confirm that while large language models possess weak inference abilities, they still lag in terms of logical coherence, compositionality, and productivity. Our experiments highlight the reasoning capabilities of LLMs, proposing development paths for achieving human-level reasoning. | 翻訳日:2024-09-16 23:27:08 公開日:2024-09-12 |
# リカレントニューラルネットワークを用いた土地表面モデルにおける河川水のルーティングに向けて
Toward Routing River Water in Land Surface Models with Recurrent Neural Networks ( http://arxiv.org/abs/2404.14212v3 ) ライセンス: Link先を確認 | Mauricio Lima, Katherine Deck, Oliver R. A. Dunbar, Tapio Schneider, | (参考訳) 機械学習は、物理ベースのモデルを補う、または置き換えるなど、水文学においてますます重要な役割を担っている。
注目すべき例として、観測された降水量と地理的特性からストリームフローを予測するために、リカレントニューラルネットワーク(RNN)を使用することが挙げられる。
大陸アメリカ(CONUS)におけるそのようなモデルの訓練は、独立した捕食で1組のモデルパラメータを使用できること、RNNが物理学に基づくモデルより優れていることを実証した。
本研究では,ランドサーフェスモデル(LSM)における河川ルーティングのためのRNNの性能について検討する。
観測された降水の代わりに、LSM-RNNは物理モデルから計算された瞬時流出を入力として使用する。
我々は、地球にまたがる河川流域のデータを用いてモデルを訓練し、流れのヒンドキャストでテストする。
このモデルは、盆地(訓練に使用されていない漁獲量におけるストリームフローの予測)と時間(訓練に使用されていない数年間のストリームフローの予測)をまたいだ一般化のスキルを示す。
LSM-RNNの予測と、類似したデータセットで校正された既存の物理モデルを比較し、LSM-RNNが物理ベースモデルより優れていることを確かめる。
以上の結果から,RNNはアウトオブインプットからグローバルなストリームフロー予測に有効であり,ネストしたサブバス接続を捕捉できる完全なルーティングモデルの開発を動機付けていることがわかった。
Machine learning is playing an increasing role in hydrology, supplementing or replacing physics-based models. One notable example is the use of recurrent neural networks (RNNs) for forecasting streamflow given observed precipitation and geographic characteristics. Training of such a model over the continental United States (CONUS) demonstrated that a single set of model parameters can be used across independent catchments, and that RNNs can outperform physics-based models. In this work, we take a next step and study the performance of RNNs for river routing in land surface models (LSMs). Instead of observed precipitation, the LSM-RNN uses instantaneous runoff calculated from physics-based models as an input. We train the model with data from river basins spanning the globe and test it in streamflow hindcasts. The model demonstrates skill at generalization across basins (predicting streamflow in catchments not used in training) and across time (predicting streamflow during years not used in training). We compare the predictions from the LSM-RNN to an existing physics-based model calibrated with a similar dataset and find that the LSM-RNN outperforms the physics based model. Our results show that RNNs are effective for global streamflow prediction from runoff inputs and motivate the development of complete routing models that can capture nested sub-basis connections. | 翻訳日:2024-09-16 23:17:21 公開日:2024-09-12 |
# 大規模言語モデルの敵対的ロバスト性の評価 : 実証的研究
Assessing Adversarial Robustness of Large Language Models: An Empirical Study ( http://arxiv.org/abs/2405.02764v2 ) ライセンス: Link先を確認 | Zeyu Yang, Zhao Meng, Xiaochen Zheng, Roger Wattenhofer, | (参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス方式の攻撃手法を提案する。
本研究では, モデルサイズ, 構造, 微調整が対向的摂動抵抗に及ぼす影響を評価する。
5つのテキスト分類タスクの総合的な評価により,LLMのロバスト性に対する新たなベンチマークが確立される。
本研究の成果は,LLMを現実のアプリケーションに確実に展開すること,信頼性の高いAIシステムの進歩に寄与することにつながる。
Large Language Models (LLMs) have revolutionized natural language processing, but their robustness against adversarial attacks remains a critical concern. We presents a novel white-box style attack approach that exposes vulnerabilities in leading open-source LLMs, including Llama, OPT, and T5. We assess the impact of model size, structure, and fine-tuning strategies on their resistance to adversarial perturbations. Our comprehensive evaluation across five diverse text classification tasks establishes a new benchmark for LLM robustness. The findings of this study have far-reaching implications for the reliable deployment of LLMs in real-world applications and contribute to the advancement of trustworthy AI systems. | 翻訳日:2024-09-16 23:17:21 公開日:2024-09-12 |
# 心電図の逆問題と心電図 : 心電図による検討
Solving the Inverse Problem of Electrocardiography for Cardiac Digital Twins: A Survey ( http://arxiv.org/abs/2406.11445v4 ) ライセンス: Link先を確認 | Lei Li, Julia Camps, Blanca Rodriguez, Vicente Grau, | (参考訳) 心臓デジタル双生児(英: Cardiac Digital twins、CDT)は、複雑な心臓機構を理解するために使用される仮想表現である。
CDT開発における重要な要素は、心電図逆問題(ECG inverse problem)の解決であり、心電図データから心電図源の再構築と患者特異的電気生理学的パラメータ(EP)の推定を可能にする。
複雑な心臓解剖学、ノイズの多い心電図データ、逆問題の性質などの課題にもかかわらず、近年の計算手法の進歩により、心電図逆推論の精度と効率が大幅に向上し、CDTの忠実度が向上した。
本稿では,心電図逆問題,検証戦略,臨床応用,今後の展望を概観する。
提案手法は,従来の手法と深層学習技術の両方を含む,決定論的手法と確率論的手法の2つのカテゴリに大別される。
物理法則をディープラーニングモデルと統合することは有望であるが、動的電気生理学を正確に捉え、正確なドメイン知識にアクセスし、予測の不確実性を定量化するといった課題は継続する。
医療専門家にとって、解釈可能性とユーザビリティを確保しながら、モデルを臨床ワークフローに統合することは不可欠である。
これらの課題を克服すれば、CDTの研究がさらに進むことになる。
Cardiac digital twins (CDTs) are personalized virtual representations used to understand complex cardiac mechanisms. A critical component of CDT development is solving the ECG inverse problem, which enables the reconstruction of cardiac sources and the estimation of patient-specific electrophysiology (EP) parameters from surface ECG data. Despite challenges from complex cardiac anatomy, noisy ECG data, and the ill-posed nature of the inverse problem, recent advances in computational methods have greatly improved the accuracy and efficiency of ECG inverse inference, strengthening the fidelity of CDTs. This paper aims to provide a comprehensive review of the methods of solving ECG inverse problem, the validation strategies, the clinical applications, and future perspectives. For the methodologies, we broadly classify state-of-the-art approaches into two categories: deterministic and probabilistic methods, including both conventional and deep learning-based techniques. Integrating physics laws with deep learning models holds promise, but challenges such as capturing dynamic electrophysiology accurately, accessing accurate domain knowledge, and quantifying prediction uncertainty persist. Integrating models into clinical workflows while ensuring interpretability and usability for healthcare professionals is essential. Overcoming these challenges will drive further research in CDTs. | 翻訳日:2024-09-16 23:07:35 公開日:2024-09-12 |
# Oralytics Reinforcement Learning Algorithm
Oralytics Reinforcement Learning Algorithm ( http://arxiv.org/abs/2406.13127v2 ) ライセンス: Link先を確認 | Anna L. Trella, Kelly W. Zhang, Stephanie M. Carpenter, David Elashoff, Zara M. Greer, Inbal Nahum-Shani, Dennis Ruenger, Vivek Shetty, Susan A. Murphy, | (参考訳) 歯科疾患は現在でもアメリカ合衆国で最も一般的な慢性疾患の1つである。
歯科疾患は、健康的な口腔セルフケア行動(OSCB)によって予防できるが、この基本的な行動は一貫して実践されていない。
我々は、個人化された介入プロンプトの配信を最適化し、OSCBを改善するオンライン強化学習(RL)アルゴリズムであるOralyticsを開発した。
本稿では、先行データ、ドメインの専門知識、実験をシミュレーションテストベッドで使用したアルゴリズム設計決定について概説する。
最終RLアルゴリズムは、2023年秋から2024年夏にかけて行われたOralytics臨床試験で展開された。
Dental disease is still one of the most common chronic diseases in the United States. While dental disease is preventable through healthy oral self-care behaviors (OSCB), this basic behavior is not consistently practiced. We have developed Oralytics, an online, reinforcement learning (RL) algorithm that optimizes the delivery of personalized intervention prompts to improve OSCB. In this paper, we offer a full overview of algorithm design decisions made using prior data, domain expertise, and experiments in a simulation test bed. The finalized RL algorithm was deployed in the Oralytics clinical trial, conducted from fall 2023 to summer 2024. | 翻訳日:2024-09-16 22:57:51 公開日:2024-09-12 |
# コンプライアンスカード:複雑なAIサプライチェーンの中での、EUのAIコンプライアンス法の自動解析
Compliance Cards: Automated EU AI Act Compliance Analyses amidst a Complex AI Supply Chain ( http://arxiv.org/abs/2406.14758v2 ) ライセンス: Link先を確認 | Bill Marino, Yaqub Chaudhary, Yulu Pi, Rui-Jie Yew, Preslav Aleksandrov, Carwyn Rahman, William F. Shen, Isaac Robinson, Nicholas D. Lane, | (参考訳) AIサプライチェーンがより複雑になるにつれて、AIシステムやモデルは、データセットや(事前訓練された)モデルなど、複数の内部または外部ソースコンポーネントを組み込む傾向にある。
そのような場合、総合的なAIシステムまたはモデルがEU AI Act(AIA)に準拠しているかどうかを判断するには、(1)AIシステムまたはモデルとその構成部分に関するコンプライアンス関連情報が、複数の武器長ソースから収集される可能性があること、(2)必要に応じて調和されたこと、(3)コンプライアンス予測をレンダリングするために、そのすべてを見渡せる分析に入力される、多段階プロセスが必要である。
このプロセスは非常に複雑で時間を要するため、AIAに準拠する責任の多くを負うAIプロバイダ(つまり開発者)の限られたコンプライアンスリソースを過大評価する恐れがある。
また、プロバイダにとって有益なAI開発シナリオの多くにおいて、迅速またはリアルタイムのコンプライアンス分析が実現不可能であることも示している。
これらの欠点に対処するために、複雑なAIサプライチェーンの中で、プロバイダ側のAIAコンプライアンス分析を自動化するための完全なシステムを導入する。
このシステムには2つの重要な要素がある。
まず第一に、AIA固有のメタデータをキャプチャする計算的でマルチステークホルダーの透過的なアーティファクトのインターロックセットである。(1)プロバイダのAIシステムまたはモデル、(2)コンポーネントとして組み込んだデータセットと事前トレーニングされたモデル。
第2のアルゴリズムは、AIシステムやモデルがAIAに準拠しているかどうかをリアルタイムで予測するアルゴリズムである。
いずれにせよ、このシステムは、プロバイダ側のAIAコンプライアンス分析を劇的に促進し、民主化することを約束している(そしておそらくは、プロバイダ側のAIAコンプライアンスによって)。
As the AI supply chain grows more complex, AI systems and models are increasingly likely to incorporate multiple internally- or externally-sourced components such as datasets and (pre-trained) models. In such cases, determining whether or not the aggregate AI system or model complies with the EU AI Act (AIA) requires a multi-step process in which compliance-related information about both the AI system or model and all its component parts is: (1) gathered, potentially from multiple arms-length sources; (2) harmonized, if necessary; (3) inputted into an analysis that looks across all of it to render a compliance prediction. Because this process is so complex and time-consuming, it threatens to overburden the limited compliance resources of the AI providers (i.e., developers) who bear much of the responsibility for complying with the AIA. It also renders rapid or real-time compliance analyses infeasible in many AI development scenarios where they would be beneficial to providers. To address these shortcomings, we introduce a complete system for automating provider-side AIA compliance analyses amidst a complex AI supply chain. This system has two key elements. First is an interlocking set of computational, multi-stakeholder transparency artifacts that capture AIA-specific metadata about both: (1) the provider's overall AI system or model; and (2) the datasets and pre-trained models it incorporates as components. Second is an algorithm that operates across all those artifacts to render a real-time prediction about whether or not the aggregate AI system or model complies with the AIA. All told, this system promises to dramatically facilitate and democratize provider-side AIA compliance analyses (and, perhaps by extension, provider-side AIA compliance). | 翻訳日:2024-09-16 22:57:51 公開日:2024-09-12 |
# FastSpiker: 自律組み込みシステムの学習速度向上によるイベントベースデータ上でニューラルネットワークをスパイクするための高速トレーニングの実現
FastSpiker: Enabling Fast Training for Spiking Neural Networks on Event-based Data through Learning Rate Enhancements for Autonomous Embedded Systems ( http://arxiv.org/abs/2407.05262v2 ) ライセンス: Link先を確認 | Iqra Bano, Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, | (参考訳) 自律的な組み込みシステム(例えばロボット)は、通常、タスクを完了するには、低電力/エネルギー処理によるインテリジェントな計算を必要とする。
このような要求は、高い学習品質(例えば精度)とスパース計算のため、スパイクニューラルネットワーク(SNN)を具現化したニューロモルフィックインテリジェンスによって満たされる。
ここでは、入力と処理部品間のシームレスな接続を確保するために、イベントベースのデータの利用が好ましい。
しかし、最先端のSNNは高い精度を達成するために長い訓練期間を要し、高いエネルギー消費を発生させ、高い炭素排出量を発生させる。
そこで本研究では,自律型組込みシステムを対象とした学習率向上を通じて,イベントベースデータの高速SNNトレーニングを可能にする新しい手法であるFastSpikerを提案する。
FastSpikerでは、まず異なる学習率ポリシーとその値の影響を調査し、次に高い精度を提供するものを選択する。
その後、選択した学習率政策の異なる設定を探索し、統計に基づく決定を通じて適切な政策を求める。
実験の結果、FastSpikerはトレーニング時間を最大10.5倍、二酸化炭素排出量を最大88.39%削減し、イベントベースの自動車データセット(NAARS)の最先端または同等の精度を実現していることがわかった。
このようにして、私たちのFastSpiker方法論は、自律的な組み込みシステムのための具体的ニューロモルフィックインテリジェンスを実現するための、グリーンで持続可能なコンピューティングの道を開く。
Autonomous embedded systems (e.g., robots) typically necessitate intelligent computation with low power/energy processing for completing their tasks. Such requirements can be fulfilled by embodied neuromorphic intelligence with spiking neural networks (SNNs) because of their high learning quality (e.g., accuracy) and sparse computation. Here, the employment of event-based data is preferred to ensure seamless connectivity between input and processing parts. However, state-of-the-art SNNs still face a long training time to achieve high accuracy, thereby incurring high energy consumption and producing a high rate of carbon emission. Toward this, we propose FastSpiker, a novel methodology that enables fast SNN training on event-based data through learning rate enhancements targeting autonomous embedded systems. In FastSpiker, we first investigate the impact of different learning rate policies and their values, then select the ones that quickly offer high accuracy. Afterward, we explore different settings for the selected learning rate policies to find the appropriate policies through a statistical-based decision. Experimental results show that our FastSpiker offers up to 10.5x faster training time and up to 88.39% lower carbon emission to achieve higher or comparable accuracy to the state-of-the-art on the event-based automotive dataset (i.e., NCARS). In this manner, our FastSpiker methodology paves the way for green and sustainable computing in realizing embodied neuromorphic intelligence for autonomous embedded systems. | 翻訳日:2024-09-16 22:57:51 公開日:2024-09-12 |
# 地形ビュー生成 -衛星ビューからの高分解能地上ビュー推定を考慮した幾何学的文脈-
Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views ( http://arxiv.org/abs/2407.08061v4 ) ライセンス: Link先を確認 | Ningli Xu, Rongjun Qin, | (参考訳) 都市部における衛星画像からの現実的な地上映像の予測は、衛星画像と地上画像の間に大きな差があるため、難しい課題である。
本稿では, この課題に対処するための新しいパイプラインを提案し, 多視点衛星画像から, 弱幾何やテクスチャを最大限に尊重する地形ビューを生成する。
衛星画像から部分的意味論や幾何などの画像から画像に幻覚を与える既存の手法とは異なり,衛星画像からの包括的情報を用いて地上画像を直接推定し,分解能を10以上向上させる。
本研究では,地表面における衛星データの幾何歪みを低減し,拡散ネットワークを用いた視線合成のための正確な条件の作成を実現するために,新しい建物改良手法を利用する。
さらに,予測画像の位置に近い画像サンプルを尊重するため,拡散モデルの分布学習を促す新しい地理特化先行手法を提案する。
我々のパイプラインは、衛星画像のみに基づいて、実物に近い地上ビューを初めて生成したものであることを実証する。
Predicting realistic ground views from satellite imagery in urban scenes is a challenging task due to the significant view gaps between satellite and ground-view images. We propose a novel pipeline to tackle this challenge, by generating geospecifc views that maximally respect the weak geometry and texture from multi-view satellite images. Different from existing approaches that hallucinate images from cues such as partial semantics or geometry from overhead satellite images, our method directly predicts ground-view images at geolocation by using a comprehensive set of information from the satellite image, resulting in ground-level images with a resolution boost at a factor of ten or more. We leverage a novel building refinement method to reduce geometric distortions in satellite data at ground level, which ensures the creation of accurate conditions for view synthesis using diffusion networks. Moreover, we proposed a novel geospecific prior, which prompts distribution learning of diffusion models to respect image samples that are closer to the geolocation of the predicted images. We demonstrate our pipeline is the first to generate close-to-real and geospecific ground views merely based on satellite images. | 翻訳日:2024-09-16 22:48:01 公開日:2024-09-12 |
# データ汚染下におけるネットワーク異常検出のためのディープラーニング:ロバスト性の評価と性能劣化の軽減
Deep Learning for Network Anomaly Detection under Data Contamination: Evaluating Robustness and Mitigating Performance Degradation ( http://arxiv.org/abs/2407.08838v2 ) ライセンス: Link先を確認 | D'Jeff K. Nkashama, Jordan Masakuna Félicien, Arian Soltani, Jean-Charles Verdier, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, | (参考訳) ディープラーニング(DL)は、サイバーセキュリティのためのネットワーク異常検出(NAD)において重要なツールとして登場した。
異常検出のためのDLモデルは、データから特徴や学習パターンを抽出する上で優れているが、データ汚染に弱い。
本研究は,データ汚染に対する6つの教師なしDLアルゴリズムのロバスト性について,提案手法を用いて評価する。
その結果, 汚染データに曝露した場合の最先端異常検出アルゴリズムの性能は著しく低下し, DLベースNADモデルにおける自己保護機構の重要性が強調された。
この脆弱性を軽減するために,制約付き潜在表現を持つ拡張自動エンコーダを提案する。
以上の結果から,本手法は既存の手法に比べてデータ汚染に対する耐性が向上し,NAD系をより堅牢にするための有望な方向を示すことが明らかとなった。
Deep learning (DL) has emerged as a crucial tool in network anomaly detection (NAD) for cybersecurity. While DL models for anomaly detection excel at extracting features and learning patterns from data, they are vulnerable to data contamination -- the inadvertent inclusion of attack-related data in training sets presumed benign. This study evaluates the robustness of six unsupervised DL algorithms against data contamination using our proposed evaluation protocol. Results demonstrate significant performance degradation in state-of-the-art anomaly detection algorithms when exposed to contaminated data, highlighting the critical need for self-protection mechanisms in DL-based NAD models. To mitigate this vulnerability, we propose an enhanced auto-encoder with a constrained latent representation, allowing normal data to cluster more densely around a learnable center in the latent space. Our evaluation reveals that this approach exhibits improved resistance to data contamination compared to existing methods, offering a promising direction for more robust NAD systems. | 翻訳日:2024-09-16 22:48:01 公開日:2024-09-12 |
# リンク特徴とグラフニューラルネットワークを用いたバイアス付きバックプレッシャルーティング
Biased Backpressure Routing Using Link Features and Graph Neural Networks ( http://arxiv.org/abs/2407.09753v2 ) ライセンス: Link先を確認 | Zhongyuan Zhao, Bojan Radojičić, Gunjan Verma, Ananthram Swami, Santiago Segarra, | (参考訳) 無線マルチホップネットワークにおけるバックプレッシャ(BP)ルーティングのレイテンシを低減するため,基本BPにステップワイドなオーバヘッドを付加しないため,既存の最短パスバイアスBP(SP-BP)と待ち時間ベースのバックログメトリクスを強化することを提案する。
ホップ距離に頼るのではなく、無線リンクのスケジューリングデューティサイクルに基づいて構築された新しいエッジ重み付きショートパスバイアスを導入し、無線ネットワークのトポロジとトラフィックに基づいてグラフ畳み込みニューラルネットワークによって予測できる。
さらに,SP-BPに関連する長期的課題として,最適バイアススケーリング,効率的なバイアス維持,遅延認識の統合の3つに取り組む。
提案手法は, 基本BPのスループット最適性に加えて, 低複雑性と完全分散実装の実用的利点を継承する。
提案手法では,従来のSP-BP方式に1時間的オーバーヘッドしか導入せず,ネットワークサイズを基本BPに1時間的オーバーヘッドを導入している。
数値実験により,提案手法は,ネットワークトラフィック,干渉,モビリティといった様々な条件下で,既存の低オーバヘッドBPアルゴリズムの終端遅延を改善することにより,起動時間,ランダムウォーク,最後のパケット問題などに効果的に対処できることが示されている。
To reduce the latency of Backpressure (BP) routing in wireless multi-hop networks, we propose to enhance the existing shortest path-biased BP (SP-BP) and sojourn time-based backlog metrics, since they introduce no additional time step-wise signaling overhead to the basic BP. Rather than relying on hop-distance, we introduce a new edge-weighted shortest path bias built on the scheduling duty cycle of wireless links, which can be predicted by a graph convolutional neural network based on the topology and traffic of wireless networks. Additionally, we tackle three long-standing challenges associated with SP-BP: optimal bias scaling, efficient bias maintenance, and integration of delay awareness. Our proposed solutions inherit the throughput optimality of the basic BP, as well as its practical advantages of low complexity and fully distributed implementation. Our approaches rely on common link features and introduces only a one-time constant overhead to previous SP-BP schemes, or a one-time overhead linear in the network size to the basic BP. Numerical experiments show that our solutions can effectively address the major drawbacks of slow startup, random walk, and the last packet problem in basic BP, improving the end-to-end delay of existing low-overhead BP algorithms under various settings of network traffic, interference, and mobility. | 翻訳日:2024-09-16 22:48:01 公開日:2024-09-12 |
# 手術映像における弱教師付き物体検出とセグメンテーションのための空間的時間的知識の遠心化
Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video ( http://arxiv.org/abs/2407.15794v3 ) ライセンス: Link先を確認 | Guiqiu Liao, Matjaz Jogan, Sai Koushik, Eric Eaton, Daniel A. Hashimoto, | (参考訳) 弱教師付きビデオオブジェクトセグメンテーション(WSVOS)は、オブジェクトマスクの広範なトレーニングデータセットを必要としないセグメンテーションマップの識別を可能にし、代わりに、オブジェクトの存在を示す粗いビデオラベルに依存する。
現在の最先端の手法では、モーションキューを使用する複数の独立した処理段階を必要とするか、あるいはエンドツーエンドのトレーニング可能なネットワークの場合、セグメント化の精度が欠如している。
これにより、複数の手術ツールが視野内を頻繁に移動する手術ビデオのセマンティックアノテーションに対するWSVOSの適用が制限されるが、WSVOSでは通常遭遇するよりも難しい問題である。
本稿では,半分離型知識蒸留を用いて時空間情報を分散し,高品質なクラスアクティベーションマップ(CAM)を予測するフレームワークであるVDST-Netを提案する。
ビデオ中の物体の位置やタイミングに関する特定情報が提供されていない場合の時間的矛盾を解決するために設計された教師ネットワークは、時間的依存を活用して情報を統合する学生ネットワークで動作する。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60倍未満のアノテートフレームに存在するような,より困難な手術用ビデオデータセット上で有効であることを示す。
本手法は最先端技術より優れ,映像レベルの弱い監督下で優れたセグメンテーションマスクを生成する。
Weakly supervised video object segmentation (WSVOS) enables the identification of segmentation maps without requiring an extensive training dataset of object masks, relying instead on coarse video labels indicating object presence. Current state-of-the-art methods either require multiple independent stages of processing that employ motion cues or, in the case of end-to-end trainable networks, lack in segmentation accuracy, in part due to the difficulty of learning segmentation maps from videos with transient object presence. This limits the application of WSVOS for semantic annotation of surgical videos where multiple surgical tools frequently move in and out of the field of view, a problem that is more difficult than typically encountered in WSVOS. This paper introduces Video Spatio-Temporal Disentanglement Networks (VDST-Net), a framework to disentangle spatiotemporal information using semi-decoupled knowledge distillation to predict high-quality class activation maps (CAMs). A teacher network designed to resolve temporal conflicts when specifics about object location and timing in the video are not provided works with a student network that integrates information over time by leveraging temporal dependencies. We demonstrate the efficacy of our framework on a public reference dataset and on a more challenging surgical video dataset where objects are, on average, present in less than 60\% of annotated frames. Our method outperforms state-of-the-art techniques and generates superior segmentation masks under video-level weak supervision. | 翻訳日:2024-09-16 22:48:00 公開日:2024-09-12 |
# LLMの安定性:いくつかのサプライズを伴う詳細な分析
LLM Stability: A detailed analysis with some surprises ( http://arxiv.org/abs/2408.04667v2 ) ライセンス: Link先を確認 | Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin, | (参考訳) LLM(大規模言語モデル)の実践者は、出力が同じ入力に対して異なることによく気づくが、LLMの安定性を主目的として評価する作業は見つからなかった。
本研究は,5つの同一実行を含む8つの共通タスクに対して,決定的に構成された6つのLSMについて検討し,最大10倍の精度の変動が見られた。
加えて、全てのタスクに対して繰り返し可能な精度を提供するLLMは存在しない。
また、通常分布しないバリエーションの例を示し、設定をゼロショット/フェーショットプロンプトや微調整例と比較する。
現状の定量化のために、我々は安定性に焦点を当てたメトリクスを導入している。Nでの合意率のトータルはNで、TARa@Nでパースアウトされた回答のトータルはTARa@N。
安定性の指標をリーダボードと研究結果に統合することを提案します。
LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs, but we have been unable to find work that evaluates LLM stability as the main objective. In our study of 6 deterministically configured LLMs across 8 common tasks with 5 identical runs, we see accuracy variations up to 10\%. In addition, no LLM consistently delivers repeatable accuracy across all tasks. We also show examples of variation that are not normally distributed and compare configurations with zero-shot/few-shot prompting and fine-tuned examples. To better quantify what is going on, we introduce metrics focused on stability: TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement over parsed-out answers. We suggest that stability metrics be integrated into leader boards and research results going forward. | 翻訳日:2024-09-16 22:38:12 公開日:2024-09-12 |
# スクールバスを運転するイエローライク : 言語モデルにおけるセマンティックリーク
Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models ( http://arxiv.org/abs/2408.06518v2 ) ライセンス: Link先を確認 | Hila Gonen, Terra Blevins, Alisa Liu, Luke Zettlemoyer, Noah A. Smith, | (参考訳) 広く採用されているにもかかわらず、言語モデルのバイアスや意図しない振る舞いはいまだに理解されていない。
本稿では,これまでに議論されたことのない現象を識別し,その現象をセマンティックリークと呼び,モデルが予期せぬ方法でプロンプトから生成する無関係な情報を漏らす現象を特徴付ける。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
また、英語以外の言語や、異なる設定や生成シナリオにまたがるセマンティックリークを示すモデルを示す。
この発見は、生成パターンや振る舞いに影響を与える言語モデルにおける別のタイプのバイアスを強調します。
Despite their wide adoption, the biases and unintended behaviors of language models remain poorly understood. In this paper, we identify and characterize a phenomenon never discussed before, which we call semantic leakage, where models leak irrelevant information from the prompt into the generation in unexpected ways. We propose an evaluation setting to detect semantic leakage both by humans and automatically, curate a diverse test suite for diagnosing this behavior, and measure significant semantic leakage in 13 flagship models. We also show that models exhibit semantic leakage in languages besides English and across different settings and generation scenarios. This discovery highlights yet another type of bias in language models that affects their generation patterns and behavior. | 翻訳日:2024-09-16 22:38:12 公開日:2024-09-12 |
# QEDCartographer: Reward-free Reinforcement Learning を用いた形式検証の自動化
QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2408.09237v5 ) ライセンス: Link先を確認 | Alex Sanchez-Stern, Abhishek Varghese, Zhanna Kaufman, Dylan Zhang, Talia Ringer, Yuriy Brun, | (参考訳) 形式的検証は信頼性の高いソフトウェアを作成するための有望な方法であるが,手作業による検証証明の難しさにより,実用性は著しく制限されている。
近年の手法では、定理証明器を用いて証明空間を探索し、いくつかの証明合成を自動化している。
残念なことに、定理証明器は最も粗末な進捗推定のみを提供し、事実上無向探索をもたらす。
この問題に対処するために、教師付きと強化学習を組み合わせた自動証明合成ツールであるQEDCartographerを作成し、より効果的に証明空間を探索する。
QEDCartographerは証明の分岐構造を取り入れ、報酬のない探索を可能にし、形式検証に固有のスパース報酬問題を克服する。
オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。
QEDCartographerはテストセット定理の21.4%を自動的に証明している。
従来の検索ベースの証明合成ツールであるTok、Tac、ASTactic、Passport、Proverbot9001は、教師あり学習のみに依存しており、それぞれ9.6%、9.8%、10.9%、12.5%、19.8%を証明している。
62のツールを組み合わせたDidiaは19.2%を証明している。
最も効果的な先行ツールであるProverbot9001と比較して、QEDCartographerは29%高速で34%の短い証明を生成する。
QEDCartographerと非学習ベースのCoqHammerは30.3%、CoqHammerは26.6%である。
本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。
Formal verification is a promising method for producing reliable software, but the difficulty of manually writing verification proofs severely limits its utility in practice. Recent methods have automated some proof synthesis by guiding a search through the proof space using a theorem prover. Unfortunately, the theorem prover provides only the crudest estimate of progress, resulting in effectively undirected search. To address this problem, we create QEDCartographer, an automated proof-synthesis tool that combines supervised and reinforcement learning to more effectively explore the proof space. QEDCartographer incorporates the proofs' branching structure, enabling reward-free search and overcoming the sparse reward problem inherent to formal verification. We evaluate QEDCartographer using the CoqGym benchmark of 68.5K theorems from 124 open-source Coq projects. QEDCartographer fully automatically proves 21.4% of the test-set theorems. Previous search-based proof-synthesis tools Tok, Tac, ASTactic, Passport, and Proverbot9001, which rely only on supervised learning, prove 9.6%, 9.8%, 10.9%, 12.5%, and 19.8%, respectively. Diva, which combines 62 tools, proves 19.2%. Comparing to the most effective prior tool, Proverbot9001, QEDCartographer produces 34% shorter proofs 29% faster, on average over the theorems both tools prove. Together, QEDCartographer and non-learning-based CoqHammer prove 30.3% of the theorems, while CoqHammer alone proves 26.6%. Our work demonstrates that reinforcement learning is a fruitful research direction for improving proof-synthesis tools' search mechanisms. | 翻訳日:2024-09-16 22:28:05 公開日:2024-09-12 |
# ゲージ不変ディックモデルの基底状態:非古典状態における光子の凝縮
Ground state of the gauge invariant Dicke model: condensation of the photons in non-classical states ( http://arxiv.org/abs/2409.02701v2 ) ライセンス: Link先を確認 | N. Q. San, O. D. Skoromnik, A. P. Ulyanenkov, A. U. Leonau, I. D. Feranchuk, | (参考訳) ディックモデルの物理的に動機付けられた2つの修正の基底状態について検討する。
第1の修正は、例えばスピン1/2の粒子や人工的に生成されたキュービットのような、相空間が2つの状態しか持たない粒子に対応する。
第2の修正では、原子のヒルベルト空間全体を電磁場と共鳴する2つのレベルに切り離し、ゲージ不変のディックモデルによって記述された2段階のシステムを記述する。
どちらの場合においても,これらのシステムの挙動は質的に異なることが示される。
特に第1のシナリオでは、古典場の非ゼロ振幅の状態への位相遷移が可能であり、第2のケースでは、場の位相遷移のいわゆる順序パラメータ $\eta = \braket{\hat{a}}$ が光子凝縮を伴うコヒーレント状態への遷移はゼロである。
同時に、平均光子の数は $\bar{n} = \braket{\hat{a}^\dagger \hat{a}} \neq 0$ となり、系内の集合励起は場の非古典的な「スクイーズ」状態を示す。
両システムの観測可能な特性をパラメータの幅広いバリエーションで解析する。
We investigate the ground state of two physically motivated modifications of the Dicke model. The first modification corresponds to particles whose phase space contains only two states, for example, particles with spin 1/2 or artificially created qubits. The second modification describes two-level systems that arise as a result of truncating the full Hilbert space of atoms to two levels that are in resonance with the electromagnetic field and are described by the gauge-invariant Dicke model. We demonstrate that the behavior of these systems is qualitatively distinct in both cases. In particular, in the first scenario, a phase transition into the state with a non-zero amplitude of the classical field is possible, while in the second case, the so-called order parameter $\eta = \braket{\hat{a}}$ of the field's phase transition into a coherent state with photon condensation is zero. At the same time, the average number of photons $\bar{n} = \braket{\hat{a}^\dagger \hat{a}} \neq 0$, and the collective excitation in the system manifests a non-classical "squeezed" state of the field. We analyze the observable characteristics of both systems in a wide range of variation of their parameters. | 翻訳日:2024-09-16 22:28:05 公開日:2024-09-12 |
# NGDはSGDよりも退化解に収束する
NGD converges to less degenerate solutions than SGD ( http://arxiv.org/abs/2409.04913v2 ) ライセンス: Link先を確認 | Moosa Saghir, N. R. Raghavendra, Zihe Liu, Evan Ryan Gunter, | (参考訳) モデルの自由パラメータ数、あるいは次元は、その複雑さを測定するための簡単な方法である。
しかし、これは正確な複雑さの尺度ではない。トレーニングデータを記憶できるモデルは、高次元にもかかわらずしばしば一般化される。
有効ディメンションは、モデルの機能性を表すのに必要なパラメータの数だけを数えることで、モデルの複雑さをより直接的に捉えることを目的としています。
特異学習理論(SLT)は、より正確な有効次元の尺度として学習係数 $ \lambda $ を提案する。
損失に関して、局所的に最小のパラメータ空間の領域の体積の増加率を記述することで、$ \lambda $は高次項からの情報を取り込む。
自然勾配降下 (NGD) と確率勾配降下 (SGD) を用いて訓練されたモデルの$ \lambda $ を比較し、NGD で訓練されたモデルでは、ヘッセントレース $ \text{Tr}(\mathbf{H}) $ と局所学習係数 (LLC) $ \hat{\lambda}(w^*) $ の2つの手法に対して、一貫して高い有効次元を持つことを示した。
The number of free parameters, or dimension, of a model is a straightforward way to measure its complexity: a model with more parameters can encode more information. However, this is not an accurate measure of complexity: models capable of memorizing their training data often generalize well despite their high dimension. Effective dimension aims to more directly capture the complexity of a model by counting only the number of parameters required to represent the functionality of the model. Singular learning theory (SLT) proposes the learning coefficient $ \lambda $ as a more accurate measure of effective dimension. By describing the rate of increase of the volume of the region of parameter space around a local minimum with respect to loss, $ \lambda $ incorporates information from higher-order terms. We compare $ \lambda $ of models trained using natural gradient descent (NGD) and stochastic gradient descent (SGD), and find that those trained with NGD consistently have a higher effective dimension for both of our methods: the Hessian trace $ \text{Tr}(\mathbf{H}) $, and the estimate of the local learning coefficient (LLC) $ \hat{\lambda}(w^*) $. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# MedSegMamba:脳セグメンテーションのための3D CNN-Mambaハイブリッドアーキテクチャ
MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation ( http://arxiv.org/abs/2409.08307v1 ) ライセンス: Link先を確認 | Aaron Cao, Zongyu Li, Jia Guo, | (参考訳) 皮質下脳のセグメンテーションに広く使われている伝統的なパイプラインは、特に大規模なデータセットを処理する際には、しばしば非効率で遅い。
さらに、ディープラーニングモデルは、MRI画像の高解像度化と多くの解剖学的クラスが関与しているため、課題に直面している。
これらの制約に対処するため,Mambaの選択的スキャンアルゴリズムを利用した3次元パッチベースハイブリッドCNN-Mambaモデルを開発した。
この振り返り調査では、1784個のT1強調MRIスキャンを、健康な人の多地点データセットから利用した。
データセットは1076/345/363の分割でトレーニング、検証、テストセットに分割された。
スキャンは1.5Tと3TのMRIマシンから得られた。
我々のモデルの性能は、FreeSurfer生成した基底真理を用いて、他のCNN-Mamba、CNN-Transformer、純粋なCNNネットワークを含むいくつかのベンチマークで検証された。
評価指標としてDice similarity Coefficient (DSC), Volume similarity (VS), Average Symmetric Surface Distance (ASSD) を用いた。
統計的意義は、P < 0.05の閾値を持つウィルコクソン符号ランク試験を用いて決定された。
提案したモデルは全指標(DSC 0.88383; VS 0.97076; ASSD 0.33604)で最高性能を達成し、非マンバ系モデル(P < 0.001)を著しく上回った。
このモデルは、他のMambaモデル(P値0.114と0.425)に比べてDSCやVSの大幅な改善は見られなかったが、ASSD(P < 0.001)では約20%少ないパラメータで大幅に向上した。
結論として,提案するハイブリッドCNN-Mambaアーキテクチャは3次元皮質下脳セグメンテーションに対して効率的かつ正確なアプローチを提供し,既存の手法に対する潜在的な優位性を示す。
Widely used traditional pipelines for subcortical brain segmentation are often inefficient and slow, particularly when processing large datasets. Furthermore, deep learning models face challenges due to the high resolution of MRI images and the large number of anatomical classes involved. To address these limitations, we developed a 3D patch-based hybrid CNN-Mamba model that leverages Mamba's selective scan algorithm, thereby enhancing segmentation accuracy and efficiency for 3D inputs. This retrospective study utilized 1784 T1-weighted MRI scans from a diverse, multi-site dataset of healthy individuals. The dataset was divided into training, validation, and testing sets with a 1076/345/363 split. The scans were obtained from 1.5T and 3T MRI machines. Our model's performance was validated against several benchmarks, including other CNN-Mamba, CNN-Transformer, and pure CNN networks, using FreeSurfer-generated ground truths. We employed the Dice Similarity Coefficient (DSC), Volume Similarity (VS), and Average Symmetric Surface Distance (ASSD) as evaluation metrics. Statistical significance was determined using the Wilcoxon signed-rank test with a threshold of P < 0.05. The proposed model achieved the highest overall performance across all metrics (DSC 0.88383; VS 0.97076; ASSD 0.33604), significantly outperforming all non-Mamba-based models (P < 0.001). While the model did not show significant improvement in DSC or VS compared to another Mamba-based model (P-values of 0.114 and 0.425), it demonstrated a significant enhancement in ASSD (P < 0.001) with approximately 20% fewer parameters. In conclusion, our proposed hybrid CNN-Mamba architecture offers an efficient and accurate approach for 3D subcortical brain segmentation, demonstrating potential advantages over existing methods. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
DiReDi: Distillation and Reverse Distillation for AIoT Applications ( http://arxiv.org/abs/2409.08308v1 ) ライセンス: Link先を確認 | Chen Sun, Qing Tong, Wenshuang Yang, Wenqi Zhang, | (参考訳) 通常、さまざまな現実のシナリオに異なるエッジAIモデルをデプロイし、少数の大規模モデルがクラウドサーバからリモートでエッジAIモデルを管理することで、大幅な効率を達成することができる。
しかしながら、ユーザの特定のアプリケーションごとにエッジAIモデルをカスタマイズしたり、現在のモデルを新しいアプリケーションシナリオに拡張することは、依然として課題である。
ユーザによる不適切なローカルトレーニングやエッジAIモデルの微調整は、モデル誤動作を招き、製造業者にとって法的問題を引き起こす可能性がある。
本稿では、上記の課題に対処するため、知識蒸留・逆蒸留を含む「DiReD」と呼ばれる革新的な枠組みを提案する。
最初のステップでは、エッジAIモデルを、上層管理クラウドサーバのクラウドAIモデルを使用して、推定データとKDプロセスでトレーニングする。
このエッジAIモデルは、ユーザのアプリケーションシナリオでの推論のみのために、エッジAIデバイスに送信される。
ユーザが実際のシナリオに合うようにエッジAIモデルを更新する必要がある場合、リバース蒸留(RD)プロセスを使用して知識を抽出する。
抽出された知識のみが、クラウドAIモデルを更新するために、上位管理クラウドサーバに報告されるため、排他的データを使用しないことにより、ユーザのプライバシを保護する。
アップデートされたクラウドAIは、拡張された知識でエッジAIモデルを更新することができる。
シミュレーションの結果,提案したDiReDiフレームワークは,ユーザの実際のシナリオから新たな知識をプライベートデータで学習することで,ユーザモデルを更新することができることがわかった。
再トレーニングがユーザのプライベートデータを強調するため、初期の冗長な知識は減少する。
Typically, the significant efficiency can be achieved by deploying different edge AI models in various real world scenarios while a few large models manage those edge AI models remotely from cloud servers. However, customizing edge AI models for each user's specific application or extending current models to new application scenarios remains a challenge. Inappropriate local training or fine tuning of edge AI models by users can lead to model malfunction, potentially resulting in legal issues for the manufacturer. To address aforementioned issues, this paper proposes an innovative framework called "DiReD", which involves knowledge DIstillation & REverse DIstillation. In the initial step, an edge AI model is trained with presumed data and a KD process using the cloud AI model in the upper management cloud server. This edge AI model is then dispatched to edge AI devices solely for inference in the user's application scenario. When the user needs to update the edge AI model to better fit the actual scenario, the reverse distillation (RD) process is employed to extract the knowledge: the difference between user preferences and the manufacturer's presumptions from the edge AI model using the user's exclusive data. Only the extracted knowledge is reported back to the upper management cloud server to update the cloud AI model, thus protecting user privacy by not using any exclusive data. The updated cloud AI can then update the edge AI model with the extended knowledge. Simulation results demonstrate that the proposed "DiReDi" framework allows the manufacturer to update the user model by learning new knowledge from the user's actual scenario with private data. The initial redundant knowledge is reduced since the retraining emphasizes user private data. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# ベイジアンニューラルネットワークを用いた音響信号解析による電動機の損傷検出
Detection of Electric Motor Damage Through Analysis of Sound Signals Using Bayesian Neural Networks ( http://arxiv.org/abs/2409.08309v1 ) ライセンス: Link先を確認 | Waldemar Bauer, Marta Zagorowska, Jerzy Baranowski, | (参考訳) 故障監視と診断は、電動機の信頼性を確保するために重要である。
故障検出のための効率的なアルゴリズムは信頼性を向上させるが、機器の診断のための費用効率が高く信頼性の高い分類器の開発は困難である。
そこで我々は,不均衡なトレーニングデータを用いて,電動機の故障を検出し,分類するためにベイズニューラルネットワークを提案する。
実生活信号に対して提案するネットワークの性能を実証し,提案手法のロバスト性解析を行った。
Fault monitoring and diagnostics are important to ensure reliability of electric motors. Efficient algorithms for fault detection improve reliability, yet development of cost-effective and reliable classifiers for diagnostics of equipment is challenging, in particular due to unavailability of well-balanced datasets, with signals from properly functioning equipment and those from faulty equipment. Thus, we propose to use a Bayesian neural network to detect and classify faults in electric motors, given its efficacy with imbalanced training data. The performance of the proposed network is demonstrated on real life signals, and a robustness analysis of the proposed solution is provided. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# 拡散流マッチングにおけるKLの理論的保証
Theoretical guarantees in KL for Diffusion Flow Matching ( http://arxiv.org/abs/2409.08311v1 ) ライセンス: Link先を確認 | Marta Gentiloni Silveri, Giovanni Conforti, Alain Durmus, | (参考訳) フローマッチング(英: Flow Matching, FM)は、確率的補間(英語版)(stchastic interpolants)または整流流(rerectified flow)とも呼ばれる)は、有限時間で対象分布を橋渡しすることを目的とした生成モデルのクラスであり、補助分布を持つ$\nu^\star$は$\mu$であり、固定結合の$\pi$と、決定的または確率的である橋を利用する。
これらの2つの成分は、マルコフ射影のドリフトを学ぶことによって近似できる経路測度を定義する。
本論文の主な貢献は,ブラウン運動に付随する条件分布を橋渡しする拡散フローマッチング (DFM) モデルに対する非漸近的保証を得るために, $\nu^\star$, $\mu$, $\pi$ に関する比較的穏やかな仮定を提供することである。
より正確には、ターゲット分布とそのような DFM モデルによって生成されるものとの境界を $\nu^\star$, $\mu$, $\pi$, and a standard $L^2$-drift-approximation error assumption のスコアで定めている。
Flow Matching (FM) (also referred to as stochastic interpolants or rectified flows) stands out as a class of generative models that aims to bridge in finite time the target distribution $\nu^\star$ with an auxiliary distribution $\mu$, leveraging a fixed coupling $\pi$ and a bridge which can either be deterministic or stochastic. These two ingredients define a path measure which can then be approximated by learning the drift of its Markovian projection. The main contribution of this paper is to provide relatively mild assumptions on $\nu^\star$, $\mu$ and $\pi$ to obtain non-asymptotics guarantees for Diffusion Flow Matching (DFM) models using as bridge the conditional distribution associated with the Brownian motion. More precisely, we establish bounds on the Kullback-Leibler divergence between the target distribution and the one generated by such DFM models under moment conditions on the score of $\nu^\star$, $\mu$ and $\pi$, and a standard $L^2$-drift-approximation error assumption. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# 一次変形型ビラソロ回路の複雑化に向けて
Towards complexity of primary-deformed Virasoro circuits ( http://arxiv.org/abs/2409.08319v1 ) ライセンス: Link先を確認 | Johanna Erdmenger, Jani Kastikainen, Tim Schuhmann, | (参考訳) フビニ・スタディ計量(Fubini-Study metric)は、情報幾何学の中心的な要素である。
ビラソロ回路の回路複雑性とその変形を決定するために,情報幾何学が果たす役割について検討する。
この効果のために、一次作用素のビラソロ代数とフーリエモードによって生成されるユニタリ量子回路について検討する。
そのような一次変形ヴィラソロ回路は2次元の共形場理論で実現でき、不均一な大域的クエンチのモデルを提供する。
本研究では,フビニ・スタディ計量によって引き起こされるコスト関数を考察し,一般音源プロファイルの一次変形における時間進化から二次階への普遍的な表現を提供する。
ビラソロ零モードと一次モードで生成された回路に対して、空間的不均一性が十分に大きい場合に限り、ゼロでないコストが得られる。
この場合、ソースが時間に依存しないものになると、コストが飽和する。
正確な飽和値は、ソースプロファイルの履歴によって決定される。
副生成物として、非変形回路への回帰として、フビニ・スタディ計量とヴィラソロ群の共役軌道上のK\"アラー計量を関連付ける。
The Fubini-Study metric is a central element of information geometry. We explore the role played by information geometry for determining the circuit complexity of Virasoro circuits and their deformations. To this effect, we study unitary quantum circuits generated by the Virasoro algebra and Fourier modes of a primary operator. Such primary-deformed Virasoro circuits can be realized in two-dimensional conformal field theories, where they provide models of inhomogeneous global quenches. We consider a cost function induced by the Fubini-Study metric and provide a universal expression for its time-evolution to quadratic order in the primary deformation for general source profiles. For circuits generated by the Virasoro zero mode and a primary, we obtain a non-zero cost only if spatial inhomogeneities are sufficiently large. In this case, we find that the cost saturates when the source becomes time independent. The exact saturation value is determined by the history of the source profile. As a byproduct, returning to undeformed circuits, we relate the Fubini-Study metric to the K\"ahler metric on a coadjoint orbit of the Virasoro group. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# 格子シュウィンガーモデルにおける乱れのない局所化の起源におけるヒルベルト空間の断片化
Hilbert space fragmentation at the origin of disorder-free localization in the lattice Schwinger model ( http://arxiv.org/abs/2409.08320v1 ) ライセンス: Link先を確認 | Jared Jeyaretnam, Tanmay Bhore, Jesse J. Osborne, Jad C. Halimeh, Zlatko Papić, | (参考訳) 連続ゲージ理論の離散化された従兄弟である格子ゲージ理論は、標準模型における元のスコープを超えて非平衡現象を探索するための重要な基盤となっている。
特に、最近の研究は格子シュウィンガーモデルにおける乱れのない局所化の可能性について報告している。
正確な対角化と行列積状態に基づく縮退摂動理論と数値シミュレーションを用いて、スペクトル特性、固有状態の構造、平衡外クエンチ力学を含むシュウィンガーモデルにおける熱分解の詳細な評価を行う。
本研究では, 初期真空状態から, 二重対数時間, 絡み合いの増大を従来提案していたモデルの強結合限界について検討した。
我々は、この超低速なエンタングルメント成長の起源を、ヒルベルト空間の破れと粒子ホッピングの動的制約の出現により、個々の背景電荷セクター内でのエンタングルメントエントロピーダイナミクスの急激な跳躍を引き起こすと同定した。
ジャンプ時間の統計に基づいて、電荷セクターよりも平均的な絡み合い成長は、より自然に単対数法則または弱パワー法則として説明される。
以上の結果から,Hilbert空間の断片化による1つのエルゴディディティ破壊機構の存在が示唆された。
Lattice gauge theories, the discretized cousins of continuum gauge theories, have become an important platform for the exploration of non-equilibrium phenomena beyond their original scope in the Standard Model. In particular, recent works have reported the possibility of disorder-free localization in the lattice Schwinger model. Using degenerate perturbation theory and numerical simulations based on exact diagonalization and matrix product states, we perform a detailed characterization of thermalization breakdown in the Schwinger model including its spectral properties, the structure of eigenstates, and out-of-equilibrium quench dynamics. We scrutinize the strong-coupling limit of the model, in which an intriguing, double-logarithmic-in-time, growth of entanglement was previously proposed from the initial vacuum state. We identify the origin of this ultraslow growth of entanglement as due to an approximate Hilbert space fragmentation and the emergence of a dynamical constraint on particle hopping, which gives rise to sharp jumps in the entanglement entropy dynamics within individual background charge sectors. Based on the statistics of jump times, we argue that the entanglement growth, averaged over charge sectors, is more naturally explained as either single-logarithmic or a weak power law in time. Our results thus suggest the existence of a single ergodicity-breaking regime due to Hilbert space fragmentation, whose properties are reminiscent of conventional many-body localization within the numerically accessible system sizes. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# リアルかロボットか : LLMが対話における人間の反応の質を正確にシミュレートするかどうか
Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue ( http://arxiv.org/abs/2409.08330v1 ) ライセンス: Link先を確認 | Johnathan Ivey, Shivani Kumar, Jiayu Liu, Hua Shen, Sushrita Rakshit, Rohan Raju, Haotian Zhang, Aparna Ananthasubramaniam, Junghwan Kim, Bowen Yi, Dustin Wright, Abraham Israeli, Anders Giovanni Møller, Lechen Zhang, David Jurgens, | (参考訳) 対話タスクのためのデータセットの学習と構築は、研究参加者からデータを集め、訓練し、収集する必要があるため、費用も時間もかかる。
これに対し、近年の研究では、人間と人の両方のLLMの相互作用をシミュレートするために、大きな言語モデル(LLM)の使用を模索している。
しかし、LLMに基づくシミュレーションは人間の対話をどの程度反映しているか?
本研究では,WildChatデータセットから10万対のLLM-LLMと人-LLM対話の大規模データセットを生成し,LLMシミュレーションが人間とどのように一致しているかを定量化する。
全体として、シミュレーションと人間のインタラクションのアライメントは比較的低く、スタイルや内容を含む複数のテキスト特性に沿って体系的な相違を示す。
さらに、英語、中国語、ロシア語の対話と比較すると、モデルも同様に機能することがわかった。
以上の結果から,LLM自体がLLMのスタイルに類似した書き方で書く場合,LLMの動作は概して良好であることが示唆された。
Studying and building datasets for dialogue tasks is both expensive and time-consuming due to the need to recruit, train, and collect data from study participants. In response, much recent work has sought to use large language models (LLMs) to simulate both human-human and human-LLM interactions, as they have been shown to generate convincingly human-like text in many settings. However, to what extent do LLM-based simulations \textit{actually} reflect human dialogues? In this work, we answer this question by generating a large-scale dataset of 100,000 paired LLM-LLM and human-LLM dialogues from the WildChat dataset and quantifying how well the LLM simulations align with their human counterparts. Overall, we find relatively low alignment between simulations and human interactions, demonstrating a systematic divergence along the multiple textual properties, including style and content. Further, in comparisons of English, Chinese, and Russian dialogues, we find that models perform similarly. Our results suggest that LLMs generally perform better when the human themself writes in a way that is more similar to the LLM's own style. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-12 |
# 深層学習を用いた前立腺癌のグリソングレーディングを改善するデジタル生検コア
Digital Volumetric Biopsy Cores Improve Gleason Grading of Prostate Cancer Using Deep Learning ( http://arxiv.org/abs/2409.08331v1 ) ライセンス: Link先を確認 | Ekaterina Redekop, Mara Pleasure, Zichen Wang, Anthony Sisk, Yang Zong, Kimberly Flores, William Speier, Corey W. Arnold, | (参考訳) 前立腺癌(PCa)は2023年のアメリカ人男性の中では最も頻度の高いがんである。
生検の組織学的グレーディングは診断に不可欠であり、この課題を支援するために様々なディープラーニングベースのソリューションが開発されている。
既存のディープラーニングフレームワークは、典型的には3D生検組織標本からスライスされた個々の2D断面に適用される。
このプロセスは、検査された組織スライスによって変化する腺などの複雑な組織構造の解析を阻害する。
本稿では, 新たな形態保存アライメントフレームワークを用いて, 組織切片の抽出・調整によって得られる「体積コア」と呼ばれる新しいデジタル病理データソースを提案する。
我々は,Gleason Grade Group(GGG)を自動分類するために,ボリュームパッチから抽出した深い特徴に基づいて,注意に基づくマルチインスタンス学習(ABMIL)フレームワークを訓練した。
ボリュームパッチの処理には、自己教師付き学習を用いて事前学習した深い特徴抽出器を備えたビデオトランスフォーマーを使用した。
10,210のボリュームコアを構築するために,形態保存アライメントフレームワークを実行しました。
残りのデータセットはAMMILの訓練に使用され、平均0.958のAUC、0.671のF1スコア、0.661の精度、0.695のリコールは5GGで平均して2Dベースラインを上回った。
Prostate cancer (PCa) was the most frequently diagnosed cancer among American men in 2023. The histological grading of biopsies is essential for diagnosis, and various deep learning-based solutions have been developed to assist with this task. Existing deep learning frameworks are typically applied to individual 2D cross-sections sliced from 3D biopsy tissue specimens. This process impedes the analysis of complex tissue structures such as glands, which can vary depending on the tissue slice examined. We propose a novel digital pathology data source called a "volumetric core," obtained via the extraction and co-alignment of serially sectioned tissue sections using a novel morphology-preserving alignment framework. We trained an attention-based multiple-instance learning (ABMIL) framework on deep features extracted from volumetric patches to automatically classify the Gleason Grade Group (GGG). To handle volumetric patches, we used a modified video transformer with a deep feature extractor pretrained using self-supervised learning. We ran our morphology-preserving alignment framework to construct 10,210 volumetric cores, leaving out 30% for pretraining. The rest of the dataset was used to train ABMIL, which resulted in a 0.958 macro-average AUC, 0.671 F1 score, 0.661 precision, and 0.695 recall averaged across all five GGG significantly outperforming the 2D baselines. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 時間畳み込みのないマスター方程式による断熱除去
Time-Convolutionless Master Equation Applied to Adiabatic Elimination ( http://arxiv.org/abs/2409.08332v1 ) ライセンス: Link先を確認 | Masaaki Tokieda, Angela Riva, | (参考訳) オープン量子システム理論では、還元されたモデルは概念的理解と計算効率に非常に有用である。
断熱除去は, 時間スケールを分離したシステムにおいて, 急速に崩壊する自由度を捨てることで, 縮退モデルを導出する有用なモデル縮小法である。
これまでのところ、断熱除去は幾何学的アプローチを用いて定式化されており、汎用的で一般的な枠組みを提供している。
本稿では、オープン量子系における予測時間進化を計算するための広く認識されているツールであるTCLマスター方程式の枠組みによる断熱除去の改革について紹介する。
TCLマスター方程式の定式化は、幾何学的定式化から得られるものと同等の結果が得られることを示す。
典型例にTCLマスター方程式の定式化を適用することにより、断熱除去計算を行うための実践的方法論を実証する。
本研究は, 従来から独立した2つのアプローチを橋渡しするだけでなく, 幾何学的定式化において困難であった複雑な症例の解析も可能とした。
さらに、TCLマスター方程式の新たな幾何学的解釈を明らかにしている。
In open quantum systems theory, reduced models are invaluable for conceptual understanding and computational efficiency. Adiabatic elimination is a useful model reduction method for systems with separated timescales, where a reduced model is derived by discarding rapidly decaying degrees of freedom. So far, adiabatic elimination has been formulated using a geometric approach, which provides a versatile and general framework. This article introduces a reformulation of adiabatic elimination through the framework of the time-convolutionless (TCL) master equation, a widely recognized tool for computing projected time-evolution in open quantum systems. We show that the TCL master equation formulation yields results equivalent to those obtained from the geometric formulation. By applying the TCL master equation formulation to typical examples, we demonstrate a practical methodology for performing adiabatic elimination calculation. This study not only bridges two previously independent approaches, thereby making the adiabatic elimination method accessible to a broader audience, but also enables the analysis of complex cases that are challenging within the geometric formulation. Additionally, it reveals a novel geometric interpretation of the TCL master equation formalism. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 量子情報理論と作用素代数における不決定性と不完全性
Undecidability and incompleteness in quantum information theory and operator algebras ( http://arxiv.org/abs/2409.08342v1 ) ライセンス: Link先を確認 | Isaac Goldbring, | (参考訳) 我々は、最近の不確定性から生じる作用素代数における多くの不完全性の結果を、$\operatorname{MIP}^*=\operatorname{RE}$ として知られる量子複雑性理論で調べる。
また、確率論におけるAldous-Lyons予想の反証として、非常に最近の $\operatorname{MIP}^*=\operatorname{RE}$ の使用についても論じる。
We survey a number of incompleteness results in operator algebras stemming from the recent undecidability result in quantum complexity theory known as $\operatorname{MIP}^*=\operatorname{RE}$, the most prominent of which is the G\"odelian refutation of the Connes Embedding Problem. We also discuss the very recent use of $\operatorname{MIP}^*=\operatorname{RE}$ in refuting the Aldous-Lyons conjecture in probability theory. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# SIG:顔認識のための評価データセットを生成するための合成アイデンティティ生成パイプライン
SIG: A Synthetic Identity Generation Pipeline for Generating Evaluation Datasets for Face Recognition ( http://arxiv.org/abs/2409.08345v1 ) ライセンス: Link先を確認 | Kassi Nzalasse, Rishav Raj, Eli Laird, Corey Clark, | (参考訳) 人工知能の応用が拡大するにつれて、モデルの評価は厳しい監視に直面している。
公的準備の確保には評価データセットが必要であるが、これはプライバシー規制に従わなかったり倫理的に原因付けられたりすることで、トレーニングデータとは異なる。
顔認識システムの性能と公平性は、これらの評価データセットの品質と代表性に大きく依存する。
このデータは、ユーザーの同意なしにインターネットから取り除かれ、適切なリリースなしに使用を禁止できる倫理上の懸念を引き起こすことがある。
まれに、データは制御された環境で同意を得て収集されるが、このプロセスは時間がかかり、高価であり、論理的には実行が困難である。
このことは、倫理的にソースされた評価データセットを集めるのに必要な膨大なリソースを活用できない人々にとって、障壁となる。
これらの課題に対処するために、顔認識評価のための倫理的バランスの取れたデータセットをターゲットとするSIG(Synthetic Identity Generation Pipeline)を導入する。
提案したパイプラインは, 人種, 性別, 年齢など, 表情, 顔の特徴, 人口特性を制御可能な合成アイデンティティの高品質な画像を生成する。
また、提案したSIGパイプラインを用いて、人種、性別、年齢のバランスのとれた3,336のユニークな合成アイデンティティの10,008枚の顔画像からなる、ControlFace10kというオープンソースの評価データセットもリリースした。
ControlFace10kと、最先端の顔認識アルゴリズムを用いて、非合成BUPTデータセットを分析し、その評価ツールとしての有効性を実証する。
この分析は、異なる人口集団間でアルゴリズムバイアスを評価する際のデータセットの特徴とその有用性を強調している。
As Artificial Intelligence applications expand, the evaluation of models faces heightened scrutiny. Ensuring public readiness requires evaluation datasets, which differ from training data by being disjoint and ethically sourced in compliance with privacy regulations. The performance and fairness of face recognition systems depend significantly on the quality and representativeness of these evaluation datasets. This data is sometimes scraped from the internet without user's consent, causing ethical concerns that can prohibit its use without proper releases. In rare cases, data is collected in a controlled environment with consent, however, this process is time-consuming, expensive, and logistically difficult to execute. This creates a barrier for those unable to conjure the immense resources required to gather ethically sourced evaluation datasets. To address these challenges, we introduce the Synthetic Identity Generation pipeline, or SIG, that allows for the targeted creation of ethical, balanced datasets for face recognition evaluation. Our proposed and demonstrated pipeline generates high-quality images of synthetic identities with controllable pose, facial features, and demographic attributes, such as race, gender, and age. We also release an open-source evaluation dataset named ControlFace10k, consisting of 10,008 face images of 3,336 unique synthetic identities balanced across race, gender, and age, generated using the proposed SIG pipeline. We analyze ControlFace10k along with a non-synthetic BUPT dataset using state-of-the-art face recognition algorithms to demonstrate its effectiveness as an evaluation tool. This analysis highlights the dataset's characteristics and its utility in assessing algorithmic bias across different demographic groups. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 言語ミスマッチの効果の定量化と低減に向けて
Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing ( http://arxiv.org/abs/2409.08346v1 ) ライセンス: Link先を確認 | Tianchi Liu, Ivan Kukanov, Zihan Pan, Qiongqiong Wang, Hardik B. Sailor, Kong Aik Lee, | (参考訳) 言語ミスマッチの効果は音声の反偽造システムに影響を及ぼすが、これらの効果の調査と定量化は依然として限られている。
既存のアンチスプーフィングデータセットは主に英語であり、多言語データセットを取得するコストが高いことは、言語に依存しないトレーニングモデルを妨げる。
本研究は、英語データに基づいて訓練されるが、他の言語でテストされる最高の音声合成防止システムを評価し、顕著な性能低下を観察することによって開始する。
我々は、モノリンガル学習モデルに多様な言語知識を導入し、それらの言語間能力を改善した、アクセントベースのデータ拡張(ACCENT)を提案する。
私たちは、12言語にわたる180万のトレーニングサンプルと120万近いテストサンプルを含む、300万以上のサンプルからなる大規模なデータセットで実験を行います。
言語ミスマッチ効果はプリミティブに定量化され、提案したACCENTを適用して15%以上減少する。
この実装が容易なメソッドは、多言語および低リソースの言語シナリオを約束する。
The effects of language mismatch impact speech anti-spoofing systems, while investigations and quantification of these effects remain limited. Existing anti-spoofing datasets are mainly in English, and the high cost of acquiring multilingual datasets hinders training language-independent models. We initiate this work by evaluating top-performing speech anti-spoofing systems that are trained on English data but tested on other languages, observing notable performance declines. We propose an innovative approach - Accent-based data expansion via TTS (ACCENT), which introduces diverse linguistic knowledge to monolingual-trained models, improving their cross-lingual capabilities. We conduct experiments on a large-scale dataset consisting of over 3 million samples, including 1.8 million training samples and nearly 1.2 million testing samples across 12 languages. The language mismatch effects are preliminarily quantified and remarkably reduced over 15% by applying the proposed ACCENT. This easily implementable method shows promise for multilingual and low-resource language scenarios. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# Few-Shot概念学習のためのベイズ逆グラフ
Bayesian Inverse Graphics for Few-Shot Concept Learning ( http://arxiv.org/abs/2409.08351v1 ) ライセンス: Link先を確認 | Octavio Arriaga, Jichen Guo, Rebecca Adam, Sebastian Houben, Frank Kirchner, | (参考訳) 人間は一つの例から新しい概念の一般化を構築するのに長けている。
これとは対照的に、現在のコンピュータビジョンモデルは、通常、同等の精度を達成するために大量のトレーニングサンプルを必要とする。
本研究では,最小限のデータのみを用いて学習するベイズ的知覚モデルを提案する。
具体的には、1つまたは複数の画像から、物理的に一貫したパラメータよりも後方分布を推定するために、プリミティブ形状の生成逆グラフモデルを提案する。
本稿では、この表現が、少数ショット分類やポーズ推定などの下流タスクにどのように使用できるかを示す。
我々のモデルは、既存の数ショットのニューラル限定分類アルゴリズムより優れており、様々な照明条件、背景、分布外形状にまたがる一般化を実証している。
設計上,我々のモデルは不確実性を認識し,勾配降下による大域的シーンパラメータの最適化,マルコフ・チェイン・モンテカルロ(MCMC)による物体パラメータの後方分布のサンプリング,ニューラルベース確率関数を用いた。
Humans excel at building generalizations of new concepts from just one single example. Contrary to this, current computer vision models typically require large amount of training samples to achieve a comparable accuracy. In this work we present a Bayesian model of perception that learns using only minimal data, a prototypical probabilistic program of an object. Specifically, we propose a generative inverse graphics model of primitive shapes, to infer posterior distributions over physically consistent parameters from one or several images. We show how this representation can be used for downstream tasks such as few-shot classification and pose estimation. Our model outperforms existing few-shot neural-only classification algorithms and demonstrates generalization across varying lighting conditions, backgrounds, and out-of-distribution shapes. By design, our model is uncertainty-aware and uses our new differentiable renderer for optimizing global scene parameters through gradient descent, sampling posterior distributions over object parameters with Markov Chain Monte Carlo (MCMC), and using a neural based likelihood function. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 行列積状態を用いた一般化統計力学の学習
Learning Generalized Statistical Mechanics with Matrix Product States ( http://arxiv.org/abs/2409.08352v1 ) ライセンス: Link先を確認 | Pablo Díez-Valle, Fernando Martínez-García, Juan José García-Ripoll, Diego Porras, | (参考訳) 本稿では,標準ギブズエントロピーの代わりにTsallisエントロピーを用いて定義された一般化自由エネルギーを最小化することにより,行列積状態に基づく変分アルゴリズムを導入する。
その結果,一般化された統計力学に関連した確率分布が得られた。
結果として得られる自由エネルギーとその勾配は、サンプリングによってギブズエントロピーを推定する標準的な方法とは対照的に、テンソルネットワークの収縮によって正確に計算できる。
逆温度を上昇させることにより,局所的なミニマに閉じ込められないようにモデルを訓練することができる変分焼鈍方式を考案した。
我々は,Isingのスピングラス問題に対するアプローチの有効性を,厳密な数値計算と準エクサクティカル近似とを比較して示す。
我々の研究は、一般化された統計物理学を研究し、テンソルネットワークを用いた組合せ最適化問題を解く新しい可能性を開く。
We introduce a variational algorithm based on Matrix Product States that is trained by minimizing a generalized free energy defined using Tsallis entropy instead of the standard Gibbs entropy. As a result, our model can generate the probability distributions associated with generalized statistical mechanics. The resulting model can be efficiently trained, since the resulting free energy and its gradient can be calculated exactly through tensor network contractions, as opposed to standard methods which require estimating the Gibbs entropy by sampling. We devise a variational annealing scheme by ramping up the inverse temperature, which allows us to train the model while avoiding getting trapped in local minima. We show the validity of our approach in Ising spin-glass problems by comparing it to exact numerical results and quasi-exact analytical approximations. Our work opens up new possibilities for studying generalized statistical physics and solving combinatorial optimization problems with tensor networks. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 没入型人間中心ボリュームビデオのためのロバストデュアルガウススプラッティング
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos ( http://arxiv.org/abs/2409.08353v1 ) ライセンス: Link先を確認 | Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu, | (参考訳) ボリュームビデオはビジュアルメディアの革新的な進歩を表しており、ユーザーは没入型仮想体験を自由にナビゲートし、デジタルと現実世界のギャップを狭めることができる。
しかしながら、メッシュシーケンスを安定化するための広範囲な手作業による介入の必要性と、既存のワークフローにおける過剰な大規模なアセットの生成は、より広範な採用を妨げる。
本稿では, 圧縮比に優れた複雑な人間の演奏をリアルタイムかつ高忠実に再生するための新しいガウス的手法である「textit{DualGS}」を提案する。
DualGSのキーとなるアイデアは、対応する皮膚と関節のガウスを用いて、動きと外観を別々に表現することである。
このような明示的な絡み合いは、運動の冗長性を著しく低減し、時間的コヒーレンスを高める。
まずDualGSを初期化し、第1フレームでGaussianと共同でGaussianをアンカーする。
その後、フレームごとの人間パフォーマンスモデリングに粗大なトレーニング戦略を採用する。
これには、全体の動き予測のための粗いアライメントフェーズと、ロバストなトラッキングと高忠実度レンダリングのためのきめ細かい最適化が含まれている。
ボリューム映像をVR環境にシームレスに統合するために,エントロピー符号化とコーデック圧縮と永続的なコードブックを組み合わせることで,動きを効率よく圧縮する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
本稿は,VRヘッドセット上での映像リアリスティックなフリービュー体験による表現の有効性を実証し,演奏中のミュージシャンを没入的に観察し,演奏者の指先で音符のリズムを感じることを可能にする。
Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed \textit{DualGS}, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# COMEX銅がボラティリティ予測を推し進める - 計量モデルとディープラーニング
COMEX Copper Futures Volatility Forecasting: Econometric Models and Deep Learning ( http://arxiv.org/abs/2409.08356v1 ) ライセンス: Link先を確認 | Zian Wang, Xinyi Lu, | (参考訳) 本稿では,様々な高周波数間隔におけるCOMEX銅先物のボラティリティの予測性能について,エコノメトリのボラティリティモデルとディープラーニングのリカレントニューラルネットワークモデルの両方を用いて検討する。
検討対象のeconometric modelはGARCHとHARであり、ディープラーニングモデルにはRNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)がある。
COMEX銅先物の毎日のボラティリティをローリングウインドウアプローチで予測する際、計量モデル、特にHARは、QLIKE損失関数の最小値を達成するとともに、全体の再帰ニューラルネットワークを上回った。
しかし、データが時間ごとの高周波化ボラティリティに置き換えられると、ディープラーニングモデルはGARCHモデルより優れ、HARは同等のQLIKE損失関数値を得る。
機械学習モデルのブラックボックスの性質にもかかわらず、ディープラーニングモデルはより優れた予測性能を示し、実験においてHARの固定QLIKE値を上回っている。
さらに、予測地平線が日々実現されるボラティリティのために広がるにつれて、ディープラーニングモデルは、特定の損失関数のメトリクスにおいて、GARCHモデルとパフォーマンスギャップを徐々に閉じる。
それでも、HARは銅先物における日々のボラティリティ予測において、全体として最も効果的なモデルである。
This paper investigates the forecasting performance of COMEX copper futures realized volatility across various high-frequency intervals using both econometric volatility models and deep learning recurrent neural network models. The econometric models considered are GARCH and HAR, while the deep learning models include RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), and GRU (Gated Recurrent Unit). In forecasting daily realized volatility for COMEX copper futures with a rolling window approach, the econometric models, particularly HAR, outperform recurrent neural networks overall, with HAR achieving the lowest QLIKE loss function value. However, when the data is replaced with hourly high-frequency realized volatility, the deep learning models outperform the GARCH model, and HAR attains a comparable QLIKE loss function value. Despite the black-box nature of machine learning models, the deep learning models demonstrate superior forecasting performance, surpassing the fixed QLIKE value of HAR in the experiment. Moreover, as the forecast horizon extends for daily realized volatility, deep learning models gradually close the performance gap with the GARCH model in certain loss function metrics. Nonetheless, HAR remains the most effective model overall for daily realized volatility forecasting in copper futures. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# LLMによる競争性市場行動に関する実験的研究
An Experimental Study of Competitive Market Behavior Through LLMs ( http://arxiv.org/abs/2409.08357v1 ) ライセンス: Link先を確認 | Jingru Jia, Zehua Yuan, | (参考訳) 本研究では,市場実験を行うための大規模言語モデル (LLM) の可能性について検討し,競争市場のダイナミクスを理解する能力を理解することを目的とした。
我々は,市場エージェントの行動を制御された実験環境でモデル化し,競争均衡に向けて収束する能力を評価する。
その結果,人間の取引行動に特徴的な動的意思決定プロセスの複製において,LLMが直面する課題が明らかになった。
人間とは異なり、LLMは市場均衡を達成する能力に欠けていた。
この研究は、LLMがスケーラブルで再現可能な市場シミュレーションのための貴重なツールを提供する一方で、現在の制限は市場行動の複雑さを完全に捉えるためにさらなる進歩を必要としていることを実証している。
動的学習能力を高め、行動経済学の要素を取り入れた将来の仕事は、経済領域におけるLLMの有効性を改善し、市場のダイナミクスに関する新たな洞察を提供し、経済政策の洗練に寄与する。
This study explores the potential of large language models (LLMs) to conduct market experiments, aiming to understand their capability to comprehend competitive market dynamics. We model the behavior of market agents in a controlled experimental setting, assessing their ability to converge toward competitive equilibria. The results reveal the challenges current LLMs face in replicating the dynamic decision-making processes characteristic of human trading behavior. Unlike humans, LLMs lacked the capacity to achieve market equilibrium. The research demonstrates that while LLMs provide a valuable tool for scalable and reproducible market simulations, their current limitations necessitate further advancements to fully capture the complexities of market behavior. Future work that enhances dynamic learning capabilities and incorporates elements of behavioral economics could improve the effectiveness of LLMs in the economic domain, providing new insights into market dynamics and aiding in the refinement of economic policies. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# LightSABRE:軽量で拡張されたSABREアルゴリズム
LightSABRE: A Lightweight and Enhanced SABRE Algorithm ( http://arxiv.org/abs/2409.08368v1 ) ライセンス: Link先を確認 | Henry Zou, Matthew Treinish, Kevin Hartman, Alexander Ivrii, Jake Lishman, | (参考訳) 我々は,実行効率と回路品質の両方を向上するSABREアルゴリズムの大幅な拡張であるLightSABREを紹介する。
LightSABREは、複雑なシナリオや数百万のゲートを持つ回路に対応できる現代の量子ハードウェアの需要の増加に対処する。
主にRust言語を使用して、Qiskit内で反復開発を行うことで、Qiskit 1.2.0のアルゴリズムのバージョンを達成しました。これは、リリースバルブ機構のような重要な改善をすでに導入している、Qiskit 0.20.1の実装の約200倍高速です。
加えて、Li et al で示されるSABREアルゴリズムと比較して、LightSABREは、同じベンチマーク回路でSWAPゲート数を平均 18.9 % 減少させる。
大規模回路のスケーラビリティと収束に苦慮しているSABREとは異なり、LightSABREは一貫して高品質なルーティングソリューションを提供し、近未来の量子デバイス上で大規模量子回路の効率的な実行を可能にしている。
LightSABREのスピード、スケーラビリティ、品質の向上は、進化する量子ハードウェアとエラー訂正技術の文脈で量子回路を最適化するための重要なツールとして位置づけている。
We introduce LightSABRE, a significant enhancement of the SABRE algorithm that advances both runtime efficiency and circuit quality. LightSABRE addresses the increasing demands of modern quantum hardware, which can now accommodate complex scenarios, and circuits with millions of gates. Through iterative development within Qiskit, primarily using the Rust programming language, we have achieved a version of the algorithm in Qiskit 1.2.0 that is approximately 200 times faster than the implementation in Qiskit 0.20.1, which already introduced key improvements like the release valve mechanism. Additionally, when compared to the SABRE algorithm presented in Li et al., LightSABRE delivers an average decrease of 18.9\% in SWAP gate count across the same benchmark circuits. Unlike SABRE, which struggles with scalability and convergence on large circuits, LightSABRE delivers consistently high-quality routing solutions, enabling the efficient execution of large quantum circuits on near-term and future quantum devices. LightSABRE's improvements in speed, scalability, and quality position it as a critical tool for optimizing quantum circuits in the context of evolving quantum hardware and error correction techniques. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# E-qurtic:資源最適化学習のための畳み込みニューラルネットワークのエネルギー効率の良いエッジアンサンブル
E-QUARTIC: Energy Efficient Edge Ensemble of Convolutional Neural Networks for Resource-Optimized Learning ( http://arxiv.org/abs/2409.08369v1 ) ライセンス: Link先を確認 | Le Zhang, Onat Gungor, Flavio Ponzina, Tajana Rosing, | (参考訳) アンサンブル学習(英: Ensemble learning)は、複数の学習者の予測を組み合わせるメタ学習手法である。
それでも、畳み込みニューラルネットワーク(CNN)のようなアンサンブルモデルでは、メモリとコンピューティングのオーバーヘッドが高くなり、組み込みシステムへのデプロイを妨げている。
これらの装置は通常、電源を供給する小さな電池を備えており、環境からエネルギーを抽出するエネルギー保護モジュールを含んでいる。
本研究では,人工知能(AI)をベースとした組込みシステムを対象とした,CNNのアンサンブルを構築するための,新しいエネルギー効率の良いエッジ組立フレームワークであるE-QUARTICを提案する。
我々の設計は、単一インスタンスCNNベースラインと最先端のエッジAIソリューションより優れており、精度を改善し、同様のメモリ要件を維持しながら、様々なエネルギー条件に適応する。
そこで我々は,設計アンサンブルのマルチCNN構造を利用して,エネルギー保護型AIシステムにおけるエネルギー認識モデル選択ポリシーを実装した。
システム故障率を最大40%削減し,高い平均出力品質を確保することで,我々のソリューションは最先端のソリューションよりも優れていることを示す。
最終的に、提案設計により、エッジでのデバイス上での同時トレーニングと高品質な推論実行が可能となり、性能とエネルギーオーバーヘッドが0.04%未満に制限されることを示す。
Ensemble learning is a meta-learning approach that combines the predictions of multiple learners, demonstrating improved accuracy and robustness. Nevertheless, ensembling models like Convolutional Neural Networks (CNNs) result in high memory and computing overhead, preventing their deployment in embedded systems. These devices are usually equipped with small batteries that provide power supply and might include energy-harvesting modules that extract energy from the environment. In this work, we propose E-QUARTIC, a novel Energy Efficient Edge Ensembling framework to build ensembles of CNNs targeting Artificial Intelligence (AI)-based embedded systems. Our design outperforms single-instance CNN baselines and state-of-the-art edge AI solutions, improving accuracy and adapting to varying energy conditions while maintaining similar memory requirements. Then, we leverage the multi-CNN structure of the designed ensemble to implement an energy-aware model selection policy in energy-harvesting AI systems. We show that our solution outperforms the state-of-the-art by reducing system failure rate by up to 40% while ensuring higher average output qualities. Ultimately, we show that the proposed design enables concurrent on-device training and high-quality inference execution at the edge, limiting the performance and energy overheads to less than 0.04%. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# FedProphet: 理論的ロバスト性および低一貫性カスケード学習によるメモリ効率の良いフェデレーション・アドバイザリトレーニング
FedProphet: Memory-Efficient Federated Adversarial Training via Theoretic-Robustness and Low-Inconsistency Cascade Learning ( http://arxiv.org/abs/2409.08372v1 ) ライセンス: Link先を確認 | Minxue Tang, Yitu Wang, Jingyang Zhang, Louis DiValentin, Aolin Ding, Amin Hass, Yiran Chen, Hai "Helen" Li, | (参考訳) フェデレーション学習(FL)は、データ共有をトレーニングせずにエッジデバイス間のローカルトレーニングを可能にすることで、強力なプライバシ保証を提供する。
しかし、FATは強い堅牢性を達成しながら高い精度を維持するために大きなモデルを必要とし、メモリスワッピング遅延のため、メモリ制限されたエッジデバイスを直接トレーニングする場合は、急激な遅くなる。
さらに、既存のメモリ効率FL法は、局所的および大域的モデル、すなわち目的的不整合性のために、FATの精度が悪く、堅牢性が弱い。
本稿では,FedProphetを提案する。FedProphetは,メモリ効率,対向ロバスト性,目標整合性を同時に実現できる新しいFATフレームワークである。
FedProphetは、大きなモデルを小さなカスケードモジュールに分割する。
強凸正則化は、理論上モデル全体の堅牢性を保証するために導出され、強凸性はFedProphetにおける低客観的不整合を示すことを示す。
また,FL のサーバ上でのトレーニングコーディネータを開発し,実用ロバスト性バランスのための適応摂動調整と,目的的不整合軽減のための微分モジュールアサインメントを開発した。
FedProphetは、従来のメモリ効率の手法と比べて精度と堅牢性の両方を実証的に向上させ、80%のメモリ削減と最大10.8倍のスピードアップでエンドツーエンドのFATの性能をほぼ同等に達成した。
Federated Learning (FL) provides a strong privacy guarantee by enabling local training across edge devices without training data sharing, and Federated Adversarial Training (FAT) further enhances the robustness against adversarial examples, promoting a step toward trustworthy artificial intelligence. However, FAT requires a large model to preserve high accuracy while achieving strong robustness, and it is impractically slow when directly training with memory-constrained edge devices due to the memory-swapping latency. Moreover, existing memory-efficient FL methods suffer from poor accuracy and weak robustness in FAT because of inconsistent local and global models, i.e., objective inconsistency. In this paper, we propose FedProphet, a novel FAT framework that can achieve memory efficiency, adversarial robustness, and objective consistency simultaneously. FedProphet partitions the large model into small cascaded modules such that the memory-constrained devices can conduct adversarial training module-by-module. A strong convexity regularization is derived to theoretically guarantee the robustness of the whole model, and we show that the strong robustness implies low objective inconsistency in FedProphet. We also develop a training coordinator on the server of FL, with Adaptive Perturbation Adjustment for utility-robustness balance and Differentiated Module Assignment for objective inconsistency mitigation. FedProphet empirically shows a significant improvement in both accuracy and robustness compared to previous memory-efficient methods, achieving almost the same performance of end-to-end FAT with 80% memory reduction and up to 10.8x speedup in training time. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# サブスペース冷却によるQudit量子冷凍機の測定
Measurement-based qudit quantum refrigerator with subspace cooling ( http://arxiv.org/abs/2409.08375v1 ) ライセンス: Link先を確認 | Debkanta Ghosh, Tanoy Kanti Konar, Aditi Sen De, | (参考訳) 我々は,高次元スピン系の集合を,局所スピンスハミルトニアンの非常に高温の熱状態から,低エネルギー固有状態へ変換する方法を開発した。
この手順は補助システム、全てのシステム間の相互作用、補助システム上で実行される任意のランクの適切な射影測定を利用する。
この過程をサブスペース冷却と呼ぶ。
目標状態の忠実度を出力1で判定し、結果の状態を達成する成功確率を判定してプロトコルの性能を評価する。
この解析のために、スピン-s XXZ と双線型双立方体モデルが進化するハミルトニアンとして用いられる。
どちらのシナリオにおいても、全ての系が開鎖に配列されているとき、単位の忠実度は適切な回数の反復測定と有限量の進化時間によって達成できるが、スピン間の相互作用が星の構成に従うと失敗する。
固定次元の測定におけるプロジェクターのランクとともに成功確率が上昇し、各次元に対して、その忠実度を最大化する相互作用強度と進化期間の幅が存在することを報告する。
いくつかのサブシステムが熱浴に接触している場合でも、脱コヒーレンスに耐性があることが証明される。
We develop a method to transform a collection of higher-dimensional spin systems from the thermal state with a very high temperature of a local spin-s Hamiltonian to a low-lying energy eigenstate of the same. The procedure utilizes an auxiliary system, interactions between all systems, and appropriate projective measurements of arbitrary rank performed on the auxiliary system. We refer to this process as subspace cooling. The performance of the protocol is assessed by determining the fidelity of the target state with the output one and the success probability of achieving the resulting state. For this analysis, spin-s XXZ and bilinear biquadratic models are employed as the evolving Hamiltonian. We demonstrate that in both scenarios, unit fidelity can be attained after a reasonable number of repeated measurements and a finite amount of evolution time when all the systems are aligned in an open chain, but it fails when the interactions between the spin follow the star configuration. We report that the success probability increases with the rank of the projectors in the measurement for a fixed dimension and that for each dimension, there exists a range of interaction strength and evolution period for which the fidelity gets maximized. Even when some subsystems are in contact with the thermal bath, the method proves to be resistant to decoherence. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 画像と点雲の学習圧縮
Learned Compression for Images and Point Clouds ( http://arxiv.org/abs/2409.08376v1 ) ライセンス: Link先を確認 | Mateen Ulhaq, | (参考訳) 過去10年間、ディープラーニングは、分類、超解像、スタイル転送を含むコンピュータビジョンタスクの実行において大きな成功を収めてきた。
現在,次世代のマルチメディアコーデックの構築を支援するために,データ圧縮に適用している。
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。
まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。
第2に,非特殊化コーデックに比べてビットレートの大幅な低減を実現し,分類に高度に特化している軽量低複雑点クラウドコーデックを提案する。
最後に、連続するビデオフレーム間の入力領域内の動きが、対応する畳み込みから導かれる潜在空間にどのように現れるかを検討する。
Over the last decade, deep learning has shown great success at performing computer vision tasks, including classification, super-resolution, and style transfer. Now, we apply it to data compression to help build the next generation of multimedia codecs. This thesis provides three primary contributions to this new field of learned compression. First, we present an efficient low-complexity entropy model that dynamically adapts the encoding distribution to a specific input by compressing and transmitting the encoding distribution itself as side information. Secondly, we propose a novel lightweight low-complexity point cloud codec that is highly specialized for classification, attaining significant reductions in bitrate compared to non-specialized codecs. Lastly, we explore how motion within the input domain between consecutive video frames is manifested in the corresponding convolutionally-derived latent space. | 翻訳日:2024-09-16 18:37:11 公開日:2024-09-12 |
# 連続基底系の確率的絡み合い
Probing entanglement of a continuous basis system ( http://arxiv.org/abs/2409.08378v1 ) ライセンス: Link先を確認 | Pablo C. López Vázquez, Luis M. Piñuelas, Gustavo Montes, | (参考訳) 本稿では,非アクセス性連続基底量子系における絡み合いを探索する手法を提案する。
本手法は,量子オシレータ(qubit-oscillator)-(qubit-oscillator)サブシステムによって構成される4粒子系において,各量子ビットが1つの発振器のみとdephasing結合を介して相互作用するが,量子ビットと発振器の相互作用は考慮されない。
In this paper we propose a method to probe entanglement in a non-accessible continuous basis quantum system. The method is based on our observations about the conservation of entanglement found in a 4 partite system set up constituted by a (qubit-oscillator)-(qubit-oscillator) sub-systems in which each qubit interacts with only one oscillator via a dephasing coupling while no interaction between the qubits nor the oscillators is considered during the dynamics. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 大規模な言語モデルがオープンソースイノベーションに与える影響 - GitHub Copilotからの証拠
The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot ( http://arxiv.org/abs/2409.08379v1 ) ライセンス: Link先を確認 | Doron Yeverechyahu, Raveesh Mayya, Gal Oestreicher-Singer, | (参考訳) ジェネレーティブAI(GenAI)は、ガイド付き環境で個人の生産性を高めることが示されている。
また、協調作業環境でプロセスを変換する可能性もありますが、この変換がどんな軌道で進むのかは定かではありません。
コラボレーション環境は、スクラッチから何かを構築することを含む創発的タスクと、他人の作業に精通する反復的タスクが混ざり合っているのが特徴である。
GenAIが協調作業のこの2つの側面に影響を及ぼすかどうかは、オープンな実証的な疑問である。
我々は、この疑問をオープンソース開発の世界において研究し、協力的イノベーションの第一の例である。
具体的には、2021年10月のGitHub Copilotのローンチに重点を置いて、GitHub Copilot(プログラミング中心のLLM)がPythonのサポートを選択的にロールアウトした自然な実験を活用しています。
興味深いことに、Copilotのローンチによってメンテナンス関連のコントリビューションが増加し、これは主に他人の作業にまつわる反復的なタスクであり、コード開発のコントリビューションよりもはるかに多い。
この格差は、広範囲なコーディング活動を持つアクティブプロジェクトにおいて悪化し、GenAIモデルがよりリッチなコンテキストに対応するように改善されるにつれ、起源と反復的なソリューションの間のギャップが拡大するのではないかという懸念が高まった。
我々は、高価値イノベーティブなソリューションにインセンティブを与えるための実践的および政策的な意味について論じる。
Generative AI (GenAI) has been shown to enhance individual productivity in a guided setting. While it is also likely to transform processes in a collaborative work setting, it is unclear what trajectory this transformation will follow. Collaborative environment is characterized by a blend of origination tasks that involve building something from scratch and iteration tasks that involve refining on others' work. Whether GenAI affects these two aspects of collaborative work and to what extent is an open empirical question. We study this question within the open-source development landscape, a prime example of collaborative innovation, where contributions are voluntary and unguided. Specifically, we focus on the launch of GitHub Copilot in October 2021 and leverage a natural experiment in which GitHub Copilot (a programming-focused LLM) selectively rolled out support for Python, but not for R. We observe a significant jump in overall contributions, suggesting that GenAI effectively augments collaborative innovation in an unguided setting. Interestingly, Copilot's launch increased maintenance-related contributions, which are mostly iterative tasks involving building on others' work, significantly more than code-development contributions, which are mostly origination tasks involving standalone contributions. This disparity was exacerbated in active projects with extensive coding activity, raising concerns that, as GenAI models improve to accommodate richer context, the gap between origination and iterative solutions may widen. We discuss practical and policy implications to incentivize high-value innovative solutions. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 部分アノテーションを用いた複数ラベル認識のためのプロンプト戦略の再考
Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations ( http://arxiv.org/abs/2409.08381v1 ) ライセンス: Link先を確認 | Samyak Rawlekar, Shubhang Bhatnagar, Narendra Ahuja, | (参考訳) CLIPのような視覚言語モデル(VLM)は、プロンプト学習を活用して部分アノテーションでマルチラベル認識(MLR)に適応し、各クラスに対して、クラスの存在や共有視覚テキストの特徴空間の欠如を関連付けるために、正と負のプロンプトを学習している。
提案手法は,VLM の先行性に依存することで MLR 性能を向上させるが,VLM の学習に使用されるデータセットには,クラス不在に特化してイメージキャプチャペアが欠如しているため,学習の負のプロンプトが最適以下である可能性があるという仮説を立てる。
MLRにおける正と負のプロンプト学習の影響を分析するために、テキストエンコーダを使わずに、VLM誘導で1つのプロンプトのみを学習し、もう1つは共有特徴空間で直接学習された埋め込みベクトルに置き換える、PositiveCoOpとNegativeCoOpを導入する。
経験的分析により、負のプロンプトはMLR性能を低下させ、学習は正のプロンプトのみを減少させ、学習された負の埋め込み(PositiveCoOp)と組み合わせることで、二重のプロンプト学習アプローチよりも優れることがわかった。
さらに、単純な視覚機能のみのベースラインに対してプロンプト学習が提供するパフォーマンスの利点を定量化し、不足ラベルの割合が低い場合、ベースラインがデュアルプロンプト学習アプローチ(DualCoOp)に匹敵する強力なパフォーマンスを示し、トレーニング計算の半分と16倍のパラメータを必要とする。
Vision-language models (VLMs) like CLIP have been adapted for Multi-Label Recognition (MLR) with partial annotations by leveraging prompt-learning, where positive and negative prompts are learned for each class to associate their embeddings with class presence or absence in the shared vision-text feature space. While this approach improves MLR performance by relying on VLM priors, we hypothesize that learning negative prompts may be suboptimal, as the datasets used to train VLMs lack image-caption pairs explicitly focusing on class absence. To analyze the impact of positive and negative prompt learning on MLR, we introduce PositiveCoOp and NegativeCoOp, where only one prompt is learned with VLM guidance while the other is replaced by an embedding vector learned directly in the shared feature space without relying on the text encoder. Through empirical analysis, we observe that negative prompts degrade MLR performance, and learning only positive prompts, combined with learned negative embeddings (PositiveCoOp), outperforms dual prompt learning approaches. Moreover, we quantify the performance benefits that prompt-learning offers over a simple vision-features-only baseline, observing that the baseline displays strong performance comparable to dual prompt learning approach (DualCoOp), when the proportion of missing labels is low, while requiring half the training compute and 16 times fewer parameters | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 未知非線形系の制御のための安定保証を用いた確率強化学習
Stochastic Reinforcement Learning with Stability Guarantees for Control of Unknown Nonlinear Systems ( http://arxiv.org/abs/2409.08382v1 ) ライセンス: Link先を確認 | Thanin Quartz, Ruikun Zhou, Hans De Sterck, Jun Liu, | (参考訳) 非線形システムのための安定化コントローラの設計は、特に未知のダイナミクスを持つ高次元問題において難しい課題である。
従来の強化学習アルゴリズムを安定化タスクに適用すると、システムは平衡点に近づく傾向にある。
しかし、これらのアプローチは真の安定化を達成するには足りず、平衡点の周りで持続的な振動が起こる。
本研究では,力学の局所的線形表現を学習することでシステムを安定化する強化学習アルゴリズムを提案する。
このアルゴリズムの主な構成要素は、学習したゲインマトリックスを直接神経ポリシーに統合することである。
本稿では,いくつかの高次元力学系におけるアルゴリズムの有効性を示す。
これらのシミュレーションにおいて,本アルゴリズムは,ソフトアクタクリティカル(SAC)やPPO(Phyximal Policy Optimization)などの一般的な強化学習アルゴリズムよりも優れ,システムの安定化に成功している。
解析結果を支援するため,提案アルゴリズムの収束解析とともに,決定論的および確率的強化学習設定における学習アルゴリズムの有効性に関する理論的解析を行った。
さらに,学習した制御ポリシーが非線形システムに漸近安定性をもたらすことを検証した。
Designing a stabilizing controller for nonlinear systems is a challenging task, especially for high-dimensional problems with unknown dynamics. Traditional reinforcement learning algorithms applied to stabilization tasks tend to drive the system close to the equilibrium point. However, these approaches often fall short of achieving true stabilization and result in persistent oscillations around the equilibrium point. In this work, we propose a reinforcement learning algorithm that stabilizes the system by learning a local linear representation ofthe dynamics. The main component of the algorithm is integrating the learned gain matrix directly into the neural policy. We demonstrate the effectiveness of our algorithm on several challenging high-dimensional dynamical systems. In these simulations, our algorithm outperforms popular reinforcement learning algorithms, such as soft actor-critic (SAC) and proximal policy optimization (PPO), and successfully stabilizes the system. To support the numerical results, we provide a theoretical analysis of the feasibility of the learned algorithm for both deterministic and stochastic reinforcement learning settings, along with a convergence analysis of the proposed learning algorithm. Furthermore, we verify that the learned control policies indeed provide asymptotic stability for the nonlinear systems. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# ノイズ低位カラムワイドセンシング
Noisy Low Rank Column-wise Sensing ( http://arxiv.org/abs/2409.08384v1 ) ライセンス: Link先を確認 | Ankit Pratap Singh, Namrata Vaswani, | (参考訳) このレターでは、ノイズの多い低ランクカラムワイドセンシング(LRCS)問題を解決するためにAltGDminアルゴリズムを研究している。
我々のサンプル複雑性保証は、$\max(r, \log(1/\epsilon))/r$で、$r$は未知行列のランク、$\epsilon$は最終的な精度によって改善される。
この研究の2つ目の貢献は、LRCSと全く同じ数学的問題を研究する全ての研究から得られた保証の詳細な比較である。
This letter studies the AltGDmin algorithm for solving the noisy low rank column-wise sensing (LRCS) problem. Our sample complexity guarantee improves upon the best existing one by a factor $\max(r, \log(1/\epsilon))/r$ where $r$ is the rank of the unknown matrix and $\epsilon$ is the final desired accuracy. A second contribution of this work is a detailed comparison of guarantees from all work that studies the exact same mathematical problem as LRCS, but refers to it by different names. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 信頼できない環境におけるエージェントの自己監督的推論
Self-Supervised Inference of Agents in Trustless Environments ( http://arxiv.org/abs/2409.08386v1 ) ライセンス: Link先を確認 | Vladyslav Larin, Ivan Nikitin, Alexander Firsov, | (参考訳) 本稿では,エージェントがSwarmを形成し,高品質な応答を効果的に生成する手法を提案する。
これはデータ推論とランク付けが可能なエージェントを活用することで実現され、LSMを応答分類器として効果的に実装することができる。
我々は、信頼できないエージェント推論のための既存のアプローチを評価し、方法論を定義し、実用的なパラメータを推定し、様々な種類の悪意のあるエージェント攻撃をモデル化する。
我々の手法は、Swarmの集合的知性を活用し、より正確な精度、セキュリティ、信頼性で堅牢で効率的な分散AI推論を保証する。
我々のアプローチは、125ミリ秒未満の検証レイテンシに達する他の信頼できない推論戦略よりも、桁違いに高速であることを示す。
In this paper, we propose a novel approach where agents can form swarms to produce high-quality responses effectively. This is accomplished by utilizing agents capable of data inference and ranking, which can be effectively implemented using LLMs as response classifiers. We assess existing approaches for trustless agent inference, define our methodology, estimate practical parameters, and model various types of malicious agent attacks. Our method leverages the collective intelligence of swarms, ensuring robust and efficient decentralized AI inference with better accuracy, security, and reliability. We show that our approach is an order of magnitude faster than other trustless inference strategies reaching less than 125 ms validation latency. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 連続確率モデルのための正規化極大近似計算の基礎
Foundation of Calculating Normalized Maximum Likelihood for Continuous Probability Models ( http://arxiv.org/abs/2409.08387v1 ) ライセンス: Link先を確認 | Atsushi Suzuki, Kota Fukuzawa, Kenji Yamanishi, | (参考訳) 最小記述長原理に基づくモデル選択基準として、最も短いNML符号長を持つモデルを選択するために、正規化最大可能性(NML)符号長が広く使用される。
NML符号長を計算する一般的な方法は、最大極大推定器の分布によって定義される関数の和(離散モデル)または積分(連続モデル)を使用することである。
この手法は離散モデルのNML符号長を正確に計算することが証明されているが、連続した場合の証明は得られていない。
その結果、連続モデルのNML符号長を正確に計算できるかどうかは不明である。
本稿では,本手法が連続例においても正しいことを証明することによって,この問題を肯定的に解決する。
注目すべきは、離散モデルケース証明の和に適用される分解トリックが連続モデルケース証明の積分には適用されないため、離散ケースの和を積分に置き換えるだけでは達成できないという点において、連続ケースの証明を完了することは自明ではないことである。
これを解決するために,幾何測度理論のコアレア式に基づく新しい分解手法を導入する。
The normalized maximum likelihood (NML) code length is widely used as a model selection criterion based on the minimum description length principle, where the model with the shortest NML code length is selected. A common method to calculate the NML code length is to use the sum (for a discrete model) or integral (for a continuous model) of a function defined by the distribution of the maximum likelihood estimator. While this method has been proven to correctly calculate the NML code length of discrete models, no proof has been provided for continuous cases. Consequently, it has remained unclear whether the method can accurately calculate the NML code length of continuous models. In this paper, we solve this problem affirmatively, proving that the method is also correct for continuous cases. Remarkably, completing the proof for continuous cases is non-trivial in that it cannot be achieved by merely replacing the sums in discrete cases with integrals, as the decomposition trick applied to sums in the discrete model case proof is not applicable to integrals in the continuous model case proof. To overcome this, we introduce a novel decomposition approach based on the coarea formula from geometric measure theory, which is essential to establishing our proof for continuous cases. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 3次元点雲における連続的学習 : スペクトル技術を用いた模擬選択
Continual Learning in 3D Point Clouds: Employing Spectral Techniques for Exemplar Selection ( http://arxiv.org/abs/2409.08388v1 ) ライセンス: Link先を確認 | Hossein Resani, Behrooz Nasihatkon, Mohammadreza Alimoradi Jazi, | (参考訳) 本稿では,3次元オブジェクト分類(CL3D)における連続学習のための新しいフレームワークを提案する。
提案手法は,スペクトルクラスタリングを用いた各クラスからのプロトタイプの選択に基づく。
点雲のようなユークリッドでないデータに対して、スペクトルクラスタリングは、サンプルのペア間の距離測定を定義することができる限り用いられる。
適切な距離尺度を選択することで、3次元幾何学的特徴を活用して各クラスの代表プロトタイプを識別する。
入力空間(3Dポイント)、局所特徴空間(1024次元ポイント)、大域特徴空間におけるクラスタリングの有効性について検討する。
我々は,ModelNet40,ShapeNet,ScanNetのデータセット上で実験を行い,入力空間の特徴を用いることで,最先端の精度を実現する。
インプット,ローカル,グローバルの両機能を組み合わせることで,ModelNetとShapeNetの最先端性を向上し,競合するアプローチで使用されるメモリのほぼ半分を活用しました。
難易度の高いScanNetデータセットでは,コンペティタが使用したメモリの28%しか消費せず,精度を4.1%向上させ,アプローチのスケーラビリティを実証する。
We introduce a novel framework for Continual Learning in 3D object classification (CL3D). Our approach is based on the selection of prototypes from each class using spectral clustering. For non-Euclidean data such as point clouds, spectral clustering can be employed as long as one can define a distance measure between pairs of samples. Choosing the appropriate distance measure enables us to leverage 3D geometric characteristics to identify representative prototypes for each class. We explore the effectiveness of clustering in the input space (3D points), local feature space (1024-dimensional points), and global feature space. We conduct experiments on the ModelNet40, ShapeNet, and ScanNet datasets, achieving state-of-the-art accuracy exclusively through the use of input space features. By leveraging the combined input, local, and global features, we have improved the state-of-the-art on ModelNet and ShapeNet, utilizing nearly half the memory used by competing approaches. For the challenging ScanNet dataset, our method enhances accuracy by 4.1% while consuming just 28% of the memory used by our competitors, demonstrating the scalability of our approach. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 高次トポロジカル指向性と単純なニューラルネットワーク
Higher-Order Topological Directionality and Directed Simplicial Neural Networks ( http://arxiv.org/abs/2409.08389v1 ) ライセンス: Link先を確認 | Manuel Lecha, Andrea Cavallo, Francesca Dominici, Elvin Isufi, Claudio Battiloro, | (参考訳) トポロジカル・ディープ・ラーニング(TDL)は、単純化や細胞複合体のような高次組合せトポロジカル・トポロジカル・スペースで定義された信号の処理と学習のパラダイムとして登場した。
多くの複雑な系は非対称な関係構造を持つが、ほとんどのTDLモデルはこれらの関係を強制的に対称性付けている。
本稿では,まず高次方向性の概念を導入し,それに基づいてDir-SNN(Directed Simplicial Neural Networks)を設計する。
Dir-SNNは、有向およびおそらく非対称な相互作用をシンプルに活用できる有向simplicialコンプレックス上で動作するメッセージパッシングネットワークである。
我々の知る限り、これは高次方向性の概念を用いた最初のTDLモデルである。
我々は、Dir-SNNが同型有向グラフの区別において、その有向グラフよりも表現性が高いことを理論的および経験的に証明する。
合成ソースローカライゼーションタスクの実験により、Dir-SNNは、基礎となるコンプレックスが指示されたとき、非指向SNNよりも優れ、基礎となるコンプレックスが指示されていないとき、コンパラブルに実行可能であることが示された。
Topological Deep Learning (TDL) has emerged as a paradigm to process and learn from signals defined on higher-order combinatorial topological spaces, such as simplicial or cell complexes. Although many complex systems have an asymmetric relational structure, most TDL models forcibly symmetrize these relationships. In this paper, we first introduce a novel notion of higher-order directionality and we then design Directed Simplicial Neural Networks (Dir-SNNs) based on it. Dir-SNNs are message-passing networks operating on directed simplicial complexes able to leverage directed and possibly asymmetric interactions among the simplices. To our knowledge, this is the first TDL model using a notion of higher-order directionality. We theoretically and empirically prove that Dir-SNNs are more expressive than their directed graph counterpart in distinguishing isomorphic directed graphs. Experiments on a synthetic source localization task demonstrate that Dir-SNNs outperform undirected SNNs when the underlying complex is directed, and perform comparably when the underlying complex is undirected. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# AI、ブロックチェーン、スマートコントラクトを用いたサイバーセキュリティコンプライアンス自動化と脅威応答
Automated Cybersecurity Compliance and Threat Response Using AI, Blockchain & Smart Contracts ( http://arxiv.org/abs/2409.08390v1 ) ライセンス: Link先を確認 | Lampis Alevizos, Vinh Thong Ta, | (参考訳) 組織における内部セキュリティポリシーコンプライアンスと動的脅威応答の課題に対処するために、人工知能(AI)、ブロックチェーン、スマートコントラクトを統合する新しいフレームワークを提案する。
本稿では,セキュリティポリシの実施を自動化し,手作業や潜在的なヒューマンエラーを減らすシステムを提案する。
AIを利用することで、サイバー脅威のインテリジェンスを迅速に分析し、非コンプライアンスを特定し、サイバー防御機構を自動的に調整することができます。
ブロックチェーン技術はコンプライアンスアクションの透過的なロギングのための不変の台帳を提供し、スマートコントラクトはセキュリティ対策の統一的な適用を保証する。
フレームワークの有効性はシミュレーションを通じて実証され、従来の手法と比較してコンプライアンスの実施率と応答時間が改善されている。
最終的に、当社のアプローチは、複雑なセキュリティポリシを管理し、コストを削減し、コンプライアンスを達成しながら効率を向上するためのスケーラブルなソリューションを提供します。
最後に,システムをさらに洗練し,実装上の課題に対処するために,実践的な意味を議論し,今後の研究の方向性を提案する。
To address the challenges of internal security policy compliance and dynamic threat response in organizations, we present a novel framework that integrates artificial intelligence (AI), blockchain, and smart contracts. We propose a system that automates the enforcement of security policies, reducing manual effort and potential human error. Utilizing AI, we can analyse cyber threat intelligence rapidly, identify non-compliances and automatically adjust cyber defence mechanisms. Blockchain technology provides an immutable ledger for transparent logging of compliance actions, while smart contracts ensure uniform application of security measures. The framework's effectiveness is demonstrated through simulations, showing improvements in compliance enforcement rates and response times compared to traditional methods. Ultimately, our approach provides for a scalable solution for managing complex security policies, reducing costs and enhancing the efficiency while achieving compliance. Finally, we discuss practical implications and propose future research directions to further refine the system and address implementation challenges. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# プラズマ中の励起状態集団の連続生成のための絡み合った2光子吸収
Entangled two-photon absorption for the continuous generation of excited state populations in plasma ( http://arxiv.org/abs/2409.08391v1 ) ライセンス: Link先を確認 | David R. Smith, Matthias Beuting, Daniel J. Den Hartog, Benedikt Geiger, Scott T. Sanders, Xuting Yang, Jennifer T. Choy, | (参考訳) 絡み合った2光子吸収(ETPA)は、局所プラズマ乱流または不純物密度の高帯域分光測定のために、プラズマ中の励起状態の集団を継続的に駆動する技術である可能性がある。
古典的な2光子吸収は、一般的に高強度のパルスレーザーを必要とするが、短絡時間と高時間相関を持つ絡み合った光子は、低強度の連続波レーザーを用いるETPAを可能にする。
特に、非直交光子発生のETPAは、単一のレーザー源を用いて吸収または蛍光信号のクロスビーム空間局在を可能にする。
光子生成,ETPA断面積,Ar-II種の候補遷移,ヘリコンプラズマにおけるプリンシプル測定の計画について論じる。
Entangled two-photon absorption (ETPA) may be a viable technique to continuously drive an excited state population in plasma for high-bandwidth spectroscopy measurements of localized plasma turbulence or impurity density. Classical two-photon absorption commonly requires a high-intensity, pulsed laser, but entangled photons with short entanglement time and high time correlation may allow for ETPA using a lower intensity, continuous-wave laser. Notably, ETPA with non-collinear entangled photon generation allows for cross-beam spatial localization of the absorption or fluorescence signal using a single laser source. Entangled photon generation, the ETPA cross-section, candidate transitions for an Ar-II species, and plans for a proof-of-principle measurement in a helicon plasma are discussed. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 重い喫煙者におけるrs-fMRIデータのグラフ構造学習
Graphical Structural Learning of rs-fMRI data in Heavy Smokers ( http://arxiv.org/abs/2409.08395v1 ) ライセンス: Link先を確認 | Yiru Gong, Qimin Zhang, Huili Zhen, Zheyan Liu, Shaohan Chen, | (参考訳) 最近の研究では、ヘビースモーカーの構造と機能的脳の変化が明らかになった。
しかし、トポロジカルな脳のつながりの具体的な変化はよく理解されていない。
喫煙者や喫煙者以外の者からのrs-fMRIデータに対するグラフラッソアルゴリズムを用いたガウス的非指向グラフを用いて、脳接続の顕著な変化を同定した。
以上の結果から, 推定値の安定性が高く, 喫煙の影響が大きい脳領域を同定し, 今後の臨床研究に有用な知見を提供することができた。
Recent studies revealed structural and functional brain changes in heavy smokers. However, the specific changes in topological brain connections are not well understood. We used Gaussian Undirected Graphs with the graphical lasso algorithm on rs-fMRI data from smokers and non-smokers to identify significant changes in brain connections. Our results indicate high stability in the estimated graphs and identify several brain regions significantly affected by smoking, providing valuable insights for future clinical research. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# Federated One-Shot Ensemble Clustering
Federated One-Shot Ensemble Clustering ( http://arxiv.org/abs/2409.08396v1 ) ライセンス: Link先を確認 | Rui Duan, Xin Xiong, Jueyi Liu, Katherine P. Liao, Tianxi Cai, | (参考訳) 複数の機関にまたがるクラスタ分析は、データ共有の制限によって大きな課題を引き起こす。
このような制約を克服するために,Federated One-shot Ensemble Clustering (FONT)アルゴリズムを導入する。
FONTはサイト間の1ラウンドの通信しか必要とせず、適合したモデルパラメータとクラスラベルのみを交換することでプライバシーを確保する。
このアルゴリズムは、局所的に適合したクラスタリングモデルをデータ適応アンサンブルに組み合わせ、様々なクラスタリング技術に広く適用し、サイト間でのクラスタ比の差異に頑健である。
本稿では,FONTが学習したデータ適応重みの有効性を理論的に検証し,既存のベンチマーク手法と比較して優れた性能を示す。
FONTを用いて関節リウマチ患者のサブグループを2つの健康システムで同定し,各部位における患者クラスターの整合性の改善がみられた。
FONTは、通信とプライバシーの制約が厳しい現実世界のアプリケーションには特に適しており、マルチサイトクラスタリングのためのスケーラブルで実用的なソリューションを提供する。
Cluster analysis across multiple institutions poses significant challenges due to data-sharing restrictions. To overcome these limitations, we introduce the Federated One-shot Ensemble Clustering (FONT) algorithm, a novel solution tailored for multi-site analyses under such constraints. FONT requires only a single round of communication between sites and ensures privacy by exchanging only fitted model parameters and class labels. The algorithm combines locally fitted clustering models into a data-adaptive ensemble, making it broadly applicable to various clustering techniques and robust to differences in cluster proportions across sites. Our theoretical analysis validates the effectiveness of the data-adaptive weights learned by FONT, and simulation studies demonstrate its superior performance compared to existing benchmark methods. We applied FONT to identify subgroups of patients with rheumatoid arthritis across two health systems, revealing improved consistency of patient clusters across sites, while locally fitted clusters proved less transferable. FONT is particularly well-suited for real-world applications with stringent communication and privacy constraints, offering a scalable and practical solution for multi-site clustering. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 360PanT: トレーニング不要のテキスト駆動型360度パノラマ-パノラマ-パノラマ翻訳
360PanT: Training-Free Text-Driven 360-Degree Panorama-to-Panorama Translation ( http://arxiv.org/abs/2409.08397v1 ) ライセンス: Link先を確認 | Hai Wang, Jing-Hao Xue, | (参考訳) 360度パノラマの翻訳における境界連続性を維持することは、既存のテキスト駆動画像-画像変換法において重要な課題である。
これらの方法は、しばしば翻訳されたパノラマの境界で視覚的に不連続を生じさせ、没入感を損なう。
この問題に対処するために,テキストベースの360度パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ/パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノ
私たちの360PanTは、境界連続性符号化と空間制御によるシームレスなタイリング変換という、2つの重要なコンポーネントによるシームレスな翻訳を実現しています。
第一に、符号化された境界連続性は、入力された360度パノラマの臨界境界連続性情報を拡張された入力画像を構築することによりノイズの潜在表現に埋め込む。
第二に、この組込み雑音の潜在表現を利用し、ターゲットプロンプトでガイドされる、空間制御によるシームレスなタイリング変換により、拡張入力の構造とセマンティックレイアウトに固執しつつ、左右のハーフを持つ翻訳画像を生成することができる。
このプロセスは、シームレスな境界連続性を持つ360度パノラマの最終的な変換を保証する。
実世界のデータセットと合成データセットの両方の実験結果は、360度パノラマの翻訳における360PanTの有効性を示している。
コードは \href{https://github.com/littlewhitesea/360PanT}{https://github.com/littlewhitesea/360PanT} で公開されている。
Preserving boundary continuity in the translation of 360-degree panoramas remains a significant challenge for existing text-driven image-to-image translation methods. These methods often produce visually jarring discontinuities at the translated panorama's boundaries, disrupting the immersive experience. To address this issue, we propose 360PanT, a training-free approach to text-based 360-degree panorama-to-panorama translation with boundary continuity. Our 360PanT achieves seamless translations through two key components: boundary continuity encoding and seamless tiling translation with spatial control. Firstly, the boundary continuity encoding embeds critical boundary continuity information of the input 360-degree panorama into the noisy latent representation by constructing an extended input image. Secondly, leveraging this embedded noisy latent representation and guided by a target prompt, the seamless tiling translation with spatial control enables the generation of a translated image with identical left and right halves while adhering to the extended input's structure and semantic layout. This process ensures a final translated 360-degree panorama with seamless boundary continuity. Experimental results on both real-world and synthesized datasets demonstrate the effectiveness of our 360PanT in translating 360-degree panoramas. Code is available at \href{https://github.com/littlewhitesea/360PanT}{https://github.com/littlewhitesea/360PanT}. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# スコア・アズ・アクション-連続的強化学習による微調整拡散モデルの枠組み
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning ( http://arxiv.org/abs/2409.08400v1 ) ライセンス: Link先を確認 | Hanyang Zhao, Haoxian Chen, Ji Zhang, David D. Yao, Wenpin Tang, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、生成モデルと人間の意図との整合性を示す有望な方向を示し、拡散生成モデルの整合性についても最近の研究で研究されている。
本研究では,人間のフィードバックから学習した報酬関数を探索的連続時間確率制御問題として,微調整拡散モデルのタスクを定式化し,厳密な処理を行う。
我々のキーとなる考え方は、スコアマッチング機能を制御/アクションとして扱うことであり、これに基づいて、拡散モデルの生成品質を改善するための強化学習(RL)アルゴリズムを連続的な視点から開発する。
我々はまた、確率的異なる方程式駆動環境の仮定の下で、ポリシー最適化と正規化のための対応する連続時間RL理論を開発した。
テキスト・トゥ・イメージ(T2I)生成の実験を随伴する論文で報告する。
Reinforcement Learning from human feedback (RLHF) has been shown a promising direction for aligning generative models with human intent and has also been explored in recent works for alignment of diffusion generative models. In this work, we provide a rigorous treatment by formulating the task of fine-tuning diffusion models, with reward functions learned from human feedback, as an exploratory continuous-time stochastic control problem. Our key idea lies in treating the score-matching functions as controls/actions, and upon this, we develop a unified framework from a continuous-time perspective, to employ reinforcement learning (RL) algorithms in terms of improving the generation quality of diffusion models. We also develop the corresponding continuous-time RL theory for policy optimization and regularization under assumptions of stochastic different equations driven environment. Experiments on the text-to-image (T2I) generation will be reported in the accompanied paper. | 翻訳日:2024-09-16 18:27:26 公開日:2024-09-12 |
# 大規模言語モデルに基づくマルチエージェントシステムによる知識タグ付け
Knowledge Tagging with Large Language Model based Multi-Agent System ( http://arxiv.org/abs/2409.08406v1 ) ライセンス: Link先を確認 | Hang Li, Tianlong Xu, Ethan Chang, Qingsong Wen, | (参考訳) 質問に対する知識タグ付けは、学習進行診断、実践的質問推薦、コースコンテンツ組織など、現代のインテリジェントな教育アプリケーションにおいて不可欠である。
伝統的に、これらのアノテーションは教育の専門家によって実行されてきた。タスクは質問の根幹と知識定義の深い意味的理解を要求するだけでなく、問題解決論理と関連する知識概念を結びつける強力な能力も要求する。
事前訓練された言語モデルや大規模言語モデル(LLM)などの高度な自然言語処理(NLP)アルゴリズムの出現に伴い、様々な機械学習モデルを用いた知識タグ付けプロセスの自動化が研究されている。
本稿では,従来のアルゴリズムの制約,特に複雑な知識定義や厳密な数値制約を含む複雑なケースに対処するためのマルチエージェントシステムについて検討する。
公開されている数学質問知識タグ付けデータセットであるMathKnowCTにおいて、その優れた性能を示すことで、従来の手法が直面した課題を克服する上で、LLMベースのマルチエージェントシステムの可能性を強調した。
最後に,知識タグ付けの自動化に関する深い議論を通じて,LLMベースのアルゴリズムを教育的文脈に展開する有望な結果について述べる。
Knowledge tagging for questions is vital in modern intelligent educational applications, including learning progress diagnosis, practice question recommendations, and course content organization. Traditionally, these annotations have been performed by pedagogical experts, as the task demands not only a deep semantic understanding of question stems and knowledge definitions but also a strong ability to link problem-solving logic with relevant knowledge concepts. With the advent of advanced natural language processing (NLP) algorithms, such as pre-trained language models and large language models (LLMs), pioneering studies have explored automating the knowledge tagging process using various machine learning models. In this paper, we investigate the use of a multi-agent system to address the limitations of previous algorithms, particularly in handling complex cases involving intricate knowledge definitions and strict numerical constraints. By demonstrating its superior performance on the publicly available math question knowledge tagging dataset, MathKnowCT, we highlight the significant potential of an LLM-based multi-agent system in overcoming the challenges that previous methods have encountered. Finally, through an in-depth discussion of the implications of automating knowledge tagging, we underscore the promising results of deploying LLM-based algorithms in educational contexts. | 翻訳日:2024-09-16 18:17:43 公開日:2024-09-12 |
# 分散量子制御ハードウェアのためのグラフベースパルス表現
Graph-Based Pulse Representation for Diverse Quantum Control Hardware ( http://arxiv.org/abs/2409.08407v1 ) ライセンス: Link先を確認 | Aniket S. Dalvi, Leon Riesebos, Jacob Whitlow, Kenneth R. Brown, | (参考訳) 量子系のパルスレベル制御は、従来の回路モデルでは基本的にサポートされていないゲート実装、校正手順、ハミルトン進化を可能にするために重要である。
このレベルの制御は、効率的な生成と表現の両方を必要とする。
本研究では,グラフに基づくパルスレベル表現であるPulselibを提案する。
パラメータ化された基本波形からなるノードからなるグラフ構造は、ハードウェア固有の入力への変換を柔軟に保ちながら、すべての高レベルパルス情報を格納する。
我々は、その特徴セットとソフトウェアスタックのパルス層を流れる情報と、現在利用可能なパルス表現とを比較して、パルスリブを動機づける。
本稿では,従来のコンパイルパイプラインの抽象構文木(AST)モデルを模倣した表現のアーキテクチャについて述べる。
最後に,Pulselibのグラフアーキテクチャによる制約や実装を記述・表現可能な,トラップイオン固有ゲートやシェルビングパルススキームなどのアプリケーションの概要を述べる。
Pulse-level control of quantum systems is critical for enabling gate implementations, calibration procedures, and Hamiltonian evolution which fundamentally are not supported by the traditional circuit model. This level of control necessitates both efficient generation and representation. In this work, we propose pulselib - a graph-based pulse-level representation. A graph structure, with nodes consisting of parametrized fundamental waveforms, stores all the high-level pulse information while staying flexible for translation into hardware-specific inputs. We motivate pulselib by comparing its feature set and information flow through the pulse layer of the software stack with currently available pulse representations. We describe the architecture of this proposed representation that mimics the abstract syntax tree (AST) model from classical compilation pipelines. Finally, we outline applications like trapped-ion-specific gate and shelving pulse schemes whose constraints and implementation can be written and represented due to pulselib's graph-based architecture. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# ワッサースタイン分布ロバスト多クラス支持ベクトルマシン
Wasserstein Distributionally Robust Multiclass Support Vector Machine ( http://arxiv.org/abs/2409.08409v1 ) ライセンス: Link先を確認 | Michael Ibrahim, Heraldo Rozas, Nagi Gebraeel, | (参考訳) データの特徴である$\mathbf{x}$とそのラベルである$\mathbf{y}$が不確実な設定におけるマルチクラス分類の問題について検討する。
分散ロバストな1-vs-all(OVA)分類器は、不均衡なデータの設定にしばしば苦労する。
この問題に対処するために、我々は、分散ロバストな最適化を用いて、クラマー・シンガー(CS)損失を特徴とするマルチクラスサポートベクターマシン(SVM)のロバストバージョンを開発する。
まず、CS損失は、すべての$\mathbf{x} \in \mathcal{X}$および$\mathbf{y} \in \mathcal{Y}$に対して、上からリプシッツ連続函数によって有界であることが証明され、さらに、最悪のケースリスク問題の双対を表現するために強い双対性結果を利用して、CS損失の正則性により、最悪のケースリスク最小化問題が引き起こされることを示す。
さらに, 非線形クラス分離を考慮に入れた提案モデルのカーネルバージョンを開発し, トラクタブル凸上界を許容することを示す。
また,線形モデルの特殊ケースに対して,拡張性を向上させるために提案手法を提案する。
我々の数値実験は、トレーニングデータが高度に不均衡な環境で、我々のモデルは最先端のOVAモデルより優れていることを示した。
また、人気のある実世界のデータセットの実験を通して、提案されたモデルが、後者とは異なり、不確実なラベルの最初の説明として正規化されたデータセットよりも優れていることを示す。
We study the problem of multiclass classification for settings where data features $\mathbf{x}$ and their labels $\mathbf{y}$ are uncertain. We identify that distributionally robust one-vs-all (OVA) classifiers often struggle in settings with imbalanced data. To address this issue, we use Wasserstein distributionally robust optimization to develop a robust version of the multiclass support vector machine (SVM) characterized by the Crammer-Singer (CS) loss. First, we prove that the CS loss is bounded from above by a Lipschitz continuous function for all $\mathbf{x} \in \mathcal{X}$ and $\mathbf{y} \in \mathcal{Y}$, then we exploit strong duality results to express the dual of the worst-case risk problem, and we show that the worst-case risk minimization problem admits a tractable convex reformulation due to the regularity of the CS loss. Moreover, we develop a kernel version of our proposed model to account for nonlinear class separation, and we show that it admits a tractable convex upper bound. We also propose a projected subgradient method algorithm for a special case of our proposed linear model to improve scalability. Our numerical experiments demonstrate that our model outperforms state-of-the art OVA models in settings where the training data is highly imbalanced. We also show through experiments on popular real-world datasets that our proposed model often outperforms its regularized counterpart as the first accounts for uncertain labels unlike the latter. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# 任意のフォトニック基板上の単一光子検出器
Single-photon detectors on arbitrary photonic substrates ( http://arxiv.org/abs/2409.08412v1 ) ライセンス: Link先を確認 | Max Tao, Hugo Larocque, Samuel Gyger, Marco Colangelo, Owen Medeiros, Ian Christen, Hamed Sattari, Gregory Choong, Yves Petremand, Ivan Prieto, Yang Yu, Stephan Steinhauer, Gerald L. Leake, Daniel J. Coleman, Amir H. Ghadimi, Michael L. Fanto, Val Zwiller, Dirk Englund, Carlos Errando-Herranz, | (参考訳) 古典的でない光を検出することは、フォトニクスベースの量子技術にとって重要な要件である。
超伝導ナノワイヤ単光子検出器(SNSPD)は、ファイバーおよび集積フォトニック用途の先駆的な検出器技術として位置づけられている。
しかし、中心的な課題は、材料プラットフォームや表面トポグラフィに関わらず、フォトニック集積回路への統合である。
本稿では、これらの制約を克服し、任意のフォトニック基板へのSNSPDの統合を可能にする転送印刷に基づく手法を提案する。
絶縁体集積フォトニック回路上で, SNSPDを集積し, 市販シリコンおよびニオブ酸リチウムの過渡導波路単光子検出によりこれを証明した。
提案手法は、高品質な単一光子検出器の統合によるボトルネックを排除し、スケーラブルな量子情報処理のための汎用的でアクセスしやすいビルディングブロックにする。
Detecting non-classical light is a central requirement for photonics-based quantum technologies. Unrivaled high efficiencies and low dark counts have positioned superconducting nanowire single photon detectors (SNSPDs) as the leading detector technology for fiber and integrated photonic applications. However, a central challenge lies in their integration within photonic integrated circuits regardless of material platform or surface topography. Here, we introduce a method based on transfer printing that overcomes these constraints and allows for the integration of SNSPDs onto arbitrary photonic substrates. We prove this by integrating SNSPDs and showing through-waveguide single-photon detection in commercially manufactured silicon and lithium niobate on insulator integrated photonic circuits. Our method eliminates bottlenecks to the integration of high-quality single-photon detectors, turning them into a versatile and accessible building block for scalable quantum information processing. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# CausalBench - 因果解析と機械学習のための柔軟なベンチマークフレームワーク
Introducing CausalBench: A Flexible Benchmark Framework for Causal Analysis and Machine Learning ( http://arxiv.org/abs/2409.08419v1 ) ライセンス: Link先を確認 | Ahmet Kapkiç, Pratanu Mandal, Shu Wan, Paras Sheth, Abhinav Gorantla, Yoonhyuk Choi, Huan Liu, K. Selçuk Candan, | (参考訳) 多くのアプリケーションで機械学習(ML)技術が例外的に成功したのを目撃する一方で、ユーザはMLの重大な欠点に気づき始めている。
因果関係を発見する従来の方法はランダム化制御実験(RCT)を使用することであるが、多くの場合、これらは非現実的であるか、時には非倫理的である。
観測データからの因果学習は、有望な代替手段を提供する。
比較的最近になってはいるが、因果学習は従来の機械学習以上のものを目指しているが、いくつかの大きな課題が残っている。
残念ながら、因果学習のためのベンチマークデータセット、アルゴリズム、メトリクス、評価サービスインターフェースが統一されていないため、進歩は妨げられている。
本稿では,透明で公正で使いやすい評価プラットフォームである {\em CausalBench} を紹介する。
(a)新しいアルゴリズム、データセット、メトリクスにおける科学的協力を促進することにより、因果学習の研究の進展を可能にする。
b) 因果学習研究における科学的客観性、再現性、公正性及び偏見の認識を促進すること。
CausalBenchは、データ、アルゴリズム、モデル、メトリクスをベンチマークするサービスを提供する。
While witnessing the exceptional success of machine learning (ML) technologies in many applications, users are starting to notice a critical shortcoming of ML: correlation is a poor substitute for causation. The conventional way to discover causal relationships is to use randomized controlled experiments (RCT); in many situations, however, these are impractical or sometimes unethical. Causal learning from observational data offers a promising alternative. While being relatively recent, causal learning aims to go far beyond conventional machine learning, yet several major challenges remain. Unfortunately, advances are hampered due to the lack of unified benchmark datasets, algorithms, metrics, and evaluation service interfaces for causal learning. In this paper, we introduce {\em CausalBench}, a transparent, fair, and easy-to-use evaluation platform, aiming to (a) enable the advancement of research in causal learning by facilitating scientific collaboration in novel algorithms, datasets, and metrics and (b) promote scientific objectivity, reproducibility, fairness, and awareness of bias in causal learning research. CausalBench provides services for benchmarking data, algorithms, models, and metrics, impacting the needs of a broad of scientific and engineering disciplines. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# Max-Plus-Linear近似によるQ-Iteration
Fitted Q-Iteration via Max-Plus-Linear Approximation ( http://arxiv.org/abs/2409.08422v1 ) ライセンス: Link先を確認 | Y. Liu, M. A. S. Kolarijani, | (参考訳) 本研究では,値下げマルコフ決定過程のオフライン強化学習におけるQ-関数に対する最大+線形近似器の適用について検討する。
特に、これらの近似器を組み込んで、証明可能な収束性を持つ新しい適合Q-iteration (FQI) アルゴリズムを提案する。
ベルマン演算子の最大余剰演算との整合性を明らかにすることで、提案したFQIアルゴリズムの各反復における最大余剰線形回帰は、単純な最大余剰行列ベクトル乗法に還元されることを示す。
また,提案アルゴリズムの変分的実装について検討し,サンプル数に依存しない点数毎の複雑性を導出する。
In this study, we consider the application of max-plus-linear approximators for Q-function in offline reinforcement learning of discounted Markov decision processes. In particular, we incorporate these approximators to propose novel fitted Q-iteration (FQI) algorithms with provable convergence. Exploiting the compatibility of the Bellman operator with max-plus operations, we show that the max-plus-linear regression within each iteration of the proposed FQI algorithm reduces to simple max-plus matrix-vector multiplications. We also consider the variational implementation of the proposed algorithm which leads to a per-iteration complexity that is independent of the number of samples. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# グラフ上のユニタリおよびオープン散乱量子ウォーク
Unitary and Open Scattering Quantum Walks on Graphs ( http://arxiv.org/abs/2409.08428v1 ) ライセンス: Link先を確認 | Alain Joye, | (参考訳) 任意のグラフ上のユニタリ量子ウォークのクラスを散乱行列の族によってパラメータ化する。
これらの散乱量子ウォークは、グラフのエッジ上の系の離散力学をモデル化し、それに割り当てられた散乱行列によって制御される各頂点における散乱過程をモデル化する。
Scattering Quantum Walksはいくつかの既知のQuantum Walksを含むことを示す。
さらに、任意のグラフ上のOpen Scattering Quantum Walksの2つのクラスを紹介し、また散乱行列によってパラメータ化される: 1つのクラスはエッジ上で定義され、もう1つのクラスはグラフの頂点上で定義される。
これらのウォークが適切な量子チャネルを生じさせ、それらの主スペクトルおよび力学特性を記述し、それらが自然に関連づけられた古典マルコフ連鎖と関連していることを示す。
We study a class of Unitary Quantum Walks on arbitrary graphs, parameterized by a family of scattering matrices. These Scattering Quantum Walks model the discrete dynamics of a system on the edges of the graph, with a scattering process at each vertex governed by the scattering matrix assigned to it. We show that Scattering Quantum Walks encompass several known Quantum Walks. Additionally, we introduce two classes of Open Scattering Quantum Walks on arbitrary graphs, also parameterized by scattering matrices: one class defined on the edges and the other on the vertices of the graph. We show that these walks give rise to proper Quantum Channels and describe their main spectral and dynamical properties, relating them to naturally associated classical Markov chains. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# 超低温極性分子の閉じ込め誘起場結合状態
Confinement-induced field-linked states of ultracold polar molecules ( http://arxiv.org/abs/2409.08431v1 ) ライセンス: Link先を確認 | Reuben R. W. Wang, John L. Bohn, | (参考訳) 我々は、静電場と1次元高調波閉じ込めの助けを借りて、超低温二原子分子の対間に安定な結合状態が存在することを予測した。
我々は,NaK-NaK同一フェルミオンの衝突に焦点を合わせ,現在達成可能な実験パラメータにより,これらの閉じ込め誘起場結合状態が散乱共鳴として観測できることを見出した。
境界状態は非常に安定であり、寿命は数十秒と推定される。
双極子長スケールのごく一部で二原子分子が結合しているため、これらの錯体は多原子化学やフェルミガス超流動対の探索を可能にする。
We predict the existence of stable bound states between pairs of ultracold diatomic molecules with the aid of a static electric field and 1D harmonic confinement. We focus on collisions of NaK-NaK identical fermions, for which we find that currently achievable experimental parameters allow the observation of these confinement-induced field-linked bound states as scattering resonances. The bound state is highly stable with lifetimes estimated to be tens of seconds long. With the diatomic molecules bound at distances a fraction of the dipolar length scale, these complexes allow for explorations of polyatomic chemistry and Fermi gas superfluid pairing. | 翻訳日:2024-09-16 18:17:42 公開日:2024-09-12 |
# DeCLIP: ディープフェイクローカライゼーションのためのCLIP表現のデコード
DeCLIP: Decoding CLIP representations for deepfake localization ( http://arxiv.org/abs/2409.08849v1 ) ライセンス: Link先を確認 | Stefan Smeu, Elisabeta Oneata, Dan Oneata, | (参考訳) 生成モデルは全く新しい画像を生成できるが、人間の目では検出できない方法で、実際の画像を部分的に修正することもできる。
本稿では,そのような局所的な操作を自動的に検出する課題に対処する。
ディープフェイク検出における最も差し迫った問題の1つは、モデルが様々な種類のジェネレータに一般化できることである。
完全に操作された画像の場合、CLIPのような大規模な自己監督型モデルから抽出された表現は、より堅牢な検出器への有望な方向を提供する。
本稿では,局所的な操作を検出するために,このような大規模な事前学習機能を活用する最初の試みであるDeCLIPを紹介する。
畳み込みデコーダと組み合わさると、事前訓練された自己教師付き表現は、既存の手法よりも局所化を行い、一般化能力を向上させることができることを示す。
従来の研究と異なり,本手法では,画像全体が生成者の指紋によって影響を受ける潜伏拡散モデル(英語版)の課題に対して,局所化を行うことができる。
さらに, 局所的な意味情報とグローバルな指紋を結合したこの種のデータにより, 生成手法の他のカテゴリよりも安定な一般化が期待できる。
Generative models can create entirely new images, but they can also partially modify real images in ways that are undetectable to the human eye. In this paper, we address the challenge of automatically detecting such local manipulations. One of the most pressing problems in deepfake detection remains the ability of models to generalize to different classes of generators. In the case of fully manipulated images, representations extracted from large self-supervised models (such as CLIP) provide a promising direction towards more robust detectors. Here, we introduce DeCLIP, a first attempt to leverage such large pretrained features for detecting local manipulations. We show that, when combined with a reasonably large convolutional decoder, pretrained self-supervised representations are able to perform localization and improve generalization capabilities over existing methods. Unlike previous work, our approach is able to perform localization on the challenging case of latent diffusion models, where the entire image is affected by the fingerprint of the generator. Moreover, we observe that this type of data, which combines local semantic information with a global fingerprint, provides more stable generalization than other categories of generative methods. | 翻訳日:2024-09-16 16:19:29 公開日:2024-09-12 |
# 深層クラスタリングアルゴリズムによる菊の苗品質分類の効率化
Establish seedling quality classification standard for Chrysanthemum efficiently with help of deep clustering algorithm ( http://arxiv.org/abs/2409.08867v1 ) ライセンス: Link先を確認 | Yanzhi Jing, Hongguang Zhao, Shujun Yu, | (参考訳) 食用菊苗の適度な基準を確立することは、苗の育種を促進し、植物の品質を向上させるのに役立つ。
しかし、現在のグレーディング手法にはいくつかの問題がある。
いくつかの指標のみをサポートする制限は、情報損失を引き起こし、苗レベルを評価するために選択された指標は、適用範囲が狭い。
一方、数式を誤用する手法もある。
そこで本研究では,ほとんどの植物種に適用可能な,柔軟なクラスタリングモジュールによる品質分類基準の確立を目的とした,シンプルで効率的で汎用的なフレームワークであるSQCSEFを提案する。
本研究では,最新の深層クラスタリングアルゴリズムCVCLを導入し,因子分析を用いて,CVCL法の入力としてインジケータを複数の視点に分割し,より合理的なクラスタ化を実現し,最終的には食用菊実生のグレーディング標準である$S_{cvcl}$を導入した。
広範な実験を行うことで,提案したSQCSEFフレームワークの正当性と効率を検証した。
Establishing reasonable standards for edible chrysanthemum seedlings helps promote seedling development, thereby improving plant quality. However, current grading methods have the several issues. The limitation that only support a few indicators causes information loss, and indicators selected to evaluate seedling level have a narrow applicability. Meanwhile, some methods misuse mathematical formulas. Therefore, we propose a simple, efficient, and generic framework, SQCSEF, for establishing seedling quality classification standards with flexible clustering modules, applicable to most plant species. In this study, we introduce the state-of-the-art deep clustering algorithm CVCL, using factor analysis to divide indicators into several perspectives as inputs for the CVCL method, resulting in more reasonable clusters and ultimately a grading standard $S_{cvcl}$ for edible chrysanthemum seedlings. Through conducting extensive experiments, we validate the correctness and efficiency of the proposed SQCSEF framework. | 翻訳日:2024-09-16 16:09:45 公開日:2024-09-12 |
# 教師なし楽音伝達のための潜時拡散ブリッジ
Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer ( http://arxiv.org/abs/2409.06096v2 ) ライセンス: Link先を確認 | Michele Mancusi, Yurii Halychanskyi, Kin Wai Cheuk, Chieh-Hsin Lai, Stefan Uhlich, Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Yuhki Mitsufuji, | (参考訳) 音楽の音色伝達は、旋律構造を保ちながら、音声信号の音色特性を変更するという難題である。
本稿では,ココホラレスデータセットを用いて訓練された二重拡散ブリッジに基づく新しい手法を提案する。
各拡散モデルは、ガウス事前を持つ特定の楽器で訓練される。
推測中、入力オーディオを対応するガウス先行にマッピングするソースモデルとしてモデルが指定され、ターゲットモデルとして別のモデルが指定され、このガウス先行からターゲットオーディオを再構成し、音色伝達を容易にする。
VAEGAN や Gaussian Flow Bridges (GFB) のような既存の教師なし音色伝達モデルとの比較を行った。
Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。
さらに,ガウス前の音レベルである$\sigma$はメロディ保存の程度と音色伝達量を制御するために調整できることがわかった。
Music timbre transfer is a challenging task that involves modifying the timbral characteristics of an audio signal while preserving its melodic structure. In this paper, we propose a novel method based on dual diffusion bridges, trained using the CocoChorales Dataset, which consists of unpaired monophonic single-instrument audio data. Each diffusion model is trained on a specific instrument with a Gaussian prior. During inference, a model is designated as the source model to map the input audio to its corresponding Gaussian prior, and another model is designated as the target model to reconstruct the target audio from this Gaussian prior, thereby facilitating timbre transfer. We compare our approach against existing unsupervised timbre transfer models such as VAEGAN and Gaussian Flow Bridges (GFB). Experimental results demonstrate that our method achieves both better Fr\'echet Audio Distance (FAD) and melody preservation, as reflected by lower pitch distances (DPD) compared to VAEGAN and GFB. Additionally, we discover that the noise level from the Gaussian prior, $\sigma$, can be adjusted to control the degree of melody preservation and amount of timbre transferred. | 翻訳日:2024-09-16 11:57:31 公開日:2024-09-12 |
# Prompt2Fashion: 自動生成されたファッションデータセット
Prompt2Fashion: An automatically generated fashion dataset ( http://arxiv.org/abs/2409.06442v2 ) ライセンス: Link先を確認 | Georgia Argyrou, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, | (参考訳) 言語と視覚生成モデルの急速な進化と効果の増大にもかかわらず、パーソナライズされたファッションニーズとAI駆動設計のギャップを埋める包括的なデータセットはいまだに欠如しており、真に包括的でカスタマイズされたファッションソリューションの可能性を制限する。
本研究では、生成モデルを利用して、ユーザが指示するさまざまな機会、スタイル、身体タイプに合わせて、ファッションイメージデータセットを自動構築する。
質的分析によって示されるように,我々は異なるLarge Language Model(LLM)を使用し,高度の美的品質,詳細,および専門家と非専門家の双方の要求に関連性のあるパーソナライズされた衣服を提供するための戦略を推進している。
これまでのところ、生成した服の評価は、専門家でない被験者によって行われてきた。
生成の質と関連性に関する詳細な知見を提供するにもかかわらず、我々は、このような芸術的AI生成データセットの評価において、専門家の知識の重要性についての議論を拡大する。
データセットはGitHubでhttps://github.com/georgiarg/Prompt2Fashion.comで公開されている。
Despite the rapid evolution and increasing efficacy of language and vision generative models, there remains a lack of comprehensive datasets that bridge the gap between personalized fashion needs and AI-driven design, limiting the potential for truly inclusive and customized fashion solutions. In this work, we leverage generative models to automatically construct a fashion image dataset tailored to various occasions, styles, and body types as instructed by users. We use different Large Language Models (LLMs) and prompting strategies to offer personalized outfits of high aesthetic quality, detail, and relevance to both expert and non-expert users' requirements, as demonstrated by qualitative analysis. Up until now the evaluation of the generated outfits has been conducted by non-expert human subjects. Despite the provided fine-grained insights on the quality and relevance of generation, we extend the discussion on the importance of expert knowledge for the evaluation of artistic AI-generated datasets such as this one. Our dataset is publicly available on GitHub at https://github.com/georgiarg/Prompt2Fashion. | 翻訳日:2024-09-16 11:48:15 公開日:2024-09-12 |
# DemoStart:マルチフィンガーロボットによるsim-to-realへの応用
DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots ( http://arxiv.org/abs/2409.06613v2 ) ライセンス: Link先を確認 | Maria Bauza, Jose Enrique Chen, Valentin Dalibard, Nimrod Gileadi, Roland Hafner, Murilo F. Martins, Joss Moore, Rugile Pevceviciute, Antoine Laurens, Dushyant Rao, Martina Zambelli, Martin Riedmiller, Jon Scholz, Konstantinos Bousmalis, Francesco Nori, Nicolas Heess, | (参考訳) 本稿では,3本指ロボットハンドを装備したアーム上での複雑な操作動作を,スパース報酬とシミュレーションにおける少数の実演から学習する,新しい自己カリキュラム強化学習手法であるDemoStartを提案する。
シミュレーションからの学習は、行動生成のサイクルを劇的に減らし、ドメインランダム化技術を活用して、ゼロショット・シム・トゥ・リアル転送を成功させる。
転送されたポリシーは、複数のカメラとロボットのプロプリセプションから生のピクセルから直接学習される。
提案手法は実ロボットの実証から学んだポリシーを上回り,シミュレーションで収集した100倍のデモを必要とする。
詳しくはhttps://sites.google.com/view/demostart.comを参照のこと。
We present DemoStart, a novel auto-curriculum reinforcement learning method capable of learning complex manipulation behaviors on an arm equipped with a three-fingered robotic hand, from only a sparse reward and a handful of demonstrations in simulation. Learning from simulation drastically reduces the development cycle of behavior generation, and domain randomization techniques are leveraged to achieve successful zero-shot sim-to-real transfer. Transferred policies are learned directly from raw pixels from multiple cameras and robot proprioception. Our approach outperforms policies learned from demonstrations on the real robot and requires 100 times fewer demonstrations, collected in simulation. More details and videos in https://sites.google.com/view/demostart. | 翻訳日:2024-09-16 11:48:15 公開日:2024-09-12 |
# 多要素帯域観測による最適データ駆動資源配分
Optimal Data Driven Resource Allocation under Multi-Armed Bandit Observations ( http://arxiv.org/abs/1811.12852v3 ) ライセンス: Link先を確認 | Apostolos N. Burnetas, Odysseas Kanavetas, Michael N. Katehakis, | (参考訳) 本稿では,多武装バンディット(MAB)モデルに対する側方制約下での漸近的最適戦略について紹介する。
サイド制約は、一定の速度で補充された特定の資源の可用性によって、バンドイットのアクティベーションが制限される状況をモデル化する。
主な結果は、一様に高速な政策を後悔する漸近的な下限の導出と、関連する条件下で、この下限を達成する政策の構築である。
さらに、未知の分布が未知の手段と未知の分散を持つ正規分布である場合、未知の手段と未知の分散を持つ正規分布の場合、有限な支持を持つ任意の離散分布に対して、そのようなポリシーの明示的な形式を提供する。
This paper introduces the first asymptotically optimal strategy for a multi armed bandit (MAB) model under side constraints. The side constraints model situations in which bandit activations are limited by the availability of certain resources that are replenished at a constant rate. The main result involves the derivation of an asymptotic lower bound for the regret of feasible uniformly fast policies and the construction of policies that achieve this lower bound, under pertinent conditions. Further, we provide the explicit form of such policies for the case in which the unknown distributions are Normal with unknown means and known variances, for the case of Normal distributions with unknown means and unknown variances and for the case of arbitrary discrete distributions with finite support. | 翻訳日:2024-09-15 16:28:34 公開日:2024-09-12 |
# ロボティクスにおける行動学習応用の実態と展望
A Survey of Behavior Learning Applications in Robotics -- State of the Art and Perspectives ( http://arxiv.org/abs/1906.01868v3 ) ライセンス: Link先を確認 | Alexander Fabisch, Christoph Petzoldt, Marc Otto, Frank Kirchner, | (参考訳) 近年、多くの領域における機械学習の成功は圧倒的なものとなり、ロボット工学における行動学習の能力に対する誤った期待につながっている。
本研究では,ロボット行動における機械学習の現状を分析する。
実際のロボットで学んだり使ったりした行動について、より広範囲に概説する。
私たちの焦点は、キネマティックまたは感覚的に複雑なロボットです。
これには、ヒューマノイドロボットや、足のついたロボットやロボットアームなど、ヒューマノイドロボットの一部が含まれる。
提示された行動は様々なカテゴリーで分類し、何が学べるか、何が学べるかという結論を引き出す。
さらに、現在課題となっているが将来的には機械学習によって解決される可能性がある問題を概観し、古典的なロボット工学や他の人工知能からのアプローチが、機械学習と統合されて完全な自律システムを形成するべきだと論じる。
Recent success of machine learning in many domains has been overwhelming, which often leads to false expectations regarding the capabilities of behavior learning in robotics. In this survey, we analyze the current state of machine learning for robotic behaviors. We will give a broad overview of behaviors that have been learned and used on real robots. Our focus is on kinematically or sensorially complex robots. That includes humanoid robots or parts of humanoid robots, for example, legged robots or robotic arms. We will classify presented behaviors according to various categories and we will draw conclusions about what can be learned and what should be learned. Furthermore, we will give an outlook on problems that are challenging today but might be solved by machine learning in the future and argue that classical robotics and other approaches from artificial intelligence should be integrated more with machine learning to form complete, autonomous systems. | 翻訳日:2024-09-15 16:28:34 公開日:2024-09-12 |
# Trolls Networkのソーシャル・フットプリント
Keeping it Authentic: The Social Footprint of the Trolls Network ( http://arxiv.org/abs/2409.07720v1 ) ライセンス: Link先を確認 | Ori Swed, Sachith Dassanayaka, Dimitri Volchenkov, | (参考訳) 2016年、ロシアの工作員によってアニメーション化されたソーシャルメディアアカウントのネットワークは、大統領選挙に関するアメリカ国民の政治的議論を分散させようとした。
これはロシア主導の複雑な情報処理の一部として協調的な作業であった。
ソーシャルメディアプラットフォームの匿名性とアウトリーチを活用して、ロシアの諜報員は通常のアメリカ人と直接接触し、ロシアのアジェンダと目標を促進するオンラインのアストロトゥルフを作った。
この種の敵対的アプローチの解明は、セキュリティ機関を無力化させ、この種の介入がもたらす固有の課題を強調した。
ソーシャルメディア上でのインフルエンスネットワークの機能に関する既存の奨学金に基づいて,このようなタイプの運用をマップする新たなアプローチを提案する。
我々は、正当な社会的アクターのふりをすると、ネットワークは社会的期待に従わざるを得ず、社会的フットプリントを残していると論じる。
この社会的フットプリントの堅牢性をテストするために、人工知能を訓練してそれを特定し、予測モデルを作成します。
我々は、人工知能を訓練し、予測をテストするために、ロシアの影響力ネットワークの一部として特定されたTwitterデータを使用します。
我々のモデルは、テストセットの88%の精度で予測できる。
2つの追加モデルで予測をテストすると、90.7%と90.5%の精度が得られ、モデルの妥当性が検証される。
予測と検証の結果は、ロシアの影響ネットワーク内の社会的機能を中心とした機械学習モデルの構築が、アクターと関数のマッピングに利用できることを示唆している。
In 2016, a network of social media accounts animated by Russian operatives attempted to divert political discourse within the American public around the presidential elections. This was a coordinated effort, part of a Russian-led complex information operation. Utilizing the anonymity and outreach of social media platforms Russian operatives created an online astroturf that is in direct contact with regular Americans, promoting Russian agenda and goals. The elusiveness of this type of adversarial approach rendered security agencies helpless, stressing the unique challenges this type of intervention presents. Building on existing scholarship on the functions within influence networks on social media, we suggest a new approach to map those types of operations. We argue that pretending to be legitimate social actors obliges the network to adhere to social expectations, leaving a social footprint. To test the robustness of this social footprint we train artificial intelligence to identify it and create a predictive model. We use Twitter data identified as part of the Russian influence network for training the artificial intelligence and to test the prediction. Our model attains 88% prediction accuracy for the test set. Testing our prediction on two additional models results in 90.7% and 90.5% accuracy, validating our model. The predictive and validation results suggest that building a machine learning model around social functions within the Russian influence network can be used to map its actors and functions. | 翻訳日:2024-09-15 16:28:34 公開日:2024-09-12 |
# 線形時間における木の最小射影線型化
Minimum projective linearizations of trees in linear time ( http://arxiv.org/abs/2102.03277v6 ) ライセンス: Link先を確認 | Lluís Alemany-Puig, Juan Luis Esteban, Ramon Ferrer-i-Cancho, | (参考訳) 最小線形配置問題(MLA)は、グラフの頂点から、$\sum_{\{u,v\}\in E}|\pi を最小化する別の整数への写像 $\pi$ を求めることである。
(u)- \pi
(v)|$。
この設定では、頂点はしばしば水平線上に置かれ、エッジは上記の線の上に半円として描かれる。
木の場合、様々なアルゴリズムが多項式時間で$n=|V|$で解くことができる。
MLAには、アレンジを制約するバリエーションがある。
Iordanskii と後に Hochberg と Stallmann (HS) が提案した$O(n)$-time アルゴリズムは、アレンジメントが平面的(一ページの本埋め込みとしても知られる)であると制約されたときに問題を解決する。
また、射影に制約のあるルート木(根が任意の端で覆われていない平面埋め込み)の線形配置も検討する。
Gildea と Temperley (GT) は、$O(n)$で実行されると主張する射影配置のアルゴリズムをスケッチしたが、そのコストの正当化は提供しなかった。
対照的に、パークとレヴィは、GTのアルゴリズムは$O(n \log d_{max})$で走ると主張した。
ここでは、平面ケースに対するHSのアルゴリズムの誤差を補正し、射影ケースとの関係を示し、$O(n)$時間で間違いなく実行される射影ケースと平面ケースの単純なアルゴリズムを導出する。
The Minimum Linear Arrangement problem (MLA) consists of finding a mapping $\pi$ from vertices of a graph to distinct integers that minimizes $\sum_{\{u,v\}\in E}|\pi(u) - \pi(v)|$. In that setting, vertices are often assumed to lie on a horizontal line and edges are drawn as semicircles above said line. For trees, various algorithms are available to solve the problem in polynomial time in $n=|V|$. There exist variants of the MLA in which the arrangements are constrained. Iordanskii, and later Hochberg and Stallmann (HS), put forward $O(n)$-time algorithms that solve the problem when arrangements are constrained to be planar (also known as one-page book embeddings). We also consider linear arrangements of rooted trees that are constrained to be projective (planar embeddings where the root is not covered by any edge). Gildea and Temperley (GT) sketched an algorithm for projective arrangements which they claimed runs in $O(n)$ but did not provide any justification of its cost. In contrast, Park and Levy claimed that GT's algorithm runs in $O(n \log d_{max})$ where $d_{max}$ is the maximum degree but did not provide sufficient detail. Here we correct an error in HS's algorithm for the planar case, show its relationship with the projective case, and derive simple algorithms for the projective and planar cases that run without a doubt in $O(n)$ time. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-12 |
# 単語埋め込みにおけるバイアス指標の評価
Evaluating Metrics for Bias in Word Embeddings ( http://arxiv.org/abs/2111.07864v2 ) ライセンス: Link先を確認 | Sarah Schröder, Alexander Schulz, Philip Kenneweg, Robert Feldhans, Fabian Hinder, Barbara Hammer, | (参考訳) 近年,あらゆる種類のNLPタスクのテキスト前処理として単語と文の埋め込みが確立され,性能が大幅に向上した。
残念ながら、これらの埋め込みはトレーニングデータから様々な種類のバイアスを継承し、社会に存在するバイアスをNLPソリューションに渡すことも示されている。
多くの論文は、単語や文の埋め込みにおけるバイアスを定量化し、デバイアス法を評価したり、異なる埋め込みモデル(通常はコサインに基づくメトリクス)を比較しようとした。
しかし、最近はこれらの指標に疑問を呈する研究があるが、そのような指標はバイアスが少ないと報告しているが、他のテストはバイアスを示さない。
実際、最適解に関するコンセンサスのない文献で提案されたバイアスメトリクスやテストは、非常に多様である。
しかし、理論的レベルでバイアスメトリクスを評価する作業や、異なるバイアスメトリクスの利点とデメリットを精査する作業は欠如しています。
この研究では、異なるコサインベースのバイアスメトリクスについて検討する。
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
さらに、既存のコサインベースのメトリクスとその制限を徹底的に調査し、なぜこれらのメトリクスがバイアスを報告できないのかを示す。
最後に,既存の指標の欠点に対処し,数学的にオッズが適切に振る舞うことを証明するため,新しい計量であるテッズを提案する。
Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-12 |
# 線形反転概念消去
Linear Adversarial Concept Erasure ( http://arxiv.org/abs/2201.12091v4 ) ライセンス: Link先を確認 | Shauli Ravfogel, Michael Twiton, Yoav Goldberg, Ryan Cotterell, | (参考訳) テキストデータに基づいてトレーニングされた現代のニューラルモデルは、直接の監督なしに現れる事前訓練された表現に依存している。
これらの表現が現実世界のアプリケーションでますます使われているので、それらのコンテンツが‘emph{control}’できないことは、ますます重要な問題になりつつある。
本稿では,線形予測器が概念を回復するのを防ぐために,与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形最大値ゲームとしてモデル化し、既存の解が一般にこの問題に最適でないことを示す。
特定の目的に対して閉形式解を導出し、他の目的に対してうまく機能する凸緩和法 \method を提案する。
二元性除去の文脈で評価すると、除去が本質的・外生的評価によってバイアスを緩和する低次元部分空間を復元する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
Modern neural models trained on textual data rely on pre-trained representations that emerge without direct supervision. As these representations are increasingly being used in real-world applications, the inability to \emph{control} their content becomes an increasingly important problem. We formulate the problem of identifying and erasing a linear subspace that corresponds to a given concept, in order to prevent linear predictors from recovering the concept. We model this problem as a constrained, linear maximin game, and show that existing solutions are generally not optimal for this task. We derive a closed-form solution for certain objectives, and propose a convex relaxation, \method, that works well for others. When evaluated in the context of binary gender removal, the method recovers a low-dimensional subspace whose removal mitigates bias by intrinsic and extrinsic evaluation. We show that the method is highly expressive, effectively mitigating bias in deep nonlinear classifiers while maintaining tractability and interpretability. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-12 |
# 単語埋め込みにおけるコサインに基づくバイアススコアの改善
The SAME score: Improved cosine based bias score for word embeddings ( http://arxiv.org/abs/2203.14603v3 ) ライセンス: Link先を確認 | Sarah Schröder, Alexander Schulz, Barbara Hammer, | (参考訳) 大規模言語モデルの普及により、多くの研究者はそのようなモデルに組み込まれた社会的偏見に関する倫理的懸念を提起してきた。
社会的偏見を測定するいくつかの方法が導入されたが、これらの方法は必ずしも偏見の存在や深刻さについて一致していない。
さらに、いくつかの研究は、ある偏見測度に関する理論上の問題や厳しい制限を示している。
そこで本研究では,埋め込みにおける意味バイアスのための新しいバイアススコアであるPetを紹介した。
文献から得られた同様のバイアススコアと比較し,その利点を示す実験と同様に, 徹底的な理論的解析を行う。
我々はさらに、最近無視可能であると主張されている下流バイアスによるセマンティックバイアスの有意な関係を強調した。
その代わり,本研究では,下流タスクにおいて意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
With the enourmous popularity of large language models, many researchers have raised ethical concerns regarding social biases incorporated in such models. Several methods to measure social bias have been introduced, but apparently these methods do not necessarily agree regarding the presence or severity of bias. Furthermore, some works have shown theoretical issues or severe limitations with certain bias measures. For that reason, we introduce SAME, a novel bias score for semantic bias in embeddings. We conduct a thorough theoretical analysis as well as experiments to show its benefits compared to similar bias scores from the literature. We further highlight a substantial relation of semantic bias measured by SAME with downstream bias, a connection that has recently been argued to be negligible. Instead, we show that SAME is capable of measuring semantic bias and identify potential causes for social bias in downstream tasks. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 誘導型安全シューティング:安全制約付きモデルベース強化学習
Guided Safe Shooting: model based reinforcement learning with safety constraints ( http://arxiv.org/abs/2206.09743v2 ) ライセンス: Link先を確認 | Giuseppe Paolo, Jonas Gonzalez-Billandon, Albert Thomas, Balázs Kégl, | (参考訳) 過去10年間で、強化学習は複雑な制御タスクと、Goボードゲームのような意思決定の問題をうまく解決した。
しかし、これらのアルゴリズムを現実のシナリオにデプロイするという点では、成功例は少ない。
理由の1つは、クリティカルコントロールエンジニアリングシステムにおける基本的な要件である、安全でない状態に対処し回避する際の保証の欠如である。
本稿では,安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を紹介する。
モデルは、繰り返しバッチ方式でシステムの動作中に収集されたデータに基づいて学習され、その後、各ステップで実行する最善のアクションを計画するために使用される。
提案する安全プランナは3つあり,1つは単純なランダム・シューティング・ストラテジーに基づくもので,もう1つはより高度な分岐探索アルゴリズムMAP-Elitesに基づくものである。
実験により、これらのプランナーは、システムの正確なモデルを学ぶ際に必要となる、状態空間を最大限に探索しながら、学習エージェントが安全でない状況を避けるのに役立つことが示された。
さらに、モデルなしのアプローチと比較して、モデルを学習することで、GuSSは、エンジニアリングシステムを扱う際の基本的な要件である高い報酬を得ながら、実際のシステムとのインタラクションの数を減らすことができる。
In the last decade, reinforcement learning successfully solved complex control tasks and decision-making problems, like the Go board game. Yet, there are few success stories when it comes to deploying those algorithms to real-world scenarios. One of the reasons is the lack of guarantees when dealing with and avoiding unsafe states, a fundamental requirement in critical control engineering systems. In this paper, we introduce Guided Safe Shooting (GuSS), a model-based RL approach that can learn to control systems with minimal violations of the safety constraints. The model is learned on the data collected during the operation of the system in an iterated batch fashion, and is then used to plan for the best action to perform at each time step. We propose three different safe planners, one based on a simple random shooting strategy and two based on MAP-Elites, a more advanced divergent-search algorithm. Experiments show that these planners help the learning agent avoid unsafe situations while maximally exploring the state space, a necessary aspect when learning an accurate model of the system. Furthermore, compared to model-free approaches, learning a model allows GuSS reducing the number of interactions with the real-system while still reaching high rewards, a fundamental requirement when handling engineering systems. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 双極子BECにおける超放射能のミラー対称性の破れ
Mirror symmetry breaking of superradiance in a dipolar BEC ( http://arxiv.org/abs/2210.01586v3 ) ライセンス: Link先を確認 | Bojeong Seo, Mingchen Huang, Ziting Chen, Mithilesh K. Parit, Yifei He, Peng Chen, Gyu-Boong Jo, | (参考訳) ボース・アインシュタイン凝縮体(BEC)における物質-波超放射能の研究は独特なコヒーレンス特性を用いたが、これまでは異方性接触相互作用を持つ相-コヒーレント凝縮体を利用して超ラジカル過程の制御性は限られていた。
ここでは、可変s波散乱と双極子相互作用を$^{168}$Er原子のBECで組み合わせ、超放射能の非対称性と閾値を独立に制御する。
フェシュバッハ共鳴近傍のs波散乱長を変化させることで、位相変動の増加とともに超輝度閾値を調整する。
凝縮体からの集合光散乱は接触相互作用のみと対照的に、外部磁場の向きを変化させることで、双極性BECにおける非対称超放射能ピークを観測する。
これは双極子-双極子相互作用によって誘導される異方性励起スペクトルの結果である。
我々の観測は、物質波の放射制御につながる物質波光学の先例のない応用をもたらすことが期待されている。
Despite the extensive study of matter-wave superradiance in a Bose-Einstein condensate (BEC) using its unique coherence property, the controllability of superradiant process has remained limited in the previous studies exploiting a phase-coherent condensate with isotropic contact interactions. Here, we combine tunable s-wave scattering with dipolar interactions in a BEC of $^{168}$Er atoms wherein the asymmetry and threshold of superradiance are independently controlled. By changing the s-wave scattering length near the Feshbach resonance, we tune the superradiance threshold with increasing phase fluctuations. In contrast to collective light scattering from a condensate only with contact interactions, we observe an asymmetric superradiant peak in a dipolar BEC by changing the direction of external magnetic field. This results from the anisotropic excitation spectrum induced by the dipole-dipole interaction. Our observation is expected to bring forth unprecedented application of matter-wave optics leading to controlled emission of matter wave. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# ローカライゼーション応用によるパスロスとToAラジオマップのデータセット
Dataset of Pathloss and ToA Radio Maps With Localization Application ( http://arxiv.org/abs/2212.11777v3 ) ライセンス: Link先を確認 | Çağkan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire, | (参考訳) 本稿では,高密度都市環境における無線地図データセットの収集について紹介する。
データセットには、実都市地図における現実的な密集した都市環境の集合体に、シミュレートされたパスロス/受信信号強度(RSS)と到着時刻(ToA)ラジオマップが含まれる。
提示されたデータセットの2つの主な応用は、
1)入力都市地図(ディープラーニングベースシミュレーション)からパスロスを予測する学習方法と
2)無線の局部化。
RSSとToAマップが同じ都市マップ上で同じシミュレーションによって計算されているという事実は、RSSとToAベースのローカライゼーション手法を公平に比較することができる。
In this article, we present a collection of radio map datasets in dense urban setting, which we generated and made publicly available. The datasets include simulated pathloss/received signal strength (RSS) and time of arrival (ToA) radio maps over a large collection of realistic dense urban setting in real city maps. The two main applications of the presented dataset are 1) learning methods that predict the pathloss from input city maps (namely, deep learning-based simulations), and, 2) wireless localization. The fact that the RSS and ToA maps are computed by the same simulations over the same city maps allows for a fair comparison of the RSS and ToA-based localization methods. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# コントラスト学習と属性・アソシエーションの創発
Contrastive Learning and the Emergence of Attributes Associations ( http://arxiv.org/abs/2302.10763v4 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) オブジェクトの提示に対して、教師付き学習スキームは概して同義的なラベルで応答する。
同様のプレゼンテーションを行うと、人間はラベルで再び反応するが、同時に無数の関連によって浸水する。
これらの大部分は、提示されたオブジェクト属性から成っている。
コントラスト学習(Contrastive Learning)は、オブジェクトの入力表現に対するID保存変換の適用に基づく半教師付き学習方式である。
この研究において、これらの同じ応用変換は、提示された対象の同一性に加えて、意味論的に意味のある属性の同一性を保持すると推測されている。
このような対照的な学習スキームの出力表現は、提示された対象の分類だけでなく、興味のある属性の存在や不在の判断のための貴重な情報を含む。
このアイデアとこの予想の実現可能性を示すシミュレーション結果が提示される。
In response to an object presentation, supervised learning schemes generally respond with a parsimonious label. Upon a similar presentation we humans respond again with a label, but are flooded, in addition, by a myriad of associations. A significant portion of these consist of the presented object attributes. Contrastive learning is a semi-supervised learning scheme based on the application of identity preserving transformations on the object input representations. It is conjectured in this work that these same applied transformations preserve, in addition to the identity of the presented object, also the identity of its semantically meaningful attributes. The corollary of this is that the output representations of such a contrastive learning scheme contain valuable information not only for the classification of the presented object, but also for the presence or absence decision of any attribute of interest. Simulation results which demonstrate this idea and the feasibility of this conjecture are presented. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 多導波パルス整形によるクロス共振ゲートの実験的誤差抑制
Experimental error suppression in Cross-Resonance gates via multi-derivative pulse shaping ( http://arxiv.org/abs/2303.01427v4 ) ライセンス: Link先を確認 | Boxi Li, Tommaso Calarco, Felix Motzoi, | (参考訳) 量子回路は数百量子ビットで目覚ましい幅に達していますが、その深さは維持できませんでした。
特に、マルチキュービットで固定周波数の超伝導チップ上のクラウドコンピューティングゲートは、注意深く設計された2量子ビットチップの進歩とは対照的に、1%の誤差範囲に留まり続けている。
強いインペタスと多くの研究にもかかわらず、これらのマルチキュービットデバイスにおけるエラー抑制の実験的な実証は、主に量子ビットパラメータの広範な分布と高度な制御法に必要なキャリブレーションプロセスのために、依然として困難である。
本稿では,複数の誤差源に対して同時に作用する多重微分型多重制約パルス整形に基づく単純な制御手法を用いて,この目標を達成する。
提案手法は,IBM Quantum Platform上の4つのキュービットに対して,限定的かつ断続的なアクセスで2~4倍の精度向上を実現し,これらの大規模固定周波数系がより優れたコヒーレンス時間を十分に活用できることを示す。
一般に利用可能な量子ビットの99.7(1)%のCNOT忠実度は、コヒーレント制御誤差の抑制とゲート時間の加速の両方から得られる。
While quantum circuits are reaching impressive widths in the hundreds of qubits, their depths have not been able to keep pace. In particular, cloud computing gates on multi-qubit, fixed-frequency superconducting chips continue to hover around the 1% error range, contrasting with the progress seen on carefully designed two-qubit chips, where error rates have been pushed towards 0.1%. Despite the strong impetus and a plethora of research, experimental demonstration of error suppression on these multi-qubit devices remains challenging, primarily due to the wide distribution of qubit parameters and the demanding calibration process required for advanced control methods. Here, we achieve this goal, using a simple control method based on multi-derivative, multi-constraint pulse shaping, which acts simultaneously against multiple error sources. Our approach establishes a two to fourfold improvement on the default calibration scheme, demonstrated on four qubits on the IBM Quantum Platform with limited and intermittent access, enabling these large-scale fixed-frequency systems to fully take advantage of their superior coherence times. The achieved CNOT fidelities of 99.7(1)% on those publically available qubits come from both coherent control error suppression and accelerated gate time. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 大腸癌サブタイプのゲノム変異と細胞形態との相互作用を探る : 深層学習アプローチ
Exploring the Interplay Between Colorectal Cancer Subtypes Genomic Variants and Cellular Morphology: A Deep-Learning Approach ( http://arxiv.org/abs/2303.14703v3 ) ライセンス: Link先を確認 | Hadar Hezi, Daniel Shats, Daniel Gurevich, Yosef E. Maruvka, Moti Freiman, | (参考訳) 大腸癌(CRC)の分子サブタイプは治療決定に大きな影響を及ぼす。
近年,H&E染色組織像を用いたCRCサブタイプの自動同定のための畳み込みニューラルネットワーク (CNN) が導入されたが,CRCサブタイプのゲノム変異と,その画像表現型によって発現する細胞形態との相関は明らかになっていない。
本研究の目的は、CNNモデルにゲノム変異を組み込んで、H&E画像からCRCサブタイプ分類を行うことである。
CRCを診断した360例 (トレーニング260例, テスト100例) のスライド画像を含む, 公開されているTCGA-CRC-DXデータセットを利用した。
このデータセットはまた、CRCサブタイプ分類とゲノム変異に関する情報も提供する。
CRCサブタイプ分類のためのCNNモデルを訓練し、CRCサブタイプ内のゲノム変異とそれに対応する細胞形態パターンとの潜在的な相関について検討した。
ROC曲線 (AUROC) と平均精度 (AP) を評価指標として, 層状化5次元クロスバリデーション実験装置において, CRCサブタイプと細胞形態パターンの相互作用を, 異なるモデルのCRCサブタイプ分類精度の評価により評価した。
CNNモデルを組み合わせることで、CIMPとSNPのバリエーションがさらに分類精度を改善した(AUROC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, p$=$0.01, AP: 0.68$\pm$0.02 vs. 0.64$\pm$0.05)。
Molecular subtypes of colorectal cancer (CRC) significantly influence treatment decisions. While convolutional neural networks (CNNs) have recently been introduced for automated CRC subtype identification using H&E stained histopathological images, the correlation between CRC subtype genomic variants and their corresponding cellular morphology expressed by their imaging phenotypes is yet to be fully explored. The goal of this study was to determine such correlations by incorporating genomic variants in CNN models for CRC subtype classification from H&E images. We utilized the publicly available TCGA-CRC-DX dataset, which comprises whole slide images from 360 CRC-diagnosed patients (260 for training and 100 for testing). This dataset also provides information on CRC subtype classifications and genomic variations. We trained CNN models for CRC subtype classification that account for potential correlation between genomic variations within CRC subtypes and their corresponding cellular morphology patterns. We assessed the interplay between CRC subtypes' genomic variations and cellular morphology patterns by evaluating the CRC subtype classification accuracy of the different models in a stratified 5-fold cross-validation experimental setup using the area under the ROC curve (AUROC) and average precision (AP) as the performance metrics. Combining the CNN models account for variations in CIMP and SNP further improved classification accuracy (AUROC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, p$=$0.01, AP: 0.68$\pm$0.02 vs. 0.64$\pm$0.05). | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 医用画像処理のためのメモリ効率の良い3次元拡散モデル
Memory-Efficient 3D Denoising Diffusion Models for Medical Image Processing ( http://arxiv.org/abs/2303.15288v2 ) ライセンス: Link先を確認 | Florentin Bieder, Julia Wolleb, Alicia Durrer, Robin Sandkühler, Philippe C. Cattin, | (参考訳) 近年,多くの画像生成タスクにおいて,拡散モデルが最先端のパフォーマンスを達成している。
しかし、それらは大量の計算資源を必要とする。
これにより、高解像度の3Dデータのような大きな3Dボリュームを扱う医療タスクへの応用が制限される。
本研究では,3次元拡散モデルにおける資源消費を削減し,それを3次元画像のデータセットに適用するための様々な方法を提案する。
本論文の主な貢献は、メモリ効率のよいパッチベース拡散モデル \textit{PatchDDM} であり、これは、パッチのみをトレーニングしながら、推論中に総ボリュームに適用することができる。
提案した拡散モデルは,任意の画像生成タスクに適用できるが,BraTS2020データセットの腫瘍セグメント化タスクの手法を評価し,有意義な3次元セグメンテーションを生成できることを実証する。
Denoising diffusion models have recently achieved state-of-the-art performance in many image-generation tasks. They do, however, require a large amount of computational resources. This limits their application to medical tasks, where we often deal with large 3D volumes, like high-resolution three-dimensional data. In this work, we present a number of different ways to reduce the resource consumption for 3D diffusion models and apply them to a dataset of 3D images. The main contribution of this paper is the memory-efficient patch-based diffusion model \textit{PatchDDM}, which can be applied to the total volume during inference while the training is performed only on patches. While the proposed diffusion model can be applied to any image generation tasks, we evaluate the method on the tumor segmentation task of the BraTS2020 dataset and demonstrate that we can generate meaningful three-dimensional segmentations. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 主層横断の因果媒介分析における同定と多重ロバスト推定
Identification and multiply robust estimation in causal mediation analysis across principal strata ( http://arxiv.org/abs/2304.10025v4 ) ライセンス: Link先を確認 | Chao Cheng, Fan Li, | (参考訳) 治療後イベント(非コンプライアンス,臨床イベント,死亡例)の存在下での因果仲裁の評価を検討する。
本研究は, 研究全体の自然媒介効果と, 治療後事象の有意な有意差を特徴とする各主要層について検討した。
本研究では,各媒介推定値に対する効率的な影響関数を導出する。
多重ロバストな推定器は4種類の誤特定の下で一貫し、すべてのニュアンスモデルが正しく特定されたときに効率的である。
また,データ適応型機械学習を応用した非パラメトリックな効率的な推定器を開発し,鍵同定の仮定に対処するための感度手法について議論する。
シミュレーションと実データ例を2つ紹介する。
We consider assessing causal mediation in the presence of a post-treatment event (examples include noncompliance, a clinical event, or death). We identify natural mediation effects for the entire study population and for each principal stratum characterized by the joint potential values of the post-treatment event. We derive the efficient influence function for each mediation estimand, which motivates a set of multiply robust estimators for inference. The multiply robust estimators are consistent under four types of misspecifications and are efficient when all nuisance models are correctly specified. We also develop a nonparametric efficient estimator that leverages data-adaptive machine learners to achieve efficient inference and discuss sensitivity methods to address key identification assumptions. We illustrate our methods via simulations and two real data examples. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 非構造化データに基づくベーススキル事前学習による言語記述型模倣学習
Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data ( http://arxiv.org/abs/2305.19075v5 ) ライセンス: Link先を確認 | Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alois Knoll, | (参考訳) 言語条件ロボット操作への関心の高まりは、ロボットが言語コマンドを解釈し、それに応じてオブジェクトを操作できるようにすることを目的として、複雑なタスクを理解し実行可能なロボットを開発することを目的としている。
言語条件のアプローチは、慣れ親しんだ環境におけるタスクに対処する素晴らしい能力を示しているが、慣れ親しんだ環境設定に適応する際の制限に直面している。
本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を促進させる。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
シミュレーション環境では,提案手法はこれまでに報告したCALVINベンチマークのスコアを上回り,特にZero-Shot Multi-Environment設定に挑戦する。
エージェントが連続的に完了できるタスクの平均数を示す平均完了タスク長は、最先端のHULCに比べて2.5倍以上改善されている。
また,具体的な適応を伴わない模擬環境において,実環境における政策のゼロショット評価を行う。
本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。
コードやビデオへのアクセスを含む詳細については、https://hk-zh.github.io/spil/を参照してください。
The growing interest in language-conditioned robot manipulation aims to develop robots capable of understanding and executing complex tasks, with the objective of enabling robots to interpret language commands and manipulate objects accordingly. While language-conditioned approaches demonstrate impressive capabilities for addressing tasks in familiar environments, they encounter limitations in adapting to unfamiliar environment settings. In this study, we propose a general-purpose, language-conditioned approach that combines base skill priors and imitation learning under unstructured data to enhance the algorithm's generalization in adapting to unfamiliar environments. We assess our model's performance in both simulated and real-world environments using a zero-shot setting. In the simulated environment, the proposed approach surpasses previously reported scores for CALVIN benchmark, especially in the challenging Zero-Shot Multi-Environment setting. The average completed task length, indicating the average number of tasks the agent can continuously complete, improves more than 2.5 times compared to the state-of-the-art method HULC. In addition, we conduct a zero-shot evaluation of our policy in a real-world setting, following training exclusively in simulated environments without additional specific adaptations. In this evaluation, we set up ten tasks and achieved an average 30% improvement in our approach compared to the current state-of-the-art approach, demonstrating a high generalization capability in both simulated environments and the real world. For further details, including access to our code and videos, please refer to https://hk-zh.github.io/spil/ | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 確率的主問題:効率的な計算と学習
Stochastic Principal-Agent Problems: Efficient Computation and Learning ( http://arxiv.org/abs/2306.03832v3 ) ライセンス: Link先を確認 | Jiarui Gan, Rupak Majumdar, Debmalya Mandal, Goran Radanovic, | (参考訳) 確率的主エージェントモデルを導入する。
プリンシパルとエージェントは確率的な環境で相互作用し、それぞれが他で利用できない状態に関する観測を行う。
校長は、エージェントから情報を引き出すことと、自身の情報に関する信号を提供するという、コミットメントの力を持っている。
プレイヤーは互いにコミュニケーションし、個別に行動を選択する。
それぞれが、状態と共同動作に基づいてペイオフを受け取り、環境が新しい状態に遷移する。
相互作用は有限時間水平線上で続く。
両選手とも遠視力があり、時間軸を超えて全報酬を最大化することを目指している。
このモデルは、不完全な情報、部分的に観測可能なマルコフ決定過程(POMDP)、ベイズ的説得や自動メカニズム設計問題を含む他の逐次的主エージェント相互作用の形式を含む特別なケースである。
我々は,プリンシパルの最適政策の計算と学習について考察する。
POMDPを仮定する一般的な問題は難解であるため、各ステップの最後に状態と相互作用履歴が明らかになるような、後向きの観測可能性の下でアルゴリズムによる解を探索する。
この条件下では、この問題はより和らげられるが、時間的地平線の長さにおいて、可能なヒストリーの数は指数関数的のままであり、EFGベースのモデルに対するアプローチは実現不可能である。
帰納的値集合に基づく効率的なアルゴリズムを提案する。
このアルゴリズムは、時間多項式で$\epsilon$-approximateの最適ポリシーを1/\epsilon$で計算する。
さらに,遷移確率が未知のエピソード強化学習環境において,効率的な学習アルゴリズムを示す。
このアルゴリズムは、サブ線形後悔$\tilde{O}(T^{2/3})$を、両プレイヤーに対して$T$のエピソードに対して保証する。
We introduce a stochastic principal-agent model. A principal and an agent interact in a stochastic environment, each privy to observations about the state not available to the other. The principal has the power of commitment, both to elicit information from the agent and to provide signals about her own information. The players communicate with each other and then select actions independently. Each of them receives a payoff based on the state and their joint action, and the environment transitions to a new state. The interaction continues over a finite time horizon. Both players are far-sighted, aiming to maximize their total payoffs over the time horizon. The model encompasses as special cases extensive-form games (EFGs) and stochastic games of incomplete information, partially observable Markov decision processes (POMDPs), as well as other forms of sequential principal-agent interactions, including Bayesian persuasion and automated mechanism design problems. We consider both the computation and learning of the principal's optimal policy. Since the general problem, which subsumes POMDPs, is intractable, we explore algorithmic solutions under hindsight observability, where the state and the interaction history are revealed at the end of each step. Though the problem becomes more amenable under this condition, the number of possible histories remains exponential in the length of the time horizon, making approaches for EFG-based models infeasible. We present an efficient algorithm based on the inducible value sets. The algorithm computes an $\epsilon$-approximate optimal policy in time polynomial in $1/\epsilon$. Additionally, we show an efficient learning algorithm for an episodic reinforcement learning setting where the transition probabilities are unknown. The algorithm guarantees sublinear regret $\tilde{O}(T^{2/3})$ for both players over $T$ episodes. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-12 |
# 機械学習によるカテゴリデータセットの欠落値計算
Machine Learning Based Missing Values Imputation in Categorical Datasets ( http://arxiv.org/abs/2306.06338v3 ) ライセンス: Link先を確認 | Muhammad Ishaq, Sana Zahir, Laila Iftikhar, Mohammad Farhad Bulbul, Seungmin Rho, Mi Young Lee, | (参考訳) 分類データセットのギャップを予測し、埋めるために、この研究は機械学習アルゴリズムの使用について検討した。
SVMやKNNをベースとしたモデルや、SVM、KNN、MLPをベースとしたモデルを組み合わせたハイブリッド分類器など、Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
これらのアルゴリズムを検証するために、CPU、甲状腺、乳癌の3つの多様なデータセットが採用された。
その結果、これらの機械学習技術は、特定のデータセットと欠落したデータパターンに基づいて、欠落したデータを予測し、完了させる上で、かなりの性能を示した。
ソロモデルと比較すると、ECOCフレームワークを使用したアンサンブルモデルは予測精度とロバスト性を大幅に改善した。
大量のラベル付きデータの要求や過度に適合する可能性など、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
その後の研究は、欠落したデータの計算の文脈において、ディープラーニングアルゴリズムの有効性と有効性を評価するべきである。
In order to predict and fill in the gaps in categorical datasets, this research looked into the use of machine learning algorithms. The emphasis was on ensemble models constructed using the Error Correction Output Codes framework, including models based on SVM and KNN as well as a hybrid classifier that combines models based on SVM, KNN,and MLP. Three diverse datasets, the CPU, Hypothyroid, and Breast Cancer datasets were employed to validate these algorithms. Results indicated that these machine learning techniques provided substantial performance in predicting and completing missing data, with the effectiveness varying based on the specific dataset and missing data pattern. Compared to solo models, ensemble models that made use of the ECOC framework significantly improved prediction accuracy and robustness. Deep learning for missing data imputation has obstacles despite these encouraging results, including the requirement for large amounts of labeled data and the possibility of overfitting. Subsequent research endeavors ought to evaluate the feasibility and efficacy of deep learning algorithms in the context of the imputation of missing data. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# 雑音処理による因果推論の同定と副作用の排除
Identifiable causal inference with noisy treatment and no side information ( http://arxiv.org/abs/2306.10614v3 ) ライセンス: Link先を確認 | Antti Pöllänen, Pekka Marttinen, | (参考訳) いくつかの因果推論のシナリオでは、治療変数は不正確な測定がなされ、例えば疫学や計量学においてである。
この測定誤差の効果の補正に失敗すると、偏りのある因果効果の推定が導かれる。
従来の研究では、複雑な非線形依存を可能とし、側面情報へのアクセスを前提とせず、因果的観点からこの問題に対処する方法は研究されていない。
そこで本研究では,不正確な連続処理変数を仮定するモデルを提案する。
実測誤差モデルに対する既存の結果に基づいて,提案モデルの因果効果の推定値が同定可能であることを証明した。
提案手法は,ガウス条件がニューラルネットワークによってパラメータ化される深層潜伏変数モデルに依拠する。
実験結果から, 未知の測定誤差を用いて, 提案手法の性能を実証した。
より広範に、我々の研究は、信頼できる因果推論を行うアプリケーションの範囲を広げている。
In some causal inference scenarios, the treatment variable is measured inaccurately, for instance in epidemiology or econometrics. Failure to correct for the effect of this measurement error can lead to biased causal effect estimates. Previous research has not studied methods that address this issue from a causal viewpoint while allowing for complex nonlinear dependencies and without assuming access to side information. For such a scenario, this study proposes a model that assumes a continuous treatment variable that is inaccurately measured. Building on existing results for measurement error models, we prove that our model's causal effect estimates are identifiable, even without side information and knowledge of the measurement error variance. Our method relies on a deep latent variable model in which Gaussian conditionals are parameterized by neural networks, and we develop an amortized importance-weighted variational objective for training the model. Empirical results demonstrate the method's good performance with unknown measurement error. More broadly, our work extends the range of applications in which reliable causal inference can be conducted. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# 最小データ仮定下でのスコア拡散モデルのKL収束保証
KL Convergence Guarantees for Score diffusion models under minimal data assumptions ( http://arxiv.org/abs/2308.12240v2 ) ライセンス: Link先を確認 | Giovanni Conforti, Alain Durmus, Marta Gentiloni Silveri, | (参考訳) 拡散モデル(英: Diffusion model)は、確率微分方程式に付随するスコア関数の推定を中心に展開する新しい生成モデルのクラスである。
取得後、近似スコア関数を使用して対応する時間反転過程をシミュレートし、最終的に近似データサンプルの生成を可能にする。
これらのモデルが持つ明らかな実用的重要性にもかかわらず、特に非正規スコアや推定器を含むシナリオにおいて、包括的な定量的結果の欠如という形で顕著な課題が続いている。
Kullback Leibler (KL) の発散の報告されたほとんど全ての境界において、スコア関数または近似は時間内に一様リプシッツであると仮定される。
しかし、この条件は実際には極めて厳格であり、確立が困難であるようである。
この問題を回避するために、従来の研究は、拡散モデルの早期停止バージョンとデータ分布の滑らかバージョンに対するKLの収束境界を確立すること、あるいは、データ分布がコンパクトな多様体上でサポートされていることを前提として、主に焦点を当てていた。
これらの探索は、ワッサーシュタインあるいはフォート・モーリエの測度に興味深い境界を導いた。
しかし、そのような早期停止手順やコンパクト性条件の関連性については疑問が残る。
特に、自然で穏やかな条件が存在する場合、KL において明示的で鋭い収束境界が保証される。
本稿では,Ornstein-Uhlenbeck半群とその運動論的対応から生じる一定のステップサイズを持つスコア拡散モデルに焦点をあてて,上記の制限に対処する。
我々の研究は厳密な分析を提供し、標準ガウス分布に関して有限フィッシャー情報を持つ任意のデータ分布に適用可能なKLにおける単純で改善され、鋭い収束境界を与える。
Diffusion models are a new class of generative models that revolve around the estimation of the score function associated with a stochastic differential equation. Subsequent to its acquisition, the approximated score function is then harnessed to simulate the corresponding time-reversal process, ultimately enabling the generation of approximate data samples. Despite their evident practical significance these models carry, a notable challenge persists in the form of a lack of comprehensive quantitative results, especially in scenarios involving non-regular scores and estimators. In almost all reported bounds in Kullback Leibler (KL) divergence, it is assumed that either the score function or its approximation is Lipschitz uniformly in time. However, this condition is very restrictive in practice or appears to be difficult to establish. To circumvent this issue, previous works mainly focused on establishing convergence bounds in KL for an early stopped version of the diffusion model and a smoothed version of the data distribution, or assuming that the data distribution is supported on a compact manifold. These explorations have led to interesting bounds in either Wasserstein or Fortet-Mourier metrics. However, the question remains about the relevance of such early-stopping procedure or compactness conditions. In particular, if there exist a natural and mild condition ensuring explicit and sharp convergence bounds in KL. In this article, we tackle the aforementioned limitations by focusing on score diffusion models with fixed step size stemming from the Ornstein-Uhlenbeck semigroup and its kinetic counterpart. Our study provides a rigorous analysis, yielding simple, improved and sharp convergence bounds in KL applicable to any data distribution with finite Fisher information with respect to the standard Gaussian distribution. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# BTSeg: セマンティックセグメンテーションにおけるドメイン適応のためのBarlow Twins正規化
BTSeg: Barlow Twins Regularization for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2308.16819v3 ) ライセンス: Link先を確認 | Johannes Künzel, Anna Hilsmann, Peter Eisert, | (参考訳) BTSeg(Barlow Twins regularized Segmentation)は、ラベル付きトレーニングデータを必要としない悪天候を効果的に対処するために、セマンティックセグメンテーションモデルを強化する革新的な半教師付きトレーニング手法である。
類似した場所で撮影されるが、異なる有害な条件下では、同じシーンの多様体表現と見なされるため、モデルが環境の理解を概念化できる。
BTSegは、新しい挑戦的なACGベンチマークの最先端のパフォーマンスを示し、ACDCデータセットの弱教師付きドメイン適応のための新しい最先端技術を設定する。
さらなる研究を支援するため、私たちはhttps://github.com/fraunhoferhhi/BTSegでコードを公開しました。
We introduce BTSeg (Barlow Twins regularized Segmentation), an innovative, semi-supervised training approach enhancing semantic segmentation models in order to effectively tackle adverse weather conditions without requiring additional labeled training data. Images captured at similar locations but under varying adverse conditions are regarded as manifold representation of the same scene, thereby enabling the model to conceptualize its understanding of the environment. BTSeg shows cutting-edge performance for the new challenging ACG benchmark and sets a new state-of-the-art for weakly-supervised domain adaptation for the ACDC dataset. To support further research, we have made our code publicly available at https://github.com/fraunhoferhhi/BTSeg . | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# 一連のAPIから継続的に学ぶ
Continual Learning From a Stream of APIs ( http://arxiv.org/abs/2309.00023v2 ) ライセンス: Link先を確認 | Enneng Yang, Zhenyi Wang, Li Shen, Nan Yin, Tongliang Liu, Guibing Guo, Xingwei Wang, Dacheng Tao, | (参考訳) 継続学習(CL)は、以前のタスクを忘れずに新しいタスクを学習することを目的としている。
しかし、既存のCLメソッドは大量の生データを必要とするため、著作権上の考慮やプライバシー上のリスクのために利用できないことが多い。
代わりに、ステークホルダは通常、トレーニング済みの機械学習モデル・アズ・ア・サービス(MLaaS)をリリースする。
本稿では,データ効率の高いCL (DECL-APIs) とデータフリーなCL (DFCL-APIs) の2つの実装について考察する。
これら2つの新しい設定の下でCLを実行するには、完全な生データ、未知のモデルパラメータ、任意のアーキテクチャとスケールの異種モデル、以前のAPIの破滅的な忘れなど、いくつかの課題に直面します。
そこで本研究では,APIを問合せするだけで擬似データを生成することにより,APIのストリームから知識をCLモデルに抽出する,データフリーな連続蒸留学習フレームワークを提案する。
具体的には、2つの協調生成器と1つのCLモデルを含み、対角ゲームとしてのトレーニングを形成する。
まずCLモデルと現在のAPIを固定識別器として使い、デリバティブフリーの手法でジェネレータを訓練する。
ジェネレータは、CLモデルとAPI間の応答ギャップを最大化するために、ハードかつ多様な合成データを逆向きに生成する。
次に、CLモデルの応答と合成データ上のブラックボックスAPIとのギャップを最小化し、CLモデルの知識をCLモデルに転送することで、CLモデルを訓練する。
さらに,ネットワーク類似性に基づく新たな正規化用語を提案し,従来のAPIの破滅的忘れを防止するとともに,DFCL-API設定におけるMNISTとSVHNの全生データを用いて従来のCLと互換性のある手法を提案する。
DECL-API設定では,CIFAR10,CIFAR100,MiniImageNet上での従来のCLの0.97x,0.75x,0.69xの性能を実現する。
Continual learning (CL) aims to learn new tasks without forgetting previous tasks. However, existing CL methods require a large amount of raw data, which is often unavailable due to copyright considerations and privacy risks. Instead, stakeholders usually release pre-trained machine learning models as a service (MLaaS), which users can access via APIs. This paper considers two practical-yet-novel CL settings: data-efficient CL (DECL-APIs) and data-free CL (DFCL-APIs), which achieve CL from a stream of APIs with partial or no raw data. Performing CL under these two new settings faces several challenges: unavailable full raw data, unknown model parameters, heterogeneous models of arbitrary architecture and scale, and catastrophic forgetting of previous APIs. To overcome these issues, we propose a novel data-free cooperative continual distillation learning framework that distills knowledge from a stream of APIs into a CL model by generating pseudo data, just by querying APIs. Specifically, our framework includes two cooperative generators and one CL model, forming their training as an adversarial game. We first use the CL model and the current API as fixed discriminators to train generators via a derivative-free method. Generators adversarially generate hard and diverse synthetic data to maximize the response gap between the CL model and the API. Next, we train the CL model by minimizing the gap between the responses of the CL model and the black-box API on synthetic data, to transfer the API's knowledge to the CL model. Furthermore, we propose a new regularization term based on network similarity to prevent catastrophic forgetting of previous APIs.Our method performs comparably to classic CL with full raw data on the MNIST and SVHN in the DFCL-APIs setting. In the DECL-APIs setting, our method achieves 0.97x, 0.75x and 0.69x performance of classic CL on CIFAR10, CIFAR100, and MiniImageNet. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# CNN-SAEDN-Resに基づく短期電力負荷予測手法
Short-term power load forecasting method based on CNN-SAEDN-Res ( http://arxiv.org/abs/2309.07140v2 ) ライセンス: Link先を確認 | Yang Cui, Han Zhu, Yijian Wang, Lu Zhang, Yang Li, | (参考訳) ディープラーニングでは、非時間的要因を持つ負荷データをシーケンスモデルで処理することは困難である。
この問題は予測の精度が不十分である。
そこで,畳み込みニューラルネットワーク(CNN),自己アテンションエンコーダデコーダネットワーク(SAEDN),残差抑制(Res)に基づく短期負荷予測手法を提案する。
この方法では、特徴抽出モジュールは、2次元畳み込みニューラルネットワークで構成され、データ間の局所的相関をマイニングし、高次元データ特徴を得るのに使用される。
最初のロードフォアキャストモジュールは、自己アテンションエンコーダデコーダネットワークとフィードフォワードニューラルネットワーク(FFN)から構成される。
このモジュールは自己保持機構を利用して高次元特徴を符号化する。
この操作は、データ間の大域的相関を得ることができる。
したがって、このモデルでは、データと非時系列因子を混合したデータ間の結合関係に基づいて重要な情報を保持することができる。
そして、自己注意復号化を行い、フィードフォワードニューラルネットワークを用いて初期負荷を退避させる。
本稿では,負荷最適化モジュールを構築するための残留メカニズムを紹介する。
モジュールは初期負荷を最適化するために残負荷値を生成する。
シミュレーションの結果,提案手法は予測精度と予測安定性の点で利点があることがわかった。
In deep learning, the load data with non-temporal factors are difficult to process by sequence models. This problem results in insufficient precision of the prediction. Therefore, a short-term load forecasting method based on convolutional neural network (CNN), self-attention encoder-decoder network (SAEDN) and residual-refinement (Res) is proposed. In this method, feature extraction module is composed of a two-dimensional convolutional neural network, which is used to mine the local correlation between data and obtain high-dimensional data features. The initial load fore-casting module consists of a self-attention encoder-decoder network and a feedforward neural network (FFN). The module utilizes self-attention mechanisms to encode high-dimensional features. This operation can obtain the global correlation between data. Therefore, the model is able to retain important information based on the coupling relationship between the data in data mixed with non-time series factors. Then, self-attention decoding is per-formed and the feedforward neural network is used to regression initial load. This paper introduces the residual mechanism to build the load optimization module. The module generates residual load values to optimize the initial load. The simulation results show that the proposed load forecasting method has advantages in terms of prediction accuracy and prediction stability. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# エンド・ツー・エンド自動運転における模倣学習の交通規則適合性を高めるために何が必要か
What Matters to Enhance Traffic Rule Compliance of Imitation Learning for End-to-End Autonomous Driving ( http://arxiv.org/abs/2309.07808v3 ) ライセンス: Link先を確認 | Hongkuan Zhou, Wei Cao, Aifen Sui, Zhenshan Bing, | (参考訳) 運転パイプライン全体を1つのニューラルネットワークに置き換えるエンドツーエンドの自動運転は、構造がシンプルで推論時間が速いため、最近研究の注目を集めている。
この魅力的なアプローチは、運転パイプラインの複雑さを大幅に削減しますが、トレーニングされたポリシーが常に交通ルールに準拠しているとは限らないため、安全上の問題にもつながります。
本稿では,P-CSGを提案する。P-CSG,P-CSG,P-CSG,P-CSG,P-CSG,P-CSG,P-CSG,P-CSG。
本手法では,赤信号,停止標識,曲率速度ペナルティという3つの罰則を導入し,エージェントが交通規則に敏感になるようにした。
提案したクロスセマンティクス生成は、異なる入力モダリティの共有情報を整合させるのに役立つ。
CARLA Leaderboard - Town 05 Long BenchmarkとLongest6 Benchmarkを使用して、モデルのパフォーマンスを評価しました。
さらに,FGSMやDot攻撃などの敵攻撃に対するロバストネス評価を行い,他のベースラインモデルと比較してロバストネスが有意に増加したことを明らかにした。
詳細はhttps://hk-zh.github.io/p-csg-plusで確認できる。
End-to-end autonomous driving, where the entire driving pipeline is replaced with a single neural network, has recently gained research attention because of its simpler structure and faster inference time. Despite this appealing approach largely reducing the complexity in the driving pipeline, it also leads to safety issues because the trained policy is not always compliant with the traffic rules. In this paper, we proposed P-CSG, a penalty-based imitation learning approach with contrastive-based cross semantics generation sensor fusion technologies to increase the overall performance of end-to-end autonomous driving. In this method, we introduce three penalties - red light, stop sign, and curvature speed penalty to make the agent more sensitive to traffic rules. The proposed cross semantics generation helps to align the shared information of different input modalities. We assessed our model's performance using the CARLA Leaderboard - Town 05 Long Benchmark and Longest6 Benchmark, achieving 8.5% and 2.0% driving score improvement compared to the baselines. Furthermore, we conducted robustness evaluations against adversarial attacks like FGSM and Dot attacks, revealing a substantial increase in robustness compared to other baseline models. More detailed information can be found at https://hk-zh.github.io/p-csg-plus. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# CoFiI2P:イメージ・ツー・ポイント・クラウド登録のための粗大な対応
CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2309.14660v5 ) ライセンス: Link先を確認 | Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Xianghong Zou, Fangning Li, Xieyuanli Chen, Zhen Dong, Bisheng Yang, | (参考訳) イメージ・ツー・ポイント・クラウド(I2P)登録は、ロボットと自動運転車がモダリティ間のデータ融合とローカライゼーションを実現するための基本的なタスクである。
現在のI2P登録法は、主に点またはピクセルレベルでの対応を推定することに焦点を当てており、大域的なアライメントを無視することが多い。
結果として、I2Pマッチングは、グローバルな制約から高レベルなガイダンスが欠如している場合、局所的な最適値に容易に収束することができる。
成功率と汎用ロバスト性を改善するために,粗大な方法で対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを導入する。
まず、画像と点のクラウドデータを2ストリームエンコーダデコーダネットワークを介して処理し、階層的特徴抽出を行う。
第2に、これらの特徴を活用し、ロバストな特徴対応を確立するために、粗大なマッチングモジュールが設計されている。
具体的には、粗いマッチングフェーズにおいて、画像と点クラウドデータから均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールを用いる。
これにより、識別記述子との粗いスーパーポイント/スーパーピクセルマッチングペアを推定できる。
微細マッチングモジュールにおいて、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセル対を確立する。
最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。
KITTIオドメトリーデータセットを用いて行った実験は、CoFiI2Pが1.14度の相対回転誤差(RRE)と0.29mの相対翻訳誤差(RTE)を実時間速度を維持しながら達成できることを示し、Nuscenesデータセットの付加実験により、我々の手法の一般化性が確認された。
プロジェクトページは \url{https://whu-usi3dv.github.io/CoFiI2P} で公開されている。
Image-to-point cloud (I2P) registration is a fundamental task for robots and autonomous vehicles to achieve cross-modality data fusion and localization. Current I2P registration methods primarily focus on estimating correspondences at the point or pixel level, often neglecting global alignment. As a result, I2P matching can easily converge to a local optimum if it lacks high-level guidance from global constraints. To improve the success rate and general robustness, this paper introduces CoFiI2P, a novel I2P registration network that extracts correspondences in a coarse-to-fine manner. First, the image and point cloud data are processed through a two-stream encoder-decoder network for hierarchical feature extraction. Second, a coarse-to-fine matching module is designed to leverage these features and establish robust feature correspondences. Specifically, In the coarse matching phase, a novel I2P transformer module is employed to capture both homogeneous and heterogeneous global information from the image and point cloud data. This enables the estimation of coarse super-point/super-pixel matching pairs with discriminative descriptors. In the fine matching module, point/pixel pairs are established with the guidance of super-point/super-pixel correspondences. Finally, based on matching pairs, the transform matrix is estimated with the EPnP-RANSAC algorithm. Experiments conducted on the KITTI Odometry dataset demonstrate that CoFiI2P achieves impressive results, with a relative rotation error (RRE) of 1.14 degrees and a relative translation error (RTE) of 0.29 meters, while maintaining real-time speed.Additional experiments on the Nuscenes datasets confirm our method's generalizability. The project page is available at \url{https://whu-usi3dv.github.io/CoFiI2P}. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# グラフの畳み込みと混合の等価性について
On the Equivalence of Graph Convolution and Mixup ( http://arxiv.org/abs/2310.00183v2 ) ライセンス: Link先を確認 | Xiaotian Han, Hanqing Zeng, Yu Chen, Shaoliang Nie, Jingzhou Liu, Kanika Narang, Zahra Shakeri, Karthik Abinav Sankararaman, Song Jiang, Madian Khabsa, Qifan Wang, Xia Hu, | (参考訳) 本稿では,グラフ畳み込みと混合手法の関係について検討する。
グラフニューラルネットワークのグラフ畳み込みは、特定のノードやサンプルの代表的な特徴を学ぶために、近隣のサンプルから機能を集約する。
一方、Mixupはデータ拡張技術であり、複数のサンプルから平均的な機能と1ホットラベルを抽出することで、新しいサンプルを生成する。
これらの手法の共通点の1つは、特徴表現を導出するための複数のサンプルからの情報の利用である。
本研究は, これら2つのアプローチの関連性を検討することを目的とする。
調査の結果,2つの温和な条件下では,グラフの畳み込みは,学習段階と試験段階の両方で適用可能な,Mixupの特殊な形態であることがわかった。
条件は以下の2つ。
1) \textit{Homophily Relabel} - ターゲットノードのラベルを隣人全員に割り当て、
2) \textit{Test-Time Mixup} - テスト時間中に機能をミックスする。
グラフ畳み込みネットワーク(GCN)と単純化グラフ畳み込み(SGC)をミックスアップの形で表現できることを証明し、数学的にこの等価性を確立する。
また, 2つの条件を用いてMPPを訓練し, 等価性を実証的に検証した。
This paper investigates the relationship between graph convolution and Mixup techniques. Graph convolution in a graph neural network involves aggregating features from neighboring samples to learn representative features for a specific node or sample. On the other hand, Mixup is a data augmentation technique that generates new examples by averaging features and one-hot labels from multiple samples. One commonality between these techniques is their utilization of information from multiple samples to derive feature representation. This study aims to explore whether a connection exists between these two approaches. Our investigation reveals that, under two mild conditions, graph convolution can be viewed as a specialized form of Mixup that is applied during both the training and testing phases. The two conditions are: 1) \textit{Homophily Relabel} - assigning the target node's label to all its neighbors, and 2) \textit{Test-Time Mixup} - Mixup the feature during the test time. We establish this equivalence mathematically by demonstrating that graph convolution networks (GCN) and simplified graph convolution (SGC) can be expressed as a form of Mixup. We also empirically verify the equivalence by training an MLP using the two conditions to achieve comparable performance. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# fmeffects: 前縁効果のためのRパッケージ
fmeffects: An R Package for Forward Marginal Effects ( http://arxiv.org/abs/2310.02008v2 ) ライセンス: Link先を確認 | Holger Löwe, Christian A. Scholbeck, Christian Heumann, Bernd Bischl, Giuseppe Casalicchio, | (参考訳) 特に非線形および非パラメトリック予測モデルに適した、汎用的で効果的なモデル非依存的解釈法として、最近フォワード境界効果が導入された。
事前に指定されたステップサイズで特徴値を変更する場合、予測結果の変化は何か?
本稿では,Rパッケージfmeffectsについて紹介する。
本稿では、関連する理論的背景、パッケージ機能、ハンドリング、および将来の拡張のためのソフトウェア設計とオプションについて論じる。
Forward marginal effects have recently been introduced as a versatile and effective model-agnostic interpretation method particularly suited for non-linear and non-parametric prediction models. They provide comprehensible model explanations of the form: if we change feature values by a pre-specified step size, what is the change in the predicted outcome? We present the R package fmeffects, the first software implementation of the theory surrounding forward marginal effects. The relevant theoretical background, package functionality and handling, as well as the software design and options for future extensions are discussed in this paper. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# フェアネス・エンハンス・ミックス・エフェクトの深層学習による分布内および分布外(非ID)データの公平性向上
Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data ( http://arxiv.org/abs/2310.03146v2 ) ライセンス: Link先を確認 | Son Nguyen, Adam Wang, Albert Montillo, | (参考訳) 従来のディープラーニング(DL)モデルは2つの大きな課題に直面します。
まず、トレーニングサンプルが独立して同一に分散されていると仮定し、サンプルが共有された測定(例えば、参加者や細胞)によってグループ化される実世界のデータセットでは、その仮定がしばしば違反される。
これによりパフォーマンスが低下し、一般化が制限され、問題が解決し、Type 1とType 2のエラーが発生した。
第2に、DLモデルは一般的に全体的な正確さを優先し、過小評価されたグループ間で公平さを見落とし、融資承認や医療決定といった重要な領域でバイアスのある結果をもたらす。
これらの問題に対処するために、Fair Mixed Effects Deep Learning (Fair MEDL)フレームワークを紹介します。
Fair MEDLはクラスタ不変固定効果(FE)とクラスタ固有ランダム効果(RE)を定量化する
1)不変FEを学習するためのクラスタ敵
2)REのためのベイズニューラルネットワーク
3)最終予測にFEとREを組み合わせた混合関数。
さらに、敵の嫌悪感を取り入れて、3つの主要な指標(平等化オッド、デモグラフィックパリティ、カウンターファクチュアルフェアネス)の公平性を促進する。
また,プローブの重み付けを検知し,重み付けを行い,解釈性の向上を図る。
ファイナンスとヘルスケアの3つのデータセットに基づいて評価され、フェアMEDLは、年齢を最大73%、人種を47%、性を83%、結婚を26%改善し、堅牢な予測性能を維持している。
私たちの実装はGitHubで公開されています。
Traditional deep learning (DL) models face two key challenges. First, they assume training samples are independent and identically distributed, an assumption often violated in real-world datasets where samples are grouped by shared measurements (e.g., participants or cells). This leads to performance degradation, limited generalization, and confounding issues, causing Type 1 and Type 2 errors. Second, DL models typically prioritize overall accuracy, often overlooking fairness across underrepresented groups, leading to biased outcomes in critical areas such as loan approvals and healthcare decisions. To address these issues, we introduce the Fair Mixed Effects Deep Learning (Fair MEDL) framework. Fair MEDL quantifies cluster-invariant fixed effects (FE) and cluster-specific random effects (RE) through 1) a cluster adversary for learning invariant FE, 2) a Bayesian neural network for RE, and 3) a mixing function combining FE and RE for final predictions. Additionally, we incorporate adversarial debiasing to promote fairness across three key metrics: Equalized Odds, Demographic Parity, and Counterfactual Fairness. Our method also identifies and de-weights confounding probes, improving interpretability. Evaluated on three datasets from finance and healthcare, Fair MEDL improves fairness by up to 73% for age, 47% for race, 83% for sex, and 26% for marital status, while maintaining robust predictive performance. Our implementation is publicly available on GitHub. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# 相対論的ウィグナーフレンドシナリオを理解する:量子測定のユニタリアカウントの問題?
Making sense of relativistic Wigner friend scenarios: a problem for unitary accounts of quantum measurements ? ( http://arxiv.org/abs/2310.04167v3 ) ライセンス: Link先を確認 | J. Allam, A. Matzkin, | (参考訳) 外部のエージェントが、測定を行う友人を含む閉じた実験室を記述するという、弱い友人のシナリオは、測定を経るときに量子理論に固有の困難を浮き彫りにする。
非相対論的シナリオでは、友人が明確な結果を得た閉じたシステムに対してユニタリ進化を許容することが困難である。
相対論的シナリオでは、量子論と相対性理論の間の緊張が追加の制約を引き起こす。
相対論的シナリオの一般的な性質は、測定による状態更新のフレーム依存性である。
明確な例に基づいて、この性質が異なる参照フレームで得られた結果の矛盾した説明につながることを示す。
さらに、これらの結果は、単純な波動関数上のユニタリ演算として複素エージェントによってなされる動作をモデル化しようとするときに、いくつかの根本的な不適切さを示唆する。
Wigner-friend scenarios -- in which external agents describe a closed laboratory containing a friend making a measurement -- highlight the difficulties inherent to quantum theory when accounting for measurements. In non-relativistic scenarios, the difficulty is to accommodate unitary evolution for a closed system with a definite outcome obtained by the friend. In relativistic scenarios the tensions between quantum theory and relativity induce additional constraints. A generic property of relativistic scenarios is the frame-dependence of state update upon a measurement. Based on a definite example, we will show that this property leads to inconsistent accounts for outcomes obtained in different reference frames. We will further argue that these results point to some fundamental inadequacy when attempting to model actions taken by a complex agent as unitary operations made on simple wavefunctions. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-12 |
# SMSがIoTデバイスに侵入する恐れを調査
Investigating Threats Posed by SMS Origin Spoofing to IoT Devices ( http://arxiv.org/abs/2310.11052v3 ) ライセンス: Link先を確認 | Akaki Tsunoda, | (参考訳) ショートメッセージサービス(SMS)は、モバイルネットワークを介してテキストを交換するサービスであり、加入者間のテキスト通信だけでなく、IoT(Internet of Things)デバイスをリモートで管理する手段として開発された。
しかし、SMSの発端となる番号は偽造することができる。
IoTデバイスがSMSの発端数に基づいて管理者を認証した場合、認証はSMSの発端の偽造によってバイパスされる。
その結果、IoTデバイスは攻撃者からのコマンドを受け入れ、無許可のアクションを実行するリスクがある。
そこで本研究では,SMSによる遠隔管理に着目して,主要なセルラーIoTゲートウェイの仕様を評価し,認証バイパス仮説を検証した。
その結果,対象製品32種のうち25種がSMSベースの遠隔管理をサポートし,20種がSMSの発信数に基づいて認証を実装した。
さらに、SMSの発端数を隠蔽することで、認証バイパスによってリモートで利用できることが実証された。
そこで本研究では,SMS起源の脅威がIoTデバイスに波及し,SMS起源の脅威が人間のテキスト通信を脅かすだけでなく,機械通信を危険にさらすことを実証した。
The short message service (SMS) is a service for exchanging texts via mobile networks that has been developed not only as a means of text communication between subscribers but also as a means to remotely manage Internet of Things (IoT) devices. However, the originating number of an SMS can be spoofed. If IoT devices authenticate administrators based on the originating number of an SMS, the authentication is bypassed via SMS origin spoofing. Consequently, IoT devices are at risk of accepting commands from attackers and performing unauthorized actions. Accordingly, in this study, the specifications of major cellular IoT gateways were evaluated by focusing on remote management via SMS, and the authentication bypass hypothesis was verified. The results showed that 25 of the 32 targeted products supported SMS-based remote management, and 20 implemented authentication based on the originating number of the SMS. Furthermore, by spoofing the originating number of the SMS, one product was demonstrated to be remotely exploitable through authentication bypassing. Thus, this study revealed the threats posed by SMS origin spoofing to IoT devices and proved that SMS origin spoofing not only threatens text communication between people but also puts machine communication at risk. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# adF: 広告によるWebフィンガープリント計測システム
adF: A Novel System for Measuring Web Fingerprinting through Ads ( http://arxiv.org/abs/2311.08769v2 ) ライセンス: Link先を確認 | Miguel A. Bermejo-Agueda, Patricia Callejo, Rubén Cuevas, Ángel Cuevas, | (参考訳) 本稿では,異なるデバイス,オペレーティングシステム(OS),ブラウザのWebフィンガープリントに対する脆弱性を解析する新しいシステムであるadFを紹介する。
adFは広告に挿入されたコードから測定を行う。
我々はこのシステムを5億4000万回の広告インプレッションを配信するいくつかの広告キャンペーンで利用してきた。
収集したデータは、現在のデスクトップとモバイルデバイスの脆弱性をWebフィンガープリントで評価することを可能にする。
以上の結果から,デスクトップ端末の66%,モバイルデバイスの40%がWeb指紋認証システムで独自の指紋認証を行うことができると推定した。
しかし、Webフィンガープリントに対するレジリエンスはブラウザやデバイスタイプによって大きく異なり、デスクトップ上のChromeは最も脆弱な設定である。
ウェブフィンガープリントに対抗するために、我々は、最も重要な識別能力を示すデータセットの分析で見つかった属性のブラウザによるレポートをブロックする単純なソリューションであるShieldFを提案する。
実験の結果、ShieldFは主要なブラウザ(Chrome、Safari、Firefox)によって提案されたすべてのアンチフィンガープリントソリューションより優れており、いくつかのデバイス構成でWebフィンガープリントに提供されるレジリエンスが最大62%向上していることがわかった。
ShieldFは、あらゆるクロムベースのブラウザのアドオンとして利用できる。
さらに、ブラウザやモバイルアプリの開発者にとっても、簡単に採用できます。
広く利用されているため、ブラウザやモバイルアプリからWebフィンガープリントへの保護が大幅に改善されることになる。
This paper introduces adF, a novel system for analyzing the vulnerability of different devices, Operating Systems (OSes), and browsers to web fingerprinting. adF performs its measurements from code inserted in ads. We have used our system in several ad campaigns that delivered 5.40 million ad impressions. The collected data allow us to assess the vulnerability of current desktop and mobile devices to web fingerprinting. Based on our results, we estimate that 66% of desktop devices and 40% of mobile devices can be uniquely fingerprinted with our web fingerprinting system. However, the resilience to web fingerprinting varies significantly across browsers and device types, with Chrome on desktops being the most vulnerable configuration. To counter web fingerprinting, we propose ShieldF, a simple solution which blocks the reporting by browsers of those attributes that we found in the analysis of our dataset that present the most significant discrimination power. Our experiments reveal that ShieldF outperforms all anti-fingerprinting solutions proposed by major browsers (Chrome, Safari and Firefox) offering an increase in the resilience offered to web fingerprinting up to 62% for some device configurations. ShieldF is available as an add-on for any chromium-based browser. Moreover, it is readily adoptable by browser and mobile app developers. Its widespread use would lead to a significant improvement in the protection offered by browsers and mobile apps to web fingerprinting. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# 統一ドメイン適応セマンティックセマンティックセグメンテーション
Unified Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2311.13254v3 ) ライセンス: Link先を確認 | Zhe Zhang, Gaochang Wu, Jing Zhang, Xiatian Zhu, Dacheng Tao, Tianyou Chai, | (参考訳) Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
既存のUDA-SS作品の多くは画像について考察するが、最近の試みは時間次元をモデル化してビデオに取り組むためにさらに拡張されている。
この2つの研究は、基礎となるドメイン分散シフトを克服する上で大きな課題を共有していますが、その研究は大部分が独立しており、断片化された洞察、全体的理解の欠如、アイデアを相互に補う機会の欠如につながります。
この断片化は手法の統一を防ぎ、冗長な努力と画像ドメインとビデオドメイン間の最適知識伝達につながる。
本研究は,より包括的理解,シナジスティックな進歩,効率的な知識共有を実現するため,映像シナリオと画像シナリオにまたがるUDA-SS研究の統一を提唱する。
この目的のために、汎用データ拡張の観点から統一されたUDA-SSを探求し、統一された概念的枠組みとして機能し、一般化を可能とし、アイデアのクロスポリン化の可能性を秘め、最終的にこの研究分野の全体的な進展と実践的影響に寄与する。
具体的には,特徴空間内でのドメイン内混合とドメイン間混合の4方向経路を通じて,異なる点属性と特徴の不整合に対処するQuad-directional Mixup (QuadMix)法を提案する。
ビデオの時間的シフトに対処するために、細粒度ドメインアライメントのための空間的および時間的次元にわたる光学的フロー誘導機能アグリゲーションを組み込んだ。
大規模な実験により,本手法は4つの挑戦的 UDA-SS ベンチマークにおいて,最先端の工法よりも高い性能を示した。
私たちのソースコードとモデルは、 \url{https://github.com/ZHE-SAPI/UDASS} でリリースされます。
Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) aims to transfer the supervision from a labeled source domain to an unlabeled target domain. The majority of existing UDA-SS works typically consider images whilst recent attempts have extended further to tackle videos by modeling the temporal dimension. Although the two lines of research share the major challenges -- overcoming the underlying domain distribution shift, their studies are largely independent, resulting in fragmented insights, a lack of holistic understanding, and missed opportunities for cross-pollination of ideas. This fragmentation prevents the unification of methods, leading to redundant efforts and suboptimal knowledge transfer across image and video domains. Under this observation, we advocate unifying the study of UDA-SS across video and image scenarios, enabling a more comprehensive understanding, synergistic advancements, and efficient knowledge sharing. To that end, we explore the unified UDA-SS from a general data augmentation perspective, serving as a unifying conceptual framework, enabling improved generalization, and potential for cross-pollination of ideas, ultimately contributing to the overall progress and practical impact of this field of research. Specifically, we propose a Quad-directional Mixup (QuadMix) method, characterized by tackling distinct point attributes and feature inconsistencies through four-directional paths for intra- and inter-domain mixing in a feature space. To deal with temporal shifts with videos, we incorporate optical flow-guided feature aggregation across spatial and temporal dimensions for fine-grained domain alignment. Extensive experiments show that our method outperforms the state-of-the-art works by large margins on four challenging UDA-SS benchmarks. Our source code and models will be released at \url{https://github.com/ZHE-SAPI/UDASS}. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# StyleCrafter:スタイルアダプタによるスタイリズされたテキスト・ビデオ生成の強化
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter ( http://arxiv.org/abs/2312.00330v2 ) ライセンス: Link先を確認 | Gongye Liu, Menghan Xia, Yong Zhang, Haoxin Chen, Jinbo Xing, Yibo Wang, Xintao Wang, Yujiu Yang, Ying Shan, | (参考訳) テキスト・ツー・ビデオ(T2V)モデルは、多様なビデオを生成する際、顕著な能力を示している。
しかし、ユーザーを欲しがるスタイルの動画を作るのに苦労している。
一 特定の様式をあらわすことにおける本文固有の不器用さ
(二)全般的に劣化した様式の忠実さ。
これらの課題に対処するために、スタイル制御アダプタを用いて事前訓練されたT2Vモデルを強化する汎用的な方法であるStyleCrafterを導入し、参照画像を提供することで、任意のスタイルのビデオ生成を可能にする。
スタイリングされたビデオデータセットの不足を考慮すると、まずスタイルリッチな画像データセットを用いてスタイル制御アダプタを訓練し、学習したスタイリング能力をテーラーメイドのファインタニングパラダイムを通じてビデオ生成に転送することを提案する。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,デカップリング学習戦略を用いて参照画像のみからスタイル情報を抽出する。
さらに、テキストベースのコンテンツ機能と画像ベースのスタイル機能の影響のバランスをとるために、スケール適応型融合モジュールを設計し、様々なテキストとスタイルの組み合わせを一般化するのに役立つ。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
実験によると、我々のアプローチは既存の競合相手よりも柔軟で効率的である。
Text-to-video (T2V) models have shown remarkable capabilities in generating diverse videos. However, they struggle to produce user-desired stylized videos due to (i) text's inherent clumsiness in expressing specific styles and (ii) the generally degraded style fidelity. To address these challenges, we introduce StyleCrafter, a generic method that enhances pre-trained T2V models with a style control adapter, enabling video generation in any style by providing a reference image. Considering the scarcity of stylized video datasets, we propose to first train a style control adapter using style-rich image datasets, then transfer the learned stylization ability to video generation through a tailor-made finetuning paradigm. To promote content-style disentanglement, we remove style descriptions from the text prompt and extract style information solely from the reference image using a decoupling learning strategy. Additionally, we design a scale-adaptive fusion module to balance the influences of text-based content features and image-based style features, which helps generalization across various text and style combinations. StyleCrafter efficiently generates high-quality stylized videos that align with the content of the texts and resemble the style of the reference images. Experiments demonstrate that our approach is more flexible and efficient than existing competitors. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# カーネル回帰におけるウィナーカオス : 失語症とてんかんの不確かさの解消に向けて
Wiener Chaos in Kernel Regression: Towards Untangling Aleatoric and Epistemic Uncertainty ( http://arxiv.org/abs/2312.07387v2 ) ライセンス: Link先を確認 | T. Faulwasser, O. Molodchyk, | (参考訳) ガウス過程(英: Gaussian Processes, GP)は、動的および制御の学習への様々なアプローチを可能にする汎用的な手法である。
基底再生核ヒルベルト空間の正の半定値核は函数上のガウス分布の共分散を構成するのに使用され、測定ノイズ(すなわちデータ破損)は通常、加法的ガウス分布としてモデル化される。
本稿では,この設定を一般化し,加法的,すなわち非ガウス計測ノイズによるカーネルリッジ回帰を考慮した。
通常のカーネルトリックを適用するために、ノルベルト・ウィーナーが導入した有限分散の確率変数に対する級数展開である多項式カオス展開による不確実性の表現に依存する。
We derived and discuss the analysis $\mathcal{L}^2$ solution to arising Wiener kernel regression。
数値的な例として多項式力学系を考えると,データサンプルのノイズから生じる不確実性とGP後部分布に符号化された全不確実性とを区別できることを示す。
Gaussian Processes (GPs) are a versatile method that enables different approaches towards learning for dynamics and control. Gaussianity assumptions appear in two dimensions in GPs: The positive semi-definite kernel of the underlying reproducing kernel Hilbert space is used to construct the co-variance of a Gaussian distribution over functions, while measurement noise (i.e. data corruption) is usually modeled as i.i.d. additive Gaussians. In this note, we generalize the setting and consider kernel ridge regression with additive i.i.d. non-Gaussian measurement noise. To apply the usual kernel trick, we rely on the representation of the uncertainty via polynomial chaos expansions, which are series expansions for random variables of finite variance introduced by Norbert Wiener. We derive and discuss the analytic $\mathcal{L}^2$ solution to the arising Wiener kernel regression. Considering a polynomial dynamic system as a numerical example, we show that our approach allows us to distinguish the uncertainty that stems from the noise in the data samples from the total uncertainty encoded in the GP posterior distribution. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# MToP: 進化的マルチタスクのためのMATLAB最適化プラットフォーム
MToP: A MATLAB Optimization Platform for Evolutionary Multitasking ( http://arxiv.org/abs/2312.08134v3 ) ライセンス: Link先を確認 | Yanchi Li, Wenyin Gong, Fei Ming, Tingyu Zhang, Shuijia Li, Qiong Gu, | (参考訳) 進化的マルチタスキング(EMT)は、ここ数年で進化的計算の一般的なトピックとして現れてきた。
タスク間の知識伝達技術を利用して、限られたコンピューティングリソース内で複数の最適化タスクを同時に処理することを目的としている。
マルチタスク最適化 (MTO) のためのマルチタスク進化アルゴリズム (MTEA) が多数提案されているにもかかわらず、研究者がベンチマークMTO問題においてMTEAのパフォーマンスを評価するのに役立つ包括的なソフトウェアプラットフォームは依然として存在する。
このギャップを埋めるため,EMT 向けに MTO-Platform (MTOP) というオープンソースの最適化プラットフォームを導入する。
MToPには40以上のMTEA、150以上のMTO問題、20以上のパフォーマンスメトリクスが含まれている。
さらに,MTEAと従来の進化アルゴリズムの比較分析を容易にするため,MTO問題に対処するために40以上の一般的な単一タスク進化アルゴリズムを適用した。
MToPはユーザフレンドリーなグラフィカルインターフェースを備えており、結果分析、データエクスポート、スキーマの可視化を容易にする。
さらに重要なのは、MToPは拡張性を考慮して設計されており、ユーザーは新しいアルゴリズムを開発し、新しい問題領域に取り組むことができる。
MToPのソースコードはhttps://github.com/intLyc/MTO-Platformで入手できる。
Evolutionary multitasking (EMT) has emerged as a popular topic of evolutionary computation over the past years. It aims to concurrently address multiple optimization tasks within limited computing resources, leveraging inter-task knowledge transfer techniques. Despite the abundance of multitask evolutionary algorithms (MTEAs) proposed for multitask optimization (MTO), there remains a comprehensive software platform to help researchers evaluate MTEA performance on benchmark MTO problems as well as explore real-world applications. To bridge this gap, we introduce the first open-source optimization platform, named MTO-Platform (MToP), for EMT. MToP incorporates over 40 MTEAs, more than 150 MTO problem cases with real-world applications, and over 20 performance metrics. Moreover, to facilitate comparative analyses between MTEAs and traditional evolutionary algorithms, we adapted over 40 popular single-task evolutionary algorithms to address MTO problems. MToP boasts a user-friendly graphical interface, facilitating results analysis, data export, and schematics visualization. More importantly, MToP is designed with extensibility in mind, allowing users to develop new algorithms and tackle emerging problem domains. The source code of MToP is available at https://github.com/intLyc/MTO-Platform. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# StyleSinger: 外部歌声合成のためのスタイル転送
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis ( http://arxiv.org/abs/2312.10741v3 ) ライセンス: Link先を確認 | Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao, | (参考訳) オフ・オブ・ドメイン(OOD)歌唱音声合成(SVS)のためのスタイル転送は、参照歌唱音声サンプルから派生した、目に見えないスタイル(音色、感情、発音、調音スキルなど)で高品質な歌唱音声を生成することに焦点を当てている。
しかし、歌声の歌唱スタイルの複雑なニュアンスをモデル化する試みは、顕著な表現力を持っているため、困難な作業である。
さらに,既存のSVS手法では,OODシナリオにおける合成歌声の質の低下に遭遇する。
これらの課題を克服するために、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌唱音声合成モデルであるStyleSingerを提案する。
StyleSingerには2つの重要なアプローチが組み込まれている。
1)残量化モジュールを用いて歌唱音声の多様なスタイル特性を捉える残留形適応器(RSA)
2) Uncertainty Modeling Layer Normalization (UMLN) は、トレーニングフェーズ中にコンテンツ表現内のスタイル属性を摂動させ、モデル一般化を改善する。
ゼロショットスタイル転送における広範囲な評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースラインモデルより優れていることを不確実に証明している。
歌声サンプルへのアクセスはhttps://stylesinger.github.io/.com/で確認できる。
Style transfer for out-of-domain (OOD) singing voice synthesis (SVS) focuses on generating high-quality singing voices with unseen styles (such as timbre, emotion, pronunciation, and articulation skills) derived from reference singing voice samples. However, the endeavor to model the intricate nuances of singing voice styles is an arduous task, as singing voices possess a remarkable degree of expressiveness. Moreover, existing SVS methods encounter a decline in the quality of synthesized singing voices in OOD scenarios, as they rest upon the assumption that the target vocal attributes are discernible during the training phase. To overcome these challenges, we propose StyleSinger, the first singing voice synthesis model for zero-shot style transfer of out-of-domain reference singing voice samples. StyleSinger incorporates two critical approaches for enhanced effectiveness: 1) the Residual Style Adaptor (RSA) which employs a residual quantization module to capture diverse style characteristics in singing voices, and 2) the Uncertainty Modeling Layer Normalization (UMLN) to perturb the style attributes within the content representation during the training phase and thus improve the model generalization. Our extensive evaluations in zero-shot style transfer undeniably establish that StyleSinger outperforms baseline models in both audio quality and similarity to the reference singing voice samples. Access to singing voice samples can be found at https://stylesinger.github.io/. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# LLM4VG:ビデオグラウンド化のための大規模言語モデルの評価
LLM4VG: Large Language Models Evaluation for Video Grounding ( http://arxiv.org/abs/2312.14206v3 ) ライセンス: Link先を確認 | Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Houlun Chen, Zihan Song, Yuwei Zhou, Yuekui Yang, Haiyang Wu, Wenwu Zhu, | (参考訳) 近年,ビデオ処理におけるLLMの有効性について検討し,いくつかのビデオLLMモデルを提案する。
しかし、LLMがビデオグラウンド(VG)を扱う能力は重要な時間的ビデオタスクであり、与えられたテキストクエリにマッチするビデオにおける時間的モーメントの開始と終了のタイムスタンプを正確に特定する必要がある。
このギャップを埋めるために,ビデオグラウンド処理における異なるLLMの性能を体系的に評価するLLM4VGベンチマークを提案する。
提案したLLM4VGに基づいて,ビデオグラウンド上でのビデオLLMモデルの2つのグループを調べるための広範な実験を設計する。
(i)テキスト-ビデオペア(VidLLMと表記)でトレーニングされたビデオLLM
(2)LLMとビデオ・画像キャプションモデルのような事前訓練された視覚記述モデルを組み合わせる。
本稿では,視覚的直接記述のためのキャプションベースジェネレータや,情報強調のためのVQAベースのジェネレータなど,さまざまな種類のジェネレータからのVG命令と記述を統合する手法を提案する。
また、様々なVidLLMの総合的な比較を行い、視覚モデル、LLM、プロンプトデザインなど様々な選択の影響についても検討する。
実験結果から2つの結論が得られた。
(i)既存のVidLLMは、まだ満足のいくビデオグラウンドのパフォーマンスには程遠いので、これらのモデルをさらに微調整するためには、もっと時間関連のビデオタスクを含めるべきです。
(II)LLMと視覚モデルの組み合わせは、より信頼性の高いモデルに頼り、プロンプトインストラクションのガイダンスを更に進めることで、ビデオグラウンドの予備的能力と改善の可能性を示す。
Recently, researchers have attempted to investigate the capability of LLMs in handling videos and proposed several video LLM models. However, the ability of LLMs to handle video grounding (VG), which is an important time-related video task requiring the model to precisely locate the start and end timestamps of temporal moments in videos that match the given textual queries, still remains unclear and unexplored in literature. To fill the gap, in this paper, we propose the LLM4VG benchmark, which systematically evaluates the performance of different LLMs on video grounding tasks. Based on our proposed LLM4VG, we design extensive experiments to examine two groups of video LLM models on video grounding: (i) the video LLMs trained on the text-video pairs (denoted as VidLLM), and (ii) the LLMs combined with pretrained visual description models such as the video/image captioning model. We propose prompt methods to integrate the instruction of VG and description from different kinds of generators, including caption-based generators for direct visual description and VQA-based generators for information enhancement. We also provide comprehensive comparisons of various VidLLMs and explore the influence of different choices of visual models, LLMs, prompt designs, etc, as well. Our experimental evaluations lead to two conclusions: (i) the existing VidLLMs are still far away from achieving satisfactory video grounding performance, and more time-related video tasks should be included to further fine-tune these models, and (ii) the combination of LLMs and visual models shows preliminary abilities for video grounding with considerable potential for improvement by resorting to more reliable models and further guidance of prompt instructions. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# ラマンキャビティハイブリッドにおける平衡パラメトリック増幅
Equilibrium Parametric Amplification in Raman-Cavity Hybrids ( http://arxiv.org/abs/2312.14243v2 ) ライセンス: Link先を確認 | H. P. Ojeda Collado, Marios H. Michael, Jim Skulte, Angel Rubio, Ludwig Mathey, | (参考訳) パラメトリック共鳴と増幅はポンププローブ実験において異常な光誘起現象を引き起こしている。
これらの現象は平衡外設定で現れるが、ここではパラメトリック増幅の顕著な結果を示す。
特に、ラマンモード周波数がキャビティモード周波数の2倍である場合、ラマンモードの量子的および熱的ゆらぎはキャビティ内の光を平衡で増幅することを示した。
このノイズ駆動増幅により、異常なパラメトリックなラマン偏光子が生成され、ラマンモードとキャビティのゆらぎが交わり、ラマン分光における銃のシグネチャが喫煙される。
共振系では、量子光増幅だけでなく、ラマンモードの局在化や静的シフトの出現を示す。
平衡パラメトリック増幅の基本的な関心とは別に、我々の研究はラマンモードを制御する共鳴機構を示唆している。
我々はRaman-Cavity結合の計算方法を概説し、実験的実現の可能性を提案する。
Parametric resonances and amplification have led to extraordinary photoinduced phenomena in pump-probe experiments. While these phenomena manifest themselves in out-of-equilibrium settings, here, we present the striking result of parametric amplification in equilibrium. In particular, we demonstrate that quantum and thermal fluctuations of a Raman-active mode amplifies light inside a cavity, at equilibrium, when the Raman mode frequency is twice the cavity mode frequency. This noise-driven amplification leads to the creation of an unusual parametric Raman polariton, intertwining the Raman mode with cavity squeezing fluctuations, with smoking gun signatures in Raman spectroscopy. In the resonant regime, we show the emergence of not only quantum light amplification but also localization and static shift of the Raman mode. Apart from the fundamental interest of equilibrium parametric amplification our study suggests a resonant mechanism for controlling Raman modes and thus matter properties by cavity fluctuations. We conclude by outlining how to compute the Raman-cavity coupling, and suggest possible experimental realization | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# サービス効率と平等のバランスをとるための拡張p中間問題
Extended p-median problems for balancing service efficiency and equality ( http://arxiv.org/abs/2312.14408v3 ) ライセンス: Link先を確認 | Yunfeng Kong, Chenchen Lian, Guangli Zhang, Shiyan Zhai, | (参考訳) この記事では、サービスの効率と平等のバランスをとるための場所問題を扱います。
公共サービスシステムでは、一部の個人は、他の個人よりも長い距離を旅してサービスにアクセスする必要がある場合、うらやましい経験をすることがある。
このエンビーは、個人の旅行距離をサービス施設としきい値距離を比較して、簡易化することができる。
サービス効率と空間的平等のバランスをとるために, 旅行距離と全うらやみを利用して, 4つの拡張されたp中間問題を提案する。
新たな目的関数は不等式逆として設計され、サービス効率と等式の両方に関するいくつかの解析的性質を示す。
拡張された問題は、ベンチマークインスタンスの2つのセットと地理的インスタンスの1つのセットで広範囲にテストされた。
実験の結果,標準偏差,平均絶対偏差,走行距離間のジーニ係数などの等式は,走行距離をわずかに増加させることで大幅に改善できることがわかった。
さらに、パレート最適性解析と他の位置問題との比較により、提案した問題の利点を検証した。
This article deals with the location problem for balancing the service efficiency and equality. In public service systems, some individuals may experience envy if they have to travel longer distances to access services compared to others. This envy can be simplified by comparing an individual's travel distance to a service facility against a threshold distance. Four extended p-median problems are proposed, utilizing the total travel distance and total envy to balance service efficiency and spatial equality. The new objective function is designed to be inequity-averse and exhibits several analytical properties that pertain to both service efficiency and equality. The extended problems were extensively tested on two sets of benchmark instances and one set of geographical instances. The experimentation shows that the equality measures, such as the standard deviation, mean absolute deviation, and Gini coefficient between travel distances, can be substantially improved by slightly increasing the travel distance. Additionally, the advantages of the proposed problems were validated through Pareto optimality analysis and comparisons with other location problems. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-12 |
# ニューラル演算子のための合成データの生成
Generating synthetic data for neural operators ( http://arxiv.org/abs/2401.02398v2 ) ライセンス: Link先を確認 | Erisa Hasani, Rachel A. Ward, | (参考訳) 近年の文献における多くの発展は、偏微分方程式(PDE)の数値解を現在の数値解法の範囲を超えて得ることにおけるディープラーニングの有望な可能性を示している。
ネットワークを訓練するために必要なデータは、有限差分や有限要素といった古典的な数値解法に依存する。
本稿では、PDEを数値的に解く必要のない合成機能トレーニングデータを生成するための異なるアプローチを提案する。
独立かつ同値に分散された'ランダム関数'$u_j$を、古典理論に従って解が成り立つことを知るような解空間(例えば、$H_0^1(\Omega)$)から、多数の$N$の独立かつ同値な'ランダム関数'$u_j$を引き出す。
次に、これらのランダムな候補解を方程式に差し込み、その方程式に対して対応する右辺関数 $f_j$ を取得し、基礎となる逆問題 $f \rightarrow u$ を学ぶための教師付きトレーニングデータとして $(f_j, u_j)_{j=1}^N$ を考える。
トレーニングデータを生成するための"backwards"アプローチでは、標準的な"forward"アプローチとは対照的に、数値PDEソルバを必要とするため、多くのデータポイントを迅速かつ効率的に生成できる。
アイデアは単純だが,古典的な数値解法に依存しないニューラルPDE解法の開発の可能性を広げることを期待している。
Numerous developments in the recent literature show the promising potential of deep learning in obtaining numerical solutions to partial differential equations (PDEs) beyond the reach of current numerical solvers. However, data-driven neural operators all suffer from a similar problem: the data needed to train a network depends on classical numerical solvers such as finite difference or finite element, among others. In this paper, we propose a different approach to generating synthetic functional training data that does not require solving a PDE numerically. We draw a large number $N$ of independent and identically distributed 'random functions' $u_j$ from the underlying solution space (e.g., $H_0^1(\Omega)$) in which we know the solution lies according to classical theory. We then plug each such random candidate solution into the equation and get a corresponding right-hand side function $f_j$ for the equation, and consider $(f_j, u_j)_{j=1}^N$ as supervised training data for learning the underlying inverse problem $f \rightarrow u$. This `backwards' approach to generating training data only requires derivative computations, in contrast to standard `forward' approaches, which require a numerical PDE solver, enabling us to generate many data points quickly and efficiently. While the idea is simple, we hope this method will expand the potential for developing neural PDE solvers that do not depend on classical numerical solvers. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# エンティティ解像度向上のための大規模言語モデルの活用について:コスト効率のよいアプローチ
On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach ( http://arxiv.org/abs/2401.03426v2 ) ライセンス: Link先を確認 | Huahang Li, Longyu Feng, Shuangyin Li, Fei Hao, Chen Jason Zhang, Yuanfeng Song, | (参考訳) エンティティ解決(Entity resolution)は、同じ現実世界のエンティティを指すレコードを識別し、マージするタスクであり、eコマース、ヘルスケア、法執行機関といった分野において重要である。
大規模言語モデル(LLM)はこのタスクに革新的なアプローチを導入し、先進的な言語能力と‘pay-as-you-go’モデルを活用する。
しかし、現在のLLMはAPIごとの要求請求によってコストがかかる。
既存の手法は、品質の欠如や、大規模に高価になることがしばしばある。
これらの問題に対処するために,LLMを用いた不確実性低減フレームワークを提案する。
まず、エンティティクラスタの可能なパーティションを初期化し、同じエンティティを参照し、結果の不確実性を定義します。
次に,LLM検証に有効ないくつかの質問を選択することにより,不確実性を低減する。
回答を受信すると、可能なパーティションの確率分布を更新する。
コストをさらに削減するため、クエリに最も価値の高いマッチングペアを任意に選択する効率的なアルゴリズムを設計する。
さらに,LLMの誤りに対処するエラー耐性技術と,真に正しいパーティションに到達するための動的調整手法を作成する。
実験の結果,本手法は効率的かつ効果的であり,実世界のタスクに有望な応用を提供することがわかった。
Entity resolution, the task of identifying and merging records that refer to the same real-world entity, is crucial in sectors like e-commerce, healthcare, and law enforcement. Large Language Models (LLMs) introduce an innovative approach to this task, capitalizing on their advanced linguistic capabilities and a ``pay-as-you-go'' model that provides significant advantages to those without extensive data science expertise. However, current LLMs are costly due to per-API request billing. Existing methods often either lack quality or become prohibitively expensive at scale. To address these problems, we propose an uncertainty reduction framework using LLMs to improve entity resolution results. We first initialize possible partitions of the entity cluster, refer to the same entity, and define the uncertainty of the result. Then, we reduce the uncertainty by selecting a few valuable matching questions for LLM verification. Upon receiving the answers, we update the probability distribution of the possible partitions. To further reduce costs, we design an efficient algorithm to judiciously select the most valuable matching pairs to query. Additionally, we create error-tolerant techniques to handle LLM mistakes and a dynamic adjustment method to reach truly correct partitions. Experimental results show that our method is efficient and effective, offering promising applications in real-world tasks. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# 医療における大規模言語モデルを用いた公衆の関心事と選択の理解
Understanding the concerns and choices of public when using large language models for healthcare ( http://arxiv.org/abs/2401.09090v2 ) ライセンス: Link先を確認 | Yunpeng Xiao, Kyrie Zhixuan Zhou, Yueqing Liang, Kai Shu, | (参考訳) 大規模言語モデル(LLM)は、生体医学分野におけるその可能性を示している。
しかし、医学的Q&A、自己診断、日々の医療情報検索などの医療目的にどのように使用されるかはまだ解明されていない。
本報告では,医療にLLMをどのように利用しているかを調査するための調査 (N=214) とインタビュー (N=17) を含む混合方法論のアプローチを採用する。
その結果, LLMsは医療ツールとして広く普及しており, 検索エンジンやオンライン健康コミュニティといった他の情報チャネルと組み合わせて情報品質の最適化に利用されていることが判明した。
本研究は,医療におけるLLMの倫理的・効果的な活用を反映し,今後の研究方向性を提案する。
Large language models (LLMs) have shown their potential in biomedical fields. However, how the public uses them for healthcare purposes such as medical Q\&A, self-diagnosis, and daily healthcare information seeking is under-investigated. This paper adopts a mixed-methods approach, including surveys (N=214) and interviews (N=17) to investigate how and why the public uses LLMs for healthcare. We found that participants generally believed LLMs as a healthcare tool have gained popularity, and are often used in combination with other information channels such as search engines and online health communities to optimize information quality. Based on the findings, we reflect on the ethical and effective use of LLMs for healthcare and propose future research directions. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか
Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v8 ) ライセンス: Link先を確認 | Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor, Izaskun Oregi, | (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。
NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。
両方のコンピューティングパラダイムをリンクする基盤は、今後も堅牢なままだ。
この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバのいくつかを記述し分類する。
第二に、現在実運用にデプロイされており、実際の産業に近いことを実証している2つの解決器に特化しています。
これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。
ベンチマークを4つの組合せ最適化問題として用いて,両手法の性能を解析した。
Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both methods using as benchmarks four combinatorial optimization problems. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# イベントベースパターン認識のための不確実性を考慮したブリッジ型移動体ネットワーク
Uncertainty-aware Bridge based Mobile-Former Network for Event-based Pattern Recognition ( http://arxiv.org/abs/2401.11123v2 ) ライセンス: Link先を確認 | Haoxiang Yang, Chengguo Yuan, Yabin Zhu, Lan Chen, Xiao Wang, Futian Wang, | (参考訳) このアルゴリズムは低画質の画像(例えば、低照度、動きのぼかし)の影響を受けやすいRGBカメラに基づいて開発されている。
一方、超高解像度(HD)RGBカメラによるプライバシー保護問題は、ますます人々の注意を喚起した。
高ダイナミックレンジ、運動のぼやけのない、エネルギー消費の少ないイベントカメラの成功に触発されて、イベントストリームに基づいて人間の行動を認識することを提案する。
我々は,MobileNetとTransformerネットワークを効果的に集約する,効率的なパターン認識のための,軽量不確実性を考慮した情報伝達に基づくMobile-Formerネットワークを提案する。
具体的には,まず幹ネットワークを用いてイベントイメージを特徴表現に埋め込み,不確実性を認識したMobile-Formerブロックに入力し,局所的およびグローバルな特徴学習と融合を行う。
最後に、MobileNetとTransformerブランチの機能は、パターン認識のために結合される。
複数のイベントベースの認識データセットに対する大規模な実験は、我々のモデルの有効性を十分に検証した。
この作業のソースコードはhttps://github.com/Event-AHU/Uncertainty_aware_MobileFormerで公開される。
The mainstream human activity recognition (HAR) algorithms are developed based on RGB cameras, which are easily influenced by low-quality images (e.g., low illumination, motion blur). Meanwhile, the privacy protection issue caused by ultra-high definition (HD) RGB cameras aroused more and more people's attention. Inspired by the success of event cameras which perform better on high dynamic range, no motion blur, and low energy consumption, we propose to recognize human actions based on the event stream. We propose a lightweight uncertainty-aware information propagation based Mobile-Former network for efficient pattern recognition, which aggregates the MobileNet and Transformer network effectively. Specifically, we first embed the event images using a stem network into feature representations, then, feed them into uncertainty-aware Mobile-Former blocks for local and global feature learning and fusion. Finally, the features from MobileNet and Transformer branches are concatenated for pattern recognition. Extensive experiments on multiple event-based recognition datasets fully validated the effectiveness of our model. The source code of this work will be released at https://github.com/Event-AHU/Uncertainty_aware_MobileFormer. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# 未来のフレーム合成に関する調査:ブリッジング決定論的および生成的アプローチ
A Survey on Future Frame Synthesis: Bridging Deterministic and Generative Approaches ( http://arxiv.org/abs/2401.14718v4 ) ライセンス: Link先を確認 | Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou, | (参考訳) Future Frame Synthesis (FFS) は、モデルが既存のコンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
このタスクは、様々なドメインにまたがって広く応用されている。
本稿では,この分野における歴史的・現代的両方の著作を包括的に調査し,広く使われているデータセットとアルゴリズムを包括的に調査する。
我々の調査は、コンピュータビジョンの領域におけるFSの課題と進化する展望を精査している。
本稿では,関連するアルゴリズムの確率的性質に着目した新しい分類法を提案する。
この分類学は、決定論的から生成的合成方法論への段階的な移行を強調し、アプローチの著しい進歩とシフトを強調している。
Future Frame Synthesis (FFS) aims to enable models to generate sequences of future frames based on existing content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing widely used datasets and algorithms. Our survey scrutinizes the challenges and the evolving landscape of FFS within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of related algorithms. This taxonomy emphasizes the gradual transition from deterministic to generative synthesis methodologies, highlighting significant advancements and shifts in approach. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# 単語埋め込みのためのコサインに基づくバイアススコアの意味的特性
Semantic Properties of cosine based bias scores for word embeddings ( http://arxiv.org/abs/2401.15499v2 ) ライセンス: Link先を確認 | Sarah Schröder, Alexander Schulz, Fabian Hinder, Barbara Hammer, | (参考訳) 多くの研究が言語モデルに社会的バイアスをもたらし、そのようなバイアスを検出する方法を提案した。
その結果、文献には多くの異なるバイアステストとスコアが含まれており、それぞれが他のスコアが検出できないよりも多くのバイアスを明らかにするために導入されている。
しかし、文献に欠けているのは、そのようなバイアススコアを分析し、研究者が既存の方法の利点や限界を理解するのに役立つ比較研究である。
本研究では,コサインに基づくバイアススコアのギャップを埋めることを目的としている。
偏りの幾何学的定義に基づいて、偏りの定量化に意味のあるバイアススコアの要件を提案する。
さらに,これらの要件に関する文献から,コサインに基づくスコアを公式に分析する。
これらの結果は、バイアススコアの制限がアプリケーションケースに影響を及ぼすことを示す実験で裏付けられている。
Plenty of works have brought social biases in language models to attention and proposed methods to detect such biases. As a result, the literature contains a great deal of different bias tests and scores, each introduced with the premise to uncover yet more biases that other scores fail to detect. What severely lacks in the literature, however, are comparative studies that analyse such bias scores and help researchers to understand the benefits or limitations of the existing methods. In this work, we aim to close this gap for cosine based bias scores. By building on a geometric definition of bias, we propose requirements for bias scores to be considered meaningful for quantifying biases. Furthermore, we formally analyze cosine based scores from the literature with regard to these requirements. We underline these findings with experiments to show that the bias scores' limitations have an impact in the application case. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# 非複素性による量子回路マッピングのための光錐境界
Lightcone Bounds for Quantum Circuit Mapping via Uncomplexity ( http://arxiv.org/abs/2402.00478v2 ) ライセンス: Link先を確認 | Matthew Steinberg, Medina Bandic, Sacha Szkudlarek, Carmen G. Almudever, Aritra Sarkar, Sebastian Feld, | (参考訳) 量子回路をハードウェアに効率的にマッピングすることは、量子コンパイルプロセスの不可欠な部分であり、量子プロセッサの厳密なアーキテクチャ要求に応じて回路が変更される。
量子回路マッピング問題の解決には、量子回路マッピングと古典計算機科学の問題を関連付けるいくつかの理論的視点に加えて、多くの技術が存在する。
この研究は、単純化された回路のルーティング過程を量子回路とプロセッサを表す密度行列に作用する量子演算の合成と見なす量子回路マッピングに関する新しい視点を考察する。
近年の量子回路の複雑化と情報幾何学の進歩から洞察を得て、デバイス上で量子回路を実行するための最小のSWAPゲートカウントが、量子Jensen-Shannon分散を用いて量子状態間の距離を最小化することによって出現することを示し、光錐境界をダブする。
さらに、相互作用グラフと結合グラフの間のグラフ同型に最も近い分割を選択するグラフ類似性探索に基づく新しい初期配置アルゴリズムを開発する。
これら2つの指標から,IBM Qiskitコンパイラと直接比較し,600ドル以上の現実的なベンチマーク実験を行い,より小さなベンチマークのためのブルートフォース法に対して,光円錐境界を計算するアルゴリズムを構築した。
我々のシミュレーションでは、制約量子ハードウェア上で量子アルゴリズムを実現する際に、ブルートフォース法もカイスキットコンパイラも、最小限のオーバーヘッドを推定するための信号処理ユーティリティを超えていないことが明らかになっている。
この研究は、実際に関連する量子コンピューティングに量子回路の非複雑性を初めて利用した例でもある。
我々は,この手法が量子情報科学の範囲外に適用可能であることを期待する。
Efficiently mapping quantum circuits onto hardware is an integral part of the quantum compilation process, wherein a circuit is modified in accordance with the stringent architectural demands of a quantum processor. Many techniques exist for solving the quantum circuit mapping problem, in addition to several theoretical perspectives that relate quantum circuit mapping to problems in classical computer science. This work considers a novel perspective on quantum circuit mapping, in which the routing process of a simplified circuit is viewed as a composition of quantum operations acting on density matrices representing the quantum circuit and processor. Drawing on insight from recent advances in quantum circuit complexity and information geometry, we show that a minimal SWAP-gate count for executing a quantum circuit on a device emerges via the minimization of the distance between quantum states using the quantum Jensen-Shannon divergence, which we dub the lightcone bound. Additionally, we develop a novel initial placement algorithm based on a graph similarity search that selects the partition nearest to a graph isomorphism between interaction and coupling graphs. From these two ingredients, we construct an algorithm for calculating the lightcone bound, which is directly compared alongside the IBM Qiskit compiler for over $600$ realistic benchmark experiments, as well as against a brute-force method for smaller benchmarks. In our simulations, we unambiguously find that neither the brute-force method nor the Qiskit compiler surpasses our bound, signaling utility for estimating minimal overhead when realizing quantum algorithms on constrained quantum hardware. This work also constitutes the first use of quantum circuit uncomplexity to practically-relevant quantum computing. We anticipate that this method may have diverse applicability outside of the scope of quantum information science. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# GenFace: 大規模ファイングラインド顔偽造ベンチマークとクロスプラットフォームエッジ学習
GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning ( http://arxiv.org/abs/2402.02003v2 ) ライセンス: Link先を確認 | Yaning Zhang, Zitong Yu, Xiaobin Huang, Linlin Shen, Jianfeng Ren, | (参考訳) フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
したがって、デジタル操作を検出するためのベンチマークおよびプログレッシブ技術が緊急課題となる。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成され、拡散のような最新の技術は含まない。
拡散モデルにより生成された画像の多様性と品質は著しく改善され、SOTA偽造検出文献を評価するために、より困難な顔偽造データセットが使用される。
本稿では,拡散モデルなどの先進的なジェネレータが生成する多数の偽顔を含むディープフェイク検出の進展を促進するために,大規模で多種多様できめ細かな高忠実度データセットであるGenFaceを提案する。
ベンチマーク上でのSOTAアプローチの評価に加えて,多粒度な外見とエッジグローバルな表現を抽出し,識別的および一般的な偽トレースを検出する,革新的なクロスルックアップ・エッジ・ラーニング(CAEL)検出器を設計する。
さらに,2つの領域にまたがる様々な統合を探索するために,外観エッジ・クロスアテンション(AECA)モジュールを考案した。
大規模な実験結果と可視化の結果から,我々の検出モデルは,クロスジェネレータ,クロスフォージェニー,クロスデータセット評価など,さまざまな設定における最先端技術よりも優れていることがわかった。
コードとデータセットは \url{https://github.com/Jenine-321/GenFace で入手できる。
The rapid advancement of photorealistic generators has reached a critical juncture where the discrepancy between authentic and manipulated images is increasingly indistinguishable. Thus, benchmarking and advancing techniques detecting digital manipulation become an urgent issue. Although there have been a number of publicly available face forgery datasets, the forgery faces are mostly generated using GAN-based synthesis technology, which does not involve the most recent technologies like diffusion. The diversity and quality of images generated by diffusion models have been significantly improved and thus a much more challenging face forgery dataset shall be used to evaluate SOTA forgery detection literature. In this paper, we propose a large-scale, diverse, and fine-grained high-fidelity dataset, namely GenFace, to facilitate the advancement of deepfake detection, which contains a large number of forgery faces generated by advanced generators such as the diffusion-based model and more detailed labels about the manipulation approaches and adopted generators. In addition to evaluating SOTA approaches on our benchmark, we design an innovative cross appearance-edge learning (CAEL) detector to capture multi-grained appearance and edge global representations, and detect discriminative and general forgery traces. Moreover, we devise an appearance-edge cross-attention (AECA) module to explore the various integrations across two domains. Extensive experiment results and visualizations show that our detection model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations. Code and datasets will be available at \url{https://github.com/Jenine-321/GenFace | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# Piecewise Polynomial Tensor Network Quantum Feature Encoding
Piecewise Polynomial Tensor Network Quantum Feature Encoding ( http://arxiv.org/abs/2402.07671v4 ) ライセンス: Link先を確認 | Mazen Ali, Matthias Kabel, | (参考訳) この研究は、低ランクテンソルネットワークを利用して、量子回路に連続変数を埋め込む新しい方法を紹介した。
PPTNQFE(Piecewise Polynomial Tensor Network Quantum Feature Encoding)と呼ばれる我々のアプローチは、偏微分方程式や関数回帰といった数値的な応用に適した空間的局所化表現を組み込むことで、量子アルゴリズムの適用性を拡大することを目的としている。
我々は、離散微分方程式の解の効率的な点評価と、ジャンプ不連続のような局所的特徴を持つモデル関数によるPTTNQFEの可能性を示す。
将来性はあるものの、未探索ノイズの影響やトレーニング可能な回路の設計といった課題は残されている。
本研究は、新しい特徴埋め込みによる量子モデルの拡張と、量子機械学習におけるより広範な関数型に対するTN表現の活用のための新たな道を開く。
This work introduces a novel method for embedding continuous variables into quantum circuits via piecewise polynomial features, utilizing low-rank tensor networks. Our approach, termed Piecewise Polynomial Tensor Network Quantum Feature Encoding (PPTNQFE), aims to broaden the applicability of quantum algorithms by incorporating spatially localized representations suited for numerical applications like partial differential equations and function regression. We demonstrate the potential of PPTNQFE through efficient point evaluations of solutions of discretized differential equations and in modeling functions with localized features such as jump discontinuities. While promising, challenges such as unexplored noise impact and design of trainable circuits remain. This study opens new avenues for enhancing quantum models with novel feature embeddings and leveraging TN representations for a wider array of function types in quantum machine learning. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# Dumviri: 故障検知器によるトラッカーと混合トラッカーの検出
Dumviri: Detecting Trackers and Mixed Trackers with a Breakage Detector ( http://arxiv.org/abs/2402.08031v2 ) ライセンス: Link先を確認 | He Shuang, Lianying Zhao, David Lie, | (参考訳) ウェブトラッキングはユーザーのプライバシーを害する。
その結果、トラッカー検出とブロッキングツールの使用は、インターネットユーザの間で一般的である。
しかしながら、そのようなツールは完璧ではないため、(意図せずに必要な機能をブロックしているため)破損を避けることと、トラッカーをブロックしないというトレードオフがある。
State-of-the-artツールは通常、ユーザレポートと開発者による破壊の検出に頼っている。
1)トラッカー以外のトラッカーをトラッカーとして誤識別し、
2) 機能コンポーネントとトラッカーをブレンドする混合トラッカーをブロックする。
本稿では,機械学習に基づく破壊検知器をトラッカー検出パイプラインに組み込むことにより,機能資源の誤識別を自動的に回避することを提案する。
トラッカー検出と破壊検出の両面において,要求をブロックすることによる差異をより明確に解明できる差分特徴を用いることを提案する。
非混合トラッカーのための提案手法であるDuumviriのプロトタイプを設計,実装した。
次に、混合トラッカーを自動的に識別し、部分要求粒度で差分特徴を描画する。
非混合トラッカーの場合、15KページでのDuumviriの評価は、人間の生成したフィルタリストであるEasyPrivacyのラベルを97.44%の精度で複製する能力を示している。
手動で分析した結果、Duumviriは未報告のトラッカーを識別でき、破壊検知器は破壊を引き起こす厳密なEasyPrivacyルールを識別できることがわかった。
混合トラッカーの場合、ドゥウムヴィリは最初の自動混合トラッカー検出器であり、74.19%の低い境界精度を達成する。
Duumviriは、これまで報告されていない22のユニークなトラッカーと26のユニークな混合トラッカーを検出し、確認することを可能にする。
Web tracking harms user privacy. As a result, the use of tracker detection and blocking tools is a common practice among Internet users. However, no such tool can be perfect, and thus there is a trade-off between avoiding breakage (caused by unintentionally blocking some required functionality) and neglecting to block some trackers. State-of-the-art tools usually rely on user reports and developer effort to detect breakages, which can be broadly categorized into two causes: 1) misidentifying non-trackers as trackers, and 2) blocking mixed trackers which blend tracking with functional components. We propose incorporating a machine learning-based breakage detector into the tracker detection pipeline to automatically avoid misidentification of functional resources. For both tracker detection and breakage detection, we propose using differential features that can more clearly elucidate the differences caused by blocking a request. We designed and implemented a prototype of our proposed approach, Duumviri, for non-mixed trackers. We then adopt it to automatically identify mixed trackers, drawing differential features at partial-request granularity. In the case of non-mixed trackers, evaluating Duumviri on 15K pages shows its ability to replicate the labels of human-generated filter lists, EasyPrivacy, with an accuracy of 97.44%. Through a manual analysis, we find that Duumviri can identify previously unreported trackers and its breakage detector can identify overly strict EasyPrivacy rules that cause breakage. In the case of mixed trackers, Duumviri is the first automated mixed tracker detector, and achieves a lower bound accuracy of 74.19%. Duumviri has enabled us to detect and confirm 22 previously unreported unique trackers and 26 unique mixed trackers. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-12 |
# BrainWave:臨床応用のための脳信号基礎モデル
BrainWave: A Brain Signal Foundation Model for Clinical Applications ( http://arxiv.org/abs/2402.10251v5 ) ライセンス: Link先を確認 | Zhizhang Yuan, Fanqi Shen, Meng Li, Yuguo Yu, Chenhao Tan, Yang Yang, | (参考訳) 神経電気活動は脳機能の基本であり、運動、知覚、意思決定、意識を含む様々な認知的および行動的プロセスの基礎となっている。
神経シグナルの異常パターンは、しばしば基礎となる脳疾患の存在を示す。
個人間の変動、様々な脳疾患による多様な臨床症状、診断分類の可用性の限界は、様々な応用状況において信頼できる神経信号モデルを形成する上で重要な障壁となっている。
ここでは、約16,000人から4万時間以上の電気的脳波記録(データ13.79TB)を事前訓練した、侵襲的および非侵襲的な神経記録のための最初の基礎モデルであるBrainWaveを紹介する。
分析の結果、BrainWaveは他の競合モデルよりも優れており、神経疾患の診断と診断における最先端のパフォーマンスを一貫して達成していることがわかった。
我々はまた、ブレインウェーブが様々な記録条件や脳疾患にまたがるゼロショットトランスファー学習を可能にし、微調整をせずに少数ショットの分類が可能であることを実証し、BrainWaveが神経信号の高度に一般化可能な表現を学習していることを示唆した。
そこで我々は、BrainWaveをオープンソース化することで、医学における幅広い臨床応用が促進され、AIによる脳障害の調査や神経科学研究の進展への道が開けると考えている。
Neural electrical activity is fundamental to brain function, underlying a range of cognitive and behavioral processes, including movement, perception, decision-making, and consciousness. Abnormal patterns of neural signaling often indicate the presence of underlying brain diseases. The variability among individuals, the diverse array of clinical symptoms from various brain disorders, and the limited availability of diagnostic classifications, have posed significant barriers to formulating reliable model of neural signals for diverse application contexts. Here, we present BrainWave, the first foundation model for both invasive and non-invasive neural recordings, pretrained on more than 40,000 hours of electrical brain recordings (13.79 TB of data) from approximately 16,000 individuals. Our analysis show that BrainWave outperforms all other competing models and consistently achieves state-of-the-art performance in the diagnosis and identification of neurological disorders. We also demonstrate robust capabilities of BrainWave in enabling zero-shot transfer learning across varying recording conditions and brain diseases, as well as few-shot classification without fine-tuning, suggesting that BrainWave learns highly generalizable representations of neural signals. We hence believe that open-sourcing BrainWave will facilitate a wide range of clinical applications in medicine, paving the way for AI-driven approaches to investigate brain disorders and advance neuroscience research. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# プロセスマイニングによる攻撃木生成
Attack Tree Generation via Process Mining ( http://arxiv.org/abs/2402.12040v2 ) ライセンス: Link先を確認 | Alyzia-Maria Konsta, Gemma Di Federico, Alberto Lluch Lafuente, Andrea Burattin, | (参考訳) アタックツリーは、脅威シナリオを研究するために使用されるセキュリティのグラフィカルモデルである。
しっかりとした理論や効果的なツールによって視覚的にアピールされサポートされているが、セキュリティの専門家がゼロから設計するのに要する労力の量には大きな欠点がある。
この作業は、アタックログからアタックツリーを自動的に生成する方法を提供することで、この問題を解決することを目的としている。
私たちのアプローチの本来の特徴は、例えば統計的に無関係なイベントを破棄して、ログの集合をアタックツリーとして要約する方法をカスタマイズできる、アタックツリーを合成するためのプロセスマイニングアルゴリズムを使用することです。
我々のアプローチは,モデルの導出と翻訳とは別に,リスクモデリングとアタックツリーを用いた分析を行うツールであるRisQFLanフォーマットのアタックツリーをユーザに提供するプロトタイプによって支持されている。
本稿では,最先端のプロトコルアナライザによって生成された通信プロトコルに対する攻撃事例について述べる。
Attack Trees are a graphical model of security used to study threat scenarios. While visually appealing and supported by solid theories and effective tools, one of their main drawbacks remains the amount of effort required by security experts to design them from scratch. This work aims to remedy this by providing a method for the automatic generation of Attack Trees from attack logs. The main original feature of our approach w.r.t existing ones is the use of Process Mining algorithms to synthesize Attack Trees, which allow users to customize the way a set of logs are summarized as an Attack Tree, for example by discarding statistically irrelevant events. Our approach is supported by a prototype that, apart from the derivation and translation of the model, provides the user with an Attack Tree in the RisQFLan format, a tool used for quantitative risk modeling and analysis with Attack Trees. We illustrate our approach with the case study of attacks on a communication protocol, produced by a state-of-the-art protocol analyzer. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 階層型ニューラルネットワークを用いたラグランジアンシステムのバックステッピング軌跡追跡制御
Structured Deep Neural Network-Based Backstepping Trajectory Tracking Control for Lagrangian Systems ( http://arxiv.org/abs/2403.00381v3 ) ライセンス: Link先を確認 | Jiajun Qian, Liang Xu, Xiaoqiang Ren, Xiaofan Wang, | (参考訳) 深層ニューラルネットワーク(DNN)は、優れた近似能力のため、コントローラの学習にますます利用されている。
しかしながら、ブラックボックスの性質は閉ループ安定性保証と性能解析に重大な課題をもたらす。
本稿では,ラグランジアンシステムの軌跡追従制御のための構造的DNN制御手法を提案する。
ニューラルネットワーク構造を適切に設計することにより、ニューラルネットワークパラメータのクローズループ安定性を確保することができる。
さらに、ニューラルネットワークパラメータをより最適化することで、制御性能を向上させることができる。
また,制御パラメータを適切に選択することで,所望のトラッキング性能を実現することができる。
さらに,システムモデルが不明な場合,システムダイナミクスを学習し,コントローラの設計を行うために,改良されたラグランジアンニューラルネットワーク(LNN)構造を提案する。
モデル近似誤差や外乱の存在下では、閉ループ安定性と追従制御性能が保証されることが示されている。
提案手法の有効性をシミュレーションにより示す。
Deep neural networks (DNN) are increasingly being used to learn controllers due to their excellent approximation capabilities. However, their black-box nature poses significant challenges to closed-loop stability guarantees and performance analysis. In this paper, we introduce a structured DNN-based controller for the trajectory tracking control of Lagrangian systems using backing techniques. By properly designing neural network structures, the proposed controller can ensure closed-loop stability for any compatible neural network parameters. In addition, improved control performance can be achieved by further optimizing neural network parameters. Besides, we provide explicit upper bounds on tracking errors in terms of controller parameters, which allows us to achieve the desired tracking performance by properly selecting the controller parameters. Furthermore, when system models are unknown, we propose an improved Lagrangian neural network (LNN) structure to learn the system dynamics and design the controller. We show that in the presence of model approximation errors and external disturbances, the closed-loop stability and tracking control performance can still be guaranteed. The effectiveness of the proposed approach is demonstrated through simulations. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# EfficientZero V2: 限定データによる離散化と連続制御
EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data ( http://arxiv.org/abs/2403.00564v2 ) ライセンス: Link先を確認 | Shengjie Wang, Shaohuai Liu, Weirui Ye, Jiacheng You, Yang Gao, | (参考訳) 実世界のタスクに強化学習(RL)を適用する上で、サンプル効率は依然として重要な課題である。
最近のアルゴリズムはサンプル効率の改善に大きく貢献しているが、様々な領域で一貫して優れたパフォーマンスを達成しているものはない。
本稿では,サンプル効率のよいRLアルゴリズムのための汎用フレームワークであるEfficientZero V2を紹介する。
我々はEfficientZeroの性能を複数の領域に拡張し、連続的および離散的な動作と視覚的および低次元的な入力の両方を包含した。
私たちが提案する一連の改善により、EfficientZero V2は、制限されたデータ設定下での多様なタスクにおいて、現在の最先端(SOTA)よりも大幅にパフォーマンスが向上します。
効率的なZero V2は、一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、Atari 100k、Proprio Control、Vision Controlといった様々なベンチマークで評価されたタスクのうち、66のタスクのうち50の優れた結果を達成する。
Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# Kronos: 最適化オーバーヘッドによるセキュアで汎用的なブロックチェーン合意
Kronos: A Secure and Generic Sharding Blockchain Consensus with Optimized Overhead ( http://arxiv.org/abs/2403.03655v3 ) ライセンス: Link先を確認 | Yizhong Liu, Andi Liu, Yuan Lu, Zhuocheng Pan, Yinuo Li, Jianwei Liu, Song Bian, Mauro Conti, | (参考訳) シャーディングは、ネットワークをシャードに分割することで、ブロックチェーンのスケーラビリティを向上させる。
新しいトランザクションタイプとして、ブロックチェーンのシャーディングのセキュリティと効率性には、クロスシャーディングトランザクションが重要な課題となっている。
現在、セキュリティと低オーバーヘッドの両方を達成する汎用的なシャーディングコンセンサスパターンが欠如しています。
本稿では、最適化オーバーヘッドを実現するセキュアなシャーディングブロックチェーンコンセンサスであるKronosを紹介する。
特に,セキュアなシャーディングコンセンサスパターンを提案し,シャーディングメンバが共同で管理するバッファをベースとした。
無効なトランザクションはバッファを介してペイエに転送され、無効なトランザクションは幸せまたは不幸なパスによって拒否される。
Kronosは、悪質なクライアントの下で、最適なシャード内オーバーヘッド$kB$(k$)、関連するシャード番号$B$(BFT)コストでセキュリティを実現することが証明されている。
さらに,バッチ認証と信頼性の高いクロスシャード転送に基づくセキュアなクロスシャード認証手法を提案する。
前者はハイブリッドツリーやベクトルコミットメントを組み合わせ、後者は消去コーディングを統合する。
トランザクションを$b$で処理すると、Kronosはクロスシャードオーバーヘッドの低い$O(n b \lambda)$$(n$)のシャードサイズとセキュリティパラメータの$\lambda$の信頼性が証明される。
特に、クロノスは BFT に制限を課さず、時間的仮定に依存せず、様々な加群で任意の構成を提供する。
非同期高速化ダンボと部分同期Hotstuffの2つのBFTプロトコルを用いてKronosを実装した。
大規模な実験では、Kronosがコンセンサスノードを数千にスケールアップし、2.0秒のレイテンシで320ktx/secのスループットを実現している。
これまでのソリューションと比較して、Kronosはパフォーマンスが優れ、スループットが最大12*向上し、レイテンシが50%削減された。
Sharding enhances blockchain scalability by dividing the network into shards, each managing specific unspent transaction outputs or accounts. As an introduced new transaction type, cross-shard transactions pose a critical challenge to the security and efficiency of sharding blockchains. Currently, there is a lack of a generic sharding consensus pattern that achieves both security and low overhead. In this paper, we present Kronos, a secure sharding blockchain consensus achieving optimized overhead. In particular, we propose a new secure sharding consensus pattern, based on a buffer managed jointly by shard members. Valid transactions are transferred to the payee via the buffer, while invalid ones are rejected through happy or unhappy paths. Kronos is proved to achieve security with atomicity under malicious clients with optimal intra-shard overhead $kB$ ($k$ for involved shard number and $B$ for a Byzantine fault tolerance (BFT) cost). Besides, we propose secure cross-shard certification methods based on batch certification and reliable cross-shard transfer. The former combines hybrid trees or vector commitments, while the latter integrates erasure coding. Handling $b$ transactions, Kronos is proved to achieve reliability with low cross-shard overhead $O(n b \lambda)$ ($n$ for shard size and $\lambda$ for the security parameter). Notably, Kronos imposes no restrictions on BFT and does not rely on time assumptions, offering optional constructions in various modules. We implement Kronos using two prominent BFT protocols: asynchronous Speeding Dumbo and partial synchronous Hotstuff. Extensive experiments demonstrate Kronos scales the consensus nodes to thousands, achieving a substantial throughput of 320 ktx/sec with 2.0 sec latency. Compared with the past solutions, Kronos outperforms, achieving up to a 12* improvement in throughput and a 50% reduction in latency. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 映像符号化における物体分割支援インター予測
Object Segmentation-Assisted Inter Prediction for Versatile Video Coding ( http://arxiv.org/abs/2403.11694v2 ) ライセンス: Link先を確認 | Zhuoyuan Li, Zikun Yuan, Li Li, Dong Liu, Xiaohu Tang, Feng Wu, | (参考訳) 現代のビデオコーディング標準では、ブロックベースのインター予測が広く採用されており、高い圧縮効率をもたらす。
しかし、自然ビデオでは、通常、任意の形状の複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
この問題は、Versatile Video Coding (VVC) 標準のより柔軟なブロック分割手法によって対処されてきたが、より柔軟なパーティションは信号により多くのオーバーヘッドビットを必要とするため、それでも任意に形成することはできない。
この制限に対処するために、参照フレーム内のオブジェクトがいくつかの高度な技術によってセグメント化されるオブジェクトセグメンテーション支援インター予測法(SAIP)を提案する。
適切な指示により、オブジェクトセグメンテーションマスクは、余分な信号なしで異なる領域の任意の形の分割として、参照フレームから現在のフレームに変換される。
セグメンテーションマスクを用いて、異なる領域に対して動き補償を別々に行い、高い予測精度を達成する。
セグメンテーションマスクは、異なる領域の運動ベクトルをより効率的に符号化するためにさらに使用される。
さらに、分割マスクは、異なる領域の運動ベクトルを導出し、より正確に分割する動き推定と分割推定のジョイントレート・歪み最適化において考慮される。
提案手法はVVC参照ソフトウェアであるVTMバージョン12.0に実装されている。
実験の結果,提案手法は平均0.82%,0.49%,0.37%のBDレートをそれぞれ低遅延P,低遅延B,ランダムアクセス構成でそれぞれ最大1.98%,1.14%,0.79%を達成することがわかった。
In modern video coding standards, block-based inter prediction is widely adopted, which brings high compression efficiency. However, in natural videos, there are usually multiple moving objects of arbitrary shapes, resulting in complex motion fields that are difficult to represent compactly. This problem has been tackled by more flexible block partitioning methods in the Versatile Video Coding (VVC) standard, but the more flexible partitions require more overhead bits to signal and still cannot be made arbitrarily shaped. To address this limitation, we propose an object segmentation-assisted inter prediction method (SAIP), where objects in the reference frames are segmented by some advanced technologies. With a proper indication, the object segmentation mask is translated from the reference frame to the current frame as the arbitrary-shaped partition of different regions without any extra signal. Using the segmentation mask, motion compensation is separately performed for different regions, achieving higher prediction accuracy. The segmentation mask is further used to code the motion vectors of different regions more efficiently. Moreover, the segmentation mask is considered in the joint rate-distortion optimization for motion estimation and partition estimation to derive the motion vector of different regions and partition more accurately. The proposed method is implemented into the VVC reference software, VTM version 12.0. Experimental results show that the proposed method achieves up to 1.98%, 1.14%, 0.79%, and on average 0.82%, 0.49%, 0.37% BD-rate reduction for common test sequences, under the Low-delay P, Low-delay B, and Random Access configurations, respectively. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 意味ベクトルの脳適応は視覚刺激の神経復号を改善する
Brain-aligning of semantic vectors improves neural decoding of visual stimuli ( http://arxiv.org/abs/2403.15176v3 ) ライセンス: Link先を確認 | Shirin Vafaei, Ryohei Fukuma, Takufumi Yanagisawa, Huixiang Yang, Satoru Oshino, Naoki Tani, Hui Ming Khoo, Hidenori Sugano, Yasushi Iimura, Hiroharu Suzuki, Madoka Nakajima, Kentaro Tamura, Haruhiko Kishima, | (参考訳) 神経情報の正確な復号化のためのアルゴリズムの開発は、神経科学の分野で長年の努力である。
脳の復号化は通常、ニューラルネットワークを刺激特徴の既定ベクトル表現にマッピングするために機械学習モデルを訓練するために使用される。
これらのベクトルは通常、画像および/またはテキストベースの特徴空間から導出される。
それでも、これらのベクトルの本質的な特性は、脳によって符号化されたものと根本的に異なる可能性があり、このマッピングを正確に学習するアルゴリズムの能力を制限している。
そこで本研究では、人間の脳における視覚刺激の神経的表現構造をよりよく整合させるために、微調整された特徴ベクトルを前訓練した意味ベクトルの脳適応という表現学習フレームワークを提案する。
我々は、150の視覚刺激カテゴリーを表すfMRIデータを用いて、このモデルを訓練し、ゼロショット脳デコーディングを行った。
1)fMRI,
2)脳磁図(MEG)、及び
3)視覚刺激の神経表現を反映した心電図(ECoG)データ。
fMRIベースの脳適合ベクトルを使用することで、3つのニューロイメージングデータセットのゼロショット復号精度が向上した。
この発見は、脳の復号アルゴリズムの性能を高めるために、よりリッチな脳由来の機能を活用する可能性を強調している。
The development of algorithms to accurately decode of neural information is a long-standing effort in the field of neuroscience. Brain decoding is typically employed by training machine learning models to map neural data onto a preestablished vector representation of stimulus features. These vectors are usually derived from image- and/or text-based feature spaces. Nonetheless, the intrinsic characteristics of these vectors might be fundamentally different than those encoded by the brain, limiting the ability of algorithms to accurately learn this mapping. To address this issue, here, we propose a representation learning framework, called brain-aligning of semantic vectors, that fine-tunes pretrained feature vectors to better align with the structure of neural representations of visual stimuli in the human brain. We trained this model with functional magnetic resonance imaging (fMRI) data representing 150 visual stimulus categories; then, we performed zero-shot brain decoding on 1) fMRI, 2) magnetoencephalography (MEG), and 3) electrocorticography (ECoG) data reflecting neural representations of visual stimuli. By using fMRI-based brain-aligned vectors, the zero-shot decoding accuracy all three neuroimaging datasets increased. This finding underscores the potential of leveraging a richer array of brainderived features to increase the performance of brain decoding algorithms. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 画像透かしへの移動攻撃
A Transfer Attack to Image Watermarks ( http://arxiv.org/abs/2403.15365v3 ) ライセンス: Link先を確認 | Yuepeng Hu, Zhengyuan Jiang, Moyang Guo, Neil Gong, | (参考訳) Watermarkは、AI生成画像を検出するために、業界によって広くデプロイされている。
ホワイトボックスやブラックボックスの設定における回避攻撃に対するウォーターマークベースの検出器の堅牢性は文献でよく理解されている。
しかし、no-box設定の堅牢性はあまり理解されていない。
本研究では,Non-box設定における画像透かしに対する新しい転送回避攻撃を提案する。
我々の転送攻撃は、攻撃者自身が訓練した複数のサロゲート透かしモデルを回避するために透かし画像に摂動を加え、摂動透かし画像も目標透かしモデルを回避する。
我々の主な貢献は、理論的にも経験的にも、透かしベースのAI生成画像検出器は、攻撃者が透かしモデルや検出APIにアクセスできない場合でも、回避攻撃に対して堅牢ではないことを示すことである。
Watermark has been widely deployed by industry to detect AI-generated images. The robustness of such watermark-based detector against evasion attacks in the white-box and black-box settings is well understood in the literature. However, the robustness in the no-box setting is much less understood. In this work, we propose a new transfer evasion attack to image watermark in the no-box setting. Our transfer attack adds a perturbation to a watermarked image to evade multiple surrogate watermarking models trained by the attacker itself, and the perturbed watermarked image also evades the target watermarking model. Our major contribution is to show that, both theoretically and empirically, watermark-based AI-generated image detector is not robust to evasion attacks even if the attacker does not have access to the watermarking model nor the detection API. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 自律運転のための長期・短期制約駆動型安全強化学習
Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2403.18209v2 ) ライセンス: Link先を確認 | Xuemin Hu, Pan Chen, Yijun Wen, Bo Tang, Long Chen, | (参考訳) 強化学習 (Reinforcement Learning, RL) は意思決定や制御作業に広く用いられているが, 自律運転システムなどの産業応用を著しく制限する環境との相互作用が要求されるため, 訓練プロセスにおけるエージェントのリスクは非常に高い。
安全RL法は、トレーニング目標として期待される安全違反コストを制約することによりこの問題に対処するために開発されたが、安全でない状態の発生確率は依然として高く、自動運転タスクでは受け入れられない。
さらに、これらの手法はコストとリターン期待のバランスをとることが困難であり、アルゴリズムの性能劣化の学習につながる。
本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。
短期的制約は、車両が探索する短期的安全性を高めることを目的としており、一方、長期的制約は、意思決定プロセスを通して車両全体の安全性を高める。
さらに,ラグランジュ乗算器に基づく二制約最適化を用いた安全なRL法を開発し,エンドツーエンド自動運転のトレーニングプロセスを最適化する。
MetaDriveシミュレータの総合的な実験を行った。
実験の結果,提案手法は連続状態および動作タスクにおいて高い安全性を達成でき,また,長距離意思決定タスクにおいて最先端の手法と比較して高い探索性能を示すことがわかった。
Reinforcement learning (RL) has been widely used in decision-making and control tasks, but the risk is very high for the agent in the training process due to the requirements of interaction with the environment, which seriously limits its industrial applications such as autonomous driving systems. Safe RL methods are developed to handle this issue by constraining the expected safety violation costs as a training objective, but the occurring probability of an unsafe state is still high, which is unacceptable in autonomous driving tasks. Moreover, these methods are difficult to achieve a balance between the cost and return expectations, which leads to learning performance degradation for the algorithms. In this paper, we propose a novel algorithm based on the long and short-term constraints (LSTC) for safe RL. The short-term constraint aims to enhance the short-term state safety that the vehicle explores, while the long-term constraint enhances the overall safety of the vehicle throughout the decision-making process, both of which are jointly used to enhance the vehicle safety in the training process. In addition, we develop a safe RL method with dual-constraint optimization based on the Lagrange multiplier to optimize the training process for end-to-end autonomous driving. Comprehensive experiments were conducted on the MetaDrive simulator. Experimental results demonstrate that the proposed method achieves higher safety in continuous state and action tasks, and exhibits higher exploration performance in long-distance decision-making tasks compared with state-of-the-art methods. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 有限要素法の量子化
Quantum Realization of the Finite Element Method ( http://arxiv.org/abs/2403.19512v2 ) ライセンス: Link先を確認 | Matthias Deiml, Daniel Peterseim, | (参考訳) 本稿では,有界な$d$次元領域のカルテシアン格子上に,$d$線形有限要素で離散化された二階線形楕円偏微分方程式の解を求める量子アルゴリズムを提案する。
この構成における重要なステップはBPXプリコンディショナーであり、線形系を十分によく条件付けられたものに変換し、量子計算が可能である。
任意の固定次元に対して、我々の量子アルゴリズムは、与えられた寛容に対する解の適切な関数を、オーダー$\mathtt{tol}^{-1}$の最適複雑さで計算し、既存のアプローチよりも大幅に改善できることを示す構成的証明を提供する。
特に、このアプローチは解の正則性に頼らず、2次元の古典的解法よりも量子的優位性を達成するのに対して、先行量子法は漸近的利益のために少なくとも4次元を必要とする。
我々は、我々のアルゴリズムを実行し、シミュレーター結果を示し、現在の量子ハードウェアに関する数値実験を報告できる量子回路の設計と実装について詳述し、短期量子コンピューティングにおける事前条件付き有限要素法の実現可能性を確認した。
This paper presents a quantum algorithm for the solution of prototypical second-order linear elliptic partial differential equations discretized by $d$-linear finite elements on Cartesian grids of a bounded $d$-dimensional domain. An essential step in the construction is a BPX preconditioner, which transforms the linear system into a sufficiently well-conditioned one, making it amenable to quantum computation. We provide a constructive proof demonstrating that, for any fixed dimension, our quantum algorithm can compute suitable functionals of the solution to a given tolerance $\mathtt{tol}$ with an optimal complexity of order $\mathtt{tol}^{-1}$ up to logarithmic terms, significantly improving over existing approaches. Notably, this approach does not rely on regularity of the solution and achieves quantum advantage over classical solvers in two dimensions, whereas prior quantum methods required at least four dimensions for asymptotic benefits. We further detail the design and implementation of a quantum circuit capable of executing our algorithm, present simulator results, and report numerical experiments on current quantum hardware, confirming the feasibility of preconditioned finite element methods for near-term quantum computing. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# QPUs利用最適化のための量子回路スケジューラ
Quantum circuit scheduler for QPUs usage optimization ( http://arxiv.org/abs/2404.01055v2 ) ライセンス: Link先を確認 | Javier Romero-Alvarez, Jaime Alvarado-Valiente, Jorge Casco-Seco, Enrique Moguel, Jose Garcia-Alonso, Javier Berrocal, Juan M. Murillo, | (参考訳) 量子技術の領域における進歩は、様々な分野にまたがる潜在的な応用の道を開いた。
しかし、利用可能な量子コンピュータの数が減少し、その技術的制限と高い需要が、開発者や研究者にとっていくつかの問題を引き起こしている。
主に、これらのデバイスで量子回路を実行しようとするユーザは通常、タスクキューで長い待ち時間に直面しています。
本研究では,待ち時間を短縮し,異なるユーザからの回路を同時に実行する結合回路にスケジューリングすることで,量子コンピュータの利用を最適化する手法を提案する。
この提案を検証するために、異なる広く知られている量子アルゴリズムが選択され、組み合わせた回路で実行される。
得られた結果は、同じアルゴリズムを独立した方法で実行した結果と比較される。
これにより、スケジューラの使用の影響を測定することができます。
得られた結果のうち,提案したスケジューラによる回路の組み合わせによるノイズが,結果に重大な影響を及ぼさないことが確認できた。
Progress in the realm of quantum technologies is paving the way for a multitude of potential applications across different sectors. However, the reduced number of available quantum computers, their technical limitations and the high demand for their use are posing some problems for developers and researchers. Mainly, users trying to execute quantum circuits on these devices are usually facing long waiting times in the tasks queues. In this context, this work propose a technique to reduce waiting times and optimize quantum computers usage by scheduling circuits from different users into combined circuits that are executed at the same time. To validate this proposal, different widely known quantum algorithms have been selected and executed in combined circuits. The obtained results are then compared with the results of executing the same algorithms in an isolated way. This allowed us to measure the impact of the use of the scheduler. Among the obtained results, it has been possible to verify that the noise suffered by executing a combination of circuits through the proposed scheduler does not critically affect the outcomes. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# スキッドステアリングロボットの運動モデルのオンライン校正による高結合LiDAR-IMU-Wheelオドメトリー
Tightly-Coupled LiDAR-IMU-Wheel Odometry with Online Calibration of a Kinematic Model for Skid-Steering Robots ( http://arxiv.org/abs/2404.02515v3 ) ライセンス: Link先を確認 | Taku Okawara, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno, Kentaro Uno, Kazuya Yoshida, | (参考訳) トンネルと長い廊下は、これらの環境でLiDARポイントクラウドが縮退するので、移動ロボットにとって困難な環境である。
そこで本研究では,スイドステアリングロボットのオンラインキャリブレーションを用いたLiDAR-IMU-wheel odometryアルゴリズムを提案する。
運動制約として機能するだけでなく,スキッドステアリングロボットのキネマティックモデルのオンラインキャリブレーションも行う。
動的に変化する運動モデル(例えばタイヤ圧力による車輪半径の変化)と地形条件にもかかわらず,本手法はオンラインキャリブレーションによるモデル誤差に対処できる。
さらに,LiDAR-IMU融合が十分に作動している間のキャリブレーションにより,長い廊下や直線廊下などの劣化環境の正確な位置決めが可能となった。
さらに、合理的な制約を作成するために、車輪のオドメトリーの不確実性(すなわち共分散行列)をオンラインで推定する。
提案手法は3つの実験により検証した。
最初の室内実験では、本手法は重度縮退例(長い回廊)において頑健であり、車輪半径の変化が認められた。
第2回屋外実験では, 車輪形状のオンライン不確実性評価により, 屋外の荒地において, センサの軌跡を正確に推定できることが実証された。
第3の実験では、提案したオンラインキャリブレーションにより、地形変化におけるロバストなオドメトリー推定が可能となった。
Tunnels and long corridors are challenging environments for mobile robots because a LiDAR point cloud should degenerate in these environments. To tackle point cloud degeneration, this study presents a tightly-coupled LiDAR-IMU-wheel odometry algorithm with an online calibration for skid-steering robots. We propose a full linear wheel odometry factor, which not only serves as a motion constraint but also performs the online calibration of kinematic models for skid-steering robots. Despite the dynamically changing kinematic model (e.g., wheel radii changes caused by tire pressures) and terrain conditions, our method can address the model error via online calibration. Moreover, our method enables an accurate localization in cases of degenerated environments, such as long and straight corridors, by calibration while the LiDAR-IMU fusion sufficiently operates. Furthermore, we estimate the uncertainty (i.e., covariance matrix) of the wheel odometry online for creating a reasonable constraint. The proposed method is validated through three experiments. The first indoor experiment shows that the proposed method is robust in severe degeneracy cases (long corridors) and changes in the wheel radii. The second outdoor experiment demonstrates that our method accurately estimates the sensor trajectory despite being in rough outdoor terrain owing to online uncertainty estimation of wheel odometry. The third experiment shows the proposed online calibration enables robust odometry estimation in changing terrains. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 経験の協調力学による教師・学生のカリキュラム学習の再考
Rethinking Teacher-Student Curriculum Learning through the Cooperative Mechanics of Experience ( http://arxiv.org/abs/2404.03084v2 ) ライセンス: Link先を確認 | Manfred Diaz, Liam Paull, Andrea Tacchetti, | (参考訳) Teacher-Student Curriculum Learning (TSCL)は、人間の文化的伝達と学習からインスピレーションを得るカリキュラム学習フレームワークである。
教師アルゴリズムは、学習者のアルゴリズムの学習プロセスを制御された体験に公開することによって形成する。
その成功にもかかわらず、TSCLが有効である条件を理解することは依然として困難である。
本稿では,TSCLにおける教師と学生のインタラクションの基盤となるメカニズムを解析するためのデータ中心の視点を提案する。
我々は協調ゲーム理論を利用して、教師が学習者に提示した経験の集合の構成が、TSCLのアプローチによって見つかるカリキュラムのパフォーマンスにどのように影響するかを説明する。
そのため、全てのTSCL問題に対して、等価な協調ゲームが存在し、ゲーム理論の原理を用いて、TSCLフレームワークのいくつかの重要なコンポーネントを再解釈できることを実証する。
教師付き学習,強化学習,古典ゲームに関する実験を通じて,経験の協調的価値を推定し,TSCLが苦しむ場合においても,カリキュラム構築に価値均等なカリキュラム機構を用いる。
この研究で私たちが提示するフレームワークと実験的なセットアップは、TSCLのより深い探索のための新しい基盤であり、その基盤となるメカニズムに光を当て、機械学習の幅広い適用性に関する洞察を提供する。
Teacher-Student Curriculum Learning (TSCL) is a curriculum learning framework that draws inspiration from human cultural transmission and learning. It involves a teacher algorithm shaping the learning process of a learner algorithm by exposing it to controlled experiences. Despite its success, understanding the conditions under which TSCL is effective remains challenging. In this paper, we propose a data-centric perspective to analyze the underlying mechanics of the teacher-student interactions in TSCL. We leverage cooperative game theory to describe how the composition of the set of experiences presented by the teacher to the learner, as well as their order, influences the performance of the curriculum that is found by TSCL approaches. To do so, we demonstrate that for every TSCL problem, an equivalent cooperative game exists, and several key components of the TSCL framework can be reinterpreted using game-theoretic principles. Through experiments covering supervised learning, reinforcement learning, and classical games, we estimate the cooperative values of experiences and use value-proportional curriculum mechanisms to construct curricula, even in cases where TSCL struggles. The framework and experimental setup we present in this work represents a novel foundation for a deeper exploration of TSCL, shedding light on its underlying mechanisms and providing insights into its broader applicability in machine learning. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-12 |
# 大規模言語モデルの応答をいかに簡単に入力するか?
How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? ( http://arxiv.org/abs/2404.03302v4 ) ライセンス: Link先を確認 | Siye Wu, Jian Xie, Jiangjie Chen, Tinghui Zhu, Kai Zhang, Yanghua Xiao, | (参考訳) 外部知識データベースからの情報検索を活用することで、Large Language Models (LLMs)は、多くの知識集約的なタスクを達成するための拡張された能力を示す。
しかし、現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。
本研究では,様々な条件下での異なる種類の無関係情報に対するLSMの堅牢性に関する包括的調査を行う。
まず、意味的に無関係で、部分的に関連があり、質問に関係のある高品質な無関係な情報を構築するための枠組みを導入する。
さらに, 構築した無関係情報は, 類似度測定値に高いスコアを付けるだけでなく, 既存のシステムによって高い精度で検索されるだけでなく, 文脈とのセマンティックな関連性も持つことを示す。
我々の調査によると、現在のLLMは、高度に意味論的に関連のある情報を識別する上で依然として課題に直面しており、これら無関係で誤解を招くコンテンツに容易に気を散らすことができる。
また、関連のない情報を扱うための現在の解決策は、そのような注意をそらすためにLLMの堅牢性を改善するのに限界があることも見出した。
すべてのリソースはGitHubでhttps://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Informationで公開されている。
By leveraging the retrieval of information from external knowledge databases, Large Language Models (LLMs) exhibit enhanced capabilities for accomplishing many knowledge-intensive tasks. However, due to the inherent flaws of current retrieval systems, there might exist irrelevant information within those retrieving top-ranked passages. In this work, we present a comprehensive investigation into the robustness of LLMs to different types of irrelevant information under various conditions. We initially introduce a framework to construct high-quality irrelevant information that ranges from semantically unrelated, partially related, and related to questions. Furthermore, our analysis demonstrates that the constructed irrelevant information not only scores highly on similarity metrics, being highly retrieved by existing systems, but also bears semantic connections to the context. Our investigation reveals that current LLMs still face challenges in discriminating highly semantically related information and can be easily distracted by these irrelevant yet misleading content. Besides, we also find that current solutions for handling irrelevant information have limitations in improving the robustness of LLMs to such distractions. All the resources are available on GitHub at https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# ロボットのための身体型ニューロモルフィック人工知能 : 展望,課題,研究開発スタック
Embodied Neuromorphic Artificial Intelligence for Robotics: Perspectives, Challenges, and Research Development Stack ( http://arxiv.org/abs/2404.03325v2 ) ライセンス: Link先を確認 | Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Fakhreddine Zayer, Jorge Dias, Muhammad Shafique, | (参考訳) ロボット技術は、人類が多種多様で複雑で集中的なタスクを迅速かつ効率的な方法で完成させるのを助けてきたため、人間の生産性を向上させるのに欠かせない部分だった。
そのため、ロボット技術は個人用から工業用まで幅広い用途に展開されてきた。
しかし、現在のロボット技術とそのコンピューティングパラダイムには、運用環境と効率的に対話し、正しい/予測されたアクションに反応し、環境の変化に適応するインテリジェンスがない。
これに向けて、スパイキングニューラルネットワーク(SNN)によるニューロモーフィックコンピューティングの最近の進歩は、「ニューロモーフィック人工知能(Neuromorphic Artificial Intelligence, AI)」として知られる生物学的脳の動作を模倣した、生物学的に証明可能なコンピューティングパラダイムを通じて、ロボット工学の具体化インテリジェンスを可能にする可能性を実証している。
しかし、ニューロモルフィックAIベースのロボティクスの分野はまだ初期段階であり、現実世界の問題を解決するための開発と展開は、正確性、適応性、効率性、信頼性、セキュリティなど、さまざまな設計面での新たな課題を浮き彫りにしている。
これらの課題に対処するために,本論文では, ロボットシステムに対して, (P1) 効果的な学習規則, トレーニング機構, 適応性に基づく身体的知性, (P2) エネルギー効率の高いニューロモルフィックコンピューティングのための層間最適化, (P3) 代表的および公正なベンチマーク, (P4) 低コストの信頼性と安全性の向上, (P5) ニューロモルフィックコンピューティングのためのセキュリティとプライバシ, (P6) エネルギー効率と堅牢なニューロモルフィックベースのロボティクスのための相乗的開発について論じる。
さらに,本論文は研究課題と機会を明らかにするとともに,ロボット工学におけるニューロモーフィックAIの具体化に向けた今後の研究の展望を詳述する。
Robotic technologies have been an indispensable part for improving human productivity since they have been helping humans in completing diverse, complex, and intensive tasks in a fast yet accurate and efficient way. Therefore, robotic technologies have been deployed in a wide range of applications, ranging from personal to industrial use-cases. However, current robotic technologies and their computing paradigm still lack embodied intelligence to efficiently interact with operational environments, respond with correct/expected actions, and adapt to changes in the environments. Toward this, recent advances in neuromorphic computing with Spiking Neural Networks (SNN) have demonstrated the potential to enable the embodied intelligence for robotics through bio-plausible computing paradigm that mimics how the biological brain works, known as "neuromorphic artificial intelligence (AI)". However, the field of neuromorphic AI-based robotics is still at an early stage, therefore its development and deployment for solving real-world problems expose new challenges in different design aspects, such as accuracy, adaptability, efficiency, reliability, and security. To address these challenges, this paper will discuss how we can enable embodied neuromorphic AI for robotic systems through our perspectives: (P1) Embodied intelligence based on effective learning rule, training mechanism, and adaptability; (P2) Cross-layer optimizations for energy-efficient neuromorphic computing; (P3) Representative and fair benchmarks; (P4) Low-cost reliability and safety enhancements; (P5) Security and privacy for neuromorphic computing; and (P6) A synergistic development for energy-efficient and robust neuromorphic-based robotics. Furthermore, this paper identifies research challenges and opportunities, as well as elaborates our vision for future research development toward embodied neuromorphic AI for robotics. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 多層ネットワークにおける混合メンバシップの推定
Estimating mixed memberships in multi-layer networks ( http://arxiv.org/abs/2404.03916v2 ) ライセンス: Link先を確認 | Huan Qing, | (参考訳) 多層ネットワークにおけるコミュニティ検出は、現代のネットワーク分析の重要な領域として現れてきた。
しかし、従来のアプローチでは、ノードは単一のコミュニティにのみ属しており、ノードが同時に複数のコミュニティに属している実世界のネットワークの複雑な構造を捉えることができないと仮定することが多い。
この制限に対処するために、多層混合会員確率ブロックモデルにおいて、共通混合会員数を推定する新しいスペクトル法を提案する。
提案手法は, 隣接行列の和, 隣接行列の縮約和, 隣接行列の和の和の3つの集合行列の固有分解を利用する。
我々は,手法の整合性に関する厳密な理論的保証を確立する。
具体的には,ノード数および/または層数が多層混合確率ブロックモデルで増加するにつれて,ネットワーク間隔の緩やかな条件下でノード毎の誤差率を導出する。
理論的には, 隣接行列の和を利用する手法は, 多層ネットワークにおける混合メンバシップ推定法に比べて, 一般的には劣悪であることが明らかとなった。
理論的知見を実証的に検証するために,広範囲な数値実験を行った。
未知のコミュニティ情報を持つ実世界のマルチレイヤネットワークに対しては,混合コミュニティ検出の品質を定量化するための2つの新しいモジュール性指標を導入する。
最後に,実世界の多層ネットワークに適用することで,アルゴリズムとモジュール性メトリクスの実践的応用を実証し,有意義なコミュニティ構造抽出の有効性を実証する。
Community detection in multi-layer networks has emerged as a crucial area of modern network analysis. However, conventional approaches often assume that nodes belong exclusively to a single community, which fails to capture the complex structure of real-world networks where nodes may belong to multiple communities simultaneously. To address this limitation, we propose novel spectral methods to estimate the common mixed memberships in the multi-layer mixed membership stochastic block model. The proposed methods leverage the eigen-decomposition of three aggregate matrices: the sum of adjacency matrices, the debiased sum of squared adjacency matrices, and the sum of squared adjacency matrices. We establish rigorous theoretical guarantees for the consistency of our methods. Specifically, we derive per-node error rates under mild conditions on network sparsity, demonstrating their consistency as the number of nodes and/or layers increases under the multi-layer mixed membership stochastic block model. Our theoretical results reveal that the method leveraging the sum of adjacency matrices generally performs poorer than the other two methods for mixed membership estimation in multi-layer networks. We conduct extensive numerical experiments to empirically validate our theoretical findings. For real-world multi-layer networks with unknown community information, we introduce two novel modularity metrics to quantify the quality of mixed membership community detection. Finally, we demonstrate the practical applications of our algorithms and modularity metrics by applying them to real-world multi-layer networks, demonstrating their effectiveness in extracting meaningful community structures. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# ノイズレスプライバシ保護型分散型学習
Noiseless Privacy-Preserving Decentralized Learning ( http://arxiv.org/abs/2404.09536v2 ) ライセンス: Link先を確認 | Sayan Biswas, Mathieu Even, Anne-Marie Kermarrec, Laurent Massoulie, Rafael Pires, Rishi Sharma, Martijn de Vos, | (参考訳) 分散学習(DL)は、サーバやユーザのデバイスを離れるデータをトレーニングすることなく、協調学習を可能にする。
しかし、DLで共有されるモデルは、トレーニングデータを推論するためにも使用できる。
ディファレンシャルプライバシやセキュアアグリゲーションといった従来の防御は、モデルユーティリティや効率を犠牲にして、DL内のユーザのプライバシを効果的に保護するのに不足しています。
Shatterは、ノードが仮想ノード(VN)を作成して、その代理として完全なモデルのチャンクを分散する、新しいDLアプローチである。
これによりプライバシーが向上する
一 攻撃者が他のノードから完全なモデルを収集することを防止すること。
(ii)所定のモデルチャンクを生成する元のノードの同一性を隠蔽する。
理論的にはShatterの収束を証明し、Shatterがノード間の完全なモデル交換時に比べて攻撃の有効性を低下させることを示す公式解析を提供する。
我々は、Shatterの収束と攻撃のレジリエンスを、既存のDLアルゴリズム、異種データセット、および3つの標準プライバシ攻撃で評価する。
評価の結果,各ノードが16個のVNを動作させる場合,シャッターはこれらのプライバシ攻撃を実施できないだけでなく,標準DLと比較してモデルユーティリティに肯定的な影響を与えることがわかった。
要約すると、Shatterはモデルの実用性と効率を維持しながら、DLのプライバシを高める。
Decentralized learning (DL) enables collaborative learning without a server and without training data leaving the users' devices. However, the models shared in DL can still be used to infer training data. Conventional defenses such as differential privacy and secure aggregation fall short in effectively safeguarding user privacy in DL, either sacrificing model utility or efficiency. We introduce Shatter, a novel DL approach in which nodes create virtual nodes (VNs) to disseminate chunks of their full model on their behalf. This enhances privacy by (i) preventing attackers from collecting full models from other nodes, and (ii) hiding the identity of the original node that produced a given model chunk. We theoretically prove the convergence of Shatter and provide a formal analysis demonstrating how Shatter reduces the efficacy of attacks compared to when exchanging full models between nodes. We evaluate the convergence and attack resilience of Shatter with existing DL algorithms, with heterogeneous datasets, and against three standard privacy attacks. Our evaluation shows that Shatter not only renders these privacy attacks infeasible when each node operates 16 VNs but also exhibits a positive impact on model utility compared to standard DL. In summary, Shatter enhances the privacy of DL while maintaining the utility and efficiency of the model. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# MMCBE:作物バイオマス予測のためのマルチモーダリティデータセット
MMCBE: Multi-modality Dataset for Crop Biomass Prediction and Beyond ( http://arxiv.org/abs/2404.11256v2 ) ライセンス: Link先を確認 | Xuesong Li, Zeeshan Hayder, Ali Zia, Connor Cassidy, Shiming Liu, Warwick Stiller, Eric Stone, Warren Conaty, Lars Petersson, Vivien Rolland, | (参考訳) 作物の生育、健康、生産性の重要指標である作物のバイオマスは、作物の育種プログラムや農業研究に有用である。
しかし、既存の測定方法の限界により、作物のバイオマスの正確でスケーラブルな定量化は依然として不可能である。
現在の作物バイオマス予測手法の進歩を妨げる障害の1つは、公開データセットの不足である。
このギャップに対処するため、我々はこの領域における新たなデータセット、すなわち、作物バイオマス推定のためのマルチモダリティデータセットを導入する。
216セットのマルチビュー・ドローン画像とLiDAR点雲とハンドラベリングされた地上真実を組み合わせたMCCBEは、この分野における最初のマルチモダリティの1つだ。
このデータセットは、作物のバイオマス定量化のためのベンチマーク手法を確立し、ビジョンベースのアプローチの開発を促進することを目的としている。
我々は,MCCBEを用いた最先端の作物バイオマス推定手法を厳格に評価し,ドローン画像からの3D作物の復元やノベルビューレンダリングなど,新たな応用の可能性を探った。
この発表で、包括的データセットを、より広いコミュニティで利用可能にしています。
Crop biomass, a critical indicator of plant growth, health, and productivity, is invaluable for crop breeding programs and agronomic research. However, the accurate and scalable quantification of crop biomass remains inaccessible due to limitations in existing measurement methods. One of the obstacles impeding the advancement of current crop biomass prediction methodologies is the scarcity of publicly available datasets. Addressing this gap, we introduce a new dataset in this domain, i.e. Multi-modality dataset for crop biomass estimation (MMCBE). Comprising 216 sets of multi-view drone images, coupled with LiDAR point clouds, and hand-labelled ground truth, MMCBE represents the first multi-modality one in the field. This dataset aims to establish benchmark methods for crop biomass quantification and foster the development of vision-based approaches. We have rigorously evaluated state-of-the-art crop biomass estimation methods using MMCBE and ventured into additional potential applications, such as 3D crop reconstruction from drone imagery and novel-view rendering. With this publication, we are making our comprehensive dataset available to the broader community. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 同期による熱力学的不確かさ関係の違反
Synchronization-induced violation of thermodynamic uncertainty relations ( http://arxiv.org/abs/2404.16936v2 ) ライセンス: Link先を確認 | Luca Razzoli, Matteo Carrega, Fabio Cavaliere, Giuliano Benenti, Maura Sassetti, | (参考訳) ゆらぎはナノデバイスの機能に影響を及ぼす。
確率的熱力学の枠組みの中で導かれる熱力学的不確実性関係(TURs)は、与えられた相対的なエネルギー電流の分散、すなわち、電流精度が熱力学的コストを持つために、最小の散逸が必要とされることを示している。
したがって、TURが特に量子系に違反し、より低コストで正確な電流をもたらす可能性を探究することは大きな関心事である。
ここでは, 2つの量子調和振動子が, 強い散逸と低温で, 共有熱環境との結合により同期していることを示す。
この体制では、周期的に第2熱貯水池に結合し、時間反転対称性を破り、後者の貯水池の非マルコビアン性を活用することで、有限出力力を維持しながら、局所的な作業電流に対するTURの強い違反を引き起こす。
本結果は, 精度の熱力学における同期の活用の道を開くものである。
Fluctuations affect the functionality of nanodevices. Thermodynamic uncertainty relations (TURs), derived within the framework of stochastic thermodynamics, show that a minimal amount of dissipation is required to obtain a given relative energy current dispersion, that is, current precision has a thermodynamic cost. It is therefore of great interest to explore the possibility that TURs are violated, particularly for quantum systems, leading to accurate currents at lower cost. Here, we show that two quantum harmonic oscillators are synchronized by coupling to a common thermal environment, at strong dissipation and low temperature. In this regime, periodically modulated couplings to a second thermal reservoir, breaking time-reversal symmetry and taking advantage of non-Markovianity of this latter reservoir, lead to strong violation of TURs for local work currents, while maintaining finite output power. Our results pave the way for the use of synchronization in the thermodynamics of precision. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 原子間フェルミ超流動におけるライドバーグ-分子分光法によるクーパー対の破れとトラップ
Breaking and trapping Cooper pairs by Rydberg-molecule spectroscopy in atomic Fermi superfluids ( http://arxiv.org/abs/2405.01401v3 ) ライセンス: Link先を確認 | Chih-Chun Chien, Simeon I. Mistakidis, Hossein R. Sadeghpour, | (参考訳) ライドバーグ不純物と相互作用する原子フェルミ超流動層におけるクーパー対の破壊と局在の分光プローブを提案する。
これは、BCS-Bose Einstein condensation (BEC) の交差する超流動層における二原子および三原子超長距離分子種の形成をモニタリングすることによって達成される。
BECの3つの原子Rydberg分子は、核物質のピオン捕獲を連想させる強結合のクーパー対のトラップを、BCS側の2つの原子Rydberg分子によるクーパー対の破壊はブラックホールによる連星潮位破壊を誘発する。
フェルミ超流動分子とリドベルク分子の分光はクーパー対の大きさを推定し、ライドベルク分子結合エネルギーは多体対効果を識別する。
We propose a spectroscopic probe of the breaking and localization of Cooper pairs in an atomic Fermi superfluid interacting with a Rydberg impurity. This is achieved by monitoring the formation of diatomic and triatomic ultralong-range molecular species in the superfluid across the BCS - Bose Einstein condensation (BEC) crossover. The triatomic Rydberg molecule in the BEC regime heralds the trapping of a tightly-bound Cooper pair, reminiscent of pion capture in nuclear matter, while the breaking of a Cooper pair on the BCS side by a diatomic Rydberg molecule is evocative of binary-star tidal disruption by a black hole. Spectroscopy of the Fermi superfluid and Rydberg molecules allows for an estimation of the Cooper-pair size while the Rydberg molecule binding energies discern many-body pairing effects. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 多方向ニューラルネットワークを用いた階層的相関再構成に基づく生体誘発関節分布ニューロン
Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks ( http://arxiv.org/abs/2405.05097v4 ) ライセンス: Link先を確認 | Jarek Duda, | (参考訳) 生物学的ニューラルネットワークは、Multi-Layer Perceptron (MLP)やKolmogorov-Arnold Network (KAN)のような現在の人工神経よりも質的に優れている(学習、柔軟性、堅牢性など)。
生物学的には、基本的な多方向信号伝搬~\cite{axon} もまた不確実性推定のための確率分布 eg であり、標準バックプロパゲーショントレーニング~\cite{backprop} を使えないと考えられている。
HCR(階層的相関再構成)に基づく新しい人工ニューロンは、局所的な関節分布モデルを含むニューロン(その接続)を除去し、正規化変数上の結合密度を$(f_\mathbf{j})$正則多項式の線型結合として表現する: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})$ for $\mathbf{x} \in [0,1]^d$と$B$$は、基底成長を伴う関節分布の完全な記述に近づく。
例えば、$E[x|y,z]$, $E[y|x]$, $E[y|x]$ のように、任意の方向の伝播に対して eg 条件が期待する値の単純な式を得る。
このようなHCRネットワークは、$\rho(y,z|x)$のような確率分布(ジョイント)を伝播することもできる。
直接$(a_\mathbf{j})$推定、テンソル分解、あるいはより生物学的に妥当な情報ボトルネックトレーニングなど、追加のトレーニングアプローチも可能だ。
Biological neural networks seem qualitatively superior (e.g. in learning, flexibility, robustness) to current artificial like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). Simultaneously, in contrast to them: biological have fundamentally multidirectional signal propagation~\cite{axon}, also of probability distributions e.g. for uncertainty estimation, and are believed not being able to use standard backpropagation training~\cite{backprop}. There are proposed novel artificial neurons based on HCR (Hierarchical Correlation Reconstruction) allowing to remove the above low level differences: with neurons containing local joint distribution model (of its connections), representing joint density on normalized variables as just linear combination of $(f_\mathbf{j})$ orthonormal polynomials: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})$ for $\mathbf{x} \in [0,1]^d$ and $B$ some chosen basis, approaching complete description of joint distribution with basis growth. By various index summations of such $(a_\mathbf{j})$ tensor as neuron parameters, we get simple formulas for e.g. conditional expected values for propagation in any direction, like $E[x|y,z]$, $E[y|x]$, which degenerate to KAN-like parametrization if restricting to pairwise dependencies. Such HCR network can also propagate probability distributions (also joint) like $\rho(y,z|x)$. It also allows for additional training approaches, like direct $(a_\mathbf{j})$ estimation, through tensor decomposition, or more biologically plausible information bottleneck training: layers directly influencing only neighbors, optimizing content to maximize information about the next layer, and minimizing about the previous to remove noise, extract crucial information. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 古典ゲームにおける許容4ストラテジー量子拡大
Permissible four-strategy quantum extensions of classical games ( http://arxiv.org/abs/2405.07380v3 ) ライセンス: Link先を確認 | Piotr Frąckiewicz, Anna Gorczyca-Goraj, Marek Szopa, | (参考訳) この研究は、2つのユニタリ演算によりアイザート・ウィルケンス・リューエンシュタインスキームで拡張された戦略形式ゲームに焦点を当てている。
条件は、一対のユニタリ作用素と古典的戦略が入力された古典的ゲームの同型変換の下でゲーム不変量を形成する条件を決定する。
これらの条件がこれらの作用素を決定するために適用され、その結果、同型規準を満たすゲームの5つの主要なクラスが成立し、この同型に対する実践的な規準を与える定理が証明される。
拡張の異なるクラス間の相互依存性は、あるクラスが別のクラスに変換される極限ケースを含む特定される。
The study focuses on strategic-form games extended in the Eisert-Wilkens-Lewenstein scheme by two unitary operations. Conditions are determined under which the pair of unitary operators, along with classical strategies, form a game invariant under isomorphic transformations of the input classical game. These conditions are then applied to determine these operators, resulting in five main classes of games satisfying the isomorphism criterion, and a theorem is proved providing a practical criterion for this isomorphism. The interdependencies between different classes of extensions are identified, including limit cases in which one class transforms into another. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 学習3期における熱力学限界
Thermodynamic limit in learning period three ( http://arxiv.org/abs/2405.08825v2 ) ライセンス: Link先を確認 | Yuichiro Terasaki, Kohei Nakajima, | (参考訳) 周期 3 の連続した一次元写像はすべての周期を含む。
周期軌道は3つのデータポイントだけを学習することで得られるのか?
この手紙では、答えはイエスであると報告します。
熱力学限界におけるランダムニューラルネットワークを考えると、ある条件下では、学習期間3は、学習後の分岐として、すべての周期のアトラクタをネットワークに埋め込むことができる。
関連する普遍性は、訓練されたネットワークと古典ロジスティックマップの間の位相的共役によって説明される。
A continuous one-dimensional map with period three includes all periods. This raises the following question: Can we obtain any types of periodic orbits solely by learning three data points? In this letter, we report the answer to be yes. Considering a random neural network in its thermodynamic limit, we show that under certain conditions, learning period three can embed attractors with all periods into the network as a bifurcation after learning. The associated universality is explained by a topological conjugacy between the trained network and the classical logistic map. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# Factual Serialization Enhancement:胸部X線レポート生成のキーイノベーション
Factual Serialization Enhancement: A Key Innovation for Chest X-ray Report Generation ( http://arxiv.org/abs/2405.09586v2 ) ライセンス: Link先を確認 | Kang Liu, Zhuoqi Ma, Mengmeng Liu, Zhicheng Jiao, Xiaolu Kang, Qiguang Miao, Kun Xie, | (参考訳) 放射線学報告は、明瞭さと組織を確実にするプレゼンテーションスタイルの語彙と、観察可能な結果に基づいて正確で客観的な記述を提供する事実の語彙とから構成される。
手作業でレポートを書くのは時間と労力を要するが、自動レポート生成は有望な代替手段だ。
この過程における重要なステップは、ラジオグラフを対応するレポートと整列させることである。
しかし、既存の手法はしばしば、プレゼンテーションスタイルの語彙の影響を見越して、アライメントのための完全なレポートに依存している。
この問題に対処するために、FSE(Factual Serialization Enhancement Method)を提案する。
ステージ1では,実写とそれに対応する事実記述間の意味的対応を最大化することにより,視覚表現のための実写指導型コントラスト学習を導入する。
ステージ2では,事実シリアライゼーションとして構築された類似の歴史的事例からの洞察を統合することにより,診断精度を高めるエビデンス駆動レポート生成を提案する。
MIMIC-CXRとIU X線データセットの特定のシナリオおよび一般的なシナリオに対する実験により、FSEは自然言語の生成と臨床評価の両方において最先端のアプローチよりも優れていることが示された。
アブレーション研究は、ステージ1とステージ2における事実シリアライゼーションの正の効果をさらに強調している。
コードはhttps://github.com/mk-runner/FSEで公開されている。
A radiology report comprises presentation-style vocabulary, which ensures clarity and organization, and factual vocabulary, which provides accurate and objective descriptions based on observable findings. While manually writing these reports is time-consuming and labor-intensive, automatic report generation offers a promising alternative. A critical step in this process is to align radiographs with their corresponding reports. However, existing methods often rely on complete reports for alignment, overlooking the impact of presentation-style vocabulary. To address this issue, we propose FSE, a two-stage Factual Serialization Enhancement method. In Stage 1, we introduce factuality-guided contrastive learning for visual representation by maximizing the semantic correspondence between radiographs and corresponding factual descriptions. In Stage 2, we present evidence-driven report generation that enhances diagnostic accuracy by integrating insights from similar historical cases structured as factual serialization. Experiments on MIMIC-CXR and IU X-ray datasets across specific and general scenarios demonstrate that FSE outperforms state-of-the-art approaches in both natural language generation and clinical efficacy metrics. Ablation studies further emphasize the positive effects of factual serialization in Stage 1 and Stage 2. The code is available at https://github.com/mk-runner/FSE. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 周波数依存ミラーを用いた空洞光学系のコヒーレントフィードバック制御
Coherent feedback control for cavity optomechanical systems with a frequency-dependent mirror ( http://arxiv.org/abs/2405.13624v2 ) ライセンス: Link先を確認 | Lei Du, Juliette Monsel, Witlef Wieczorek, Janine Splettstoesser, | (参考訳) 機械共振器の基底状態冷却は、光学系における様々な量子効果の観測の前提条件であり、そのため量子光学において常に重要な課題である。
本稿では,Fano-mirrorオプトメカニカル・セットアップにおけるメカニカル・モードの地中冷却を実現する方法について検討する。
これら2つのキャビティミラーの崩壊速度が全く異なるような2面共振器形状の場合、適切な単面コヒーレントフィードバックを用いることで、機械的モードを幅広いパラメータで基底状態まで冷やすことが可能である。
これは、全光学損失が機械周波数よりも7桁以上大きく、フィードバック効率が比較的低い場合でも可能である。
重要なことは、ファノミラーシステムと協調するには、より標準的な両面フィードバック方式が適切でないことを示す。
Ground-state cooling of mechanical resonators is a prerequisite for the observation of various quantum effects in optomechanical systems and thus has always been a crucial task in quantum optomechanics. In this paper, we study how to realize ground-state cooling of the mechanical mode in a Fano-mirror optomechanical setup, which allows for enhanced effective optomechanical interaction but typically works in the (deeply) unresolved-sideband regime. We reveal that for such a two-sided cavity geometry with very different decay rates at the two cavity mirrors, it is possible to cool the mechanical mode down to its ground state within a broad range of parameters by using an appropriate single-sided coherent feedback. This is possible even if the total optical loss is more than seven orders of magnitude larger than the mechanical frequency and the feedback efficiency is relatively low. Importantly, we show that a more standard double-sided feedback scheme is not appropriate to cooperate with a Fano-mirror system. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# AnomalyDINO:DINOv2を用いたパッチベースのFew-shot異常検出
AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2 ( http://arxiv.org/abs/2405.14529v2 ) ライセンス: Link先を確認 | Simon Damm, Mike Laszkiewicz, Johannes Lederer, Asja Fischer, | (参考訳) マルチモーダル基礎モデルの最近の進歩は、数発の異常検出において新しい標準を定めている。
本稿では、高品質な視覚的特徴だけで既存の最先端の視覚言語モデルに対抗できるかどうかを考察する。
我々は、DINOv2をワンショットおよび数ショットの異常検出に適用し、産業応用に焦点をあてることでこれを裏付ける。
このアプローチは既存のテクニックに匹敵するだけでなく、多くの設定でそれらを上回ります。
提案するビジョンのみのアプローチであるAnomalyDINOは,パッチの類似性に基づいて,画像レベルの異常予測と画素レベルの異常セグメンテーションの両方を可能にする。
このアプローチは方法論的にシンプルで、トレーニング不要であるため、微調整やメタ学習のために追加のデータを必要としない。
その単純さにもかかわらず、AnomalyDINOは1発と数発の異常検出(例えば、MVTec-ADの1発のパフォーマンスを93.1%から96.6%まで押し上げる)で最先端の結果を達成した。
オーバーヘッドの削減と、その卓越した数ショットのパフォーマンスが相まって、AnomalyDINOは、工業的コンテキストにおける迅速なデプロイメントの強力な候補となっている。
Recent advances in multimodal foundation models have set new standards in few-shot anomaly detection. This paper explores whether high-quality visual features alone are sufficient to rival existing state-of-the-art vision-language models. We affirm this by adapting DINOv2 for one-shot and few-shot anomaly detection, with a focus on industrial applications. We show that this approach does not only rival existing techniques but can even outmatch them in many settings. Our proposed vision-only approach, AnomalyDINO, is based on patch similarities and enables both image-level anomaly prediction and pixel-level anomaly segmentation. The approach is methodologically simple and training-free and, thus, does not require any additional data for fine-tuning or meta-learning. Despite its simplicity, AnomalyDINO achieves state-of-the-art results in one- and few-shot anomaly detection (e.g., pushing the one-shot performance on MVTec-AD from an AUROC of 93.1% to 96.6%). The reduced overhead, coupled with its outstanding few-shot performance, makes AnomalyDINO a strong candidate for fast deployment, e.g., in industrial contexts. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 隣接ST-ADにおけるチェックポインティングスケジュールのプロファイリング
Profiling checkpointing schedules in adjoint ST-AD ( http://arxiv.org/abs/2405.15590v2 ) ライセンス: Link先を確認 | Laurent Hascoët, Jean-Luc Bouchot, Shreyas Sunil Gaikwad, Sri Hari Krishna Narayanan, Jan Hückelheim, | (参考訳) チェックポインティングは、隣接アルゴリズムの微分におけるデータフロー逆転の基盤である。
Checkpointingは、異なるレベルで適用可能なストレージ/再計算トレードオフであり、そのうちの1つはコールツリーである。
特定のアプリケーションのコールツリーにチェックポイントを配置して,実行時間とアジョイントのメモリフットプリントを削減する方法を模索しています。
この問題の最適解法は、すべての位置の組合せ探索以外には知られていない。
随伴コードの実行時プロファイリングに基づくヒューリスティックスを提案する。
本稿では,このプロファイリングツールの実装について述べる。
本稿は,MITgcm大洋および大気循環モデルから得られた試験事例に対する本手法の関心を示す。
我々は,我々のアプローチの限界について議論し,それらを持ち上げる方向を提案する。
Checkpointing is a cornerstone of data-flow reversal in adjoint algorithmic differentiation. Checkpointing is a storage/recomputation trade-off that can be applied at different levels, one of which being the call tree. We are looking for good placements of checkpoints onto the call tree of a given application, to reduce run time and memory footprint of its adjoint. There is no known optimal solution to this problem other than a combinatorial search on all placements. We propose a heuristics based on run-time profiling of the adjoint code. We describe implementation of this profiling tool in an existing source-transformation AD tool. We demonstrate the interest of this approach on test cases taken from the MITgcm ocean and atmospheric global circulation model. We discuss the limitations of our approach and propose directions to lift them. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# 汎用インコンテキスト学習のベンチマーク
Benchmarking General-Purpose In-Context Learning ( http://arxiv.org/abs/2405.17234v6 ) ライセンス: Link先を確認 | Fan Wang, Chuan Lin, Yang Cao, Yu Kang, | (参考訳) In-context Learning (ICL) は、人工的な最適化技術に頼ることなく、生成モデルに新しいタスクを効果的かつ効率的に処理する権限を与える。
本稿では,より広い範囲のタスク,すなわち汎用インコンテクスト学習(GPICL)に対処するためのICLの拡張について検討する。
この目的のために、GPICLの機能のトレーニングと評価に特化した2つの軽量ベンチマークを導入する。
各ベンチマークには、大きなタスク分散を特徴とする膨大なタスクが含まれている。
これらのタスクは、言語モデリング、意思決定、世界モデリングといった領域をカバーする、連続的な生成と相互作用を通じて、コンテキスト内長期学習を促進するためにも使われる。
このベンチマークでは,GPICLの重要な特徴である,文脈と履歴の相互作用を活用する必要がある。
実験の結果,トレーニングタスクの多様性はICLと一般化する能力と正の相関を示すが,逆にゼロショット能力と相関することがわかった。
さらに,ICLやGPICLにはパラメータのスケールだけでは重要ではない可能性が示唆され,コンテキストやメモリ状態のスケールの増加など,代替的なアプローチが提案されている。
In-context learning (ICL) empowers generative models to address new tasks effectively and efficiently on the fly, without relying on any artificially crafted optimization techniques. In this paper, we study extending ICL to address a broader range of tasks with an extended learning horizon and higher improvement potential, namely General Purpose In-Context Learning (GPICL). To this end, we introduce two lightweight benchmarks specifically crafted to train and evaluate GPICL functionalities. Each benchmark encompasses a vast number of tasks characterized by significant task variance. These tasks are also crafted to promote long-horizon in-context learning through continuous generation and interaction, covering domains such as language modeling, decision-making, and world modeling. The benchmarks necessitate the models to leverage contexts and history interactions to enhance their capabilities, which we believe to be the key characteristics of GPICL. Our experiments indicate that the diversity of training tasks is positively correlated with the ability to generalize with ICL, but inversely correlated with zero-shot capabilities. Additionally, our findings indicate that the scale of parameters alone may not be crucial for ICL or GPICL, suggesting alternative approaches such as increasing the scale of contexts and memory states. | 翻訳日:2024-09-13 21:43:18 公開日:2024-09-12 |
# AbstractBeam: ライブラリ学習によるボトムアッププログラム合成の強化
AbstractBeam: Enhancing Bottom-Up Program Synthesis using Library Learning ( http://arxiv.org/abs/2405.17514v3 ) ライセンス: Link先を確認 | Janis Zenkner, Lukas Dierkes, Tobias Sesterhenn, Chrisitan Bartelt, | (参考訳) LambdaBeamは、ドメイン特化言語(DSL)内の高階関数、ラムダ関数、反復ループを利用する、プログラム合成のための最先端、実行誘導アルゴリズムである。
LambdaBeamは、スクラッチから各プログラムを生成するが、リストトラバーサルのループなど、特定のドメインでよく見られるプログラムブロックやサブプログラムの頻繁な繰り返しを利用できない。
この制限に対処するために,ライブラリ学習を活用することでLambdaBeamを強化するように設計された,新しいプログラム合成フレームワークであるAbstractBeamを紹介した。
AbstractBeamは、繰り返し発生するプログラム構造をDSLに識別し、統合し、合成プロセスを最適化する。
実験により、AbstractBeamは整数リスト操作領域においてLambdaBeamよりも統計的に優れている(p < 0.05)ことが示された。
タスクの解決以外にも、AbstractBeamのプログラム合成はより効率的で、ソリューションを生成するのに時間と候補プログラムが少ない。
さらに,図書館学習は,その優位性を示すために設計されていない領域におけるプログラム合成を効果的に促進し,図書館学習の幅広い適用性を浮き彫りにすることを示す。
LambdaBeam is a state-of-the-art, execution-guided algorithm for program synthesis that utilizes higher-order functions, lambda functions, and iterative loops within a Domain-Specific Language (DSL). LambdaBeam generates each program from scratch but does not take advantage of the frequent recurrence of program blocks or subprograms commonly found in specific domains, such as loops for list traversal. To address this limitation, we introduce AbstractBeam: a novel program synthesis framework designed to enhance LambdaBeam by leveraging Library Learning. AbstractBeam identifies and integrates recurring program structures into the DSL, optimizing the synthesis process. Our experimental evaluations demonstrate that AbstractBeam statistically significantly (p < 0.05) outperforms LambdaBeam in the integer list manipulation domain. Beyond solving more tasks, AbstractBeam's program synthesis is also more efficient, requiring less time and fewer candidate programs to generate a solution. Furthermore, our findings indicate that Library Learning effectively enhances program synthesis in domains that are not explicitly designed to showcase its advantages, thereby highlighting the broader applicability of Library Learning. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# プログラムの自動修復における大規模言語モデルのパラメータ効率の良い微調整の探索
Exploring Parameter-Efficient Fine-Tuning of Large Language Model on Automated Program Repair ( http://arxiv.org/abs/2406.05639v2 ) ライセンス: Link先を確認 | Guochang Li, Chen Zhi, Jialiang Chen, Junxiao Han, Shuiguang Deng, | (参考訳) 自動プログラム修正(APR)は、パッチを生成することでバグを修正することを目的としている。
既存の研究は、"事前トレーニングと微調整"パラダイムによって、大規模言語モデル(LLM)がAPRの修正機能を改善することを実証している。
しかし、既存の研究は主にAPRのためのフルモデルファインチューニング(FMFT)に焦点を当てており、APRのためのパラメータ効率の高いファインチューニング(PEFT)の実行に基づく評価について限定的な研究がなされている。
FMFTと比較すると、PEFTは性能を損なうことなく計算資源の消費を減らすことができ、他のソフトウェア工学のタスクにも広く採用されている。
このギャップを埋めるために、私たちはプロンプトエンジニアリングを用いて既存のAPRデータセットを強化し、最初は命令データセットであるAPR-INSTRUCTIONを作成しました。
次に,APR-InstructuCTION を用いた4種類のPEFT法を用いて,事前学習した4つのLPMを微調整する。
最高の微調整モデルでは、最先端のLLMベースのAPR技術よりも58%多くのバグが修正されている。
また,(IA)^3$は細調整によりLCMのクリエイティビティを向上し,他の3つのPEFT法と比較して高い固定性が得られることを示した。
第3に,PEFTハイパーパラメータの最適設定について検討し,命令データセットサイズの影響について検討し,多数のパラメータとより大きなトレーニングデータセットがPEFTの性能向上に必ずしも寄与しないことを示す。
最後に,ピークメモリ使用量とトレーニング可能なパラメータを分析し,PEFTの効率性を示す。
この研究は、PEFTをAPRで包括的に調査し、他のソフトウェアエンジニアリングの下流タスクに拡張するための有望な方向性を示唆している。
APR-INSTRUCTION、PEFTの重み付け、微調整コードはオープンソースリソースとして公開されている。
Automated Program Repair (APR) aims to fix bugs by generating patches. And existing work has demonstrated that "pre-training and fine-tuning" paradigm enables Large Language Models (LLMs) improve fixing capabilities on APR. However, existing work mainly focuses on Full-Model Fine-Tuning (FMFT) for APR and limited research has been conducted on the execution-based evaluation of Parameter-Efficient Fine-Tuning (PEFT) for APR. Comparing to FMFT, PEFT can reduce computing resource consumption without compromising performance and has been widely adopted to other software engineering tasks. To fill this gap, we enhance the existing APR dataset by employing prompt engineering to create an instruction dataset, APR-INSTRUCTION, at first. Secondly, we fine-tune four pre-trained LLMs using four different PEFT methods with APR-INSTRUCTION. The best fine-tuned model fixes 58% more bugs than the state-of-the-art LLM-based APR techniques. The results also show that $(IA)^3$ improves the creativity of LLMs more effectively through fine-tuning and achieves the highest fixing capability compared to the other three PEFT methods. Thirdly, we explore the optimal configuration of PEFT hyperparameters, and assess the impact of instruction dataset size, showing that a larger number of parameters and a larger training dataset do not necessarily result in better performance for PEFT. Lastly, we analyze peak memory usage and trainable parameters to show the efficiency of PEFT. This work provides a comprehensive exploration of PEFT on APR and suggests potentially promising directions for extension to other software engineering downstream tasks. APR-INSTRUCTION, PEFT weights, and the fine-tuning code are publicly available as open-source resources. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# 大規模言語モデルに対するバックドア攻撃と防衛に関する調査:セキュリティ対策の意義
A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures ( http://arxiv.org/abs/2406.06852v4 ) ライセンス: Link先を確認 | Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Xiaoyu Xu, Xiaobao Wu, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan, | (参考訳) 人間の言語理解と複雑な問題解決のギャップを埋める大きな言語モデル(LLM)は、いくつかのNLPタスク、特にショット数やゼロショットの設定において最先端のパフォーマンスを達成する。
LLMの実証可能な有効性にもかかわらず、計算リソースの制約のため、ユーザはオープンソースの言語モデルに関わり、トレーニングプロセス全体をサードパーティのプラットフォームにアウトソースする必要がある。
しかし、研究は言語モデルが潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
バックドア攻撃は、トレーニングサンプルやモデルウェイトを悪用することにより、ターゲットとする脆弱性を言語モデルに導入し、悪意のあるトリガーを通じてモデル応答を操作できるようにするように設計されている。
バックドア攻撃に関する既存の調査は包括的概要を提供するが、LDMを対象とするバックドア攻撃の詳細な調査は欠如している。
本稿では,このギャップを埋め,現場の最新動向を把握するために,微調整手法に着目して,LSMのバックドア攻撃に対する新たな視点を示す。
具体的には、バックドア攻撃を3つのカテゴリに分類する: フルパラメータ細調整、パラメータ効率のよい微調整、微調整なし。
Large Language Models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LLMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and no fine-tuning Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# CFG++: 拡散モデルのためのマニフォールド制約付き分類器フリーガイダンス
CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models ( http://arxiv.org/abs/2406.08070v2 ) ライセンス: Link先を確認 | Hyungjin Chung, Jeongsol Kim, Geon Yeong Park, Hyelin Nam, Jong Chul Ye, | (参考訳) クラシファイアフリーガイダンス(CFG)は、テキスト誘導生成のための現代拡散モデルの基本ツールである。
CFGは有効ではあるが、顕著な欠点がある。
例えば、CFGを使ったDDIMは可逆性に欠け、画像編集を複雑にしている。
これらが拡散モデルの本質的な限界であるという広く信じられているのとは対照的に、この論文は拡散モデル自体よりもCFGに付随するオフ・マニフォールド現象に由来することを明らかにしている。
より具体的には、拡散モデルに基づく逆問題解法(DIS)の最近の進歩に触発されて、テキスト条件付きスコアマッチング損失による逆問題としてテキストガイダンスを再構成し、従来のCFG固有のオフマンフォールド問題に対処する新しいアプローチCFG++を開発する。
CFG++は驚くほど単純なCFGの修正を特徴としているが、テキスト・ツー・イメージ生成のサンプル品質の向上、可逆性、ガイダンスの縮小、モード崩壊の削減など、大幅な改善が加えられている。
さらに、CFG++は、低誘導スケールでの無条件サンプリングと条件サンプリングのシームレスな補間を可能にする。
さらにCFG++は高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
実験結果から,テキスト・ツー・イメージ生成,DDIMのインバージョン,編集,逆問題解決において,本手法が性能を著しく向上させることが確認された。
プロジェクトページ: https://cfgpp-diffusion.github.io/
Classifier-free guidance (CFG) is a fundamental tool in modern diffusion models for text-guided generation. Although effective, CFG has notable drawbacks. For instance, DDIM with CFG lacks invertibility, complicating image editing; furthermore, high guidance scales, essential for high-quality outputs, frequently result in issues like mode collapse. Contrary to the widespread belief that these are inherent limitations of diffusion models, this paper reveals that the problems actually stem from the off-manifold phenomenon associated with CFG, rather than the diffusion models themselves. More specifically, inspired by the recent advancements of diffusion model-based inverse problem solvers (DIS), we reformulate text-guidance as an inverse problem with a text-conditioned score matching loss and develop CFG++, a novel approach that tackles the off-manifold challenges inherent in traditional CFG. CFG++ features a surprisingly simple fix to CFG, yet it offers significant improvements, including better sample quality for text-to-image generation, invertibility, smaller guidance scales, reduced mode collapse, etc. Furthermore, CFG++ enables seamless interpolation between unconditional and conditional sampling at lower guidance scales, consistently outperforming traditional CFG at all scales. Moreover, CFG++ can be easily integrated into high-order diffusion solvers and naturally extends to distilled diffusion models. Experimental results confirm that our method significantly enhances performance in text-to-image generation, DDIM inversion, editing, and solving inverse problems, suggesting a wide-ranging impact and potential applications in various fields that utilize text guidance. Project Page: https://cfgpp-diffusion.github.io/. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# Sim-to-Real: シーンごとの最適化による汎用イベントベース低照度フレーム補間に向けて
From Sim-to-Real: Toward General Event-based Low-light Frame Interpolation with Per-scene Optimization ( http://arxiv.org/abs/2406.08090v2 ) ライセンス: Link先を確認 | Ziran Zhang, Yongrui Ma, Yueting Chen, Feng Zhang, Jinwei Gu, Tianfan Xue, Shi Guo, | (参考訳) ビデオフレーム補間(VFI)は,映像強調,フレームレートアップ・コンバージョン,スローモーション生成において重要である。
画素ごとの明るさ変化を非同期にキャプチャするイベントカメラの導入は、特に高速で非線形な動きに対して、VFI機能を著しく向上させた。
しかしながら、これらのイベントベースの手法は、特に後続のアーティファクトや信号遅延といった、低照度環境での課題に直面する。
これらの課題に対処し、低照度条件に適した新しいシーンごとの最適化戦略を提案する。
このアプローチでは、列の内部統計を利用して、低照度条件下での劣化イベントデータを処理し、異なる照明やカメラ設定への一般化性を向上させる。
低照度条件下でのロバスト性を評価するために,低照度条件下でのRGB+EventデータセットであるEVFI-LLを導入する。
その結果,低照度環境における最先端性能が示された。
プロジェクトページ: https://naturezhanghn.github.io/sim2real
Video Frame Interpolation (VFI) is important for video enhancement, frame rate up-conversion, and slow-motion generation. The introduction of event cameras, which capture per-pixel brightness changes asynchronously, has significantly enhanced VFI capabilities, particularly for high-speed, nonlinear motions. However, these event-based methods encounter challenges in low-light conditions, notably trailing artifacts and signal latency, which hinder their direct applicability and generalization. Addressing these issues, we propose a novel per-scene optimization strategy tailored for low-light conditions. This approach utilizes the internal statistics of a sequence to handle degraded event data under low-light conditions, improving the generalizability to different lighting and camera settings. To evaluate its robustness in low-light condition, we further introduce EVFI-LL, a unique RGB+Event dataset captured under low-light conditions. Our results demonstrate state-of-the-art performance in low-light environments. Project page: https://naturezhanghn.github.io/sim2real. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# Faber Polynomial 法による非線形量子多体ダイナミクス
Non-Unitary Quantum Many-Body Dynamics using the Faber Polynomial Method ( http://arxiv.org/abs/2406.10135v3 ) ライセンス: Link先を確認 | Rafael D. Soares, Marco Schirò, | (参考訳) 効率的な数値法は、非単体進化の下での量子多体系の非伝統的な力学を探索するにはまだ不足している。
本研究では、Faber多項式を用いて非エルミート系の力学とリンドブラッド力学の量子ジャンプの両方を数値的にシミュレートする。
本手法を,2つの異なる設定から進化する波多野・ネルソンモデルに対して適用する。
i) N'eel state, and
ii) 領域の壁。
第1のケースでは、相互作用が皮膚効果に対する初期磁気秩序をいかに保存するかについて検討する。
第2の例では、非接触限界におけるドメインウォール融解問題に対する効果的な流体力学的記述の存在の数値的証拠を示す。
さらに、2つの量子スピン鎖における量子ジャンプの条件的および非条件的ダイナミクスについて検討し、これは非エルミティアスかリウヴィリアスキン効果を示す。
この数値法は本質的にチェビシェフ多項式に基づいて確立された手法を一般化し、非エルミート的シナリオに対応する。
Efficient numerical methods are still lacking to probe the unconventional dynamics of quantum many-body systems under non-unitary evolution. In this work, we use Faber polynomials to numerically simulate both the dynamics of non-Hermitian systems and the quantum jumps unravelling of the Lindblad dynamics. We apply the method to the non-interacting and interacting Hatano-Nelson models evolving from two different setups: i) a N\'eel state, and ii) a domain wall. In the first case, we study how interactions preserve the initial magnetic order against the skin effect. In the second example, we present numerical evidence of the existence of an effective hydrodynamic description for the domain-wall melting problem in the non-interacting limit. Additionally, we investigate both the conditional and unconditional dynamics of the quantum jump unravelling in two quantum spin chains, which exhibit either the non-Hermitian or the Liouvillian skin effect. This numerical method inherently generalises the well-established method based on Chebyshev polynomials to accommodate non-Hermitian scenarios. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# AIC MLLM:ロバストロボットマニピュレーションのための自律的対話的補正MLLM
AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation ( http://arxiv.org/abs/2406.11548v3 ) ライセンス: Link先を確認 | Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong, | (参考訳) 現実の物体と安定して相互作用するロボットシステムにとって、障害を反映し修正する能力は不可欠である。マルチモーダル大規模言語モデル(MLLM)の一般化と推論能力の観察において、従来の手法はロボットシステムを強化するためにこれらのモデルを活用することを目的としていたが、これらの手法は通常、追加のMLLMを用いた高レベル計画修正に焦点を合わせ、低レベル接触ポーズの補正に失敗したサンプルを限定的に活用することに集中している。
このギャップに対処するために,従来の低レベルインタラクション体験を利用してSE(3)のポーズを補正する自律的対話補正(AIC)MLLMを提案する。
特に、AIC MLLMは、まず、ポーズ予測とフィードバックプロンプトの理解能力の両方を取得するために微調整され、1) 位置補正のために移動不能な部分をハイライトする視覚マスク、2) 回転補正のための電位方向を示すテキスト記述の2種類のプロンプト命令を慎重に設計し、推論中に、フィードバック情報抽出モジュールが障害原因を認識するために導入され、AIC MLLMは対応するプロンプトを用いてポーズ予測を適応的に修正する。
そこで我々は,AIC MLLMが現在のシーン構成に適応できるテスト時間適応戦略を考案し,シミュレーション環境と実環境の両方で広範な実験を行い,提案手法の評価を行った。
実世界の実例はhttps://sites.google.com/view/aic-mllmで見ることができる。
The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We carefully design two types of prompt instructions through interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2)textual descriptions to indicate potential directions for rotation correction.During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Real-world demonstration can be found at https://sites.google.com/view/aic-mllm | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# 3量子交絡状態における真の非局所性を検出するシングルベル不等式
Single Bell inequality to detect genuine nonlocality in three-qubit genuinely entangled states ( http://arxiv.org/abs/2406.14078v2 ) ライセンス: Link先を確認 | Ignacy Stachura, Owidiusz Makuta, Remigiusz Augusiak, | (参考訳) 真に絡み合っているすべての純多部状態が真に非局所であるかどうかについても、未解決の疑問が残る。
近年,[F]では, 量子状態における真の多部非局所性(GMNL)の検出が可能なベル不等式が新たに提案されている。
J. Curchod, M. L. Almeida, A. Acin, New J. Phys
21 023016 (2019)。
ここでは, GMNLの検出におけるベルの不等式をより厳格にするために, 簡単な方法でこの構造を改善する方法を示す。
注目すべきは、改良されたベルの不等式の一つが、3ビットの真に絡み合った状態のGMNLを検出するのに十分強力であることを示すことである。
また、これらの不等式の一部を一般化して、GMNLだけでなく、多粒子状態の非局所性深度も検出し、より多くの結果が得られた場合に一般化する方法を提案する。
It remains an open question whether every pure multipartite state that is genuinely entangled is also genuinely nonlocal. Recently, a new general construction of Bell inequalities allowing the detection of genuine multipartite nonlocality (GMNL) in quantum states was proposed in [F. J. Curchod, M. L. Almeida, and A. Acin, New J. Phys. 21, 023016 (2019) with the aim of addressing the above problem. Here we show how, in a simple manner, one can improve this construction to deliver tighter Bell inequalities for detection of GMNL. Remarkably, we then prove one of the improved Bell inequalities to be powerful enough to detect GMNL in every three-qubit genuinely entangled state. We also generalize some of these inequalities to detect not only GMNL but also nonlocality depth in multipartite states and we present a possible way of generalizing them to the case of more outcomes. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# 行動木を用いた適応マニピュレーション
Adaptive Manipulation using Behavior Trees ( http://arxiv.org/abs/2406.14634v2 ) ライセンス: Link先を確認 | Jacques Cloete, Wolfgang Merkt, Ioannis Havoutis, | (参考訳) 多くの操作タスクは、持続的な物理的相互作用が既に始まってからのみ決定できる非視覚的環境情報に依存しているため、課題となる。
これは特に、バルブの締め付けのような、作業に敏感で動的に依存したタスクに関係している。
これらのタスクを安全かつ確実に実行するためには、ロボットはタスク実行中に予期せぬ変化に反応して迅速に適応できなければならない。
人間は直感的に反応し、このような問題に合うように操作戦略を適用することができるが、そのような動作をロボットに表現し、実装することは、未解決の問題である。
本稿では,タスク実行中の視覚的,非視覚的両方の観察にロボットが迅速に適応できる適応行動木について述べる。
産業環境でよく見られる多くのタスクに対して、我々のアプローチを検証します。
その結果, 安全, 堅牢性(実験1回で100%成功率) , 作業完了効率(弁の締め付け平均で46%のタスク高速化) が示され, 人間の監督や介入への依存度が低下することがわかった。
Many manipulation tasks pose a challenge since they depend on non-visual environmental information that can only be determined after sustained physical interaction has already begun. This is particularly relevant for effort-sensitive, dynamics-dependent tasks such as tightening a valve. To perform these tasks safely and reliably, robots must be able to quickly adapt in response to unexpected changes during task execution. Humans can intuitively respond and adapt their manipulation strategy to suit such problems, but representing and implementing such behaviors for robots remains an open question. We present the adaptive behavior tree, which enables a robot to quickly adapt to both visual and non-visual observations during task execution, preempting task failure or switching to a different strategy based on data from previous attempts. We test our approach on a number of tasks commonly found in industrial settings. Our results demonstrate safety, robustness (100% success rate for all but one experiment) and efficiency in task completion (eg, an overall task speedup of 46% on average for valve tightening), and would reduce dependency on human supervision and intervention. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# FaceScore: 人間の世代における顔の品質のベンチマークと改善
FaceScore: Benchmarking and Enhancing Face Quality in Human Generation ( http://arxiv.org/abs/2406.17100v2 ) ライセンス: Link先を確認 | Zhenyi Liao, Qingsong Xie, Chen Chen, Hannan Lu, Zhijie Deng, | (参考訳) 拡散モデル(DM)は、テキスト記述が与えられた想像的画像の生成において大きな成功を収めた。
しかし、複雑な詳細を持つ現実のシナリオでは不足する可能性が高い。
テキスト・ツー・画像生成における低品質で非現実的な人間の顔は最も顕著な問題の1つであり、実際にはDMの広範な適用を妨げる。
このような問題に対処するために、まず、人間のアノテータの助けを借りて、一般的な訓練済みDMから世代ごとの顔の質を評価し、既存の指標と人間の判断との整合性を評価する。
既存のメトリクスが顔の質の定量化に不満足であることを確認するため、DMの塗装パイプラインによって安価に製作された顔ペアのデータセットに基づいて、広く使用されているImageRewardを微調整することにより、FaceScore(FS)と呼ばれる新しいメトリクスを開発する。
大規模な研究により、FSは人間に優越していることが明らかとなった。
一方、FSは、より優れた顔生成のためにDMを強化するための扉を開く。
FSは画像のレーティングを提供するので、SDXLのようなDMを洗練するための好み学習アルゴリズムを容易に実行できます。
総合的な実験により,顔の質向上のためのアプローチの有効性が検証された。
コードはhttps://github.com/OPPO-Mente-Lab/FaceScoreで公開されている。
Diffusion models (DMs) have achieved significant success in generating imaginative images given textual descriptions. However, they are likely to fall short when it comes to real-life scenarios with intricate details. The low-quality, unrealistic human faces in text-to-image generation are one of the most prominent issues, hindering the wide application of DMs in practice. Targeting addressing such an issue, we first assess the face quality of generations from popular pre-trained DMs with the aid of human annotators and then evaluate the alignment between existing metrics with human judgments. Observing that existing metrics can be unsatisfactory for quantifying face quality, we develop a novel metric named FaceScore (FS) by fine-tuning the widely used ImageReward on a dataset of (win, loss) face pairs cheaply crafted by an inpainting pipeline of DMs. Extensive studies reveal FS enjoys a superior alignment with humans. On the other hand, FS opens up the door for enhancing DMs for better face generation. With FS offering image ratings, we can easily perform preference learning algorithms to refine DMs like SDXL. Comprehensive experiments verify the efficacy of our approach for improving face quality. The code is released at https://github.com/OPPO-Mente-Lab/FaceScore. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# GS-ROR:SDFプリミティブによる反射物体の照準のための3次元ガウス散乱
GS-ROR: 3D Gaussian Splatting for Reflective Object Relighting via SDF Priors ( http://arxiv.org/abs/2406.18544v2 ) ライセンス: Link先を確認 | Zuo-Liang Zhu, Beibei Wang, Jian Yang, | (参考訳) 3D Gaussian Splatting (3DGS) は、その詳細な表現能力と高効率なレンダリング速度により、新しいビュー合成の強力な能力を示している。
残念なことに、3DGSでリライタブルな3Dアセットを作成することは、特に反射オブジェクトにとって問題であり、不連続な表現はジオメトリの制約の困難を生じさせる。
以前の研究に触発されて、符号付き距離場(SDF)は幾何正則化の有効な方法として機能する。
しかし、ガウスとSDFの直接統合は訓練を著しく遅らせる。
そこで本研究では,SDF前駆体を用いた3DGSでリライトする反射物体に対してGS-RORを提案する。
提案手法の核心は, 遅延ガウスとSDFの深度と正常度を相互に監視することであり, SDFの高価なボリュームレンダリングを回避している。
この相互監督のおかげで、学習された遅延したガウス人は最小の時間費用で十分に拘束されている。
ガウス語は遅延シェーディングモードで描画されるが、アルファ版ではガウス語は滑らかであり、個々のガウス語は依然としてアウトリーであり、フローター・アーティファクトが得られる。
そこで本研究では,SDFが定義する表面から離れたガウシアンアウトリールを除去し,フロータ問題を回避するため,SDF対応プルーニング戦略を導入する。
その結果,既存のガウス方式の逆レンダリング手法よりも,照明品質が優れていた。
また, RTX4090では, トレーニング時間の25%以上で, RTX4090では毎秒200フレーム以上のレンダリングが可能となる。
3D Gaussian Splatting (3DGS) has shown a powerful capability for novel view synthesis due to its detailed expressive ability and highly efficient rendering speed. Unfortunately, creating relightable 3D assets with 3DGS is still problematic, particularly for reflective objects, as its discontinuous representation raises difficulties in constraining geometries. Inspired by previous works, the signed distance field (SDF) can serve as an effective way for geometry regularization. However, a direct incorporation between Gaussians and SDF significantly slows training. To this end, we propose GS-ROR for reflective objects relighting with 3DGS aided by SDF priors. At the core of our method is the mutual supervision of the depth and normal between deferred Gaussians and SDF, which avoids the expensive volume rendering of SDF. Thanks to this mutual supervision, the learned deferred Gaussians are well-constrained with a minimal time cost. As the Gaussians are rendered in a deferred shading mode, while the alpha-blended Gaussians are smooth, individual Gaussians may still be outliers, yielding floater artifacts. Therefore, we further introduce an SDF-aware pruning strategy to remove Gaussian outliers, which are located distant from the surface defined by SDF, avoiding the floater issue. Consequently, our method outperforms the existing Gaussian-based inverse rendering methods in terms of relighting quality. Our method also exhibits competitive relighting quality compared to NeRF-based methods with at most 25% of training time and allows rendering at 200+ frames per second on an RTX4090. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# RoboUniView:ロボットマニピュレーションのための統一ビュー表現を用いた視覚言語モデル
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation ( http://arxiv.org/abs/2406.18977v3 ) ライセンス: Link先を確認 | Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma, | (参考訳) ロボット操作のためのビジョンランゲージモデル(VLM)の利用は、新しいオブジェクトや命令に一般化するモデルの能力を高めることを目的とした、新しいパラダイムである。
しかし、カメラの仕様や設置位置の変化により、既存の手法は異なるロボットプラットフォーム間で大きな性能格差を示す。
この課題に対処するために,アクション学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
この統合ビュー表現は、物理的な世界をより正確に反映し、ロボットプラットフォームのカメラパラメータに制約されない。
この手法により、要求されるCALVINベンチマークの最先端性能を達成し、93.0%から96.2%の$D \to D$設定、92.2%から94.2%の$ABC \to D$設定の成功率を高める。
さらに,本モデルでは,未知のカメラパラメータの下で高い性能を維持し,様々なカメラパラメータを持つ複数のデータセットを利用でき,データセット間のクロスタスク学習を共同で行うことが可能である。
コードは再実装のために提供される。
https://github.com/liufanfanlff/RoboUniview
Utilizing Vision-Language Models (VLMs) for robotic manipulation represents a novel paradigm, aiming to enhance the model's ability to generalize to new objects and instructions. However, due to variations in camera specifications and mounting positions, existing methods exhibit significant performance disparities across different robotic platforms. To address this challenge, we propose RoboUniView in this paper, an innovative approach that decouples visual feature extraction from action learning. We first learn a unified view representation from multi-perspective views by pre-training on readily accessible data, and then derive actions from this unified view representation to control robotic manipulation. This unified view representation more accurately mirrors the physical world and is not constrained by the robotic platform's camera parameters. Thanks to this methodology, we achieve state-of-the-art performance on the demanding CALVIN benchmark, enhancing the success rate in the $D \to D$ setting from 93.0% to 96.2%, and in the $ABC \to D$ setting from 92.2% to 94.2%. Moreover, our model exhibits outstanding adaptability and flexibility: it maintains high performance under unseen camera parameters, can utilize multiple datasets with varying camera parameters, and is capable of joint cross-task learning across datasets. Code is provided for re-implementation. https://github.com/liufanfanlff/RoboUniview | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-12 |
# アウト・オブ・ディストリビューション・ジェネレーションとしての顔再構成伝達攻撃
Face Reconstruction Transfer Attack as Out-of-Distribution Generalization ( http://arxiv.org/abs/2407.02403v2 ) ライセンス: Link先を確認 | Yoon Gyo Jung, Jaewoo Park, Xingbo Dong, Hojin Park, Andrew Beng Jin Teoh, Octavia Camps, | (参考訳) 悪意のある攻撃に対する顔認識システムの脆弱性を理解することが重要である。
これまでは、対象とする検証システムに侵入可能な顔画像の再構築に重点を置いてきた。
しかし、ホワイトボックスのシナリオであっても、鼻で再構成した画像が識別情報を誤って表現しているため、顔システムが更新または変更されると容易に攻撃が中和される。
本稿では,未知のエンコーダに対する顔の攻撃を伝達できる顔画像の再構成を目的とする。
この問題を顔再構成伝達攻撃 (FRTA) と呼び, 分布外一般化問題 (OOD) として定式化可能であることを示す。
OODの性質に着想を得て,疑似目標(ALSUV)を用いた平均遅延探索と教師なし検証によるFRTAの解法を提案する。
ALSUVは、OOD非可視エンコーダに対する再構成攻撃を強化するために、複数の潜時最適化、潜時最適化軌道平均化、疑似目標による教師なし検証により、償却ジェネレータであるStyleGAN2の潜時を探索して顔の再構成を行う。
本手法の有効性と一般化を,広範囲にわたるアブレーション研究および視覚的,質的,定量的に分析し,広く利用されている顔データセットに示す。
ソースコードはリリースされます。
Understanding the vulnerability of face recognition systems to malicious attacks is of critical importance. Previous works have focused on reconstructing face images that can penetrate a targeted verification system. Even in the white-box scenario, however, naively reconstructed images misrepresent the identity information, hence the attacks are easily neutralized once the face system is updated or changed. In this paper, we aim to reconstruct face images which are capable of transferring face attacks on unseen encoders. We term this problem as Face Reconstruction Transfer Attack (FRTA) and show that it can be formulated as an out-of-distribution (OOD) generalization problem. Inspired by its OOD nature, we propose to solve FRTA by Averaged Latent Search and Unsupervised Validation with pseudo target (ALSUV). To strengthen the reconstruction attack on OOD unseen encoders, ALSUV reconstructs the face by searching the latent of amortized generator StyleGAN2 through multiple latent optimization, latent optimization trajectory averaging, and unsupervised validation with a pseudo target. We demonstrate the efficacy and generalization of our method on widely used face datasets, accompanying it with extensive ablation studies and visually, qualitatively, and quantitatively analyses. The source code will be released. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# 準周期性はギャップのない無秩序系における量子化輸送を保護する
Quasiperiodicity protects quantized transport in disordered systems without gaps ( http://arxiv.org/abs/2407.07049v2 ) ライセンス: Link先を確認 | Emmanuel Gottlob, Dan S. Borgnia, Robert-Jan Slager, Ulrich Schneider, | (参考訳) 量子化された電流のようなトポロジカルな性質のロバスト性は、一般に関連するエネルギー準位を取り巻くギャップの存在や対称性を禁ずる遷移に依存する。
ここでは、準周期系の原型モデルである駆動オーブリー・アンドルー・ハーパー連鎖における関連する瞬時エネルギーギャップの閉包を超えて、有界局所障害の付加を生き残る量子化された電流を観察する。
本稿では,Landau-Zenerトランジッションに基づくローカルな図形を用いてロバスト性を説明する。
さらに、この安定性を活用して、チャーン数の高い位相多体状態を作成し、整数と分数量子ホール効果の両方を研究するための新しい実験経路を開く、直接実現可能なプロトコルを提案する。
The robustness of topological properties, such as quantized currents, generally depends on the existence of gaps surrounding the relevant energy levels or on symmetry-forbidden transitions. Here, we observe quantized currents that survive the addition of bounded local disorder beyond the closing of the relevant instantaneous energy gaps in a driven Aubry-Andr\'e-Harper chain, a prototypical model of quasiperiodic systems. We explain the robustness using a local picture in \textit{configuration-space} based on Landau-Zener transitions, which rests on the Anderson localisation of the eigenstates. Moreover, we propose a protocol, directly realizable in for instance cold atoms or photonic experiments, which leverages this stability to prepare topological many-body states with high Chern numbers and opens new experimental avenues for the study of both the integer and fractional quantum Hall effects. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# パラメトリックダウンコンバージョンにおける高次元最大絡み合った光子対
High-dimensional maximally entangled photon pairs in parametric down-conversion ( http://arxiv.org/abs/2407.09280v2 ) ライセンス: Link先を確認 | Richard Bernecker, Baghdasar Baghdasaryan, Stephan Fritzsche, | (参考訳) 自発パラメトリックダウンコンバージョンから生成される光子対は、絡み合った2部フォトニックシステムを実現するための確立された方法である。
軌道角運動量(OAM)を持つラゲール・ガウスモードは、高次元の絡み合った量子状態を作るために一般的に利用される。
%であった。
次元 d>2 のヒルベルト空間の場合、最大絡み合った状態(MES)は量子通信プロトコルの容量とセキュリティを改善するのに役立つ。
しかし、有限 OAM 基底のよく定義された高次元部分空間における MES の直接生成は依然として挑戦である。
ここでは, ポンプビームの空間分布と結晶の非線形プロファイルを同時に利用して, サブ空間内のOAMモードの追加空間フィルタリングを行うことなくMESを生成する方法について定式化する。
我々は、最大絡み合った四角形 (d=3) および四角形 (d=5) を用いて、我々のアプローチを説明する。
Photon pairs generated from spontaneous parametric down-conversion are a well-established method to realize entangled bipartite photonic systems. Laguerre-Gaussian modes, which carry orbital angular momentum (OAM), are commonly exploited to engineer high-dimensional entangled quantum states. %experimentally. For Hilbert spaces with dimension d>2, maximally entangled states (MESs) help to improve the capacity and security of quantum communication protocols, among several other promising features. However, the direct generation of MES in well-defined high-dimensional subspaces of the infinite OAM basis has remained a challenge. Here, we formalize how the spatial distribution of the pump beam and the nonlinear profile of the crystal can be simultaneously utilized to generate MES without additional spatial filtering of OAM modes within a subspace. We illustrate our approach with maximally entangled qutrits (d=3) and ququints (d=5). | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# 変形SYKモデルにおけるクリロフ複雑性とカオス
Krylov complexity and chaos in deformed SYK models ( http://arxiv.org/abs/2407.09604v2 ) ライセンス: Link先を確認 | Shira Chapman, Saskia Demulder, Damián A. Galante, Sameer U. Sheorey, Osher Shoval, | (参考訳) クリロフ複雑性は、カオスの量子プローブとして最近提案されている。
クリロフ複雑性の指数的成長を特徴づけるクリロフ指数は、リャプノフ指数の上界に予想される。
Sachdev-Ye-Kitaevモデルにおけるクリロフ指数とリャプノフ指数を、その変形のいくつかで計算する。
この解析は、フェルミオン相互作用の数が有限かつ無限であるモデルにおいて、無限温度と有限温度の両方で行う。
本研究では,2つの領域間を交差する変形と,低温でほぼ可積分となる変形を考察する。
いずれの場合も、クリロフ指数がリャプノフ指数の上界であることが分かる。
しかし、リアプノフ指数は温度関数として非単調な振舞いを持つことができるが、すべての研究例において、クリロフ指数は単調に振舞う。
例えば、リャプノフ指数が低温でゼロとなるモデルを見つけ、一方、クリロフ指数はその極大境界に飽和する。
この単調性は、ユニタリ進化の下で進化する量子系におけるクリロフ指数の一般的な特徴である可能性があると推測する。
Krylov complexity has recently been proposed as a quantum probe of chaos. The Krylov exponent characterising the exponential growth of Krylov complexity is conjectured to upper-bound the Lyapunov exponent. We compute the Krylov and the Lyapunov exponents in the Sachdev-Ye-Kitaev model and in some of its deformations. We do this analysis both at infinite and finite temperatures, in models where the number of fermionic interactions is both finite and infinite. We consider deformations that interpolate between two regions of near-maximal chaos and deformations that become nearly-integrable at low temperatures. In all cases, we find that the Krylov exponent upper-bounds the Lyapunov one. However, we find that while the Lyapunov exponent can have non-monotonic behaviour as a function of temperature, in all studied examples the Krylov exponent behaves monotonically. For instance, we find models where the Lyapunov exponent goes to zero at low temperatures, while the Krylov exponent saturates to its maximal bound. We speculate on the possibility that this monotonicity might be a generic feature of the Krylov exponent in quantum systems evolving under unitary evolution. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# 2層線形ニューラルネットワークにおけるエポックワイズ二重降下の理解に向けて
Towards understanding epoch-wise double descent in two-layer linear neural networks ( http://arxiv.org/abs/2407.09845v2 ) ライセンス: Link先を確認 | Amanda Olmin, Fredrik Lindsten, | (参考訳) Epoch-wise double descendは、一般化性能が過度な適合点を超えて改善され、結果として、学習の過程で2つの降下点を示す一般化曲線が現れる現象である。
この動作を駆動するメカニズムを理解することは、一般的に機械学習モデルの一般化行動を理解するためにだけでなく、オーバーフィッティングを緩和するために早期停止の使用など、従来の選択手法を採用するためにも重要である。
最終的に、ディープニューラルネットワークのようなより複雑なモデルの結論を描きたいが、エポックな2重降下の根本原因に関する理論的結果は、標準的な線形回帰のような単純なモデルに基づいている。
本稿では,理論解析におけるより複雑なモデルへの一歩を踏み出すために,2層線形ニューラルネットワークにおけるエポックワイド2重降下について検討する。
まず、標準線形回帰モデルの学習力学を橋渡しする線形二層モデルと、二次重み付き線形二層対角ネットワークの勾配流を導出する。
第2に、一般化誤差が二重降下パターンに従うために必要な条件を導出することにより、余剰モデル層に現れるエポックな二重降下の余剰因子を同定する。
線形回帰におけるエポックワイズ二重降下は入力分散の差に起因するが、2層モデルでは入力-出力共分散行列の特異値も重要な役割を果たす。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
Epoch-wise double descent is the phenomenon where generalisation performance improves beyond the point of overfitting, resulting in a generalisation curve exhibiting two descents under the course of learning. Understanding the mechanisms driving this behaviour is crucial not only for understanding the generalisation behaviour of machine learning models in general, but also for employing conventional selection methods, such as the use of early stopping to mitigate overfitting. While we ultimately want to draw conclusions of more complex models, such as deep neural networks, a majority of theoretical results regarding the underlying cause of epoch-wise double descent are based on simple models, such as standard linear regression. In this paper, to take a step towards more complex models in theoretical analysis, we study epoch-wise double descent in two-layer linear neural networks. First, we derive a gradient flow for the linear two-layer model, that bridges the learning dynamics of the standard linear regression model, and the linear two-layer diagonal network with quadratic weights. Second, we identify additional factors of epoch-wise double descent emerging with the extra model layer, by deriving necessary conditions for the generalisation error to follow a double descent pattern. While epoch-wise double descent in linear regression has been attributed to differences in input variance, in the two-layer model, also the singular values of the input-output covariance matrix play an important role. This opens up for further questions regarding unidentified factors of epoch-wise double descent for truly deep models. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# NITRO-D:Deep Convolutional Neural Networksのネイティブ整数のみのトレーニング
NITRO-D: Native Integer-only Training of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2407.11698v2 ) ライセンス: Link先を確認 | Alberto Pirillo, Luca Colombo, Manuel Roveri, | (参考訳) 量子化は、ディープニューラルネットワーク(DNN)の着実に増加する計算とメモリ要件に対処する上で、ますます重要になっている。
重みとアクティベーションを表すために使用されるビット数(通常32ビット浮動小数点から16ビットまたは8ビット整数)を減らすことで、量子化はDNNモデルのメモリフットプリント、エネルギー消費、実行時間を減少させる。
しかしながら、従来の量子化法は一般的にDNNの推測に焦点をあてるが、トレーニングプロセスは依然として浮動小数点演算に依存している。
これまで、多層パーセプトロン(MLP)アーキテクチャの整数のみのトレーニングに対処した研究は1つしかなかった。
この研究は、任意の整数のみの畳み込みニューラルネットワーク(CNN)をトレーニングするための新しいフレームワークであるNITRO-Dを導入し、トレーニングと推論の両方のために整数のみのドメインで完全に動作する。
NITRO-Dは、量子化スキームを導入することなく整数のみのCNNのトレーニングを可能にする文献の中で最初のフレームワークである。
具体的には、NITRO-Dは、NITROスケーリング層とNITRO-ReLUアクティベーション関数を含む、複数の整数ローカルロスブロックを統合する新しいアーキテクチャを導入している。
さらに、ローカルエラー信号(LES:Local Error Signals)から派生した新しい整数専用学習アルゴリズム、IntegerSGDを導入している。
NITRO-DはオープンソースのPythonライブラリで実装されている。
大規模な実験的評価は、いくつかの最先端の画像認識データセットにその効果を示す。
その結果、現状のソリューションよりも整数のみのMLPアーキテクチャでは2.47%から5.96%の大幅なパフォーマンス向上が達成され、浮動小数点浮動小数点浮動小数点浮動小数点浮動小数点演算と比較して、最小の精度で整数のみのCNNアーキテクチャをトレーニングする能力が向上した。
Quantization has become increasingly pivotal in addressing the steadily increasing computational and memory requirements of Deep Neural Networks (DNNs). By reducing the number of bits used to represent weights and activations (typically from 32-bit floating-point to 16-bit or 8-bit integers), quantization reduces the memory footprint, energy consumption, and execution time of DNN models. However, traditional quantization methods typically focus on the inference of DNNs, while the training process still relies on floating-point operations. To date, only one work in the literature has addressed integer-only training for Multi-Layer Perceptron (MLP) architectures. This work introduces NITRO-D, a new framework for training arbitrarily deep integer-only Convolutional Neural Networks (CNNs) that operate entirely in the integer-only domain for both training and inference. NITRO-D is the first framework in the literature enabling the training of integer-only CNNs without the need to introduce a quantization scheme. Specifically, NITRO-D introduces a novel architecture integrating multiple integer local-loss blocks, which include the proposed NITRO Scaling Layer and the NITRO-ReLU activation function. Additionally, it introduces a novel integer-only learning algorithm derived from Local Error Signals (LES), utilizing IntegerSGD, an optimizer specifically designed to operate in an integer-only context. NITRO-D is implemented in an open-source Python library. Extensive experimental evaluations demonstrate its effectiveness across several state-of-the-art image recognition datasets. Results show significant performance improvements from 2.47% to 5.96% for integer-only MLP architectures over the state-of-the-art solution, and the capability of training integer-only CNN architectures with minimal accuracy degradation from -0.15% to -4.22% compared to floating-point LES. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# LLMベンチマークは順調か? BenchBench氏によるベンチマーク評価の修正
Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench ( http://arxiv.org/abs/2407.13696v2 ) ライセンス: Link先を確認 | Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen, | (参考訳) 言語モデル(LM)の最近の進歩は、これらのモデルの一般的な能力を評価するために設計された複数のベンチマークの作成を触媒している。
しかし重要な課題は、ベンチマーク自体の有効性を評価することだ。
ベンチマークコンセンサステスト(BAT)では、いくつかの合意基準(ランク相関など)を使用して、確立したベンチマークに対して、新たなベンチマークが検証される。
ベンチマークビルダーやコンシューマーにとって、BATは重要な役割を担っているが、そのような合意テストのための標準化された手順は存在しない。
この欠陥は、無効な結論を導き、ベンチマークにおける不信を育み、適切なベンチマークを適切に選択する能力を高めます。
40以上の著名なベンチマークを解析することにより、見過ごされた方法論の選択がBATの結果に大きく影響し、結論の妥当性を損なう可能性を実証する。
これらの不整合に対処するために,BATのベストプラクティスのセットを提案し,これらの手法を用いることで,BATの堅牢性と妥当性が大幅に向上することを示す。
採用の促進と今後の研究を促進するため,BAT用のピソンパッケージであるBenchBenchを導入し,ベンチマーク評価を目的としたメタベンチマークであるBenchBench- Leaderboardをリリースする。
本研究は,言語モデル研究の進化過程におけるベンチマーク評価の堅牢性と妥当性を保証するため,標準化されたBATの必要性を強調した。
BenchBench Package: github.com/IBM/BenchBench Leaderboard: hf.co/spaces/IBM/BenchBench
Recent advancements in Language Models (LMs) have catalyzed the creation of multiple benchmarks, designed to assess these models' general capabilities. A crucial task, however, is assessing the validity of the benchmarks themselves. This is most commonly done via Benchmark Agreement Testing (BAT), where new benchmarks are validated against established ones using some agreement metric (e.g., rank correlation). Despite the crucial role of BAT for benchmark builders and consumers, there are no standardized procedures for such agreement testing. This deficiency can lead to invalid conclusions, fostering mistrust in benchmarks and upending the ability to properly choose the appropriate benchmark to use. By analyzing over 40 prominent benchmarks, we demonstrate how some overlooked methodological choices can significantly influence BAT results, potentially undermining the validity of conclusions. To address these inconsistencies, we propose a set of best practices for BAT and demonstrate how utilizing these methodologies greatly improves BAT robustness and validity. To foster adoption and facilitate future research,, we introduce BenchBench, a python package for BAT, and release the BenchBench-leaderboard, a meta-benchmark designed to evaluate benchmarks using their peers. Our findings underscore the necessity for standardized BAT, ensuring the robustness and validity of benchmark evaluations in the evolving landscape of language model research. BenchBench Package: github.com/IBM/BenchBench Leaderboard: hf.co/spaces/IBM/BenchBench | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# 量子機械学習の強化:非線形光再生カーネルのパワー
Enhancing Quantum Machine Learning: The Power of Non-Linear Optical Reproducing Kernels ( http://arxiv.org/abs/2407.13809v3 ) ライセンス: Link先を確認 | Shahram Dehdashti, Prayag Tiwari, Kareem H. El Safty, Peter Bruza, Janis Notzel, | (参考訳) 量子機械学習アルゴリズムの配列の中で、量子カーネル法は、主にノイズの多い中間スケールの量子デバイスとの互換性と、量子上の優位性を達成するという約束のために焦点として登場した。
この方法は、データを量子状態で構築された特徴空間に非線形に変換することで、分類および回帰処理を可能にする。
本研究では,Su(2),Su(1, 1)コヒーレント状態,圧縮状態を一般化したKerrコヒーレント状態を用いた新しい特徴空間を提案する。
特に、特徴空間は一定の曲率を示し、Kerrパラメータの符号に依存する球面と双曲幾何学の両方を含む。
顕著なことに、コヒーレント状態に関連する物理的パラメータは、特徴空間の曲率の制御を可能にする。
本研究では、Kerrコヒーレント状態の位相と振幅にデータを符号化したKerrカーネルを用いる。
月から乳がん診断まで,さまざまなデータセットを分析した。
以上の結果から,Kerrコヒーレント状態のロバスト性は,異なるハイパーパラメータを収容する際の柔軟性に起因し,ノイズの多いデータセットやハードウェアセットアップに対して優れた性能を提供する。
Amidst the array of quantum machine learning algorithms, the quantum kernel method has emerged as a focal point, primarily owing to its compatibility with noisy intermediate-scale quantum devices and its promise to achieve quantum advantage. This method operates by nonlinearly transforming data into feature space constructed with quantum states, enabling classification and regression tasks. In this study, we present a novel feature space constructed using Kerr coherent states, which generalize su(2), su(1, 1) coherent states, and squeezed states. Notably, the feature space exhibits constant curvature, comprising both spherical and hyperbolic geometries, depending on the sign of the Kerr parameter. Remarkably, the physical parameters associated with the coherent states, enable control over the curvature of the feature space. Our study employs Kerr kernels derived from encoding data into the phase and amplitude of Kerr coherent states. We analyze various datasets ranging from Moon to breast cancer diagnostics. Our findings demonstrate the robustness of Kerr coherent states, attributed to their flexibility in accommodating different hyperparameters, thereby offering superior performance across noisy datasets and hardware setups. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# 3次元再構成による視覚言語モデルにおける空間推論の強化
I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction ( http://arxiv.org/abs/2407.14133v2 ) ライセンス: Link先を確認 | Zaiqiao Meng, Hao Zhou, Yifang Chen, | (参考訳) 視覚言語モデル(VLM)は、堅牢なマルチモーダル情報統合、視覚的推論機能、文脈認識など、様々なタスク、特に視覚的推論タスクに必須である。
しかしながら、既存の「VLMs{}」の視覚的空間推論能力はしばしば不十分であり、左と右を区別するといった基本的なタスクでも苦労している。
そこで本研究では,VLMSの空間的推論能力を高めるために,このモデルを提案する。
ZeroVLMは、入力画像の異なるビューを取得するための3次元再構成モデルであるZero-1-to-3を採用し、視覚空間推論をさらに改善するためのプロンプト機構を組み込んでいる。
4つの空間的推論データセットによる実験結果から,最大19.48%の精度向上が達成され,ZeroVLMの3次元再構成の有効性と促進機構が示された。
Visual Language Models (VLMs) are essential for various tasks, particularly visual reasoning tasks, due to their robust multi-modal information integration, visual reasoning capabilities, and contextual awareness. However, existing \VLMs{}' visual spatial reasoning capabilities are often inadequate, struggling even with basic tasks such as distinguishing left from right. To address this, we propose the \ours{} model, designed to enhance the visual spatial reasoning abilities of VLMS. ZeroVLM employs Zero-1-to-3, a 3D reconstruction model for obtaining different views of the input images and incorporates a prompting mechanism to further improve visual spatial reasoning. Experimental results on four visual spatial reasoning datasets show that our \ours{} achieves up to 19.48% accuracy improvement, which indicates the effectiveness of the 3D reconstruction and prompting mechanisms of our ZeroVLM. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# トレーディング・デビル・ファイナル:株式市場によるバックドア攻撃とベイズ最適化
Trading Devil Final: Backdoor attack via Stock market and Bayesian Optimization ( http://arxiv.org/abs/2407.14573v5 ) ライセンス: Link先を確認 | Orson Mengara, | (参考訳) 生成人工知能の出現以来、あらゆる企業や研究者が、商業的であろうとなかろうと、独自の生成モデルの開発を急いできた。
これらの強力な新ツールのユーザ数を考えると、LLM(大規模言語モデル)が学習した時に何が起こるかを説明するための、本質的に検証可能な方法は今のところありません。
例えば,Webから収集した膨大な量のデータに頼って高速かつ効率的な結果を得る自動音声認識システムでは,音響データ中毒に基づくMarketBackFinal 2.0と呼ばれるバックドアアタックが開発され,MarketBackFinal 2.0は主に現代の株式市場モデルに基づいている。
LLMに依存する可能性のある音声ベースのトランスフォーマーの脆弱性を示す。
Since the advent of generative artificial intelligence, every company and researcher has been rushing to develop their own generative models, whether commercial or not. Given the large number of users of these powerful new tools, there is currently no intrinsically verifiable way to explain from the ground up what happens when LLMs (large language models) learn. For example, those based on automatic speech recognition systems, which have to rely on huge and astronomical amounts of data collected from all over the web to produce fast and efficient results, In this article, we develop a backdoor attack called MarketBackFinal 2.0, based on acoustic data poisoning, MarketBackFinal 2.0 is mainly based on modern stock market models. In order to show the possible vulnerabilities of speech-based transformers that may rely on LLMs. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# どのような分布をサンプリングしたのか?データのより具体的な概念を目指して
Which distribution were you sampled from? Towards a more tangible conception of data ( http://arxiv.org/abs/2407.17395v3 ) ライセンス: Link先を確認 | Benedikt Höltgen, Robert C. Williamson, | (参考訳) 機械学習の研究は統計学のほとんどと同様に、データ生成確率分布の概念に大きく依存している。
標準的な推定では、データポイントはそのような分布から'サンプリング'されているため、この分布に関する観測データから学習することができ、推定される将来のデータポイントもそこから引き出される。
専門分野にまたがる奨学金に基づいて、我々はこのフレームワークが必ずしも良いモデルであるとは限らないと論じている。
このような真の確率分布は存在しないだけでなく、フレームワークは選択と機械学習の実践で追求された目標の両方を誤解させ、曖昧にすることができる。
抽象分布よりも有限集団に着目した代替フレームワークを提案するが、古典的学習理論はほとんど変化しないが、特にモデルサンプリングにおいて新たな機会が開かれる。
我々はこれらの考察を、生成的分布よりも有限集団で機械学習をモデル化する5つの理由にまとめ、実践に忠実であり、新しい理論的洞察を提供する。
Machine Learning research, as most of Statistics, heavily relies on the concept of a data-generating probability distribution. The standard presumption is that since data points are `sampled from' such a distribution, one can learn from observed data about this distribution and, thus, predict future data points which, it is presumed, are also drawn from it. Drawing on scholarship across disciplines, we here argue that this framework is not always a good model. Not only do such true probability distributions not exist; the framework can also be misleading and obscure both the choices made and the goals pursued in machine learning practice. We suggest an alternative framework that focuses on finite populations rather than abstract distributions; while classical learning theory can be left almost unchanged, it opens new opportunities, especially to model sampling. We compile these considerations into five reasons for modelling machine learning -- in some settings -- with finite populations rather than generative distributions, both to be more faithful to practice and to provide novel theoretical insights. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability
DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability ( http://arxiv.org/abs/2407.18100v3 ) ライセンス: Link先を確認 | Florent Brondolo, Samuel Beaussant, | (参考訳) コンピュータビジョンの最近の進歩は、画像解析タスクを大幅に改善した。
しかし、ディープラーニングモデルは、ドメイン固有のデータが不足している地球科学のような、トレーニングディストリビューション外のドメインに適用する場合に苦労することが多い。
本研究では, 岩石試料のCTスキャン画像の分類, セグメンテーション, 解釈可能性について検討し, 現代のコンピュータビジョン技術の地質学的タスクへの応用に焦点をあてる。
地質画像解析において, その有効性, 効率, 適応性を評価するために, セグメンテーション法の比較を行った。
評価された手法には,10のバイナリ砂岩データセットと3つのマルチクラスカルサイトデータセットを使用した,大津しきい値設定,クラスタリング技術(K平均,ファジィC平均),教師付き機械学習アプローチ(ランダムフォレスト),ディープラーニングモデル(UNet,ResNet152,DINOv2)などがある。
DINOv2は、特徴抽出の有望な結果と、地質学的タスクの潜在的な適用性から選ばれ、CTスキャンした岩石データの解釈可能性と有効性をさらに評価した。
分類において、非微調整のDINOv2は、CTスキャンが元のトレーニングセット外であっても、岩石画像の分類において強い性能を示す。
セグメンテーションタスクでは、しきい値処理とクラスタリング技術は計算効率が良いが、前処理の努力にもかかわらずサブパー結果を生成する。
対照的に、教師付き手法はより良い性能を達成する。
深層学習法は計算資源を多く要求するが、最小限の介入が必要であり、より優れた一般化を提供する。
特に、LORAで微調整されたDINOv2は、分配外セグメンテーションで優れ、限られたデータであっても、マルチクラスのタスクで他のメソッドよりも優れている。
特に、DINOv2によって生成されたセグメンテーションマスクは、視覚検査に基づいて、元のターゲットよりも正確なように見えることが多い。
Recent advancements in computer vision have significantly improved image analysis tasks. Yet, deep learning models often struggle when applied to domains outside their training distribution, such as in geosciences, where domain-specific data can be scarce. This study investigates the classification, segmentation, and interpretability of CT-scan images of rock samples, focusing on the application of modern computer vision techniques to geoscientific tasks. We compare a range of segmentation methods to assess their efficacy, efficiency, and adaptability in geological image analysis. The methods evaluated include Otsu thresholding, clustering techniques (K-means, fuzzy C-means), a supervised machine learning approach (Random Forest), and deep learning models (UNet, ResNet152, and DINOv2), using ten binary sandstone datasets and three multi-class calcite datasets. DINOv2 was selected for its promising results in feature extraction and its potential applicability in geoscientific tasks, prompting further assessment of its interpretability and effectiveness in processing CT-scanned rock data. For classification, a non-fine-tuned DINOv2 demonstrates strong performance in classifying rock images, even when the CT-scans are outside its original training set. In segmentation tasks, thresholding and clustering techniques, though computationally efficient, produce subpar results despite preprocessing efforts. In contrast, supervised methods achieve better performance. While deep learning methods demand greater computational resources, they require minimal intervention and offer superior generalization. A LoRA fine-tuned DINOv2, in particular, excels in out-of-distribution segmentation and outperforms other methods in multi-class tasks, even with limited data. Notably, the segmentation masks generated by DINOv2 often appear more accurate than the original targets, based on visual inspection. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-12 |
# インターリーブ型マルチモーダルシーケンスとしてのビデオコンテキストの学習
Learning Video Context as Interleaved Multimodal Sequences ( http://arxiv.org/abs/2407.21757v2 ) ライセンス: Link先を確認 | Kevin Qinghong Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Zheng Shou, | (参考訳) 映画などのナラティブビデオは、リッチなコンテキスト(キャラクタ、対話、ストーリーライン)と多様な要求(誰、関係、理性)のために、ビデオ理解において重大な課題を提起する。
本稿では,ビデオコンテキスト理解における幅広い課題に対処するために開発されたマルチモーダル言語モデルであるMovieSeqを紹介する。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンス(画像、プロット、ビデオ、サブタイトルを含む)として表現することであり、外部知識データベースをリンクするか、オフラインモデル(サブタイトルのwhisperなど)を使用することで表現します。
インストラクションチューニングにより、インターリーブされたマルチモーダル命令を用いてビデオと対話する言語モデルが強化される。
例えば、入力としてビデオのみに頼るのではなく、名前や対話と共に文字写真を提供し、モデルがこれらの要素を関連付け、より包括的な応答を生成することができる。
その効果を示すため,ビデオ分類,音声記述,ビデオテキスト検索,ビデオキャプション,ビデオ質問応答の6つのデータセット(LVU,MAD,Movienet,CMD,TVC,MovieQA)でMovieSeqの性能を検証した。
コードはhttps://github.com/showlab/MovieSeq.comで公開される。
Narrative videos, such as movies, pose significant challenges in video understanding due to their rich contexts (characters, dialogues, storylines) and diverse demands (identify who, relationship, and reason). In this paper, we introduce MovieSeq, a multimodal language model developed to address the wide range of challenges in understanding video contexts. Our core idea is to represent videos as interleaved multimodal sequences (including images, plots, videos, and subtitles), either by linking external knowledge databases or using offline models (such as whisper for subtitles). Through instruction-tuning, this approach empowers the language model to interact with videos using interleaved multimodal instructions. For example, instead of solely relying on video as input, we jointly provide character photos alongside their names and dialogues, allowing the model to associate these elements and generate more comprehensive responses. To demonstrate its effectiveness, we validate MovieSeq's performance on six datasets (LVU, MAD, Movienet, CMD, TVC, MovieQA) across five settings (video classification, audio description, video-text retrieval, video captioning, and video question-answering). The code will be public at https://github.com/showlab/MovieSeq. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 摂動Floquet-Clifford回路における演算子空間の断片化
Operator space fragmentation in perturbed Floquet-Clifford circuits ( http://arxiv.org/abs/2408.01545v2 ) ライセンス: Link先を確認 | Marcell D. Kovács, Christopher J. Turner, Lluis Masanes, Arijeet Pal, | (参考訳) フロッケ量子回路は、幅広い非平衡量子状態を実現し、量子カオス、トポロジカル秩序、局在を示す。
本研究では,ランダムなフロケ・クリフォード回路における演算子の局所化の安定性とカオスの出現を,クリフォード極限から遠ざかるユニタリ摂動によって検討する。
レンガ加工パターンを用いた最寄りのクリフォード回路を構築し,不規則な非クリフォードゲートの影響について検討する。
摂動は、各キュービットに確率$p$のシングルキュービットユニタリから一様にサンプリングされる。
相互作用モデルでは, 壁面配置の出現により, 作用素空間が非連結領域に分解されることが特徴である0 \le p < 1$に対して, 作用素の強い局所化が示される。
このような壁は、我々が正確に構築した回路に対して、創発的な局所的な運動積分をもたらす。
一般摂動に対する局所化の安定性を解析的に確立し、調整可能な演算子の平均長を$p$で計算する。
我々の回路は任意の二分割で分離できないが、作用素の局所化が絡み合いのボトルネックに繋がることを示す。
最後に、スペクトル形状因子(SFF)を用いて、演算子フラグメントのカオス特性とスペクトル変動を非エルゴディディティのプローブとして特徴付ける。
p = 1$モデルにおいて、断片化時間スケールの出現は、後にSFFが円のユニタリアンサンブルによって近似できるようなランダム行列理論が成立する前に見出される。
我々の研究は、現在のNISQデバイスで実現可能な演算子力学と回路エルゴディディティにおける量子位相の明示的な記述を提供する。
Floquet quantum circuits are able to realise a wide range of non-equilibrium quantum states, exhibiting quantum chaos, topological order and localisation. In this work, we investigate the stability of operator localisation and emergence of chaos in random Floquet-Clifford circuits subjected to unitary perturbations which drive them away from the Clifford limit. We construct a nearest-neighbour Clifford circuit with a brickwork pattern and study the effect of including disordered non-Clifford gates. The perturbations are uniformly sampled from single-qubit unitaries with probability $p$ on each qubit. We show that the interacting model exhibits strong localisation of operators for $0 \le p < 1$ that is characterised by the fragmentation of operator space into disjoint sectors due to the appearance of wall configurations. Such walls give rise to emergent local integrals of motion for the circuit that we construct exactly. We analytically establish the stability of localisation against generic perturbations and calculate the average length of operator spreading tunable by $p$. Although our circuit is not separable across any bi-partition, we further show that the operator localisation leads to an entanglement bottleneck, where initially unentangled states remain weakly entangled across typical fragment boundaries. Finally, we study the spectral form factor (SFF) to characterise the chaotic properties of the operator fragments and spectral fluctuations as a probe of non-ergodicity. In the $p = 1$ model, the emergence of a fragmentation time scale is found before random matrix theory sets in after which the SFF can be approximated by that of the circular unitary ensemble. Our work provides an explicit description of quantum phases in operator dynamics and circuit ergodicity which can be realised on current NISQ devices. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# CNVSRC 2024における視覚音声認識のためのNPU-ASLPシステム記述
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024 ( http://arxiv.org/abs/2408.02369v3 ) ライセンス: Link先を確認 | He Wang, Lei Xie, | (参考訳) 本稿では,NPU-ASLP (Team 237) が導入した2回目の中国連続視覚音声認識チャレンジ (CNVSRC 2024) について述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用されている。
VSRモデルは、統合CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用し、拡張ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、双方向トランスフォーマーデコーダを導入している。
提案手法では, シングルスピーカタスクが30.47%, マルチスピーカタスクが34.30%, シングルスピーカタスクが2位, その他の3トラックが1位となっている。
This paper delineates the visual speech recognition (VSR) system introduced by the NPU-ASLP (Team 237) in the second Chinese Continuous Visual Speech Recognition Challenge (CNVSRC 2024), engaging in all four tracks, including the fixed and open tracks of Single-Speaker VSR Task and Multi-Speaker VSR Task. In terms of data processing, we leverage the lip motion extractor from the baseline1 to produce multiscale video data. Besides, various augmentation techniques are applied during training, encompassing speed perturbation, random rotation, horizontal flipping, and color transformation. The VSR model adopts an end-to-end architecture with joint CTC/attention loss, introducing Enhanced ResNet3D visual frontend, E-Branchformer encoder, and Bi-directional Transformer decoder. Our approach yields a 30.47% CER for the Single-Speaker Task and 34.30% CER for the Multi-Speaker Task, securing second place in the open track of the Single-Speaker Task and first place in the other three tracks. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 浅拡散モデルの潜時可変最適化による反復CT再構成
Iterative CT Reconstruction via Latent Variable Optimization of Shallow Diffusion Models ( http://arxiv.org/abs/2408.03156v2 ) ライセンス: Link先を確認 | Sho Ozaki, Shizuo Kaji, Toshikazu Imae, Kanabu Nawa, Hideomi Yamashita, Keiichi Nakagawa, | (参考訳) 近年,画像生成人工知能(AI)が注目されている。
特に、生成AIのコアコンポーネントである拡散モデルは、豊富な多様性を持つ高品質な画像を生成する。
本研究では,拡散確率モデルと反復CT再構成を組み合わせたCT再構成法を提案する。
従来の研究とは対照的に,画像やモデルパラメータの代わりに拡散モデルの潜在変数に対してCT再構成の忠実度損失を最適化した。
拡散モデルにより生じる解剖構造の変化を抑制するため,拡散および逆過程を浅くし,逆過程に付加した雑音の集合を固定し,推論中に決定的となるようにした。
提案手法の有効性を1/10プロジェクションデータのスパースプロジェクションCT再構成を用いて実証した。
提案手法は, 実装の単純さにもかかわらず, 患者の解剖学的構造を維持しながら高品質な画像の再構成が可能であり, 構造類似度指数やピーク信号-雑音比などの定量的指標から, 反復的再構成, 全変動を伴う反復的再構成, 拡散モデルなど, 既存の手法よりも優れていることがわかった。
また, 同じ訓練拡散モデルを用いた1/20プロジェクションデータを用いて, よりスパースプロジェクションCTの再構成についても検討した。
反復回数が増えるにつれて、画像の画質は1/10スパースCTと同等に向上した。
原理的には、この方法はCTだけでなく、他の画像モダリティにも広く応用できる。
Image-generative artificial intelligence (AI) has garnered significant attention in recent years. In particular, the diffusion model, a core component of generative AI, produces high-quality images with rich diversity. In this study, we proposed a novel computed tomography (CT) reconstruction method by combining the denoising diffusion probabilistic model with iterative CT reconstruction. In sharp contrast to previous studies, we optimized the fidelity loss of CT reconstruction with respect to the latent variable of the diffusion model, instead of the image and model parameters. To suppress the changes in anatomical structures produced by the diffusion model, we shallowed the diffusion and reverse processes and fixed a set of added noises in the reverse process to make it deterministic during the inference. We demonstrated the effectiveness of the proposed method through the sparse-projection CT reconstruction of 1/10 projection data. Despite the simplicity of the implementation, the proposed method has the potential to reconstruct high-quality images while preserving the patient's anatomical structures and was found to outperform existing methods, including iterative reconstruction, iterative reconstruction with total variation, and the diffusion model alone in terms of quantitative indices such as the structural similarity index and peak signal-to-noise ratio. We also explored further sparse-projection CT reconstruction using 1/20 projection data with the same trained diffusion model. As the number of iterations increased, the image quality improved comparable to that of 1/10 sparse-projection CT reconstruction. In principle, this method can be widely applied not only to CT but also to other imaging modalities. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# モデレータ: きめ細かいコンテキストベースのポリシーによるテキスト・画像拡散モデルのモデレーション
Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies ( http://arxiv.org/abs/2408.07728v2 ) ライセンス: Link先を確認 | Peiran Wang, Qiyu Li, Longxuan Yu, Ziyao Wang, Ang Li, Haojian Jin, | (参考訳) ポリシーベースのモデル管理システムであるModeratorは、管理者が細かいコンテンツモデレーションポリシーを指定でき、テキスト・ツー・イメージ(TTI)モデルの重みを変更できる。
関連するコンテキストを考慮せずに概念を学習する既存の汎用モデル編集技術とは対照的に、Moderatorは管理者に対して、どのコンテントを適度に扱うべきか、どのコンテキストの下でどのように調整するか、なぜモデレーションが必要なのかを指定できる。
ポリシーのセットが与えられた後、モデレーターはまずオリジナルのモデルに、適度な画像を生成するように促し、次にこれらの自己生成画像を使用してモデルを逆修正し、モデレーションのためのタスクベクトルを計算し、最後に、元のモデルとタスクベクトルをネゲートして、適度なコンテンツを生成する際のパフォーマンスを低下させる。
私たちはModerratorを14人の参加者で評価し、管理者の役割を担い、約2.29のポリシーイテレーションでユニットテストをパスするために素早く学習し、ポリシーを作成できることがわかった。
安定拡散型ユーザ32名を対象に行った実験では,約65%のユーザが15回の試行で適度なコンテンツの生成を防ぎ,残りのユーザに対して平均8.3倍の望ましくないコンテンツの生成を要求された。
We present Moderator, a policy-based model management system that allows administrators to specify fine-grained content moderation policies and modify the weights of a text-to-image (TTI) model to make it significantly more challenging for users to produce images that violate the policies. In contrast to existing general-purpose model editing techniques, which unlearn concepts without considering the associated contexts, Moderator allows admins to specify what content should be moderated, under which context, how it should be moderated, and why moderation is necessary. Given a set of policies, Moderator first prompts the original model to generate images that need to be moderated, then uses these self-generated images to reverse fine-tune the model to compute task vectors for moderation and finally negates the original model with the task vectors to decrease its performance in generating moderated content. We evaluated Moderator with 14 participants to play the role of admins and found they could quickly learn and author policies to pass unit tests in approximately 2.29 policy iterations. Our experiment with 32 stable diffusion users suggested that Moderator can prevent 65% of users from generating moderated content under 15 attempts and require the remaining users an average of 8.3 times more attempts to generate undesired content. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 閉カオス量子系における「時間関数の狭さ」のエビデンス
Evidence for simple "arrow of time functions" in closed chaotic quantum systems ( http://arxiv.org/abs/2408.08007v2 ) ライセンス: Link先を確認 | Merlin Füllgraf, Jiaozi Wang, Jochen Gemmer, | (参考訳) 明示的な構成により、任意の無限温度自己相関関数 $C(t)$ に関数の集合 $\alpha^n(t)$ を割り当てる。
C(t)$ からの $\alpha^n(t)$ の構成は、$C(t)$ の最初の 2n$ 時間微分を 0$ および $t$ で要求する。
私たちの焦点は$\alpha^n(t)$で、(ほとんど)単調に減少し、これらの ``arrows of Time Function" (AOTFs) と呼ばれます。
低い$n$を特徴とするAOTFは、ある系のパラメータの変動に関して、システムが非カオス的な状態にあるか、あるいは近いかでない限り、常に見つかる。
すべての $\alpha^n(t)$ は各自己相関関数、すなわち $\alpha^n(t) \geq C^2(t)$ に上限を置く。
したがって、AOTFの存在の含意は、平衡への直接的アプローチを示すため、H-定理の含意に匹敵する。
さらに、我々の数値的な発見は、ある程度は作用素の成長仮説に遡ることができると論じる。
この議論は、いわゆる再帰法(recursion method)の枠組みで述べられている。
Through an explicit construction, we assign to any infinite temperature autocorrelation function $C(t)$ a set of functions $\alpha^n(t)$. The construction of $\alpha^n(t)$ from $C(t)$ requires the first $2n$ temporal derivatives of $C(t)$ at times $0$ and $t$. Our focus is on $\alpha^n(t)$ that (almost) monotonously decrease, we call these ``arrows of time functions" (AOTFs). For autocorrelation functions of few body observables we numerically observe the following: An AOTF featuring a low $n$ may always be found unless the the system is in or close to a nonchaotic regime with respect to a variation of some system parameter. All $\alpha^n(t)$ put upper bounds to the respective autocorrelation functions, i.e. $\alpha^n(t) \geq C^2(t)$. Thus the implication of the existence of an AOTF is comparable to that of the H-Theorem, as it indicates a directed approach to equilibrium. We furthermore argue that our numerical finding may to some extent be traced back to the operator growth hypothesis. This argument is laid out in the framework of the so-called recursion method. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 化粧品皮膚症に対する顔面神経根切開術 : テクスチャーマップに基づく弱視による前向きトレーニング
Facial Wrinkle Segmentation for Cosmetic Dermatology: Pretraining with Texture Map-Based Weak Supervision ( http://arxiv.org/abs/2408.10060v2 ) ライセンス: Link先を確認 | Junho Moon, Haejun Chung, Ikbeom Jang, | (参考訳) 顔のしわ検出は美容皮膚学において重要な役割を担っている。
顔のしわの精密な手作業分割は困難で時間を要するが,本質的な主観性は小学生の間に矛盾する結果をもたらす。
この問題に対処するため、我々は2つの解決策を提案する。
まず、NVIDIA FFHQデータセットの拡張である、最初の公開顔しわデータセット 'FFHQ-Wrinkle' を構築し、リリースします。
人間のラベル付き1000枚の画像と、自動生成された弱いラベル付き5万枚の画像が含まれている。
このデータセットは、研究コミュニティが高度なしわ検出アルゴリズムを開発する基盤となる可能性がある。
第2に,様々なセグメンテーションモデルに適用可能なテクスチャマップを用いた簡単なトレーニング手法を導入し,顔のしわを検出する。
我々の2段階のトレーニング戦略は、まず、弱いラベル(N=50k)を持つ大きなデータセット上の事前トレーニングモデル、またはコンピュータビジョン技術によって生成されるマスク付きテクスチャマップを人間の介入なしに作成する。
次に、手動でラベル付けされた輪郭マスクからなる人間ラベル付きデータ(N=1k)を用いてモデルを微調整する。
ネットワークは、4つのチャンネルからなる画像のRGBとマスクされたテクスチャマップの組み合わせを微調整で入力する。
手動ラベリングにおいて、複数のアノテータのラベルを効果的に組み合わせ、主観性を最小化する。
本手法は,既存の事前訓練法と比較して,顔のひび割れのセグメンテーションにおけるセグメンテーション性能を定量的および視覚的に向上させるものである。
データセットはhttps://github.com/labhai/ffhq-wrinkle-datasetで公開されている。
Facial wrinkle detection plays a crucial role in cosmetic dermatology. Precise manual segmentation of facial wrinkles is challenging and time-consuming, with inherent subjectivity leading to inconsistent results among graders. To address this issue, we propose two solutions. First, we build and release the first public facial wrinkle dataset, 'FFHQ-Wrinkle', an extension of the NVIDIA FFHQ dataset. It includes 1,000 images with human labels and 50,000 images with automatically generated weak labels. This dataset could serve as a foundation for the research community to develop advanced wrinkle detection algorithms. Second, we introduce a simple training strategy utilizing texture maps, applicable to various segmentation models, to detect wrinkles across the face. Our two-stage training strategy first pretrain models on a large dataset with weak labels (N=50k), or masked texture maps generated through computer vision techniques, without human intervention. We then finetune the models using human-labeled data (N=1k), which consists of manually labeled wrinkle masks. The network takes as input a combination of RGB and masked texture map of the image, comprising four channels, in finetuning. We effectively combine labels from multiple annotators to minimize subjectivity in manual labeling. Our strategies demonstrate improved segmentation performance in facial wrinkle segmentation both quantitatively and visually compared to existing pretraining methods. The dataset is available at https://github.com/labhai/ffhq-wrinkle-dataset. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# GACL:時間的QoS予測のためのグラフ注意協調学習
GACL: Graph Attention Collaborative Learning for Temporal QoS Prediction ( http://arxiv.org/abs/2408.10555v2 ) ライセンス: Link先を確認 | Shengxiang Hu, Guobing Zou, Bofeng Zhang, Shaogang Wu, Shiyi Lin, Yanglan Gan, Yixin Chen, | (参考訳) 時間的QoSの正確な予測は、動的サービス指向環境におけるサービスの信頼性の維持とユーザ満足度の向上に不可欠である。
しかし、現在の手法では、高次の遅延的な協調関係を無視し、特定のユーザ・サービス呼び出しに対して機能学習を動的に調整することができないことが多い。
さらに、時間的特徴進化パターンのモデル化におけるRNNの利用は、長期依存の管理に固有の困難さによって制限されており、これにより、複数時間スライスにわたる長期QoSトレンドの検出が制限される。
これらの欠点は、時間的QoS予測の性能を劇的に低下させる。
この2つの問題に対処するために、時間的QoS予測のための新しいグラフ注意協調学習(GACL)フレームワークを提案する。
歴史的インタラクションを包括的にモデル化するための動的ユーザサービス呼び出しグラフに基づいて,ユーザとサービスの各スライス時の深い潜伏した特徴を,暗黙の目標近傍の協調関係と過去のQoS値を考慮して抽出する,ターゲットプロンプトグラフアテンションネットワークを設計する。
さらに、時間的特徴進化パターンを明らかにするために、多層トランスフォーマーエンコーダを導入し、時間的QoS予測を強化した。
WS-DREAMデータセットの大規模な実験により、GACLは複数の評価指標で時間的QoS予測の最先端の手法を大幅に上回っており、最大38.80%の改善が達成されている。
Accurate prediction of temporal QoS is crucial for maintaining service reliability and enhancing user satisfaction in dynamic service-oriented environments. However, current methods often neglect high-order latent collaborative relationships and fail to dynamically adjust feature learning for specific user-service invocations, which are critical for precise feature extraction within each time slice. Moreover, the prevalent use of RNNs for modeling temporal feature evolution patterns is constrained by their inherent difficulty in managing long-range dependencies, thereby limiting the detection of long-term QoS trends across multiple time slices. These shortcomings dramatically degrade the performance of temporal QoS prediction. To address the two issues, we propose a novel Graph Attention Collaborative Learning (GACL) framework for temporal QoS prediction. Building on a dynamic user-service invocation graph to comprehensively model historical interactions, it designs a target-prompt graph attention network to extract deep latent features of users and services at each time slice, considering implicit target-neighboring collaborative relationships and historical QoS values. Additionally, a multi-layer Transformer encoder is introduced to uncover temporal feature evolution patterns, enhancing temporal QoS prediction. Extensive experiments on the WS-DREAM dataset demonstrate that GACL significantly outperforms state-of-the-art methods for temporal QoS prediction across multiple evaluation metrics, achieving the improvements of up to 38.80%. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# SparseGrow: タスク非依存型継続的学習における成長誘導型学習への取り組み
SparseGrow: Addressing Growth-Induced Forgetting in Task-Agnostic Continual Learning ( http://arxiv.org/abs/2408.10566v3 ) ライセンス: Link先を確認 | Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song, | (参考訳) 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、成長によって引き起こされる忘れ(GIFt)と呼ばれる、未学習の知識を著しく劣化させる可能性がある。
既存の研究は、モデル成長と適応性の向上のためにランダム初期化を採用するが、不適切なモデル成長によって引き起こされるGIFtの存在を認識できないことが多い。
この監視は、忘れることの包括的な制御を制限し、モデル成長の完全な利用を妨げる。
我々は、この問題を最初に特定し、GIFtの根本原因について詳細な研究を行い、モデル成長戦略の中で層拡大が際立っており、モデル機能に影響を与えない層を広げている。
しかし、レイヤー拡張の直接的な採用は課題を呈している。
データ駆動制御と、適応性と知識保持のバランスをとるために拡張されたパラメータの初期化が欠けている。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
SparseGrowはデータ駆動のスパース層拡張を使用して、成長中の効率的なパラメータ使用量を制御し、過剰な成長と機能変更からGIFtを削減する。
また、トレーニング後期におけるスパース成長とオンデータ初期化を組み合わせて、学習された分散に適合し、保持性と適応性を高める、部分的に0値の拡張を生成します。
さらに忘れるのを最小にするため、スパースマスクを計算し、重要なパラメータのデータ駆動保存を可能にする。
さまざまな設定やケース,タスク番号を持つデータセットを対象とした実験を通じて,レイヤ拡張の必要性を実証し,GIFtを克服する上でのSparseGrowの有効性を示し,インクリメンタルタスクへの適応性と知識保持を強調した。
In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 大規模教師モデルによるリアルタイムセグメンテーションによるUAVの山火事検出
Detecting Wildfires on UAVs with Real-time Segmentation Trained by Larger Teacher Models ( http://arxiv.org/abs/2408.10843v2 ) ライセンス: Link先を確認 | Julius Pesonen, Teemu Hakala, Väinö Karjalainen, Niko Koivumäki, Lauri Markelin, Anna-Maria Raita-Hakola, Juha Suomalainen, Ilkka Pölönen, Eija Honkavaara, | (参考訳) 森林火災の早期発見は、大規模な火災が大規模な環境、構造、社会的な被害をもたらすのを防ぐために不可欠である。
無人航空機(UAV)は、インフラを最小限にし、小さなカメラとコンピュータを装備することで、自律的なリアルタイム検出を可能にする。
しかし、遠隔地では、高帯域幅のモバイルネットワークが欠如しているため、UAVは検出のためのオンボードコンピューティングに限られている。
これにより、検出はオンボードコンピュータだけで十分軽量な方法に制限される。
検出した煙のセグメンテーションは,カメラによる正確な位置決めには不可欠であるが,深層学習に基づく山火事セグメンテーションのトレーニングデータは限られている。
本研究は、ゼロショット基礎モデル監督を利用して、境界ボックスラベルのみを用いて、小さなセグメンテーションモデルをトレーニングする方法を示す。
この方法は、比較的容易に入手可能なバウンディングボックスラベルしか必要とせず、より小さな学生ネットワークのためにのみトレーニングを必要とするという利点を提供する。
提案手法は手動で注釈付き多様な山火事データセットで63.3% mIoUを達成した。
使用済みモデルは、UAV搭載のNVIDIA Jetson Orin NXコンピュータで25fps程度でリアルタイムに動作し、煙を確実に認識する。
コードはhttps://gitlab.com/fgi_nls/public/wildfire-real-time-segmentationで入手できる。
Early detection of wildfires is essential to prevent large-scale fires resulting in extensive environmental, structural, and societal damage. Uncrewed aerial vehicles (UAVs) can cover large remote areas effectively with quick deployment requiring minimal infrastructure and equipping them with small cameras and computers enables autonomous real-time detection. In remote areas, however, the UAVs are limited to on-board computing for detection due to the lack of high-bandwidth mobile networks. This limits the detection to methods which are light enough for the on-board computer alone. For accurate camera-based localisation, segmentation of the detected smoke is essential but training data for deep learning-based wildfire smoke segmentation is limited. This study shows how small specialised segmentation models can be trained using only bounding box labels, leveraging zero-shot foundation model supervision. The method offers the advantages of needing only fairly easily obtainable bounding box labels and requiring training solely for the smaller student network. The proposed method achieved 63.3% mIoU on a manually annotated and diverse wildfire dataset. The used model can perform in real-time at ~25 fps with a UAV-carried NVIDIA Jetson Orin NX computer while reliably recognising smoke, demonstrated at real-world forest burning events. Code is available at https://gitlab.com/fgi_nls/public/wildfire-real-time-segmentation | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# 持続可能なコンプライアンスを解き放つ:EUのビジネスプロセス管理の分類を特徴づける
Unlocking Sustainability Compliance: Characterizing the EU Taxonomy for Business Process Management ( http://arxiv.org/abs/2408.11386v2 ) ライセンス: Link先を確認 | Finn Klessascheck, Stephan A. Fahrenkrog-Petersen, Jan Mendling, Luise Pufahl, | (参考訳) 持続可能なビジネス慣行を推進し、2050年までに気候中立を達成するため、EUは持続可能な活動の分類法を開発し、それが持続可能なビジネス慣行と正確にみなすことができるかを記述した。
分類が最近定着したのはごく最近だが、今後ますます多くの企業が、持続的に実行されたビジネスプロセスを通じて、収益のどれだけが生み出されたかを報告しなければならない。
企業において, プロセスが分類基準に規定された制約に適合するかどうかを評価するために, これらの基準がどの程度データ駆動方式で, ビジネスプロセス実行が規制制約に適合しているかを評価することができるかを検討する。
そこで我々は,LLMの助けを借りて分類学の制約を特徴付ける,数発の学習パイプラインを開発した。
分類学の制約の多くは、特にエネルギー、製造、輸送の分野において、適合性チェックに利用できる。
これにより、企業は、分類に関する規制の遵守を自動で監視し、どのような情報を抽出する必要があるのかを特徴付けるとともに、そのような評価が実現可能で、どこがそうでないのかをよりよく理解することが可能になる。
To promote sustainable business practices, and to achieve climate neutrality by 2050, the EU has developed the taxonomy of sustainable activities, which describes when exactly business practices can be considered sustainable. While the taxonomy has only been recently established, progressively more companies will have to report how much of their revenue was created via sustainably executed business processes. To help companies prepare to assess whether their business processes comply with the constraints outlined in the taxonomy, we investigate in how far these criteria can be used for conformance checking, that is, assessing in a data-driven manner, whether business process executions adhere to regulatory constraints. For this, we develop a few-shot learning pipeline to characterize the constraints of the taxonomy with the help of an LLM as to the process dimensions they relate to. We find that many constraints of the taxonomy are useable for conformance checking, particularly in the sectors of energy, manufacturing, and transport. This will aid companies in preparing to monitor regulatory compliance with the taxonomy automatically, by characterizing what kind of information they need to extract, and by providing a better understanding of sectors where such an assessment is feasible and where it is not. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-12 |
# Linuxのフリーズパッケージバージョンがもたらす影響の解明と軽減
Uncovering and Mitigating the Impact of Frozen Package Versions for Fixed-Release Linux ( http://arxiv.org/abs/2408.11631v2 ) ライセンス: Link先を確認 | Wei Tang, Zhengzi Xu, Chengwei Liu, Ping Luo, Yang Liu, | (参考訳) ミラーの進化によって生じる固定リリースLinuxのエコシステムギャップを理解するために,Debianエコシステムを包括的に研究した。
この研究はDebianパッケージの収集とDebianエコシステムの依存性グラフの構築に関わっている。
Debianミラーの歴史的なスナップショットを利用して、古いものを含むすべてのDebianリリースの依存性グラフの進化を回復しました。
依存グラフの分析とその進化を通じて,(1)互換性問題と(2)Debianエコシステムにおけるセキュリティ脅威という2つの重要な側面から検討した。
この結果から,Linuxパッケージマネージャの利用と設計に関する貴重な知見が得られた。
実験的な研究で明らかになった課題に対処し、リリース間のエコシステムギャップを埋めるため、ネイティブDebianミラーに基づいた依存関係環境の分離を可能にする新しいパッケージ管理手法を提案する。
我々は、現在のツールの不十分さを効果的に改善できる、ccenvという名の作業プロトタイプを提示する。
Towards understanding the ecosystem gap of fixed-release Linux that is caused by the evolution of mirrors, we conducted a comprehensive study of the Debian ecosystem. This study involved the collection of Debian packages and the construction of the dependency graph of the Debian ecosystem. Utilizing historic snapshots of Debian mirrors, we were able to recover the evolution of the dependency graph for all Debian releases, including obsolete ones. Through the analysis of the dependency graph and its evolution, we investigated from two key aspects: (1) compatibility issues and (2) security threats in the Debian ecosystem. Our findings provide valuable insights into the use and design of Linux package managers. To address the challenges revealed in the empirical study and bridge the ecosystem gap between releases, we propose a novel package management approach allowing for separate dependency environments based on native Debian mirrors. We present a working prototype, named ccenv, which can effectively remedy the inadequacy of current tools. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# 住宅再配置のためのLLM強化シーングラフ学習
LLM-enhanced Scene Graph Learning for Household Rearrangement ( http://arxiv.org/abs/2408.12093v2 ) ライセンス: Link先を確認 | Wenhao Li, Zhiyuan Yu, Qijin She, Zhinan Yu, Yuqing Lan, Chenyang Zhu, Ruizhen Hu, Kai Xu, | (参考訳) 住宅再配置作業は、場所を間違えた物体を現場に配置し、適切な場所に収容することである。
客観的側面の常識知識と主観的側面の人間の嗜好の両方に依存する。
このような課題を達成するために,人間の介入に頼ることなく,シーンから直接,ユーザの好みのアライメントでオブジェクト機能をマイニングすることを提案する。
そこで我々は,シーングラフ表現を用いて,入力シーングラフを情報強化ノードと新たに発見されたエッジ(関係)を備えたアベイランス強化グラフ(AEG)に変換するLLM強化シーングラフ学習を提案する。
AEGでは、レセプタクルオブジェクトに対応するノードは、その上にどのようなキャリヤブルオブジェクトを配置できるかをエンコードするコンテキスト依存のアベイランスで拡張される。
新しい縁は、新たに発見された非局所的な関係によって発見される。
AEGでは,不適切なキャリブルを検出し,それぞれに適切な配置を決定することで,シーン再構成のためのタスクプランニングを行う。
提案手法は,シミュレータに階層型ロボットを実装してテストし,新しいベンチマークで評価を行う。
大規模評価の結果,提案手法は誤り検出および次回の再配置計画における最先端性能を実現する。
The household rearrangement task involves spotting misplaced objects in a scene and accommodate them with proper places. It depends both on common-sense knowledge on the objective side and human user preference on the subjective side. In achieving such task, we propose to mine object functionality with user preference alignment directly from the scene itself, without relying on human intervention. To do so, we work with scene graph representation and propose LLM-enhanced scene graph learning which transforms the input scene graph into an affordance-enhanced graph (AEG) with information-enhanced nodes and newly discovered edges (relations). In AEG, the nodes corresponding to the receptacle objects are augmented with context-induced affordance which encodes what kind of carriable objects can be placed on it. New edges are discovered with newly discovered non-local relations. With AEG, we perform task planning for scene rearrangement by detecting misplaced carriables and determining a proper placement for each of them. We test our method by implementing a tiding robot in simulator and perform evaluation on a new benchmark we build. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on misplacement detection and the following rearrangement planning. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# 参照動作アライメントを用いた動的タンパク質構造予測のための4次元拡散
4D Diffusion for Dynamic Protein Structure Prediction with Reference Guided Motion Alignment ( http://arxiv.org/abs/2408.12419v2 ) ライセンス: Link先を確認 | Kaihui Cheng, Ce Liu, Qingkun Su, Jun Wang, Liwei Zhang, Yining Tang, Yao Yao, Siyu Zhu, Yuan Qi, | (参考訳) タンパク質の構造予測は、タンパク質の構造と機能の関係を理解し、生物学的研究を進め、医薬品開発と実験設計を促進するために重要である。
深層学習法と実験的な3Dタンパク質構造の拡張は構造予測を加速させてきたが、タンパク質構造の動的性質は限定的に注目されている。
本研究では分子動力学(MD)シミュレーションデータを用いた動的タンパク質構造学習のための革新的4次元拡散モデルを提案する。
提案手法は,(1)バックボーンと側鎖の両方を含む動的タンパク質構造を生成可能な統一拡散モデル,(2)初期3次元タンパク質構造の潜伏埋め込みを統合することで構造整合性を高める参照ネットワーク,(3)複数の時間ステップで時間的構造整合性を改善することを目的とした運動アライメントモジュールによって特徴付けられる。
我々の知る限り、これはタンパク質の軌道を複数の時間ステップで同時に予測することを目的とした初めての拡散モデルである。
ベンチマークデータセットの検証により,32時間で最大256個のアミノ酸を含むタンパク質の動的3次元構造を予測し,局所的な安定性と構造変化を効果的に捉えた。
Protein structure prediction is pivotal for understanding the structure-function relationship of proteins, advancing biological research, and facilitating pharmaceutical development and experimental design. While deep learning methods and the expanded availability of experimental 3D protein structures have accelerated structure prediction, the dynamic nature of protein structures has received limited attention. This study introduces an innovative 4D diffusion model incorporating molecular dynamics (MD) simulation data to learn dynamic protein structures. Our approach is distinguished by the following components: (1) a unified diffusion model capable of generating dynamic protein structures, including both the backbone and side chains, utilizing atomic grouping and side-chain dihedral angle predictions; (2) a reference network that enhances structural consistency by integrating the latent embeddings of the initial 3D protein structures; and (3) a motion alignment module aimed at improving temporal structural coherence across multiple time steps. To our knowledge, this is the first diffusion-based model aimed at predicting protein trajectories across multiple time steps simultaneously. Validation on benchmark datasets demonstrates that our model exhibits high accuracy in predicting dynamic 3D structures of proteins containing up to 256 amino acids over 32 time steps, effectively capturing both local flexibility in stable states and significant conformational changes. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# Show-o:マルチモーダル理解と生成を統一するシングルトランス
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v4 ) ライセンス: Link先を確認 | Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, | (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。
様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。
これは次世代のファウンデーションモデルとしての可能性を著しく強調している。
コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。
We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# 信頼できる、責任があり、安全なAI: チャレンジと軽減を伴うAI安全のための総合的なアーキテクチャフレームワーク
Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations ( http://arxiv.org/abs/2408.12935v2 ) ライセンス: Link先を確認 | Chen Chen, Ziyao Liu, Weifeng Jiang, Si Qi Goh, Kwok-Yan Lam, | (参考訳) AI安全性は、AIシステムの安全な採用とデプロイにおいて重要な領域である。
AIの急速な普及、特に最近のジェネレーティブAI(またはGAI)の進歩により、AIシステムの設計、開発、導入、デプロイを支える技術エコシステムは大きく変化し、公安と国家安全保障への影響に対処するAI安全の範囲が拡大した。
本稿では,AI安全性の理解と分析のための新しいアーキテクチャフレームワークを提案し,その特徴を3つの観点から定義する。
これらの観点から、AIの安全性に関する現在の研究と進歩を幅広くレビューし、主要な課題と緩和アプローチを強調します。
最先端技術、特にLarge Language Models(LLM)の例を通して、AI安全性を設計、テストするための革新的なメカニズム、方法論、技術を提示します。
私たちの目標は、AI安全研究の進歩を促進し、究極的には、デジタルトランスフォーメーションに対する人々の信頼を高めることです。
AI Safety is an emerging area of critical importance to the safe adoption and deployment of AI systems. With the rapid proliferation of AI and especially with the recent advancement of Generative AI (or GAI), the technology ecosystem behind the design, development, adoption, and deployment of AI systems has drastically changed, broadening the scope of AI Safety to address impacts on public safety and national security. In this paper, we propose a novel architectural framework for understanding and analyzing AI Safety; defining its characteristics from three perspectives: Trustworthy AI, Responsible AI, and Safe AI. We provide an extensive review of current research and advancements in AI safety from these perspectives, highlighting their key challenges and mitigation approaches. Through examples from state-of-the-art technologies, particularly Large Language Models (LLMs), we present innovative mechanism, methodologies, and techniques for designing and testing AI safety. Our goal is to promote advancement in AI safety research, and ultimately enhance people's trust in digital transformation. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# DrugAgent: 大規模言語モデルに基づく推論による説明可能な薬物再資源化剤
DrugAgent: Explainable Drug Repurposing Agent with Large Language Model-based Reasoning ( http://arxiv.org/abs/2408.13378v2 ) ライセンス: Link先を確認 | Yoshitaka Inoue, Tianci Song, Tianfan Fu, | (参考訳) 薬物再資源化は、既存の薬物の新しい治療の可能性を特定することによって、薬物開発を加速するための有望な道を提供する。
本稿では,最先端の機械学習技術と知識統合を用いた医薬品再調達プロセスを強化するためのマルチエージェントフレームワークを提案する。
AIエージェントは、ロバストドラッグ・ターゲット・インタラクション(DTI)モデル、知識グラフエージェントは、ドラッグ・ジェネティック・インタラクション・データベース(DGIdb)、ドラッグバンク、比較トキシコゲノミクス・データベース(CTD)、および化学の相互作用のための検索ツール(STITCH)を使用して、DTIを体系的に抽出し、検索エージェントはバイオメディカル文献と相互作用して、計算予測を注釈し、検証する。
これらのエージェントからの出力を統合することで、外部データベースを含む多様なデータソースを効果的に活用し、実行可能な再資源化候補を提案する。
薬物と薬物の相互作用を予測できるだけでなく、従来の薬物発見手法にかかわる時間とコストを削減できる可能性を示す予備的な研究結果が得られた。
本稿では, バイオメディカル研究におけるマルチエージェントシステムのスケーラビリティと, 薬物再資源化におけるイノベーションの推進における役割について述べる。
提案手法は, 薬物再資源化の可能性を予測する既存の手法に勝るだけでなく, より効率的かつ費用対効果の高い薬物発見プロセスの道を開くことができる。
Drug repurposing offers a promising avenue for accelerating drug development by identifying new therapeutic potentials of existing drugs. In this paper, we propose a multi-agent framework to enhance the drug repurposing process using state-of-the-art machine learning techniques and knowledge integration. Our framework comprises several specialized agents: an AI Agent trains robust drug-target interaction (DTI) models; a Knowledge Graph Agent utilizes the drug-gene interaction database (DGIdb), DrugBank, Comparative Toxicogenomics Database (CTD), and Search Tool for Interactions of Chemicals (STITCH) to systematically extract DTIs; and a Search Agent interacts with biomedical literature to annotate and verify computational predictions. By integrating outputs from these agents, our system effectively harnesses diverse data sources, including external databases, to propose viable repurposing candidates. Preliminary results demonstrate the potential of our approach in not only predicting drug-disease interactions but also in reducing the time and cost associated with traditional drug discovery methods. This paper highlights the scalability of multi-agent systems in biomedical research and their role in driving innovation in drug repurposing. Our approach not only outperforms existing methods in predicting drug repurposing potential but also provides interpretable results, paving the way for more efficient and cost-effective drug discovery processes. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# NV中心アンサンブル型磁気センサのブループリント-ダイヤモンドセンサの精密特性評価
Blueprint for NV center ensemble based magnetometer: precise diamond sensor material characterization ( http://arxiv.org/abs/2408.14318v2 ) ライセンス: Link先を確認 | Jixing Zhang, Michael Kuebler, Cheuk Kit Cheung, Magnus Benke, Mathis Brossaud, Andrej Denisenko, Jens Anders, Emilio Corcione, Cristina Tarín Sauer, Junichi Isoya, Chen Zhang, Joerg Wrachtrup, | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシングのような様々な量子応用の候補である。
高感度のNV系磁気センサは、高密度のNV中心と長い電子スピンの脱落時間を持つダイヤモンドサンプルを必要とする。
本研究では,NV中心アンサンブルの電子スピン脱落時間を決定するための系統的測定法を提案し,NV-NV相互作用,ひずみ分布,$^{13}C$核スピン,P1電子スピンなど,様々な源からの脱落時間に対する寄与を分析する。
提案手法の有効性を一連の高性能ダイヤモンド試料に示すとともに,劣化源の包括的理解を提供し,NVベースの量子センシングアプリケーションの最適化を可能にする。
The nitrogen-vacancy (NV) center in diamond is a promising candidate for various quantum applications, such as quantum sensing. High sensitivity in NV-based magnetic sensing requires a diamond sample with a high density of NV centers and a long electron spin dephasing time. In this work, we propose a systematic measurement method for determining the electron spin dephasing time of NV center ensembles and analyze the contributions to the dephasing time from various sources, including NV-NV interactions, strain distribution, $^{13}C$ nuclear spin, and P1 electron spin. We demonstrate the effectiveness of our method on a series of high-performance diamond samples and provide a comprehensive understanding of dephasing sources, enabling the optimization of NV-based quantum sensing applications. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# GSIFN:マルチモーダル感性解析のためのグラフ構造化・介在型マルチモーダルトランスベースフュージョンネットワーク
GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2408.14809v2 ) ライセンス: Link先を確認 | Yijie Jin, | (参考訳) マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
しかし、主な課題は2つある。
(i) 既存の多モード核融合法において、モーダル結合と膨大なパラメータ冗長性の分離は、核融合性能と効率を低下させる。
(II) 単一特徴抽出器とエンコーダにおける表現能力と計算オーバーヘッドとの間には、困難なトレードオフが存在する。
提案するGSIFNには2つの主成分が組み込まれている。
(i)グラフ構造化・インターレース化マルチモーダルトランス。
これはInterlaced Maskメカニズムを採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
(II) 計算オーバーヘッドの少ない自己教師あり学習フレームワークで, 並列化LSTMと行列メモリを併用し, ラベル生成のための非言語的モーダル特性を向上する。
MSAデータセットであるCMU-MOSI、CMU-MOSEI、CH-SIMSに基づいて評価した結果、GSIFNは従来の最先端モデルに比べて計算オーバーヘッドが大幅に低い性能を示した。
Multimodal Sentiment Analysis (MSA) leverages multiple data modals to analyze human sentiment. Existing MSA models generally employ cutting-edge multimodal fusion and representation learning-based methods to promote MSA capability. However, there are two key challenges: (i) in existing multimodal fusion methods, the decoupling of modal combinations and tremendous parameter redundancy, lead to insufficient fusion performance and efficiency; (ii) a challenging trade-off exists between representation capability and computational overhead in unimodal feature extractors and encoders. Our proposed GSIFN incorporates two main components to solve these problems: (i) a graph-structured and interlaced-masked multimodal Transformer. It adopts the Interlaced Mask mechanism to construct robust multimodal graph embedding, achieve all-modal-in-one Transformer-based fusion, and greatly reduce the computational overhead; (ii) a self-supervised learning framework with low computational overhead and high performance, which utilizes a parallelized LSTM with matrix memory to enhance non-verbal modal features for unimodal label generation. Evaluated on the MSA datasets CMU-MOSI, CMU-MOSEI, and CH-SIMS, GSIFN demonstrates superior performance with significantly lower computational overhead compared with previous state-of-the-art models. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# DEAR:depth-Enhanced Action Recognition
DEAR: Depth-Enhanced Action Recognition ( http://arxiv.org/abs/2408.15679v2 ) ライセンス: Link先を確認 | Sadegh Rahmaniboldaji, Filip Rybansky, Quoc Vuong, Frank Guerin, Andrew Gilbert, | (参考訳) ビデオ中のアクション、特に散らかったシーンにおける検出は、カメラの観点からの2Dフレーム分析の限界により、大きな課題を生んでいる。
3次元理解の恩恵を受ける人間の視覚とは異なり、そのような環境における行動を認識することは困難である。
本研究では,3次元特徴と深度マップをRGB特徴と組み合わせ,行動認識の精度を高める新しいアプローチを提案する。
提案手法では,RGB機能エンコーダとは別個のブランチを通じて推定深度マップを処理し,そのシーンや動作を包括的に理解するために特徴を融合させる。
空間特徴抽出にCLIPとVisionMambaを併用したSide4VideoフレームワークとVideoMambaを用いて,Side4VideoネットワークをSomething V2データセット上で実装した。
私たちのコードは、https://github.com/SadeghRahmaniB/DEARで利用可能です。
Detecting actions in videos, particularly within cluttered scenes, poses significant challenges due to the limitations of 2D frame analysis from a camera perspective. Unlike human vision, which benefits from 3D understanding, recognizing actions in such environments can be difficult. This research introduces a novel approach integrating 3D features and depth maps alongside RGB features to enhance action recognition accuracy. Our method involves processing estimated depth maps through a separate branch from the RGB feature encoder and fusing the features to understand the scene and actions comprehensively. Using the Side4Video framework and VideoMamba, which employ CLIP and VisionMamba for spatial feature extraction, our approach outperformed our implementation of the Side4Video network on the Something-Something V2 dataset. Our code is available at: https://github.com/SadeghRahmaniB/DEAR | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# BEVal: 自動運転のためのBEVセグメンテーションモデルのクロスデータセット評価
BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autonomous Driving ( http://arxiv.org/abs/2408.16322v3 ) ライセンス: Link先を確認 | Manuel Alejandro Diaz-Zapata, Wenqian Liu, Robin Baruffa, Christian Laugier, | (参考訳) 自律運転のためのセマンティック・バードズ・アイ・ビュー・セグメンテーションの現在の研究は、単一のデータセット(典型的にはnuScenes)を使用してニューラルネットワークモデルを最適化することに集中している。
このプラクティスは、異なる環境やセンサーのセットアップに直面したときに失敗する可能性のある、高度に専門化されたモデルの開発につながります。
本稿では,最新のBEVセグメンテーションモデルを包括的にクロスデータセットで評価し,異なるトレーニングとテストデータセット,セットアップ,および異なるセマンティックカテゴリ間での性能を評価する。
本稿では,カメラやLiDARなどの異なるセンサが,モデルが様々な状況やシナリオに一般化する能力に与える影響について検討する。
さらに,モデルにおけるBEVセグメンテーション性能を,シングルデータセットトレーニングと比較して向上させるマルチデータセットトレーニング実験を実施している。
我々の研究は、データセット間の検証の下でのBEVセグメンテーションモデルの評価におけるギャップに対処する。
また,より堅牢で信頼性の高いBEVセグメンテーションアプローチを自律運転アプリケーションに適用するために,モデル一般化可能性と適応性を高めることの重要性を強調した。
この論文のコードはhttps://github.com/manueldiaz96/beval で公開されている。
Current research in semantic bird's-eye view segmentation for autonomous driving focuses solely on optimizing neural network models using a single dataset, typically nuScenes. This practice leads to the development of highly specialized models that may fail when faced with different environments or sensor setups, a problem known as domain shift. In this paper, we conduct a comprehensive cross-dataset evaluation of state-of-the-art BEV segmentation models to assess their performance across different training and testing datasets and setups, as well as different semantic categories. We investigate the influence of different sensors, such as cameras and LiDAR, on the models' ability to generalize to diverse conditions and scenarios. Additionally, we conduct multi-dataset training experiments that improve models' BEV segmentation performance compared to single-dataset training. Our work addresses the gap in evaluating BEV segmentation models under cross-dataset validation. And our findings underscore the importance of enhancing model generalizability and adaptability to ensure more robust and reliable BEV segmentation approaches for autonomous driving applications. The code for this paper available at https://github.com/manueldiaz96/beval . | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# MAPF-GPT:マルチエージェントパスフィニングにおけるシミュレーション学習
MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale ( http://arxiv.org/abs/2409.00134v2 ) ライセンス: Link先を確認 | Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik, | (参考訳) MAPF(Multi-agent pathfinding)は、共有環境において、複数のエージェントの衝突のない経路を見つけるのが通常である、難しい計算問題である。
MAPFを最適に解くことはNPハードであるが、自動化された倉庫や輸送システムを含む多くのアプリケーションにとって非常に重要である。
近年、MAPFへの学習に基づくアプローチが注目されており、特に深層強化学習を活用している。
機械学習のトレンドに続き、MAPF-GPTと呼ばれるMAPF問題の基盤モデルを作成しました。
模擬学習を用いて、我々は、追加のヒューリスティックや報酬関数、他のエージェントとのコミュニケーションを伴わずに、部分観測可能性の条件下でアクションを生成可能な、事前コンパイルされた準最適専門家軌道のセットに関するポリシーを訓練した。
MAPF-GPTモデルは、トレーニングデータセットに存在しないMAPF問題インスタンスを解く際に、ゼロショット学習能力を示す。
MAPF-GPTは,多種多様な問題インスタンスにおいて,現在最も優れた学習可能なMAPFソルバよりも優れており,(推論モードにおいて)計算の面で効率がよいことを示す。
Multi-agent pathfinding (MAPF) is a challenging computational problem that typically requires to find collision-free paths for multiple agents in a shared environment. Solving MAPF optimally is NP-hard, yet efficient solutions are critical for numerous applications, including automated warehouses and transportation systems. Recently, learning-based approaches to MAPF have gained attention, particularly those leveraging deep reinforcement learning. Following current trends in machine learning, we have created a foundation model for the MAPF problems called MAPF-GPT. Using imitation learning, we have trained a policy on a set of pre-collected sub-optimal expert trajectories that can generate actions in conditions of partial observability without additional heuristics, reward functions, or communication with other agents. The resulting MAPF-GPT model demonstrates zero-shot learning abilities when solving the MAPF problem instances that were not present in the training dataset. We show that MAPF-GPT notably outperforms the current best-performing learnable-MAPF solvers on a diverse range of problem instances and is efficient in terms of computation (in the inference mode). | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# AdaNAT: トークンベースの画像生成のための適応ポリシーを探る
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation ( http://arxiv.org/abs/2409.00342v3 ) ライセンス: Link先を確認 | Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang, | (参考訳) 近年,視覚コンテンツ生成のためのトークンベースの手法の有効性が実証されている。
代表的な作品として、非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
しかしながら、NATは通常、複数の手作業で設計されたスケジューリングルールを含む複雑な生成ポリシーを設定する必要がある。
これらのヒューリスティックなルールは、準最適になりがちで、専門家の知識と労働集約的な努力の要求が伴う。
さらに,各試料の多種多様な特性に柔軟に適応することは不可能である。
これらの問題に対処するため,各サンプルに適したポリシーを自動的に設定する学習可能なアプローチであるAdaNATを提案する。
具体的には、生成ポリシーの決定をマルコフ決定プロセスとして定式化する。
このフレームワークでは、強化学習を通じて、生成のための軽量なポリシーネットワークを学習することができる。
重要なことは、FIDや事前訓練された報酬モデルのような単純な報酬設計が、生成したサンプルの望ましい品質や多様性を確実に保証できないことを示しています。
そこで本稿では,政策ネットワークのトレーニングを効果的に指導する対人報酬設計を提案する。
ImageNet-256 & 512, MS-COCO, CC3Mの4つのベンチマークデータセットに関する総合的な実験は、AdaNATの有効性を検証する。
コードと事前トレーニングされたモデルはhttps://github.com/LeapLabTHU/AdaNAT.comでリリースされる。
Recent studies have demonstrated the effectiveness of token-based methods for visual content generation. As a representative work, non-autoregressive Transformers (NATs) are able to synthesize images with decent quality in a small number of steps. However, NATs usually necessitate configuring a complicated generation policy comprising multiple manually-designed scheduling rules. These heuristic-driven rules are prone to sub-optimality and come with the requirements of expert knowledge and labor-intensive efforts. Moreover, their one-size-fits-all nature cannot flexibly adapt to the diverse characteristics of each individual sample. To address these issues, we propose AdaNAT, a learnable approach that automatically configures a suitable policy tailored for every sample to be generated. In specific, we formulate the determination of generation policies as a Markov decision process. Under this framework, a lightweight policy network for generation can be learned via reinforcement learning. Importantly, we demonstrate that simple reward designs such as FID or pre-trained reward models, may not reliably guarantee the desired quality or diversity of generated samples. Therefore, we propose an adversarial reward design to guide the training of policy networks effectively. Comprehensive experiments on four benchmark datasets, i.e., ImageNet-256 & 512, MS-COCO, and CC3M, validate the effectiveness of AdaNAT. Code and pre-trained models will be released at https://github.com/LeapLabTHU/AdaNAT. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# ブラインド顔修復のための3次元優先誘導拡散法
3D Priors-Guided Diffusion for Blind Face Restoration ( http://arxiv.org/abs/2409.00991v2 ) ライセンス: Link先を確認 | Xiaobin Lu, Xiaobin Hu, Jun Luo, Ben Zhu, Yaping Ruan, Wenqi Ren, | (参考訳) 劣化した顔画像から鮮明な顔画像を復元するためのブラインド顔復元作業。
GAN(Generative Adversarial Networks)を先駆者として採用した最近のアプローチは、この分野において顕著な成功を収めている。
しかし、これらの手法は、特に複雑な劣化シナリオにおいて、現実主義と忠実さのバランスを達成する上で困難に直面する。
拡散モデルの例外的リアリズム生成能力を継承し,自己認識の忠実さに制約されるために,3次元顔の先行を構造と同一性制約として組み込んだ新しい拡散基盤を提案する。
具体的には、より正確な3D先行表現を得るために、予め訓練された復元ネットワークで処理された初期復元顔画像を用いて、3D形態モデル(3DMM)により3D顔画像を再構成する。
ノイズ推定プロセスにマッピングされる3次元顔画像の構造情報と同一性情報の両方を利用するために、カスタマイズされたマルチレベル特徴抽出手法を用いる。
識別情報のノイズ推定への融合を強化するため,時間認識融合ブロック(TAFB)を提案する。
このモジュールは、拡散モデルにおけるデノナイジング過程の動的性質を考慮して、より効率的で適応的な重みの融合を提供する。
大規模な実験により、我々のネットワークはブラインドフェイス復元のための合成および実世界のデータセットの最先端のアルゴリズムに対して好意的に機能することが示された。
The Code はプロジェクトページ https://github.com/838143396/3Diffusion で公開されている。
Blind face restoration endeavors to restore a clear face image from a degraded counterpart. Recent approaches employing Generative Adversarial Networks (GANs) as priors have demonstrated remarkable success in this field. However, these methods encounter challenges in achieving a balance between realism and fidelity, particularly in complex degradation scenarios. To inherit the exceptional realism generative ability of the diffusion model and also constrained by the identity-aware fidelity, we propose a novel diffusion-based framework by embedding the 3D facial priors as structure and identity constraints into a denoising diffusion process. Specifically, in order to obtain more accurate 3D prior representations, the 3D facial image is reconstructed by a 3D Morphable Model (3DMM) using an initial restored face image that has been processed by a pretrained restoration network. A customized multi-level feature extraction method is employed to exploit both structural and identity information of 3D facial images, which are then mapped into the noise estimation process. In order to enhance the fusion of identity information into the noise estimation, we propose a Time-Aware Fusion Block (TAFB). This module offers a more efficient and adaptive fusion of weights for denoising, considering the dynamic nature of the denoising process in the diffusion model, which involves initial structure refinement followed by texture detail enhancement. Extensive experiments demonstrate that our network performs favorably against state-of-the-art algorithms on synthetic and real-world datasets for blind face restoration. The Code is released on our project page at https://github.com/838143396/3Diffusion. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-12 |
# PuYun: 大規模カーネルアテンション畳み込みネットワークを用いた中距離グローバル気象予報
PuYun: Medium-Range Global Weather Forecasting Using Large Kernel Attention Convolutional Networks ( http://arxiv.org/abs/2409.02123v2 ) ライセンス: Link先を確認 | Shengchen Zhu, Yiming Chen, Peiying Yu, Xiang Qu, Yuxiao Zhou, Yiming Ma, Zhizhan Zhao, Yukai Liu, Hao Mi, Bin Wang, | (参考訳) 正確な天気予報は、気象に関する影響を理解し緩和するために不可欠である。
本稿では,大規模なカーネルアテンション畳み込みネットワークを利用する自己回帰カスケードモデルであるPuYunを提案する。
モデルの設計は本質的に、効果的な受容場を広げながら、拡張された天気予報水平線をサポートする。
畳み込み層における大きなカーネルの注意機構の統合により、詳細な空間的詳細を捉える能力が向上し、気象現象の予測精度が向上する。
我々は,PuYun-Shortを0~5日間の予測で,PuYun-Mediumを5~10日間の予測で導入する。
このアプローチは10日間の天気予報の精度を高める。
評価の結果,PuYun-Short は GraphCast と FuXi-Short の両方の性能を上回り,正確な10日間の予測が得られた。
特に10日目には、PuYun-Short は Z500 の RMSE を 720 $m^2/s^2$ に減らし、GraphCast の 732 $m^2/s^2$ と FuXi-Short の 740 $m^2/s^2$ に減らした。
さらに、T2MのRMSEは2.60K、GraphCastの2.63K、FuXi-Shortの2.65Kに削減された。
さらに,PuYun-ShortとPuYun-Mediumを統合したカスケード手法を用いることで,FuXi-ShortとFuXi-Mediumの併用性能よりも優れた結果が得られる。
10日目には、Z500 の RMSE はさらに 638 $m^2/s^2$ に減らされ、FuXi の 641 $m^2/s^2$ に減らされた。
これらの結果は,中距離気象予報におけるモデルアンサンブルの有効性を裏付けるものである。
トレーニングコードとモデルはオープンソースになります。
Accurate weather forecasting is essential for understanding and mitigating weather-related impacts. In this paper, we present PuYun, an autoregressive cascade model that leverages large kernel attention convolutional networks. The model's design inherently supports extended weather prediction horizons while broadening the effective receptive field. The integration of large kernel attention mechanisms within the convolutional layers enhances the model's capacity to capture fine-grained spatial details, thereby improving its predictive accuracy for meteorological phenomena. We introduce PuYun, comprising PuYun-Short for 0-5 day forecasts and PuYun-Medium for 5-10 day predictions. This approach enhances the accuracy of 10-day weather forecasting. Through evaluation, we demonstrate that PuYun-Short alone surpasses the performance of both GraphCast and FuXi-Short in generating accurate 10-day forecasts. Specifically, on the 10th day, PuYun-Short reduces the RMSE for Z500 to 720 $m^2/s^2$, compared to 732 $m^2/s^2$ for GraphCast and 740 $m^2/s^2$ for FuXi-Short. Additionally, the RMSE for T2M is reduced to 2.60 K, compared to 2.63 K for GraphCast and 2.65 K for FuXi-Short. Furthermore, when employing a cascaded approach by integrating PuYun-Short and PuYun-Medium, our method achieves superior results compared to the combined performance of FuXi-Short and FuXi-Medium. On the 10th day, the RMSE for Z500 is further reduced to 638 $m^2/s^2$, compared to 641 $m^2/s^2$ for FuXi. These findings underscore the effectiveness of our model ensemble in advancing medium-range weather prediction. Our training code and model will be open-sourced. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 顔がハットのように見えるもの:画像トリプレットで低レベルと高レベルの視覚特性を分離する
What Makes a Face Look like a Hat: Decoupling Low-level and High-level Visual Properties with Image Triplets ( http://arxiv.org/abs/2409.02241v2 ) ライセンス: Link先を確認 | Maytus Piriyajitakonkij, Sirawaj Itthipuripat, Ian Ballard, Ioannis Pappas, | (参考訳) 視覚的意思決定において、オブジェクトカテゴリのような高レベルな特徴は、選択に強い影響を与える。
しかし, 刺激の高次特徴と低次特徴との間に高い相関関係があることから, 行動に対する低次特徴の影響は理解されていない(例えば, 同一カテゴリーの対象が低次特徴を共有する傾向が強い)。
これらの効果を抑えるために,新しい刺激のセットにおいて,低レベルの視覚特性と高レベルの視覚特性を区別する手法を提案する。
本手法では,2つの畳み込みニューラルネットワーク(CNN)を腹側視覚ストリームの候補モデルとして,高レベルのIT様応答における神経予測率の高いCORnet-Sと,低レベルの応答における神経予測率の高いVGG-16を用いる。
刺激のトリプレット(root, image1, image2)は、異なる層から抽出された画像の低レベル及び高レベルの類似度によってパラメータ化される。
これらの刺激は、参加者が最もよく似た画像を選択するように指示される意思決定タスクで使用される。
CORnet-Sは、高レベルの類似性に基づく人間の選択を説明するのに、VGG-16は低レベルの類似性に基づく人間の選択を説明するのに、VGG-SはCORnet-Sより優れています。
Brain-Scoreを用いて、これらのネットワークの異なる階層の行動予測能力は、視覚階層の異なるレベルでの神経活動を説明する能力と質的に一致することを示した。
まとめると、刺激セット生成のためのアルゴリズムは、視覚ストリーム内の異なる表現がハイレベルな認知行動にどのように影響するかの研究を可能にする。
In visual decision making, high-level features, such as object categories, have a strong influence on choice. However, the impact of low-level features on behavior is less understood partly due to the high correlation between high- and low-level features in the stimuli presented (e.g., objects of the same category are more likely to share low-level features). To disentangle these effects, we propose a method that de-correlates low- and high-level visual properties in a novel set of stimuli. Our method uses two Convolutional Neural Networks (CNNs) as candidate models of the ventral visual stream: the CORnet-S that has high neural predictivity in high-level, IT-like responses and the VGG-16 that has high neural predictivity in low-level responses. Triplets (root, image1, image2) of stimuli are parametrized by the level of low- and high-level similarity of images extracted from the different layers. These stimuli are then used in a decision-making task where participants are tasked to choose the most similar-to-the-root image. We found that different networks show differing abilities to predict the effects of low-versus-high-level similarity: while CORnet-S outperforms VGG-16 in explaining human choices based on high-level similarity, VGG-16 outperforms CORnet-S in explaining human choices based on low-level similarity. Using Brain-Score, we observed that the behavioral prediction abilities of different layers of these networks qualitatively corresponded to their ability to explain neural activity at different levels of the visual hierarchy. In summary, our algorithm for stimulus set generation enables the study of how different representations in the visual stream affect high-level cognitive behaviors. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 大規模言語モデルと認知科学 : 類似性・相違・課題の包括的考察
Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges ( http://arxiv.org/abs/2409.02387v3 ) ライセンス: Link先を確認 | Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen, Ming Li, | (参考訳) この総合的なレビューでは、LLMと人間の認知過程の類似点と相違点について、Large Language Models(LLM)と認知科学の交わりについて考察する。
我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。
このレビューでは、認知科学研究で得られた知見を取り上げ、様々な認知分野におけるLLMの応用を取り上げている。
我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
LLMと認知アーキテクチャの統合について検討し、人工知能(AI)能力を向上するための有望な道を明らかにする。
主要な課題と今後の研究方向が特定され、人間の認知とよりよく整合するLLMの継続的な改良の必要性を強調している。
このレビューは、人工知能と人間の知性の両方の理解を深める上で、LLMの現状と将来の可能性について、バランスのとれた視点を提供する。
This comprehensive review explores the intersection of Large Language Models (LLMs) and cognitive science, examining similarities and differences between LLMs and human cognitive processes. We analyze methods for evaluating LLMs cognitive abilities and discuss their potential as cognitive models. The review covers applications of LLMs in various cognitive fields, highlighting insights gained for cognitive science research. We assess cognitive biases and limitations of LLMs, along with proposed methods for improving their performance. The integration of LLMs with cognitive architectures is examined, revealing promising avenues for enhancing artificial intelligence (AI) capabilities. Key challenges and future research directions are identified, emphasizing the need for continued refinement of LLMs to better align with human cognition. This review provides a balanced perspective on the current state and future potential of LLMs in advancing our understanding of both artificial and human intelligence. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 超伝導量子ビットによる温度測定
Thermometry Based on a Superconducting Qubit ( http://arxiv.org/abs/2409.02784v2 ) ライセンス: Link先を確認 | Dmitrii S. Lvov, Sergei A. Lemziakov, Elias Ankerhold, Joonas T. Peltonen, Jukka P. Pekola, | (参考訳) トランスモンキュービットを用いて温度測定を行い,最初の3段階の個体数を検出した。
我々は、量子ビットの有効温度を測定し、その緩和とコヒーレンス時間$\tau_{1,2}$を温度範囲20-300mKの3つのデバイスに対して特徴付ける。
温度測定の信号対雑音比(SNR)は、準粒子の励起により高温で降下する$\tau_{1}$に強く依存し、測定に悪影響を及ぼし、温度計の動的温度範囲の上限を設定する。
この測定は、$\pi$-pulsesの間、キュービットのコヒーレントダイナミクスに依存する。
有効量子ビット温度は、100mKから250mKの範囲のクライオスタットのそれに近い。
本稿では, 量子ビット分布の数値モデルを提案し, 実験結果と比較した。
We report temperature measurements using a transmon qubit by detecting the population of the first three levels of it, after employing a sequence of $\pi$-pulses and performing projective dispersive readout. We measure the effective temperature of the qubit and characterize its relaxation and coherence times $\tau_{1,2}$ for three devices in the temperature range 20-300 mK. Signal-to-noise (SNR) ratio of the temperature measurement depends strongly on $\tau_{1}$, which drops at higher temperatures due to quasiparticle excitations, adversely affecting the measurements and setting an upper bound of the dynamic temperature range of the thermometer. The measurement relies on coherent dynamics of the qubit during the $\pi$-pulses. The effective qubit temperature follows closely that of the cryostat in the range 100-250 mK. We present a numerical model of the qubit population distribution and compare it favorably with the experimental results. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 非対称性の実験的触媒増幅
Experimental Catalytic Amplification of Asymmetry ( http://arxiv.org/abs/2409.03217v2 ) ライセンス: Link先を確認 | Chao Zhang, Xiao-Min Hu, Feng Ding, Xue-Yuan Hu, Yu Guo, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, | (参考訳) 量子資源の操作と変換は量子力学の重要な部分である。
このうち、非対称性は、量子時計、量子力学、その他のタスクで広く使われている、最も有用な運用資源の1つである。
近年の研究では、量子状態の非対称性は有限次元補助体である関連触媒の助けを借りて著しく増幅できることが示されている。
実験では,触媒系と量子系からなる複合系上で,システム全体の非対称な資源が増加しないよう,翻訳不変な操作を行う。
実験の結果, 触媒反応後の系では, 0.0172\pm0.0022の非対称性増幅が認められた。
我々の研究は、量子触媒プロセスの可能性を示し、量子資源理論の分野におけるさらなる研究を促すことが期待されている。
The manipulation and transformation of quantum resources are key parts of quantum mechanics. Among them, asymmetry is one of the most useful operational resources, which is widely used in quantum clocks, quantum metrology, and other tasks. Recent studies have shown that the asymmetry of quantum states can be significantly amplified with the assistance of correlating catalysts which are finite-dimensional auxiliaries. In the experiment, we perform translationally invariant operations, ensuring that the asymmetric resources of the entire system remain non-increasing, on a composite system composed of a catalytic system and a quantum system. The experimental results demonstrate an asymmetry amplification of 0.0172\pm0.0022 in the system following the catalytic process. Our work showcases the potential of quantum catalytic processes and is expected to inspire further research in the field of quantum resource theories. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 小さな浅量子回路のための測地補正による量子自然勾配
Quantum Natural Gradient with Geodesic Corrections for Small Shallow Quantum Circuits ( http://arxiv.org/abs/2409.03638v2 ) ライセンス: Link先を確認 | Mourad Halla, | (参考訳) 量子自然勾配法(Quantum Natural Gradient, QNG)は、フビニ・スタディ計量を通じて量子状態空間から幾何学的な洞察を取り入れ、変分量子アルゴリズム(VQA)の最適化を強化する。
本研究では,リーマン的オイラー更新則と測地方程式を用いて高階積分器と測地補正を導入し,測地補正による量子自然勾配(QNGGC)の更新則を導出した。
また、これらの補正に必要なクリストッフェル記号の効率的な計算法を開発し、パラメータシフト則を利用して量子回路からの直接測定を可能にする。
理論的解析と実例により、QNGGCは標準QNGよりも収束率を大幅に改善し、測地補正を量子最適化プロセスに統合する利点を強調した。
我々のアプローチは、幾何学的手法の利点を生かして、より効率的な量子アルゴリズムの道を開く。
The Quantum Natural Gradient (QNG) method enhances optimization in variational quantum algorithms (VQAs) by incorporating geometric insights from the quantum state space through the Fubini-Study metric. In this work, we extend QNG by introducing higher-order integrators and geodesic corrections using the Riemannian Euler update rule and geodesic equations, deriving an updated rule for the Quantum Natural Gradient with Geodesic Correction (QNGGC). We also develop an efficient method for computing the Christoffel symbols necessary for these corrections, leveraging the parameter-shift rule to enable direct measurement from quantum circuits. Through theoretical analysis and practical examples, we demonstrate that QNGGC significantly improves convergence rates over standard QNG, highlighting the benefits of integrating geodesic corrections into quantum optimization processes. Our approach paves the way for more efficient quantum algorithms, leveraging the advantages of geometric methods. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# マルチタスク学習による拡散MRIにおける胎児脳の詳細な記述
Detailed delineation of the fetal brain in diffusion MRI via multi-task learning ( http://arxiv.org/abs/2409.06716v2 ) ライセンス: Link先を確認 | Davood Karimi, Camilo Calixto, Haykel Snoussi, Maria Camila Cortes-Albornoz, Clemente Velasco-Annis, Caitlin Rollins, Camilo Jaimes, Ali Gholipour, Simon K. Warfield, | (参考訳) 拡散強調MRIは、胎児脳の子宮内での正常な発達と異常な発達を研究するためにますます用いられる。
近年の研究では、dMRIは胎児期における神経発達過程に重要な洞察を与えることが示されている。
しかし、データ品質の低さと脳の急速な発達のため、胎児のdMRIデータの信頼性の高い解析には、現在利用できない専用計算方法が必要である。
高速で正確で再現可能なデータ分析のための自動化手法が欠如しているため、胎児脳のdMRIを医学や科学に応用する能力は著しく制限されています。
本研究では,(1)脳組織を白質,皮質・皮質下灰白質,脳脊髄液に分画し,(2)脳の皮質を分画し,深い灰色核・白質構造を96の解剖学的意義のある領域に分類する統一的な計算枠組みを開発し,検証した。
我々は,手動,半自動,自動のアプローチを用いて,97個の胎児脳に注釈を付けた。
これらのラベルを用いて,3つの計算を行うためのマルチタスク深層学習法を開発し,検証した。
本手法は, 組織分画において平均Dice類似度係数0.865, 白質分画において0.825, パーセレーションにおいて0.819の3つの課題を正確に行うことができることを示す。
提案手法は胎児神経画像学の分野を飛躍的に発展させ,胎児の脳幹撮影,トラクション特異的解析,構造接続性評価の大幅な改善につながる可能性がある。
Diffusion-weighted MRI is increasingly used to study the normal and abnormal development of fetal brain in-utero. Recent studies have shown that dMRI can offer invaluable insights into the neurodevelopmental processes in the fetal stage. However, because of the low data quality and rapid brain development, reliable analysis of fetal dMRI data requires dedicated computational methods that are currently unavailable. The lack of automated methods for fast, accurate, and reproducible data analysis has seriously limited our ability to tap the potential of fetal brain dMRI for medical and scientific applications. In this work, we developed and validated a unified computational framework to (1) segment the brain tissue into white matter, cortical/subcortical gray matter, and cerebrospinal fluid, (2) segment 31 distinct white matter tracts, and (3) parcellate the brain's cortex and delineate the deep gray nuclei and white matter structures into 96 anatomically meaningful regions. We utilized a set of manual, semi-automatic, and automatic approaches to annotate 97 fetal brains. Using these labels, we developed and validated a multi-task deep learning method to perform the three computations. Our evaluations show that the new method can accurately carry out all three tasks, achieving a mean Dice similarity coefficient of 0.865 on tissue segmentation, 0.825 on white matter tract segmentation, and 0.819 on parcellation. The proposed method can greatly advance the field of fetal neuroimaging as it can lead to substantial improvements in fetal brain tractography, tract-specific analysis, and structural connectivity assessment. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-12 |
# 脆弱性管理とプラットフォームセキュリティ機能に関するオープンソースソフトウェアメンテナの混合手法の検討
A Mixed-Methods Study of Open-Source Software Maintainers On Vulnerability Management and Platform Security Features ( http://arxiv.org/abs/2409.07669v1 ) ライセンス: Link先を確認 | Jessy Ayala, Yu-Jye Tung, Joshua Garcia, | (参考訳) オープンソースソフトウェア(OSS)では、ソフトウェア脆弱性が大幅に増加した。
研究者は脆弱性レポーターとOSSコントリビュータのセキュリティプラクティスの観点を調査してきたが、脆弱性管理とプラットフォームセキュリティ機能に関するOSSメンテナの視点の理解は現在検討中である。
本稿では、GitHub Advisory Databaseにリストされたプロジェクトを管理するOSSメンテナの視点について検討する。
この領域を調査するために,2つの調査を行った。調査(n_1=80$)と半構造化インタビュー(n_2=22$)である。
37の特定された側面のうち、サプライチェーンの不信と脆弱性管理の自動化の欠如が最も困難であることに気付き、プラットフォームセキュリティ機能を採用する上での障壁には、認識の欠如と、それらが不要であるという認識が含まれる。
驚いたことに、以前脆弱性があったにもかかわらず、一部のメンテナーは公開脆弱性レポートを許可しているか、レポートを完全に無視している。
本研究は,OSSプラットフォームがもたらす意味と,OSS脆弱性管理の取り組みを研究コミュニティがいかに支援できるかを考察する。
In open-source software (OSS), software vulnerabilities have significantly increased. Although researchers have investigated the perspectives of vulnerability reporters and OSS contributor security practices, understanding the perspectives of OSS maintainers on vulnerability management and platform security features is currently understudied. In this paper, we investigate the perspectives of OSS maintainers who maintain projects listed in the GitHub Advisory Database. We explore this area by conducting two studies: identifying aspects through a listing survey ($n_1=80$) and gathering insights from semi-structured interviews ($n_2=22$). Of the 37 identified aspects, we find that supply chain mistrust and lack of automation for vulnerability management are the most challenging, and barriers to adopting platform security features include a lack of awareness and the perception that they are not necessary. Surprisingly, we find that despite being previously vulnerable, some maintainers still allow public vulnerability reporting, or ignore reports altogether. Based on our findings, we discuss implications for OSS platforms and how the research community can better support OSS vulnerability management efforts. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# オープンソースのプロジェクトメンテナによるバグ報奨金の見直しと解決方法
A Deep Dive Into How Open-Source Project Maintainers Review and Resolve Bug Bounty Reports ( http://arxiv.org/abs/2409.07670v1 ) ライセンス: Link先を確認 | Jessy Ayala, Steven Ngo, Joshua Garcia, | (参考訳) 研究者たちは、プラットフォーム、プログラム、バグハンターのレンズからバグ報奨金エコシステムを調査した。
バグ報奨金レポートレビュアー、特に歴史的にセキュリティの背景が無く、バグハンターへの資金提供がほとんどない人たちの視点を理解することは、現在検討中である。
本稿では,GitHubプロジェクトのセキュリティバグを見つけ,結果として有効な脆弱性をパッチしたバグハンターに報奨金を支払う,バグ報奨金プラットフォームである‘texttt{huntr}’を使用したオープンソースソフトウェア(OSS)メンテナの視点を主に検討する。
本研究の課題は,リスト化調査(n_1=51$)による特徴の特定,Quatrt-scaleサーベイデータ(n_2=90$)による重要度調査(n_3=17$)による重要度調査(n_3=17$)による半構造化面接(n_3=17$)の実施である。
その結果,40の特徴を,メリット,課題,有用な機能,望まれる機能に分類した。
プライベートな情報開示とプロジェクトの可視性が最も重要なメリットであることに気付きました。一方、お金やCVEに焦点を当てたハンターやレビューのプレッシャーは克服するのが最も難しいのです。
CVE生成サポートは、バグ報奨金レポートのレビューにおいて、OSSメンテナにとって2番目に有用な機能である。
我々は,オープンソースメンテナに対して,バグ報奨金審査プロセスをより快適なものにし,今後の作業領域を特定することを推奨する。
Researchers have investigated the bug bounty ecosystem from the lens of platforms, programs, and bug hunters. Understanding the perspectives of bug bounty report reviewers, especially those who historically lack a security background and little to no funding for bug hunters, is currently understudied. In this paper, we primarily investigate the perspective of open-source software (OSS) maintainers who have used \texttt{huntr}, a bug bounty platform that pays bounties to bug hunters who find security bugs in GitHub projects and have had valid vulnerabilities patched as a result. We address this area by conducting three studies: identifying characteristics through a listing survey ($n_1=51$), their ranked importance with Likert-scale survey data ($n_2=90$), and conducting semi-structured interviews to dive deeper into real-world experiences ($n_3=17$). As a result, we categorize 40 identified characteristics into benefits, challenges, helpful features, and wanted features. We find that private disclosure and project visibility are the most important benefits, while hunters focused on money or CVEs and pressure to review are the most challenging to overcome. Surprisingly, lack of communication with bug hunters is the least challenging, and CVE creation support is the second-least helpful feature for OSS maintainers when reviewing bug bounty reports. We present recommendations to make the bug bounty review process more accommodating to open-source maintainers and identify areas for future work. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# 対流拡散方程式のための変換された物理インフォームニューラルネットワーク
Transformed Physics-Informed Neural Networks for The Convection-Diffusion Equation ( http://arxiv.org/abs/2409.07671v1 ) ライセンス: Link先を確認 | Jiajing Guan, Howard Elman, | (参考訳) 特異な摂動問題は、数値的に解くのが難しい急な境界層を持つ解を持つことが知られている。
有限差分法(FDM)のような従来の数値法は、安定かつ正確な解を得るために洗練されたメッシュを必要とする。
物理インフォームドニューラルネットワーク(PINN)は、様々な分野の微分方程式の解をうまく近似できることが示されているので、特異摂動問題においてそれらの性能を調べることは当然である。
対流拡散方程式はそのような問題の代表的な例であり、この方程式の数値解を生成するために PINN を用いることを検討する。
本研究では、FDMを用いて得られる振動性離散解の補正方法としてPINNSを利用する方法と、未飽和問題の縮小解を修正する方法としてPINNSを利用する方法について検討する。
両手法とも、精度を高めるために入力変換を用いることも検討し、ニューラルネットワークカーネルの助けを借りて、入力変換の挙動を解析的に説明する。
Singularly perturbed problems are known to have solutions with steep boundary layers that are hard to resolve numerically. Traditional numerical methods, such as Finite Difference Methods (FDMs), require a refined mesh to obtain stable and accurate solutions. As Physics-Informed Neural Networks (PINNs) have been shown to successfully approximate solutions to differential equations from various fields, it is natural to examine their performance on singularly perturbed problems. The convection-diffusion equation is a representative example of such a class of problems, and we consider the use of PINNs to produce numerical solutions of this equation. We study two ways to use PINNS: as a method for correcting oscillatory discrete solutions obtained using FDMs, and as a method for modifying reduced solutions of unperturbed problems. For both methods, we also examine the use of input transformation to enhance accuracy, and we explain the behavior of input transformations analytically, with the help of neural tangent kernels. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# 発話書き換えに基づく教師なし対話トピックセグメンテーションモデル
An Unsupervised Dialogue Topic Segmentation Model Based on Utterance Rewriting ( http://arxiv.org/abs/2409.07672v1 ) ライセンス: Link先を確認 | Xia Hou, Qifeng Li, Tongliang Li, | (参考訳) 対話トピックセグメンテーションは、様々なタイプの対話モデリングタスクにおいて重要な役割を果たす。
最先端の教師なしDTS手法は、隣接した談話マッチングと擬似セグメンテーションを通じて、会話データからトピック認識の談話表現を学習し、ラベルのない会話関係における有用な手がかりをさらに掘り下げる。
しかし、複数ラウンドの対話では、談話は共参照や省略がしばしばあり、これらの談話の表現学習への直接的利用は、近隣の談話マッチングタスクにおける意味的類似性計算に悪影響を及ぼす可能性があるという事実に繋がる。
本研究は,会話関係における有用な手がかりを十分に活用するために,発話文と省略語を復元するために,発話文の書き直し(UR)技術と教師なし学習アルゴリズムを併用し,ダイアログの書き直しにより,ラベルなしダイアログにおける有用な手がかりを効率的に活用する,教師なしダイアログトピックセグメンテーション手法を提案する。
既存の教師なしモデルと比較すると,提案した談話書き換えトピックセグメンテーションモデル (UR-DTS) はトピックセグメンテーションの精度を大幅に向上させる。
主な発見は、DialSeg711の性能が絶対誤差スコアとWDで6%向上し、絶対誤差スコアで11.42%、WDで12.97%向上したことである。
Doc2Dialでは、絶対誤差スコアとWDは、それぞれ3%と2%改善し、SOTAは絶対誤差スコアで35.17%、WDで38.49%に達した。
このことから,このモデルは会話トピックのニュアンスを捉えるのに非常に効果的であり,ラベルのない会話を活用する上での有用性と課題も示している。
Dialogue topic segmentation plays a crucial role in various types of dialogue modeling tasks. The state-of-the-art unsupervised DTS methods learn topic-aware discourse representations from conversation data through adjacent discourse matching and pseudo segmentation to further mine useful clues in unlabeled conversational relations. However, in multi-round dialogs, discourses often have co-references or omissions, leading to the fact that direct use of these discourses for representation learning may negatively affect the semantic similarity computation in the neighboring discourse matching task. In order to fully utilize the useful cues in conversational relations, this study proposes a novel unsupervised dialog topic segmentation method that combines the Utterance Rewriting (UR) technique with an unsupervised learning algorithm to efficiently utilize the useful cues in unlabeled dialogs by rewriting the dialogs in order to recover the co-referents and omitted words. Compared with existing unsupervised models, the proposed Discourse Rewriting Topic Segmentation Model (UR-DTS) significantly improves the accuracy of topic segmentation. The main finding is that the performance on DialSeg711 improves by about 6% in terms of absolute error score and WD, achieving 11.42% in terms of absolute error score and 12.97% in terms of WD. on Doc2Dial the absolute error score and WD improves by about 3% and 2%, respectively, resulting in SOTA reaching 35.17% in terms of absolute error score and 38.49% in terms of WD. This shows that the model is very effective in capturing the nuances of conversational topics, as well as the usefulness and challenges of utilizing unlabeled conversations. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# 周期的ポーリングを伴わない非臨界位相マッチングを利用したロバストおよび明るい偏光結合光子源
Robust and bright polarization-entangled photon sources exploiting non-critical phase matching without periodic poling ( http://arxiv.org/abs/2409.07673v1 ) ライセンス: Link先を確認 | Ilhwan Kim, Yosep Kim, Yong-Su Kim, Kwang Jo Lee, Hyang-Tag Lim, | (参考訳) 絡み合った光子源は量子計算、量子通信、量子気象学などの量子情報応用に不可欠である。
周期的な極性(PP)結晶は準位相マッチングによって明るい光子源を生成するために一般的に用いられる。
しかし、均一なミクロンスケールの周期構造を作製することは、結晶の厚さを1ミリ未満に制限する、重要な技術的困難を引き起こす。
ここでは、サニャック干渉計に基づく頑健で明るい偏光絡み合った光子源を生成するために、非臨界位相マッチングを採用する。
この方法はポンプの入射角や温度の変動に寛容であり、理論的には準位相マッチングと比較して2.5倍の明るさ向上を提供する。
さらに、周期的なポーリングが欠如しているため、より大きな結晶断面が可能である。
PP構造を持たないバルクKTP結晶を用いて,25.1kHz/mWの4つのベル状態を実験的に生成し,純度,コンカレンス,忠実度を0.99付近で達成した。
我々の手法は、スケーラブルで実用的なフォトニック量子情報アプリケーションのための重要なビルディングブロックとして機能すると考えています。
Entangled photon sources are essential for quantum information applications, including quantum computation, quantum communication, and quantum metrology. Periodically poled (PP) crystals are commonly used to generate bright photon sources through quasi-phase matching. However, fabricating uniform micron-scale periodic structures poses significant technical difficulties, typically limiting the crystal thickness to less than a millimeter. Here, we adopt non-critical phase matching to produce a robust and bright polarization-entangled photon source based on a Sagnac interferometer. This method is tolerant of variations in pump incidence angles and temperature, and theoretically offers about a 2.5-fold brightness enhancement compared to quasi-phase matching. Additionally, the absence of periodic poling allows for a larger crystal cross-section. Using a bulk KTP crystal without a PP structure, we experimentally produce the four Bell states with a brightness of 25.1 kHz/mW, achieving purity, concurrence, and fidelity values close to 0.99. We believe our scheme will serve as a key building block for scalable and practical photonic quantum information applications. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# ゲージ理論としての量子熱力学
Quantum thermodynamics as a gauge theory ( http://arxiv.org/abs/2409.07676v1 ) ライセンス: Link先を確認 | Gabriel Fernandez Ferrari, Łukasz Rudnicki, Lucas Chibebe Céleri, | (参考訳) 熱力学は粗い粒度のアプローチに基づいており、その基本的な変数が出現し、マクロシステム内の顕微鏡力学の複雑な詳細を効果的に消去する。
熱力学の強さは、このパラダイムによって提供される普遍性にある。
対照的に、量子力学は、我々が実行する実験について予測することを目的として、顕微鏡システムの力学を記述することに焦点を当てている。
近年、量子熱力学のゲージ理論が導入され、ゲージ不変の作用と熱を定義し、量子現象との関係を探究した。
本研究では、この理論を2つの重要な方法で拡張する。
まず、以前は見過ごされていたエネルギースペクトルの退化を取り入れる。
さらに、ゲージ不変エントロピーを定義し、その性質と他の物理量や情報量との接続を探索する。
この結果、ゲージ不変性の原理に基づく量子熱力学の完全な枠組みが導かれる。
この理論のいくつかの意味を実証するために、よく知られた臨界系に適用する。
Thermodynamics is based on a coarse-grained approach, from which its fundamental variables emerge, effectively erasing the complicate details of the microscopic dynamics within a macroscopic system. The strength of Thermodynamics lies in the universality provided by this paradigm. In contrast, quantum mechanics focuses on describing the dynamics of microscopic systems, aiming to make predictions about experiments we perform, a goal shared by all fundamental physical theories, which are often framed as gauge theories in modern physics. Recently, a gauge theory for quantum thermodynamics was introduced, defining gauge invariant work and heat, and exploring their connections to quantum phenomena. In this work, we extend that theory in two significant ways. First, we incorporate energy spectrum degeneracies, which were previously overlooked. Additionally, we define gauge-invariant entropy, exploring its properties and connections to other physical and informational quantities. This results in a complete framework for quantum thermodynamics grounded in the principle of gauge invariance. To demonstrate some implications of this theory, we apply it to well-known critical systems. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# 制約ボルツマンマシンにおける目標エネルギーを用いた比微分学習--Kulback-Leibler Divergence Learningを超えて-
Ratio Divergence Learning Using Target Energy in Restricted Boltzmann Machines: Beyond Kullback--Leibler Divergence Learning ( http://arxiv.org/abs/2409.07679v1 ) ライセンス: Link先を確認 | Yuichi Ishida, Yuma Ichikawa, Aki Dote, Toshiyuki Miyazawa, Koji Hukushima, | (参考訳) 本稿では,学習データと抽出可能な目標エネルギー関数を併用した離散エネルギーモデルに対する比率分散(RD)学習を提案する。
我々は、離散分布の普遍近似定理を満たす最小モデルである制限ボルツマンマシン(RBM)にRD学習を適用する。
RD学習は、KLD(Kulback-Leibler divergence)学習と逆KLD(Kulback-Leibler divergence)学習の双方の長所を結合し、KLDの前方KLDとモード崩壊の「目立たない」問題に効果的に対処する。
前後のKLDの和は両手法の強みを組み合わせるのに十分であると考えられるので,本学習法を数値実験において直接ベースラインとして含み,その有効性を評価する。
数値実験により、RD学習は、様々な離散エネルギーベースモデルにおいて、エネルギー関数の適合、モード被覆、学習安定性の点で、他の学習方法よりも大幅に優れていることが示された。
さらに,ターゲットモデルの次元が大きくなるにつれて,RD学習と他の学習手法のパフォーマンスギャップが顕著になる。
We propose ratio divergence (RD) learning for discrete energy-based models, a method that utilizes both training data and a tractable target energy function. We apply RD learning to restricted Boltzmann machines (RBMs), which are a minimal model that satisfies the universal approximation theorem for discrete distributions. RD learning combines the strength of both forward and reverse Kullback-Leibler divergence (KLD) learning, effectively addressing the "notorious" issues of underfitting with the forward KLD and mode-collapse with the reverse KLD. Since the summation of forward and reverse KLD seems to be sufficient to combine the strength of both approaches, we include this learning method as a direct baseline in numerical experiments to evaluate its effectiveness. Numerical experiments demonstrate that RD learning significantly outperforms other learning methods in terms of energy function fitting, mode-covering, and learning stability across various discrete energy-based models. Moreover, the performance gaps between RD learning and the other learning methods become more pronounced as the dimensions of target models increase. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# オープンVocabulary Remote Sensing Image Semantic Segmentation
Open-Vocabulary Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2409.07683v1 ) ライセンス: Link先を確認 | Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang, | (参考訳) Open-vocabulary Image semantic segmentation (OVS)は、イメージをオープンなカテゴリの集合にわたってセマンティックな領域に分割することを目指している。
既存のOVSメソッドは、一般的に基本的な視覚言語モデルに依存し、OVSタスクに対処するために類似性計算を利用する。
しかしながら、これらのアプローチは、主に自然画像に適合し、急速に変化する向きや大きなスケールの変化など、リモートセンシング画像の特徴に苦慮している。
これらの課題は、地球ビジョンにおけるOVSタスクを複雑にし、特殊なアプローチを必要とする。
このジレンマに対処するために、リモートセンシング画像に特化して設計された初のOVSフレームワークを提案し、異なるリモートセンシング特性からインスピレーションを得た。
特に,方向適応類似度マップを初期意味マップとして生成する回転凝集類似度計算モジュールを導入する。
これらのマップは、より正確なセマンティックマップを生成するために、空間的およびカテゴリー的に洗練される。
さらに、大規模な変更を管理するため、マルチスケール画像特徴をアップサンプリングプロセスに統合し、最終的なスケール対応セマンティックマスクを作成する。
地球ビジョンにおけるOVSの進歩と再現可能な研究を促進するため、我々は4つのパブリックリモートセンシングデータセットを含む、リモートセンシング画像のための初のオープンソースOVSベンチマークを構築した。
このベンチマークでは,提案手法が最先端性能を実現することを実証した。
すべてのコードとデータセットはhttps://github.com/caoql98/OVRSで入手できる。
Open-vocabulary image semantic segmentation (OVS) seeks to segment images into semantic regions across an open set of categories. Existing OVS methods commonly depend on foundational vision-language models and utilize similarity computation to tackle OVS tasks. However, these approaches are predominantly tailored to natural images and struggle with the unique characteristics of remote sensing images, such as rapidly changing orientations and significant scale variations. These challenges complicate OVS tasks in earth vision, requiring specialized approaches. To tackle this dilemma, we propose the first OVS framework specifically designed for remote sensing imagery, drawing inspiration from the distinct remote sensing traits. Particularly, to address the varying orientations, we introduce a rotation-aggregative similarity computation module that generates orientation-adaptive similarity maps as initial semantic maps. These maps are subsequently refined at both spatial and categorical levels to produce more accurate semantic maps. Additionally, to manage significant scale changes, we integrate multi-scale image features into the upsampling process, resulting in the final scale-aware semantic masks. To advance OVS in earth vision and encourage reproducible research, we establish the first open-sourced OVS benchmark for remote sensing imagery, including four public remote sensing datasets. Extensive experiments on this benchmark demonstrate our proposed method achieves state-of-the-art performance. All codes and datasets are available at https://github.com/caoql98/OVRS. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# ロシア・ウクライナ戦争における電報の物語的検出と進化のモデル化
Modeling Information Narrative Detection and Evolution on Telegram during the Russia-Ukraine War ( http://arxiv.org/abs/2409.07684v1 ) ライセンス: Link先を確認 | Patrick Gerard, Svitlana Volkova, Louis Penafiel, Kristina Lerman, Tim Weninger, | (参考訳) 2022年2月、ロシア連邦がウクライナを全面的に侵攻すると、親ロシア派と親ウクライナ派の両方のコミュニティに多数の情報物語がネット上に出現した。
紛争が進行するにつれて、情報物語も増加し、地域社会や世界社会の認識や態度に常に適応し影響を及ぼす。
進化する情報環境(IE)のこのダイナミックな性質は、物語がオンラインコミュニティをどのように進化させ、影響を及ぼすかを、完全に把握する重要な必要性を浮き彫りにしている。
しかし、既存の研究はしばしば情報物語の進化を捉えず、物語の流動的な性質と進化を駆動する内部メカニズムの両方を見下ろしている。
これを認識し,物語の進化をモデル化し,それを支えるメカニズムを明らかにするための新しいアプローチを提案する。
本研究は,Telegramのコミュニティ間の比較談話分析を行い,侵略後3ヶ月をカバーした。
まず、親ロシア派と親ウクライナ派の間での物語と認識のかなりの相違を明らかにする。
そして、各グループの一般的な物語を深く探り、主要なテーマを特定し、その進化を促進するメカニズムを解明する。
最後に,物語の発達と普及を形作る影響や要因について考察する。
Following the Russian Federation's full-scale invasion of Ukraine in February 2022, a multitude of information narratives emerged within both pro-Russian and pro-Ukrainian communities online. As the conflict progresses, so too do the information narratives, constantly adapting and influencing local and global community perceptions and attitudes. This dynamic nature of the evolving information environment (IE) underscores a critical need to fully discern how narratives evolve and affect online communities. Existing research, however, often fails to capture information narrative evolution, overlooking both the fluid nature of narratives and the internal mechanisms that drive their evolution. Recognizing this, we introduce a novel approach designed to both model narrative evolution and uncover the underlying mechanisms driving them. In this work we perform a comparative discourse analysis across communities on Telegram covering the initial three months following the invasion. First, we uncover substantial disparities in narratives and perceptions between pro-Russian and pro-Ukrainian communities. Then, we probe deeper into prevalent narratives of each group, identifying key themes and examining the underlying mechanisms fueling their evolution. Finally, we explore influences and factors that may shape the development and spread of narratives. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-12 |
# ランキングモデルによるQ&Aテキスト検索の強化: RAGのベンチマーク、微調整、デプロイ
Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG ( http://arxiv.org/abs/2409.07691v1 ) ライセンス: Link先を確認 | Gabriel de Souza P. Moreira, Ronay Ak, Benedikt Schifferer, Mengyao Xu, Radek Osmulski, Even Oldridge, | (参考訳) ランキングモデルは、テキスト検索システムの全体的な精度を高める上で重要な役割を果たす。
これらのマルチステージシステムは、通常、あるクエリに基づいて関連するパスを検索するために、密度の高い埋め込みモデルまたはスパースレキシカルインデックスのいずれかを使用し、次いで、クエリとの関連性によって候補パスの順序を洗練させるランキングモデルを使用する。
本稿では、様々な公開ランキングモデルをベンチマークし、ランキング精度への影響について検討する。
本稿では,質問応答タスクのテキスト検索に焦点をあてる。これはRetrieval-Augmented Generationシステムにおける一般的なユースケースである。
評価ベンチマークには、いくつかのモデルが含まれており、そのうちのいくつかは産業用途で商業的に有効である。
我々は,現在最先端のランキングモデルであるNV-RerankQA-Mistral-4B-v3を導入する。
また,異なるサイズ,損失,自己注意機構を有するランキングモデルの微調整を比較検討した。
最後に、実業界アプリケーションにおけるランキングモデルを用いたテキスト検索パイプラインの課題、特にモデルサイズ、ランキング精度、インデックス化やレイテンシ/スループットの提供といったシステム要件のトレードオフについて論じる。
Ranking models play a crucial role in enhancing overall accuracy of text retrieval systems. These multi-stage systems typically utilize either dense embedding models or sparse lexical indices to retrieve relevant passages based on a given query, followed by ranking models that refine the ordering of the candidate passages by its relevance to the query. This paper benchmarks various publicly available ranking models and examines their impact on ranking accuracy. We focus on text retrieval for question-answering tasks, a common use case for Retrieval-Augmented Generation systems. Our evaluation benchmarks include models some of which are commercially viable for industrial applications. We introduce a state-of-the-art ranking model, NV-RerankQA-Mistral-4B-v3, which achieves a significant accuracy increase of ~14% compared to pipelines with other rerankers. We also provide an ablation study comparing the fine-tuning of ranking models with different sizes, losses and self-attention mechanisms. Finally, we discuss challenges of text retrieval pipelines with ranking models in real-world industry applications, in particular the trade-offs among model size, ranking accuracy and system requirements like indexing and serving latency / throughput. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# バランスから学ぶ:長期シナリオにおける知識伝達の明確化
Learn from Balance: Rectifying Knowledge Transfer for Long-Tailed Scenarios ( http://arxiv.org/abs/2409.07694v1 ) ライセンス: Link先を確認 | Xinlei Huang, Jialiang Tang, Xubin Zheng, Jinjia Zhou, Wenxin Yu, Ning Jiang, | (参考訳) 知識蒸留(KD)は、学習前の大きな教師ネットワークから、コンパクトで効率的な学生ネットワークへ知識を伝達し、リソース制限メディア端末への展開に適している。
しかし、従来のKD手法では、堅牢なトレーニングを保証するためにバランスの取れたデータが必要である。
このようなシナリオでは、いくつかの主要なカテゴリがかなりの割合の例を占める。
この不均衡は、訓練された教師ネットワークをヘッドカテゴリに偏り、教師ネットワークと学生ネットワークの両方において、あまり表現されていない末尾カテゴリに深刻なパフォーマンス劣化をもたらす。
本稿では,教師ネットワークで継承された不均衡な知識を,バランスの取れたカテゴリーの事前の組み入れによって解決する,KRDistill(Knowledge Rectification Distillation)という新しいフレームワークを提案する。
さらに,教師ネットワークが生み出す偏りのある予測を,特に尾のカテゴリーに着目して修正する。
これにより、教師ネットワークは、信頼性の高い学生ネットワークを訓練するためのバランスのとれた正確な知識を提供することができる。
我々のKRDistillは、データ不均衡の現実的なシナリオにおいて、信頼性の高い学生ネットワークを効果的に訓練できることを示す。
Knowledge Distillation (KD) transfers knowledge from a large pre-trained teacher network to a compact and efficient student network, making it suitable for deployment on resource-limited media terminals. However, traditional KD methods require balanced data to ensure robust training, which is often unavailable in practical applications. In such scenarios, a few head categories occupy a substantial proportion of examples. This imbalance biases the trained teacher network towards the head categories, resulting in severe performance degradation on the less represented tail categories for both the teacher and student networks. In this paper, we propose a novel framework called Knowledge Rectification Distillation (KRDistill) to address the imbalanced knowledge inherited in the teacher network through the incorporation of the balanced category priors. Furthermore, we rectify the biased predictions produced by the teacher network, particularly focusing on the tail categories. Consequently, the teacher network can provide balanced and accurate knowledge to train a reliable student network. Intensive experiments conducted on various long-tailed datasets demonstrate that our KRDistill can effectively train reliable student networks in realistic scenarios of data imbalance. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 臨界減衰3次ランゲヴィンダイナミクス
Critically Damped Third-Order Langevin Dynamics ( http://arxiv.org/abs/2409.07697v1 ) ライセンス: Link先を確認 | Benjamin Sterling, Monica Bugallo, | (参考訳) システム分析は制御理論の文脈で何十年も研究されてきたが、近年になって拡散確率モデル(英語版)の収束を改善するためにしか使われていない。
本研究は,最近の拡散法である第3次ランゲヴィンダイナミクス(TOLD)の改良について述べる。
この改良(略称TOLD++)は、DockhornのCritically Damped Langevin Dynamics (CLD)と同様、TOLD転送遷移行列を臨界減衰させることによって行われる。
具体的には、フォワード遷移行列の固有解析を利用して、元のTOLDスキームの下で最適なダイナミクスの集合を導出する。
TOLD++は理論的にはTOLDよりも早く収束することが保証されており、その高速収束はFID測定値に従ってSwiss RollのおもちゃデータセットとCIFAR-10データセットで検証されている。
While systems analysis has been studied for decades in the context of control theory, it has only been recently used to improve the convergence of Denoising Diffusion Probabilistic Models. This work describes a novel improvement to Third- Order Langevin Dynamics (TOLD), a recent diffusion method that performs better than its predecessors. This improvement, abbreviated TOLD++, is carried out by critically damping the TOLD forward transition matrix similarly to Dockhorn's Critically-Damped Langevin Dynamics (CLD). Specifically, it exploits eigen-analysis of the forward transition matrix to derive the optimal set of dynamics under the original TOLD scheme. TOLD++ is theoretically guaranteed to converge faster than TOLD, and its faster convergence is verified on the Swiss Roll toy dataset and CIFAR-10 dataset according to the FID metric. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# TMFNet:カラー画像操作連鎖検出のための2ストリームマルチチャネル融合ネットワーク
TMFNet: Two-Stream Multi-Channels Fusion Networks for Color Image Operation Chain Detection ( http://arxiv.org/abs/2409.07701v1 ) ライセンス: Link先を確認 | Yakun Niu, Lei Tan, Lei Zhang, Xianyu Zuo, | (参考訳) 近年,マルチメディア法医学分野において画像操作連鎖検出技術が注目されている。
しかし,既存の検出手法は一般化問題に悩まされている。
さらに、追加の法医学的証拠を提供するカラー画像のチャネル相関は無視されることが多い。
本稿では,空間アーチファクトストリームとノイズ残留ストリームを相補的に探索するカラー画像操作チェーン検出のための,新しい2ストリーム多チャンネル融合ネットワークを提案する。
具体的には,マルチチャネル相関のグローバルな特徴表現を学習するために,空間的アーティファクトストリームにプーリングすることなく,新たな奥行きアーキテクチャを提案する。
そして、ノイズ残差ストリーム内の低レベル特徴を捕捉しながら、マルチチャネルの相関情報を集約するフィルタセットを設計する。
その後, 深部残留モデルにより高次特徴を抽出する。
最後に、2つのストリームの特徴を融合モジュールに入力し、操作チェーンのよりリッチな識別表現を効果的に学習する。
実験により,提案手法はJPEG圧縮に対する堅牢性を維持しつつ,最先端の一般化能力を実現することを示す。
これらの実験で使用されたソースコードはhttps://github.com/LeiTan-98/TMFNetで公開される。
Image operation chain detection techniques have gained increasing attention recently in the field of multimedia forensics. However, existing detection methods suffer from the generalization problem. Moreover, the channel correlation of color images that provides additional forensic evidence is often ignored. To solve these issues, in this article, we propose a novel two-stream multi-channels fusion networks for color image operation chain detection in which the spatial artifact stream and the noise residual stream are explored in a complementary manner. Specifically, we first propose a novel deep residual architecture without pooling in the spatial artifact stream for learning the global features representation of multi-channel correlation. Then, a set of filters is designed to aggregate the correlation information of multi-channels while capturing the low-level features in the noise residual stream. Subsequently, the high-level features are extracted by the deep residual model. Finally, features from the two streams are fed into a fusion module, to effectively learn richer discriminative representations of the operation chain. Extensive experiments show that the proposed method achieves state-of-the-art generalization ability while maintaining robustness to JPEG compression. The source code used in these experiments will be released at https://github.com/LeiTan-98/TMFNet. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# DSBench: データサイエンスのエージェントはどこまでデータサイエンスの専門家になるのか?
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? ( http://arxiv.org/abs/2409.07703v1 ) ライセンス: Link先を確認 | Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu, | (参考訳) 大規模言語モデル(LLM)とLVLM(Large Vision-Language Models)は、ショッピングアシスタントやAIソフトウェアエンジニアなど、ターゲットとするアプリケーションのためのエージェントを構築する最近のトレンドに着目する、印象的な言語/ビジョン推論能力を示している。
近年,データサイエンス分野におけるその性能を調べるために,多くのデータサイエンスベンチマークが提案されている。
しかし、既存のデータサイエンスベンチマークは、設定が単純化されたために、実際のデータサイエンスアプリケーションと比較しても、まだ不足している。
このギャップを埋めるために、現実的なタスクでデータサイエンスエージェントを評価するために設計された包括的なベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
DSBenchは、長いコンテキスト、マルチモーダルタスクのバックグラウンド、大きなデータファイルとマルチテーブル構造による推論、エンドツーエンドのデータモデリングタスクの実行による現実的な設定を提供する。
最先端のLLM、LVLM、エージェントを評価したところ、最も優れたエージェントはデータ分析タスクの34.12%しか解決できず、34.74%の相対パフォーマンスギャップ(RPG)を達成した。
これらの発見は、より実用的でインテリジェントで自律的なデータサイエンスエージェントを開発するためのさらなる進歩の必要性を浮き彫りにしている。
Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have demonstrated impressive language/vision reasoning abilities, igniting the recent trend of building agents for targeted applications such as shopping assistants or AI software engineers. Recently, many data science benchmarks have been proposed to investigate their performance in the data science domain. However, existing data science benchmarks still fall short when compared to real-world data science applications due to their simplified settings. To bridge this gap, we introduce DSBench, a comprehensive benchmark designed to evaluate data science agents with realistic tasks. This benchmark includes 466 data analysis tasks and 74 data modeling tasks, sourced from Eloquence and Kaggle competitions. DSBench offers a realistic setting by encompassing long contexts, multimodal task backgrounds, reasoning with large data files and multi-table structures, and performing end-to-end data modeling tasks. Our evaluation of state-of-the-art LLMs, LVLMs, and agents shows that they struggle with most tasks, with the best agent solving only 34.12% of data analysis tasks and achieving a 34.74% Relative Performance Gap (RPG). These findings underscore the need for further advancements in developing more practical, intelligent, and autonomous data science agents. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 超単調アライメント探索
Super Monotonic Alignment Search ( http://arxiv.org/abs/2409.07704v1 ) ライセンス: Link先を確認 | Junhyeok Lee, Hyeongju Kim, | (参考訳) Glow-TTSによって導入されたモノトニックアライメントサーチ(MAS)は、テキストと音声の未知のアライメントを推定する最も一般的なアルゴリズムの1つである。
このアルゴリズムは、全てのパスをキャッシュすることで、動的プログラミングとの最も確率の高いアライメントを探索する必要があるので、アルゴリズムの時間複雑性は$O(T \times S)$である。
Glow-TTS の著者らは、このアルゴリズムを CPU 上で実行し、並列化は困難であると述べたが、MAS はテキスト長次元で並列化することができ、CPU の実行はデバイス間コピーに不規則な時間を消費することがわかった。
そこで我々はTritonカーネルとPyTorch JITスクリプトを実装し,デバイス間コピーなしでGPU上でMASを高速化した。
その結果、Super-MAS Tritonカーネルは極長の場合の72倍高速である。
コードは \url{https://github.com/supertone-inc/super-monotonic-align} で公開されている。
Monotonic alignment search (MAS), introduced by Glow-TTS, is one of the most popular algorithm in TTS to estimate unknown alignments between text and speech. Since this algorithm needs to search for the most probable alignment with dynamic programming by caching all paths, the time complexity of the algorithm is $O(T \times S)$. The authors of Glow-TTS run this algorithm on CPU, and while they mentioned it is difficult to parallelize, we found that MAS can be parallelized in text-length dimension and CPU execution consumes an inordinate amount of time for inter-device copy. Therefore, we implemented a Triton kernel and PyTorch JIT script to accelerate MAS on GPU without inter-device copy. As a result, Super-MAS Triton kernel is up to 72 times faster in the extreme-length case. The code is available at \url{https://github.com/supertone-inc/super-monotonic-align}. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# モジュールワイズノイズによるエンド・ツー・エンド自動運転の攻撃
Attack End-to-End Autonomous Driving through Module-Wise Noise ( http://arxiv.org/abs/2409.07706v1 ) ライセンス: Link先を確認 | Lu Wang, Tianyuan Zhang, Yikai Han, Muyang Fang, Ting Jin, Jiaqi Kang, | (参考訳) 近年のディープニューラルネットワークのブレークスルーにより、自律運転における多くのタスクが目覚ましいパフォーマンスを示した。
しかし、ディープラーニングモデルは敵の攻撃を受けやすいため、自律運転システムに重大なセキュリティリスクが生じる。
現在、エンド・ツー・エンドのアーキテクチャは、さまざまなタスクにまたがるコラボレーティブな性質のため、自動運転の主要なソリューションとして現れています。
しかし、そのようなモデルに対する敵対的攻撃の影響は、いまだに解明されていない。
本稿では,モジュール化されたエンドツーエンド自動運転モデルに対する総合的対角セキュリティ研究を行う。
モデル推論プロセスにおける潜在的な脆弱性を徹底的に検討し、モジュールワイドノイズ注入によるユニバーサルアタックスキームを設計する。
本研究では,フルスタック自動運転モデルを用いた大規模実験を行い,攻撃手法が従来の攻撃方法より優れていることを示す。
我々は、自動運転車の安全性と信頼性の確保について、我々の研究が新たな洞察を提供すると信じている。
With recent breakthroughs in deep neural networks, numerous tasks within autonomous driving have exhibited remarkable performance. However, deep learning models are susceptible to adversarial attacks, presenting significant security risks to autonomous driving systems. Presently, end-to-end architectures have emerged as the predominant solution for autonomous driving, owing to their collaborative nature across different tasks. Yet, the implications of adversarial attacks on such models remain relatively unexplored. In this paper, we conduct comprehensive adversarial security research on the modular end-to-end autonomous driving model for the first time. We thoroughly consider the potential vulnerabilities in the model inference process and design a universal attack scheme through module-wise noise injection. We conduct large-scale experiments on the full-stack autonomous driving model and demonstrate that our attack method outperforms previous attack methods. We trust that our research will offer fresh insights into ensuring the safety and reliability of autonomous driving systems. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# カラーコードによる低オーバーヘッドマジック状態蒸留
Low-overhead magic state distillation with color codes ( http://arxiv.org/abs/2409.07707v1 ) ライセンス: Link先を確認 | Seok-Hyung Lee, Felix Thomsen, Nicholas Fazio, Benjamin J. Brown, Stephen D. Bartlett, | (参考訳) 非クリフォードゲートのフォールトトレラント実装は、量子誤り訂正符号を用いて普遍的なフォールトトレラント量子コンピューティングを実現する上で大きな課題である。
マジックステート蒸留は、最もよく研究されている方法であるが、かなりの資源を必要とする。
したがって、論理レベルと物理レベルの両方の観点から、特定のコードに対してマジックステート蒸留を調整し、最適化することが重要である。
本研究では,2次元カラーコードに対して,表面符号よりも高い符号化率,クリフォードゲートの超越実装,効率的な格子手術を期待できる最適化を行う。
本研究では,15-to-1蒸留回路と格子手術に基づく2つの蒸留方式を提案する。
我々の最初のスキームは故障T測定を使い、目標の不忠実度が一定の閾値を超える場合(物理誤差率$p$で\sim 35p^3$)に資源効率を提供する。
資源効率を保ちながら低い不整合性を実現するため,第2の手法では蒸留フリーの耐故障性魔法状態準備プロトコルを利用して,第1の手法よりもはるかに低い不整合性(例えば$\sim 10^{-19}$ for $p = 10^{-4}$)を実現する。
特に,本手法は,与えられた達成可能な目標不忠実度に対して,最大2桁の資源コストで,カラーコードに対する最も優れたマジック状態蒸留法より優れている。
Fault-tolerant implementation of non-Clifford gates is a major challenge for achieving universal fault-tolerant quantum computing with quantum error-correcting codes. Magic state distillation is the most well-studied method for this but requires significant resources. Hence, it is crucial to tailor and optimize magic state distillation for specific codes from both logical- and physical-level perspectives. In this work, we perform such optimization for two-dimensional color codes, which are promising due to their higher encoding rates compared to surface codes, transversal implementation of Clifford gates, and efficient lattice surgery. We propose two distillation schemes based on the 15-to-1 distillation circuit and lattice surgery, which differ in their methods for handling faulty rotations. Our first scheme uses faulty T-measurement, offering resource efficiency when the target infidelity is above a certain threshold ($\sim 35p^3$ for physical error rate $p$). To achieve lower infidelities while maintaining resource efficiency, our second scheme exploits a distillation-free fault-tolerant magic state preparation protocol, achieving significantly lower infidelities (e.g., $\sim 10^{-19}$ for $p = 10^{-4}$) than the first scheme. Notably, our schemes outperform the best existing magic state distillation methods for color codes by up to about two orders of magnitude in resource costs for a given achievable target infidelity. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 制限ボルツマンマシンにおけるデータセットフリーウェイト初期化
Dataset-Free Weight-Initialization on Restricted Boltzmann Machine ( http://arxiv.org/abs/2409.07708v1 ) ライセンス: Link先を確認 | Muneki Yasuda, Ryosuke Maeno, Chako Takahashi, | (参考訳) フィードフォワードニューラルネットワークでは、LeCun、Xavier(またはGrorot)、Heといったデータセットフリーの重み初期化手法が開発されている。
これらの手法は、トレーニングデータセットを用いることなく、特定の分布(例えば、ガウス分布や一様分布)に基づいて、ウェイトパラメータの初期値をランダムに決定する。
そこで本研究では,Beroulli--Bernoulli RBMのモデルフリー重量初期化法を統計的力学解析に基づいて導出した。
提案手法では, 平均値ゼロのガウス分布から重みパラメータを抽出する。
ガウス分布の標準偏差は,二つの層の間に大きな層相関(LC)を与える標準偏差が学習効率を向上させるという仮説に基づいて最適化される。
LCの発現は統計力学的解析に基づいて導出される。
標準偏差の最適値はLCの最大点に対応する。
提案した重み初期化法は、特定の場合におけるXavier初期化と同一である(すなわち、2つの層のサイズが同じ場合、各層のランダム変数は$\{-1,1\}$-binaryであり、すべてのバイアスパラメータはゼロである)。
In feed-forward neural networks, dataset-free weight-initialization method such as LeCun, Xavier (or Glorot), and He initializations have been developed. These methods randomly determine the initial values of weight parameters based on specific distributions (e.g., Gaussian or uniform distributions) without using training datasets. To the best of the authors' knowledge, such a dataset-free weight-initialization method is yet to be developed for restricted Boltzmann machines (RBMs), which are probabilistic neural networks consisting of two layers, In this study, we derive a dataset-free weight-initialization method for Bernoulli--Bernoulli RBMs based on a statistical mechanical analysis. In the proposed weight-initialization method, the weight parameters are drawn from a Gaussian distribution with zero mean. The standard deviation of the Gaussian distribution is optimized based on our hypothesis which is that a standard deviation providing a larger layer correlation (LC) between the two layers improves the learning efficiency. The expression of the LC is derived based on a statistical mechanical analysis. The optimal value of the standard deviation corresponds to the maximum point of the LC. The proposed weight-initialization method is identical to Xavier initialization in a specific case (i.e., in the case the sizes of the two layers are the same, the random variables of the layers are $\{-1,1\}$-binary, and all bias parameters are zero). | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 爆発検知のための高調波TIフィード
Harnessing TI Feeds for Exploitation Detection ( http://arxiv.org/abs/2409.07709v1 ) ライセンス: Link先を確認 | Kajal Patel, Zubair Shafiq, Mateus Nogueira, Daniel Sadoc Menasché, Enrico Lovat, Taimur Kashif, Ashton Woiwood, Matheus Martins, | (参考訳) 多くの組織は、セキュリティの脅威に関連するリスクを評価するために、脅威インテリジェンス(TI)フィードに依存している。
データのボリュームと不均一性のため、さまざまなゆるく構造化されたTIフィードで利用可能な脅威情報を手動で分析することは禁じられている。
したがって、TIフィードから実行可能な情報を検査・抽出する自動化手法を開発する必要がある。
この目的のために、TIフィードから脆弱性のエクスプロイトを自動的に検出する機械学習パイプラインを提案する。
我々はまず、最先端の埋め込み技術(Doc2VecとBERT)を使用して、ゆるく構造化されたTIフィードで脅威語彙をモデル化し、その後、監視された機械学習分類器をトレーニングして、セキュリティ脆弱性の悪用を検出する。
弊社のアプローチは、191種類のTIフィードにおけるエクスプロイトイベントの特定に使用しています。
我々の縦断的評価は、過去のデータのみを用いてトレーニングを行ない、トレーニングを行なわないTIフィードでも、TIフィードからのエクスプロイトイベントを正確に識別できることを示唆している。
提案手法は,データ駆動型脆弱性リスク評価などの下流タスクに有用である。
Many organizations rely on Threat Intelligence (TI) feeds to assess the risk associated with security threats. Due to the volume and heterogeneity of data, it is prohibitive to manually analyze the threat information available in different loosely structured TI feeds. Thus, there is a need to develop automated methods to vet and extract actionable information from TI feeds. To this end, we present a machine learning pipeline to automatically detect vulnerability exploitation from TI feeds. We first model threat vocabulary in loosely structured TI feeds using state-of-the-art embedding techniques (Doc2Vec and BERT) and then use it to train a supervised machine learning classifier to detect exploitation of security vulnerabilities. We use our approach to identify exploitation events in 191 different TI feeds. Our longitudinal evaluation shows that it is able to accurately identify exploitation events from TI feeds only using past data for training and even on TI feeds withheld from training. Our proposed approach is useful for a variety of downstream tasks such as data-driven vulnerability risk assessment. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 疎ラベルグラフにおけるノード分類のための仮想ノード生成
Virtual Node Generation for Node Classification in Sparsely-Labeled Graphs ( http://arxiv.org/abs/2409.07712v1 ) ライセンス: Link先を確認 | Hang Cui, Tarek Abdelzaher, | (参考訳) より広範な機械学習文献において、データ生成手法はスパースラベルを拡大することにより、付加的な情報的トレーニング例を生成することによって、有望な結果を示す。
このような手法は、複雑なトポロジー構造におけるノード間の複雑な依存関係のため、グラフではあまり研究されない。
本稿では,ラベル付きノードの追加として,少数の高品質な合成ノードをグラフに注入し,ラベル付き情報の伝播を最適に拡張する新しいノード生成手法を提案する。
単に追加ノードを注入することで、このフレームワークはグラフ学習と下流分類技術に直交し、最も一般的なグラフ事前学習(自己教師付き学習)、半教師付き学習、メタラーニングメソッドと互換性がある。
この貢献は、新しい最適化問題を解くことによって生成されたノードセットを設計することにある。
1)分類損失を最小限に抑えてトレーニング精度を保証し,(2)下流タスクにおける低信頼ノードへのラベル伝搬を最大化し,高品質な伝搬を保証する。
理論的には、上記の双対最適化はノード分類のグローバルな信頼性を最大化する。
実験では、公開されている10のデータセットに対して、14のベースラインに対して統計的に有意なパフォーマンス改善を実証した。
In the broader machine learning literature, data-generation methods demonstrate promising results by generating additional informative training examples via augmenting sparse labels. Such methods are less studied in graphs due to the intricate dependencies among nodes in complex topology structures. This paper presents a novel node generation method that infuses a small set of high-quality synthesized nodes into the graph as additional labeled nodes to optimally expand the propagation of labeled information. By simply infusing additional nodes, the framework is orthogonal to the graph learning and downstream classification techniques, and thus is compatible with most popular graph pre-training (self-supervised learning), semi-supervised learning, and meta-learning methods. The contribution lies in designing the generated node set by solving a novel optimization problem. The optimization places the generated nodes in a manner that: (1) minimizes the classification loss to guarantee training accuracy and (2) maximizes label propagation to low-confidence nodes in the downstream task to ensure high-quality propagation. Theoretically, we show that the above dual optimization maximizes the global confidence of node classification. Our Experiments demonstrate statistically significant performance improvements over 14 baselines on 10 publicly available datasets. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 法的なAIソリューションによる実験: 司法へのアクセスに関する質問応答の事例
Experimenting with Legal AI Solutions: The Case of Question-Answering for Access to Justice ( http://arxiv.org/abs/2409.07713v1 ) ライセンス: Link先を確認 | Jonathan Li, Rohan Bhambhoria, Samuel Dahan, Xiaodan Zhu, | (参考訳) GPTやLlamaシリーズのようなジェネレーティブAIモデルは、法的な疑問に答えるために一般の人々を支援する大きな可能性を秘めている。
しかし、これまでの研究はほとんどはデータソーシング、推論、そしてそれらのモデルの評価に重点を置いていない。
そこで本研究では,データソーシング,推論,評価を対象とする,人間中心の法的NLPパイプラインを提案する。
我々は、雇用法から刑事法、法の専門家による回答、各回答に対する引用を含む、実際のおよび特定の法的問題を含むデータセット、LegalQAを導入、リリースする。
我々は,このデータセットの自動評価プロトコルを開発し,9桁以下のデータを含むにもかかわらず,列車セット内の850個の引用のみからの検索拡張生成がインターネット全体の検索にマッチまたは上回ることを示す。
最後に、クローズドソースモデルに後れを取っているオープンソース取り組みの今後の方向性を提案する。
Generative AI models, such as the GPT and Llama series, have significant potential to assist laypeople in answering legal questions. However, little prior work focuses on the data sourcing, inference, and evaluation of these models in the context of laypersons. To this end, we propose a human-centric legal NLP pipeline, covering data sourcing, inference, and evaluation. We introduce and release a dataset, LegalQA, with real and specific legal questions spanning from employment law to criminal law, corresponding answers written by legal experts, and citations for each answer. We develop an automatic evaluation protocol for this dataset, then show that retrieval-augmented generation from only 850 citations in the train set can match or outperform internet-wide retrieval, despite containing 9 orders of magnitude less data. Finally, we propose future directions for open-sourced efforts, which fall behind closed-sourced models. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# CollaMamba: 空間-時間空間モデルを用いた効率的な協調認識
CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model ( http://arxiv.org/abs/2409.07714v1 ) ライセンス: Link先を確認 | Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li, | (参考訳) 補完的な知覚情報を共有することで、マルチエージェント協調認識は環境の深い理解を促進する。
近年のコラボレーティブ・インセプションの研究は、CNNやトランスフォーマーを用いて空間空間における特徴表現と融合を学習している。
空間的領域と時間的フレームの拡張による依存関係のモデリングは,特徴量の向上に不可欠である。
そこで本研究では,コラマンバ(CollaMamba)という,資源効率の良い時空間協調状態空間モデルを提案する。
まず,空間SSMに基づく基本バックボーンネットワークを構築した。
このバックボーンは、単一エージェントとクロスエージェントの両方のビューから位置因果依存性を順応的にキャプチャし、線形複雑性を維持しながらコンパクトで包括的な中間特徴をもたらす。
さらに、時間的SSMに基づく履歴認識機能強化モジュールを考案し、拡張履歴フレームから文脈的手がかりを抽出し、低オーバーヘッドを保ちながら曖昧な特徴を洗練させる。
複数のデータセットにわたる大規模な実験により、CollaMambaは最先端の手法より優れており、計算と通信のオーバーヘッドを最大71.9%、通信のオーバーヘッドを1/64まで削減し、より高いモデル精度を実現している。
この研究はマンバのコラボレーティブ・インセプションにおけるポテンシャルの探索の先駆者となった。
ソースコードは利用可能になる。
By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba's potential in collaborative perception. The source code will be made available. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# FIReStereo:視覚劣化環境におけるUAS深度知覚のためのフォレスト赤外ステレオデータセット
FIReStereo: Forest InfraRed Stereo Dataset for UAS Depth Perception in Visually Degraded Environments ( http://arxiv.org/abs/2409.07715v1 ) ライセンス: Link先を確認 | Devansh Dhrafani, Yifei Liu, Andrew Jong, Ukcheol Shin, Yao He, Tyler Harp, Yaoyu Hu, Jean Oh, Sebastian Scherer, | (参考訳) 視覚的に劣化した環境でのロバストな深度知覚は、自律飛行システムにとって不可欠である。
赤外線を捉えた熱画像カメラは、視界の劣化に対して堅牢である。
しかし、大規模なデータセットが欠如しているため、無人航空システム(UAS)の深度知覚にサーマルカメラを使用することは、ほとんど未発見のままである。
本稿では,自律型空中認識のための立体熱深度認識データセットを提案する。
このデータセットは、ステレオ熱画像、LiDAR、IMU、地上の真理深度マップからなり、都市部や森林部で昼、夜、雨、煙といった様々な条件下で撮影された。
代表的なステレオ深度推定アルゴリズムをベンチマークし, 劣化条件下での性能について考察した。
我々のデータセットでトレーニングされたモデルは、目に見えないスモーキーな条件によく一般化し、深度知覚のためのステレオ熱画像の堅牢性を強調します。
本研究は,災害シナリオにおけるロボットの知覚を高めることを目的としており,これまで到達できなかった地域での探査と運用を可能にしている。
データセットとソースコードはhttps://firestereo.github.io.comで公開されている。
Robust depth perception in visually-degraded environments is crucial for autonomous aerial systems. Thermal imaging cameras, which capture infrared radiation, are robust to visual degradation. However, due to lack of a large-scale dataset, the use of thermal cameras for unmanned aerial system (UAS) depth perception has remained largely unexplored. This paper presents a stereo thermal depth perception dataset for autonomous aerial perception applications. The dataset consists of stereo thermal images, LiDAR, IMU and ground truth depth maps captured in urban and forest settings under diverse conditions like day, night, rain, and smoke. We benchmark representative stereo depth estimation algorithms, offering insights into their performance in degraded conditions. Models trained on our dataset generalize well to unseen smoky conditions, highlighting the robustness of stereo thermal imaging for depth perception. We aim for this work to enhance robotic perception in disaster scenarios, allowing for exploration and operations in previously unreachable areas. The dataset and source code are available at https://firestereo.github.io. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# Phish(er)の目 : フィッシング検出におけるユーザのメール処理パターンとメンタルモデルを理解するために
Eyes on the Phish(er): Towards Understanding Users' Email Processing Pattern and Mental Models in Phishing Detection ( http://arxiv.org/abs/2409.07717v1 ) ライセンス: Link先を確認 | Sijie Zhuo, Robert Biddle, Jared Daniel Recomendable, Giovanni Russello, Danielle Lottridge, | (参考訳) フィッシングメールは、他人に機密情報や資格情報を提供することを騙すために、自分自身を信頼できるアイデンティティとして見せかけるのが一般的だ。
サイバーセキュリティの進歩にもかかわらず、攻撃者は継続的に適応し、個人や組織に対して継続的な脅威を呈している。
メールユーザーは最後の防衛線だが、フィッシングメールを検出する準備が整っているとは限らない。
本研究は, 作業負荷がフィッシングに対する感受性に与える影響について検討し, アイトラッキング技術を用いて, 参加者の読書パターンや適切なフィッシングメールとのインタラクションを観察する。
定量分析と定性解析の両方を取り入れて,メール送信者とハイパーリンクURLの2つのフィッシング指標に対するユーザの注意点と,電子メールの信頼性評価とフィッシングメールの落差について検討した。
以上の結果から,メール送信者への注意がフィッシングの感受性を低下させる可能性が示唆された。
ブラウザ内のURLへの注意がフィッシング検出に影響を及ぼす証拠は見つからなかったが、テキストマスキングリンクへの注意はフィッシングの感受性を高める可能性がある。
また、メールの関連性、親しみやすさ、そして視覚的なプレゼンテーションが、電子メールの信頼性とフィッシングの感受性の第一印象にどのように影響するかを強調します。
Phishing emails typically masquerade themselves as reputable identities to trick people into providing sensitive information and credentials. Despite advancements in cybersecurity, attackers continuously adapt, posing ongoing threats to individuals and organisations. While email users are the last line of defence, they are not always well-prepared to detect phishing emails. This study examines how workload affects susceptibility to phishing, using eye-tracking technology to observe participants' reading patterns and interactions with tailored phishing emails. Incorporating both quantitative and qualitative analysis, we investigate users' attention to two phishing indicators, email sender and hyperlink URLs, and their reasons for assessing the trustworthiness of emails and falling for phishing emails. Our results provide concrete evidence that attention to the email sender can reduce phishing susceptibility. While we found no evidence that attention to the actual URL in the browser influences phishing detection, attention to the text masking links can increase phishing susceptibility. We also highlight how email relevance, familiarity, and visual presentation impact first impressions of email trustworthiness and phishing susceptibility. | 翻訳日:2024-09-13 18:02:00 公開日:2024-09-12 |
# 内視鏡における教師なし単眼深度推定のための奥行きモデル
Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy ( http://arxiv.org/abs/2409.07723v1 ) ライセンス: Link先を確認 | Bojian Li, Bo Liu, Jinghua Yue, Fugen Zhou, | (参考訳) 深さ推定は3次元再建の基盤であり,低侵襲内視鏡手術において重要な役割を担っている。
しかし、現在の深度推定ネットワークのほとんどは、グローバル情報をキャプチャする能力に制限がある従来の畳み込みニューラルネットワークに依存している。
ファンデーションモデルは、深度推定を強化するための有望な道を提供するが、現在利用可能なものは、主に自然画像に基づいて訓練されており、内視鏡画像に適用した場合、最適以下のパフォーマンスをもたらす。
本研究では,Depth Anything Modelのための新しい微調整戦略を導入し,本質的な非教師なし単分子深度推定フレームワークと統合する。
提案手法にはランダムベクトルに基づく低ランク適応手法が含まれており,モデルの異なるスケールへの適応性を向上させる。
さらに, エッジやテクスチャなどの高頻度の詳細を捕捉するトランスの限られた性能を補うために, 奥行き分離可能な畳み込みを基盤とした残差ブロックを提案する。
SCAREDデータセットによる実験結果から,本手法はトレーニング可能なパラメータの数を最小化しつつ,最先端の性能を実現する。
低侵襲内視鏡手術にこの方法を適用することで,これらの手術の精度と安全性を大きく向上させることができる。
Depth estimation is a cornerstone of 3D reconstruction and plays a vital role in minimally invasive endoscopic surgeries. However, most current depth estimation networks rely on traditional convolutional neural networks, which are limited in their ability to capture global information. Foundation models offer a promising avenue for enhancing depth estimation, but those currently available are primarily trained on natural images, leading to suboptimal performance when applied to endoscopic images. In this work, we introduce a novel fine-tuning strategy for the Depth Anything Model and integrate it with an intrinsic-based unsupervised monocular depth estimation framework. Our approach includes a low-rank adaptation technique based on random vectors, which improves the model's adaptability to different scales. Additionally, we propose a residual block built on depthwise separable convolution to compensate for the transformer's limited ability to capture high-frequency details, such as edges and textures. Our experimental results on the SCARED dataset show that our method achieves state-of-the-art performance while minimizing the number of trainable parameters. Applying this method in minimally invasive endoscopic surgery could significantly enhance both the precision and safety of these procedures. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# GRE^2-MDCL:多次元コントラスト学習によるグラフ表現埋め込み
GRE^2-MDCL: Graph Representation Embedding Enhanced via Multidimensional Contrastive Learning ( http://arxiv.org/abs/2409.07725v1 ) ライセンス: Link先を確認 | Kaizhe Fan, Quanjun Li, | (参考訳) グラフ表現学習は、ノードをベクトル表現にマッピングする際にグラフトポロジを保存する強力なツールとして登場し、ノード分類やコミュニティ検出などの下流タスクを可能にしている。
しかし、現在のグラフニューラルネットワークモデルのほとんどは、ラベル付きデータが不足している現実のシナリオにおける実用性を制限する、広範なラベル付きデータを必要とするという課題に直面している。
この課題に対処するため、研究者たちはグラフデータとコントラスト学習技術を活用したグラフコントラスト学習(GCL)を探索した。
有望ではあるが、既存のGCLメソッドは、ローカルグラフとグローバルグラフの両方を効果的にキャプチャし、ノードレベルとグラフレベルの表現間のトレードオフのバランスをとるのに苦労することが多い。
本稿では,多次元コントラスト学習(GRE2-MDCL)によるグラフ表現埋め込みを提案する。
本モデルでは,マルチヘッドアテンションGNNを中心として,新しい三重ネットワークアーキテクチャを導入する。
GRE2-MDCL は、SVD と LAGNN 技術を用いて、まずグローバルかつ局所的に入力グラフを拡張する。
次に、モデルを最適化するために、クロスネットワーク、クロスビュー、および近隣コントラストを組み込んだ多次元のコントラスト損失を構築する。
Cora、Citeseer、PubMedのベンチマークデータセットに関する大規模な実験は、GRE2-MDCLがそれぞれ82.5%、72.5%、81.6%の精度で最先端のパフォーマンスを達成することを示した。
さらに、クラスタ内集約の強化とクラスタ間境界の明確化が図られ、ベースラインのGCLモデルを改善する上での我々のフレームワークの有効性が強調される。
Graph representation learning has emerged as a powerful tool for preserving graph topology when mapping nodes to vector representations, enabling various downstream tasks such as node classification and community detection. However, most current graph neural network models face the challenge of requiring extensive labeled data, which limits their practical applicability in real-world scenarios where labeled data is scarce. To address this challenge, researchers have explored Graph Contrastive Learning (GCL), which leverages enhanced graph data and contrastive learning techniques. While promising, existing GCL methods often struggle with effectively capturing both local and global graph structures, and balancing the trade-off between nodelevel and graph-level representations. In this work, we propose Graph Representation Embedding Enhanced via Multidimensional Contrastive Learning (GRE2-MDCL). Our model introduces a novel triple network architecture with a multi-head attention GNN as the core. GRE2-MDCL first globally and locally augments the input graph using SVD and LAGNN techniques. It then constructs a multidimensional contrastive loss, incorporating cross-network, cross-view, and neighbor contrast, to optimize the model. Extensive experiments on benchmark datasets Cora, Citeseer, and PubMed demonstrate that GRE2-MDCL achieves state-of-the-art performance, with average accuracies of 82.5%, 72.5%, and 81.6% respectively. Visualizations further show tighter intra-cluster aggregation and clearer inter-cluster boundaries, highlighting the effectiveness of our framework in improving upon baseline GCL models. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 長い尾にある音楽の自動タグ付け:数秒のアプローチ
Music auto-tagging in the long tail: A few-shot approach ( http://arxiv.org/abs/2409.07730v1 ) ライセンス: Link先を確認 | T. Aleksandra Ma, Alexander Lerch, | (参考訳) デジタル音楽の分野では、タグを使って広範囲なデータベースから楽曲を効率的に整理し、検索することが、音楽カタログの所有者にとって不可欠である。
専門家による人間のタグ付けは労働集約的であるが、ほとんどは正確である。一方、教師付き学習による自動タグ付けは、精度を満足するが、事前に定義されたトレーニングタグのセットに制限されている。
タグの意味を理解するために、少数の人間が提供する例からモデルを学習し、その後、これらのタグを自律的に適用することで、この小さな定義済みのタグのセットを超えて、実行可能なソリューションを提供する。
本稿では,事前学習されたモデルから,線形プローブとしても知られる軽量線形分類器への特徴を入力として利用することにより,少数ショット学習手法をマルチラベル音楽の自動タグに組み込むことを提案する。
本研究は,クラス数やクラス毎のサンプル数によって異なる数式パラメトリゼーションの他,人気の高い事前学習機能についても検討する。
実験により,事前学習した特徴を持つ単純なモデルでは,タグ毎の20サンプルなど,トレーニングデータを大幅に削減しつつ,最先端モデルに近い性能が得られることが示された。
さらに、トレーニングデータセット全体をトレーニングする場合、線形プローブは主要なモデルと競合する。
提案手法は,ラベル付きデータに制限のあるロングテールタグを自動的に割り当てるという問題に効果的に対処できることが示唆された。
In the realm of digital music, using tags to efficiently organize and retrieve music from extensive databases is crucial for music catalog owners. Human tagging by experts is labor-intensive but mostly accurate, whereas automatic tagging through supervised learning has approached satisfying accuracy but is restricted to a predefined set of training tags. Few-shot learning offers a viable solution to expand beyond this small set of predefined tags by enabling models to learn from only a few human-provided examples to understand tag meanings and subsequently apply these tags autonomously. We propose to integrate few-shot learning methodology into multi-label music auto-tagging by using features from pre-trained models as inputs to a lightweight linear classifier, also known as a linear probe. We investigate different popular pre-trained features, as well as different few-shot parametrizations with varying numbers of classes and samples per class. Our experiments demonstrate that a simple model with pre-trained features can achieve performance close to state-of-the-art models while using significantly less training data, such as 20 samples per tag. Additionally, our linear probe performs competitively with leading models when trained on the entire training dataset. The results show that this transfer learning-based few-shot approach could effectively address the issue of automatically assigning long-tail tags with only limited labeled data. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 単一人工原子の脱コヒーレンスによる群遅延制御
Group delay controlled by the decoherence of a single artificial atom ( http://arxiv.org/abs/2409.07731v1 ) ライセンス: Link先を確認 | Y. -T. Cheng, K. -M. Hsieh, B. -Y. Wu, Z. Q. Niu, F. Aziz, Y. -H. Huang, P. Y. Wen, K. -T. Lin, Y. -H. Lin, J. C. Chen, A. F. Kockum, G. -D. Lin, Z. -R. Lin, Y. Lu, I. -C. Hoi, | (参考訳) 単一光子レベルで光を遅くする能力は、量子情報処理やその他の量子技術に応用できる。
導波管量子力学(waveguide quantum electrodynamics, QED)におけるマイクロ波光速度の動的制御を可能にする。
本手法は, 鏡面前における超伝導人工原子の放射分解速度と非放射崩壊速度のバランスを利用する2つのメカニズムに基づく。
第1の方法では、鏡による干渉効果を用いて原子の放射減衰を調整し、第2の方法では、オートラー-タウンズ効果を介して原子を励起して非放射崩壊を制御する。
放射崩壊速度の半分が非放射崩壊速度を超えると、正の群遅延が観測され、逆に非放射崩壊速度の優位性は負の群遅延をもたらす。
その結果,導波路QEDにおける信号処理能力が向上した。
The ability to slow down light at the single-photon level has applications in quantum information processing and other quantum technologies. We demonstrate two methods, both using just a single artificial atom, enabling dynamic control over microwave light velocities in waveguide quantum electrodynamics (waveguide QED). Our methods are based on two distinct mechanisms harnessing the balance between radiative and non-radiative decay rates of a superconducting artificial atom in front of a mirror. In the first method, we tune the radiative decay of the atom using interference effects due to the mirror; in the second method, we pump the atom to control its non-radiative decay through the Autler--Townes effect. When the half the radiative decay rate exceeds the non-radiative decay rate, we observe positive group delay; conversely, dominance of the non-radiative decay rate results in negative group delay. Our results advance signal-processing capabilities in waveguide QED. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 大規模言語モデルはパターンマッチングである:ChatGPTによる半構造化および構造化文書の編集
Large Language Models are Pattern Matchers: Editing Semi-Structured and Structured Documents with ChatGPT ( http://arxiv.org/abs/2409.07732v1 ) ライセンス: Link先を確認 | Irene Weber, | (参考訳) 大規模言語モデル(LLM)は多数のアプリケーションを提供しますが、その完全な範囲はまだ分かっていません。
本稿では,LLMを最小限の労力で構造化文書や半構造化文書の編集に適用できるかどうかを検討する。
定性的な研究手法を用いて、ChatGPTを用いて2つのケーススタディを行い、その結果を徹底的に分析する。
実験の結果,LLMは基本的かつ簡単なプロンプトを付与すれば,構造化文書や半構造化文書を効果的に編集できることが示唆された。
ChatGPTは、注釈付きドキュメントの構造を認識し、処理する強力な能力を示している。
これは、明示的にタスクとデータをプロンプトで構造化することで、LLMがタスクを理解し、解決する能力を高める可能性があることを示唆している。
さらに実験では,ChatGPTのパターンマッチングスキルも明らかにした。
この観察は、LSMの幻覚に至る過程の理解に寄与する可能性があるため、さらなる調査に値する。
Large Language Models (LLMs) offer numerous applications, the full extent of which is not yet understood. This paper investigates if LLMs can be applied for editing structured and semi-structured documents with minimal effort. Using a qualitative research approach, we conduct two case studies with ChatGPT and thoroughly analyze the results. Our experiments indicate that LLMs can effectively edit structured and semi-structured documents when provided with basic, straightforward prompts. ChatGPT demonstrates a strong ability to recognize and process the structure of annotated documents. This suggests that explicitly structuring tasks and data in prompts might enhance an LLM's ability to understand and solve tasks. Furthermore, the experiments also reveal impressive pattern matching skills in ChatGPT. This observation deserves further investigation, as it may contribute to understanding the processes leading to hallucinations in LLMs. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# DFDG: ワンショットフェデレーション学習のためのデータフリーデュアルジェネレータ逆変換
DFDG: Data-Free Dual-Generator Adversarial Distillation for One-Shot Federated Learning ( http://arxiv.org/abs/2409.07734v1 ) ライセンス: Link先を確認 | Kangyang Luo, Shuai Wang, Yexuan Fu, Renrong Shao, Xiang Li, Yunshi Lan, Ming Gao, Jinlong Shu, | (参考訳) Federated Learning(FL)は、クライアントがプライベートデータセットではなくモデル情報を共有することで、グローバルモデルの協調トレーニングに共同で参加する分散機械学習スキームである。
コミュニケーションとプライバシに関する懸念から、単一のコミュニケーションラウンドを持つワンショットFLは、事実上有望なソリューションとして現れました。
しかし、既存のワンショットFL手法では、パブリックデータセット、同質な設定のモデル、あるいはローカルモデルから限られた知識を抽出する必要があるため、堅牢なグローバルモデルをトレーニングすることは困難または不可能である。
これらの制約に対処するため、単発FLのための新しいデータフリー二重生成器対逆蒸留法(DFDG)を提案し、この方法により、より広い局所モデルのトレーニング空間を2重生成器の訓練により探索することができる。
DFDGは対角的に実行され、二重生成子訓練と二重モデル蒸留の2つの部分から構成される。
デュアルジェネレータのトレーニングでは,各ジェネレータの忠実度,伝達性,多様性について検討し,両ジェネレータの出力空間の重なりを小さくするため,クロスディバージェンス損失を調整する。
二重モデル蒸留では、訓練された二重生成器が協力して、グローバルモデルの更新のためのトレーニングデータを提供する。
最後に,様々な画像分類タスクについて広範な実験を行ったところ,DFDGはSOTAベースラインに比べて精度が著しく向上していることがわかった。
Federated Learning (FL) is a distributed machine learning scheme in which clients jointly participate in the collaborative training of a global model by sharing model information rather than their private datasets. In light of concerns associated with communication and privacy, one-shot FL with a single communication round has emerged as a de facto promising solution. However, existing one-shot FL methods either require public datasets, focus on model homogeneous settings, or distill limited knowledge from local models, making it difficult or even impractical to train a robust global model. To address these limitations, we propose a new data-free dual-generator adversarial distillation method (namely DFDG) for one-shot FL, which can explore a broader local models' training space via training dual generators. DFDG is executed in an adversarial manner and comprises two parts: dual-generator training and dual-model distillation. In dual-generator training, we delve into each generator concerning fidelity, transferability and diversity to ensure its utility, and additionally tailor the cross-divergence loss to lessen the overlap of dual generators' output spaces. In dual-model distillation, the trained dual generators work together to provide the training data for updates of the global model. At last, our extensive experiments on various image classification tasks show that DFDG achieves significant performance gains in accuracy compared to SOTA baselines. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# コンピュータビジョン問題に応用したトランスファーラーニング:現状,限界,機会に関する調査
Transfer Learning Applied to Computer Vision Problems: Survey on Current Progress, Limitations, and Opportunities ( http://arxiv.org/abs/2409.07736v1 ) ライセンス: Link先を確認 | Aaryan Panda, Damodar Panigrahi, Shaswata Mitra, Sudip Mittal, Shahram Rahimi, | (参考訳) コンピュータビジョン(CV)の分野は課題に直面している。
当初は手作りの機能とルールベースのアルゴリズムに頼っていたため、精度は限られていた。
機械学習(ML)の導入により、特にTransfer Learning(TL)は、トレーニング済みモデルの再利用によって、さまざまなCV問題に対処する。
TLは、ほぼ同等の精度を提供する一方で、データとコンピューティングを少なくし、CVランドスケープにおいて顕著な技術である。
我々の研究は、TL開発とCVアプリケーションが現実世界の問題を解決するためにどのようにそれを使うかに焦点を当てている。
最近の発展、限界、機会について論じる。
The field of Computer Vision (CV) has faced challenges. Initially, it relied on handcrafted features and rule-based algorithms, resulting in limited accuracy. The introduction of machine learning (ML) has brought progress, particularly Transfer Learning (TL), which addresses various CV problems by reusing pre-trained models. TL requires less data and computing while delivering nearly equal accuracy, making it a prominent technique in the CV landscape. Our research focuses on TL development and how CV applications use it to solve real-world problems. We discuss recent developments, limitations, and opportunities. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# Ruri: 和文埋め込み
Ruri: Japanese General Text Embeddings ( http://arxiv.org/abs/2409.07737v1 ) ライセンス: Link先を確認 | Hayato Tsukagoshi, Ryohei Sasano, | (参考訳) 本稿では,日本語の汎用テキスト埋め込みモデルであるRuriの開発について報告する。
近年,英語および多言語文脈における汎用テキスト埋め込みモデルの開発が活発に行われているが,日本語におけるモデル開発はいまだに不十分である。
主な理由はデータセットの欠如と必要な専門知識の欠如である。
本稿では,Ruriの開発過程について詳述する。
具体的には,LLMが生成した合成データセットを用いた埋め込みモデルのトレーニング,データセットフィルタリングと知識蒸留のためのリランカの構築,その結果の汎用テキスト埋め込みモデルの性能評価について論じる。
We report the development of Ruri, a series of Japanese general text embedding models. While the development of general-purpose text embedding models in English and multilingual contexts has been active in recent years, model development in Japanese remains insufficient. The primary reasons for this are the lack of datasets and the absence of necessary expertise. In this report, we provide a detailed account of the development process of Ruri. Specifically, we discuss the training of embedding models using synthesized datasets generated by LLMs, the construction of the reranker for dataset filtering and knowledge distillation, and the performance evaluation of the resulting general-purpose text embedding models. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 干渉下でのハンドリング表現評価
Handling expression evaluation under interference ( http://arxiv.org/abs/2409.07741v1 ) ライセンス: Link先を確認 | Ian J. Hayes, Cliff B. Jones, Larissa A. Meinicke, | (参考訳) プログラム構成のためのHoareスタイルの推論ルールは、プログラムテキストからの式とテストのコピーを論理的コンテキストに許可する。
これは逐次プログラムにも注意を要することが知られているが、変数の値に潜在的に干渉するため、並列プログラムにはさらなる問題が生じる。
のアプローチは、許容可能な干渉を記録する問題に取り組み、安全な推論ルールを提供する方法を提供する。
本稿では,プログラムの論理的文脈における表現とテストの安全に再利用するための条件を明確にし,形式化する方法について述べる。
Hoare-style inference rules for program constructs permit the copying of expressions and tests from program text into logical contexts. It is known that this requires care even for sequential programs but further issues arise for concurrent programs because of potential interference to the values of variables. The "rely-guarantee" approach does tackle the issue of recording acceptable interference and offers a way to provide safe inference rules. This paper shows how the algebraic presentation of rely-guarantee ideas can clarify and formalise the conditions for safely re-using expressions and tests from program text in logical contexts for reasoning about programs. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# LOCKEY: モデル認証とディープフェイク追跡の新しいアプローチ
LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking ( http://arxiv.org/abs/2409.07743v1 ) ライセンス: Link先を確認 | Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji, | (参考訳) 本稿では、キーベースモデル認証と透かし技術を統合することにより、ユーザがモデルパラメータにフルアクセスした場合でも、不正なディープフェイクを検知し、生成モデルにおけるユーザ追跡を可能にする新しいアプローチを提案する。
本手法では,ユーザ固有のキーを伴って,モデルパラメータをユーザに提供する。
推論中、モデルは標準入力と共にキーに条件付けされる。
有効なキーは期待された出力となり、一方、無効なキーは劣化した出力をトリガーし、キーベースのモデル認証を強制する。
ユーザ追跡では、生成したコンテンツにユーザのユニークなキーを透かしとして埋め込み、ユーザのIDの識別を容易にする。
我々は,SilentCipher透かし方式を用いて,音声コーデックとボコーダの2種類のモデルに対するアプローチの有効性を実証した。
さらに,組込み透かしの様々な歪みに対する堅牢性を評価し,その信頼性を様々なシナリオで検証する。
This paper presents a novel approach to deter unauthorized deepfakes and enable user tracking in generative models, even when the user has full access to the model parameters, by integrating key-based model authentication with watermarking techniques. Our method involves providing users with model parameters accompanied by a unique, user-specific key. During inference, the model is conditioned upon the key along with the standard input. A valid key results in the expected output, while an invalid key triggers a degraded output, thereby enforcing key-based model authentication. For user tracking, the model embeds the user's unique key as a watermark within the generated content, facilitating the identification of the user's ID. We demonstrate the effectiveness of our approach on two types of models, audio codecs and vocoders, utilizing the SilentCipher watermarking method. Additionally, we assess the robustness of the embedded watermarks against various distortions, validating their reliability in various scenarios. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 解釈可能な状態空間モデルを用いた3次元高分解能MR画像における脳腫瘍表現の学習
Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models ( http://arxiv.org/abs/2409.07746v1 ) ライセンス: Link先を確認 | Qingqiao Hu, Daoan Zhang, Jiebo Luo, Zhenyu Gong, Benedikt Wiestler, Jianguo Zhang, Hongwei Bran Li, | (参考訳) 高次元体積磁気共鳴(MR)画像から有意義かつ解釈可能な表現を学習することは、パーソナライズド医療の推進に不可欠である。
Vision Transformers (ViTs) は画像データの処理において有望であることを示す一方で、3次元マルチコントラストMR画像への応用は、計算複雑性と解釈可能性による課題に直面している。
そこで本研究では,ViTライクなモデルを拡張して高解像度データを効率的に処理し,学習された表現の解釈可能性を向上させる,新しい状態空間モデル(SSM)ベースのマスク付きオートエンコーダを提案する。
本研究では,SSMの文脈において,潜時特徴が入力ボリュームの特定の領域とどのように対応するかを直接可視化する潜在時空間マッピング手法を提案する。
我々は,isocitrate dehydrogenase変異の同定と1p/19q同時欠失分類,最先端の精度の達成という2つの重要なニューロオンコロジー課題に対して,本手法の有効性を検証した。
本結果は,SSMに基づく自己教師型学習が,効率と解釈可能性を組み合わせた放射能解析を変換する可能性を強調した。
Learning meaningful and interpretable representations from high-dimensional volumetric magnetic resonance (MR) images is essential for advancing personalized medicine. While Vision Transformers (ViTs) have shown promise in handling image data, their application to 3D multi-contrast MR images faces challenges due to computational complexity and interpretability. To address this, we propose a novel state-space-model (SSM)-based masked autoencoder which scales ViT-like models to handle high-resolution data effectively while also enhancing the interpretability of learned representations. We propose a latent-to-spatial mapping technique that enables direct visualization of how latent features correspond to specific regions in the input volumes in the context of SSM. We validate our method on two key neuro-oncology tasks: identification of isocitrate dehydrogenase mutation status and 1p/19q co-deletion classification, achieving state-of-the-art accuracy. Our results highlight the potential of SSM-based self-supervised learning to transform radiomics analysis by combining efficiency and interpretability. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# ビデオ質問応答のための多目的イベントグラフ表現学習
Multi-object event graph representation learning for Video Question Answering ( http://arxiv.org/abs/2409.07747v1 ) ライセンス: Link先を確認 | Yanan Wang, Shuichiro Haruta, Donghuo Zeng, Julio Vizcarra, Mori Kurokawa, | (参考訳) ビデオ質問応答(Video QA)とは、あるビデオに関する質問に対する正しい回答を予測するタスクである。
ビデオから抽出したオブジェクト間の空間的・時間的関係を理解して因果的・時間的推論を行う。
以前の研究では、トランスフォーマーベースの手法で個々のオブジェクトの動きをモデリングすることに重点を置いていたが、複数のオブジェクト(例えば「少年がフープにボールを投げている」など)を含む複雑なシナリオを捉えると、フェールする。
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
本手法では,複数のオブジェクトに関連付けられたイベント表現をキャプチャするために,逆グラフ表現学習のための多層GNNクラスタモジュールを用いて,質問テキストとその関連する複数オブジェクトイベントグラフ間のコントラスト学習を実現する。
提案手法は,2つの挑戦的データセットであるNExT-QAとTGIF-QA-Rの精度を最大2.2%向上させる。
特に、因果関係や時間的問題を扱う場合のベースラインよりも2.8%優れており、複数のオブジェクトベースのイベントを推論する際の強みを強調している。
Video question answering (VideoQA) is a task to predict the correct answer to questions posed about a given video. The system must comprehend spatial and temporal relationships among objects extracted from videos to perform causal and temporal reasoning. While prior works have focused on modeling individual object movements using transformer-based methods, they falter when capturing complex scenarios involving multiple objects (e.g., "a boy is throwing a ball in a hoop"). We propose a contrastive language event graph representation learning method called CLanG to address this limitation. Aiming to capture event representations associated with multiple objects, our method employs a multi-layer GNN-cluster module for adversarial graph representation learning, enabling contrastive learning between the question text and its relevant multi-object event graph. Our method outperforms a strong baseline, achieving up to 2.2% higher accuracy on two challenging VideoQA datasets, NExT-QA and TGIF-QA-R. In particular, it is 2.8% better than baselines in handling causal and temporal questions, highlighting its strength in reasoning multiple object-based events. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# ビデオ質問応答のためのトップダウン活動表現学習
Top-down Activity Representation Learning for Video Question Answering ( http://arxiv.org/abs/2409.07748v1 ) ライセンス: Link先を確認 | Yanan Wang, Shuichiro Haruta, Donghuo Zeng, Julio Vizcarra, Mori Kurokawa, | (参考訳) アトミックアクション(例えば、現在を拾い上げ、ソファーへ移動し、現在を解き放つ)からコンテキストイベント(例えば、クリスマスを祝う)までの複雑な階層的人間の活動は、高性能なビデオ質問応答(VideoQA)を実現するために不可欠である。
最近の研究は、連続的なビデオシーケンスを処理するためにマルチモーダルモデル(例えば、CLIP、LLaVA)を拡張し、モデルの時間的推論能力を高めている。
しかしながら、これらのアプローチは、比較的長期のシーケンスに連続的に分散しない複数のアトミックアクションに分解できるコンテキストイベントをキャプチャできないことが多い。
本稿では,CLIPモデルの空間的視覚的コンテキスト表現機能を活用し,ビデオ中のコンテキストイベントの観点から非連続的な視覚的表現を得るため,長時間のビデオシーケンスを空間画像領域に変換し,ビデオQAタスクのためのマルチモーダルモデルLLaVAを微調整する。
提案手法は,STARタスク,特に78.4%の精度で,NExTQAタスクの2.8ポイント以上を達成している。
Capturing complex hierarchical human activities, from atomic actions (e.g., picking up one present, moving to the sofa, unwrapping the present) to contextual events (e.g., celebrating Christmas) is crucial for achieving high-performance video question answering (VideoQA). Recent works have expanded multimodal models (e.g., CLIP, LLaVA) to process continuous video sequences, enhancing the model's temporal reasoning capabilities. However, these approaches often fail to capture contextual events that can be decomposed into multiple atomic actions non-continuously distributed over relatively long-term sequences. In this paper, to leverage the spatial visual context representation capability of the CLIP model for obtaining non-continuous visual representations in terms of contextual events in videos, we convert long-term video sequences into a spatial image domain and finetune the multimodal model LLaVA for the VideoQA task. Our approach achieves competitive performance on the STAR task, in particular, with a 78.4% accuracy score, exceeding the current state-of-the-art score by 2.8 points on the NExTQA task. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# 早期フォールトトレラント量子計算における変分量子固有解器による統計的位相推定
Contrasting Statistical Phase Estimation with the Variational Quantum Eigensolver in the era of Early Fault Tolerant Quantum Computation ( http://arxiv.org/abs/2409.07749v1 ) ライセンス: Link先を確認 | Ming-Zhi Chung, Andreas Thomasen, Henry Liao, Ryosuke Imai, | (参考訳) 本稿では,FTQC(Early-FTQC)時代のアプリケーションの概要を紹介する。
EFTQC装置の誤り訂正アーキテクチャからはじめて,最近開発された時空効率的なアナログ回転(STAR)アーキテクチャであるcite{akahoshi PartiallyFaultTolerantQuantum2024} を概観した。
次に,EDTQCアルゴリズムの要件を概観する。
特に,統計位相推定アルゴリズム(SPE)として知られる基底状態エネルギー推定(GSEE)アルゴリズムについて検討した。
我々は特に,Lin and Tong (LT22) \cite{Lin:2021rwb} と Gaussian Filter \cite{Wang:2022gxu} の2つのSPE型アルゴリズムに注目した。
後者に基づいてガウスフィッティングアルゴリズムを導入し, 代用後処理法を \cite{Wang:2022gxu} と比較した。
最後に,上述したアルゴリズムと変分量子固有解法(VQE)を1-uCJアンサッツを用いて,異なるショット数でシミュレートする。
最も重要なことは、STARアーキテクチャに基づいてノイズのシミュレーションを行うことである。
STO-3G ベースで 4-qubit $H_2$ Hamiltonian の基底状態エネルギーを推定すると,物理誤差率が十分に低い場合,SPE は VQE よりも有利となる。
In this review, we give an overview of the proposed applications in the early-FTQC (EFTQC) era. Starting from the error correction architecture for EFTQC device, we first review the recently developed space-time efficient analogue rotation (STAR) architecture \cite{akahoshiPartiallyFaultTolerantQuantum2024}, which is a partially fault-tolerant error correction architecture. Then, we review the requirements of an EFTQC algorithm. In particular, the class of ground state energy estimation (GSEE) algorithm known as the statistical phase estimation algorithm (SPE) is studied. We especially cast our attention on two SPE-type algorithms, the step-function filter-based variant by Lin and Tong (LT22) \cite{Lin:2021rwb} and Gaussian Filter \cite{Wang:2022gxu}. Based on the latter, we introduce the Gaussian Fitting algorithm, which uses an alternative post-processing procedure compared to \cite{Wang:2022gxu}. Finally, we systematically simulate the aforementioned algorithms and Variational Quantum Eigensolver (VQE) using the 1-uCJ ansatz with different shot counts. Most importantly, we perform noisy simulations based on the STAR architecture. We find that for estimating the ground state energy of the 4-qubit $H_2$ Hamiltonian in the STO-3G basis, SPE becomes more advantageous over VQE when the physical error rate is sufficiently low. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# ホモモルフィック暗号を用いた効率的なプライバシ保存型感性推論
Efficient Privacy-Preserving KAN Inference Using Homomorphic Encryption ( http://arxiv.org/abs/2409.07751v1 ) ライセンス: Link先を確認 | Zhizheng Lai, Yufei Zhou, Peijia Zheng, Lin Chen, | (参考訳) 最近提案されたコルモゴロフ・アルノルドネットワーク(KAN)は、解釈可能性の向上とモデル表現性の向上を提供する。
しかし、Kans氏は推論中のプライバシー漏洩に関する課題も提示している。
ホモモルフィック暗号化(HE)は、ディープラーニングモデルのプライバシ保護推論を促進し、リソース制限されたユーザが、データセキュリティを確保しながらディープラーニングサービスのメリットを享受できるようにする。
しかし、SiLUアクティベーション関数やB-スプライン関数のような非線形要素を取り入れたkanの複雑な構造は、既存のプライバシ保存推論手法を不十分にしている。
この問題に対処するために,kan に適した正確かつ効率的なプライバシ保護型推論手法を提案する。
提案手法では,SiLUアクティベーション関数のタスク固有多項式近似を導入し,実世界のデータセット上で高い精度で近似範囲を動的に調整する。
さらに, HE領域内でのB-スプライン関数の効率的な計算法を開発し, 繰り返しパッキング, 遅延結合, 比較関数などの手法を活用する。
シンボル式評価と画像分類の両面において,プライバシ保存型kan推論方式の有効性を評価する。
実験結果から,本モデルは各種データセットのプレーンテキストkanに匹敵する精度を達成し,平文MLPよりも優れることがわかった。
さらに、CIFAR-10データセットでは、我々の推論遅延は、単純な手法に比べて7倍以上のスピードアップを達成する。
The recently proposed Kolmogorov-Arnold Networks (KANs) offer enhanced interpretability and greater model expressiveness. However, KANs also present challenges related to privacy leakage during inference. Homomorphic encryption (HE) facilitates privacy-preserving inference for deep learning models, enabling resource-limited users to benefit from deep learning services while ensuring data security. Yet, the complex structure of KANs, incorporating nonlinear elements like the SiLU activation function and B-spline functions, renders existing privacy-preserving inference techniques inadequate. To address this issue, we propose an accurate and efficient privacy-preserving inference scheme tailored for KANs. Our approach introduces a task-specific polynomial approximation for the SiLU activation function, dynamically adjusting the approximation range to ensure high accuracy on real-world datasets. Additionally, we develop an efficient method for computing B-spline functions within the HE domain, leveraging techniques such as repeat packing, lazy combination, and comparison functions. We evaluate the effectiveness of our privacy-preserving KAN inference scheme on both symbolic formula evaluation and image classification. The experimental results show that our model achieves accuracy comparable to plaintext KANs across various datasets and outperforms plaintext MLPs. Additionally, on the CIFAR-10 dataset, our inference latency achieves over 7 times speedup compared to the naive method. | 翻訳日:2024-09-13 17:51:48 公開日:2024-09-12 |
# GatedUniPose: UniRepLKNetとGated Convolutionを組み合わせたポーズ推定の新しいアプローチ
GatedUniPose: A Novel Approach for Pose Estimation Combining UniRepLKNet and Gated Convolution ( http://arxiv.org/abs/2409.07752v1 ) ライセンス: Link先を確認 | Liang Feng, Ming Xu, Lihua Wen, Zhixuan Shen, | (参考訳) ポース推定はコンピュータビジョンにおいて重要なタスクであり、自律運転、人間のモーションキャプチャー、バーチャルリアリティーに広く応用されている。
しかし、既存の手法は、特に複雑な場面において、高い精度を達成するための課題に直面している。
本稿では,UniRepLKNetとGated Convolutionを組み合わせた新しいポーズ推定手法GatedUniPoseを提案する。
さらに,DySample Upsampling を用いてヘッド層の特徴マップ結合法を改良する。
既存の方法と比較して、GatedUniPoseは複雑なシーンやオクルージョンの課題を扱うのに優れている。
COCO、MPII、CrowdPoseデータセットの実験結果から、GatedUniPoseは比較的少数のパラメータで大幅なパフォーマンス向上を実現し、同様のパラメータサイズまたはより大きなモデルに対して、より良い結果または同等の結果をもたらすことが示されている。
Pose estimation is a crucial task in computer vision, with wide applications in autonomous driving, human motion capture, and virtual reality. However, existing methods still face challenges in achieving high accuracy, particularly in complex scenes. This paper proposes a novel pose estimation method, GatedUniPose, which combines UniRepLKNet and Gated Convolution and introduces the GLACE module for embedding. Additionally, we enhance the feature map concatenation method in the head layer by using DySample upsampling. Compared to existing methods, GatedUniPose excels in handling complex scenes and occlusion challenges. Experimental results on the COCO, MPII, and CrowdPose datasets demonstrate that GatedUniPose achieves significant performance improvements with a relatively small number of parameters, yielding better or comparable results to models with similar or larger parameter sizes. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 人間ロボットのコラボレーションの関連性
Relevance for Human Robot Collaboration ( http://arxiv.org/abs/2409.07753v1 ) ライセンス: Link先を確認 | Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi, | (参考訳) 効果的な人間ロボットコラボレーション(HRC)は、ロボットに人間のような知性を持つことを要求する。
複雑な環境下で要素を選択的に処理・フィルタリングする人間の認知能力に触発された本研究では,「関連性」と呼ばれる新たな概念とシーン理解アプローチを提案する。
「シーン内の関連要素を識別する。」
関連性決定を選択的にトリガするイベントベースのフレームワークと,構造化シーン表現に基づく確率論的手法を,正確かつ効率的に定量化する。
シミュレーションの結果,一般HRCセットアップの妥当性を正確に予測し,精度0.99,リコール0.94を達成した。
関連性は、シリアルタスクの純粋な計画に比べて79.56%改善し、物体検出器の知覚遅延を26.53%削減し、HRCの安全性を13.50%改善し、HRCの問い合わせ回数を75.36%削減するために、HRCのいくつかの領域に広く適用することができる。
実世界のデモでは、人間を日々のタスクでインテリジェントに支援する関連フレームワークの能力が紹介されている。
Effective human-robot collaboration (HRC) requires the robots to possess human-like intelligence. Inspired by the human's cognitive ability to selectively process and filter elements in complex environments, this paper introduces a novel concept and scene-understanding approach termed `relevance.' It identifies relevant components in a scene. To accurately and efficiently quantify relevance, we developed an event-based framework that selectively triggers relevance determination, along with a probabilistic methodology built on a structured scene representation. Simulation results demonstrate that the relevance framework and methodology accurately predict the relevance of a general HRC setup, achieving a precision of 0.99 and a recall of 0.94. Relevance can be broadly applied to several areas in HRC to improve task planning time by 79.56% compared with pure planning for a cereal task, reduce perception latency by up to 26.53% for an object detector, improve HRC safety by up to 13.50% and reduce the number of inquiries for HRC by 75.36%. A real-world demonstration showcases the relevance framework's ability to intelligently assist humans in everyday tasks. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# DiTAS: 活性化平滑化による拡散変換器の量子化
DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing ( http://arxiv.org/abs/2409.07756v1 ) ライセンス: Link先を確認 | Zhenyuan Dong, Sai Qian Zhang, | (参考訳) 拡散変換器(DiT)は近年,U-Netを用いた従来の拡散モデルの性能を超越した視覚生成能力の向上により,産業と学術の両方から大きな関心を集めている。
しかし、DiTの性能改善は、より高いパラメータカウントと実装コストを犠牲にし、携帯電話のようなリソース制限されたデバイスへの展開を著しく制限する。
効率的なDiT推論のためのPTQ(Data-free post-training Quantization)法であるDiTASを提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、提案された時間的凝集平滑化技術に依存しており、非常に低ビット幅での量子化誤差をはるかに小さくする。
量子化されたDiTの性能をさらに向上するため、スムース化係数を最適化するために、レイヤワイドグリッド検索戦略を採用する。
実験により,本手法は全精度モデルと同等の性能を維持しつつ,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化を可能にした。
Diffusion Transformers (DiTs) have recently attracted significant interest from both industry and academia due to their enhanced capabilities in visual generation, surpassing the performance of traditional diffusion models that employ U-Net. However, the improved performance of DiTs comes at the expense of higher parameter counts and implementation costs, which significantly limits their deployment on resource-constrained devices like mobile phones. We propose DiTAS, a data-free post-training quantization (PTQ) method for efficient DiT inference. DiTAS relies on the proposed temporal-aggregated smoothing techniques to mitigate the impact of the channel-wise outliers within the input activations, leading to much lower quantization error under extremely low bitwidth. To further enhance the performance of the quantized DiT, we adopt the layer-wise grid search strategy to optimize the smoothing factor. Experimental results demonstrate that our approach enables 4-bit weight, 8-bit activation (W4A8) quantization for DiTs while maintaining comparable performance as the full-precision model. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 不確実性から明確性: セマンティック拡張による限定的生体医学サンプルのための不確実性ガイド型クラスインクリメンタルラーニング
From Uncertainty to Clarity: Uncertainty-Guided Class-Incremental Learning for Limited Biomedical Samples via Semantic Expansion ( http://arxiv.org/abs/2409.07757v1 ) ライセンス: Link先を確認 | Yifei Yao, Hanrong Zhang, | (参考訳) 実際の臨床環境では、データ分布は時間とともに進化し、新しい限られた疾患が連続的に流入する。
したがって,従来の疾患の正確な認識を維持しつつ,新たなクラス知識を学習するためには,ディープラーニングモデルが必要である。
しかしながら、従来のディープニューラルネットワークは、スクラッチからトレーニングを受けない限り、新しいデータに適応する際に、事前の知識をひどく忘れることに悩まされることが多い。
さらに、異なる疾患のサンプルサイズは極めて不均衡であり、新しい病気は典型的にはより少ないインスタンスを持ち、結果として分類バイアスを引き起こす。
これらの課題に対処するため,生物医学分野における限定的なサンプルに基づくクラス増分学習手法を最初に提案する。
まず,サンプルの不確実性を測定するための新しい累積エントロピー予測モジュールを提案する。
さらに,不確実性の測定における有効性についても理論的に検証した。
第二に、様々な拡張を通じて細粒度のセマンティック展開モジュールを開発し、特徴空間内のよりコンパクトな分布をもたらし、新しいクラスに一般化するのに十分な空間を作り出した。
さらに、コサイン分類器を用いて、不均衡なデータセットによる分類バイアスを軽減する。
2つのデータセット上での4つの不均衡なデータ分布に対して、我々の手法は最適な性能を達成し、最先端の手法を最大53.54%精度で上回る。
In real-world clinical settings, data distributions evolve over time, with a continuous influx of new, limited disease cases. Therefore, class incremental learning is of great significance, i.e., deep learning models are required to learn new class knowledge while maintaining accurate recognition of previous diseases. However, traditional deep neural networks often suffer from severe forgetting of prior knowledge when adapting to new data unless trained from scratch, which undesirably costs much time and computational burden. Additionally, the sample sizes for different diseases can be highly imbalanced, with newly emerging diseases typically having much fewer instances, consequently causing the classification bias. To tackle these challenges, we are the first to propose a class-incremental learning method under limited samples in the biomedical field. First, we propose a novel cumulative entropy prediction module to measure the uncertainty of the samples, of which the most uncertain samples are stored in a memory bank as exemplars for the model's later review. Furthermore, we theoretically demonstrate its effectiveness in measuring uncertainty. Second, we developed a fine-grained semantic expansion module through various augmentations, leading to more compact distributions within the feature space and creating sufficient room for generalization to new classes. Besides, a cosine classifier is utilized to mitigate classification bias caused by imbalanced datasets. Across four imbalanced data distributions over two datasets, our method achieves optimal performance, surpassing state-of-the-art methods by as much as 53.54% in accuracy. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# SwinGS: 任意長のボリュームビデオストリーミングのためのスライディングウィンドウガウシアンスプラッティング
SwinGS: Sliding Window Gaussian Splatting for Volumetric Video Streaming with Arbitrary Length ( http://arxiv.org/abs/2409.07759v1 ) ライセンス: Link先を確認 | Bangya Liu, Suman Banerjee, | (参考訳) 近年の3Dガウススティング(3DGS)の進歩は、高いレンダリング速度と顕著な品質のため、コンピュータビジョンとコンピュータグラフィックスに大きな注目を集めている。
静的なシーンからダイナミックなシーンへの3DGSの適用を拡大する努力が続けられているが、このような取り組みは、過度なモデルサイズ、ビデオの長さの制約、コンテンツ偏差によって一貫して妨げられている。
これらの制限は、ダイナミックな3Dガウスモデルのストリーム性を著しく損なうため、ボリュームビデオ、自動運転車、バーチャル、拡張現実、複合現実のような没入型技術など、下流のアプリケーションでの利用を制限している。
本稿では,リアルタイムストリーミング方式でボリュームビデオのトレーニング,配信,レンダリングを行う新しいフレームワークであるSwinGSを紹介する。
上記の課題に対処し、ストリーム性を向上するため、SwinGSは時空ガウスとMCMCを統合し、フレーム間の様々な3Dシーンに適合するようにモデルを適応させ、一方、スライディングウィンドウを使用して各フレームのガウススナップショットを累積的にキャプチャする。
SwinGSのプロトタイプを実装し、さまざまなデータセットやシーンでストリーム性を示す。
さらに,スマートフォンやタブレットを含むモダンなブラウザを持つほとんどのデバイス上で,リアルタイムのボリュームビデオ再生を可能にするインタラクティブなWebGLビューアを開発した。
実験の結果、SwinGSはPSNRにおいて無視できない妥協を伴う以前の研究と比較して、送信コストを83.6%削減した。
さらに、SwinGSは品質を損なうことなく、簡単に長いビデオシーケンスにスケールできる。
Recent advances in 3D Gaussian Splatting (3DGS) have garnered significant attention in computer vision and computer graphics due to its high rendering speed and remarkable quality. While extant research has endeavored to extend the application of 3DGS from static to dynamic scenes, such efforts have been consistently impeded by excessive model sizes, constraints on video duration, and content deviation. These limitations significantly compromise the streamability of dynamic 3D Gaussian models, thereby restricting their utility in downstream applications, including volumetric video, autonomous vehicle, and immersive technologies such as virtual, augmented, and mixed reality. This paper introduces SwinGS, a novel framework for training, delivering, and rendering volumetric video in a real-time streaming fashion. To address the aforementioned challenges and enhance streamability, SwinGS integrates spacetime Gaussian with Markov Chain Monte Carlo (MCMC) to adapt the model to fit various 3D scenes across frames, in the meantime employing a sliding window captures Gaussian snapshots for each frame in an accumulative way. We implement a prototype of SwinGS and demonstrate its streamability across various datasets and scenes. Additionally, we develop an interactive WebGL viewer enabling real-time volumetric video playback on most devices with modern browsers, including smartphones and tablets. Experimental results show that SwinGS reduces transmission costs by 83.6% compared to previous work with ignorable compromise in PSNR. Moreover, SwinGS easily scales to long video sequences without compromising quality. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# リアルな画像シャープネス評価のためのコルモゴロフ・アルノルドネットワークの探索
Exploring Kolmogorov-Arnold networks for realistic image sharpness assessment ( http://arxiv.org/abs/2409.07762v1 ) ライセンス: Link先を確認 | Shaode Yu, Ze Chen, Zhimu Yang, Jiacheng Gu, Bizu Feng, | (参考訳) 情報的特徴が収集された後の現実的な画像のシャープネス評価にはスコア予測が不可欠である。
近年、コルモゴロフ・アルノルドネットワーク(KAN)が開発され、データフィッティングにおいて顕著な成功を収めた。
本研究はテイラー級数に基づくカン(テイラーカン)について述べる。
次に,4つの実写画像データベース(BID2011,CID2013,CLIVE,KonIQ-10k)上で,中間レベル特徴15と高レベル特徴2048を用いてスコア予測を行う。
ベースラインとしてサポートベクター回帰を設定する場合、実験結果から、kansは一般的に優れているか、競争的であることが示され、TaylorKANは中レベルの特徴入力を使用して3つのデータベースで最高であるのに対し、kansは高レベルの特徴を使用する場合、CLIVEより劣っている。
これは、画像品質評価のためのKansを探求する最初の研究である。
関連するタスクでkanを選択して改善する方法に光を当てている。
Score prediction is crucial in realistic image sharpness assessment after informative features are collected. Recently, Kolmogorov-Arnold networks (KANs) have been developed and witnessed remarkable success in data fitting. This study presents Taylor series based KAN (TaylorKAN). Then, different KANs are explored on four realistic image databases (BID2011, CID2013, CLIVE, and KonIQ-10k) for score prediction by using 15 mid-level features and 2048 high-level features. When setting support vector regression as the baseline, experimental results indicate KANs are generally better or competitive, TaylorKAN is the best on three databases using mid-level feature input, while KANs are inferior on CLIVE when high-level features are used. This is the first study that explores KANs for image quality assessment. It sheds lights on how to select and improve KANs on related tasks. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 線形探索の再考 : Kolmogorov-Arnold Networks in Transfer Learning
Reimagining Linear Probing: Kolmogorov-Arnold Networks in Transfer Learning ( http://arxiv.org/abs/2409.07763v1 ) ライセンス: Link先を確認 | Sheng Shen, Rabih Younes, | (参考訳) 本稿では,移動学習における従来の線形探索手法の強化として,KAN(Kolmogorov-Arnold Networks)を提案する。
線形探索は、しばしば事前訓練されたモデルの最終層に適用されるが、データ内の複雑な関係をモデル化できないため制限される。
そこで本研究では,スプラインに基づく表現を利用して複雑な関数を近似した線形探索層をkanで置換する手法を提案する。
本研究では,ImageNet 上で事前学習した ResNet-50 モデルと Kan を統合し,その性能を CIFAR-10 データセット上で評価する。
我々は,グリッドサイズとスプライン度(k)に着目し,Kanの柔軟性と精度を最適化する,系統的なハイパーパラメータ探索を行う。
以上の結果から,kanは従来の線形探索よりも一貫して優れており,様々な構成において精度と一般化の大幅な向上が達成されている。
これらの結果から,kanは伝達学習における従来の線形探索手法よりも強力で適応可能な代替手段であることがわかった。
This paper introduces Kolmogorov-Arnold Networks (KAN) as an enhancement to the traditional linear probing method in transfer learning. Linear probing, often applied to the final layer of pre-trained models, is limited by its inability to model complex relationships in data. To address this, we propose substituting the linear probing layer with KAN, which leverages spline-based representations to approximate intricate functions. In this study, we integrate KAN with a ResNet-50 model pre-trained on ImageNet and evaluate its performance on the CIFAR-10 dataset. We perform a systematic hyperparameter search, focusing on grid size and spline degree (k), to optimize KAN's flexibility and accuracy. Our results demonstrate that KAN consistently outperforms traditional linear probing, achieving significant improvements in accuracy and generalization across a range of configurations. These findings indicate that KAN offers a more powerful and adaptable alternative to conventional linear probing techniques in transfer learning. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# メッシュを用いたマルチスケールグラフニューラルネットワークによる流体の超解法
Mesh-based Super-Resolution of Fluid Flows with Multiscale Graph Neural Networks ( http://arxiv.org/abs/2409.07769v1 ) ライセンス: Link先を確認 | Shivam Barwey, Pinaki Pal, Saumil Patel, Riccardo Balin, Bethany Lusch, Venkatram Vishwanath, Romit Maulik, Ramesh Balakrishnan, | (参考訳) メッシュベースの流体の3次元超解像を可能にするグラフニューラルネットワーク(GNN)アプローチが本研究で導入された。
このフレームワークでは、GNNは一度に完全なメッシュベースのフィールドでではなく、要素(またはセル)の局所的なメッシュで動くように設計されている。
スペクトル(または有限)要素の離散化に類似したメッシュベースのGNN表現を容易にするため、共通グラフノードの同期を考慮したベースラインGNN層(ローカルノード特性を更新するメッセージパッシング層)が修正され、一般的に使用される要素ベースのメッシュ接続性との整合性が向上する。
アーキテクチャは本質的にマルチスケールであり、グラフアンプール層によって分離された粗大なメッセージパッシング層シーケンスと微細なメッセージパッシング層シーケンス(終端プロセッサ)の組み合わせで構成されている。
粗いスケールのプロセッサは、クエリ要素(近隣の粗い要素のセット数とともに)を1つの潜伏グラフ表現に埋め込み、粗いスケールの同期メッセージが素子近傍を通過し、微細なスケールのプロセッサは、この潜伏グラフ上の追加のメッセージパッシング操作を利用して補間エラーを補正する。
レイノルズ数1600, 3200におけるテイラー・グリーン・ボルテックス流シミュレーションのヘキサヘドラルメッシュに基づくデータを用いて実証実験を行った。
グローバルとローカルの両方のエラーを分析することで、GNNが粗大なモデル構成とマルチスケールのモデル構成の両方のターゲットと比較して、いかに正確な超解フィールドを生成できるかを最終的に示す。
固定建築の復元誤差はレイノルズ数に比例して増加し, 周囲の粗い要素が組み込まれた場合, Re=1600では予測精度は向上するが, Re=3200では改善しなかった。
A graph neural network (GNN) approach is introduced in this work which enables mesh-based three-dimensional super-resolution of fluid flows. In this framework, the GNN is designed to operate not on the full mesh-based field at once, but on localized meshes of elements (or cells) directly. To facilitate mesh-based GNN representations in a manner similar to spectral (or finite) element discretizations, a baseline GNN layer (termed a message passing layer, which updates local node properties) is modified to account for synchronization of coincident graph nodes, rendering compatibility with commonly used element-based mesh connectivities. The architecture is multiscale in nature, and is comprised of a combination of coarse-scale and fine-scale message passing layer sequences (termed processors) separated by a graph unpooling layer. The coarse-scale processor embeds a query element (alongside a set number of neighboring coarse elements) into a single latent graph representation using coarse-scale synchronized message passing over the element neighborhood, and the fine-scale processor leverages additional message passing operations on this latent graph to correct for interpolation errors. Demonstration studies are performed using hexahedral mesh-based data from Taylor-Green Vortex flow simulations at Reynolds numbers of 1600 and 3200. Through analysis of both global and local errors, the results ultimately show how the GNN is able to produce accurate super-resolved fields compared to targets in both coarse-scale and multiscale model configurations. Reconstruction errors for fixed architectures were found to increase in proportion to the Reynolds number, while the inclusion of surrounding coarse element neighbors was found to improve predictions at Re=1600, but not at Re=3200. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 話者検証のための事前学習モデルからの多層特徴量の普遍的ポーリング法
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification ( http://arxiv.org/abs/2409.07770v1 ) ライセンス: Link先を確認 | Jin Sob Kim, Hyun Joon Park, Wooseok Shin, Sung Won Han, | (参考訳) 大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
本研究では,このようなパラダイムへのアプローチを分析し,その結果として層間情報処理の意義を浮き彫りにする。
そこで本研究では,レイヤ/フレームレベルのネットワークと,各レイヤおよびフレーム軸に対するプールアーキテクチャの2段階からなる,事前訓練されたASVモデルの多層特性を活用するための新しいアプローチを提案する。
具体的には、畳み込み型アーキテクチャで直接レイヤー出力のスタックを処理させ、さらに、チャネルアテンションに基づく層重み付け方式を提示し、最も代表的な値で層レベルを絞り込む。
最後に、フレームレベルの表現に対する注意統計は、単一のベクトル話者埋め込みをもたらす。
比較実験は、多目的データ環境と多様な事前学習モデルを用いて設計され、提案手法の検証を行う。
実験により,事前学習アーキテクチャの活用における多層出力を用いたアプローチの安定性を実証した。
そこで我々は,従来の手法に比べて性能改善とコスト効率の両面から,レイヤワイドな操作を含むASVバックエンド構造の優位性を検証した。
アブレーション研究は、提案した層間処理が、事前訓練されたモデルを利用する利点の最大化にどう役立つかを示す。
Recent advancements in automatic speaker verification (ASV) studies have been achieved by leveraging large-scale pretrained networks. In this study, we analyze the approaches toward such a paradigm and underline the significance of interlayer information processing as a result. Accordingly, we present a novel approach for exploiting the multilayered nature of pretrained models for ASV, which comprises a layer/frame-level network and two steps of pooling architectures for each layer and frame axis. Specifically, we let convolutional architecture directly processes a stack of layer outputs.Then, we present a channel attention-based scheme of gauging layer significance and squeeze the layer level with the most representative value. Finally, attentive statistics over frame-level representations yield a single vector speaker embedding. Comparative experiments are designed using versatile data environments and diverse pretraining models to validate the proposed approach. The experimental results demonstrate the stability of the approach using multi-layer outputs in leveraging pretrained architectures. Then, we verify the superiority of the proposed ASV backend structure, which involves layer-wise operations, in terms of performance improvement along with cost efficiency compared to the conventional method. The ablation study shows how the proposed interlayer processing aids in maximizing the advantage of utilizing pretrained models. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# LLMの安全性に必要なのは、優先順位の最適化とアライメント
Alignment with Preference Optimization Is All You Need for LLM Safety ( http://arxiv.org/abs/2409.07772v1 ) ライセンス: Link先を確認 | Reda Alami, Ali Khalifa Almansoori, Ahmed Alzubaidi, Mohamed El Amine Seddik, Mugariya Farooq, Hakim Hacid, | (参考訳) 提案手法は,LLMの安全性を効果的に向上させることができることを示す。
安全性データセットを使用したFalcon 11Bモデルへの様々なアライメント技術の適用により、LlamaGuard 3 8Bが測定した世界安全スコア(57.64\%から99.90\%)が、最先端のモデルと競合して大幅に向上した。
毒性ベンチマークでは、敵の設定の平均スコアは0.6ドル以上から0.07ドル未満に低下した。
しかし、この安全性の改善は、特に数学における一般的な能力の低下によるものであり、トレードオフを示唆している。
我々は、安全と性能のバランスをとるための最適な方法として、ノイズコントラストアライメント(Safe-NCA)を同定する。
我々の研究は最終的に、安全で堅牢なモデルを構築するのに十分なアライメント技術を示す。
We demonstrate that preference optimization methods can effectively enhance LLM safety. Applying various alignment techniques to the Falcon 11B model using safety datasets, we achieve a significant boost in global safety score (from $57.64\%$ to $99.90\%$) as measured by LlamaGuard 3 8B, competing with state-of-the-art models. On toxicity benchmarks, average scores in adversarial settings dropped from over $0.6$ to less than $0.07$. However, this safety improvement comes at the cost of reduced general capabilities, particularly in math, suggesting a trade-off. We identify noise contrastive alignment (Safe-NCA) as an optimal method for balancing safety and performance. Our study ultimately shows that alignment techniques can be sufficient for building safe and robust models. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# ROCAS:サイバー物理共変による自律運転事故の根本原因分析
ROCAS: Root Cause Analysis of Autonomous Driving Accidents via Cyber-Physical Co-mutation ( http://arxiv.org/abs/2409.07774v1 ) ライセンス: Link先を確認 | Shiwei Feng, Yapeng Ye, Qingkai Shi, Zhiyuan Cheng, Xiangzhe Xu, Siyuan Cheng, Hongjun Choi, Xiangyu Zhang, | (参考訳) 自律運転システム(ADS)が私たちの日常生活を変えてきたため、ADSの安全性はますます重要になっている。
ADSの信頼性を高めるための様々なテストアプローチが登場したが、事故の原因を理解する上で重要なギャップは依然として残っている。
このような事故後の分析は、ADSの安全性と信頼性を高める上で最重要かつ有益である。
既存のサイバー物理システム(CPS)の根本原因分析技術は主にドローン用に設計されており、より複雑な物理的環境や深層学習モデルによってもたらされる固有の課題に対処できない。
本稿では,ADSの根本原因分析の形式的定義と,サイバー物理共変を特徴とする新たな根本原因解析フレームワークであるROCASを導入することにより,このギャップに対処する。
本手法は,事故トリガーを正確に識別し,事故の原因となるターゲットADSの誤設定を特定できる物理的変異とサイバー突然変異の両方を独自に活用する。
さらに,誤設定の検索スペースを削減するために,責任モジュールを識別するための差分解析を設計する。
本研究では,ADS事故の12カテゴリーについて検討し,探索空間の縮小と誤設定の特定におけるROCASの有効性と有効性を示す。
また,事故の背景にある理性を理解する上で,誤設定がいかに役立つか,詳細なケーススタディを示す。
As Autonomous driving systems (ADS) have transformed our daily life, safety of ADS is of growing significance. While various testing approaches have emerged to enhance the ADS reliability, a crucial gap remains in understanding the accidents causes. Such post-accident analysis is paramount and beneficial for enhancing ADS safety and reliability. Existing cyber-physical system (CPS) root cause analysis techniques are mainly designed for drones and cannot handle the unique challenges introduced by more complex physical environments and deep learning models deployed in ADS. In this paper, we address the gap by offering a formal definition of ADS root cause analysis problem and introducing ROCAS, a novel ADS root cause analysis framework featuring cyber-physical co-mutation. Our technique uniquely leverages both physical and cyber mutation that can precisely identify the accident-trigger entity and pinpoint the misconfiguration of the target ADS responsible for an accident. We further design a differential analysis to identify the responsible module to reduce search space for the misconfiguration. We study 12 categories of ADS accidents and demonstrate the effectiveness and efficiency of ROCAS in narrowing down search space and pinpointing the misconfiguration. We also show detailed case studies on how the identified misconfiguration helps understand rationale behind accidents. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 協調型多エージェント深層強化学習に対する時空間ステレオバックドアアタック
A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2409.07775v1 ) ライセンス: Link先を確認 | Yinbo Yu, Saihao Yan, Jiajia Liu, | (参考訳) 近年の研究では、協調型マルチエージェント深層強化学習(c-MADRL)がバックドア攻撃の脅威下にあることが示されている。
バックドアトリガーが観測されると、障害や悪意のある目標につながる異常なアクションが実行される。
しかし、既存のバックドアはいくつかの問題に悩まされており、例えば、固定された視覚的トリガーパターンにはステルス性がなく、バックドアは追加のネットワークによってトレーニングまたはアクティベートされ、あるいはすべてのエージェントがバックドアされる。
そこで本稿では,c-MADRL に対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
まず,手動注入による固定的な視覚パターンや即時状態ではなく,逆時空間行動パターンをバックドアトリガーとして導入し,攻撃時間を制御する。
この方法は、注入されたバックドアのステルス性と実用性を保証することができる。
第2に、トレーニング中の報酬と一方的な指導を通じて、バックドアエージェントの本来の報酬機能をハックし、チーム全体に悪影響を及ぼす。
一般的なc-MADRL環境SMACにおける2つの古典的c-MADRLアルゴリズムVDNとQMIXに対するバックドア攻撃を評価する。
実験の結果,我々のバックドア攻撃は高い攻撃成功率 (91.6\%) を達成でき, クリーン性能のばらつきは低い(3.7\%)。
Recent studies have shown that cooperative multi-agent deep reinforcement learning (c-MADRL) is under the threat of backdoor attacks. Once a backdoor trigger is observed, it will perform abnormal actions leading to failures or malicious goals. However, existing proposed backdoors suffer from several issues, e.g., fixed visual trigger patterns lack stealthiness, the backdoor is trained or activated by an additional network, or all agents are backdoored. To this end, in this paper, we propose a novel backdoor attack against c-MADRL, which attacks the entire multi-agent team by embedding the backdoor only in a single agent. Firstly, we introduce adversary spatiotemporal behavior patterns as the backdoor trigger rather than manual-injected fixed visual patterns or instant status and control the attack duration. This method can guarantee the stealthiness and practicality of injected backdoors. Secondly, we hack the original reward function of the backdoored agent via reward reverse and unilateral guidance during training to ensure its adverse influence on the entire team. We evaluate our backdoor attacks on two classic c-MADRL algorithms VDN and QMIX, in a popular c-MADRL environment SMAC. The experimental results demonstrate that our backdoor attacks are able to reach a high attack success rate (91.6\%) while maintaining a low clean performance variance rate (3.7\%). | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 直接フィードバックアライメントによるニューラルネットワークのトレーニング
Training Spiking Neural Networks via Augmented Direct Feedback Alignment ( http://arxiv.org/abs/2409.07776v1 ) ライセンス: Link先を確認 | Yongbo Zhang, Katsuma Inoue, Mitsumasa Nakajima, Toshikazu Hashimoto, Yasuo Kuniyoshi, Kohei Nakajima, | (参考訳) スパイキングニューラルネットワーク(SNN)は、脳内の実際のニューロンのメカニズムにインスパイアされたモデルであり、個別の行動電位またはスパイクを用いて情報を伝達し、表現する。
情報処理の疎結合で非同期な性質により、SNNはエネルギー効率が高くなり、SNNはニューロモルフィックデバイスにニューラルネットワークを実装するための有望なソリューションとなる。
しかし、SNNニューロンの非分化性は、それらを訓練することを困難にしている。
ミスバックプロパゲーション(BP)に基づく現在のSNNのトレーニング手法は、サロゲート勾配を正確に設計することが困難であり、神経形デバイスに対するSNNの実装を妨げる。
したがって,SNNを物理的に実装可能かつ生物学的に検証可能な方法で訓練することが重要である。
本稿では、ランダムなプロジェクションに基づく勾配のないアプローチである拡張直接フィードバックアライメント(aDFA)を用いてSNNの訓練を行う。
この方法は、トレーニング中の前処理の部分的な情報のみを必要とするため、実装が容易であり、生物学的に妥当である。
本稿では,提案手法の有効性を体系的に実証し,その有効作業範囲を提案し,遺伝的アルゴリズムを用いて良好な環境条件を解析する。
また,SNNの重要特徴がスキームに与える影響を解析し,BPや従来の直接フィードバックアライメントよりも優越性と安定性を実証する。
提案手法は,有効利用システムに関する事前知識を必要とせずに,競争性能を達成し,物理的にSNNを訓練するための貴重な基準を提供する。
Spiking neural networks (SNNs), the models inspired by the mechanisms of real neurons in the brain, transmit and represent information by employing discrete action potentials or spikes. The sparse, asynchronous properties of information processing make SNNs highly energy efficient, leading to SNNs being promising solutions for implementing neural networks in neuromorphic devices. However, the nondifferentiable nature of SNN neurons makes it a challenge to train them. The current training methods of SNNs that are based on error backpropagation (BP) and precisely designing surrogate gradient are difficult to implement and biologically implausible, hindering the implementation of SNNs on neuromorphic devices. Thus, it is important to train SNNs with a method that is both physically implementatable and biologically plausible. In this paper, we propose using augmented direct feedback alignment (aDFA), a gradient-free approach based on random projection, to train SNNs. This method requires only partial information of the forward process during training, so it is easy to implement and biologically plausible. We systematically demonstrate the feasibility of the proposed aDFA-SNNs scheme, propose its effective working range, and analyze its well-performing settings by employing genetic algorithm. We also analyze the impact of crucial features of SNNs on the scheme, thus demonstrating its superiority and stability over BP and conventional direct feedback alignment. Our scheme can achieve competitive performance without accurate prior knowledge about the utilized system, thus providing a valuable reference for physically training SNNs. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# ASSNet: マイクロ腫瘍とマルチオーガンセグメンテーションのための適応セマンティックセグメンテーションネットワーク
ASSNet: Adaptive Semantic Segmentation Network for Microtumors and Multi-Organ Segmentation ( http://arxiv.org/abs/2409.07779v1 ) ライセンス: Link先を確認 | Fuchen Zheng, Xinyi Chen, Xuhang Chen, Haolun Li, Xiaojiao Guo, Guoheng Huang, Chi-Man Pun, Shoujun Zhou, | (参考訳) コンピュータビジョンにおいて重要な課題である医用画像分割は、解剖学的構造と病理の自動化を促進させ、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
特に、シフトウィンドウベースの自己注意を用いた変換器は、例外的な性能を示した。
しかし、局所的なウィンドウアテンションに依存しているため、局所的およびグローバルな文脈情報の融合が制限され、微小腫瘍や小器官の分節化に欠かせない。
この制限に対処するため,正確な医用画像分割のための局所的特徴とグローバル的特徴を効果的に統合するトランスフォーマアーキテクチャである適応セマンティックセマンティックセマンティックネットワーク(ASSNet)を提案する。
ASSNetはトランスフォーマーベースのU字型エンコーダデコーダネットワークである。
エンコーダは5つの解像度にわたるシフトウィンドウの自己アテンションを利用して、マルチスケールの特徴を抽出し、スキップ接続を通じてデコーダに伝播する。
エンコーダ内に拡張多層パーセプトロンを導入し,特徴抽出時の長距離依存性を明示的にモデル化する。
従来の対称型エンコーダ・デコーダ設計の制約を認識し,適応型特徴フュージョン(AFF)デコーダを提案する。
このデコーダには、Long Range Dependencies(LRD)ブロック、Multi-Scale Feature Fusion(MFF)ブロック、Adaptive Semantic Center(ASC)ブロックという3つの重要なコンポーネントが含まれている。
これらのコンポーネントは、長距離依存関係をキャプチャし、オブジェクト境界を精細化しながら、デコーダによって抽出されたマルチスケール機能の効果的な融合を相乗的に促進する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関する総合的な実験は、ATSNetが最先端の結果を達成することを実証している。
コードとモデルは以下の通りである。
Medical image segmentation, a crucial task in computer vision, facilitates the automated delineation of anatomical structures and pathologies, supporting clinicians in diagnosis, treatment planning, and disease monitoring. Notably, transformers employing shifted window-based self-attention have demonstrated exceptional performance. However, their reliance on local window attention limits the fusion of local and global contextual information, crucial for segmenting microtumors and miniature organs. To address this limitation, we propose the Adaptive Semantic Segmentation Network (ASSNet), a transformer architecture that effectively integrates local and global features for precise medical image segmentation. ASSNet comprises a transformer-based U-shaped encoder-decoder network. The encoder utilizes shifted window self-attention across five resolutions to extract multi-scale features, which are then propagated to the decoder through skip connections. We introduce an augmented multi-layer perceptron within the encoder to explicitly model long-range dependencies during feature extraction. Recognizing the constraints of conventional symmetrical encoder-decoder designs, we propose an Adaptive Feature Fusion (AFF) decoder to complement our encoder. This decoder incorporates three key components: the Long Range Dependencies (LRD) block, the Multi-Scale Feature Fusion (MFF) block, and the Adaptive Semantic Center (ASC) block. These components synergistically facilitate the effective fusion of multi-scale features extracted by the decoder while capturing long-range dependencies and refining object boundaries. Comprehensive experiments on diverse medical image segmentation tasks, including multi-organ, liver tumor, and bladder tumor segmentation, demonstrate that ASSNet achieves state-of-the-art results. Code and models are available at: \url{https://github.com/lzeeorno/ASSNet}. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# オンライン討論のサポート:AIをアドホクラシー+参加プラットフォームに統合して議論を促進する
Supporting Online Discussions: Integrating AI Into the adhocracy+ Participation Platform To Enhance Deliberation ( http://arxiv.org/abs/2409.07780v1 ) ライセンス: Link先を確認 | Maike Behrendt, Stefan Sylvius Wagner, Stefan Harmeling, | (参考訳) オンラインスペースは、場所や時間帯に関わらず、重要な問題について議論し、共同決定をすることができる。
しかし、適切な支持と思慮深い設計がなければ、これらの議論は意見交換時の構造や礼儀正しくないことが多い。
人工知能(AI)は、大規模オンライン参加プロセスの参加者と主催者の両方をサポートする機会である。
本稿では,大規模オープンソース参加プラットフォームであるadhocracy+の拡張について紹介し,AIがサポートする2つの議論モジュールについて述べる。
Online spaces allow people to discuss important issues and make joint decisions, regardless of their location or time zone. However, without proper support and thoughtful design, these discussions often lack structure and politeness during the exchanges of opinions. Artificial intelligence (AI) represents an opportunity to support both participants and organizers of large-scale online participation processes. In this paper, we present an extension of adhocracy+, a large-scale open source participation platform, that provides two additional debate modules that are supported by AI to enhance the discussion quality and participant interaction. | 翻訳日:2024-09-13 17:41:46 公開日:2024-09-12 |
# 量子電磁力学のボームスタイル理論の展望
A Vision for a Bohm-Style Theory of Quantum Electrodynamics ( http://arxiv.org/abs/2409.07784v1 ) ライセンス: Link先を確認 | Roderich Tumulka, | (参考訳) 量子電磁力学(QED)の多くの成功にもかかわらず、我々はこの物理学の分野を十分に理解していない。
QEDには、標準の非相対論的量子力学が持つ基礎的な問題と、さらに多くの問題がある。
これらの問題のいくつかと、空間と時間のオントロジーを持つQEDのボーム型理論がどのようなものか、いくつかの選択肢について論じる。
私はまた、1952年にボーム自身がQEDのために提案したこの提案が、あまり説得力がないことを指摘した。
最後に、このQEDのボーム型理論について概説し、この理論への最近の進展について報告する。
Despite many successes of quantum electrodynamics (QED), we do not presently have a good understanding of this field of physics. QED has all of the foundational problems that standard non-relativistic quantum mechanics has, and further ones in addition. I discuss some of these problems and some options for what a Bohm-style theory of QED, with an ontology in space and time, could look like. I also point out why the proposal made by Bohm himself in 1952 for QED is not quite convincing. Finally, I outline the kind of Bohm-type theory of QED that I would consider convincing, and report about recent progress toward this kind of theory. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# XMOL: 分子の説明可能なマルチプロパティ最適化
XMOL: Explainable Multi-property Optimization of Molecules ( http://arxiv.org/abs/2409.07786v1 ) ライセンス: Link先を確認 | Aye Phyu Phyu Aung, Jay Chaudhary, Ji Wei Yoon, Senthilnath Jayavelu, | (参考訳) 分子最適化は、薬物発見と物質科学領域において重要な課題であり、望ましい性質を持つ分子の設計を含む。
既存の手法は主に単一プロパティの最適化に重点を置いており、反復実行は非効率で計算コストのかかる複数の特性をターゲットにする必要がある。
さらに、これらの手法は透明性を欠くことが多く、研究者が最適化プロセスを理解し制御することが困難になる。
これらの問題に対処するために、説明可能性を導入しつつ、複数の分子特性を同時に最適化する新しいフレームワーク、説明可能な分子のマルチプロパティ最適化(XMOL)を提案する。
提案手法は現状の幾何学的拡散モデルに基づいており、スペクトル正規化の導入と安定化トレーニングのための分子制限の強化により、多目的最適化に拡張する。
さらに、最適化プロセス全体を通して解釈的および説明可能な技術を統合する。
実世界の分子データセット、すなわちQM9上でのXMOLの評価を行い、単一の特性と複数の特性の最適化の有効性を実証し、解釈可能な結果を提供し、より効率的で信頼性の高い分子設計への道を開いた。
Molecular optimization is a key challenge in drug discovery and material science domain, involving the design of molecules with desired properties. Existing methods focus predominantly on single-property optimization, necessitating repetitive runs to target multiple properties, which is inefficient and computationally expensive. Moreover, these methods often lack transparency, making it difficult for researchers to understand and control the optimization process. To address these issues, we propose a novel framework, Explainable Multi-property Optimization of Molecules (XMOL), to optimize multiple molecular properties simultaneously while incorporating explainability. Our approach builds on state-of-the-art geometric diffusion models, extending them to multi-property optimization through the introduction of spectral normalization and enhanced molecular constraints for stabilized training. Additionally, we integrate interpretive and explainable techniques throughout the optimization process. We evaluated XMOL on the real-world molecular datasets i.e., QM9, demonstrating its effectiveness in both single property and multiple properties optimization while offering interpretable results, paving the way for more efficient and reliable molecular design. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# 埋め込み変数の低減による安定言語モデルの事前学習
Stable Language Model Pre-training by Reducing Embedding Variability ( http://arxiv.org/abs/2409.07787v1 ) ライセンス: Link先を確認 | Woojin Chung, Jiwoo Hong, Na Min An, James Thorne, Se-Young Yun, | (参考訳) 安定した事前トレーニングは、より良いパフォーマンスの言語モデルを達成するために不可欠である。
しかし,各ステップ毎の勾配分散を計算し,事前学習の安定性を追跡することは,計算コストの大きいため不可能である。
本研究では,より浅い層が勾配爆発に起因しやすいことを前提として,言語モデルの事前学習安定性を評価するための簡易かつ効率的なプロキシとして,Token Embedding Variability(TEV)について検討する(第2部)。
さらに,出力埋込み分散の指数的成長を制限し,勾配爆発を防止し,その不安定性を緩和するアーキテクチャとしてマルチヘッド低ランク注意(MLRA)を提案する(第3部)。
MLRAを用いたGPT-2実験の結果,特に深部モデルでは安定性が向上し,パープレキシティが低下した。
Stable pre-training is essential for achieving better-performing language models. However, tracking pre-training stability by calculating gradient variance at every step is impractical due to the significant computational costs. We explore Token Embedding Variability (TEV) as a simple and efficient proxy for assessing pre-training stability in language models with pre-layer normalization, given that shallower layers are more prone to gradient explosion (section 2.2). Moreover, we propose Multi-head Low-Rank Attention (MLRA) as an architecture to alleviate such instability by limiting the exponential growth of output embedding variance, thereby preventing the gradient explosion (section 3.2). Empirical results on GPT-2 with MLRA demonstrate increased stability and lower perplexity, particularly in deeper models. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# 大規模言語モデルを用いた中国語音声認識のための全文誤り訂正
Full-text Error Correction for Chinese Speech Recognition with Large Language Model ( http://arxiv.org/abs/2409.07790v1 ) ライセンス: Link先を確認 | Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang, | (参考訳) 大規模言語モデル (LLM) は自動音声認識 (ASR) において誤り訂正の可能性を示した。
しかし、ほとんどの研究は、教師付きASR訓練における音声データの主要な形態である短調音声記録からの発声に焦点を当てている。
本稿では,ポッドキャスト,ニュース放送,会議などの長文音声記録から生成した全文誤り訂正のためのLLMの有効性について検討する。
まず, 音声合成, ASR, 誤り訂正ペア抽出器を含むパイプラインを用いて, 完全文誤り訂正のための中国語データセットChFTを開発した。
このデータセットにより、フルテキストとセグメントの両方を含むコンテキスト間のエラーを補正し、句読点復元や逆テキスト正規化などの幅広いエラータイプに対処し、修正プロセスを包括的に行うことができる。
第2に、各種プロンプトとターゲットフォーマットを用いて構築したデータセット上で事前学習したLLMを微調整し、その性能を全文誤り訂正で評価する。
具体的には、直接修正されたテキストやJSONベースのエラー訂正ペアなど、さまざまな出力フォーマットを考慮して、フルテキストとセグメントに基づいてプロンプトを設計する。
均一性、最新性、ハードなテストセットを含む様々なテスト設定を通して、微調整されたLLMは、異なるプロンプトを持つフルテキスト設定において、それぞれ独自の強みと弱みを示す。
これにより、さらなる研究のための有望なベースラインが確立される。
データセットはWebサイトから入手可能だ。
Large Language Models (LLMs) have demonstrated substantial potential for error correction in Automatic Speech Recognition (ASR). However, most research focuses on utterances from short-duration speech recordings, which are the predominant form of speech data for supervised ASR training. This paper investigates the effectiveness of LLMs for error correction in full-text generated by ASR systems from longer speech recordings, such as transcripts from podcasts, news broadcasts, and meetings. First, we develop a Chinese dataset for full-text error correction, named ChFT, utilizing a pipeline that involves text-to-speech synthesis, ASR, and error-correction pair extractor. This dataset enables us to correct errors across contexts, including both full-text and segment, and to address a broader range of error types, such as punctuation restoration and inverse text normalization, thus making the correction process comprehensive. Second, we fine-tune a pre-trained LLM on the constructed dataset using a diverse set of prompts and target formats, and evaluate its performance on full-text error correction. Specifically, we design prompts based on full-text and segment, considering various output formats, such as directly corrected text and JSON-based error-correction pairs. Through various test settings, including homogeneous, up-to-date, and hard test sets, we find that the fine-tuned LLMs perform well in the full-text setting with different prompts, each presenting its own strengths and weaknesses. This establishes a promising baseline for further research. The dataset is available on the website. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# 半監督医用画像分割のためのラグランジュデューナリティと複合マルチアテンション変換器
Lagrange Duality and Compound Multi-Attention Transformer for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2409.07793v1 ) ライセンス: Link先を確認 | Fuchen Zheng, Quanjun Li, Weixuan Li, Xuhang Chen, Yihang Dong, Guoheng Huang, Chi-Man Pun, Shoujun Zhou, | (参考訳) 医療におけるセマンティックセグメンテーションの重要な応用である医用画像セグメンテーションは、特殊なコンピュータビジョン技術によって大幅に進歩している。
深層学習に基づく医用画像のセグメンテーションは, 診断支援に不可欠であるが, 多様なトレーニングデータの欠如は, 長期的問題を引き起こす。
さらに、これまでのほとんどのハイブリッドCNN-ViTアーキテクチャは、畳み込みニューラルネットワークの異なる層における様々な注意を結合する能力に制限がある。
これらの課題に対処するために,境界認識型コントラスト型ロスと統合したLagrange Duality Consistency (LDC) Lossを提案する。
さらに,ResUNetとTransformerの強みを相乗化する新しいネットワークであるCMAformerを紹介する。
CMAformerのクロスアテンションブロックは、マルチスケールな特徴融合のための空間的注意とチャネル的注意を効果的に統合する。
以上の結果から,CMAformerは機能融合フレームワークと新たな一貫性の喪失と相まって,半教師付き学習アンサンブルにおいて強い相補性を示すことが明らかとなった。
複数の公開医用画像データセットで最先端の結果を得る。
例えば、 \url{https://github.com/lzeeorno/Lagrange-Duality-and-CMAformer} のコードは以下の通り。
Medical image segmentation, a critical application of semantic segmentation in healthcare, has seen significant advancements through specialized computer vision techniques. While deep learning-based medical image segmentation is essential for assisting in medical diagnosis, the lack of diverse training data causes the long-tail problem. Moreover, most previous hybrid CNN-ViT architectures have limited ability to combine various attentions in different layers of the Convolutional Neural Network. To address these issues, we propose a Lagrange Duality Consistency (LDC) Loss, integrated with Boundary-Aware Contrastive Loss, as the overall training objective for semi-supervised learning to mitigate the long-tail problem. Additionally, we introduce CMAformer, a novel network that synergizes the strengths of ResUNet and Transformer. The cross-attention block in CMAformer effectively integrates spatial attention and channel attention for multi-scale feature fusion. Overall, our results indicate that CMAformer, combined with the feature fusion framework and the new consistency loss, demonstrates strong complementarity in semi-supervised learning ensembles. We achieve state-of-the-art results on multiple public medical image datasets. Example code are available at: \url{https://github.com/lzeeorno/Lagrange-Duality-and-CMAformer}. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# 反復線形計画法によるバランス付符号グラフの効率的な学習
Efficient Learning of Balanced Signed Graphs via Iterative Linear Programming ( http://arxiv.org/abs/2409.07794v1 ) ライセンス: Link先を確認 | Haruki Yokota, Hiroshi Higashi, Yuichi Tanaka, Gene Cheung, | (参考訳) 符号付きグラフは、正と負の両方のエッジウェイトを備え、データ内の反相関と同様にペアの相関を符号化する。
バランスの取れた符号付きグラフは、奇数の負のエッジのサイクルを持たない。
バランスの取れた符号グラフのラプラシアンは、類似性変換された正グラフラプラシアンにおいて単にそれに対応する固有ベクトルを持ち、したがって正グラフのために設計されたよく研究されたスペクトルフィルタの再利用を可能にする。
データから直接バランスの取れたラプラシアングラフを学習する高速な手法を提案する。
具体的には、各ノード $i$ に対して、その極性 $\beta_i \in \{-1,1\}$ とエッジウェイト $\{w_{i,j}\}_{j=1}^N$ を判定するために、CLIME と呼ばれる線形プログラミング (LP) に基づくスパース逆共分散の定式化を拡張し、エッジウェイト $\{w_{i,j}\}_{j=1}^N$ と接続ノードの極性 -- すなわち、正負のエッジが同じ/対極性のノードを接続する。
各LPに対して、コンベックスセット(POCS)上のプロジェクションを適用して、LPの実現性を保証する適切なCLIMEパラメータ$\rho > 0$を決定する。
我々は、既製のLPソルバを$\mathcal{O}(N^{2.055})$で解く。
合成および実世界のデータセットに対する実験により、我々のバランスの取れたグラフ学習法は競合する手法よりも優れており、符号付きグラフ上の正のグラフのために設計されたスペクトルフィルタとグラフ畳み込みネットワーク(GCN)の使用を可能にしている。
Signed graphs are equipped with both positive and negative edge weights, encoding pairwise correlations as well as anti-correlations in data. A balanced signed graph has no cycles of odd number of negative edges. Laplacian of a balanced signed graph has eigenvectors that map simply to ones in a similarity-transformed positive graph Laplacian, thus enabling reuse of well-studied spectral filters designed for positive graphs. We propose a fast method to learn a balanced signed graph Laplacian directly from data. Specifically, for each node $i$, to determine its polarity $\beta_i \in \{-1,1\}$ and edge weights $\{w_{i,j}\}_{j=1}^N$, we extend a sparse inverse covariance formulation based on linear programming (LP) called CLIME, by adding linear constraints to enforce ``consistent" signs of edge weights $\{w_{i,j}\}_{j=1}^N$ with the polarities of connected nodes -- i.e., positive/negative edges connect nodes of same/opposing polarities. For each LP, we adapt projections on convex set (POCS) to determine a suitable CLIME parameter $\rho > 0$ that guarantees LP feasibility. We solve the resulting LP via an off-the-shelf LP solver in $\mathcal{O}(N^{2.055})$. Experiments on synthetic and real-world datasets show that our balanced graph learning method outperforms competing methods and enables the use of spectral filters and graph convolutional networks (GCNs) designed for positive graphs on signed graphs. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# 効率的な適応のためのIoT対応カメラトラップにおける野生生物モデルのその場的微調整
In-Situ Fine-Tuning of Wildlife Models in IoT-Enabled Camera Traps for Efficient Adaptation ( http://arxiv.org/abs/2409.07796v1 ) ライセンス: Link先を確認 | Mohammad Mehdi Rastikerdar, Jin Huang, Hui Guan, Deepak Ganesan, | (参考訳) カメラトラップによる野生生物のモニタリングは、生態学において重要なツールとなっているが、デバイス上の動物分類のための機械学習モデルのデプロイは、ドメインシフトとリソース制約のために大きな課題に直面している。
本稿では、高ドメイン一般化性能の実現と、カメラトラップアプリケーションの効率的な推論の確保という、矛盾する目標を整合させる新しいアプローチであるWildFitを紹介する。
WildFitは、継続的バックグラウンド認識モデルの微調整を活用して、現在の位置と時間ウインドウに合わせてMLモデルをデプロイする。
これは、背景画像と、ソースドメインからの動物画像とをブレンドすることにより、新しいドメインを表すトレーニング画像を生成する背景認識データ合成によって達成される。
さらに、背景ドリフト検出とクラス分布ドリフト検出による微調整効率を高め、合成データの品質を最適化し、一般化性能を向上させる。
複数のカメラトラップデータセットにまたがる広範な評価は、WildFitが従来のアプローチと比較して、分類精度と計算効率を大幅に改善したことを示している。
Wildlife monitoring via camera traps has become an essential tool in ecology, but the deployment of machine learning models for on-device animal classification faces significant challenges due to domain shifts and resource constraints. This paper introduces WildFit, a novel approach that reconciles the conflicting goals of achieving high domain generalization performance and ensuring efficient inference for camera trap applications. WildFit leverages continuous background-aware model fine-tuning to deploy ML models tailored to the current location and time window, allowing it to maintain robust classification accuracy in the new environment without requiring significant computational resources. This is achieved by background-aware data synthesis, which generates training images representing the new domain by blending background images with animal images from the source domain. We further enhance fine-tuning effectiveness through background drift detection and class distribution drift detection, which optimize the quality of synthesized data and improve generalization performance. Our extensive evaluation across multiple camera trap datasets demonstrates that WildFit achieves significant improvements in classification accuracy and computational efficiency compared to traditional approaches. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# カラー画像再構成のための四次核ノルムマイナスフロベニウスノルム最小化
Quaternion Nuclear Norm minus Frobenius Norm Minimization for color image reconstruction ( http://arxiv.org/abs/2409.07797v1 ) ライセンス: Link先を確認 | Yu Guo, Guoqing Chen, Tieyong Zeng, Qiyu Jin, Michael Kwok-Po Ng, | (参考訳) カラー画像復元法は通常、ユークリッド空間のベクトルまたは3つのモノクロチャネルの組み合わせとして画像を表す。
しかし、これらのチャネル間の相関を見落とし、色歪みと再構成された画像のアーティファクトに繋がる。
そこで本研究では,カラー画像再構成の新しいアプローチである,第4次核ノルムミナス・フロベニウス・ノルム最小化(QNMF)を提案する。
QNMFは四元数代数を用いてRGBチャネル間の関係を包括的にキャプチャする。
核ノルムを小さくするフロベニウス標準を含む正則化手法を用いることで、QNMFは四元数符号化カラー画像の下位低ランク構造を近似する。
理論的な証明は、法の数学的整合性を保証するために提供される。
汎用性と有効性を示すために、QNMF正規化器は様々な低レベルの視覚タスクに優れており、例えば、デノイング、デブロアリング、インペインティング、ランダムインパルスノイズ除去、最先端の結果が得られている。
Color image restoration methods typically represent images as vectors in Euclidean space or combinations of three monochrome channels. However, they often overlook the correlation between these channels, leading to color distortion and artifacts in the reconstructed image. To address this, we present Quaternion Nuclear Norm Minus Frobenius Norm Minimization (QNMF), a novel approach for color image reconstruction. QNMF utilizes quaternion algebra to capture the relationships among RGB channels comprehensively. By employing a regularization technique that involves nuclear norm minus Frobenius norm, QNMF approximates the underlying low-rank structure of quaternion-encoded color images. Theoretical proofs are provided to ensure the method's mathematical integrity. Demonstrating versatility and efficacy, the QNMF regularizer excels in various color low-level vision tasks, including denoising, deblurring, inpainting, and random impulse noise removal, achieving state-of-the-art results. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# GateAttentionPose: エージェントアテンションによるポーズ推定の強化とゲーテッド・コンボリューションの改善
GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions ( http://arxiv.org/abs/2409.07798v1 ) ライセンス: Link先を確認 | Liang Feng, Zhixuan Shen, Lihua Wen, Shiyao Li, Ming Xu, | (参考訳) 本稿では、ポーズ推定タスクのためのUniRepLKNetアーキテクチャを強化する革新的なアプローチであるGateAttentionPoseを紹介する。
本稿では,エージェント注意モジュールとゲート拡張フィードフォワードブロック(GEFB)の2つの重要なコントリビューションを紹介する。
Agent Attentionモジュールは大規模なカーネルの畳み込みを置き換え、グローバルなコンテキストモデリングを維持しながら計算効率を大幅に改善する。
GEFBは、特に複雑なシーンにおいて、特徴抽出と処理機能を強化している。
COCOとMPIIデータセットの大規模な評価は、GateAttentionPoseが元のUniRepLKNetを含む既存の最先端メソッドよりも優れており、効率が向上し、優れた結果または同等の結果が得られていることを示している。
このアプローチは、自律運転、人間のモーションキャプチャー、バーチャルリアリティーなど、さまざまなアプリケーションにまたがるポーズ推定のための堅牢なソリューションを提供する。
This paper introduces GateAttentionPose, an innovative approach that enhances the UniRepLKNet architecture for pose estimation tasks. We present two key contributions: the Agent Attention module and the Gate-Enhanced Feedforward Block (GEFB). The Agent Attention module replaces large kernel convolutions, significantly improving computational efficiency while preserving global context modeling. The GEFB augments feature extraction and processing capabilities, particularly in complex scenes. Extensive evaluations on COCO and MPII datasets demonstrate that GateAttentionPose outperforms existing state-of-the-art methods, including the original UniRepLKNet, achieving superior or comparable results with improved efficiency. Our approach offers a robust solution for pose estimation across diverse applications, including autonomous driving, human motion capture, and virtual reality. | 翻訳日:2024-09-13 17:27:46 公開日:2024-09-12 |
# SURGIVID: アノテーション効率の良い手術用ビデオオブジェクト発見
SURGIVID: Annotation-Efficient Surgical Video Object Discovery ( http://arxiv.org/abs/2409.07801v1 ) ライセンス: Link先を確認 | Çağhan Köksal, Ghazal Ghazaei, Nassir Navab, | (参考訳) 手術シーンは、手術の質に関する重要な情報を伝える。
ツールと解剖学的構造のピクセルワイドな局在化は、顕微鏡的または内視鏡的外科的視点のためのより深い外科的分析に向けた最初の課題である。
これは一般的に、注釈の欲求である完全に教師された方法によって行われ、場合によっては医学的な専門知識を必要とする。
標準化された外科的ワークフローを通して得られた外科的ビデオの拡散を考えると,手術シーンの意味的セグメンテーションのためのアノテーション効率の良い枠組みを提案する。
我々は,画像に基づく自己監督型物体発見法を用いて,外科的ビデオにおいて最も有能なツールや解剖学的構造を同定する。
これらの提案は、最小限に監督された微調整のステップでさらに洗練される。
完全教師付きセグメンテーションモデルを用いて,36のアノテーションラベルで強化した無教師付きセットアップでは,同程度のローカライゼーション性能を示す。
さらに、外科的位相ラベルを弱いラベルとして活用することで、手術ツールに対するモデルの注意をガイドし、ツールのローカライゼーションが$\sim 2\%向上する。
CaDISデータセットの広範囲にわたるアブレーション研究は、最小または無監督の外科的対象の発見において、提案手法の有効性を検証した。
Surgical scenes convey crucial information about the quality of surgery. Pixel-wise localization of tools and anatomical structures is the first task towards deeper surgical analysis for microscopic or endoscopic surgical views. This is typically done via fully-supervised methods which are annotation greedy and in several cases, demanding medical expertise. Considering the profusion of surgical videos obtained through standardized surgical workflows, we propose an annotation-efficient framework for the semantic segmentation of surgical scenes. We employ image-based self-supervised object discovery to identify the most salient tools and anatomical structures in surgical videos. These proposals are further refined within a minimally supervised fine-tuning step. Our unsupervised setup reinforced with only 36 annotation labels indicates comparable localization performance with fully-supervised segmentation models. Further, leveraging surgical phase labels as weak labels can better guide model attention towards surgical tools, leading to $\sim 2\%$ improvement in tool localization. Extensive ablation studies on the CaDIS dataset validate the effectiveness of our proposed solution in discovering relevant surgical objects with minimal or no supervision. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# FedHide: 隣人によるフェデレーションラーニング
FedHide: Federated Learning by Hiding in the Neighbors ( http://arxiv.org/abs/2409.07808v1 ) ライセンス: Link先を確認 | Hyunsin Park, Sungrack Yun, | (参考訳) 本稿では,ネットワークを分類や検証タスクに組み込むためのプロトタイプベースのフェデレーション学習手法を提案する。
私たちの焦点は、各クライアントが単一のクラスからのデータを持つシナリオに焦点を当てています。
主な課題は、プライバシー制約を守りながら異なるクラスを区別できる埋め込みネットワークを開発することである。
真のクラスプロトタイプをサーバや他のクライアントと共有することは、機密情報を侵害する可能性がある。
この問題に対処するため、真のクラスプロトタイプの代わりにクライアント間で共有されるプロキシクラスプロトタイプを提案する。
提案手法では, プロキシクラスプロトタイプを近接する近傍に線形に結合することで, プロキシクラスプロトタイプを生成する。
このテクニックは、クライアントが差別的な埋め込みネットワークを学習しながら、真のクラスプロトタイプを隠蔽する。
提案手法を,ランダムなガウス雑音の追加やコサイン類似性制約を用いたランダムな選択など,代替手法と比較する。
さらに、勾配反転攻撃に対する我々のアプローチの堅牢性を評価し、プロトタイプリーク対策を導入する。
この尺度は、提案したプロキシクラスプロトタイプを共有する際のプライベート情報の範囲を定量化する。
さらに,本手法の収束特性を理論的に解析する。
提案手法は, CIFAR-100, VoxCeleb1, VGGFace2 の3つのベンチマークデータセットに対して, 実験結果を用いて, その有効性を示す。
We propose a prototype-based federated learning method designed for embedding networks in classification or verification tasks. Our focus is on scenarios where each client has data from a single class. The main challenge is to develop an embedding network that can distinguish between different classes while adhering to privacy constraints. Sharing true class prototypes with the server or other clients could potentially compromise sensitive information. To tackle this issue, we propose a proxy class prototype that will be shared among clients instead of the true class prototype. Our approach generates proxy class prototypes by linearly combining them with their nearest neighbors. This technique conceals the true class prototype while enabling clients to learn discriminative embedding networks. We compare our method to alternative techniques, such as adding random Gaussian noise and using random selection with cosine similarity constraints. Furthermore, we evaluate the robustness of our approach against gradient inversion attacks and introduce a measure for prototype leakage. This measure quantifies the extent of private information revealed when sharing the proposed proxy class prototype. Moreover, we provide a theoretical analysis of the convergence properties of our approach. Our proposed method for federated learning from scratch demonstrates its effectiveness through empirical results on three benchmark datasets: CIFAR-100, VoxCeleb1, and VGGFace2. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# プライバシ保証による可制御性臨床ノートの作成
Controllable Synthetic Clinical Note Generation with Privacy Guarantees ( http://arxiv.org/abs/2409.07809v1 ) ライセンス: Link先を確認 | Tal Baumel, Andre Manoel, Daniel Jones, Shize Su, Huseyin Inan, Aaron, Bornstein, Robert Sim, | (参考訳) 機械学習の分野では、ドメイン固有の注釈付きデータは効果的なモデルを訓練するための貴重なリソースである。
しかし、医療分野では、このデータはパーソナライズ・ヘルス・インフォメーション(PHI)を含むことが多く、重要なプライバシー上の懸念を提起する。
PHIを取り巻く厳格な規制により、医療データセットの可用性と共有が制限され、高度な機械学習モデルの開発を目指す研究者や実践者にとって大きな課題となる。
本稿では,PHIを含むデータセットをクローン化するための新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
差分プライバシ手法と新たな微調整タスクを活用することで,モデル学習に必要な統計的特性を保ちながら,識別可能な情報のないデータセットを生成する。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
その結果、クローン化されたデータセットは、プライバシ標準を遵守するだけでなく、従来の匿名データセットでトレーニングされたデータセットと比較してモデルパフォーマンスも向上することが示された。
この研究は、機械学習におけるセンシティブな医療データの倫理的・効果的な利用に有効なソリューションを提供し、医学研究の進展と堅牢な予測モデルの開発を促進する。
In the field of machine learning, domain-specific annotated data is an invaluable resource for training effective models. However, in the medical domain, this data often includes Personal Health Information (PHI), raising significant privacy concerns. The stringent regulations surrounding PHI limit the availability and sharing of medical datasets, which poses a substantial challenge for researchers and practitioners aiming to develop advanced machine learning models. In this paper, we introduce a novel method to "clone" datasets containing PHI. Our approach ensures that the cloned datasets retain the essential characteristics and utility of the original data without compromising patient privacy. By leveraging differential-privacy techniques and a novel fine-tuning task, our method produces datasets that are free from identifiable information while preserving the statistical properties necessary for model training. We conduct utility testing to evaluate the performance of machine learning models trained on the cloned datasets. The results demonstrate that our cloned datasets not only uphold privacy standards but also enhance model performance compared to those trained on traditional anonymized datasets. This work offers a viable solution for the ethical and effective utilization of sensitive medical data in machine learning, facilitating progress in medical research and the development of robust predictive models. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# YOLOv9とは何か:次世代オブジェクト検出器の内部特性の詳細な探索
What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector ( http://arxiv.org/abs/2409.07813v1 ) ライセンス: Link先を確認 | Muhammad Yaseen, | (参考訳) 本研究は, YOLOv9オブジェクト検出モデルの包括的解析を行い, アーキテクチャの革新, トレーニング方法論, 性能改善に着目した。
汎用高効率層集約ネットワークGELANやプログラマブルグラディエント情報PGIといった重要な進歩により、特徴抽出と勾配流が大幅に向上し、精度と効率が向上した。
Depthwise Convolutionsと軽量なC3Ghostアーキテクチャを組み込むことで、YOLOv9は高い精度を維持しながら計算複雑性を低減できる。
Microsoft COCOのベンチマークテストでは、平均精度mAPが優れており、推論時間が早くなり、複数のメトリクスでYOLOv8を上回っている。
このモデルの汎用性は、エッジデバイスから高性能GPUに至るまで、さまざまなハードウェアプラットフォームにシームレスにデプロイすることで強調される。
本稿は、IoTデバイスから大規模産業アプリケーションに至るまで、業界全体でリアルタイムオブジェクト検出のための最先端のソリューションとして、YOLOv9の内部機能とその実世界の適用性について、初めて詳細に調査する。
This study provides a comprehensive analysis of the YOLOv9 object detection model, focusing on its architectural innovations, training methodologies, and performance improvements over its predecessors. Key advancements, such as the Generalized Efficient Layer Aggregation Network GELAN and Programmable Gradient Information PGI, significantly enhance feature extraction and gradient flow, leading to improved accuracy and efficiency. By incorporating Depthwise Convolutions and the lightweight C3Ghost architecture, YOLOv9 reduces computational complexity while maintaining high precision. Benchmark tests on Microsoft COCO demonstrate its superior mean Average Precision mAP and faster inference times, outperforming YOLOv8 across multiple metrics. The model versatility is highlighted by its seamless deployment across various hardware platforms, from edge devices to high performance GPUs, with built in support for PyTorch and TensorRT integration. This paper provides the first in depth exploration of YOLOv9s internal features and their real world applicability, establishing it as a state of the art solution for real time object detection across industries, from IoT devices to large scale industrial applications. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# ジョイント広告の販売:レグレットの最小化の視点
Selling Joint Ads: A Regret Minimization Perspective ( http://arxiv.org/abs/2409.07819v1 ) ライセンス: Link先を確認 | Gagan Aggarwal, Ashwinkumar Badanidiyuru, Paul Dütting, Federico Fusco, | (参考訳) オンライン小売によって動機づけられた私たちは、一品(例:広告スロット)を2つの非排除購入者(例:商人とブランド)に販売する問題を考える。
この問題は、例えば、マーチャントとブランドが商品を宣伝するために競売に協力的に入札する状況と、表示されている広告の利益の両方を捉えている。
メカニズムは2つの入札を収集し、どちらを割り当てるか、どの支払いを行うかを決定する。
これにより、複雑なインセンティブの互換性の制約が生まれます。
我々は、オンライン学習の観点から、収益を最大化するインセンティブ互換メカニズムを見つけるという問題にアプローチする。
第一に、アクション空間(全ての可能なメカニズムのクラス)は巨大であり、第二に、メカニズムを収益にマッピングする関数は非常に不規則であり、標準的な離散化に基づくアプローチを除外する。
確率的条件下では,残差の$O(T^{3/4})$を達成できる効率的な学習アルゴリズムを設計する。
我々のアプローチは、非適応的な離散化がサブ線形後悔を達成できないため、メカニズム空間の適応的な離散化スキームに基づいている。
逆向きの設定では、問題の非Lipschitznessを利用して、強い負の結果を証明し、すなわち、学習アルゴリズムが後見で最高の固定機構の収益の半分以上を達成できない。
次に、$\sigma$-smoothの逆数を考える。我々は、$O(T^{2/3})の後悔境界を達成し、指数的に多くの専門家の簡潔な符号化の上に構築する効率的な学習アルゴリズムを構築する。
最後に、確率的および滑らかな設定の両方において、学習アルゴリズムが$\Omega(\sqrt T)以下の後悔を達成できないことを証明し、これらの2つの問題に対するミニマックスの後悔率が生じる範囲を狭める。
Motivated by online retail, we consider the problem of selling one item (e.g., an ad slot) to two non-excludable buyers (say, a merchant and a brand). This problem captures, for example, situations where a merchant and a brand cooperatively bid in an auction to advertise a product, and both benefit from the ad being shown. A mechanism collects bids from the two and decides whether to allocate and which payments the two parties should make. This gives rise to intricate incentive compatibility constraints, e.g., on how to split payments between the two parties. We approach the problem of finding a revenue-maximizing incentive-compatible mechanism from an online learning perspective; this poses significant technical challenges. First, the action space (the class of all possible mechanisms) is huge; second, the function that maps mechanisms to revenue is highly irregular, ruling out standard discretization-based approaches. In the stochastic setting, we design an efficient learning algorithm achieving a regret bound of $O(T^{3/4})$. Our approach is based on an adaptive discretization scheme of the space of mechanisms, as any non-adaptive discretization fails to achieve sublinear regret. In the adversarial setting, we exploit the non-Lipschitzness of the problem to prove a strong negative result, namely that no learning algorithm can achieve more than half of the revenue of the best fixed mechanism in hindsight. We then consider the $\sigma$-smooth adversary; we construct an efficient learning algorithm that achieves a regret bound of $O(T^{2/3})$ and builds on a succinct encoding of exponentially many experts. Finally, we prove that no learning algorithm can achieve less than $\Omega(\sqrt T)$ regret in both the stochastic and the smooth setting, thus narrowing the range where the minimax regret rates for these two problems lie. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# 重み付けアグリゲーションによるオーバー・ザ・エア・フェデレーション学習
Over-the-Air Federated Learning via Weighted Aggregation ( http://arxiv.org/abs/2409.07822v1 ) ライセンス: Link先を確認 | Seyed Mohammad Azimi-Abarghouyi, Leandros Tassiulas, | (参考訳) 本稿では, オーバー・ザ・エア計算を利用した新しいフェデレーション学習手法を提案する。
このスキームの新たな特徴は、他のオーバー・ザ・エア方式で事前に定義されたファセットであるアグリゲーション中に適応重みを用いる提案である。
これにより、送信側(CSIT)のチャネル状態情報を必要とせずに、無線チャネル条件が学習性能に与える影響を軽減することができる。
本稿では,計算的不均一性と一般損失関数の文脈において,提案手法の収束境界を導出する数学的手法を提案する。
そこで本研究では,アグリゲーションに最適化された重みを求めるために,アグリゲーションコストの指標と効率的なアルゴリズムを提案する。
最後に,数値実験により提案手法の有効性を検証した。
チャネル条件やデバイスの不均一性によって生じる課題にも拘わらず,提案手法はCSITを使用する方式よりも15%精度が向上し,CSITのない方式に比べて30%精度が向上した。
This paper introduces a new federated learning scheme that leverages over-the-air computation. A novel feature of this scheme is the proposal to employ adaptive weights during aggregation, a facet treated as predefined in other over-the-air schemes. This can mitigate the impact of wireless channel conditions on learning performance, without needing channel state information at transmitter side (CSIT). We provide a mathematical methodology to derive the convergence bound for the proposed scheme in the context of computational heterogeneity and general loss functions, supplemented with design insights. Accordingly, we propose aggregation cost metrics and efficient algorithms to find optimized weights for the aggregation. Finally, through numerical experiments, we validate the effectiveness of the proposed scheme. Even with the challenges posed by channel conditions and device heterogeneity, the proposed scheme surpasses other over-the-air strategies by an accuracy improvement of 15% over the scheme using CSIT and 30% compared to the one without CSIT. | 翻訳日:2024-09-13 17:27:45 公開日:2024-09-12 |
# オンライン対オフライン:ソーシャルチャットボットの第一部と第三部の比較研究
Online vs Offline: A Comparative Study of First-Party and Third-Party Evaluations of Social Chatbots ( http://arxiv.org/abs/2409.07823v1 ) ライセンス: Link先を確認 | Ekaterina Svikhnushina, Pearl Pu, | (参考訳) 本稿では,対話型チャットボットの評価におけるオンラインとオフラインによる評価手法の有効性について検討する。
ユーザダイアログのベンチマークデータセットをオフラインの第三者評価で拡張することにより、オンラインインタラクションからのフィードバックと、より分離されたオフラインの第三者評価とを体系的に比較する。
その結果、オフラインの人間による評価は、人間とチャットボットの相互作用の微妙さを、オンラインアセスメントと同じくらい効果的に捉えられないことが明らかとなった。
対照的に、GPT-4モデルを用いた自動第三者評価は、詳細な指示を受けた第三者の判断をよりよく近似する。
本研究は,ユーザエクスペリエンスの複雑さの把握における第三者評価の限界を強調し,システム開発とユーザ満足度を高めるために,会話型AI評価における直接インタラクションフィードバックの統合を提唱する。
This paper explores the efficacy of online versus offline evaluation methods in assessing conversational chatbots, specifically comparing first-party direct interactions with third-party observational assessments. By extending a benchmarking dataset of user dialogs with empathetic chatbots with offline third-party evaluations, we present a systematic comparison between the feedback from online interactions and the more detached offline third-party evaluations. Our results reveal that offline human evaluations fail to capture the subtleties of human-chatbot interactions as effectively as online assessments. In comparison, automated third-party evaluations using a GPT-4 model offer a better approximation of first-party human judgments given detailed instructions. This study highlights the limitations of third-party evaluations in grasping the complexities of user experiences and advocates for the integration of direct interaction feedback in conversational AI evaluation to enhance system development and user satisfaction. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# 欠損モードを用いた深層マルチモーダル学習に関する包括的調査
A Comprehensive Survey on Deep Multimodal Learning with Missing Modality ( http://arxiv.org/abs/2409.07825v1 ) ライセンス: Link先を確認 | Renjie Wu, Hu Wang, Hsiang-Ting Chen, | (参考訳) マルチモーダルモデルトレーニングと推論の間、データサンプルは特定のモダリティを逸脱し、センサーの制限、コスト制限、プライバシー上の懸念、データ損失、時間的および空間的要因によるモデルパフォーマンスを損なう可能性がある。
本調査は,ディープラーニング技術に着目したMLMM(Multimodal Learning with Missing Modality)の最近の進歩について概説する。
これは、MLMMと標準マルチモーダル学習設定の歴史的背景と区別に関する最初の総合的な調査であり、続いて現在のMLMMメソッド、アプリケーション、データセットの詳細な分析を行い、この分野における課題と今後の方向性に関する議論を締めくくった。
During multimodal model training and reasoning, data samples may miss certain modalities and lead to compromised model performance due to sensor limitations, cost constraints, privacy concerns, data loss, and temporal and spatial factors. This survey provides an overview of recent progress in Multimodal Learning with Missing Modality (MLMM), focusing on deep learning techniques. It is the first comprehensive survey that covers the historical background and the distinction between MLMM and standard multimodal learning setups, followed by a detailed analysis of current MLMM methods, applications, and datasets, concluding with a discussion about challenges and potential future directions in the field. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# 絵画と音楽の橋渡し -絵画による感情に基づく音楽生成を探る-
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings ( http://arxiv.org/abs/2409.07827v1 ) ライセンス: Link先を確認 | Tanisha Hisariya, Huan Zhang, Jinhua Liang, | (参考訳) 人工知能の急速な進歩は、音楽と画像を含む生成タスクを大幅に強化し、単調なアプローチとマルチモーダルなアプローチを採用した。
本研究では,視覚芸術において表現される感情と調和し,感情のラベル付け,イメージキャプション,言語モデルを統合して視覚入力を楽曲に変換する音楽生成モデルを開発する。
コーディネート・アートと音楽データの不足に対処し,エモーティング・ペティング・ミュージック・データセット(Emotion Painting Music Dataset)をキュレートし,絵と対応する楽曲をペアリングし,効果的なトレーニングと評価を行った。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
Fr\echet Audio Distance (FAD)、Total Harmonic Distortion (THD)、Inception Score (IS)、KL divergenceなどの測定値を用いて評価を行い、事前学習したCLAPモデルにより音声-感情テキストの類似性を確認し、生成した音楽とテキストの高整合性を示す。
本発明の合成ツールは、視覚芸術と音楽の橋渡しを行い、豊富な多感覚体験を提供することにより、教育及び治療応用における視覚障害及び開口路のアクセシビリティを高める。
Rapid advancements in artificial intelligence have significantly enhanced generative tasks involving music and images, employing both unimodal and multimodal approaches. This research develops a model capable of generating music that resonates with the emotions depicted in visual arts, integrating emotion labeling, image captioning, and language models to transform visual inputs into musical compositions. Addressing the scarcity of aligned art and music data, we curated the Emotion Painting Music Dataset, pairing paintings with corresponding music for effective training and evaluation. Our dual-stage framework converts images to text descriptions of emotional content and then transforms these descriptions into music, facilitating efficient learning with minimal data. Performance is evaluated using metrics such as Fr\'echet Audio Distance (FAD), Total Harmonic Distortion (THD), Inception Score (IS), and KL divergence, with audio-emotion text similarity confirmed by the pre-trained CLAP model to demonstrate high alignment between generated music and text. This synthesis tool bridges visual art and music, enhancing accessibility for the visually impaired and opening avenues in educational and therapeutic applications by providing enriched multi-sensory experiences. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# 検索型LLMを用いたコスト効果UI自動化テストの実現:WeChatを事例として
Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat ( http://arxiv.org/abs/2409.07829v1 ) ライセンス: Link先を確認 | Sidong Feng, Haochuan Lu, Jianqin Jiang, Ting Xiong, Likun Huang, Yinglin Liang, Xiaoqin Li, Yuetang Deng, Aldeida Aleti, | (参考訳) UI自動化テストは、モバイルアプリケーションの品質を保証する上で重要な役割を果たす。
これらのテストを生成する機械学習技術の普及にもかかわらず、UI要素のミスマッチなど、いくつかの課題に直面している。
大規模言語モデル(LLM)の最近の進歩は、それらの意味理解能力を活用することでこれらの問題に対処している。
しかしながら、これらのモデルを産業レベルのアプリテストに適用する上で、特にコスト最適化と知識制限の観点から、大きなギャップが残っている。
これを解決するために、機械学習とLLMをベストプラクティスと組み合わせて、業界アプリのための費用対効果の高いUI自動化テストを作成するために、CATを導入します。
タスク記述を前提として、CATはRetrieval Augmented Generation(RAG)を使用して、産業アプリケーションの使用例を数ショットの学習コンテキストとして公開し、特定のアクションシーケンスを生成するLLMを支援する。
CATは機械学習技術を採用し、LLMは補完的なオプティマイザとして機能し、ターゲット要素をUI画面にマップする。
WeChatテストデータセットの評価は、CATのパフォーマンスとコスト効率を示し、90%のUI自動化を0.34ドルのコストで達成し、最先端よりも優れています。
また、我々のアプローチを現実世界のWeChatテストプラットフォームに統合し、141のバグを検出し、開発者のテストプロセスを強化することで、その有用性を実証しました。
UI automation tests play a crucial role in ensuring the quality of mobile applications. Despite the growing popularity of machine learning techniques to generate these tests, they still face several challenges, such as the mismatch of UI elements. The recent advances in Large Language Models (LLMs) have addressed these issues by leveraging their semantic understanding capabilities. However, a significant gap remains in applying these models to industrial-level app testing, particularly in terms of cost optimization and knowledge limitation. To address this, we introduce CAT to create cost-effective UI automation tests for industry apps by combining machine learning and LLMs with best practices. Given the task description, CAT employs Retrieval Augmented Generation (RAG) to source examples of industrial app usage as the few-shot learning context, assisting LLMs in generating the specific sequence of actions. CAT then employs machine learning techniques, with LLMs serving as a complementary optimizer, to map the target element on the UI screen. Our evaluations on the WeChat testing dataset demonstrate the CAT's performance and cost-effectiveness, achieving 90% UI automation with $0.34 cost, outperforming the state-of-the-art. We have also integrated our approach into the real-world WeChat testing platform, demonstrating its usefulness in detecting 141 bugs and enhancing the developers' testing process. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# ReGentS: 現実の安全で批判的な運転シナリオをステアブルに
ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable ( http://arxiv.org/abs/2409.07830v1 ) ライセンス: Link先を確認 | Yuan Yin, Pegah Khayatan, Éloi Zablocki, Alexandre Boulch, Matthieu Cord, | (参考訳) 機械学習に基づく自律運転システムは、現実のデータでは稀な安全クリティカルなシナリオで課題に直面し、大規模なデプロイメントを妨げていることが多い。
実際のトレーニングデータカバレッジの増加はこの問題に対処する可能性があるが、コストがかかり危険である。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
本稿では,生成した軌道を安定化し,衝突や最適化の問題を避けるためにヒューリスティックスを導入するReGentSを提案する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
また、シナリオ生成フレームワークを拡張して、最大32個のエージェントで現実世界のデータを処理する。
さらに、微分可能シミュレータを用いて、シミュレータを含む勾配降下に基づく最適化を単純化し、将来の進歩への道を開く。
コードはhttps://github.com/valeoai/ReGentS.comで公開されている。
Machine learning based autonomous driving systems often face challenges with safety-critical scenarios that are rare in real-world data, hindering their large-scale deployment. While increasing real-world training data coverage could address this issue, it is costly and dangerous. This work explores generating safety-critical driving scenarios by modifying complex real-world regular scenarios through trajectory optimization. We propose ReGentS, which stabilizes generated trajectories and introduces heuristics to avoid obvious collisions and optimization problems. Our approach addresses unrealistic diverging trajectories and unavoidable collision scenarios that are not useful for training robust planner. We also extend the scenario generation framework to handle real-world data with up to 32 agents. Additionally, by using a differentiable simulator, our approach simplifies gradient descent-based optimization involving a simulator, paving the way for future advancements. The code is available at https://github.com/valeoai/ReGentS. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# NAND-Flashを用いた多クラスFew-Shot学習のための非対称符号化を用いた効率よく信頼性の高いベクトル類似検索
Efficient and Reliable Vector Similarity Search Using Asymmetric Encoding with NAND-Flash for Many-Class Few-Shot Learning ( http://arxiv.org/abs/2409.07832v1 ) ライセンス: Link先を確認 | Hao-Wei Chiang, Chi-Tse Huang, Hsiang-Yun Cheng, Po-Hao Tseng, Ming-Hsiu Lee, An-Yeu, Wu, | (参考訳) メモリ拡張ニューラルネットワーク(MANN)は、深層ニューラルネットワークと外部メモリを統合することで、数ショット学習(FSL)に効果的なソリューションを提供するが、多くのクラスFSLシナリオにおいて、大量のサポートベクタによって、データ移動のキャパシティ要件とエネルギーオーバーヘッドが大きくなる。
様々なインメモリ検索ソリューションが登場し、MANNのエネルギー効率が向上した。
NANDベースのマルチビットコンテンツアドレスメモリ(MCAM)は、高密度で容量が大きいため、有望な選択肢である。
その可能性にもかかわらず、MCAMはワードラインの制限、量子化レベルの制限、文字列電流の変化やボトルネック効果などの非理想効果といった制限に直面しており、精度の低下につながっている。
これらの問題に対処するために、我々はいくつかの革新的な方法を提案する。
まず,Multi-bit Thermometer Code (MTMC) はMCAMの広い容量を活用し,累積符号化規則を用いてベクトル精度を向上し,ボトルネック効果を緩和する。
第2に、非対称ベクトル類似度探索(AVSS)は、サポートベクターの精度を維持しつつクエリベクターの精度を低下させ、探索イテレーションを最小化し、多くのシナリオにおける効率を向上させる。
最後に、ハードウェア・アウェア・トレーニング(HAT)法は、MCAMのハードウェア特性をモデル化することで、コントローラのトレーニングを最適化し、システムの信頼性を高める。
我々の統合フレームワークは、検索イテレーションを最大32倍に減らし、全体的な精度は1.58%から6.94%に向上した。
While memory-augmented neural networks (MANNs) offer an effective solution for few-shot learning (FSL) by integrating deep neural networks with external memory, the capacity requirements and energy overhead of data movement become enormous due to the large number of support vectors in many-class FSL scenarios. Various in-memory search solutions have emerged to improve the energy efficiency of MANNs. NAND-based multi-bit content addressable memory (MCAM) is a promising option due to its high density and large capacity. Despite its potential, MCAM faces limitations such as a restricted number of word lines, limited quantization levels, and non-ideal effects like varying string currents and bottleneck effects, which lead to significant accuracy drops. To address these issues, we propose several innovative methods. First, the Multi-bit Thermometer Code (MTMC) leverages the extensive capacity of MCAM to enhance vector precision using cumulative encoding rules, thereby mitigating the bottleneck effect. Second, the Asymmetric vector similarity search (AVSS) reduces the precision of the query vector while maintaining that of the support vectors, thereby minimizing the search iterations and improving efficiency in many-class scenarios. Finally, the Hardware-Aware Training (HAT) method optimizes controller training by modeling the hardware characteristics of MCAM, thus enhancing the reliability of the system. Our integrated framework reduces search iterations by up to 32 times, and increases overall accuracy by 1.58% to 6.94%. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# CoLaNETスパイクニューラルネットワークによる画像の分類 - MNISTの例
Classifying Images with CoLaNET Spiking Neural Network -- the MNIST Example ( http://arxiv.org/abs/2409.07833v1 ) ライセンス: Link先を確認 | Mikhail Kiselev, | (参考訳) 本稿では,コラム/層状CoLaNETスパイクニューラルネットワーク(SNN)アーキテクチャを用いて,教師あり学習画像分類作業を行う方法について述べる。
画像表示期間中に、スパイク数によって画素輝度を符号化する。
イメージクラスラベルは、特別なSNN入力ノード(クラス毎に1ノード)のアクティビティによって示される。
CoLaNET分類精度はMNISTベンチマークで評価される。
CoLaNETは(畳み込みアプローチを使用しない)最も高度な機械学習アルゴリズムと同じくらい正確であることを示す。
In the present paper, it is shown how the columnar/layered CoLaNET spiking neural network (SNN) architecture can be used in supervised learning image classification tasks. Image pixel brightness is coded by the spike count during image presentation period. Image class label is indicated by activity of special SNN input nodes (one node per class). The CoLaNET classification accuracy is evaluated on the MNIST benchmark. It is demonstrated that CoLaNET is almost as accurate as the most advanced machine learning algorithms (not using convolutional approach). | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# 効率的な視覚的位置認識のための構造化プルーニング
Structured Pruning for Efficient Visual Place Recognition ( http://arxiv.org/abs/2409.07834v1 ) ライセンス: Link先を確認 | Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn, Shoaib Ehsan, | (参考訳) 視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせないものであり、視覚的な入力に基づいて以前に訪れた場所を認識できる。
この能力は、広範囲にわたる正確なマッピングとローカライゼーションを維持するために不可欠である。
VPR手法は組込みシステム上でリアルタイムに動作する必要があるため、これらのシステムを最小限のリソース消費のために最適化することが重要である。
最も効率的なVPRアプローチでは、固定ディスクリプタ次元の標準的な畳み込みバックボーンが使用されるが、これはしばしば埋め込み空間とネットワークアーキテクチャの冗長性をもたらす。
本研究は,共通VPRアーキテクチャの合理化だけでなく,特徴埋め込み空間内での冗長性を戦略的に除去する,新しい構造化プルーニング手法を提案する。
この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。
当社のアプローチでは,モデル間でのメモリ使用量とレイテンシをそれぞれ21%,レイテンシを16%削減しています。
この大幅な改善は、無視できる精度の損失のあるエッジデバイスにおけるリアルタイムなアプリケーションを強化する。
Visual Place Recognition (VPR) is fundamental for the global re-localization of robots and devices, enabling them to recognize previously visited locations based on visual inputs. This capability is crucial for maintaining accurate mapping and localization over large areas. Given that VPR methods need to operate in real-time on embedded systems, it is critical to optimize these systems for minimal resource consumption. While the most efficient VPR approaches employ standard convolutional backbones with fixed descriptor dimensions, these often lead to redundancy in the embedding space as well as in the network architecture. Our work introduces a novel structured pruning method, to not only streamline common VPR architectures but also to strategically remove redundancies within the feature embedding space. This dual focus significantly enhances the efficiency of the system, reducing both map and model memory requirements and decreasing feature extraction and retrieval latencies. Our approach has reduced memory usage and latency by 21% and 16%, respectively, across models, while minimally impacting recall@1 accuracy by less than 1%. This significant improvement enhances real-time applications on edge devices with negligible accuracy loss. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# FPMT:交通事故検出のための半監督モデル
FPMT: Enhanced Semi-Supervised Model for Traffic Incident Detection ( http://arxiv.org/abs/2409.07839v1 ) ライセンス: Link先を確認 | Xinying Lu, Jianli Xiao, | (参考訳) トラフィックインシデント検出では、データとラベルの取得が特にリソース集約的であり、半教師付きトラフィックインシデント検出は、恐ろしく連続的な課題である。
そこで本研究では,半教師付き学習手法による交通事故検出に焦点を当てた。
MixTextのフレームワーク内でFPMTという名前の半教師付き学習モデルを提案する。
データ拡張モジュールには、データセットのバランスと拡張のためのGenerative Adversarial Networksが導入されている。
隠れた空間における混合過程において、正規化を高め、モデルの精度を高めるために確率論的擬似混合機構を用いる。
トレーニング戦略では、すべてのデータに対して教師なしのトレーニングを開始し、その後ラベル付きデータのサブセットを教師付き微調整し、最終的にはセミ教師付きトレーニングの目標を達成します。
FPMTモデルでは,4つの正当性データセットに対する実証的検証により,様々な指標において優れた性能を示す。
特に注目すべきは、ラベルレートの低いシナリオでも、堅牢なパフォーマンスだ。
For traffic incident detection, the acquisition of data and labels is notably resource-intensive, rendering semi-supervised traffic incident detection both a formidable and consequential challenge. Thus, this paper focuses on traffic incident detection with a semi-supervised learning way. It proposes a semi-supervised learning model named FPMT within the framework of MixText. The data augmentation module introduces Generative Adversarial Networks to balance and expand the dataset. During the mix-up process in the hidden space, it employs a probabilistic pseudo-mixing mechanism to enhance regularization and elevate model precision. In terms of training strategy, it initiates with unsupervised training on all data, followed by supervised fine-tuning on a subset of labeled data, and ultimately completing the goal of semi-supervised training. Through empirical validation on four authentic datasets, our FPMT model exhibits outstanding performance across various metrics. Particularly noteworthy is its robust performance even in scenarios with low label rates. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# TSELM:離散トークンと言語モデルを用いた話者抽出
TSELM: Target Speaker Extraction using Discrete Tokens and Language Models ( http://arxiv.org/abs/2409.07841v1 ) ライセンス: Link先を確認 | Beilong Tang, Bang Zeng, Ming Li, | (参考訳) 本稿では,離散トークンと言語モデルを利用した新たなターゲット話者抽出ネットワークであるTSELMを提案する。
TSELMは、WavLMからの複数の離散層を入力トークンとして利用し、ターゲット話者情報を統合するためのクロスアテンション機構を組み込んでいる。
言語モデルはシーケンスの依存関係をキャプチャするために使用され、スケーラブルなHiFi-GANはトークンからオーディオを再構築するために使用される。
クロスエントロピー損失を適用することで、TSELMは出力トークンの確率分布をモデル化し、オーディオ生成の複雑な回帰問題を分類タスクに変換する。
実験結果から,TSELMは音声品質において優れた結果が得られることがわかった。
We propose TSELM, a novel target speaker extraction network that leverages discrete tokens and language models. TSELM utilizes multiple discretized layers from WavLM as input tokens and incorporates cross-attention mechanisms to integrate target speaker information. Language models are employed to capture the sequence dependencies, while a scalable HiFi-GAN is used to reconstruct the audio from the tokens. By applying a cross-entropy loss, TSELM models the probability distribution of output tokens, thus converting the complex regression problem of audio generation into a classification task. Experimental results show that TSELM achieves excellent results in speech quality and comparable results in speech intelligibility. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# ロボットのリアルタイム多視点全方位深度推定システムと実環境における自律走行
Real-time Multi-view Omnidirectional Depth Estimation System for Robots and Autonomous Driving on Real Scenes ( http://arxiv.org/abs/2409.07843v1 ) ライセンス: Link先を確認 | Ming Li, Xiong Yang, Chaofan Wu, Jiaheng Li, Pinzhi Wang, Xuejiao Hu, Sidan Du, Yang Li, | (参考訳) Omnidirectional Depth Estimationは、ロボットナビゲーションや自律運転といった分野における幅広い応用の見通しを持っている。
本稿では,ロボットと車両の両方の現実シナリオにおいて,ナビゲーションと障害物回避のための全方位深度推定を行うロボットプロトタイプシステムとそれに対応するアルゴリズムを提案する。
提案したHexaMODEシステムは、6つの周囲の魚眼カメラを用いて360$^\circ$の深度マップをキャプチャする。
実時間全方位深度推定を実現するために,球面スイーシング法とモデルアーキテクチャを併用したRtHexa-OmniMVSアルゴリズムを提案する。
実世界の環境における高い精度、堅牢性、一般化を実現するため、モデルトレーニングに大規模にラベル付けされていない実世界のデータを活用する教師による自己学習戦略を採用している。
提案アルゴリズムは,屋内および屋外の両方で複雑な実世界のシナリオにおいて高い精度を示し,エッジコンピューティングプラットフォーム上で15fpsの推論速度を実現する。
Omnidirectional Depth Estimation has broad application prospects in fields such as robotic navigation and autonomous driving. In this paper, we propose a robotic prototype system and corresponding algorithm designed to validate omnidirectional depth estimation for navigation and obstacle avoidance in real-world scenarios for both robots and vehicles. The proposed HexaMODE system captures 360$^\circ$ depth maps using six surrounding arranged fisheye cameras. We introduce a combined spherical sweeping method and optimize the model architecture for proposed RtHexa-OmniMVS algorithm to achieve real-time omnidirectional depth estimation. To ensure high accuracy, robustness, and generalization in real-world environments, we employ a teacher-student self-training strategy, utilizing large-scale unlabeled real-world data for model training. The proposed algorithm demonstrates high accuracy in various complex real-world scenarios, both indoors and outdoors, achieving an inference speed of 15 fps on edge computing platforms. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# C3-VQA:変分量子アルゴリズムのための低温カウンタベースコプロセッサ
C3-VQA: Cryogenic Counter-based Co-processor for Variational Quantum Algorithms ( http://arxiv.org/abs/2409.07847v1 ) ライセンス: Link先を確認 | Yosuke Ueno, Satoshi Imamura, Yuna Tomida, Teruo Tanimoto, Masamitsu Tanaka, Yutaka Tabuchi, Koji Inoue, Hiroshi Nakamura, | (参考訳) 極低温量子コンピュータは量子優位性を示す主要な役割を担っている。
低温環境における冷却能力の厳しい制約を考えると、これらのコンピュータのスケーラビリティには熱設計が不可欠である。
熱散逸の原因には、温度間ワイヤによる受動的流入や、ワイヤ増幅器や量子古典的インタフェースなど、クライオスタット内にあるコンポーネントの消費電力が含まれる。
したがって、クライオスタットの電力消費を最小限に抑えつつ、必要な温度間帯域幅を減らし、配線数を減らすことが重要な課題である。
この課題に対処する解決策の1つは、クライオスタット内の超低消費電力計算論理を用いたニアデータ処理である。
変分量子アルゴリズム(VQA)に着目した負荷解析とドメイン固有のシステム設計に基づいて,温度制約下での低温量子コンピュータの設計スケーラビリティを高めるために,VQA(C3-VQA)のためのCryogenic Counter-based Co-processorを提案する。
C3-VQAは4K環境で動作する超低消費電力超伝導デジタル回路である単一磁束量子論理を用いる。
C3−VQAは、VQAの期待値計算の一部をプリ計算し、簡単なビット演算ユニットとクライオスタットのカウンタを用いて中間値をバッファし、必要な温度間帯域幅を最小限の電力消費で削減する。
その結果、C3-VQAはワイヤの数を減らし、クライオスタットの総放熱量を減少させる。
評価の結果,C3-VQAはシーケンシャルショットおよび並列ショット実行シナリオにおいて,4Kステージにおける全放熱量を30%,81%削減することがわかった。
さらに、量子化学におけるケーススタディでは、C3-VQAは10,000量子ビット系で全放熱を87%減少させる。
Cryogenic quantum computers play a leading role in demonstrating quantum advantage. Given the severe constraints on the cooling capacity in cryogenic environments, thermal design is crucial for the scalability of these computers. The sources of heat dissipation include passive inflow via inter-temperature wires and the power consumption of components located in the cryostat, such as wire amplifiers and quantum-classical interfaces. Thus, a critical challenge is to reduce the number of wires by reducing the required inter-temperature bandwidth while maintaining minimal additional power consumption in the cryostat. One solution to address this challenge is near-data processing using ultra-low-power computational logic within the cryostat. Based on the workload analysis and domain-specific system design focused on Variational Quantum Algorithms (VQAs), we propose the Cryogenic Counter-based Co-processor for VQAs (C3-VQA) to enhance the design scalability of cryogenic quantum computers under the thermal constraint. The C3-VQA utilizes single-flux-quantum logic, which is an ultra-low-power superconducting digital circuit that operates at the 4 K environment. The C3-VQA precomputes a part of the expectation value calculations for VQAs and buffers intermediate values using simple bit operation units and counters in the cryostat, thereby reducing the required inter-temperature bandwidth with small additional power consumption. Consequently, the C3-VQA reduces the number of wires, leading to a reduction in the total heat dissipation in the cryostat. Our evaluation shows that the C3-VQA reduces the total heat dissipation at the 4 K stage by 30% and 81% under sequential-shot and parallel-shot execution scenarios, respectively. Furthermore, a case study in quantum chemistry shows that the C3-VQA reduces total heat dissipation by 87% with a 10,000-qubit system. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# グラフ同型ネットワークによる市場横断推薦システムの実現:パーソナライズされたユーザエクスペリエンスへの新しいアプローチ
Enhancing Cross-Market Recommendation System with Graph Isomorphism Networks: A Novel Approach to Personalized User Experience ( http://arxiv.org/abs/2409.07850v1 ) ライセンス: Link先を確認 | Sümeyye Öztürk, Ahmed Burak Ercan, Resul Tugay, Şule Gündüz Öğüdücü, | (参考訳) グローバルなコマースの世界では、さまざまな市場セグメントでパーソナライズされたユーザエクスペリエンスを提供するために、クロスマーケットレコメンデーションシステム(CMR)が不可欠です。
しかし、従来のレコメンデーションアルゴリズムは、特に新興市場や新興市場において、市場の特異性やデータの分散性を扱うのが困難である。
本稿では,グラフ同型ネットワーク(GIN)を用いてCMRシステムを改善するCrossGRモデルを提案する。
NDCG@10とHR@10の既存のベンチマークを上回り、多様な市場セグメントを扱う際の適応性と正確性を示している。
CrossGRモデルは適応可能で正確であり、市場横断のレコメンデーションタスクの複雑さを扱うのに適している。
その堅牢性は、さまざまな評価時間枠をまたいだ一貫したパフォーマンスによって示され、市場の動向とユーザの好みを進化させる可能性を示している。
我々の研究結果は、GINはCMRにとって有望な方向性を示し、グローバルeコマースのダイナミックな状況において、より洗練され、パーソナライズされ、コンテキスト対応のレコメンデーションシステムを実現することを示唆している。
In today's world of globalized commerce, cross-market recommendation systems (CMRs) are crucial for providing personalized user experiences across diverse market segments. However, traditional recommendation algorithms have difficulties dealing with market specificity and data sparsity, especially in new or emerging markets. In this paper, we propose the CrossGR model, which utilizes Graph Isomorphism Networks (GINs) to improve CMR systems. It outperforms existing benchmarks in NDCG@10 and HR@10 metrics, demonstrating its adaptability and accuracy in handling diverse market segments. The CrossGR model is adaptable and accurate, making it well-suited for handling the complexities of cross-market recommendation tasks. Its robustness is demonstrated by consistent performance across different evaluation timeframes, indicating its potential to cater to evolving market trends and user preferences. Our findings suggest that GINs represent a promising direction for CMRs, paving the way for more sophisticated, personalized, and context-aware recommendation systems in the dynamic landscape of global e-commerce. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# ポスト量子クリトグラフィーに向けたソフトウェア実行ツールのマイグレーション支援ツールチェーン
A Toolchain for Assisting Migration of Software Executables Towards Post-Quantum Crytography ( http://arxiv.org/abs/2409.07852v1 ) ライセンス: Link先を確認 | Norrathep Rattanavipanon, Jakapan Suaboot, Warodom Werapun, | (参考訳) 量子コンピューティングは、今日のセキュリティメカニズムに重大な世界的脅威をもたらす。
その結果、セキュリティ専門家と公共部門は、組織がソフトウェアをポスト量子暗号(PQC)に移行するのを支援するためのガイドラインを発行した。
これらの努力にもかかわらず、この移行をサポートするための(半自動的な)ツールが欠如している。
このギャップに対処するため、本研究では、まず、量子ハザード可能なソフトウェア実行ファイルを検出するツールに必要な一連の要件を提案する。
これらの要件に従い、QED: Quantum-vulnerable Executable Detectionのためのツールチェーンを紹介する。
QEDは、ファイルレベルからAPIレベルまで、与えられた実行ファイルセット内の量子ハザード依存を識別するために3フェーズのアプローチを使用し、最後に、量子ハザード可能なAPIをトリガーする静的トレースを正確に識別する。
4つの暗号ライブラリを持つ合成データセットと200以上のソフトウェア実行可能ファイルを持つ実世界のデータセットでQEDを評価した。
その結果、(1)QEDは、合成データセットにおける100%の精度で量子安全な実行可能量と区別し、(2)QEDは実用的でスケーラブルで、実世界の実行可能量につき平均4秒未満で解析を完了し、(3)QEDは、実世界のデータセットにおける量子ハザード可能な実行可能量を特定するためにアナリストが必要とする手作業量を90%以上削減する。
我々は、QEDがPQCへの移行を促進する重要なツールになり得ることを願っている。
Quantum computing poses a significant global threat to today's security mechanisms. As a result, security experts and public sectors have issued guidelines to help organizations migrate their software to post-quantum cryptography (PQC). Despite these efforts, there is a lack of (semi-)automatic tools to support this transition especially when software is used and deployed as binary executables. To address this gap, in this work, we first propose a set of requirements necessary for a tool to detect quantum-vulnerable software executables. Following these requirements, we introduce QED: a toolchain for Quantum-vulnerable Executable Detection. QED uses a three-phase approach to identify quantum-vulnerable dependencies in a given set of executables, from file-level to API-level, and finally, precise identification of a static trace that triggers a quantum-vulnerable API. We evaluate QED on both a synthetic dataset with four cryptography libraries and a real-world dataset with over 200 software executables. The results demonstrate that: (1) QED discerns quantum-vulnerable from quantum-safe executables with 100% accuracy in the synthetic dataset; (2) QED is practical and scalable, completing analyses on average in less than 4 seconds per real-world executable; and (3) QED reduces the manual workload required by analysts to identify quantum-vulnerable executables in the real-world dataset by more than 90%. We hope that QED can become a crucial tool to facilitate the transition to PQC, particularly for small and medium-sized businesses with limited resources. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# Nvidia GPUとMixed Precisionによる分類アルゴリズムによる機械学習カーボンフットプリントの改善
Improve Machine Learning carbon footprint using Nvidia GPU and Mixed Precision training for classification algorithms ( http://arxiv.org/abs/2409.07853v1 ) ライセンス: Link先を確認 | Andrew Antonopoulos, | (参考訳) この研究は私の修士論文の一部であり、分類MLモデルのトレーニング中にデフォルト浮動小数点(32bit)とNvidia混合精度(16bit、32bit)を用いて消費電力を比較した。
特定のハードウェアを備えたカスタムPCが実験のために構築され、バッチサイズ、ニューロン、エポックなどの異なるMLハイパーパラメータがDeep Neural Networks (DNN)を構築するために選択された。
さらに、実験中に、グラフィクス処理ユニット(GPU)、中央処理ユニット(CPU)、ランダムアクセスメモリ(RAM)、および壁に接続されたワットメータからWattsの消費電力データを収集するために様々なソフトウェアが使用された。
DNNのデフォルトのハイパーパラメータ値を持つベンチマークテストが参照として使用され、実験では異なる設定の組み合わせが使用された。
結果はExcelに記録され、グループ間の平均値を計算し、グラフとテーブルを用いて比較するために記述統計が選択された。
その結果, 混合精度と特定のハイパーパラメータを併用した場合, 有意差は認められなかった。
ベンチマークと比較すると、分類の最適化により消費電力は7ワットから11ワットに減少した。
同様に、計算が同じ消費電力データを使用するため、炭素フットプリントは減少する。
しかし、ハードウェア性能に悪影響を及ぼす可能性があるため、ハイパーパラメータの設定には考慮が必要である。
しかし,本研究では,ANOVAとTテストの関係を比較するために,推論統計(特にANOVAとTテスト)を必要とした。
さらに, ベンチマークと実験の関係について, 統計的に有意な評価は得られなかった。
しかし、GPUのクラスタによるより広範な実装は、本質的な要因であり、統計分析の結果を変える可能性があるため、サンプルサイズを著しく増大させることができる。
This study was part of my dissertation for my master degree and compares the power consumption using the default floating point (32bit) and Nvidia mixed precision (16bit and 32bit) while training a classification ML model. A custom PC with specific hardware was built to perform the experiments, and different ML hyper-parameters, such as batch size, neurons, and epochs, were chosen to build Deep Neural Networks (DNN). Additionally, various software was used during the experiments to collect the power consumption data in Watts from the Graphics Processing Unit (GPU), Central Processing Unit (CPU), Random Access Memory (RAM) and manually from a wattmeter connected to the wall. A benchmarking test with default hyper parameter values for the DNN was used as a reference, while the experiments used a combination of different settings. The results were recorded in Excel, and descriptive statistics were chosen to calculate the mean between the groups and compare them using graphs and tables. The outcome was positive when using mixed precision combined with specific hyper-parameters. Compared to the benchmarking, the optimisation for the classification reduced the power consumption between 7 and 11 Watts. Similarly, the carbon footprint is reduced because the calculation uses the same power consumption data. Still, a consideration is required when configuring hyper-parameters because it can negatively affect hardware performance. However, this research required inferential statistics, specifically ANOVA and T-test, to compare the relationship between the means. Furthermore, tests indicated no statistical significance of the relationship between the benchmarking and experiments. However, a more extensive implementation with a cluster of GPUs can increase the sample size significantly, as it is an essential factor and can change the outcome of the statistical analysis. | 翻訳日:2024-09-13 17:18:01 公開日:2024-09-12 |
# 逆問題解法による音声復号化
Audio Decoding by Inverse Problem Solving ( http://arxiv.org/abs/2409.07858v1 ) ライセンス: Link先を確認 | Pedro J. Villasana T., Lars Villemoes, Janusz Klejsa, Per Hedelin, | (参考訳) 我々は,音声復号化を逆問題とみなし,拡散後サンプリングを用いて解決する。
変換領域知覚音声コーデックの例によって提供される入力信号測定のための明示的条件付け関数を開発する。
生存性は、ビットレートとタスクに依存しない先行モデルの任意のペアリングを評価することで実証される。
例えば、音声モデルが音声とピアノの両方で訓練されたジョイントモデルに置き換えられたとき、音声性能を維持しながら、ピアノの大幅な改善を観察する。
より一般的な音楽モデルでは、様々なコンテンツタイプやビットレートに対して、レガシー手法に比べてデコードが改善されている。
条件付けの導出に基づく雑音平均モデルは、ツイーディ平均に基づく手法と比較して拡散後サンプリングの勾配評価を著しく低減することができる。
Tweedieの平均値と条件付け関数を組み合わせることで、客観的なパフォーマンスが向上する。
オーディオデモはhttps://dpscodec-demo.github.io/で公開されている。
We consider audio decoding as an inverse problem and solve it through diffusion posterior sampling. Explicit conditioning functions are developed for input signal measurements provided by an example of a transform domain perceptual audio codec. Viability is demonstrated by evaluating arbitrary pairings of a set of bitrates and task-agnostic prior models. For instance, we observe significant improvements on piano while maintaining speech performance when a speech model is replaced by a joint model trained on both speech and piano. With a more general music model, improved decoding compared to legacy methods is obtained for a broad range of content types and bitrates. The noisy mean model, underlying the proposed derivation of conditioning, enables a significant reduction of gradient evaluations for diffusion posterior sampling, compared to methods based on Tweedie's mean. Combining Tweedie's mean with our conditioning functions improves the objective performance. An audio demo is available at https://dpscodec-demo.github.io/. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 網膜基底画像強調のためのコンテキスト認識型最適輸送学習
Context-Aware Optimal Transport Learning for Retinal Fundus Image Enhancement ( http://arxiv.org/abs/2409.07862v1 ) ライセンス: Link先を確認 | Vamsi Krishna Vasa, Peijie Qiu, Wenhui Zhu, Yujian Xiong, Oana Dumitrascu, Yalin Wang, | (参考訳) 網膜眼底写真は、様々な網膜疾患を診断し、監視する非侵襲的な方法を提供するが、全身的な不完全性や、オペレーター/患者関連因子から生じる固有の品質低下を引き起こす。
しかし、高画質網膜画像は正確な診断と自動解析を行う上で重要である。
低画質画像と高品質画像との1対1のマッピングを求めることにより、一般に分布アライメント問題として定式化される。
本稿では,未実装の眼底画像強調に対処するためのコンテキストインフォームド・トランスポート(OT)学習フレームワークを提案する。
文脈情報処理に苦労する標準的な生成画像強調手法とは対照的に,提案した文脈認識OT学習パラダイムは,局所構造をよりよく保存し,不要なアーティファクトを最小限に抑える。
深い文脈特徴を生かして、地球移動器の距離を用いて、提案した文脈認識OTを導出し、提案した文脈認識OTが確固とした理論的保証を有することを示す。
大規模データセットによる実験結果から,信号対雑音比,構造類似度指数,下流タスクの2つの観点から,最先端の教師付きおよび教師なし手法よりも提案手法の方が優れていることが示された。
コードは \url{https://github.com/Retinal-Research/Contextual-OT} で公開されている。
Retinal fundus photography offers a non-invasive way to diagnose and monitor a variety of retinal diseases, but is prone to inherent quality glitches arising from systemic imperfections or operator/patient-related factors. However, high-quality retinal images are crucial for carrying out accurate diagnoses and automated analyses. The fundus image enhancement is typically formulated as a distribution alignment problem, by finding a one-to-one mapping between a low-quality image and its high-quality counterpart. This paper proposes a context-informed optimal transport (OT) learning framework for tackling unpaired fundus image enhancement. In contrast to standard generative image enhancement methods, which struggle with handling contextual information (e.g., over-tampered local structures and unwanted artifacts), the proposed context-aware OT learning paradigm better preserves local structures and minimizes unwanted artifacts. Leveraging deep contextual features, we derive the proposed context-aware OT using the earth mover's distance and show that the proposed context-OT has a solid theoretical guarantee. Experimental results on a large-scale dataset demonstrate the superiority of the proposed method over several state-of-the-art supervised and unsupervised methods in terms of signal-to-noise ratio, structural similarity index, as well as two downstream tasks. The code is available at \url{https://github.com/Retinal-Research/Contextual-OT}. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# シール特性を持つ量子シークレット共有スキームの協調化
Collaboration Encouraging Quantum Secret Sharing Scheme with Seal Property ( http://arxiv.org/abs/2409.07863v1 ) ライセンス: Link先を確認 | Xiaogang Cheng, Ren Guo, | (参考訳) 量子秘密共有という新しい概念が導入され、参加者間のコラボレーションが奨励される。
そして、ディーラーは参加者に、あらかじめ定められた日付またはイベント、すなわちいわゆるシール資産の前に、その株式を返送し、秘密を取り消すよう依頼することができる。
また,CE-QSS-Seal (Collaboration-Encouraging Quantum Secret Sharing with Seal property) の2つの具体的な構成について述べる。
1つは無条件で安全であり、シールスキームの最適境界を達成する。
2つ目は、量子後安全な計算仮定を導入することにより、アザラシの最適境界を改善することである。
A new concept of quantum secret sharing is introduced, in which collaboration among participants are encourage. And the dealer can ask the participants to send back their share and revoke the secret before a predefined date or event, i.e. so-called seal property. We also give two concrete constructions of CE-QSS-Seal (Collaboration-Encouraging Quantum Secret Sharing with Seal property) scheme. The first one is unconditional secure and achieve the optimal bound of a seal scheme. The second one improve the optimal bound of seal by introducing post-quantum secure computational assumption. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 言語モデルに基づくKGの学習規則
Learning Rules from KGs Guided by Language Models ( http://arxiv.org/abs/2409.07869v1 ) ライセンス: Link先を確認 | Zihang Peng, Daria Stepanova, Vinh Thinh Ho, Heike Adel, Alessandra Russo, Simon Ott, | (参考訳) 情報抽出の進歩により、セマンティック検索やデータ分析といった多くのアプリケーションで広く使われている大きな知識グラフ(Yago、Wikidata、Google KGなど)の自動構築が可能になった。
しかしながら、半自動構成のため、KGは不完全であることが多い。
規則学習法は、KGから頻繁なパターンを抽出し、それらをルールにキャストすることで、潜在的に欠落する事実を予測できる。
このプロセスの重要なステップはルールランキングです。
ルールのランク付けは、非常に不完全あるいは偏りのあるKG(例えば、有名人の事実を主に保存するKG)よりも特に難しい。
この問題に対処するために、以前の研究は、元のKGに依存するだけでなく、KG埋め込みモデルによって予測される事実にも依存するルールをランク付けすることを提案した。
同時に、近年の言語モデル(LM)の台頭とともに、いくつかの研究が、LMがKG補完の代替手段として利用できると主張している。
本研究の目的は,ルール学習システムの品質向上に,LMの活用がどの程度役立つかを検証することである。
Advances in information extraction have enabled the automatic construction of large knowledge graphs (e.g., Yago, Wikidata or Google KG), which are widely used in many applications like semantic search or data analytics. However, due to their semi-automatic construction, KGs are often incomplete. Rule learning methods, concerned with the extraction of frequent patterns from KGs and casting them into rules, can be applied to predict potentially missing facts. A crucial step in this process is rule ranking. Ranking of rules is especially challenging over highly incomplete or biased KGs (e.g., KGs predominantly storing facts about famous people), as in this case biased rules might fit the data best and be ranked at the top based on standard statistical metrics like rule confidence. To address this issue, prior works proposed to rank rules not only relying on the original KG but also facts predicted by a KG embedding model. At the same time, with the recent rise of Language Models (LMs), several works have claimed that LMs can be used as alternative means for KG completion. In this work, our goal is to verify to which extent the exploitation of LMs is helpful for improving the quality of rule learning systems. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# Weaver: FPQA量子アーキテクチャのためのリターゲット可能なコンパイラフレームワーク
Weaver: A Retargetable Compiler Framework for FPQA Quantum Architectures ( http://arxiv.org/abs/2409.07870v1 ) ライセンス: Link先を確認 | Oğuzcan Kırmemiş, Francisco Romão, Emmanouil Giortamis, Pramod Bhatotia, | (参考訳) 著名な量子コンピューティングアーキテクチャは超伝導技術に基づいているが、トラップイオン、ニュートラル原子(FPQA)、シリコンスピン量子ビット(Siilicon Spin Qubits)など、新しい量子ハードウェア技術が登場しつつある。
この多様な技術セットは、スケーラビリティ、パフォーマンス、製造、運用コストの点で根本的なトレードオフをもたらします。
これらの多様な量子技術を管理するために、これらの新興ハードウェアプラットフォームに既存のコードを効率的に適応できる再ターゲット可能なコンパイラの必要性が高まっている。
このような再ターゲット可能なコンパイラは、新しい急速に進化する技術をサポートするために拡張可能であり、高速なコンパイル時間と高忠実な実行、そして再ターゲットされたコードの機能的等価性を保証するために厳密な等価性チェックによって検証可能である必要がある。
この目的のために、最初の拡張可能でパフォーマンスが高く、検証可能な量子コンパイラフレームワークであるWeaver$を紹介します。
$Weaver$は、標準的なOpenQASM量子アセンブリの最初のフォーマルな拡張であるWQASMを導入し、FPQA固有の命令でそれらの異なる機能をサポートする。
次に$Weaver$は、拡張可能なFPQA固有の最適化セットであるWOptimizerを実装して、実行品質を改善する。
最後に、WCheckerはオリジナルのコードと再ターゲットコードの等価性を自動的にチェックする。
我々の評価によると、Weaver$は、超伝導や最先端のFPQAコンパイラと比較して、コンパイル時間10^3\times$、実行時間4.4\times$、実行忠実度10\%$が改善されている。
While the prominent quantum computing architectures are based on superconducting technology, new quantum hardware technologies are emerging, such as Trapped Ions, Neutral Atoms (or FPQAs), Silicon Spin Qubits, etc. This diverse set of technologies presents fundamental trade-offs in terms of scalability, performance, manufacturing, and operating expenses. To manage these diverse quantum technologies, there is a growing need for a retargetable compiler that can efficiently adapt existing code to these emerging hardware platforms. Such a retargetable compiler must be extensible to support new and rapidly evolving technologies, performant with fast compilation times and high-fidelity execution, and verifiable through rigorous equivalence checking to ensure the functional equivalence of the retargeted code. To this end, we present $Weaver$, the first extensible, performant, and verifiable retargetable quantum compiler framework with a focus on FPQAs due to their unique, promising features. $Weaver$ introduces WQASM, the first formal extension of the standard OpenQASM quantum assembly with FPQA-specific instructions to support their distinct capabilities. Next, $Weaver$ implements the WOptimizer, an extensible set of FPQA-specific optimization passes to improve execution quality. Last, the WChecker automatically checks for equivalence between the original and the retargeted code. Our evaluation shows that $Weaver$ improves compilation times by $10^3\times$, execution times by $4.4\times$, and execution fidelity by $10\%$, on average, compared to superconducting and state-of-the-art (non-retargetable) FPQA compilers. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 反対意見が過激! 法律家から大規模言語モデルを見分けることができるが、それでもLLMから遠ざかる
Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM ( http://arxiv.org/abs/2409.07871v1 ) ライセンス: Link先を確認 | Eike Schneiders, Tina Seabrooke, Joshua Krook, Richard Hyde, Natalie Leesakul, Jeremie Clos, Joel Fischer, | (参考訳) 大規模言語モデル(LLM)は、すべてのドメインに浸透しているようで、法的文脈は例外ではない。
本稿では,3つの実験(全N=288)の結果について述べる。
実験1では、参加者は、アドバイスの出所が分かっていなかったり、不明であったりした場合に、法的助言を行う意思を判断した。
アドバイスソースが不明な場合、参加者はLSMの生成したアドバイスに対して、より積極的に行動することを示唆した。
この結果は実験で再現された
2. 興味深いことに、実験1及び2において、LCM生成アドバイスに行動する意欲が高いにもかかわらず、実験1及び2において、LCM生成テキストと弁護士生成テキストとを区別した参加者は、実験の確率レベルよりもかなり高い。
最後に、我々の発見の潜在的な説明とリスク、限界と今後の研究、言語複雑性と現実の可視性の重要性について論じる。
Large Language Models (LLMs) are seemingly infiltrating every domain, and the legal context is no exception. In this paper, we present the results of three experiments (total N=288) that investigated lay people's willingness to act upon, and their ability to discriminate between, LLM- and lawyer-generated legal advice. In Experiment 1, participants judged their willingness to act on legal advice when the source of the advice was either known or unknown. When the advice source was unknown, participants indicated that they were significantly more willing to act on the LLM-generated advice. This result was replicated in Experiment 2. Intriguingly, despite participants indicating higher willingness to act on LLM-generated advice in Experiments 1 and 2, participants discriminated between the LLM- and lawyer-generated texts significantly above chance-level in Experiment 3. Lastly, we discuss potential explanations and risks of our findings, limitations and future work, and the importance of language complexity and real-world comparability. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 放射性カスケードからのウェーブベクター分解偏光絡み
Wavevector-resolved polarization entanglement from radiative cascades ( http://arxiv.org/abs/2409.07875v1 ) ライセンス: Link先を確認 | Alessandro Laneve, Michele B. Rota, Francesco Basso Basset, Mattia Beccaceci, Valerio Villari, Thomas Oberleitner, Yorick Reum, Tobias M. Krieger, Quirin Buchinger, Saimon F. Covre da Silva, Andreas Pfenning, Sandra Stroj, Sven Höfling, Armando Rastelli, Tobias Huber-Loyola, Rinaldo Trotta, | (参考訳) 放射性カスケードからの絡み合った光子の生成は、フォトニック量子技術におけるいくつかの応用で量子情報科学のマイルストーン実験を可能にした。
重要な取り組みは、光子対のフラックスを高めるために、フォトニックキャビティにしばしば埋め込まれる単一の量子エミッタに基づいて、ほぼ決定論的に絡み合った光子源のパフォーマンスを推し進めることに費やされている。
一般的な仮定は、エミッターは極性化の極性状態がほぼ最大に絡み合った光子を発生し、応用目的の準備が整うというものである。
ここでは、この仮定が不当であることを示す。
放射性カスケードには光子偏光と放射波ベクトルの相互作用が存在し、マイクロキャビティにエミッタが埋め込まれた場合の量子相関に強く影響を及ぼすことを示す。
量子ドットにおけるバイエクシトン-エクシトンカスケードからの光子対の偏光絡みは、その伝播波動ベクトルに強く依存し、大きな放出角に対してさえ消える可能性がある。
理論的モデリングを背景とした我々の実験結果は、様々な量子エミッタに対するカスケード放出の新たな理解をもたらす。
さらに,本モデルでは,光マイクロキャビティの設計において,高い絡み合いと集束効率を両立させるための定量的ガイドラインを提供し,量子技術のための絡み合い光子の理想的な源に向けて,コミュニティを一歩前進させる。
The generation of entangled photons from radiative cascades has enabled milestone experiments in quantum information science with several applications in photonic quantum technologies. Significant efforts are being devoted to pushing the performances of near-deterministic entangled-photon sources based on single quantum emitters often embedded in photonic cavities, so to boost the flux of photon pairs. The general postulate is that the emitter generates photons in a nearly maximally entangled state of polarization, ready for application purposes. Here, we demonstrate that this assumption is unjustified. We show that in radiative cascades there exists an interplay between photon polarization and emission wavevector, strongly affecting quantum correlations when emitters are embedded in micro-cavities. We discuss how the polarization entanglement of photon pairs from a biexciton-exciton cascade in quantum dots strongly depends on their propagation wavevector, and it can even vanish for large emission angles. Our experimental results, backed by theoretical modelling, yield a brand-new understanding of cascaded emission for various quantum emitters. In addition, our model provides quantitative guidelines for designing optical microcavities that retain both a high degree of entanglement and collection efficiency, moving the community one step further towards an ideal source of entangled photons for quantum technologies. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# AI企業における技術安全研究のマッピング:文献レビューとインセンティブ分析
Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis ( http://arxiv.org/abs/2409.07878v1 ) ライセンス: Link先を確認 | Oscar Delaney, Oliver Guest, Zoe Williams, | (参考訳) 人工知能(AI)システムが高度化するにつれ、誤用や事故による大規模リスクへの懸念が高まっている。
このレポートは、Anthropic、Google DeepMind、OpenAIという3つの主要なAI企業が実施している安全なAI開発に関する技術研究を分析します。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しています。
これには、AIシステムが意図したように振る舞うことを保証することを目的とした、さまざまな技術的アプローチが含まれており、より有能で自律的なものであっても、意図しない害を生じさせない。
私たちは、2022年1月から2024年7月までに3社から出版されたすべての論文を分析し、61件の論文を8つの安全アプローチに分類した。
また, 学界と市民社会の早期アプローチを示す3つのカテゴリーについて言及した。
私たちの分析は、企業の関心が集中している場所と、潜在的なギャップがどこにあるかを明らかにします。
一部のAI研究は、AIシステムを誤用するために克服する必要があるセキュリティ技術について敵に知らせないなど、正当な理由から公表されていないかもしれない。
そこで我々は、AI企業がそれぞれのアプローチを研究する必要があるインセンティブについても検討した。
特に、評価効果、規制上の負担、アプローチによってAIシステムがより有用になるかどうかを検討した。
私たちは、現在論文がほとんど、あるいはほとんどない3つのカテゴリを特定しました。
これらはマルチエージェントの安全性、ミスアライメントのモデル生物、設計による安全性である。
以上の結果から,政府,市民社会,慈善家,アカデミアからの資金提供や努力なしに,これらのアプローチが進展する可能性が示唆された。
As artificial intelligence (AI) systems become more advanced, concerns about large-scale risks from misuse or accidents have grown. This report analyzes the technical research into safe AI development being conducted by three leading AI companies: Anthropic, Google DeepMind, and OpenAI. We define safe AI development as developing AI systems that are unlikely to pose large-scale misuse or accident risks. This encompasses a range of technical approaches aimed at ensuring AI systems behave as intended and do not cause unintended harm, even as they are made more capable and autonomous. We analyzed all papers published by the three companies from January 2022 to July 2024 that were relevant to safe AI development, and categorized the 61 included papers into eight safety approaches. Additionally, we noted three categories representing nascent approaches explored by academia and civil society, but not currently represented in any papers by the three companies. Our analysis reveals where corporate attention is concentrated and where potential gaps lie. Some AI research may stay unpublished for good reasons, such as to not inform adversaries about security techniques they would need to overcome to misuse AI systems. Therefore, we also considered the incentives that AI companies have to research each approach. In particular, we considered reputational effects, regulatory burdens, and whether the approaches could make AI systems more useful. We identified three categories where there are currently no or few papers and where we do not expect AI companies to become more incentivized to pursue this research in the future. These are multi-agent safety, model organisms of misalignment, and safety by design. Our findings provide an indication that these approaches may be slow to progress without funding or efforts from government, civil society, philanthropists, or academia. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 機能データ分類のためのランダム化されたスプラインツリー:理論と環境時系列への応用
Randomized Spline Trees for Functional Data Classification: Theory and Application to Environmental Time Series ( http://arxiv.org/abs/2409.07879v1 ) ライセンス: Link先を確認 | Donato Riccio, Fabrizio Maturo, Elvira Romano, | (参考訳) 機能データ分析(FDA)とアンサンブル学習は、複雑な環境時系列を解析するための強力なツールである。
本稿では,ランダム化された機能表現をランダムフォレストフレームワークに組み込むことで,これらの2つのアプローチを橋渡しするアルゴリズムであるランダム化されたスプラインツリー(RST)を紹介する。
RSTは、ランダム化されたB-スプラインパラメータを用いて入力データの多様な機能表現を生成し、これらの様々な表現に基づいて訓練された決定ツリーのアンサンブルを生成する。
本稿では, この機能的多様性が一般化誤差の低減にどのように貢献するかを理論的に分析し, UCR Time Series Archiveの6つの環境時系列分類タスクについて経験的評価を行う。
その結果、RTTの変種は標準のランダムフォレストやグラディエントブースティングよりも優れており、分類精度は最大14\%向上した。
RSTの成功は、環境データにおける複雑な時間的パターンを捕捉する適応的機能表現の可能性を示している。
この研究は、機能データに焦点をあてた機械学習技術の発展に寄与し、環境時系列分析研究のための新たな道を開く。
Functional data analysis (FDA) and ensemble learning can be powerful tools for analyzing complex environmental time series. Recent literature has highlighted the key role of diversity in enhancing accuracy and reducing variance in ensemble methods.This paper introduces Randomized Spline Trees (RST), a novel algorithm that bridges these two approaches by incorporating randomized functional representations into the Random Forest framework. RST generates diverse functional representations of input data using randomized B-spline parameters, creating an ensemble of decision trees trained on these varied representations. We provide a theoretical analysis of how this functional diversity contributes to reducing generalization error and present empirical evaluations on six environmental time series classification tasks from the UCR Time Series Archive. Results show that RST variants outperform standard Random Forests and Gradient Boosting on most datasets, improving classification accuracy by up to 14\%. The success of RST demonstrates the potential of adaptive functional representations in capturing complex temporal patterns in environmental data. This work contributes to the growing field of machine learning techniques focused on functional data and opens new avenues for research in environmental time series analysis. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 非負重み付きDAG構造学習
Non-negative Weighted DAG Structure Learning ( http://arxiv.org/abs/2409.07880v1 ) ライセンス: Link先を確認 | Samuel Rey, Seyed Saman Saboksayr, Gonzalo Mateos, | (参考訳) 本稿では,線形構造方程式モデルに従属する非線形観測から有向非巡回グラフ(DAG)の位相を学習する問題に対処する。
近年の進歩は、組み合わせDAG構造学習タスクを連続最適化問題として捉えているが、既存の手法は非凸最適化の複雑さと競合しなければならない。
この制限を克服するために、潜在DAGは非負のエッジ重みのみを含むと仮定する。
この付加構造を利用することで、隣接行列の対数決定式に基づいて凸非巡回関数を用いて、サイクルを効果的に特徴づけ(かつ阻止)することができると論じる。
この凸性により、非負重み付きDAGを抽象凸最適化問題として学習する作業が緩和される。
本稿では,大域最小化器を返すことが保証される乗算器法に基づくDAG回収アルゴリズムを提案する。
さらに, 無限サンプルサイズ状態において, 本手法の凸性は真のDAG構造の回復を保証することを証明した。
いくつかの再現可能な合成データテストケースにおいて,本アルゴリズムの性能を実証的に検証し,最先端の代替品よりも優れていることを示す。
We address the problem of learning the topology of directed acyclic graphs (DAGs) from nodal observations, which adhere to a linear structural equation model. Recent advances framed the combinatorial DAG structure learning task as a continuous optimization problem, yet existing methods must contend with the complexities of non-convex optimization. To overcome this limitation, we assume that the latent DAG contains only non-negative edge weights. Leveraging this additional structure, we argue that cycles can be effectively characterized (and prevented) using a convex acyclicity function based on the log-determinant of the adjacency matrix. This convexity allows us to relax the task of learning the non-negative weighted DAG as an abstract convex optimization problem. We propose a DAG recovery algorithm based on the method of multipliers, that is guaranteed to return a global minimizer. Furthermore, we prove that in the infinite sample size regime, the convexity of our approach ensures the recovery of the true DAG structure. We empirically validate the performance of our algorithm in several reproducible synthetic-data test cases, showing that it outperforms state-of-the-art alternatives. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# 非相互ハバードモデルにおける2つの体有界状態のエキゾチックな局在
Exotic localization for the two body bound states in the non-reciprocal Hubbard model ( http://arxiv.org/abs/2409.07883v1 ) ライセンス: Link先を確認 | Huan-Yu Wang, Ji Li, Wu-Ming Liu, Lin Wen, Xiao-Fei Zhang, | (参考訳) 非相互トンネルにおける2体ハバードモデルの局所化挙動について検討し、アンダーソン局所化による相互作用は非エルミート皮膚効果と競合し、密度分布の多様なパターンを生じさせる。
ここでは,強反発相互作用における質量法の中心となる非エルミート境界状態について述べる。
連続限界では、非エルミタンの皮膚効果は固有エネルギースペクトルの非ゼロ巻線によって表される。
中程度の相互作用強度について、この系は上述の能力により複数のリャプノフ指数を持ち、その結果、角の局在とは対照的に、2体非エルミート連続状態は複数の局在中心を示すことができる。
さらに2光子トンネルを含むことにより、トポロジカル非自明な光子結合対が得られる。
最後に、電気回路格子のプラットフォームに基づく実験シミュレーションを提案する。
We investigate the localization behavior of two-body Hubbard model in the presence of non-reciprocal tunneling, where the interaction induced Anderson localization competes with the non-Hermitian skin effects and gives rise to diverse patterns of density profiles. Here, we present the non-Hermitian bound states obtained with the center of mass methods in the conditions of strong repulsive interaction, where a faded diagonal line localization is observed. While for the continuum limit, the non-Hermitian skin effects are manifested by non-zero windings of the eigen-energy spectrum. For the moderate interaction strength, it is illustrated that the system possesses multiple Lyapunov exponents due to the competence above and as a consequence, in sharp contrast to the corner localization, the two-body non-Hermitian continuum states can exhibit multiple localization center. By further including two-photon tunneling, topological nontrivial photon bound pairs can be obtained. Finally, the experimental simulations are proposed based on the platforms of the electrical circuit lattices. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# パーキンソン病検出のためのグラフニューラルネットワーク
Graph Neural Networks for Parkinsons Disease Detection ( http://arxiv.org/abs/2409.07884v1 ) ライセンス: Link先を確認 | Shakeel A. Sheikh, Yacouba Kaloga, Ina Kodrasi, | (参考訳) パーキンソン病(PD)検出のための最先端のアプローチの有望な性能にもかかわらず、これらのアプローチはしばしば個別の音声セグメントを分離して分析し、最適な結果をもたらす。
PD患者から発せられる音声障害の特徴を特徴づける外科的手がかりは、異なる話者のセグメントにまたがって関連することが期待されている。
分離されたセグメント分析は、これらのセグメント間の関係を利用できない。
さらに, PD患者の全ての音声区間が明確な顎関節症状を呈する訳ではなく, ラベルノイズは, 現在のアプローチの性能と一般化性に悪影響を及ぼす可能性がある。
これらの課題に対処するために,グラフ畳み込みネットワーク(GCN)を利用した新しいPD検出フレームワークを提案する。
音声セグメントをノードとして表現し、エッジを介してセグメント間の類似性を捉えることにより、GCNモデルは、グラフ全体にわたる変形的手がかりの集約を容易にし、セグメント関係を効果的に活用し、ラベルノイズの影響を緩和する。
PD検出のための提案したGCNモデルの利点を実証し、その基盤となるメカニズムに関する洞察を提供する実験結果が得られた。
Despite the promising performance of state of the art approaches for Parkinsons Disease (PD) detection, these approaches often analyze individual speech segments in isolation, which can lead to suboptimal results. Dysarthric cues that characterize speech impairments from PD patients are expected to be related across segments from different speakers. Isolated segment analysis fails to exploit these inter segment relationships. Additionally, not all speech segments from PD patients exhibit clear dysarthric symptoms, introducing label noise that can negatively affect the performance and generalizability of current approaches. To address these challenges, we propose a novel PD detection framework utilizing Graph Convolutional Networks (GCNs). By representing speech segments as nodes and capturing the similarity between segments through edges, our GCN model facilitates the aggregation of dysarthric cues across the graph, effectively exploiting segment relationships and mitigating the impact of label noise. Experimental results demonstrate theadvantages of the proposed GCN model for PD detection and provide insights into its underlying mechanisms | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# フォトニックシステムによるタイムトロニクスへ向けて
Towards Timetronics with Photonic Systems ( http://arxiv.org/abs/2409.07885v1 ) ライセンス: Link先を確認 | Ali Emami Kopaei, Karthik Subramaniam Eswaran, Arkadiusz Kosior, Daniel Hodgson, Andrey Matsko, Hossein Taheri, Almut Beige, Krzysztof Sacha, | (参考訳) 粒子系の周期的な駆動は、時間内に結晶構造を作ることができる。
このような系は、時間領域における固体物理学現象の研究に使用できる。
また、光学系の波数バンド構造を設計し、電磁波伝搬媒体の材料特性の周期的時間変調によりフォトニック時間結晶を実現することが可能である。
ここでは、進行波共振器における時間次元における様々な凝縮物質相をエミュレートする多目的平均誘電率手法を紹介する。
これは、共振器の小さなセグメント内での誘電率の時間的変調とセグメントの空間的形状を利用して達成される。
変調に必要な周波数と深さは実験的に達成可能であり、マイクロ波と光学システムを利用した結晶構造の実用的実現の研究の道を開く。
Periodic driving of systems of particles can create crystalline structures in time. Such systems can be used to study solid-state physics phenomena in the time domain. In addition, it is possible to engineer the wave-number band structure of optical systems and to realize photonic time crystals by periodic temporal modulation of the material properties of the electromagnetic wave propagation medium. We introduce here a versatile averaged-permittivity approach which empowers emulating various condensed matter phases in the time dimension in a traveling wave resonator. This is achieved by utilizing temporal modulation of permittivity within a small segment of the resonator and the spatial shape of the segment. The required frequency and depth of the modulation are experimentally achievable, opening a pathway for research into the practical realisation of crystalline structures in time utilising microwave and optical systems. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# ゲート型量子貯水池計算における非単位ノイズの活用
Leveraging non-unital noise for gate-based quantum reservoir computing ( http://arxiv.org/abs/2409.07886v1 ) ライセンス: Link先を確認 | Francesco Monzani, Emanuele Ricci, Luca Nigro, Enrico Prati, | (参考訳) ゲート型量子コンピュータを応用したエコー状態ネットワークの機能を保証するノイズモデルを特定する。
振幅減衰によるエネルギー散逸は、フェージングメモリとよりリッチなダイナミクスを同時に提供することにより、ネットワークの短期記憶能力と表現性を大幅に向上させる。
エコー状態ネットワークの最良の操作を$\gamma\sim$ 0.03 で保証する理想的な散逸速度がある。
しかしながら、これらの効果は、印加された雑音の強度が増加するにつれて安定である。
超伝導量子ビットに適用された現実的なノイズモデルをエミュレートし、現在の非フォールト耐性量子コンピュータにおける貯水池計算手法の適用方法を明らかにすることにより、学習の改善を確認した。
We identify a noise model that ensures the functioning of an echo state network employing a gate-based quantum computer for reservoir computing applications. Energy dissipation induced by amplitude damping drastically improves the short-term memory capacity and expressivity of the network, by simultaneously providing fading memory and richer dynamics. There is an ideal dissipation rate that ensures the best operation of the echo state network around $\gamma\sim$ 0.03. Nevertheless, these beneficial effects are stable as the intensity of the applied noise increases. The improvement of the learning is confirmed by emulating a realistic noise model applied to superconducting qubits, paving the way for the application of reservoir computing methods in current non-fault-tolerant quantum computers. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# UNIT: 時間による教師なしオンラインインスタンスのセグメンテーション
UNIT: Unsupervised Online Instance Segmentation through Time ( http://arxiv.org/abs/2409.07887v1 ) ライセンス: Link先を確認 | Corentin Sautier, Gilles Puy, Alexandre Boulch, Renaud Marlet, Vincent Lepetit, | (参考訳) オンラインのオブジェクトセグメンテーションとLidarポイントクラウドのトラッキングにより、自律的なエージェントが彼らの環境を理解し、安全な判断をすることができる。
残念ながら、これらのタスクのマニュアルアノテーションは違法にコストがかかる。
クラスに依存しないオンラインインスタンスのセグメンテーションとトラッキングのタスクでこの問題に対処する。
そのために、インスタンスセグメンテーションのバックボーンを活用し、オブジェクトのオンライントラッキングを可能にする新しいトレーニングレシピを提案する。
我々のネットワークは擬似ラベルで訓練されており、手動のアノテーションは不要である。
時間的インスタンスセグメンテーションに適応したメトリクスを用いて評価を行う。
これらのメトリクスの計算には、時間的に一貫性のあるインスタンスラベルが必要である。
利用できない場合には、データセット内の利用可能な3Dバウンディングボックスとセマンティックラベルを使用して、これらのラベルを構築します。
提案手法を強塩基性と比較し,その優位性を2つの異なる屋外Lidarデータセットで示す。
Online object segmentation and tracking in Lidar point clouds enables autonomous agents to understand their surroundings and make safe decisions. Unfortunately, manual annotations for these tasks are prohibitively costly. We tackle this problem with the task of class-agnostic unsupervised online instance segmentation and tracking. To that end, we leverage an instance segmentation backbone and propose a new training recipe that enables the online tracking of objects. Our network is trained on pseudo-labels, eliminating the need for manual annotations. We conduct an evaluation using metrics adapted for temporal instance segmentation. Computing these metrics requires temporally-consistent instance labels. When unavailable, we construct these labels using the available 3D bounding boxes and semantic labels in the dataset. We compare our method against strong baselines and demonstrate its superiority across two different outdoor Lidar datasets. | 翻訳日:2024-09-13 17:08:15 公開日:2024-09-12 |
# BLens: Ensemble Embedding を用いたバイナリ関数のコントラストキャプション
BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding ( http://arxiv.org/abs/2409.07889v1 ) ライセンス: Link先を確認 | Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder, | (参考訳) 関数名は人間のリバースエンジニアを大いに助けることができ、それによって、削除されたバイナリの関数名を予測する機械学習ベースのアプローチの開発が加速した。
この分野における現在の作業の多くはトランスフォーマーを使用しており、コードから関数名への機械翻訳のメタファーを適用している。
それでも、関数命名モデルは、トレーニングセットとは無関係なプロジェクトに一般化する上で、課題に直面している。
本稿では,自動字幕化の進歩をバイナリリバースエンジニアリングの領域に転送することで,バイナリ関数の異なる部分をその名前の一部に関連付けるという,全く新しいアプローチをとる。
我々は,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に結合し,コントラスト学習手法を用いて名前表現潜在空間と整列し,関数名を関数名に適した変換器アーキテクチャで生成するBLensを提案する。
実験では,BLensが最先端技術よりも優れていることを示した。
通常のバイナリごとの分割設定では、0.67に対してF_1$スコアが0.77である。
さらに、一般化性を強調するクロスプロジェクト設定では、0.29に対してF_1$スコア0.46を得る。
Function names can greatly aid human reverse engineers, which has spurred development of machine learning-based approaches to predicting function names in stripped binaries. Much current work in this area now uses transformers, applying a metaphor of machine translation from code to function names. Still, function naming models face challenges in generalizing to projects completely unrelated to the training set. In this paper, we take a completely new approach by transferring advances in automated image captioning to the domain of binary reverse engineering, such that different parts of a binary function can be associated with parts of its name. We propose BLens, which combines multiple binary function embeddings into a new ensemble representation, aligns it with the name representation latent space via a contrastive learning approach, and generates function names with a transformer architecture tailored for function names. In our experiments, we demonstrate that BLens significantly outperforms the state of the art. In the usual setting of splitting per binary, we achieve an $F_1$ score of 0.77 compared to 0.67. Moreover, in the cross-project setting, which emphasizes generalizability, we achieve an $F_1$ score of 0.46 compared to 0.29. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 台湾マンダリン会話における単音節単語のピッチ輪郭のコーパスに基づく検討
A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin ( http://arxiv.org/abs/2409.07891v1 ) ライセンス: Link先を確認 | Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen, | (参考訳) マンダリンでは、単音節音の音節輪郭は、高音階(T1)、高音階(T2)、ディッピング音階(T3)、下音階(T4)の4つの語彙音で特徴付けられる。
しかし, 自然発声では, 単音節単語の音節化は, 声節内共声調と声節間共声調と隣接音調により, 音節間共声調とは大きく異なる。
また,Chuang et al (2024) は近年,T2-T4音調パターンの非音節的マンダリン語の音節輪郭が,その意味によって同時決定されていることを報告している。
その研究に続いて,単音節単語のピッチパターンが自然会話のマンダリンでどのように実現されるのかをコーパスベースで検討し,文脈予測者が片手に与える影響と,他方で単語の意味がピッチパターンを共決定する方法について考察する。
台湾・マンダリン・コーパスにおける3824個の異なる単語型のトークンのF0輪郭を一般化付加(混合)モデルを用いて解析し,与えられたピッチ輪郭を成分ピッチ輪郭の集合に分解する。
音調文脈が単語の標準音調を著しく変化させることを示す。
音調コンテキストが制御されると、T2とT3は低い平坦な音色として現れ、T1は高い音色として、T4は高中間の音色として現れる。
標準記述では、前音に基づいて中性音(T0)が、標準音T1、T2、T3、T4と同じ方法で他の予測器によって修正され、それ自身で低音として現れる。
また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。
ランダムな森林を用いた変動重要度の分析は、音調文脈の実質的な影響と単語感覚の効果をさらに裏付けた。
In Mandarin, the tonal contours of monosyllabic words produced in isolation or in careful speech are characterized by four lexical tones: a high-level tone (T1), a rising tone (T2), a dipping tone (T3) and a falling tone (T4). However, in spontaneous speech, the actual tonal realization of monosyllabic words can deviate significantly from these canonical tones due to intra-syllabic co-articulation and inter-syllabic co-articulation with adjacent tones. In addition, Chuang et al. (2024) recently reported that the tonal contours of disyllabic Mandarin words with T2-T4 tone pattern are co-determined by their meanings. Following up on their research, we present a corpus-based investigation of how the pitch contours of monosyllabic words are realized in spontaneous conversational Mandarin, focusing on the effects of contextual predictors on the one hand, and the way in words' meanings co-determine pitch contours on the other hand. We analyze the F0 contours of 3824 tokens of 63 different word types in a spontaneous Taiwan Mandarin corpus, using the generalized additive (mixed) model to decompose a given observed pitch contour into a set of component pitch contours. We show that the tonal context substantially modify a word's canonical tone. Once the effect of tonal context is controlled for, T2 and T3 emerge as low flat tones, contrasting with T1 as a high tone, and with T4 as a high-to-mid falling tone. The neutral tone (T0), which in standard descriptions, is realized based on the preceding tone, emerges as a low tone in its own right, modified by the other predictors in the same way as the standard tones T1, T2, T3, and T4. We also show that word, and even more so, word sense, co-determine words' F0 contours. Analyses of variable importance using random forests further supported the substantial effect of tonal context and an effect of word sense. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 顕微鏡マンバ:わずか4Mパラメータで顕微鏡画像の秘密を明らかにする
Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters ( http://arxiv.org/abs/2409.07896v1 ) ライセンス: Link先を確認 | Shun Zou, Zhuo Zhang, Yi Zou, Guangwei Gao, | (参考訳) 医用顕微鏡画像分類(MIC)の分野では、CNNベースのモデルとTransformerベースのモデルが広く研究されている。
しかし、CNNは、画像のセマンティック情報を完全に活用する能力を制限し、長距離依存のモデリングに苦慮している。
逆に、トランスフォーマーは二次計算の複雑さによって妨げられる。
これらの課題に対処するため,我々はMambaアーキテクチャに基づくモデルであるMicroscopic-Mambaを提案する。
具体的には、Visual State Space Module (VSSM)の最後の線形層を置き換えるために、部分選択フィードフォワードネットワーク(PSFFN)を設計し、Mambaの局所的特徴抽出機能を強化した。
さらに,グローバルな特徴や局所的な特徴を効果的に調整し,動的に集約するMIFAモジュールも導入した。
また,パラメータ数を減らしながらチャネル間情報通信を改善するために,並列VSSM機構を組み込んだ。
大規模な実験により,5つの公開データセットの最先端性能が得られた。
コードはhttps://github.com/zs1314/Microscopic-Mambaで入手できる。
In the field of medical microscopic image classification (MIC), CNN-based and Transformer-based models have been extensively studied. However, CNNs struggle with modeling long-range dependencies, limiting their ability to fully utilize semantic information in images. Conversely, Transformers are hampered by the complexity of quadratic computations. To address these challenges, we propose a model based on the Mamba architecture: Microscopic-Mamba. Specifically, we designed the Partially Selected Feed-Forward Network (PSFFN) to replace the last linear layer of the Visual State Space Module (VSSM), enhancing Mamba's local feature extraction capabilities. Additionally, we introduced the Modulation Interaction Feature Aggregation (MIFA) module to effectively modulate and dynamically aggregate global and local features. We also incorporated a parallel VSSM mechanism to improve inter-channel information interaction while reducing the number of parameters. Extensive experiments have demonstrated that our method achieves state-of-the-art performance on five public datasets. Code is available at https://github.com/zs1314/Microscopic-Mamba | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 標準第二法則を超えた相関量子機械
Correlated quantum machines beyond the standard second law ( http://arxiv.org/abs/2409.07899v1 ) ライセンス: Link先を確認 | Milton Aguilar, Eric Lutz, | (参考訳) 熱力学の法則は熱機械の性能を強く制限する。
標準熱力学は、最初は無相関のマクロ光学系のために開発されたが、その環境と相関する顕微鏡系には当てはまらない。
ここでは、任意の時間周期の開系に対する量子熱力学の厳密な一般化法則を導出し、すべての関係者間のすべての相関を考慮に入れている。
本研究は, 熱を作業に変換する通常の熱事例と, システムバス相関などのエントロピー資源から作業が抽出される新しい熱的状態という, エンジン動作の2つの基本モードの存在を実証する。
後者の体制では、量子エンジンの効率は通常のカルノーの公式によって制限されない。
以上の結果から, 相関型顕微鏡熱デバイスの効率を決定するための統一的な定式化が得られた。
The laws of thermodynamics strongly restrict the performance of thermal machines. Standard thermodynamics, initially developed for uncorrelated macroscopic systems, does not hold for microscopic systems correlated with their environments. We here derive exact generalized laws of quantum thermodynamics for arbitrary, time-periodic, open systems that account for all possible correlations between all involved parties. We demonstrate the existence of two basic modes of engine operation: the usual thermal case, where heat is converted into work, and a novel athermal regime, where work is extracted from entropic resources, such as system-bath correlations. In the latter regime, the efficiency of a quantum engine is not bounded by the usual Carnot formula. Our results provide a unified formalism to determine the efficiency of correlated microscopic thermal devices. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 信頼性・通信制約下におけるセンサネットワークのコンフォーマル分散リモート推論
Conformal Distributed Remote Inference in Sensor Networks Under Reliability and Communication Constraints ( http://arxiv.org/abs/2409.07902v1 ) ライセンス: Link先を確認 | Meiyi Zhu, Matteo Zecchin, Sangwoo Park, Caili Guo, Chunyan Feng, Petar Popovski, Osvaldo Simeone, | (参考訳) 本稿では,通信制約下でのセンサネットワークの新たな意思決定フレームワークであるCD-CRCフレームワークを提案する。
セグメンテーションなどのマルチラベル分類問題をターゲットに、CD-CRCは、通信容量制限を順守しつつ、ターゲット偽陰性率(FNR)を保証することを目的として、重要なラベルを特定するために使用される局所的および大域的閾値を動的に調整する。
CD-CRCは、異なるセンサーの観測の相対的品質を推定するために、オンライン指数勾配勾配勾配に基づいて構築され、ローカルおよびグローバルしきい値を制御するメカニズムとして、オンライン適合リスク制御(CRC)上に構築されている。
CD-CRCは、FNRと通信オーバヘッドの観点から決定論的最悪の性能保証を提供するのに対し、偽陽性率(FPR)における後悔性能は、鍵ハイパーパラメータの関数として特徴付けられる。
シミュレーションの結果は,CD-CRCの有効性,特に通信資源に制約のある環境での有効性を強調し,分散センサネットワークの性能と信頼性を高める上で有用なツールである。
This paper presents communication-constrained distributed conformal risk control (CD-CRC) framework, a novel decision-making framework for sensor networks under communication constraints. Targeting multi-label classification problems, such as segmentation, CD-CRC dynamically adjusts local and global thresholds used to identify significant labels with the goal of ensuring a target false negative rate (FNR), while adhering to communication capacity limits. CD-CRC builds on online exponentiated gradient descent to estimate the relative quality of the observations of different sensors, and on online conformal risk control (CRC) as a mechanism to control local and global thresholds. CD-CRC is proved to offer deterministic worst-case performance guarantees in terms of FNR and communication overhead, while the regret performance in terms of false positive rate (FPR) is characterized as a function of the key hyperparameters. Simulation results highlight the effectiveness of CD-CRC, particularly in communication resource-constrained environments, making it a valuable tool for enhancing the performance and reliability of distributed sensor networks. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# FACT:複数物体追跡のための特徴適応連続学習トラッカー
FACT: Feature Adaptive Continual-learning Tracker for Multiple Object Tracking ( http://arxiv.org/abs/2409.07904v1 ) ライセンス: Link先を確認 | Rongzihan Song, Zhenyu Weng, Huiping Zhuang, Jinchang Ren, Yongming Chen, Zhiping Lin, | (参考訳) 複数のオブジェクト追跡(MOT)は、複数のターゲットを特定し、それに対応するIDをビデオシーケンス内に割り当てる。
近年,映像の時間的情報を活用するための適応性向上やオフライン学習技術向上のために,オンライン学習技術による外見的手がかりを用いたオクルージョンに対処する手法が提案されている。
しかし,既存のオンライン学習ベースのMOT手法では,全ての過去の追跡情報から学習することができず,リアルタイム追跡速度を維持しながら,長期閉塞に対する適応性を向上させることができる。
一方、時間的情報に基づくオフライン学習手法は、過去の追跡情報を記憶するための長期記憶を維持しているが、この手法は追跡中にのみローカルな過去の情報を使用することを制限している。
これらの課題に対処するため、過去のトラッキング情報をすべて活用して、ターゲットに対するリアルタイムトラッキングと機能学習を可能にする、FACT(Feature Adaptive Continual-learning Tracker)と呼ばれる新しいMOTフレームワークを提案する。
このフレームワークは、様々な最先端の機能ベースのトラッカーと統合することができ、トラッキング能力を向上させることができる。
具体的には、トラッキング中のすべての過去の追跡情報を用いて、特徴を適応的に学習するためのオンライントレーニングが可能なニューラルネットワークである、機能適応型連続学習(FAC)モジュールを開発する。
さらに,提案する連続学習に基づくトラッキングに特化して設計された2段階アソシエイトモジュールについても紹介する。
提案手法は,MOT17およびMOT20ベンチマーク上で,最先端のオンライントラッキング性能を実現することを実証した。
コードは受理時にリリースされます。
Multiple object tracking (MOT) involves identifying multiple targets and assigning them corresponding IDs within a video sequence, where occlusions are often encountered. Recent methods address occlusions using appearance cues through online learning techniques to improve adaptivity or offline learning techniques to utilize temporal information from videos. However, most existing online learning-based MOT methods are unable to learn from all past tracking information to improve adaptivity on long-term occlusions while maintaining real-time tracking speed. On the other hand, temporal information-based offline learning methods maintain a long-term memory to store past tracking information, but this approach restricts them to use only local past information during tracking. To address these challenges, we propose a new MOT framework called the Feature Adaptive Continual-learning Tracker (FACT), which enables real-time tracking and feature learning for targets by utilizing all past tracking information. We demonstrate that the framework can be integrated with various state-of-the-art feature-based trackers, thereby improving their tracking ability. Specifically, we develop the feature adaptive continual-learning (FAC) module, a neural network that can be trained online to learn features adaptively using all past tracking information during tracking. Moreover, we also introduce a two-stage association module specifically designed for the proposed continual learning-based tracking. Extensive experiment results demonstrate that the proposed method achieves state-of-the-art online tracking performance on MOT17 and MOT20 benchmarks. The code will be released upon acceptance. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 改善手法とツール統合のためのサイバーセキュリティリスクメタモデルの構築
Building a Cybersecurity Risk Metamodel for Improved Method and Tool Integration ( http://arxiv.org/abs/2409.07906v1 ) ライセンス: Link先を確認 | Christophe Ponsard, | (参考訳) 現在、企業はサイバーセキュリティの脅威にさらされている。
多くの産業領域では、保護措置が実施され、標準によって積極的に支援されている。
しかし、グローバルなプロセスは、リスク分析のステップからサイバーセキュリティプロセスの効率性と有効性の両方に影響を与える、ドキュメント駆動のアプローチや部分的なモデリングに大きく依存している。
本稿では、後続のセキュリティテストに関連して、初期リスク分析ステップにモデル駆動アプローチを適用した経験について報告する。
私たちの仕事は、さまざまなツール間で情報のトレーサビリティをマップ、同期、保証するために使用される共通のメタモデルに依存しています。
ドメインモデリング、システムモデリング、リスクアセスメント、セキュリティテストツールに依存するさまざまなシナリオを使用して、アプローチを検証する。
Nowadays, companies are highly exposed to cyber security threats. In many industrial domains, protective measures are being deployed and actively supported by standards. However the global process remains largely dependent on document driven approach or partial modelling which impacts both the efficiency and effectiveness of the cybersecurity process from the risk analysis step. In this paper, we report on our experience in applying a model-driven approach on the initial risk analysis step in connection with a later security testing. Our work rely on a common metamodel which is used to map, synchronise and ensure information traceability across different tools. We validate our approach using different scenarios relying domain modelling, system modelling, risk assessment and security testing tools. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# COCOからCOCO-FPへ:COCO検出器のバックグラウンド偽陽性
From COCO to COCO-FP: A Deep Dive into Background False Positives for COCO Detectors ( http://arxiv.org/abs/2409.07907v1 ) ライセンス: Link先を確認 | Longfei Liu, Wen Guo, Shihua Huang, Cheng Li, Xi Shen, | (参考訳) 偽陽性の低減は、平均精度(mAP)測定値に反映されるように、対象検出器の性能向上に不可欠である。
オブジェクト検出器はCOCOデータセットにおいて顕著な改善と高いmAPスコアを達成しているが,非ターゲットの視覚的クラッタ背景オブジェクトがアノテートされたカテゴリに含まれないことによって生じる偽陽性に対処する過程は限定的に進行している。
この問題は、火災や煙の検知といった現実世界の応用において特に重要であり、誤報を最小限に抑えることが重要である。
本研究では,この問題を解決するために,ImageNet-1Kデータセットから得られた新しい評価データセットであるCOCO-FPを紹介する。
元のCOCO検証データセットを拡張することで、COCO-FPは、背景の偽陽性を緩和するオブジェクト検出器のパフォーマンスを特に評価する。
標準および高度な物体検出器の評価は、クローズドセットとオープンセットの両方のシナリオにおいて、かなりの数の偽陽性を示す。
例えば、YOLOv9-EのAP50測定値は、COCOからCOCO-FPに移行すると72.8から65.7に減少する。
データセットはhttps://github.com/COCO-FP/COCO-FPで公開されている。
Reducing false positives is essential for enhancing object detector performance, as reflected in the mean Average Precision (mAP) metric. Although object detectors have achieved notable improvements and high mAP scores on the COCO dataset, analysis reveals limited progress in addressing false positives caused by non-target visual clutter-background objects not included in the annotated categories. This issue is particularly critical in real-world applications, such as fire and smoke detection, where minimizing false alarms is crucial. In this study, we introduce COCO-FP, a new evaluation dataset derived from the ImageNet-1K dataset, designed to address this issue. By extending the original COCO validation dataset, COCO-FP specifically assesses object detectors' performance in mitigating background false positives. Our evaluation of both standard and advanced object detectors shows a significant number of false positives in both closed-set and open-set scenarios. For example, the AP50 metric for YOLOv9-E decreases from 72.8 to 65.7 when shifting from COCO to COCO-FP. The dataset is available at https://github.com/COCO-FP/COCO-FP. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# データ強化ニューラルネットワークによる多部連続可変絡み合い構造の分類
Classifying Multipartite Continuous Variable Entanglement Structures through Data-augmented Neural Networks ( http://arxiv.org/abs/2409.07909v1 ) ライセンス: Link先を確認 | Xiaoting Gao, Mingsheng Tian, Feng-Xiao Sun, Ya-Dong Wu, Yu Xiang, Qiongyi He, | (参考訳) ニューラルネットワークは量子情報処理の有望なパラダイムとして登場したが、十分なサイズと多様性を持つトレーニングデータセットの生成という課題に直面している。
例えば、連続変数系における多粒子エンタングルメントの異なる構造を分類するタスクでは、できるだけ多くの種類の非ガウス状態をカバーすることができる多くの無限次元状態データをシミュレートする必要がある。
そこで我々は,ホモダイン計測データを用いて,この課題を完遂するデータ拡張ニューラルネットワークを開発した。
従来のデータ処理技術と量子物理原理に基づく量子データ拡張手法を提案し,ネットワーク性能を効率的に向上する。
ランダムに生成された三分儀状態と四分儀状態の試験により、ネットワークは様々なパーティション間の絡み合い構造を示すことができ、データの増大により精度が大幅に向上することを示した。
我々のアプローチは、大規模ヒルベルト空間で符号化された量子システムを学習するより複雑なタスクに、データ駆動機械学習技術の使用をさらに拡張することを可能にする。
Neural networks have emerged as a promising paradigm for quantum information processing, yet they confront the challenge of generating training datasets with sufficient size and rich diversity, which is particularly acute when dealing with multipartite quantum systems. For instance, in the task of classifying different structures of multipartite entanglement in continuous variable systems, it is necessary to simulate a large number of infinite-dimension state data that can cover as many types of non-Gaussian states as possible. Here, we develop a data-augmented neural network to complete this task with homodyne measurement data. A quantum data augmentation method based on classical data processing techniques and quantum physical principles is proposed to efficiently enhance the network performance. By testing on randomly generated tripartite and quadripartite states, we demonstrate that the network can indicate the entanglement structure among the various partitions and the accuracies are significantly improved with data augmentation. Our approach allows us to further extend the use of data-driven machine learning techniques to more complex tasks of learning quantum systems encoded in a large Hilbert space. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# Tera-SpaceCom:TeraHertzバンド空間ネットワークにおける共同資源配分とタスクオフロードのためのGNNに基づく深層強化学習
Tera-SpaceCom: GNN-based Deep Reinforcement Learning for Joint Resource Allocation and Task Offloading in TeraHertz Band Space Networks ( http://arxiv.org/abs/2409.07911v1 ) ライセンス: Link先を確認 | Zhifeng Hu, Chong Han, Wolfgang Gerstacker, Ian F. Akyildiz, | (参考訳) テラヘルツ(THz)宇宙通信は、様々な宇宙科学や通信アプリケーションを実現するための有望な技術として構想されている。
主に、Tera-SpaceComの領域は、宇宙探査のためのTHzセンシング、宇宙探査のためのクラウドサービスを提供する宇宙のデータセンター、これらのタスクを地上局(GS)やTHzリンク経由でデータセンターに中継する低地球軌道(LEO)のメガコンステレーションで構成されている。
さらに、データセンターの計算負担を減らし、中継プロセスにおけるリソース消費と遅延を減らし、LEOのメガコンステレーションは、これらのタスクをデータセンターにリレーすることなく、宇宙探査タスクを直接計算するための衛星エッジコンピューティング(SEC)サービスを提供する。
宇宙探査タスクを受けるLEO衛星は、その計算負担をさらに軽減するために、近隣のLEO衛星に部分的なタスクをオフロード(すなわち分散)する。
しかし、Tera-SpaceCom SECネットワークの効率的な共同通信リソース割り当てと計算タスクのオフロードは、空間探索タスクとサブアレイの離散的性質と送信電力の連続的性質からNPハード混合整数非線形プログラミング問題(MINLP)である。
この課題に対処するために、長期資源効率(RE)を目標として、グラフニューラルネットワーク(GNN)によるDRLに基づく共同リソース割り当てとタスクオフロード(GRANT)アルゴリズムを提案する。
特に、GNNは接続情報から異なる衛星間の関係を学習する。
さらに、マルチエージェントおよびマルチタスク機構は、タスクオフロードとリソース割り当てを協調的に訓練する。
ベンチマークソリューションと比較して、GRANTは比較的低いレイテンシで最も高いREを達成するだけでなく、最も訓練可能なパラメータと最も短い実行時間を実現している。
Terahertz (THz) space communications (Tera-SpaceCom) is envisioned as a promising technology to enable various space science and communication applications. Mainly, the realm of Tera-SpaceCom consists of THz sensing for space exploration, data centers in space providing cloud services for space exploration tasks, and a low earth orbit (LEO) mega-constellation relaying these tasks to ground stations (GSs) or data centers via THz links. Moreover, to reduce the computational burden on data centers as well as resource consumption and latency in the relaying process, the LEO mega-constellation provides satellite edge computing (SEC) services to directly compute space exploration tasks without relaying these tasks to data centers. The LEO satellites that receive space exploration tasks offload (i.e., distribute) partial tasks to their neighboring LEO satellites, to further reduce their computational burden. However, efficient joint communication resource allocation and computing task offloading for the Tera-SpaceCom SEC network is an NP-hard mixed-integer nonlinear programming problem (MINLP), due to the discrete nature of space exploration tasks and sub-arrays as well as the continuous nature of transmit power. To tackle this challenge, a graph neural network (GNN)-deep reinforcement learning (DRL)-based joint resource allocation and task offloading (GRANT) algorithm is proposed with the target of long-term resource efficiency (RE). Particularly, GNNs learn relationships among different satellites from their connectivity information. Furthermore, multi-agent and multi-task mechanisms cooperatively train task offloading and resource allocation. Compared with benchmark solutions, GRANT not only achieves the highest RE with relatively low latency, but realizes the fewest trainable parameters and the shortest running time. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# UGAD:周波数フィンガープリントを利用したユニバーサル生成AI検出器
UGAD: Universal Generative AI Detector utilizing Frequency Fingerprints ( http://arxiv.org/abs/2409.07913v1 ) ライセンス: Link先を確認 | Inzamamul Alam, Muhammad Shahid Muneer, Simon S. Woo, | (参考訳) ペンタゴンで作られた爆発画像の後、偽物と実際の画像を区別する能力は、これまで以上に重要とされてきた。
本研究では,拡散モデルのような新しい生成手法の進展の中で,AI生成画像を検出するための新しいマルチモーダル手法を提案する。
まず、RGB画像をYCbCrチャネルに変換し、Integral Radial Operationを適用して、有意な放射特性を強調する。
第2に、空間フーリエ抽出操作を空間シフトに使用し、訓練済みのディープラーニングネットワークを用いて最適な特徴抽出を行う。
最後に、ディープニューラルネットワーク分類ステージは、分類にソフトマックスを使用して、密度の高い層を通してデータを処理する。
我々のアプローチは、既存の最先端の手法と比較して、12.64%の精度と28.43%のAUCの精度で証明されているように、実際の画像とAI生成画像を区別する精度を著しく向上させる。
In the wake of a fabricated explosion image at the Pentagon, an ability to discern real images from fake counterparts has never been more critical. Our study introduces a novel multi-modal approach to detect AI-generated images amidst the proliferation of new generation methods such as Diffusion models. Our method, UGAD, encompasses three key detection steps: First, we transform the RGB images into YCbCr channels and apply an Integral Radial Operation to emphasize salient radial features. Secondly, the Spatial Fourier Extraction operation is used for a spatial shift, utilizing a pre-trained deep learning network for optimal feature extraction. Finally, the deep neural network classification stage processes the data through dense layers using softmax for classification. Our approach significantly enhances the accuracy of differentiating between real and AI-generated images, as evidenced by a 12.64% increase in accuracy and 28.43% increase in AUC compared to existing state-of-the-art methods. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# InterACT:双方向マニピュレーションのための階層型アテンショントランスを用いた相互依存型アクションチャンキング
InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation ( http://arxiv.org/abs/2409.07914v1 ) ライセンス: Link先を確認 | Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani, | (参考訳) 両腕関節状態と視覚入力の相互依存性を捉えるために階層的注意を組み込んだバイマチュラルな操作のための新しい模倣学習フレームワークである階層的注意変換を用いた相互依存認識型アクションチャンキングを提案する。
InterACTは階層型アテンションエンコーダとマルチアームデコーダで構成される。
エンコーダはセグメントワイドおよびクロスセグメントアテンション機構を通じてマルチモーダル入力を処理し、デコーダは同期ブロックを利用して個々のアクション予測を洗練し、相手の予測をコンテキストとして提供する。
シミュレーションおよび実世界の実世界の双方向操作タスクに関する実験は、InterACTが既存の手法よりも大幅に優れていることを示す。
詳細なアブレーション研究は、CLSトークン、クロスセグメントエンコーダ、同期ブロックの影響を含む、我々の研究の重要なコンポーネントの貢献を検証する。
We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart's prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# Tidal MerzA: 強化学習による感情モデリングと自律コード生成の組み合わせ
Tidal MerzA: Combining affective modelling and autonomous code generation through Reinforcement Learning ( http://arxiv.org/abs/2409.07918v1 ) ライセンス: Link先を確認 | Elizabeth Wilson, György Fazekas, Geraint Wiggins, | (参考訳) 本稿では,人間と機械エージェントの協調演奏をライブコーディングの文脈で行うための新しいシステムであるTidal-MerzAについて述べる。
Tidal-MerzAは、ALCAA(Affective Live Coding Autonomous Agent)とTidal Fuzz(計算フレームワーク)という2つの基礎モデルを融合している。
このシステムは、感情モデルと計算生成を統合することにより、TidalCyclesフレームワーク内の楽曲構成パラメータを動的に適応させる強化学習技術を活用し、パターンに対する感情的品質と構文的正しさを両立させる。
Tidal-MerzAの開発には、音楽表現のためのミニ表記文字列の生成に焦点を当てたエージェントと、強化学習を通じて対象とする感情状態とのアライメントに焦点を当てたエージェントが2つ導入されている。
このアプローチは、ライブコーディングプラクティスの適応性と創造性を高め、人間と機械の創造的相互作用を探索することを可能にする。
Tidal-MerzAは、人工知能を芸術的実践に取り入れるための新しい方法論を提示し、計算音楽生成の分野を前進させる。
This paper presents Tidal-MerzA, a novel system designed for collaborative performances between humans and a machine agent in the context of live coding, specifically focusing on the generation of musical patterns. Tidal-MerzA fuses two foundational models: ALCAA (Affective Live Coding Autonomous Agent) and Tidal Fuzz, a computational framework. By integrating affective modelling with computational generation, this system leverages reinforcement learning techniques to dynamically adapt music composition parameters within the TidalCycles framework, ensuring both affective qualities to the patterns and syntactical correctness. The development of Tidal-MerzA introduces two distinct agents: one focusing on the generation of mini-notation strings for musical expression, and another on the alignment of music with targeted affective states through reinforcement learning. This approach enhances the adaptability and creative potential of live coding practices and allows exploration of human-machine creative interactions. Tidal-MerzA advances the field of computational music generation, presenting a novel methodology for incorporating artificial intelligence into artistic practices. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# ニューラルアーキテクチャのトレーニング効率測定のためのフレームワーク
A framework for measuring the training efficiency of a neural architecture ( http://arxiv.org/abs/2409.07925v1 ) ライセンス: Link先を確認 | Eduardo Cueto-Mendoza, John D. Kelleher, | (参考訳) ニューラルネットワークシステムの開発における効率の測定は、オープンな研究課題である。
本稿では,ニューラルアーキテクチャのトレーニング効率を測定するための実験フレームワークを提案する。
本研究では,MNISTタスクとCIFAR-10タスクにおいて,畳み込みニューラルネットワークとベイズ等価量のトレーニング効率を解析した。
その結果,学習効率はトレーニングの進行とともに低下し,与えられた神経モデルと学習課題の停止基準が異なることが明らかとなった。
また、トレーニング停止基準、トレーニング効率、モデルサイズ、トレーニング効率の非直線的関係も見出す。
さらに,ニューラルアーキテクチャのトレーニング効率の測定におけるオーバートレーニングの影響について述べる。
異なるアーキテクチャ間の相対的なトレーニング効率については、CNNが両方のデータセット上のBCNNよりも効率的であることを示す。
より一般的には、学習タスクが複雑化するにつれて、異なるアーキテクチャ間のトレーニング効率の相対的な違いがより顕著になる。
Measuring Efficiency in neural network system development is an open research problem. This paper presents an experimental framework to measure the training efficiency of a neural architecture. To demonstrate our approach, we analyze the training efficiency of Convolutional Neural Networks and Bayesian equivalents on the MNIST and CIFAR-10 tasks. Our results show that training efficiency decays as training progresses and varies across different stopping criteria for a given neural model and learning task. We also find a non-linear relationship between training stopping criteria, training Efficiency, model size, and training Efficiency. Furthermore, we illustrate the potential confounding effects of overtraining on measuring the training efficiency of a neural architecture. Regarding relative training efficiency across different architectures, our results indicate that CNNs are more efficient than BCNNs on both datasets. More generally, as a learning task becomes more complex, the relative difference in training efficiency between different architectures becomes more pronounced. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# モバイルアプリのセキュリティトレンドとトピック - Stack Overflowからの質問の検討
Mobile App Security Trends and Topics: An Examination of Questions From Stack Overflow ( http://arxiv.org/abs/2409.07926v1 ) ライセンス: Link先を確認 | Timothy Huo, Ana Catarina Araújo, Jake Imanaka, Anthony Peruma, Rick Kazman, | (参考訳) スマートフォンやタブレットの普及により、社会は様々なリソースやサービスにアクセスするためのモバイルアプリケーション(アプリ)に大きく依存するようになった。
これらのアプリは、機密性の高い個人データ、財務データ、健康データを処理し、アプリのセキュリティを開発者にとって重要な懸念事項にすることが多い。
マルウェアや脆弱性などのソフトウェアセキュリティに関する広範な研究があるが、モバイルアプリ開発者が直面している実践的なセキュリティ課題や、彼らが求めているガイダンスについてはあまり知られていない。
この研究では、モバイルアプリのセキュリティに関する質問に対してStack Overflowを抽出し、定量的および定性的なテクニックを用いて分析します。
この調査結果は、Stack Overflowがモバイルアプリのセキュリティ、特にAndroidアプリのセキュリティ支援を求める開発者にとって主要なリソースであることを明らかにし、セキュリティに関する7つの主要なカテゴリを特定している。
この調査から得られた洞察は,調査やベンダコミュニティによるツールやテクニック,リソースの開発に対して,開発者によるモバイルアプリのセキュリティ向上を支援するものだ。
The widespread use of smartphones and tablets has made society heavily reliant on mobile applications (apps) for accessing various resources and services. These apps often handle sensitive personal, financial, and health data, making app security a critical concern for developers. While there is extensive research on software security topics like malware and vulnerabilities, less is known about the practical security challenges mobile app developers face and the guidance they seek. \rev{In this study, we mine Stack Overflow for questions on mobile app security, which we analyze using quantitative and qualitative techniques.} The findings reveal that Stack Overflow is a major resource for developers seeking help with mobile app security, especially for Android apps, and identifies seven main categories of security questions: Secured Communications, Database, App Distribution Service, Encryption, Permissions, File-Specific, and General Security. Insights from this research can inform the development of tools, techniques, and resources by the research and vendor community to better support developers in securing their mobile apps. | 翻訳日:2024-09-13 16:58:31 公開日:2024-09-12 |
# 畳み込みニューラルネットワークによる地震探査
A convolutional neural network approach to deblending seismic data ( http://arxiv.org/abs/2409.07930v1 ) ライセンス: Link先を確認 | Jing Sun, Sigmund Slang, Thomas Elboth, Thomas Larsen Greiner, Steven McDonald, Leiv-J Gelius, | (参考訳) 経済と効率の理由から、地震データの混合取得がますます一般的になりつつある。
地震偏向法は常に計算的に要求され、通常複数の処理ステップから構成される。
さらに、パラメータ設定は必ずしも自明ではない。
機械学習に基づく処理は、処理時間を著しく短縮し、地震の抑止方法を変える可能性がある。
本稿では,高速かつ効率的な地震探査のためのデータ駆動深層学習手法を提案する。
ブレンドされたデータは、共通源から共通チャネル領域にソートされ、ブレンドされたノイズの特性をコヒーレント事象から非コヒーレント分布に変換する。
畳み込みニューラルネットワーク(CNN)は、地震データの特徴に基づいて設計され、従来の産業分断アルゴリズムと同等の結果を得る。
信頼性を確保するため、ブレンディングは数値的に行われ、20000以上のトレーニング例を含むフィールド地震データのみが採用された。
ネットワークのトレーニングと検証を行った後、ほぼリアルタイムで地震波のたわみを行うことができる。
また, 実験の結果から, 初期信号対雑音比 (SNR) が最終復調結果の品質を制御する主要な要因であることが示唆された。
ネットワークはまた、トレーニングされたモデルを用いて、少し異なる遅延時間設定で異なる地質領域から新しいデータセットをデブレンドし、第2にデータの上部にノイズをブレンドしたショットをデブレンドすることで、堅牢で適応的であることを示した。
For economic and efficiency reasons, blended acquisition of seismic data is becoming more and more commonplace. Seismic deblending methods are always computationally demanding and normally consist of multiple processing steps. Besides, the parameter setting is not always trivial. Machine learning-based processing has the potential to significantly reduce processing time and to change the way seismic deblending is carried out. We present a data-driven deep learning-based method for fast and efficient seismic deblending. The blended data are sorted from the common source to the common channel domain to transform the character of the blending noise from coherent events to incoherent distributions. A convolutional neural network (CNN) is designed according to the special character of seismic data, and performs deblending with comparable results to those obtained with conventional industry deblending algorithms. To ensure authenticity, the blending was done numerically and only field seismic data were employed, including more than 20000 training examples. After training and validation of the network, seismic deblending can be performed in near real time. Experiments also show that the initial signal to noise ratio (SNR) is the major factor controlling the quality of the final deblended result. The network is also demonstrated to be robust and adaptive by using the trained model to firstly deblend a new data set from a different geological area with a slightly different delay time setting, and secondly deblend shots with blending noise in the top part of the data. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 部分的マルチビュー不完全なマルチラベル分類のためのタスク拡張型クロスビューインプットネットワーク
Task-Augmented Cross-View Imputation Network for Partial Multi-View Incomplete Multi-Label Classification ( http://arxiv.org/abs/2409.07931v1 ) ライセンス: Link先を確認 | Xiaohuan Lu, Lian Zhao, Wai Keung Wong, Jie Wen, Jiang Long, Wulin Xie, | (参考訳) 実世界のシナリオでは、マルチビューのマルチラベル学習は、データ収集や信頼できないアノテーションプロセスの制限により、不完全なトレーニングデータの難しさに直面することが多い。
マルチビュー機能がないことで、サンプルの包括的理解が損なわれ、分類に不可欠な重要な詳細を省略する。
本稿では,タスク拡張型クロスビュー計算ネットワーク(TACVI-Net)を提案する。
具体的には、欠落したビューを回復するために、タスク関連性の高い特徴を引き出すために、2段階のネットワークを用いる。
最初の段階では、情報ボトルネック理論を利用して、ビュー固有のエンコーダ分類アーキテクチャを通してタスク関連情報を抽出し、各ビューの識別的表現を得る。
第2段階では、オートエンコーダに基づく多視点再構成ネットワークを用いて、拡張特徴の高レベルな意味表現を抽出し、欠落したデータを復元し、最終分類作業を支援する。
5つのデータセットに対する大規模な実験は、TACVI-Netが他の最先端手法よりも優れていることを示している。
In real-world scenarios, multi-view multi-label learning often encounters the challenge of incomplete training data due to limitations in data collection and unreliable annotation processes. The absence of multi-view features impairs the comprehensive understanding of samples, omitting crucial details essential for classification. To address this issue, we present a task-augmented cross-view imputation network (TACVI-Net) for the purpose of handling partial multi-view incomplete multi-label classification. Specifically, we employ a two-stage network to derive highly task-relevant features to recover the missing views. In the first stage, we leverage the information bottleneck theory to obtain a discriminative representation of each view by extracting task-relevant information through a view-specific encoder-classifier architecture. In the second stage, an autoencoder based multi-view reconstruction network is utilized to extract high-level semantic representation of the augmented features and recover the missing data, thereby aiding the final classification task. Extensive experiments on five datasets demonstrate that our TACVI-Net outperforms other state-of-the-art methods. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 強化学習による分散グラフパス探索の効率化
Reinforcement Learning Discovers Efficient Decentralized Graph Path Search Strategies ( http://arxiv.org/abs/2409.07932v1 ) ライセンス: Link先を確認 | Alexei Pisacane, Victor-Alexandru Darvariu, Mirco Musolesi, | (参考訳) グラフパス探索(Graph path search)は古典的な計算機科学問題であり、従来の手法より優れている可能性から、強化学習(Reinforcement Learning, RL)で最近アプローチされている。
既存のRL技術では、大規模な、動的、プライバシに敏感な設定には適さない、ネットワークのグローバルなビューを前提としている。
特に関心のある分野は、その多くの応用のためにソーシャルネットワークで検索することである。
実験社会学におけるセミナルな研究から着想を得た結果,ソーシャルネットワーク上では分散的で効率的な探索が可能であることが示され,ネットワークの限定的なローカルビューを備えた複数のエージェント間の協調作業として,この問題が考察された。
グラフパス探索のためのマルチエージェント手法を提案し, 相同性と構造的不均一性の両方をうまく活用する。
我々の実験は, 実世界のソーシャルネットワーク上で実施され, 学習ベースラインとヒューリスティックベースラインを著しく上回る結果となった。
さらに,グラフナビゲーションのための有意義な埋め込みを報酬駆動学習を用いて構築できることを示す。
Graph path search is a classic computer science problem that has been recently approached with Reinforcement Learning (RL) due to its potential to outperform prior methods. Existing RL techniques typically assume a global view of the network, which is not suitable for large-scale, dynamic, and privacy-sensitive settings. An area of particular interest is search in social networks due to its numerous applications. Inspired by seminal work in experimental sociology, which showed that decentralized yet efficient search is possible in social networks, we frame the problem as a collaborative task between multiple agents equipped with a limited local view of the network. We propose a multi-agent approach for graph path search that successfully leverages both homophily and structural heterogeneity. Our experiments, carried out over synthetic and real-world social networks, demonstrate that our model significantly outperforms learned and heuristic baselines. Furthermore, our results show that meaningful embeddings for graph navigation can be constructed using reward-driven learning. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# オルディナルアーチティパル解析による人間の反応のモデル化
Modeling Human Responses by Ordinal Archetypal Analysis ( http://arxiv.org/abs/2409.07934v1 ) ライセンス: Link先を確認 | Anna Emilie J. Wedenborg, Michael Alexander Harborg, Andreas Bigom, Oliver Elmgreen, Marcus Presutti, Andreas Råskov, Fumiko Kano Glückstad, Mikkel Schmidt, Morten Mørup, | (参考訳) 本稿では,特に質問紙からの質問紙データに適合する新しいアルキサイパル分析(AA)フレームワークを提案する。
従来の方法と異なり,提案手法であるOAA(Ordinal Archetypal Analysis, Ordinal Archetypal Analysis)は,順序データを連続的なスケールに変換する2段階のプロセスを回避し,順序データを直接操作する。
我々は、従来のAA手法を拡張して、尺度知覚における個人差を認識し、アンケートに基づくデータの主観的な性質を扱う。
本稿では,RBOAA(Response Bias Ordinal Archetypal Analysis)を紹介する。
これらの手法の有効性は、人工データと欧州社会調査データセットで示され、人間の行動や知覚についてより深い洞察を提供する可能性を強調している。
この研究は、国家間研究における応答バイアスを考慮することの重要性を強調し、アルチェトパル分析を通じて順序データを分析するための原則的なアプローチを提供する。
This paper introduces a novel framework for Archetypal Analysis (AA) tailored to ordinal data, particularly from questionnaires. Unlike existing methods, the proposed method, Ordinal Archetypal Analysis (OAA), bypasses the two-step process of transforming ordinal data into continuous scales and operates directly on the ordinal data. We extend traditional AA methods to handle the subjective nature of questionnaire-based data, acknowledging individual differences in scale perception. We introduce the Response Bias Ordinal Archetypal Analysis (RBOAA), which learns individualized scales for each subject during optimization. The effectiveness of these methods is demonstrated on synthetic data and the European Social Survey dataset, highlighting their potential to provide deeper insights into human behavior and perception. The study underscores the importance of considering response bias in cross-national research and offers a principled approach to analyzing ordinal data through Archetypal Analysis. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 情報理論マーカーを用いた二層グラフェンのマジックアングルの捕捉
Capturing magic angles in twisted bilayer graphene from information theory markers ( http://arxiv.org/abs/2409.07935v1 ) ライセンス: Link先を確認 | Manuel Calixto, Alberto Mayorgas, Octavio Castaños, | (参考訳) ディラック点におけるツイスト二層グラフェンハミルトニアンのゼロエネルギー固有状態$\psi_0(\theta)$は、有効なフェルミ速度が消える魔法の角度の近くで、ツイスト角$\theta$に高い感度を示す。
我々は、密度行列を層セクターに還元したエントロピーなどの情報理論マーカーを用いて、ゼロモードの量子臨界性を魔法のツイスト角度で捉える。
Zero energy eigenstates $\psi_0(\theta)$ of the twisted bilayer graphene Hamiltonian at the Dirac point show a high sensitivity to the twist angle $\theta$ near the magic angles where the effective Fermi velocity vanishes. We use information theory markers, like fidelity-susceptibility and entanglement entropy of the reduced density matrix to the layer sector, to capture this quantum criticality of zero modes at magic twist angles. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 現実的な量子ドットベースの単一光子源のための超解離状態と純化量子鍵分布プロトコル
Superior decoy state and purification quantum key distribution protocols for realistic quantum-dot based single photon sources ( http://arxiv.org/abs/2409.07939v1 ) ライセンス: Link先を確認 | Yoad Ordan, Yuval Bloom, Tamar Levin, Kfir Sulimany, Jennifer A. Hollingsworth, Ronen Rapaport, | (参考訳) 量子鍵分布(QKD)の最初の提案は、40年後の今でも開発が難しい理想的な単一光子源に基づいていた。
したがって、レーザーからの弱いコヒーレント状態(WCS)を用いたデコイ状態プロトコルの開発により、フロンティアは安全な鍵レートで設定された。
本稿では,2つの簡易実装プロトコルを実験的にエミュレートし,理想のサブポアソニアン光子源から外れて,最先端の WCS に勝ることを可能にした。
量子ドットのビエクシトン・エキシトンカスケードの光子統計を工学することにより,3dB以上でWCSを超過するセキュアな鍵生成のために,最大チャネル損失を最大化するために,切り離されたデコイ状態プロトコルと隠蔽された浄化プロトコルのいずれかを用いることができることを示す。
次に, ナノアンテナに結合した巨大コロイド量子ドットに基づく室温単一光子源が, 既に最適性能範囲内にあることを示す。
これらのプロトコルは、制御可能な光子統計を持つ様々なサブポアソン量子エミッターのホスト上で効率的に利用することができ、光子源の単一光子純度に対する要求を妨げずにQKDに実践的なアプローチを提供する。
The original proposal of quantum key distribution (QKD) was based on ideal single photon sources, which 40 years later, are still challenging to develop. Therefore, the development of decoy state protocols using weak coherent states (WCS) from lasers, set the frontier in terms of secure key rates. Here, we propose and experimentally emulate two simple-to-implement protocols that allow practical, far from ideal sub-Poissonian photon sources to outperform state-of-the-art WCS. By engineering the photon statistics of a quantum dot's biexciton-exciton cascade, we show that either a truncated decoy state protocol or a heralded purification protocol can be employed to achieve a significantly increased performance in terms of the maximal allowed channel loss for secure key creation, which can exceed that of WCS by more than 3dB. We then show that our recently demonstrated room temperature single photon sources, based on giant colloidal quantum dots coupled to nano-antennas, are already well within the optimal performance range. These protocols can be utilized efficiently on a host of various sub-Poissonian quantum emitters having controllable photon statistics, offering a practical approach to QKD without the hindering requirements on the single photon purity of the photon source. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# Control+Shift: 制御可能な分散シフトの生成
Control+Shift: Generating Controllable Distribution Shifts ( http://arxiv.org/abs/2409.07940v1 ) ライセンス: Link先を確認 | Roy Friedman, Rhea Chowers, | (参考訳) 本稿では,デコーダに基づく生成モデルを用いて,分布シフトを伴う現実的なデータセットを生成する手法を提案する。
提案手法は,分散シフトの強度の異なるデータセットを体系的に生成し,モデル性能劣化の包括的解析を容易にする。
次に、これらの生成されたデータセットを用いて、様々なよく使われるネットワークの性能を評価し、その効果が人間の目にとってほとんど認識不能な場合であっても、シフト強度を増大させて一貫した性能低下を観測する。
データ拡張を使用しても、この劣化が見られます。
また、トレーニングデータセットを一定点を超えて拡大することは、ロバスト性に影響を与えず、より強いインダクティブバイアスがロバスト性を高めることもわかりました。
We propose a new method for generating realistic datasets with distribution shifts using any decoder-based generative model. Our approach systematically creates datasets with varying intensities of distribution shifts, facilitating a comprehensive analysis of model performance degradation. We then use these generated datasets to evaluate the performance of various commonly used networks and observe a consistent decline in performance with increasing shift intensity, even when the effect is almost perceptually unnoticeable to the human eye. We see this degradation even when using data augmentations. We also find that enlarging the training dataset beyond a certain point has no effect on the robustness and that stronger inductive biases increase robustness. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# Taylor-Sensus Network: 科学的データに対する不確実性を高めるためにノイズを受け入れる
Taylor-Sensus Network: Embracing Noise to Enlighten Uncertainty for Scientific Data ( http://arxiv.org/abs/2409.07942v1 ) ライセンス: Link先を確認 | Guangxuan Song, Dongmei Fu, Zhongwei Qiu, Jintao Meng, Dawei Zhang, | (参考訳) 不確実性推定は、機械学習の科学データに不可欠である。
現在の不確実性推定法は、主にモデル固有の不確実性に焦点を当て、データ内のノイズの明示的なモデリングを無視している。
さらに、ノイズ推定法は一般に時間的あるいは空間的依存関係に依存しており、サンプル間の依存関係が欠落することが多い構造化された科学データにおいて大きな課題となる可能性がある。
科学研究におけるこれらの課題に対処するため,Taylor-Sensus Network (TSNet)を提案する。
TSNetはテイラー級数展開を用いて複素非定常雑音をモデル化し、音声認識のための深いテイラーブロックを提案する。
TSNetには、ノイズ対応のコントラスト学習モジュールと、アレタリックおよびエピステマティック不確実性のためのデータ密度認識モジュールが含まれている。
さらに、これらの不確実性を統合するために不確実性結合演算子を使用し、このネットワークを異種平均二乗誤差損失を用いて訓練する。
TSNetは、実験における主流および最先端の手法よりも優れた性能を示し、科学的研究と耐雑音性の可能性を強調している。
科学のためのAI」のコミュニティを促進するためにオープンソースになる。
Uncertainty estimation is crucial in scientific data for machine learning. Current uncertainty estimation methods mainly focus on the model's inherent uncertainty, while neglecting the explicit modeling of noise in the data. Furthermore, noise estimation methods typically rely on temporal or spatial dependencies, which can pose a significant challenge in structured scientific data where such dependencies among samples are often absent. To address these challenges in scientific research, we propose the Taylor-Sensus Network (TSNet). TSNet innovatively uses a Taylor series expansion to model complex, heteroscedastic noise and proposes a deep Taylor block for aware noise distribution. TSNet includes a noise-aware contrastive learning module and a data density perception module for aleatoric and epistemic uncertainty. Additionally, an uncertainty combination operator is used to integrate these uncertainties, and the network is trained using a novel heteroscedastic mean square error loss. TSNet demonstrates superior performance over mainstream and state-of-the-art methods in experiments, highlighting its potential in scientific research and noise resistance. It will be open-source to facilitate the community of "AI for Science". | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# モバイルアプリ開発におけるアクセシビリティのトレンドと課題:スタックオーバーフローに関する調査
Exploring Accessibility Trends and Challenges in Mobile App Development: A Study of Stack Overflow Questions ( http://arxiv.org/abs/2409.07945v1 ) ライセンス: Link先を確認 | Amila Indika, Christopher Lee, Haochen Wang, Justin Lisoway, Anthony Peruma, Rick Kazman, | (参考訳) モバイルアプリケーション(アプリ)の普及は、障害のあるユーザへのアクセシビリティの確保を重要視している。
しかし、モバイルアクセシビリティ機能の実装において開発者が直面する現実的な課題についての研究は不足している。
そこで本研究では,Stack Overflow上でのアクセシビリティに関する議論を大規模に分析し,AndroidとiOS開発者が直面するトレンドと課題を明らかにする。
モバイル開発者が議論する成長パターン,特徴,一般的なトピックについて検討する。
この結果から,スクリーンリーダなどの補助技術の統合,アクセス可能なUI設計の確保,言語間のテキスト合成のサポート,複雑なジェスチャーの処理,アクセシビリティテストの実行など,いくつかの課題が明らかになった。
開発者プラクティス,研究方向,ツールサポート,教育リソースの改善を促進する上で,私たちの発見を期待する。
The proliferation of mobile applications (apps) has made it crucial to ensure their accessibility for users with disabilities. However, there is a lack of research on the real-world challenges developers face in implementing mobile accessibility features. This study presents a large-scale empirical analysis of accessibility discussions on Stack Overflow to identify the trends and challenges Android and iOS developers face. We examine the growth patterns, characteristics, and common topics mobile developers discuss. Our results show several challenges, including integrating assistive technologies like screen readers, ensuring accessible UI design, supporting text-to-speech across languages, handling complex gestures, and conducting accessibility testing. We envision our findings driving improvements in developer practices, research directions, tool support, and educational resources. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# テンソル因子化と回路の関係(そしてどのように爆発するか)
What is the Relationship between Tensor Factorizations and Circuits (and How Can We Exploit it)? ( http://arxiv.org/abs/2409.07953v1 ) ライセンス: Link先を確認 | Lorenzo Loconte, Antonio Mari, Gennaro Gala, Robert Peharz, Cassio de Campos, Erik Quaeghebeur, Gennaro Vessio, Antonio Vergari, | (参考訳) 本稿では,回路表現とテンソル因子化の厳密な関係を確立する。
これらのフィールドを接続することで、両方のコミュニティに利益をもたらす一連の機会を強調します。
本研究は,回路言語内でのテンソル分解を一般化し,多種多様な回路学習アルゴリズムを1つの一般化階層的因子化フレームワークで統一する。
具体的には、テンソル化回路アーキテクチャを構築するためのモジュラー "Lego block" アプローチを提案する。
これにより、トラクタビリティを維持しつつ、様々な回路およびテンソルの分解モデルを体系的に構築し、探索することができる。
この接続は、既存のモデルの類似点と相違点を明らかにするだけでなく、新しい回路/テンソル因子化アーキテクチャの構築と最適化のための包括的なパイプラインの開発を可能にする。
本研究では,広範囲な経験的評価を通じてフレームワークの有効性を示すとともに,確率的モデリングにおけるテンソル因子化の新たな研究機会を浮き彫りにする。
This paper establishes a rigorous connection between circuit representations and tensor factorizations, two seemingly distinct yet fundamentally related areas. By connecting these fields, we highlight a series of opportunities that can benefit both communities. Our work generalizes popular tensor factorizations within the circuit language, and unifies various circuit learning algorithms under a single, generalized hierarchical factorization framework. Specifically, we introduce a modular "Lego block" approach to build tensorized circuit architectures. This, in turn, allows us to systematically construct and explore various circuit and tensor factorization models while maintaining tractability. This connection not only clarifies similarities and differences in existing models, but also enables the development of a comprehensive pipeline for building and optimizing new circuit/tensor factorization architectures. We show the effectiveness of our framework through extensive empirical evaluations, and highlight new research opportunities for tensor factorizations in probabilistic modeling. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 機械学習を用いた極端質量比インスピレーションの高速パラメータ推定
Rapid Parameter Estimation for Extreme Mass Ratio Inspirals Using Machine Learning ( http://arxiv.org/abs/2409.07957v1 ) ライセンス: Link先を確認 | Bo Liang, Hong Guo, Tianyu Zhao, He wang, Herik Evangelinelis, Yuxiang Xu, Chang liu, Manjia Liang, Xiaotong Wei, Yong Yuan, Peng Xu, Minghui Du, Wei-Liang Qian, Ziren Luo, | (参考訳) EMRI(Extreme-mass-ratio Inspiral)信号は、低周波の性質と多数の変数を持つ高次元パラメータ空間を占有する非常に複雑な波形により、重力波(GW)天文学において重要な課題を提起する。
拡張された吸気時間スケールと低信号-雑音比を考えると、EMRI信号は観察期間の延長を保証している。
パラメータ推定は、複数の局所的な最大値から生じる非局所的なパラメータの退化や、確率関数に固有の平坦な領域や隆起によって特に困難になる。
これらの要因は、従来のマッチングフィルタ法とランダムサンプリング法を併用しながら、パラメータ解析に極めて高い時間的複雑性をもたらす。
これらの課題に対処するために,本研究では,最近開発されたODEニューラルネットワークに基づくフローマッチング技術を活用し,ベイジアン後部推定に機械学習を適用した。
計算効率は従来のマルコフ・チェイン・モンテカルロ法(MCMC)よりも数桁高速であり,パラメータ推定の不偏性は保たれている。
機械学習技術は、EMRI信号に関連する最大17個のパラメータを含む広大なパラメータ空間を効率的に処理できる可能性があることを示す。
さらに、我々の知る限り、これは機械学習、特に連続正規化フロー(CNF)をMRI信号解析に適用する最初の例である。
EMRI波形解析における機械学習の有望な可能性を強調し,宇宙からのGW検出とGW天文学の進歩に向けた新たな視点を提供する。
Extreme-mass-ratio inspiral (EMRI) signals pose significant challenges in gravitational wave (GW) astronomy owing to their low-frequency nature and highly complex waveforms, which occupy a high-dimensional parameter space with numerous variables. Given their extended inspiral timescales and low signal-to-noise ratios, EMRI signals warrant prolonged observation periods. Parameter estimation becomes particularly challenging due to non-local parameter degeneracies, arising from multiple local maxima, as well as flat regions and ridges inherent in the likelihood function. These factors lead to exceptionally high time complexity for parameter analysis while employing traditional matched filtering and random sampling methods. To address these challenges, the present study applies machine learning to Bayesian posterior estimation of EMRI signals, leveraging the recently developed flow matching technique based on ODE neural networks. Our approach demonstrates computational efficiency several orders of magnitude faster than the traditional Markov Chain Monte Carlo (MCMC) methods, while preserving the unbiasedness of parameter estimation. We show that machine learning technology has the potential to efficiently handle the vast parameter space, involving up to seventeen parameters, associated with EMRI signals. Furthermore, to our knowledge, this is the first instance of applying machine learning, specifically the Continuous Normalizing Flows (CNFs), to EMRI signal analysis. Our findings highlight the promising potential of machine learning in EMRI waveform analysis, offering new perspectives for the advancement of space-based GW detection and GW astronomy. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 文脈決定とメッセージレベル分析を用いたオンライングミリング検出の強化
Enhanced Online Grooming Detection Employing Context Determination and Message-Level Analysis ( http://arxiv.org/abs/2409.07958v1 ) ライセンス: Link先を確認 | Jake Street, Isibor Ihianle, Funminiyi Olajide, Ahmad Lotfi, | (参考訳) オンライン Grooming (OG) は、ソーシャルメディアやメッセージプラットフォーム上で、子どもの脆弱性を脅かすのに偽りの方法を使う新郎が、オンライングルームリング(英語版)(英語版)(英語版) (OG) は、オンラインで先進的に子供に直面する最も一般的な脅威である。
これらの攻撃は、再活性化の傾向を含む、深刻な心理的および身体的影響をもたらす可能性がある。
現在の技術的な対策は不十分であり、特にメッセージ監視を邪魔するエンドツーエンドの暗号化が出現した。
既存のソリューションは、リアルタイムのOG検出に効果的に対応しない児童虐待メディアの署名分析に重点を置いている。
本稿では,OG攻撃が複雑であり,大人と子供のコミュニケーションパターンの特定が必要であることを提案する。
メッセージレベル分析にBERTやRoBERTaといった高度なモデルを活用する新しいアプローチを導入し、アクター重要閾値やメッセージ重要閾値などのアクターインタラクションを分類するためのコンテキスト決定アプローチを導入している。
提案手法は,これらの攻撃の動的・多面的特性を考慮し,OGの検出精度とロバスト性を高めることを目的としている。
クロスデータセット実験は、我々のアプローチの堅牢性と汎用性を評価する。
本研究の貢献は,様々なシナリオにおける検出手法の改善と応用の可能性,現状の文献と実践のギャップに対処することである。
Online Grooming (OG) is a prevalent threat facing predominately children online, with groomers using deceptive methods to prey on the vulnerability of children on social media/messaging platforms. These attacks can have severe psychological and physical impacts, including a tendency towards revictimization. Current technical measures are inadequate, especially with the advent of end-to-end encryption which hampers message monitoring. Existing solutions focus on the signature analysis of child abuse media, which does not effectively address real-time OG detection. This paper proposes that OG attacks are complex, requiring the identification of specific communication patterns between adults and children. It introduces a novel approach leveraging advanced models such as BERT and RoBERTa for Message-Level Analysis and a Context Determination approach for classifying actor interactions, including the introduction of Actor Significance Thresholds and Message Significance Thresholds. The proposed method aims to enhance accuracy and robustness in detecting OG by considering the dynamic and multi-faceted nature of these attacks. Cross-dataset experiments evaluate the robustness and versatility of our approach. This paper's contributions include improved detection methodologies and the potential for application in various scenarios, addressing gaps in current literature and practices. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# ビジョンファウンデーションモデルは医用画像分割における領域の一般化を促進するか?
Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? ( http://arxiv.org/abs/2409.07960v1 ) ライセンス: Link先を確認 | Kerem Cekmeceli, Meva Himmetoglu, Guney I. Tombak, Anna Susmelj, Ertunc Erdil, Ender Konukoglu, | (参考訳) ニューラルネットワークは、トレーニングデータ分布がテストデータ分布と一致する場合、教師付き学習タスクの多くにおいて最先端のパフォーマンスを達成する。
しかし、その性能はドメイン(共変量)シフトの下で著しく低下し、様々なスキャナーモデルやプロトコル間での取得設定の違いにより、医用画像のセグメンテーションにおいて大きな問題となっている。
近年,大規模なデータセットでトレーニングされた基礎モデル (FM) は,下流タスクに適応し,自然画像に優れた一般化機能を持つ最先端のパフォーマンスを実現する能力に注目されている。
しかし, 医用画像のセグメンテーションにおける効果は未検討である。
本稿では,DinoV2,SAM,MedSAM,MAEなどの各種FMの領域一般化性能について,Ladder や Rein (+LoRA) やデコーダヘッドなどの各種パラメータ効率細調整(PEFT)技術を用いて微調整を行った。
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
様々な解剖学やモダリティを含む複数のデータセットに関する広範な実験により、FM、特にHQHSAMデコードヘッドは、医用画像分割のための領域一般化を改善することが判明した。
さらに,PEFT法の有効性はFMによって異なることがわかった。
これらの知見は、様々な臨床領域にわたる医用画像分割におけるニューラルネットワークの領域一般化性能を高めるためのFMの可能性を強調し、将来の研究の基盤となる。
コードとモデルは、研究目的のために \url{https://github.com/kerem-cekmeceli/Foundation-Models-for-Medical-Imagery} で利用可能である。
Neural networks achieve state-of-the-art performance in many supervised learning tasks when the training data distribution matches the test data distribution. However, their performance drops significantly under domain (covariate) shift, a prevalent issue in medical image segmentation due to varying acquisition settings across different scanner models and protocols. Recently, foundational models (FMs) trained on large datasets have gained attention for their ability to be adapted for downstream tasks and achieve state-of-the-art performance with excellent generalization capabilities on natural images. However, their effectiveness in medical image segmentation remains underexplored. In this paper, we investigate the domain generalization performance of various FMs, including DinoV2, SAM, MedSAM, and MAE, when fine-tuned using various parameter-efficient fine-tuning (PEFT) techniques such as Ladder and Rein (+LoRA) and decoder heads. We introduce a novel decode head architecture, HQHSAM, which simply integrates elements from two state-of-the-art decoder heads, HSAM and HQSAM, to enhance segmentation performance. Our extensive experiments on multiple datasets, encompassing various anatomies and modalities, reveal that FMs, particularly with the HQHSAM decode head, improve domain generalization for medical image segmentation. Moreover, we found that the effectiveness of PEFT techniques varies across different FMs. These findings underscore the potential of FMs to enhance the domain generalization performance of neural networks in medical image segmentation across diverse clinical settings, providing a solid foundation for future research. Code and models are available for research purposes at \url{https://github.com/kerem-cekmeceli/Foundation-Models-for-Medical-Imagery}. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# 条件付きデノイング拡散モデルによるデジタル台風衛星画像からの大気変数の推定
Estimating atmospheric variables from Digital Typhoon Satellite Images via Conditional Denoising Diffusion Models ( http://arxiv.org/abs/2409.07961v1 ) ライセンス: Link先を確認 | Zhangyue Ling, Pritthijit Nath, César Quilodrán-Casas, | (参考訳) 本研究では,デジタル台風衛星画像から複数のERA5気象変数を同時に予測し,台風分野における拡散モデルの適用について検討した。
この研究の焦点は台湾であり、台風に非常に脆弱な地域である。
The performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet) results suggests that the CDDPMは正確な気象データを生成するのに最適である。
具体的には、CDDPMのPSNRは32.807で、CNNより約7.9%高く、SENetより5.5%高い。
さらにCDDPMのRMSEは0.032で、CNNは11.1%、SENetは8.6%改善した。
この研究の重要な応用は、欠落した気象データセットの計算目的と、衛星画像を用いた高品質な気象データの生成である。
この分析の結果により、より堅牢で詳細な予測が可能となり、脆弱な地域での厳しい気象事象の影響が軽減されることが期待されている。
https://github.com/TammyLing/Typhoon-forecasting.comからアクセス可能。
This study explores the application of diffusion models in the field of typhoons, predicting multiple ERA5 meteorological variables simultaneously from Digital Typhoon satellite images. The focus of this study is taken to be Taiwan, an area very vulnerable to typhoons. By comparing the performance of Conditional Denoising Diffusion Probability Model (CDDPM) with Convolutional Neural Networks (CNN) and Squeeze-and-Excitation Networks (SENet), results suggest that the CDDPM performs best in generating accurate and realistic meteorological data. Specifically, CDDPM achieved a PSNR of 32.807, which is approximately 7.9% higher than CNN and 5.5% higher than SENet. Furthermore, CDDPM recorded an RMSE of 0.032, showing a 11.1% improvement over CNN and 8.6% improvement over SENet. A key application of this research can be for imputation purposes in missing meteorological datasets and generate additional high-quality meteorological data using satellite images. It is hoped that the results of this analysis will enable more robust and detailed forecasting, reducing the impact of severe weather events on vulnerable regions. Code accessible at https://github.com/TammyLing/Typhoon-forecasting. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# WirelessAgent: インテリジェント無線ネットワークのための大規模言語モデルエージェント
WirelessAgent: Large Language Model Agents for Intelligent Wireless Networks ( http://arxiv.org/abs/2409.07964v1 ) ライセンス: Link先を確認 | Jingwen Tong, Jiawei Shao, Qiong Wu, Wei Guo, Zijian Li, Zehong Lin, Jun Zhang, | (参考訳) 無線ネットワークは、規模と複雑さの増大により、ますます課題に直面している。
これらの課題は、特に今後の6Gネットワークにおいて、高度なAI駆動戦略の必要性を浮き彫りにしている。
本稿では,大規模言語モデル(LLM)を活用し,複雑なタスクを無線ネットワークで管理できるAIエージェントを開発するための新しいアプローチである WirelessAgentを紹介する。
高度な推論、マルチモーダルデータ処理、自律的な意思決定を通じて、ネットワーク性能を効果的に向上させることができる。
その後,ネットワークスライシング管理における WirelessAgent の実用性とメリットを実証した。
実験の結果、WirelessAgentはユーザの意図を正確に理解し、スライスリソースを効果的に割り当て、常に最適な性能を維持することができることがわかった。
Wireless networks are increasingly facing challenges due to their expanding scale and complexity. These challenges underscore the need for advanced AI-driven strategies, particularly in the upcoming 6G networks. In this article, we introduce WirelessAgent, a novel approach leveraging large language models (LLMs) to develop AI agents capable of managing complex tasks in wireless networks. It can effectively improve network performance through advanced reasoning, multimodal data processing, and autonomous decision making. Thereafter, we demonstrate the practical applicability and benefits of WirelessAgent for network slicing management. The experimental results show that WirelessAgent is capable of accurately understanding user intent, effectively allocating slice resources, and consistently maintaining optimal performance. | 翻訳日:2024-09-13 16:48:47 公開日:2024-09-12 |
# エンド・ツー・エンド微分可能シミュレーションによる自律走行車両制御
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation ( http://arxiv.org/abs/2409.07965v1 ) ライセンス: Link先を確認 | Asen Nachkov, Danda Pani Paudel, Luc Van Gool, | (参考訳) 自律走行車(AV)の制御装置を学ぶための現在の手法は、行動的クローニングに焦点を当てている。
正確な歴史的データのみに基づいて訓練されているため、結果として生じるエージェントは、しばしば新しいシナリオに対して不十分な一般化を行う。
シミュレータはオフラインのデータセットを超える機会を提供するが、それでも複雑なブラックボックスとして扱われ、グローバルなシミュレーション状態の更新にのみ使用される。
結果として、これらのRLアルゴリズムは遅く、サンプリング非効率で、事前認識できない。
本研究では,大規模なWaymo Open Motion Dataset上でのAVコントローラのトレーニングに,微分可能なシミュレータを活用し,分析ポリシー勾配(APG)アプローチを設計する。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
この設定と再帰的アーキテクチャを組み合わせることで、長時間の擬似軌道を横断する時間情報を効率的に伝播することができる。
このAPG法は,専門家の行動に乏しいのではなく,広く利用可能な専門家の軌跡のみを必要としながら,堅牢で正確かつ迅速な政策の学習を可能にする。
動作のクローンと比較すると、動的にノイズに対してパフォーマンスと堅牢性が大幅に向上し、全体的な直感的なヒューマンライクな処理が可能になった。
Current methods to learn controllers for autonomous vehicles (AVs) focus on behavioural cloning. Being trained only on exact historic data, the resulting agents often generalize poorly to novel scenarios. Simulators provide the opportunity to go beyond offline datasets, but they are still treated as complicated black boxes, only used to update the global simulation state. As a result, these RL algorithms are slow, sample-inefficient, and prior-agnostic. In this work, we leverage a differentiable simulator and design an analytic policy gradients (APG) approach to training AV controllers on the large-scale Waymo Open Motion Dataset. Our proposed framework brings the differentiable simulator into an end-to-end training loop, where gradients of the environment dynamics serve as a useful prior to help the agent learn a more grounded policy. We combine this setup with a recurrent architecture that can efficiently propagate temporal information across long simulated trajectories. This APG method allows us to learn robust, accurate, and fast policies, while only requiring widely-available expert trajectories, instead of scarce expert actions. We compare to behavioural cloning and find significant improvements in performance and robustness to noise in the dynamics, as well as overall more intuitive human-like handling. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# ProbTalk3D:VQ-VAEを用いた非決定論的感情制御型音声駆動型3次元顔アニメーション合成
ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE ( http://arxiv.org/abs/2409.07966v1 ) ライセンス: Link先を確認 | Sichun Wu, Kazi Injamamul Haque, Zerrin Yumak, | (参考訳) 音声駆動の3D顔アニメーション合成は、学術と産業の両方から注目される研究の活発な分野である。
この領域には有望な結果があるが、近年のアプローチは、生成過程における感情と感情の制御の役割を無視し、リップシンクとアイデンティティ制御に主に焦点をあてている。
それは主に、感情的に豊かな顔のアニメーションデータと、感情的な表情で同時に音声のアニメーションを合成できるアルゴリズムが欠如しているためである。
さらに、ほとんどのモデルは決定論的であり、つまり同じ音声入力を与えられた場合、同じ出力運動を生成する。
感情と非決定主義は多様で感情に富んだ顔のアニメーションを生成するために不可欠である、と我々は主張する。
本稿では,2段階のVQ-VAEモデルと感情に富んだ顔画像データセット3DMEADを用いて,感情制御可能な音声駆動3次元顔画像合成のための非決定論的ニューラルネットワークであるProbTalk3Dを提案する。
本稿では,最近の3次元顔アニメーション合成手法に対して,客観的に,質的に,そして知覚的ユーザスタディで,我々のモデルを広範囲に比較分析する。
確率的出力を評価するのにより適した客観的指標をいくつか強調し、主観的評価に内在的および内在的真理データの両方を用いる。
我々の知る限り、リッチな感情データセットと感情制御を感情ラベルと強度レベルで組み込んだ、非決定論的3次元顔アニメーション合成法は、これが初めてである。
提案手法は, 感情制御モデル, 決定論的モデル, 非決定論的モデルと比較して, 優れた性能が得られることを示す。
品質判断のために補足ビデオを見ることをお勧めします。
コードベース全体が公開されている(https://github.com/uuembodiedsocialai/ProbTalk3D/)。
Audio-driven 3D facial animation synthesis has been an active field of research with attention from both academia and industry. While there are promising results in this area, recent approaches largely focus on lip-sync and identity control, neglecting the role of emotions and emotion control in the generative process. That is mainly due to the lack of emotionally rich facial animation data and algorithms that can synthesize speech animations with emotional expressions at the same time. In addition, majority of the models are deterministic, meaning given the same audio input, they produce the same output motion. We argue that emotions and non-determinism are crucial to generate diverse and emotionally-rich facial animations. In this paper, we propose ProbTalk3D a non-deterministic neural network approach for emotion controllable speech-driven 3D facial animation synthesis using a two-stage VQ-VAE model and an emotionally rich facial animation dataset 3DMEAD. We provide an extensive comparative analysis of our model against the recent 3D facial animation synthesis approaches, by evaluating the results objectively, qualitatively, and with a perceptual user study. We highlight several objective metrics that are more suitable for evaluating stochastic outputs and use both in-the-wild and ground truth data for subjective evaluation. To our knowledge, that is the first non-deterministic 3D facial animation synthesis method incorporating a rich emotion dataset and emotion control with emotion labels and intensity levels. Our evaluation demonstrates that the proposed model achieves superior performance compared to state-of-the-art emotion-controlled, deterministic and non-deterministic models. We recommend watching the supplementary video for quality judgement. The entire codebase is publicly available (https://github.com/uuembodiedsocialai/ProbTalk3D/). | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 濃密な視覚事象の局所化のための局所性を考慮したクロスモーダル対応学習
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization ( http://arxiv.org/abs/2409.07967v1 ) ライセンス: Link先を確認 | Ling Xing, Hongyu Qu, Rui Yan, Xiangbo Shu, Jinhui Tang, | (参考訳) Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
そして、DAVEのマルチモーダル情報を統合するために、密集したクロスモーダルアテンションを採用する。
したがって、これらの手法は必然的に無関係なノイズや事象を、特に複雑なビデオや長いビデオに集約し、不正確な検出につながる。
本稿では,DAVE における局所性を考慮したクロスモーダル対応学習フレームワーク LOCO を提案する。
中心となる考え方は、視覚的事象の局所的時間的連続性を探求することであり、これは情報的かつ自由な監視信号として機能し、無関係な情報のフィルタリングを誘導し、一助的および横断的な学習段階における相補的なマルチモーダル情報の抽出を促すことである。
i) 特に、LOCOは、追加のアノテーションを使わずに、クロスモーダルなローカル関連プロパティを活用することにより、一様特徴に対してLocality-Aware Correspondence Correction (LCC)を適用します。
これにより、一様エンコーダは、オーディオや視覚的特徴によって共有される同様のセマンティクスを強調することができる。
ii)このような音声や視覚的特徴をよりよく集約するために、クロスモーダル特徴ピラミッドにおけるクロスモーダル動的知覚層(CDP)をさらにカスタマイズし、データ駆動方式でマルチモーダル特徴の局所的一貫性を付与することにより、オーディオ視覚事象の局所的時間パターンを理解する。
LCCとCDPを組み込むことで、LOCOはパフォーマンスの向上とDAVEの既存手法よりも優れる。
ソースコードはリリースされます。
Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that can be heard and seen concurrently in an untrimmed video. Existing methods typically encode audio and visual representation separately without any explicit cross-modal alignment constraint. Then they adopt dense cross-modal attention to integrate multimodal information for DAVE. Thus these methods inevitably aggregate irrelevant noise and events, especially in complex and long videos, leading to imprecise detection. In this paper, we present LOCO, a Locality-aware cross-modal Correspondence learning framework for DAVE. The core idea is to explore local temporal continuity nature of audio-visual events, which serves as informative yet free supervision signals to guide the filtering of irrelevant information and inspire the extraction of complementary multimodal information during both unimodal and cross-modal learning stages. i) Specifically, LOCO applies Locality-aware Correspondence Correction (LCC) to uni-modal features via leveraging cross-modal local-correlated properties without any extra annotations. This enforces uni-modal encoders to highlight similar semantics shared by audio and visual features. ii) To better aggregate such audio and visual features, we further customize Cross-modal Dynamic Perception layer (CDP) in cross-modal feature pyramid to understand local temporal patterns of audio-visual events by imposing local consistency within multimodal features in a data-driven manner. By incorporating LCC and CDP, LOCO provides solid performance gains and outperforms existing methods for DAVE. The source code will be released. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# ローカライズされたシュレーディンガー橋サンプリング機
Localized Schrödinger Bridge Sampler ( http://arxiv.org/abs/2409.07968v1 ) ライセンス: Link先を確認 | Georg A. Gottwald, Sebastian Reich, | (参考訳) 十分な数のトレーニングサンプルしか入手できない未知の分布からサンプリングする際の生成的問題を考察する。
本稿では、Schr\\odinger BridgesとLangevin dynamicsを組み合わせた以前の研究に基づいて構築する。
このアプローチの鍵となるボトルネックは、環境状態空間の次元$d$における必要なトレーニングサンプルの指数関数的依存である。
条件付き期待値の条件付き独立性を利用した局所化戦略を提案する。
したがって、ローカライゼーションは単一の高次元シュリンガーブリッジ問題を、利用可能なトレーニングサンプルよりも$d$低次元シュリンガーブリッジ問題に置き換える。
元のアプローチでは、局所化サンプリングは安定で幾何学的エルゴディックである。
サンプルは自然に条件付きサンプリングやベイズ推論にも拡張される。
本稿では,次元の増大を伴うガウス問題と,確率的サブグリッドスケールパラメトリゼーション条件付きサンプリング問題に関する実験を通じて提案手法の性能を実証する。
We consider the generative problem of sampling from an unknown distribution for which only a sufficiently large number of training samples are available. In this paper, we build on previous work combining Schr\"odinger bridges and Langevin dynamics. A key bottleneck of this approach is the exponential dependence of the required training samples on the dimension, $d$, of the ambient state space. We propose a localization strategy which exploits conditional independence of conditional expectation values. Localization thus replaces a single high-dimensional Schr\"odinger bridge problem by $d$ low-dimensional Schr\"odinger bridge problems over the available training samples. As for the original approach, the localized sampler is stable and geometric ergodic. The sampler also naturally extends to conditional sampling and to Bayesian inference. We demonstrate the performance of our proposed scheme through experiments on a Gaussian problem with increasing dimensions and on a stochastic subgrid-scale parametrization conditional sampling problem. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 精密ビジョンに基づく3次元活動予測のための深度デカップリング
Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction ( http://arxiv.org/abs/2409.07972v1 ) ライセンス: Link先を確認 | Yuan Wu, Zhiqiang Yan, Zhengxue Wang, Xiang Li, Le Hui, Jian Yang, | (参考訳) 視覚に基づく3次元占有予測の課題は、3次元幾何学を再構築し、2Dから3Dへの視点変換が必須となる2次元カラー画像から意味クラスを推定することを目的としている。
BEVPoolingやVoxelPoolingといった従来の手法では、どちらも2D画像の特徴を3Dグリッドにマッピングする。
しかしながら、ある高さ範囲内の特徴を表す現在のグリッドは、通常、他の高さ範囲に属する多くの混乱した特徴を導入します。
この課題に対処するために、混乱する特徴をフィルタリングする前に、明示的な高さを組み込んだ新しいフレームワークであるDeep Height Decoupling (DHD)を紹介します。
具体的には、DHDはまず、明示的な監督によって高さマップを予測する。
高度分布統計に基づいて、DHDは高度マップを適応的に複数のバイナリマスクに分離するマスクガイドハイトサンプリング(MGHS)を設計した。
MGHSは2D画像の特徴を複数のサブスペースに投影する。
最後に、Synergistic Feature Aggregation (SFA)モジュールを配置し、チャネルと空間親和性を通じて特徴表現を強化し、さらなる占有率の向上を可能にする。
一般的なOcc3D-nuScenesベンチマークでは,最小入力フレームでも最先端の性能を実現する。
コードはhttps://github.com/yanzq95/DHDで入手できる。
The task of vision-based 3D occupancy prediction aims to reconstruct 3D geometry and estimate its semantic classes from 2D color images, where the 2D-to-3D view transformation is an indispensable step. Most previous methods conduct forward projection, such as BEVPooling and VoxelPooling, both of which map the 2D image features into 3D grids. However, the current grid representing features within a certain height range usually introduces many confusing features that belong to other height ranges. To address this challenge, we present Deep Height Decoupling (DHD), a novel framework that incorporates explicit height prior to filter out the confusing features. Specifically, DHD first predicts height maps via explicit supervision. Based on the height distribution statistics, DHD designs Mask Guided Height Sampling (MGHS) to adaptively decoupled the height map into multiple binary masks. MGHS projects the 2D image features into multiple subspaces, where each grid contains features within reasonable height ranges. Finally, a Synergistic Feature Aggregation (SFA) module is deployed to enhance the feature representation through channel and spatial affinities, enabling further occupancy refinement. On the popular Occ3D-nuScenes benchmark, our method achieves state-of-the-art performance even with minimal input frames. Code is available at https://github.com/yanzq95/DHD. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# スパースR-CNN OBB: 配向スパース提案に基づくSAR画像の船舶目標検出
Sparse R-CNN OBB: Ship Target Detection in SAR Images Based on Oriented Sparse Proposals ( http://arxiv.org/abs/2409.07973v1 ) ライセンス: Link先を確認 | Kamirul Kamirul, Odysseas Pappas, Alin Achim, | (参考訳) スパースR-CNN OBBは、スパース学習可能な提案を生かしたSAR画像におけるオブジェクト指向物体の検出のための新しいフレームワークである。
Sparse R-CNN OBBは、数十万のアンカーでプロポーザルジェネレータを訓練する代わりに、300のプロポーザルのスパースセットを使用するため、アーキテクチャと訓練の容易さを簡素化した。
我々の知る限りでは、Sparse R-CNN OBBは、オブジェクト指向物体の検出とSAR(Synthetic Aperture Radar)画像中の船舶の検知のために、スパース学習可能な提案を初めて採用している。
ベースラインモデルの検出ヘッドであるSparse R-CNNは、モデルがオブジェクトの向きを捉えられるように再設計される。
また、RSDD-SARデータセット上でモデルを微調整し、最先端モデルと比較する。
実験結果から,Sparse R-CNN OBBは沿岸および沖合のシナリオにおいて,他のモデルを上回る優れた性能を示した。
コードは、www.github.com/ka-mirul/Sparse-R-CNN-OBBで入手できる。
We present Sparse R-CNN OBB, a novel framework for the detection of oriented objects in SAR images leveraging sparse learnable proposals. The Sparse R-CNN OBB has streamlined architecture and ease of training as it utilizes a sparse set of 300 proposals instead of training a proposals generator on hundreds of thousands of anchors. To the best of our knowledge, Sparse R-CNN OBB is the first to adopt the concept of sparse learnable proposals for the detection of oriented objects, as well as for the detection of ships in Synthetic Aperture Radar (SAR) images. The detection head of the baseline model, Sparse R-CNN, is re-designed to enable the model to capture object orientation. We also fine-tune the model on RSDD-SAR dataset and provide a performance comparison to state-of-the-art models. Experimental results shows that Sparse R-CNN OBB achieves outstanding performance, surpassing other models on both inshore and offshore scenarios. The code is available at: www.github.com/ka-mirul/Sparse-R-CNN-OBB. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 量子逆高速フーリエ変換
Quantum Inverse Fast Fourier Transform ( http://arxiv.org/abs/2409.07983v1 ) ライセンス: Link先を確認 | Mayank Roy, Devi Maheswaran, | (参考訳) 本稿では,量子データを扱うためにQIFFT(Quantum Inverse Fast Fourier Transform)アルゴリズムを開発した。
古典的な離散信号と同様、量子信号はディラック表記で表すことができ、QIFFTの適用は周波数領域から時間領域へのテンソル変換である。
テンソルが単に複素成分であるなら、古典的なシナリオが得られる。
古典的モデルからQIFFTアルゴリズムの完全な定式化を含め、蝶図も含んでいる。
QIFFTは量子フーリエ変換(QFT)の正規反転を計算複雑性、量子並列性、汎用性の向上の観点から上回っている。
In this paper, an algorithm for Quantum Inverse Fast Fourier Transform (QIFFT) is developed to work for quantum data. Analogous to a classical discrete signal, a quantum signal can be represented in Dirac notation, application of QIFFT is a tensor transformation from frequency domain to time domain. If the tensors are merely complex entries, then we get the classical scenario. We have included the complete formulation of QIFFT algorithm from the classical model and have included butterfly diagram. QIFFT outperforms regular inversion of Quantum Fourier Transform (QFT) in terms of computational complexity, quantum parallelism and improved versatility. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# SPARK: パーソナライズされたリアルタイムモノクラーフェイスキャプチャー
SPARK: Self-supervised Personalized Real-time Monocular Face Capture ( http://arxiv.org/abs/2409.07984v1 ) ライセンス: Link先を確認 | Kelian Baert, Shrisha Bharadwaj, Fabien Castan, Benoit Maujean, Marc Christie, Victoria Abrevaya, Adnane Boukhayma, | (参考訳) フィードフォワード単眼顔撮影法は、人物の単一画像から顔の再構成を試みる。
現在の最先端のアプローチは、人間の顔の大規模な画像データセットを活用することで、幅広いアイデンティティ、照明条件、ポーズをリアルタイムでパラメトリックな3D顔モデルを復元する能力を持っている。
しかし、これらの手法は、基礎となるパラメトリック顔モデルが顔の形状を粗く見積もるだけで、正確な3D再構成を必要とするタスク(年齢、顔交換、デジタルメイクアップ、...)における実用性を制限するという明確な制限を被っている。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
私たちの提案は2段階のアプローチに基づいている。
まず、人物の詳細な3D顔アバターを復元し、ビデオの集合から正確な形状と外観の両方を捉えます。
次に,事前学習した単眼顔再構成法を用いて,そのデコーダをパーソナライズしたモデルに置換し,ビデオコレクションの転送学習を進める。
予め推定した画像形成モデルを用いて、より正確な自己超越目標を求め、表現の改善とポーズアライメントを実現する。
これにより,従来は見えなかった画像からポーズパラメータや表現パラメータをリアルタイムに回帰させることができる訓練されたエンコーダが実現され,より正確で忠実なメッシュ推定が可能となった。
定性的かつ定量的な評価を通じて、現状のベースラインと比較して最終モデルの優位性を示し、ポーズ、表現、照明の一般化能力を示す。
Feedforward monocular face capture methods seek to reconstruct posed faces from a single image of a person. Current state of the art approaches have the ability to regress parametric 3D face models in real-time across a wide range of identities, lighting conditions and poses by leveraging large image datasets of human faces. These methods however suffer from clear limitations in that the underlying parametric face model only provides a coarse estimation of the face shape, thereby limiting their practical applicability in tasks that require precise 3D reconstruction (aging, face swapping, digital make-up, ...). In this paper, we propose a method for high-precision 3D face capture taking advantage of a collection of unconstrained videos of a subject as prior information. Our proposal builds on a two stage approach. We start with the reconstruction of a detailed 3D face avatar of the person, capturing both precise geometry and appearance from a collection of videos. We then use the encoder from a pre-trained monocular face reconstruction method, substituting its decoder with our personalized model, and proceed with transfer learning on the video collection. Using our pre-estimated image formation model, we obtain a more precise self-supervision objective, enabling improved expression and pose alignment. This results in a trained encoder capable of efficiently regressing pose and expression parameters in real-time from previously unseen images, which combined with our personalized geometry model yields more accurate and high fidelity mesh inference. Through extensive qualitative and quantitative evaluation, we showcase the superiority of our final model as compared to state-of-the-art baselines, and demonstrate its generalization ability to unseen pose, expression and lighting. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# AIコントロールのためのゲーム:AIデプロイメントプロトコルの安全性評価モデル
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols ( http://arxiv.org/abs/2409.07985v1 ) ライセンス: Link先を確認 | Charlie Griffin, Louis Thomson, Buck Shlegeris, Alessandro Abate, | (参考訳) 信頼できないAIのデプロイメントプロトコルの安全性と有用性を評価するため、AI Controlでは、プロトコルデザイナと敵の間で行われるレッドチームのエクササイズを使用している。
本稿では,多目的,部分的に観察可能な確率ゲームとして,AI-Control Gamesを紹介した。
また,AI-Control Gamesにおける最適なプロトコルを見つける手法についても紹介する。
我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化し、評価し、合成するために、より弱い言語モデルと制限されたヒューマンアシストを使用する信頼されたモニタリングプロトコルに焦点をあてる。
最後に、既存の環境における経験的研究の改善、新しい環境におけるプロトコルの評価、そして、仮定のモデル化がプロトコルの安全性と有用性にどのように影響するかを分析することで、フォーマリズムの有用性を実証する。
To evaluate the safety and usefulness of deployment protocols for untrusted AIs, AI Control uses a red-teaming exercise played between a protocol designer and an adversary. This paper introduces AI-Control Games, a formal decision-making model of the red-teaming exercise as a multi-objective, partially observable, stochastic game. We also introduce methods for finding optimal protocols in AI-Control Games, by reducing them to a set of zero-sum partially observable stochastic games. We apply our formalism to model, evaluate and synthesise protocols for deploying untrusted language models as programming assistants, focusing on Trusted Monitoring protocols, which use weaker language models and limited human assistance. Finally, we demonstrate the utility of our formalism by showcasing improvements over empirical studies in existing settings, evaluating protocols in new settings, and analysing how modelling assumptions affect the safety and usefulness of protocols. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 学習可能なマルチスケール埋め込みと注意機構によるFew-Shot画像分類の強化
Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms ( http://arxiv.org/abs/2409.07989v1 ) ライセンス: Link先を確認 | Fatemeh Askari, Amirreza Fateh, Mohammad Reza Mohammadi, | (参考訳) 少数の分類の文脈において、目標は、満足な性能を維持しながら、限られた数のサンプルを使用して分類器を訓練することである。
しかし、伝統的な計量に基づく手法は、この目的を達成するための一定の限界を示す。
これらのメソッドは通常、クエリ機能とサポート機能の間の単一の距離値に依存するため、浅い機能の貢献を見落としている。
この課題を克服するために,本稿では,新しいアプローチを提案する。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
提案手法は,異なる段階で特徴ベクトルを抽出し,大域的特徴と抽象的特徴の両方を抽出する。
これらの多様な特徴空間を利用することで、我々のモデルは性能を向上させる。
さらに、自己注意機構を利用することで、各ステージにおける機能の洗練が向上し、さらに堅牢な表現が可能になり、全体的なパフォーマンスが向上する。
さらに、各ステージに学習可能な重量を割り当てることで、性能と結果が大幅に向上した。
我々は,MiniImageNetとFC100データセットの総合評価を行い,特に5-way 1-shotと5-way 5-shotのシナリオについて検討した。
さらに、MiniImageNetからCUBデータセットへのクロスドメインタスクを実行し、テスト領域で高い精度を実現した。
これらの評価は,提案手法が最先端手法と比較して有効であることを示す。
https://github.com/FatemehAskari/MSENet
In the context of few-shot classification, the goal is to train a classifier using a limited number of samples while maintaining satisfactory performance. However, traditional metric-based methods exhibit certain limitations in achieving this objective. These methods typically rely on a single distance value between the query feature and support feature, thereby overlooking the contribution of shallow features. To overcome this challenge, we propose a novel approach in this paper. Our approach involves utilizing multi-output embedding network that maps samples into distinct feature spaces. The proposed method extract feature vectors at different stages, enabling the model to capture both global and abstract features. By utilizing these diverse feature spaces, our model enhances its performance. Moreover, employing a self-attention mechanism improves the refinement of features at each stage, leading to even more robust representations and improved overall performance. Furthermore, assigning learnable weights to each stage significantly improved performance and results. We conducted comprehensive evaluations on the MiniImageNet and FC100 datasets, specifically in the 5-way 1-shot and 5-way 5-shot scenarios. Additionally, we performed a cross-domain task from MiniImageNet to the CUB dataset, achieving high accuracy in the testing domain. These evaluations demonstrate the efficacy of our proposed method in comparison to state-of-the-art approaches. https://github.com/FatemehAskari/MSENet | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 長波長近似を超えた非調和振動偏光子シミュレーション
Simulating anharmonic vibrational polaritons beyond the long wavelength approximation ( http://arxiv.org/abs/2409.07992v1 ) ライセンス: Link先を確認 | Dipti Jasrasaria, Arkajit Mandal, David R. Reichman, Timothy C. Berkelbach, | (参考訳) 本研究では, 長波長限界を超える非調和振動と放射モードの光共振器内での強い光-マター相互作用によって形成される非調和振動偏光子について検討する。
本稿では,空間的局所化共振モードと局所化共振モードとの光-物質相互作用について,概念的に単純な記述を紹介する。
この理論枠組みの中では、非調和性を含む運動量分解型振動偏光子スペクトルを効率的にシミュレートするために、自己整合フォノン理論と振動力学平均場理論を用いる。
モデルシステムにおける数値シミュレーションは,本手法の精度と適用性を示す。
In this work we investigate anharmonic vibrational polaritons formed due to strong light-matter interactions in an optical cavity between radiation modes and anharmonic vibrations beyond the long-wavelength limit. We introduce a conceptually simple description of light-matter interactions, where spatially localized cavity radiation modes couple to localized vibrations. Within this theoretical framework, we employ self-consistent phonon theory and vibrational dynamical mean-field theory to efficiently simulate momentum-resolved vibrational-polariton spectra, including effects of anharmonicity. Numerical simulations in model systems demonstrate the accuracy and applicability of our approach. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# 深度問題:交通場面におけるセマンティックセグメンテーションのためのRGB-Dの深い相互作用を探る
Depth Matters: Exploring Deep Interactions of RGB-D for Semantic Segmentation in Traffic Scenes ( http://arxiv.org/abs/2409.07995v1 ) ライセンス: Link先を確認 | Siyu Chen, Ting Han, Changshe Zhang, Weiquan Liu, Jinhe Su, Zongyue Wang, Guorong Cai, | (参考訳) RGB-Dは、運転支援における複雑なシーンを理解するために、徐々に重要なデータソースになりつつある。
しかし,本研究は深度マップの内在的空間特性に十分注意を払っていない。
この監視はアテンション表現に大きな影響を与え、アテンションシフト問題に起因する予測エラーを引き起こす。
そこで本研究では,深度の有効性を探求するために,新しい学習可能な深度相互作用ピラミッド変換器(DiPFormer)を提案する。
まず,実世界の空間関係を表現するためのオフセットとして,Depth Spatial-Aware Optimization (Depth SAO)を導入する。
第二に、RGB-Dの特徴空間における類似性は、画素レベルの空間差を明らかにするために、深さ線形交差注意(Depth Linear Cross-Attention, DCA)によって学習される。
最後に、MLPデコーダを使用して、リアルタイム要件を満たすためのマルチスケール機能を効果的に融合する。
総合的な実験により、提案されたDiPFormerは、道路検出(+7.5%)とセマンティックセグメンテーション(+4.9% / +1.5%)の両方のタスクにおける注意欠陥の問題に対処している。
DiPFormer は KITTI (97.57% Fスコア、68.74% mIoU on KITTI-360) と Cityscapes (83.4% mIoU) のデータセットで最先端のパフォーマンスを達成した。
RGB-D has gradually become a crucial data source for understanding complex scenes in assisted driving. However, existing studies have paid insufficient attention to the intrinsic spatial properties of depth maps. This oversight significantly impacts the attention representation, leading to prediction errors caused by attention shift issues. To this end, we propose a novel learnable Depth interaction Pyramid Transformer (DiPFormer) to explore the effectiveness of depth. Firstly, we introduce Depth Spatial-Aware Optimization (Depth SAO) as offset to represent real-world spatial relationships. Secondly, the similarity in the feature space of RGB-D is learned by Depth Linear Cross-Attention (Depth LCA) to clarify spatial differences at the pixel level. Finally, an MLP Decoder is utilized to effectively fuse multi-scale features for meeting real-time requirements. Comprehensive experiments demonstrate that the proposed DiPFormer significantly addresses the issue of attention misalignment in both road detection (+7.5%) and semantic segmentation (+4.9% / +1.5%) tasks. DiPFormer achieves state-of-the-art performance on the KITTI (97.57% F-score on KITTI road and 68.74% mIoU on KITTI-360) and Cityscapes (83.4% mIoU) datasets. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# マルチセンターサーベイデータに基づく痛み強度変化のプライバシ保存フェデレーション予測
Privacy-preserving federated prediction of pain intensity change based on multi-center survey data ( http://arxiv.org/abs/2409.07997v1 ) ライセンス: Link先を確認 | Supratim Das, Mahdie Rafie, Paula Kammer, Søren T. Skou, Dorte T. Grønne, Ewa M. Roos, André Hajek, Hans-Helmut König, Md Shihab Ullaha, Niklas Probul, Jan Baumbacha, Linda Baumbach, | (参考訳) 背景: 患者報告調査データを用いて, 医療改善を目的とした予後モデルを訓練する。
しかし、そのようなデータは一般的にマルチ中心で利用可能であり、プライバシー上の理由から、単一のデータリポジトリに簡単に集中することはできない。
局所的に訓練されたモデルは、正確でなく、堅牢で、一般化可能である。
我々は,地域調査データが医療センターの法的に安全な港を決して残さない,予後モデル構築のためのプライバシ保護フェデレーション機械学習手法を提示し,適用する。
方法: デンマークの5つの保健地域から得られたGLA:Dデータと27カ国の国際SHAREデータを用いて, 2つの異なる健康結果を予測する。
我々は、局所データに基づいて訓練された線形回帰、ランダムな森林回帰、ランダムな森林分類モデルと、中央集権的および連合的な方法で訓練されたデータ全体を比較した。
結果: GLA:Dデータ, 連合線形回帰(R2 0.34, RMSE 18.2)および連合ランダム森林回帰(R2 0.34, RMSE 18.3)モデルは, 統計的に有意な局部回帰(R2 0.32, RMSE 18.6, R2 0.30, RMSE 18.8)を上回った。
また, 集中型モデル (R2 0.34, RMSE 18.2, R2 0.32, RMSE 18.5) は, 連合型モデルよりも性能が良くないことがわかった。
SHAREでは、連合モデル(AC 0.78, AUROC: 0.71)と集中モデル(AC 0.84, AUROC: 0.66)は、局所モデル(AC 0.74, AUROC: 0.69)よりも大幅に優れている。
結論: フェデレートされた学習は、プライバシを損なうことなく、モデルパフォーマンスに関する最小限の妥協なしに、マルチセンタの調査から予測モデルをトレーニングすることを可能にする。
Background: Patient-reported survey data are used to train prognostic models aimed at improving healthcare. However, such data are typically available multi-centric and, for privacy reasons, cannot easily be centralized in one data repository. Models trained locally are less accurate, robust, and generalizable. We present and apply privacy-preserving federated machine learning techniques for prognostic model building, where local survey data never leaves the legally safe harbors of the medical centers. Methods: We used centralized, local, and federated learning techniques on two healthcare datasets (GLA:D data from the five health regions of Denmark and international SHARE data of 27 countries) to predict two different health outcomes. We compared linear regression, random forest regression, and random forest classification models trained on local data with those trained on the entire data in a centralized and in a federated fashion. Results: In GLA:D data, federated linear regression (R2 0.34, RMSE 18.2) and federated random forest regression (R2 0.34, RMSE 18.3) models outperform their local counterparts (i.e., R2 0.32, RMSE 18.6, R2 0.30, RMSE 18.8) with statistical significance. We also found that centralized models (R2 0.34, RMSE 18.2, R2 0.32, RMSE 18.5, respectively) did not perform significantly better than the federated models. In SHARE, the federated model (AC 0.78, AUROC: 0.71) and centralized model (AC 0.84, AUROC: 0.66) perform significantly better than the local models (AC: 0.74, AUROC: 0.69). Conclusion: Federated learning enables the training of prognostic models from multi-center surveys without compromising privacy and with only minimal or no compromise regarding model performance. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# OCTAMAMba: 精密OCTA真空セグメンテーションのための状態空間モデルアプローチ
OCTAMamba: A State-Space Model Approach for Precision OCTA Vasculature Segmentation ( http://arxiv.org/abs/2409.08000v1 ) ライセンス: Link先を確認 | Shun Zou, Zhuo Zhang, Guangwei Gao, | (参考訳) 光コヒーレンス・トモグラフィー(OCTA)は、糖尿病網膜症や緑内障などの眼疾患を可視化し、診断するための重要な画像技術である。
しかし,マルチスケールの血管構造や画像品質の低下,眼の病変などのノイズが原因で,OCTA血管の正確な分画は依然として困難である。
本研究では,OCTAにおける血管の分断を正確に行うために,マンバアーキテクチャに基づく新しいU字型ネットワークであるOCTAMAMbaを提案する。
OCTAMambaは、局所的な特徴抽出のためのQuad Stream Efficient Mining Embedding Module、マルチスケールDilated Asymmetric Convolution ModuleをキャプチャするMulti-Scale Dilated Convolution Module、ノイズをフィルタリングしターゲット領域をハイライトするFocused Feature Recalibration Moduleを統合している。
本手法は,線形複雑度を維持しつつ,効率的なグローバルモデリングと局所特徴抽出を実現し,低計算医療応用に適している。
OCTA 3M、OCTA 6M、ROSSAデータセットの大規模な実験により、OCTAMAMbaは最先端の手法よりも優れており、効率的なOCTAセグメンテーションのための新しい参照を提供することを示した。
コードはhttps://github.com/zs1314/OCTAMambaで入手できる。
Optical Coherence Tomography Angiography (OCTA) is a crucial imaging technique for visualizing retinal vasculature and diagnosing eye diseases such as diabetic retinopathy and glaucoma. However, precise segmentation of OCTA vasculature remains challenging due to the multi-scale vessel structures and noise from poor image quality and eye lesions. In this study, we proposed OCTAMamba, a novel U-shaped network based on the Mamba architecture, designed to segment vasculature in OCTA accurately. OCTAMamba integrates a Quad Stream Efficient Mining Embedding Module for local feature extraction, a Multi-Scale Dilated Asymmetric Convolution Module to capture multi-scale vasculature, and a Focused Feature Recalibration Module to filter noise and highlight target areas. Our method achieves efficient global modeling and local feature extraction while maintaining linear complexity, making it suitable for low-computation medical applications. Extensive experiments on the OCTA 3M, OCTA 6M, and ROSSA datasets demonstrated that OCTAMamba outperforms state-of-the-art methods, providing a new reference for efficient OCTA segmentation. Code is available at https://github.com/zs1314/OCTAMamba | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# EUにおけるAIベースの医療機器の規制準拠ライフサイクルに向けて:産業的視点
Towards regulatory compliant lifecycle for AI-based medical devices in EU: Industry perspectives ( http://arxiv.org/abs/2409.08006v1 ) ライセンス: Link先を確認 | Tuomas Granlund, Vlad Stirbu, Tommi Mikkonen, | (参考訳) AIを利用した医療機器が医療に革命をもたらす可能性は非常に高いが、ライフクリティカルなアプリケーションにおける安全性に関する懸念は依然として残っている。
欧州の規制フレームワークは、医療機器ソフトウェア開発に対する包括的なアプローチを提供するが、AI固有の考慮事項に対処するには不十分である。
本稿では、AI対応医療システムに関連する規制活動により、AIライフサイクルの一般的な考え方を拡張することにより、このギャップを埋めるモデルを提案する。
Despite the immense potential of AI-powered medical devices to revolutionize healthcare, concerns regarding their safety in life-critical applications remain. While the European regulatory framework provides a comprehensive approach to medical device software development, it falls short in addressing AI-specific considerations. This article proposes a model to bridge this gap by extending the general idea of AI lifecycle with regulatory activities relevant to AI-enabled medical systems. | 翻訳日:2024-09-13 16:39:03 公開日:2024-09-12 |
# ソフトネガティティブを用いた多重グラフコントラスト学習
Multiplex Graph Contrastive Learning with Soft Negatives ( http://arxiv.org/abs/2409.08010v1 ) ライセンス: Link先を確認 | Zhenhao Zhao, Minhong Zhu, Chen Wang, Sijia Wang, Jiqiang Zhang, Li Chen, Weiran Cai, | (参考訳) グラフコントラスト学習(GCL)は、グラフ構造化データから最大一貫した情報を含む結節やグラフ表現を学習することを目指している。
ノードレベルのコントラストモードが支配的だが、いくつかの取り組みは異なるスケールで一貫性を探究する。
しかし、一貫性のある情報を失い、乱れた特徴によって汚染される傾向がある。
本稿では,MUX-GCLを提案する。MUX-GCLは,マルチプレックス表現を効果的なパッチとして利用する,クロススケールなコントラスト学習パラダイムである。
この学習モードは汚染ノイズを最小限に抑えるが、位置親和性を用いたコンメンシュレートコントラスト戦略は、スケールをまたいだ偽陰対を補正することにより、情報損失をさらに回避する。
大規模な下流実験では、MUX-GCLがパブリックデータセット上で複数の最先端結果をもたらすことが示されている。
我々の理論解析は、このパラダイムを合理化する原入力特徴と出力埋め込みの相互情報の厳密な下限として、新たな目的関数をさらに保証している。
コードはhttps://github.com/MUX-GCL/Codeで入手できる。
Graph Contrastive Learning (GCL) seeks to learn nodal or graph representations that contain maximal consistent information from graph-structured data. While node-level contrasting modes are dominating, some efforts commence to explore consistency across different scales. Yet, they tend to lose consistent information and be contaminated by disturbing features. Here, we introduce MUX-GCL, a novel cross-scale contrastive learning paradigm that utilizes multiplex representations as effective patches. While this learning mode minimizes contaminating noises, a commensurate contrasting strategy using positional affinities further avoids information loss by correcting false negative pairs across scales. Extensive downstream experiments demonstrate that MUX-GCL yields multiple state-of-the-art results on public datasets. Our theoretical analysis further guarantees the new objective function as a stricter lower bound of mutual information of raw input features and output embeddings, which rationalizes this paradigm. Code is available at https://github.com/MUX-GCL/Code. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 逆デモによる因果不変リワード関数の学習
Learning Causally Invariant Reward Functions from Diverse Demonstrations ( http://arxiv.org/abs/2409.08012v1 ) ライセンス: Link先を確認 | Ivan Ovinnikov, Eugene Bykovets, Joachim M. Buhmann, | (参考訳) 逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
このような実験の共通部分の不足と異種源は、学習された報酬関数によるデータ内の急激な相関の吸収につながる可能性がある。
この適応は、環境力学の分布シフトにおいて、得られた報酬関数に基づいてポリシーを訓練する際、専門家データセットに振る舞い過度に適合することが多い。
本研究では,報酬関数の一般化向上を目的とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
この正規化を学習課題の正確な定式化と近似式化の両方に適用することにより、移行設定における報酬関数の学習時に優れた政策性能を示す。
Inverse reinforcement learning methods aim to retrieve the reward function of a Markov decision process based on a dataset of expert demonstrations. The commonplace scarcity and heterogeneous sources of such demonstrations can lead to the absorption of spurious correlations in the data by the learned reward function. Consequently, this adaptation often exhibits behavioural overfitting to the expert data set when a policy is trained on the obtained reward function under distribution shift of the environment dynamics. In this work, we explore a novel regularization approach for inverse reinforcement learning methods based on the causal invariance principle with the goal of improved reward function generalization. By applying this regularization to both exact and approximate formulations of the learning task, we demonstrate superior policy performance when trained using the recovered reward functions in a transfer setting | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 量子ハッキング: 実用的な連続可変量子鍵分配システムに対する誘導光屈折攻撃
Quantum hacking: Induced-photorefraction attack on a practical continuous-variable quantum key distribution system ( http://arxiv.org/abs/2409.08017v1 ) ライセンス: Link先を確認 | Yiliang Wang, Yi Zheng, Chenlei Fang, Haobin Shi, Wei Pan, | (参考訳) ニオブ酸リチウム系(LN系)変調器のフォトリフラクティブ効果により開放される実用連続可変量子鍵分布(CVQKD)システムにおいて,新しいセキュリティの抜け穴を探索する。
この抜け穴を利用して、古典的なインターセプション・リセプト攻撃を隠すためにLN変調器の誘導光屈折を利用した量子ハッキング戦略、すなわち誘導光反射攻撃を提案する。
具体的には、誘導光屈折は、変調信号の強度に影響を与えるLN変調器の応答曲線をバイアスすることができることを示す。
以上の影響下でのチャネルパラメータ推定の検討に基づいて,実用CVQKDシステムの秘密鍵レートを更に解析する。
シミュレーションの結果、通信相手は秘密鍵レートを過大評価し、これはEveが誘導光屈折攻撃を起動することで、上記抜け穴を積極的に開き、秘密鍵情報を得ることができることを示している。
この攻撃を防ぎつつ、ランダムな監視手法を用いて変化を変調し、この攻撃を検知し、改良された光パワーリミッタを用いて放射線ビームを効果的に緩和することができる。
これらの対策とは別に,サニャックをベースとしたIMを用いた実用CVQKDシステムの安定化も提案する。
We explore a new security loophole in a practical continuous-variable quantum key distribution (CVQKD) system, which is opened by the photorefractive effect of lithium niobate-based (LN-based) modulators. By exploiting this loophole, we propose a quantum hacking strategy, i.e., the induced-photorefraction attack, which utilizes the induced photorefraction on the LN-based modulators to hide the classical intercept-resend attack. Specifically, we show that the induced photorefraction can bias the response curve of the LN-based modulator, which will affect the intensity of the modulated signal. Based on the investigation of the channel parameter estimation under above influence, we further analyze the secret key rate of the practical CVQKD system. The simulation results indicate that the communication parties will overestimate the secret key rate, which reveals that Eve can actively open the above loophole by launching the induced-photorefraction attack to successfully obtain the secret key information. To defend against this attack, we can use a random monitoring scheme for modulation variance to determine this attack, and use an improving optical power limiter to effectively mitigate the irradiation beam. Apart from these countermeasures, we also propose using the Sagnac-based IM to stabilize the practical CVQKD system, which can minimize the above effects. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# マルチビュー特徴融合によるネットワーク異常交通検出
Network Anomaly Traffic Detection via Multi-view Feature Fusion ( http://arxiv.org/abs/2409.08020v1 ) ライセンス: Link先を確認 | Song Hao, Wentao Fu, Xuanze Chen, Chengxiang Jin, Jiajun Zhou, Shanqing Yu, Qi Xuan, | (参考訳) 従来の異常なトラフィック検出手法はシングルビュー解析に基づいており、複雑な攻撃や暗号化通信を扱う際に明らかな制限がある。
そこで本研究では,ネットワーク異常トラフィック検出のためのマルチビュー特徴フュージョン(MuFF)手法を提案する。
MuFFは、時間的および対話的な視点に基づいて、ネットワークトラフィックにおけるパケットの時間的および対話的な関係をモデル化する。
時間的およびインタラクティブな特徴を学習する。
これらの特徴は、異常なトラフィック検出のための異なる視点から融合される。
6つの実トラフィックデータセットに対する大規模な実験により、MuFFはネットワーク異常なトラフィック検出において優れた性能を示し、単一の視点での検出の欠点を補っている。
Traditional anomalous traffic detection methods are based on single-view analysis, which has obvious limitations in dealing with complex attacks and encrypted communications. In this regard, we propose a Multi-view Feature Fusion (MuFF) method for network anomaly traffic detection. MuFF models the temporal and interactive relationships of packets in network traffic based on the temporal and interactive viewpoints respectively. It learns temporal and interactive features. These features are then fused from different perspectives for anomaly traffic detection. Extensive experiments on six real traffic datasets show that MuFF has excellent performance in network anomalous traffic detection, which makes up for the shortcomings of detection under a single perspective. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# エッジワイズグラフ命令型ニューラルネットワーク
Edge-Wise Graph-Instructed Neural Networks ( http://arxiv.org/abs/2409.08023v1 ) ライセンス: Link先を確認 | Francesco Della Santa, Antonio Mastropietro, Sandra Pieraccini, Francesco Vaccarino, | (参考訳) グラフノード上のマルチタスク回帰の問題は、メッセージパスグラフニューラルネットワークのサブセットに属する有望なアーキテクチャであるGraph-Instructed Neural Network (GINN)を通じて最近アプローチされている。
本稿では,グラフ命令GI(Graph-Instructed, Graph-Instructed, Graph-Instructed, GI)層の限界について論じ,新しいエッジワイドGI(EWGI)層を定式化する。
我々は、EWGI層の利点について議論し、EWGINNが、エルドス-R'enyiグラフから推定されるようなカオス接続を持つグラフ構造化入力データに対して、GINNよりも優れた性能を示す数値的な証拠を提供する。
The problem of multi-task regression over graph nodes has been recently approached through Graph-Instructed Neural Network (GINN), which is a promising architecture belonging to the subset of message-passing graph neural networks. In this work, we discuss the limitations of the Graph-Instructed (GI) layer, and we formalize a novel edge-wise GI (EWGI) layer. We discuss the advantages of the EWGI layer and we provide numerical evidence that EWGINNs perform better than GINNs over graph-structured input data with chaotic connectivity, like the ones inferred from the Erdos-R\'enyi graph. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 1xN DWDMチャネル選択量子周波数変換
1xN DWDM channel selective quantum frequency conversion ( http://arxiv.org/abs/2409.08025v1 ) ライセンス: Link先を確認 | Tomoaki Arizono, Toshiki Kobayashi, Shigehito Miki, Hirotaka Terai, Tsuyoshi Kodama, Hideki Shimoi, Takashi Yamamoto, Rikizo Ikuta, | (参考訳) DWDM(Dense Wavelength Division Multiplexing)は、高容量かつフレキシブルな量子通信ネットワークを実現するための鍵となる技術である。
さらに、量子インターネットの実現のためには、光ファイバーネットワーク上で異なる量子システムをブリッジするためにも、量子周波数変換が不可欠である。
本研究では、複数のDWDMチャネルから変換された光子の周波数をアクティブに選択できるチャネル選択型量子周波数変換(CS-QFC)を実証する。
CS-QFCシステムの2.5Hz帯域幅は、単一の量子システムから100chのDWDMダイナミックリンクを確立する能力を示している。
量子ネットワークの多様性を高めることを約束する。
Dense Wavelength Division Multiplexing (DWDM) is a key technology for realizing high-capacity and flexible quantum communication networks. In addition, to realize the emerging quantum internet, quantum frequency conversion is also essential for bridging different quantum systems over optical fiber networks. In this work, we demonstrate a channel-selective quantum frequency conversion (CS-QFC), which allows active selection of the frequency of the converted photon from multiple DWDM channels. The 2.5 THz bandwidth of our CS-QFC system shows the ability to establish a 100-ch DWDM dynamic link from a single quantum system. It promises to increase the diversity of the quantum network. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 無訓練テキスト・画像生成のためのスクリブル誘導拡散
Scribble-Guided Diffusion for Training-free Text-to-Image Generation ( http://arxiv.org/abs/2409.08026v1 ) ライセンス: Link先を確認 | Seonho Lee, Jiho Choi, Seohyun Lim, Jiwook Kim, Hyunjung Shim, | (参考訳) 近年のテキスト・画像拡散モデルの進歩は目覚ましい成功を収めているが、ユーザの意図を完全に捉えるのに苦労することが多い。
テキスト入力と境界ボックスや領域マスクを組み合わせた既存のアプローチは、正確な空間的ガイダンスを提供するには不十分であり、しばしば不整合または意図しないオブジェクト指向をもたらす。
これらの制約に対処するために、簡単なユーザが提供するスクリブルを視覚的プロンプトとして利用し、画像生成を誘導するトレーニングフリーなアプローチであるScribble-Guided Diffusion (ScribbleDiff)を提案する。
しかし、拡散モデルにスクリブルを組み込むことは、そのスパースで薄い性質のために困難を呈し、正確な配向を確実にすることは困難である。
これらの課題を克服するために、モーメントアライメントとスクリブル伝搬を導入し、生成された画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
PASCAL-Scribbleデータセットの実験結果は空間制御と整合性に大きな改善を示し,拡散モデルにおけるスクリブルに基づくガイダンスの有効性を示した。
私たちのコードはhttps://github.com/kaist-cvml-lab/scribble-diffusion.comで公開されています。
Recent advancements in text-to-image diffusion models have demonstrated remarkable success, yet they often struggle to fully capture the user's intent. Existing approaches using textual inputs combined with bounding boxes or region masks fall short in providing precise spatial guidance, often leading to misaligned or unintended object orientation. To address these limitations, we propose Scribble-Guided Diffusion (ScribbleDiff), a training-free approach that utilizes simple user-provided scribbles as visual prompts to guide image generation. However, incorporating scribbles into diffusion models presents challenges due to their sparse and thin nature, making it difficult to ensure accurate orientation alignment. To overcome these challenges, we introduce moment alignment and scribble propagation, which allow for more effective and flexible alignment between generated images and scribble inputs. Experimental results on the PASCAL-Scribble dataset demonstrate significant improvements in spatial control and consistency, showcasing the effectiveness of scribble-based guidance in diffusion models. Our code is available at https://github.com/kaist-cvml-lab/scribble-diffusion. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 説明から行動へ:学生のパフォーマンスフィードバックのためのゼロショット理論駆動型LLMフレームワーク
From Explanations to Action: A Zero-Shot, Theory-Driven LLM Framework for Student Performance Feedback ( http://arxiv.org/abs/2409.08027v1 ) ライセンス: Link先を確認 | Vinitra Swamy, Davide Romano, Bhargav Srinivasa Desikan, Oana-Maria Camburu, Tanja Käser, | (参考訳) 教育におけるeXplainable AI(XAI)の最近の進歩は、最先端のAIモデルの説明が、教育者や学生のような非技術ユーザにとって理解可能であることを保証するという、重要な課題を浮き彫りにした。
その結果,Millerの認知モデルにインスパイアされた,ゼロショット・チェーン・オブ・プロンプトのLLM-XAIパイプラインであるiLLuMinaTEを紹介した。
iLLuMinaTEは、オンラインコースの学生に理論駆動で行動可能なフィードバックを提供するように設計されている。
iLLuMinaTEは、因果関係、説明選択、説明提示の3つの主要なステージをナビゲートし、8つの社会科学理論(例:異常条件、パールの説明モデル、必要条件、ロバスト性選択、対照的説明)から派生している。
我々は3つのLLM(GPT-4o, Gemma2-9B, Llama3-70B)から抽出したiLLuMinateの自然言語説明を,3つの異なるXAI手法(LIME, Counterfactuals, MC-LIME)を用いて広範囲に評価した。
本評価では,新しい行動可能性シミュレーションを含む114人の大学生を対象に,社会科学理論における説明の整合性,説明の理解可能性,および実世界のユーザ嗜好調査について検討した。
従来の説明書の89.52%よりもiLLuMinateの説明の方が学生の方が好まれていることがわかった。
我々の研究は、教育におけるハイブリッドXAI駆動の洞察を効果的に伝達するための、堅牢で使いやすいフレームワークを提供し、他の人間中心の分野にも大きな一般化の可能性を秘めている。
Recent advances in eXplainable AI (XAI) for education have highlighted a critical challenge: ensuring that explanations for state-of-the-art AI models are understandable for non-technical users such as educators and students. In response, we introduce iLLuMinaTE, a zero-shot, chain-of-prompts LLM-XAI pipeline inspired by Miller's cognitive model of explanation. iLLuMinaTE is designed to deliver theory-driven, actionable feedback to students in online courses. iLLuMinaTE navigates three main stages - causal connection, explanation selection, and explanation presentation - with variations drawing from eight social science theories (e.g. Abnormal Conditions, Pearl's Model of Explanation, Necessity and Robustness Selection, Contrastive Explanation). We extensively evaluate 21,915 natural language explanations of iLLuMinaTE extracted from three LLMs (GPT-4o, Gemma2-9B, Llama3-70B), with three different underlying XAI methods (LIME, Counterfactuals, MC-LIME), across students from three diverse online courses. Our evaluation involves analyses of explanation alignment to the social science theory, understandability of the explanation, and a real-world user preference study with 114 university students containing a novel actionability simulation. We find that students prefer iLLuMinaTE explanations over traditional explainers 89.52% of the time. Our work provides a robust, ready-to-use framework for effectively communicating hybrid XAI-driven insights in education, with significant generalization potential for other human-centric fields. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# LED:夜間の光深度推定
LED: Light Enhanced Depth Estimation at Night ( http://arxiv.org/abs/2409.08031v1 ) ライセンス: Link先を確認 | Simon de Moreau, Yasser Almehio, Andrei Bursuc, Hafid El-Idrissi, Bogdan Stanciulescu, Fabien Moutarde, | (参考訳) 夜間カメラによる深度推定は、特に安全なナビゲーションを確保するために正確な深度認識が不可欠である自律運転アプリケーションにおいて、非常に困難な作業である。
夜間における知覚システムの信頼性向上を目指しており、日中のデータで訓練されたモデルは、正確なLiDARセンサーがなければ、しばしば失敗する。
本研究は,高精細ヘッドライトによって投影されるパターンを活用することで,低照度環境における奥行き推定を大幅に改善する,新しいコスト効率のアプローチであるLight Enhanced Depth(LED)を紹介する。
LEDは、複数の深度推定アーキテクチャ(エンコーダ-デコーダ、Adabins、DepthFormer)において、合成データセットと実際のデータセットの両方において、大幅なパフォーマンス向上をもたらします。
さらに,照明領域を越えた性能向上は,シーン理解の全体的向上を示す。
最後に、我々はNighttime Synthetic Drive Datasetをリリースした。Nighttime Synthetic Drive Datasetは、49,990の注釈付き画像からなる、新しい合成的で写真リアルなナイトタイムデータセットである。
Nighttime camera-based depth estimation is a highly challenging task, especially for autonomous driving applications, where accurate depth perception is essential for ensuring safe navigation. We aim to improve the reliability of perception systems at night time, where models trained on daytime data often fail in the absence of precise but costly LiDAR sensors. In this work, we introduce Light Enhanced Depth (LED), a novel cost-effective approach that significantly improves depth estimation in low-light environments by harnessing a pattern projected by high definition headlights available in modern vehicles. LED leads to significant performance boosts across multiple depth-estimation architectures (encoder-decoder, Adabins, DepthFormer) both on synthetic and real datasets. Furthermore, increased performances beyond illuminated areas reveal a holistic enhancement in scene understanding. Finally, we release the Nighttime Synthetic Drive Dataset, a new synthetic and photo-realistic nighttime dataset, which comprises 49,990 comprehensively annotated images. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 連続ラベル付き非ガウス測定による準最適コヒーレント状態判別
Near-optimal coherent state discrimination via continuously labelled non-Gaussian measurements ( http://arxiv.org/abs/2409.08032v1 ) ライセンス: Link先を確認 | James Moran, Spiros Kechrimparis, Hyukjoon Kwon, | (参考訳) 量子状態の識別は、量子情報と通信において中心的な役割を果たす。
光量子状態の識別には、離散的な結果を生み出す光子検出と連続的な結果をもたらすホモダイン検出の2つの方法が広く採用されている。
光子検出を用いた様々なプロトコルが2つのコヒーレント状態間の最適および準最適識別のために提案されているが、ホモダイン検出は高いエラー率を持つことが知られており、その性能はしばしばガウス極限と呼ばれる。
本研究では, 離散ラベル付と連続ラベル付の測定値の基本的な違いにもかかわらず, 連続ラベル付の非ガウス測度は, ほぼ最適コヒーレントな状態判別も達成できることを示した。
我々は,非ガウスユニタリ演算とホモダイン検出と直交多項式を組み合わせた2つのコヒーレントな状態識別プロトコルを,ガウス極限を超越して明示的に設計する。
その結果,光子検出は準最適コヒーレント状態判別には必須ではなく,低エネルギーでのヘルストローム境界付近での誤差率を連続ラベル付き測定で達成できることが示唆された。
また、この方式は光子検出に基づくケネディ受信機よりも、ある程度のコヒーレントな状態振幅に対して有利であることがわかった。
Quantum state discrimination plays a central role in quantum information and communication. For the discrimination of optical quantum states, the two most widely adopted measurement techniques are photon detection, which produces discrete outcomes, and homodyne detection, which produces continuous outcomes. While various protocols using photon detection have been proposed for optimal and near-optimal discrimination between two coherent states, homodyne detection is known to have higher error rates, with its performance often referred to as the Gaussian limit. In this work, we demonstrate that, despite the fundamental differences between discretely labelled and continuously labelled measurements, continuously labelled non-Gaussian measurements can also achieve near-optimal coherent state discrimination. We explicitly design two coherent state discrimination protocols based on non-Gaussian unitary operations combined with homodyne detection and orthogonal polynomials, which surpass the Gaussian limit. Our results show that photon detection is not required for near-optimal coherent state discrimination and that we can achieve error rates close to the Helstrom bound at low energies with continuously labelled measurements. We also find that our schemes maintain an advantage over the photon detection-based Kennedy receiver for a moderate range of coherent state amplitudes. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 不均一せん断ニューラルネットワーク
Heterogeneous Sheaf Neural Networks ( http://arxiv.org/abs/2409.08036v1 ) ライセンス: Link先を確認 | Luke Braithwaite, Iulia Duta, Pietro Liò, | (参考訳) 異なるタイプのノードとエッジを持つ不均一グラフは、多くの実世界のアプリケーションでリレーショナル構造をモデル化するために一般的に使用される。
標準グラフニューラルネットワーク(GNN)は、過剰なスムーシングによる異種データ処理に苦慮している。
代わりに、現在のアプローチでは、モデルアーキテクチャの不均一性を考慮することに重点を置いている。
最近の研究に触発されて、我々はセルラーシーブを用いて、グラフの基盤となるトポロジーの不均一性をモデル化する。
データをグラフとしてモデル化するのではなく、セルラーシーブとして表現することで、さまざまなデータ型をデータ構造に直接エンコードし、アーキテクチャに注入する必要がなくなるのです。
HetSheafは、ヘテロジニアス層ニューラルネットワークの一般的なフレームワークであり、ヘテロジニアス層予測器のシリーズを導入し、データのヘテロジニアスをシーフ構造にエンコードする。
最後に、HetSheafをいくつかの標準不均一グラフベンチマークで実証的に評価し、よりパラメータ効率の良い競合結果を得る。
Heterogeneous graphs, with nodes and edges of different types, are commonly used to model relational structures in many real-world applications. Standard Graph Neural Networks (GNNs) struggle to process heterogeneous data due to oversmoothing. Instead, current approaches have focused on accounting for the heterogeneity in the model architecture, leading to increasingly complex models. Inspired by recent work, we propose using cellular sheaves to model the heterogeneity in the graph's underlying topology. Instead of modelling the data as a graph, we represent it as cellular sheaves, which allows us to encode the different data types directly in the data structure, eliminating the need to inject them into the architecture. We introduce HetSheaf, a general framework for heterogeneous sheaf neural networks, and a series of heterogeneous sheaf predictors to better encode the data's heterogeneity into the sheaf structure. Finally, we empirically evaluate HetSheaf on several standard heterogeneous graph benchmarks, achieving competitive results whilst being more parameter-efficient. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# スケーラブルな量子キー分散を目指して - 機械学習ベースのカスケードプロトコルアプローチ
Towards Scalable Quantum Key Distribution: A Machine Learning-Based Cascade Protocol Approach ( http://arxiv.org/abs/2409.08038v1 ) ライセンス: Link先を確認 | Hasan Abbas Al-Mohammed, Saif Al-Kuwari, Hashir Kuniyil, Ahmed Farouk, | (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、セキュアな通信のための重要な技術であり、堅牢なデータ保護を確保するために量子力学の力を利用する。
しかし、高速で現実世界のアプリケーションのニーズを満たすためにQKDをスケールすることは、依然として大きな課題である。
複雑な数学的モデルに依存する伝統的な鍵レート決定法は、しばしば効率と拡張性に欠ける。
本稿では,機械学習(ML)技術をカスケード誤り訂正プロトコルに統合し,QKDシステムのスケーラビリティと効率を向上させる手法を提案する。
我々のMLベースのアプローチでは、オートエンコーダフレームワークを使用してQuantum Bit Error Rate (QBER) と最後のキー長を99%以上精度で予測する。
この方法は、データレートが最大156Mbpsであるような大きな入力サイズであっても、一貫して低い計算時間を保ち、エラー訂正時間を著しく短縮する。
対照的に、従来の手法では、入力サイズが大きくなるにつれて計算時間が指数関数的に増加し、MLベースのソリューションの優れたスケーラビリティが強調される。
総合シミュレーションにより,本手法は誤り訂正プロセスの高速化だけでなく,資源利用の最適化も図っている。
Cascadeプロトコルの統合により、リアルタイムQBER観測に基づいてエラー修正を動的に調整し、潜在的盗聴に対する堅牢な保護を提供することにより、システムのセキュリティをさらに強化する。
我々の研究は、スケーラブルで高スループットのQKDシステムのための新しいベンチマークを確立し、機械学習が量子暗号の分野を著しく前進させることができることを証明した。
この研究は、真にスケーラブルな量子通信への進化を続けている。
Quantum Key Distribution (QKD) is a pivotal technology in the quest for secure communication, harnessing the power of quantum mechanics to ensure robust data protection. However, scaling QKD to meet the demands of high-speed, real-world applications remains a significant challenge. Traditional key rate determination methods, dependent on complex mathematical models, often fall short in efficiency and scalability. In this paper, we propose an approach that involves integrating machine learning (ML) techniques with the Cascade error correction protocol to enhance the scalability and efficiency of QKD systems. Our ML-based approach utilizes an autoencoder framework to predict the Quantum Bit Error Rate (QBER) and final key length with over 99\% accuracy. This method significantly reduces error correction time, maintaining a consistently low computation time even with large input sizes, such as data rates up to 156 Mbps. In contrast, traditional methods exhibit exponentially increasing computation times as input sizes grow, highlighting the superior scalability of our ML-based solution. Through comprehensive simulations, we demonstrate that our method not only accelerates the error correction process but also optimizes resource utilization, making it more cost-effective and practical for real-world deployment. The Cascade protocol's integration further enhances system security by dynamically adjusting error correction based on real-time QBER observations, providing robust protection against potential eavesdropping. Our research establishes a new benchmark for scalable, high-throughput QKD systems, proving that machine learning can significantly advance the field of quantum cryptography. This work continues the evolution towards truly scalable quantum communication. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# サーマル3D-GS: 熱赤外新規合成のための物理誘起3Dガウシアン
Thermal3D-GS: Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis ( http://arxiv.org/abs/2409.08042v1 ) ライセンス: Link先を確認 | Qian Chen, Shihao Shu, Xiangzhi Bai, | (参考訳) 可視光に基づく新しいビュー合成が広く研究されている。
可視光画像と比べ、熱赤外画像は全天候撮影と強い侵入の利点を提供し、夜間や悪天候のシナリオにおける再構築の可能性を高める。
しかし、熱赤外画像は、大気透過効果や熱伝導などの物理的特性の影響を受け、熱赤外シーンにおける複雑な詳細の正確な再構築を妨げ、合成画像におけるフローターの問題や不明瞭なエッジの特徴として現れている。
これらの制約に対処するため,本論文では,Material 3D-GSという物理誘導型3次元ガウススプラッティング法を提案する。
熱3D-GSは、ニューラルネットワークを用いて3次元媒体の大気透過効果と熱伝導をモデル化することから始まる。
また、熱赤外画像の再構成精度を高めるため、最適化目的に温度一貫性制約を組み込む。
さらに,本手法の有効性を検証するため,熱赤外ノベルビュー合成データセット (TI-NSD) を作成した。
このデータセットは、屋内、屋外、UAV(Unmanned Aerial Vehicle)のシナリオをカバーし、合計6,664フレームの熱赤外画像データからなる。
本論文は,本データセットに基づいて,サーマル3D-GSの有効性を実験的に検証する。
その結果,本手法はPSNRが3.03dB向上したベースライン法よりも優れており,フローターの問題や,ベースライン法に現れる不明瞭なエッジの特徴に大きく対処していることがわかった。
我々のデータセットとコードベースは \href{https://github.com/mzzcdf/Thermal3DGS}{\textcolor{red}{Thermal3DGS}} でリリースされます。
Novel-view synthesis based on visible light has been extensively studied. In comparison to visible light imaging, thermal infrared imaging offers the advantage of all-weather imaging and strong penetration, providing increased possibilities for reconstruction in nighttime and adverse weather scenarios. However, thermal infrared imaging is influenced by physical characteristics such as atmospheric transmission effects and thermal conduction, hindering the precise reconstruction of intricate details in thermal infrared scenes, manifesting as issues of floaters and indistinct edge features in synthesized images. To address these limitations, this paper introduces a physics-induced 3D Gaussian splatting method named Thermal3D-GS. Thermal3D-GS begins by modeling atmospheric transmission effects and thermal conduction in three-dimensional media using neural networks. Additionally, a temperature consistency constraint is incorporated into the optimization objective to enhance the reconstruction accuracy of thermal infrared images. Furthermore, to validate the effectiveness of our method, the first large-scale benchmark dataset for this field named Thermal Infrared Novel-view Synthesis Dataset (TI-NSD) is created. This dataset comprises 20 authentic thermal infrared video scenes, covering indoor, outdoor, and UAV(Unmanned Aerial Vehicle) scenarios, totaling 6,664 frames of thermal infrared image data. Based on this dataset, this paper experimentally verifies the effectiveness of Thermal3D-GS. The results indicate that our method outperforms the baseline method with a 3.03 dB improvement in PSNR and significantly addresses the issues of floaters and indistinct edge features present in the baseline method. Our dataset and codebase will be released in \href{https://github.com/mzzcdf/Thermal3DGS}{\textcolor{red}{Thermal3DGS}}. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 脱獄とデータ抽出:脱獄によるRAGによる大規模・深刻度推論に対する攻撃結果のエスカレート
Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking ( http://arxiv.org/abs/2409.08045v1 ) ライセンス: Link先を確認 | Stav Cohen, Ron Bitton, Ben Nassi, | (参考訳) 本稿では,攻撃者がGenAIモデルをジェイルブレイクする能力により,RAGベースのGenAIアプリケーションに対する攻撃結果を重大かつ大規模にエスカレートできることを示す。
論文の前半では、攻撃者がRAGメンバシップ推論攻撃やRAGエンティティ抽出攻撃をRAGドキュメント抽出攻撃にエスカレートできることを示し、既存の攻撃と比較してより深刻な結果をもたらすことを示した。
提案手法は,3つの抽出手法,5つの組込みアルゴリズムのタイプとサイズの影響,提供コンテキストのサイズ,およびGenAIエンジンを用いて評価した。
攻撃者は、Q&AチャットボットのRAGが使用するデータベースに格納されているデータの80%-99.8%を抽出できることを示す。
本論文の第2部では,攻撃者が1つのGenAIをベースとしたアプリケーションによるRAGデータ中毒攻撃の規模を拡大し,GenAIエコシステム全体を改善し,より大きな損害を被ることを示す。
これは、エコシステム内のコンピュータワームの連鎖反応を誘発する敵の自己複製プロンプトを作成し、影響を受ける各アプリケーションに対して悪意のあるアクティビティの実行を強制し、追加のアプリケーションのRAGを妥協させることによって行われる。
我々は、GenAIを利用した電子メールアシスタントのGenAIエコシステム内のユーザに関する機密データ抽出の連鎖を作成する際のワームの性能を評価し、ワームのパフォーマンスが、コンテキストのサイズ、使用する対向的な自己複製プロンプト、組込みアルゴリズムのタイプとサイズ、伝播中のホップの数によってどのように影響を受けるかを分析する。
最後に、RAGに基づく推論を保護し、トレードオフについて議論するためにガードレールをレビューし、分析する。
In this paper, we show that with the ability to jailbreak a GenAI model, attackers can escalate the outcome of attacks against RAG-based GenAI-powered applications in severity and scale. In the first part of the paper, we show that attackers can escalate RAG membership inference attacks and RAG entity extraction attacks to RAG documents extraction attacks, forcing a more severe outcome compared to existing attacks. We evaluate the results obtained from three extraction methods, the influence of the type and the size of five embeddings algorithms employed, the size of the provided context, and the GenAI engine. We show that attackers can extract 80%-99.8% of the data stored in the database used by the RAG of a Q&A chatbot. In the second part of the paper, we show that attackers can escalate the scale of RAG data poisoning attacks from compromising a single GenAI-powered application to compromising the entire GenAI ecosystem, forcing a greater scale of damage. This is done by crafting an adversarial self-replicating prompt that triggers a chain reaction of a computer worm within the ecosystem and forces each affected application to perform a malicious activity and compromise the RAG of additional applications. We evaluate the performance of the worm in creating a chain of confidential data extraction about users within a GenAI ecosystem of GenAI-powered email assistants and analyze how the performance of the worm is affected by the size of the context, the adversarial self-replicating prompt used, the type and size of the embeddings algorithm employed, and the number of hops in the propagation. Finally, we review and analyze guardrails to protect RAG-based inference and discuss the tradeoffs. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 量子コンピュータにおけるScully-Drühl型量子消去器の実証
Demonstration of Scully-Drühl-type quantum erasers on quantum computers ( http://arxiv.org/abs/2409.08053v1 ) ライセンス: Link先を確認 | Bo-Hung Chen, Dah-Wei Chiou, Hsiu-Chuan Hsu, | (参考訳) 本稿では,Scully-Dr\uhl型遅延チョイス量子消去器を真に実装した新しい量子回路を提案する。
IBM QuantumとIonQプロセッサで実施された実験では、干渉パターンの回復は、系統的なエラーがあるにもかかわらず、理論的な予測と密接に一致していることが示された。
この量子回路に基づくアプローチは、従来の光学実験よりも管理可能で多用途であり、消去の任意の調整を容易にし、真の遅延チョイス方式で真のランダム選択を可能にする。
IBM Quantumプラットフォームでは、遅延ゲートを使用してランダムな選択をさらに延期することで、後続効果を増幅することができる。
ゲート操作は時間的に順次実行されるため、信号キュービットが測定されるまでランダムな選択を一切行わないため、他の実験装置に存在する可能性のある後向き性に関する潜在的な哲学的な抜け穴は排除される。
注目すべきは、量子消去は遅延時間$\sim1\,\mu\text{s}$で達成されることだ。
We present a novel quantum circuit that genuinely implements the Scully-Dr\"uhl-type delayed-choice quantum eraser, where the two recorders of the which-way information directly interact with the signal qubit and remain spatially separated. Experiments conducted on IBM Quantum and IonQ processors demonstrate that the recovery of interference patterns, to varying degrees, aligns closely with theoretical predictions, despite the presence of systematic errors. This quantum circuit-based approach, more manageable and versatile than traditional optical experiments, facilitates arbitrary adjustment of the erasure and enables a true random choice in a genuine delayed-choice manner. On the IBM Quantum platform, delay gates can be employed to further defer the random choice, thereby amplifying the retrocausal effect. Since gate operations are executed sequentially in time, the system does not have any involvement of random choice until after the signal qubit has been measured, therefore eliminating any potential philosophical loopholes regarding retrocausality that might exist in other experimental setups. Remarkably, quantum erasure is achieved with delay times up to $\sim1\,\mu\text{s}$ without noticeable decoherence, a feat challenging to replicate in optical setups. | 翻訳日:2024-09-13 16:29:19 公開日:2024-09-12 |
# 機械学習によるナノ材料合成の予測と高速化
Predicting and Accelerating Nanomaterials Synthesis Using Machine Learning Featurization ( http://arxiv.org/abs/2409.08054v1 ) ライセンス: Link先を確認 | Christopher C. Price, Yansong Li, Guanyu Zhou, Rehan Younas, Spencer S. Zeng, Tim H. Scanlon, Jason M. Munro, Christopher L. Hinkle, | (参考訳) 材料合成と加工の複雑な条件の解決には、複数の特性のモードから収集された情報を分析する必要がある。
現在、定量的情報は手動のツールや直感と共に連続的に抽出され、プロセス最適化のフィードバックサイクルが制限されている。
我々は機械学習を用いて、その場反射高エネルギー電子回折(RHEED)データの特徴抽出を自動化・一般化し、専門家ラベル付きデータの小さなセット(\sim$10)で定量的に予測関係を確立する。
これらの関係の忠実性は、c面サファイア基板(0001)上の2つの目的の合成において、代表物質系(W_{1-x}V_xSe2$成長)で試験される。
1)成長前の基板表面データから成膜膜の粒配向を予測し,
2) in-situ RHEED を用いてバナジウム(V)ドーパント濃度を推定した(例えば、X線光電子分光法)。
どちらのタスクも、同じ素材の非依存のコア機能を使用して達成され、特定のシステムの再トレーニングを不要にし、100サンプル合成キャンペーンよりも80%の時間を節約できる可能性がある。
これらの予測は、未熟な試行を避けるためのレシピ調整のガイダンスを提供し、後続のキャラクタリゼーションを減らし、材料合成の制御精度を改善し、最終的に材料発見と商業的スケールアップを加速させる。
Solving for the complex conditions of materials synthesis and processing requires analyzing information gathered from multiple modes of characterization. Currently, quantitative information is extracted serially with manual tools and intuition, constraining the feedback cycle for process optimization. We use machine learning to automate and generalize feature extraction for in-situ reflection high-energy electron diffraction (RHEED) data to establish quantitatively predictive relationships in small sets ($\sim$10) of expert-labeled data, and apply these to save significant time on subsequent epitaxially grown samples. The fidelity of these relationships is tested on a representative material system ($W_{1-x}V_xSe2$ growth on c-plane sapphire substrate (0001)) at two stages of synthesis with two aims: 1) predicting the grain alignment of the deposited film from the pre-growth substrate surface data, and 2) estimating the vanadium (V) dopant concentration using in-situ RHEED as a proxy for ex-situ methods (e.g. x-ray photoelectron spectroscopy). Both tasks are accomplished using the same set of materials agnostic core features, eliminating the need to retrain for specific systems and leading to a potential 80\% time saving over a 100 sample synthesis campaign. These predictions provide guidance for recipe adjustments to avoid doomed trials, reduce follow-on characterization, and improve control resolution for materials synthesis, ultimately accelerating materials discovery and commercial scale-up. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# ニューラル・ラジアンス・フィールドのための拡張的スーパービジョン
Expansive Supervision for Neural Radiance Field ( http://arxiv.org/abs/2409.08056v1 ) ライセンス: Link先を確認 | Weixiang Zhang, Shuzhao Xie, Shijia Ge, Wei Yao, Chen Tang, Zhi Wang, | (参考訳) ニューラル・ラジアンス・フィールズ(Neural Radiance Fields)は、強力な3Dメディア表現を、例外的な再構成能力で実現した。
しかし、ボリュームレンダリングの計算要求は、モデルトレーニングにおいて大きな課題を生んでいる。
既存のアクセラレーション技術は、しばしばモデルアーキテクチャの再設計を伴い、異なるフレームワーク間の互換性が制限される。
さらに、これらの手法はメモリコストを大幅に上回る傾向にある。
これらの課題に対応するため、我々は、ニューラルネットワーク分野のトレーニングにおいて、計算負荷、レンダリング品質、柔軟性を効率的にバランスさせる拡張的な監視機構を導入する。
このメカニズムは、小さなが重要なピクセルのサブセットを選択的にレンダリングし、その値を拡張して各イテレーションの領域全体にわたって誤差を見積もることによって機能する。
従来の監視手法と比較して、冗長なレンダリング処理を効果的に回避し、時間とメモリ消費の両方において顕著な削減をもたらす。
実験により、既存の最先端アクセラレーションフレームワークに広範囲の監視を組み込むことで、69%のメモリ節約と42%の時間節約を達成でき、視覚的品質を損なうことが実証された。
Neural Radiance Fields have achieved success in creating powerful 3D media representations with their exceptional reconstruction capabilities. However, the computational demands of volume rendering pose significant challenges during model training. Existing acceleration techniques often involve redesigning the model architecture, leading to limitations in compatibility across different frameworks. Furthermore, these methods tend to overlook the substantial memory costs incurred. In response to these challenges, we introduce an expansive supervision mechanism that efficiently balances computational load, rendering quality and flexibility for neural radiance field training. This mechanism operates by selectively rendering a small but crucial subset of pixels and expanding their values to estimate the error across the entire area for each iteration. Compare to conventional supervision, our method effectively bypasses redundant rendering processes, resulting in notable reductions in both time and memory consumption. Experimental results demonstrate that integrating expansive supervision within existing state-of-the-art acceleration frameworks can achieve 69% memory savings and 42% time savings, with negligible compromise in visual quality. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# 空間適応層:生体信号センサアレイ応用のための解釈可能な領域適応
Spatial Adaptation Layer: Interpretable Domain Adaptation For Biosignal Sensor Array Applications ( http://arxiv.org/abs/2409.08058v1 ) ライセンス: Link先を確認 | Joao Pereira, Michael Alummoottil, Dimitrios Halatsis, Dario Farina, | (参考訳) 生体信号の取得は医療アプリケーションやウェアラブルデバイスにとって鍵であり、機械学習は表面筋電図(sEMG)や脳波(EEG)などの信号を処理するための有望な方法を提供する。
インターセッション性能は高いが、インターセッション性能は電極シフトによって妨げられる。
既存のソリューションは、しばしば大規模で高価なデータセットを必要とする。
そこで本研究では,任意の生体信号配列モデルに適応可能な空間適応層(SAL)を提案し,二つの記録セッション間の入力でパラメタライズされたアフィン変換を学習する。
また,学習可能なベースライン正規化(LBN)を導入し,ベースライン変動を低減する。
2つのHD-sEMGジェスチャ認識データセットでテストされたSALとLBNは、通常の配列の標準微調整よりも優れており、ロジスティック回帰器でも、桁数が桁違いで物理的に解釈可能なパラメータで競合性能を達成している。
以上の結果から,前腕の周縁翻訳はSEMGの生理的期待に沿うパフォーマンス向上の大部分を担っていることが示唆された。
Biosignal acquisition is key for healthcare applications and wearable devices, with machine learning offering promising methods for processing signals like surface electromyography (sEMG) and electroencephalography (EEG). Despite high within-session performance, intersession performance is hindered by electrode shift, a known issue across modalities. Existing solutions often require large and expensive datasets and/or lack robustness and interpretability. Thus, we propose the Spatial Adaptation Layer (SAL), which can be prepended to any biosignal array model and learns a parametrized affine transformation at the input between two recording sessions. We also introduce learnable baseline normalization (LBN) to reduce baseline fluctuations. Tested on two HD-sEMG gesture recognition datasets, SAL and LBN outperform standard fine-tuning on regular arrays, achieving competitive performance even with a logistic regressor, with orders of magnitude less, physically interpretable parameters. Our ablation study shows that forearm circumferential translations account for the majority of performance improvements, in line with sEMG physiological expectations. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# オフライン強化学習のためのQ値正規化決定変換器
Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning ( http://arxiv.org/abs/2409.08062v1 ) ライセンス: Link先を確認 | Teng Yan, Zhendong Ruan, Yaobang Cai, Yu Han, Wenxian Li, Yang Zhang, | (参考訳) データ駆動型パラダイムとして、オフライン強化学習(Offline RL)はシーケンスモデリングとして定式化され、Decision Transformer(DT)は例外的な機能を示した。
値関数や計算ポリシー勾配に適合する従来の強化学習方法とは異なり、DTは期待されるリターン、過去の状態、アクションに基づいて自己回帰モデルを調整し、因果マスクしたTransformerを使用して最適なアクションを出力する。
しかし, サンプル値と最適値との整合性から, 最適値の設定は困難であり, 最適値の出力と最適値の縫合は困難である。
Decision ConvFormer (DC) は、DTと比較してマルコフ決定プロセス内のRL軌道をモデル化する文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer (QDC)を提案する。このQ-value Regularized ConvFormerは,DCによるRLトラジェクトリの理解と,トレーニング中の動的プログラミング手法を用いて動作値の最大化を行う。
これにより、サンプリングされたアクションの期待されたリターンが最適なリターンと一致することを保証します。
QDCはD4RLベンチマークで優れたパフォーマンスを達成し、全てのテスト環境で最適なレベルに到達している。
特に軌道縫合能力の卓越した競争力を示す。
As a data-driven paradigm, offline reinforcement learning (Offline RL) has been formulated as sequence modeling, where the Decision Transformer (DT) has demonstrated exceptional capabilities. Unlike previous reinforcement learning methods that fit value functions or compute policy gradients, DT adjusts the autoregressive model based on the expected returns, past states, and actions, using a causally masked Transformer to output the optimal action. However, due to the inconsistency between the sampled returns within a single trajectory and the optimal returns across multiple trajectories, it is challenging to set an expected return to output the optimal action and stitch together suboptimal trajectories. Decision ConvFormer (DC) is easier to understand in the context of modeling RL trajectories within a Markov Decision Process compared to DT. We propose the Q-value Regularized Decision ConvFormer (QDC), which combines the understanding of RL trajectories by DC and incorporates a term that maximizes action values using dynamic programming methods during training. This ensures that the expected returns of the sampled actions are consistent with the optimal returns. QDC achieves excellent performance on the D4RL benchmark, outperforming or approaching the optimal level in all tested environments. It particularly demonstrates outstanding competitiveness in trajectory stitching capability. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# AIによる高温超伝導体の発見
AI-accelerated discovery of high critical temperature superconductors ( http://arxiv.org/abs/2409.08065v1 ) ライセンス: Link先を確認 | Xiao-Qi Han, Zhenfeng Ouyang, Peng-Jie Guo, Hao Sun, Ze-Feng Gao, Zhong-Yi Lu, | (参考訳) 新しい超伝導材料、特に高温の超伝導材料(T_c$)の発見は、凝縮物質物理学の分野において活発な研究領域となっている。
従来のアプローチは主に、既存のデータベース内の潜在的超伝導体を探すための物理的な直観に依存している。
しかし、既知の物質は、物質の領域内での様々な可能性の表面のみを掻き傷ている。
そこで我々は,高温超伝導体発見のための深層モデル事前学習,微調整,拡散モデル,物理に基づくアプローチ(例えば電子構造計算)を統合したAI検索エンジンを開発した。
このAI検索エンジンを利用することで、非常に小さなサンプルセットに基づいて、AIモデルによって予測される臨界温度の74の動的安定物質をT_c \geq$15Kとした。
特に、これらの材料は既存のデータセットには含まれていない。
さらに,B$_4$CN$_3$およびB$_5$CN$_2$のT_c$sはそれぞれ24.08Kと15.93Kであるようなデータセットおよび個々の材料の動向を分析した。
我々は、AI技術が新しい高いT_c$超伝導体を発見できることを実証し、ターゲットとなる特性を持つ材料の発見を加速する可能性について概説する。
The discovery of new superconducting materials, particularly those exhibiting high critical temperature ($T_c$), has been a vibrant area of study within the field of condensed matter physics. Conventional approaches primarily rely on physical intuition to search for potential superconductors within the existing databases. However, the known materials only scratch the surface of the extensive array of possibilities within the realm of materials. Here, we develop an AI search engine that integrates deep model pre-training and fine-tuning techniques, diffusion models, and physics-based approaches (e.g., first-principles electronic structure calculation) for discovery of high-$T_c$ superconductors. Utilizing this AI search engine, we have obtained 74 dynamically stable materials with critical temperatures predicted by the AI model to be $T_c \geq$ 15 K based on a very small set of samples. Notably, these materials are not contained in any existing dataset. Furthermore, we analyze trends in our dataset and individual materials including B$_4$CN$_3$ and B$_5$CN$_2$ whose $T_c$s are 24.08 K and 15.93 K, respectively. We demonstrate that AI technique can discover a set of new high-$T_c$ superconductors, outline its potential for accelerating discovery of the materials with targeted properties. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# 制約付き最適化のための反復解の自己教師付き学習
Self-Supervised Learning of Iterative Solvers for Constrained Optimization ( http://arxiv.org/abs/2409.08066v1 ) ライセンス: Link先を確認 | Lukas Lüken, Sergio Lucia, | (参考訳) パラメータの関数として制約付き最適化問題の解を得ることは、制御や計画といった様々なアプリケーションにおいて非常に重要である。
このようなパラメトリック最適化問題をリアルタイムで解くことは、特に高精度な解や解のバッチを得る必要がある場合、重要な課題を提示することができる。
これらの課題を解決するために,制約付き最適化のための学習ベース反復解法を提案する。
制約付き最適化問題のパラメータのセットについて、適切な精度で原始双対解を出力するニューラルネットワーク予測器を用いた第1ステップを提案する。
この原始双対解は、ニューラルネットワークの形で学習された反復解法により、第2段階において非常に高い精度で改善される。
最適性のKarush-Kuhn-Tucker条件に基づく新たな損失関数を導入し、オプティマイザソリューションの事前サンプリングを必要とせずに、両ニューラルネットワークの完全な自己教師付きトレーニングを可能にする。
様々な2次および非線形パラメトリックテスト問題の評価は、予測器のみが、最適解を近似する最近の自己教師型スキームと既に競合していることを示している。
提案する学習ベース反復制約最適化の2番目のステップは、他の学習ベースアプローチよりも桁違いに精度の高いソリューションを実現すると同時に、最先端のソルバよりも高速に評価し、GPU並列化をネイティブに可能にする。
Obtaining the solution of constrained optimization problems as a function of parameters is very important in a multitude of applications, such as control and planning. Solving such parametric optimization problems in real time can present significant challenges, particularly when it is necessary to obtain highly accurate solutions or batches of solutions. To solve these challenges, we propose a learning-based iterative solver for constrained optimization which can obtain very fast and accurate solutions by customizing the solver to a specific parametric optimization problem. For a given set of parameters of the constrained optimization problem, we propose a first step with a neural network predictor that outputs primal-dual solutions of a reasonable degree of accuracy. This primal-dual solution is then improved to a very high degree of accuracy in a second step by a learned iterative solver in the form of a neural network. A novel loss function based on the Karush-Kuhn-Tucker conditions of optimality is introduced, enabling fully self-supervised training of both neural networks without the necessity of prior sampling of optimizer solutions. The evaluation of a variety of quadratic and nonlinear parametric test problems demonstrates that the predictor alone is already competitive with recent self-supervised schemes for approximating optimal solutions. The second step of our proposed learning-based iterative constrained optimizer achieves solutions with orders of magnitude better accuracy than other learning-based approaches, while being faster to evaluate than state-of-the-art solvers and natively allowing for GPU parallelization. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# AutoPET チャレンジ:データ拡張のためのTumour シンセサイザー
AutoPET Challenge: Tumour Synthesis for Data Augmentation ( http://arxiv.org/abs/2409.08068v1 ) ライセンス: Link先を確認 | Lap Yan Lennon Chan, Chenxin Li, Yixuan Yuan, | (参考訳) 全体PET/CTスキャンの正確な病変分割は癌診断と治療計画に不可欠であるが、限られたデータセットは自動セグメンテーションモデルの性能を阻害することが多い。
本稿では,PET/CTスキャンにおける病変自動分割のためのデータ増幅器として,生成モデルから奥行きを活用できる可能性について検討する。
我々は,CT画像のためのDiffTumor法を適用し,病変のあるPET-CT画像を生成する。
提案手法では,AutoPETデータセット上に生成モデルをトレーニングし,トレーニングデータの拡張に使用する。
次に、元のデータセットと拡張データセットでトレーニングされたセグメンテーションモデルのパフォーマンスを比較します。
以上の結果から,拡張データセットでトレーニングしたモデルでは,Diceスコアが向上し,データ拡張アプローチの可能性が示された。
一言で言えば、本研究は、限られたデータセットで全身PET/CTスキャンの病変セグメンテーションを改善するための有望な方向を示し、がん診断の精度と信頼性を高める可能性がある。
Accurate lesion segmentation in whole-body PET/CT scans is crucial for cancer diagnosis and treatment planning, but limited datasets often hinder the performance of automated segmentation models. In this paper, we explore the potential of leveraging the deep prior from a generative model to serve as a data augmenter for automated lesion segmentation in PET/CT scans. We adapt the DiffTumor method, originally designed for CT images, to generate synthetic PET-CT images with lesions. Our approach trains the generative model on the AutoPET dataset and uses it to expand the training data. We then compare the performance of segmentation models trained on the original and augmented datasets. Our findings show that the model trained on the augmented dataset achieves a higher Dice score, demonstrating the potential of our data augmentation approach. In a nutshell, this work presents a promising direction for improving lesion segmentation in whole-body PET/CT scans with limited datasets, potentially enhancing the accuracy and reliability of cancer diagnostics. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# TravelAgent: パーソナライズされた旅行計画のためのAIアシスタント
TravelAgent: An AI Assistant for Personalized Travel Planning ( http://arxiv.org/abs/2409.08069v1 ) ライセンス: Link先を確認 | Aili Chen, Xuyang Ge, Ziquan Fu, Yanghua Xiao, Jiangjie Chen, | (参考訳) グローバルな観光が拡大し、人工知能技術が進歩するにつれ、インテリジェントな旅行計画サービスが重要な研究対象となっている。
多次元制約のある動的な現実世界の旅行シナリオの中で、ユーザが実際にカスタマイズされた旅行イテナリーを自動生成するのをサポートするサービスは、Rationality、Comprehensiveness、Personalizationの3つの主要な目標に対処する必要がある。
しかし、ルールベースの組み合わせやLLMベースの計画手法を持つ既存のシステムは、これらの基準を完全に満たすのに苦労している。
この課題を克服するために,我々は大規模言語モデル(LLM)を利用した旅行計画システムであるTravelAgentを紹介した。
TravelAgentはツール使用、推奨、計画、メモリモジュールの4つのモジュールで構成されている。
我々は,TravelAgentの性能を人間とシミュレーションユーザで評価し,その全体的な効果を3つの基準で示し,パーソナライズされたレコメンデーションの精度を確認した。
As global tourism expands and artificial intelligence technology advances, intelligent travel planning services have emerged as a significant research focus. Within dynamic real-world travel scenarios with multi-dimensional constraints, services that support users in automatically creating practical and customized travel itineraries must address three key objectives: Rationality, Comprehensiveness, and Personalization. However, existing systems with rule-based combinations or LLM-based planning methods struggle to fully satisfy these criteria. To overcome the challenges, we introduce TravelAgent, a travel planning system powered by large language models (LLMs) designed to provide reasonable, comprehensive, and personalized travel itineraries grounded in dynamic scenarios. TravelAgent comprises four modules: Tool-usage, Recommendation, Planning, and Memory Module. We evaluate TravelAgent's performance with human and simulated users, demonstrating its overall effectiveness in three criteria and confirming the accuracy of personalized recommendations. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# プロンプト補間による雑音補正による拡散に基づく画像間変換
Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation ( http://arxiv.org/abs/2409.08077v1 ) ライセンス: Link先を確認 | Junsung Lee, Minsoo Kang, Bohyung Han, | (参考訳) 本稿では,拡散に基づく画像-画像間翻訳に適した,シンプルで効果的なトレーニング不要な手法を提案する。
提案手法では,雑音補正項を導入することにより,事前学習した拡散モデルの元の雑音予測ネットワークを改訂する。
ノイズ補正項を、2つのノイズ予測の差として定式化し、1つは、音源を進行的に補間した遮音ネットワークから算出し、もう1つは音源のプロンプト埋め込みによるノイズ予測である。
最終雑音予測ネットワークは、標準雑音予測項と雑音補正項の線形結合により与えられるもので、前者は保存すべき領域を再構築し、後者は対象のプロンプトに関連する領域を効果的に編集することを目的としている。
本手法は,拡散モデルに基づく既存の画像から画像への変換手法に容易に組み込むことができる。
大規模な実験により、提案手法は低レイテンシで優れた性能を達成し、組み合わさって既存のフレームワークを継続的に改善することを確認した。
We propose a simple but effective training-free approach tailored to diffusion-based image-to-image translation. Our approach revises the original noise prediction network of a pretrained diffusion model by introducing a noise correction term. We formulate the noise correction term as the difference between two noise predictions; one is computed from the denoising network with a progressive interpolation of the source and target prompt embeddings, while the other is the noise prediction with the source prompt embedding. The final noise prediction network is given by a linear combination of the standard denoising term and the noise correction term, where the former is designed to reconstruct must-be-preserved regions while the latter aims to effectively edit regions of interest relevant to the target prompt. Our approach can be easily incorporated into existing image-to-image translation methods based on diffusion models. Extensive experiments verify that the proposed technique achieves outstanding performance with low latency and consistently improves existing frameworks when combined with them. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# SoVAR: 自律走行テストの事故報告から一般シナリオを構築する
SoVAR: Building Generalizable Scenarios from Accident Reports for Autonomous Driving Testing ( http://arxiv.org/abs/2409.08081v1 ) ライセンス: Link先を確認 | An Guo, Yuan Zhou, Haoxiang Tian, Chunrong Fang, Yunjian Sun, Weisong Sun, Xinyu Gao, Anh Tuan Luu, Yang Liu, Zhenyu Chen, | (参考訳) 自律運転システム(ADS)は目覚ましい発展を遂げており、安全クリティカルな応用にますます採用されている。
しかし、最近報告されたADSによる致命的な事故に関するデータは、希望する安全性のレベルがまだ十分に達成されていないことを示唆している。
その結果、安全な運転を保証するために、より包括的で目標とするテストアプローチの必要性が高まっている。
現実の事故報告のシナリオは、重要なシナリオや高品質な種子を含む、ADSテストに貴重なリソースを提供する。
しかし,既存の事故報告からのシナリオ再構築手法では,情報抽出の精度が限られている場合が多い。
さらに,道路環境の多様性と複雑さから,現在の事故情報とシミュレーションマップデータとの整合性は大きな課題となっている。
本稿では,事故報告から道路一般化シナリオを自動的に生成するツールであるSoVARの設計と実装を行う。
SoVARは、言語パターンとよく設計されたプロンプトを使用して、テキストデータから事故情報を抽出する大きな言語モデルを導く。
その後、抽出した事故情報と合わせて事故関連制約を定式化し、解決し、事故軌跡を生成する。
最後に、SoVARは、様々な地図構造上の事故シナリオを再構築し、それらをテストシナリオに変換し、産業用ADSの欠陥を検出する能力を評価する。
我々は,道路交通安全局のデータベースからの事故報告を用いて,産業用ADSアポロの試験シナリオを生成するSoVARを実験した。
実験結果から,SoVARは道路構造にまたがる一般的な事故シナリオを効果的に生成できることが示唆された。
さらに、結果はSoVARがBaidu Apolloのクラッシュに寄与した5つの異なる安全違反タイプを特定したことを確認した。
Autonomous driving systems (ADSs) have undergone remarkable development and are increasingly employed in safety-critical applications. However, recently reported data on fatal accidents involving ADSs suggests that the desired level of safety has not yet been fully achieved. Consequently, there is a growing need for more comprehensive and targeted testing approaches to ensure safe driving. Scenarios from real-world accident reports provide valuable resources for ADS testing, including critical scenarios and high-quality seeds. However, existing scenario reconstruction methods from accident reports often exhibit limited accuracy in information extraction. Moreover, due to the diversity and complexity of road environments, matching current accident information with the simulation map data for reconstruction poses significant challenges. In this paper, we design and implement SoVAR, a tool for automatically generating road-generalizable scenarios from accident reports. SoVAR utilizes well-designed prompts with linguistic patterns to guide the large language model in extracting accident information from textual data. Subsequently, it formulates and solves accident-related constraints in conjunction with the extracted accident information to generate accident trajectories. Finally, SoVAR reconstructs accident scenarios on various map structures and converts them into test scenarios to evaluate its capability to detect defects in industrial ADSs. We experiment with SoVAR, using accident reports from the National Highway Traffic Safety Administration's database to generate test scenarios for the industrial-grade ADS Apollo. The experimental findings demonstrate that SoVAR can effectively generate generalized accident scenarios across different road structures. Furthermore, the results confirm that SoVAR identified 5 distinct safety violation types that contributed to the crash of Baidu Apollo. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# スピン-1ハイゼンベルクダイマー系における量子情報資源
Quantum Information Resources in Spin-1 Heisenberg Dimer Systems ( http://arxiv.org/abs/2409.08082v1 ) ライセンス: Link先を確認 | Fadwa Benabdallah, M. Y. Abd-Rabbou, Mohammed Daoud, Saeed Haddadi, | (参考訳) 我々は、量子コヒーレンス、相対コヒーレンス、エンタングルメント、ステアリングの$l_{1}$-normなど、磁場と一軸の単一イオン異方性の影響を受けながら、量子スピン-1ハイゼンベルクダイマー系の2部および混合状態における量子情報資源を探索する。
本研究では,熱平衡における系の密度演算子を導出し,量子相関メトリクスを解析するための数学的枠組みを確立する。
この結果から, 磁場と異方性パラメータが支配する量子反強磁性, 強磁性, 強磁性相転移が明らかとなった。
古典状態への移行における温度の役割をさらに観察し、コヒーレンス、絡み合い、ステアリングに異なる影響を与える。
特に、交換異方性パラメータの増加は、一軸の単一イオン異方性パラメータを調整しながら量子相関を強化し、特に正の場合、システムの量子性に影響を与える。
量子コヒーレンス、絡み合い、ステアリングを最大化するいくつかの推奨は、温度の低下、交換異方性パラメータの増大、磁場と一軸の単一イオン異方性パラメータの注意深く管理することであり、システムの量子特性を維持する上でこれらの因子間の複雑な相互作用を強調している。
We explore the quantum information resources within bipartite pure and mixed states of the quantum spin-1 Heisenberg dimer system, considering some interesting factors such as the $l_{1}$-norm of quantum coherence, relative coherence, entanglement, and steering, influenced by the magnetic field and uniaxial single-ion anisotropy. Through a thorough investigation, we derive the system's density operator at thermal equilibrium and establish a mathematical framework for analyzing quantum correlation metrics. Our results unveil the system's behavior at absolute zero temperature, revealing quantum antiferromagnetic, ferromagnetic, and ferrimagnetic phase transitions governed by the magnetic field and anisotropy parameters. We further observe temperature's role in transitioning the system towards classical states, impacting coherence, entanglement, and steering differently. Notably, we find that increasing the exchange anisotropy parameter can reinforce quantum correlations while adjusting the uniaxial single-ion anisotropy parameter influences the system's quantumness, particularly when positive. Some recommendations to maximize quantum coherence, entanglement, and steering involve temperature reduction, increasing the exchange anisotropy parameter, and carefully managing the magnetic field and uniaxial single-ion anisotropy parameter, highlighting the intricate interplay between these factors in maintaining the system's quantum properties. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# SimMAT: ビジョンファウンデーションモデルからあらゆるイメージモダリティへの移行可能性を探る
SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality ( http://arxiv.org/abs/2409.08083v1 ) ライセンス: Link先を確認 | Chenyang Lei, Liyi Chen, Jun Cen, Xiao Chen, Zhen Lei, Felix Heide, Ziwei Liu, Qifeng Chen, Zhaoxiang Zhang, | (参考訳) 大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
しかし、様々な分野のセンサーが同じ規模の自然画像を収集し、強力な基礎モデルを訓練することは極めて困難である。
この目的のために、本研究では、自然のRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性(例えば、偏光)の他の画像モダリティへの転送可能性という、オープンな問題を研究するための、シンプルで効果的なフレームワークSimMATを提案する。
SimMATは、モダリティ非依存転写層(MAT)と事前訓練された基礎モデルから構成される。
我々は,SimMATを代表的視覚基盤モデルセグメンション・アプライシング・モデル(SAM)に適用し,評価された新しい画像モダリティをサポートする。
関連するベンチマークがないため、転送学習性能を評価するための新しいベンチマークを構築する。
本実験では,他のセンサの性能向上にともなう視覚基盤モデルの伝達の可能性を確認した。
具体的には、SimMATは、評価されたモダリティに対して平均22.15%から53.88%のセグメンテーション性能(mIoU)を改善し、他のベースラインを一貫して上回る。
我々は,SimMATがクロスモーダルトランスファー学習の認知を高め,ビジョン基礎モデルによるより良い結果を得るために様々な分野に利益をもたらすことを期待する。
Foundation models like ChatGPT and Sora that are trained on a huge scale of data have made a revolutionary social impact. However, it is extremely challenging for sensors in many different fields to collect similar scales of natural images to train strong foundation models. To this end, this work presents a simple and effective framework SimMAT to study an open problem: the transferability from vision foundation models trained on natural RGB images to other image modalities of different physical properties (e.g., polarization). SimMAT consists of a modality-agnostic transfer layer (MAT) and a pretrained foundation model. We apply SimMAT to a representative vision foundation model Segment Anything Model (SAM) to support any evaluated new image modality. Given the absence of relevant benchmarks, we construct a new benchmark to evaluate the transfer learning performance. Our experiments confirm the intriguing potential of transferring vision foundation models in enhancing other sensors' performance. Specifically, SimMAT can improve the segmentation performance (mIoU) from 22.15% to 53.88% on average for evaluated modalities and consistently outperforms other baselines. We hope that SimMAT can raise awareness of cross-modal transfer learning and benefit various fields for better results with vision foundation models. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# 大規模言語モデルのセキュア化: バイアス、誤情報、即時攻撃に対処する
Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks ( http://arxiv.org/abs/2409.08087v1 ) ライセンス: Link先を確認 | Benji Peng, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Junyu Liu, Qian Niu, | (参考訳) 大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。
この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。
ファクトチェック手法による応答信頼性の向上に焦点をあてて,LLMからの不正確な出力や誤解を招くアウトプットに関する問題点を論じる。
LLM内の遺伝的バイアスは、制御された入力研究やレッド・チームリング・エクササイズを含む様々な評価手法によって批判的に検証される。
偏差緩和戦略の包括的分析を行い、前処理の介入からトレーニング中の調整、後処理の改良までアプローチする。
また,LLM生成したコンテンツを人為的テキストと区別し,複雑な状況下での機械学習有効分類の限界に留意しながら,検出GPTや透かし技術などの検出機構を導入するという複雑さについても検討した。
さらに、Jailbreak攻撃やプロンプトインジェクションエクスプロイトを含むLLM脆弱性は、さまざまなケーススタディとHackAPromptのような大規模コンペティションを調査して分析される。
このレビューは、LLMの安全を守るための防衛機構をふりかえり、LLMのセキュリティ分野に関するより広範な研究の必要性を強調することによって締めくくられる。
Large Language Models (LLMs) demonstrate impressive capabilities across various fields, yet their increasing use raises critical security concerns. This article reviews recent literature addressing key issues in LLM security, with a focus on accuracy, bias, content detection, and vulnerability to attacks. Issues related to inaccurate or misleading outputs from LLMs is discussed, with emphasis on the implementation from fact-checking methodologies to enhance response reliability. Inherent biases within LLMs are critically examined through diverse evaluation techniques, including controlled input studies and red teaming exercises. A comprehensive analysis of bias mitigation strategies is presented, including approaches from pre-processing interventions to in-training adjustments and post-processing refinements. The article also probes the complexity of distinguishing LLM-generated content from human-produced text, introducing detection mechanisms like DetectGPT and watermarking techniques while noting the limitations of machine learning enabled classifiers under intricate circumstances. Moreover, LLM vulnerabilities, including jailbreak attacks and prompt injection exploits, are analyzed by looking into different case studies and large-scale competitions like HackAPrompt. This review is concluded by retrospecting defense mechanisms to safeguard LLMs, accentuating the need for more extensive research into the LLM security field. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショット被写体駆動画像生成の強化
EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance ( http://arxiv.org/abs/2409.08091v1 ) ライセンス: Link先を確認 | Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu, | (参考訳) ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、テキストプロンプトと整合しながら、主題のアイデンティティを保存することである。
拡散モデルに基づく手法の進歩にもかかわらず、既存のアプローチは、アイデンティティ保存とテキストプロンプトアライメントのバランスをとるのに苦慮している。
本研究では,この問題について詳細な調査を行い,高いバランスを維持しつつ,効果的なアイデンティティ保護を実現するための重要な知見を明らかにした。
その結果,(1)被写体画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2)テキストアライメントとアイデンティティ保存の両方に初期レイアウトを生成することが重要であることがわかった。
事前訓練された安定拡散モデルのUNetアーキテクチャに基づくエンコーダを用いて、誘導段階を分離し、初期画像レイアウトを反復的に改善するプロセスに従って、高品質なアイデンティティ転送を保証する。
これらの戦略を通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数の対象駆動ベンチマークで最先端の結果を達成する。
Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject's identity while aligning with the text prompt, which often requires modifying certain aspects of the subject's appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) generating an initial layout is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the UNet architecture of the pretrained Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# 学習に基づく制御系に対するFalsificationの最適化:マルチフィデリティベイズ的アプローチ
Optimizing Falsification for Learning-Based Control Systems: A Multi-Fidelity Bayesian Approach ( http://arxiv.org/abs/2409.08097v1 ) ライセンス: Link先を確認 | Zahra Shahrooei, Mykel J. Kochenderfer, Ali Baheri, | (参考訳) 安全クリティカルなシステムにおけるコントローラのテストは、安全性の確保と障害の防止に不可欠である。
本稿では,学習に基づく閉ループ制御システムにおけるファルシフィケーション問題にシミュレーションを用いて対処する。
この問題は、システムの安全性要件に違反し、これらの要件に基づいて最適化タスクとして定式化できる反例を特定することを含む。
この最適化問題における完全忠実度シミュレータデータの利用は計算コストがかかる可能性がある。
効率を向上させるために,シミュレータを精度の異なるレベルに活用する多要素ベイズ最適化ファルシフィケーションフレームワークを提案する。
提案するフレームワークは,異なるシミュレータ間で遷移し,それらの間の有意義な関係を確立する。
マルチフィデリティベイズ最適化により、最適システム入力が逆例となる可能性があり、評価のための適切なフィデリティレベルが決定される。
様々なGym環境におけるアプローチの評価を行った。
実験により,マルチフィデリティベイズ最適化は,反例を検出するための完全フィデリティベイズ最適化や他のベースライン手法よりも計算効率がよいことを示した。
アルゴリズムのPython実装はhttps://github.com/SAILRIT/MFBO_Falsificationで公開されている。
Testing controllers in safety-critical systems is vital for ensuring their safety and preventing failures. In this paper, we address the falsification problem within learning-based closed-loop control systems through simulation. This problem involves the identification of counterexamples that violate system safety requirements and can be formulated as an optimization task based on these requirements. Using full-fidelity simulator data in this optimization problem can be computationally expensive. To improve efficiency, we propose a multi-fidelity Bayesian optimization falsification framework that harnesses simulators with varying levels of accuracy. Our proposed framework can transition between different simulators and establish meaningful relationships between them. Through multi-fidelity Bayesian optimization, we determine both the optimal system input likely to be a counterexample and the appropriate fidelity level for assessment. We evaluated our approach across various Gym environments, each featuring different levels of fidelity. Our experiments demonstrate that multi-fidelity Bayesian optimization is more computationally efficient than full-fidelity Bayesian optimization and other baseline methods in detecting counterexamples. A Python implementation of the algorithm is available at https://github.com/SAILRIT/MFBO_Falsification. | 翻訳日:2024-09-13 16:17:53 公開日:2024-09-12 |
# CLC-UKETデータセット:英国雇用裁判所のベンチマークケースアウトカム予測
The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal ( http://arxiv.org/abs/2409.08098v1 ) ライセンス: Link先を確認 | Huiyuan Xie, Felix Steffek, Joana Ribeiro de Faria, Christine Carter, Jonathan Rutherford, | (参考訳) 本稿では,英国雇用裁判所(UKET)の事例成果を予測するためのベンチマークを開発することにより,技術革新と司法アクセスの交わりについて考察する。
広範囲な手動アノテーションの課題に対処するため、この研究では、大規模な言語モデル(LLM)を自動アノテーションに使用し、CLC-UKETデータセットを作成する。
データセットは約19,000のUKETケースとそのメタデータで構成されている。
包括的な法的注釈は、事実、クレーム、前例参照、法定参照、事例結果、理由および司法法典をカバーしている。
CLC-UKETデータに精通し,UKETにおけるマルチクラス事例結果予測タスクについて検討した。
モデル比較のパフォーマンス基準を確立するために、人間の予測が収集される。
ベースラインモデルによる実証的な結果は、微調整されたトランスフォーマーモデルがUKET予測タスクにおいてゼロショットおよび少数ショットLLMよりも優れていることを示している。
ゼロショットLLMの性能は、タスク関連情報を少数ショットの例に統合することで向上することができる。
CLC-UKETデータセットは、人間のアノテーションや経験的な発見とともに、雇用に関する紛争解決のための貴重なベンチマークとして役立てられることを期待している。
This paper explores the intersection of technological innovation and access to justice by developing a benchmark for predicting case outcomes in the UK Employment Tribunal (UKET). To address the challenge of extensive manual annotation, the study employs a large language model (LLM) for automatic annotation, resulting in the creation of the CLC-UKET dataset. The dataset consists of approximately 19,000 UKET cases and their metadata. Comprehensive legal annotations cover facts, claims, precedent references, statutory references, case outcomes, reasons and jurisdiction codes. Facilitated by the CLC-UKET data, we examine a multi-class case outcome prediction task in the UKET. Human predictions are collected to establish a performance reference for model comparison. Empirical results from baseline models indicate that finetuned transformer models outperform zero-shot and few-shot LLMs on the UKET prediction task. The performance of zero-shot LLMs can be enhanced by integrating task-related information into few-shot examples. We hope that the CLC-UKET dataset, along with human annotations and empirical findings, can serve as a valuable benchmark for employment-related dispute resolution. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 厳密な原理からの創発的リウヴィリアの例外的点
Emergent Liouvillian exceptional points from exact principles ( http://arxiv.org/abs/2409.08100v1 ) ライセンス: Link先を確認 | Shishir Khandelwal, Gianmichele Blasi, | (参考訳) 近年、オープン量子系における例外的な点への関心が高まっている。
この領域の自然なアプローチはマルコフのマスター方程式の使用である。
結果として生じるリウヴィリアEPは様々な系で見られ、多くのエキゾチックな効果と関連付けられてきたが、そのような退化とその特異性がマスター方程式の妥当性を超えて持続するかどうかという未解決の問題である。
本研究では、散逸性二重量子ドット系の例を例に、この系に対するハイゼンベルク方程式が対応するマスター方程式と同じEPを示すことを示す。
この発見の重要性を強調するために、EPに関連するパラダイム的性質(臨界減衰)がマスター方程式の妥当性をはるかに超越していることを示す。
この結果から, 主方程式の導出に係わる近似の結果ではなく, 基礎となる基本的厳密な原理から, リウヴィリアEPが生じることが示唆された。
Recent years have seen a surge of interest in exceptional points in open quantum systems. The natural approach in this area has been the use of Markovian master equations. While the resulting Liouvillian EPs have been seen in a variety of systems and have been associated to numerous exotic effects, it is an open question whether such degeneracies and their peculiarities can persist beyond the validity of master equations. In this work, taking the example of a dissipative double-quantum-dot system, we show that Heisenberg equations for our system exhibit the same EPs as the corresponding master equations. To highlight the importance of this finding, we prove that the paradigmatic property associated to EPs - critical damping, persists well beyond the validity of master equations. Our results demonstrate that Liouvillian EPs can arise from underlying fundamental exact principles, rather than merely as a consequence of approximations involved in deriving master equations. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 半監督型3次元セグメンテーションのためのベイズ自己学習
Bayesian Self-Training for Semi-Supervised 3D Segmentation ( http://arxiv.org/abs/2409.08102v1 ) ライセンス: Link先を確認 | Ozan Unal, Christos Sakaridis, Luc Van Gool, | (参考訳) 3Dセグメンテーションはコンピュータビジョンの中核的な問題であり、他の多くの密集した予測タスクと同様に、十分なトレーニングのために大量のアノテートデータを必要とする。
しかし、完全に教師されたトレーニングを採用するために3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価である。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
この領域では、アノテーションの欠如によって生じるパフォーマンスギャップを減らすために、ラベルなしデータの効果的な利用について研究している。
本研究はベイズ的深層学習に触発され,まず半教師付き3次元セマンティックセグメンテーションのためのベイズ的自己学習フレームワークを提案する。
確率的推論を用いることで、擬似ラベルの初期セットを生成し、推定されたポイントワイドの不確実性に基づいてそれらをフィルタリングする。
ヒューリスティックな$n$-partiteマッチングアルゴリズムを構築することにより、この手法を半教師付き3Dインスタンスセグメンテーションに拡張し、最後に、同じビルディングブロックで高密度な3Dビジュアルグラウンドに拡張する。
本研究では,セマンティックKITTIとScribbleKITTIの3次元セマンティックセマンティックスセグメンテーション,ScanNetとS3DISの3次元インスタンスセマンティックスセグメンテーションに関する半教師付き手法について述べる。
さらに,ScanReferの教師のみのベースラインよりも高密度な3次元視覚的グラウンド化を実現している。
プロジェクトページはouenal.github.io/bst/で公開しています。
3D segmentation is a core problem in computer vision and, similarly to many other dense prediction tasks, it requires large amounts of annotated data for adequate training. However, densely labeling 3D point clouds to employ fully-supervised training remains too labor intensive and expensive. Semi-supervised training provides a more practical alternative, where only a small set of labeled data is given, accompanied by a larger unlabeled set. This area thus studies the effective use of unlabeled data to reduce the performance gap that arises due to the lack of annotations. In this work, inspired by Bayesian deep learning, we first propose a Bayesian self-training framework for semi-supervised 3D semantic segmentation. Employing stochastic inference, we generate an initial set of pseudo-labels and then filter these based on estimated point-wise uncertainty. By constructing a heuristic $n$-partite matching algorithm, we extend the method to semi-supervised 3D instance segmentation, and finally, with the same building blocks, to dense 3D visual grounding. We demonstrate state-of-the-art results for our semi-supervised method on SemanticKITTI and ScribbleKITTI for 3D semantic segmentation and on ScanNet and S3DIS for 3D instance segmentation. We further achieve substantial improvements in dense 3D visual grounding over supervised-only baselines on ScanRefer. Our project page is available at ouenal.github.io/bst/. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# Faetarベンチマーク: 非常にアンダーソースな言語における音声認識
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language ( http://arxiv.org/abs/2409.08103v1 ) ライセンス: Link先を確認 | Michael Ong, Sean Robertson, Leo Peckham, Alba Jorquera Jimenez de Aberasturi, Paula Arkhangorodsky, Robin Huo, Aman Sakhardande, Mark Hallap, Naomi Nagy, Ewan Dunbar, | (参考訳) 低リソース音声認識への現在のアプローチの限界を押し上げるために設計されたベンチマークコーパスであるFaetar Automatic Speech Recognition Benchmarkを導入する。
フェタールは、主にイタリアで話されるフランコ・プロヴェン・c{c} の変種であり、標準的な正書法を持たず、ベンチマークに含まれるもの以外のテキストや音声のリソースはほとんどなく、他のフランコ・プロヴェン・c{c} の形式とは全く異なる。
コーパスはフィールド録音に由来するが、ほとんどはノイズがあり、5時間しか一致した書き起こしがなく、強制的なアライメントは可変品質である。
コーパスには、さらに20時間分の未収録のスピーチが含まれている。
本稿では,現在最先端の多言語音声基礎モデルの音声誤り率30.4%のベースライン結果について報告する。
We introduce the Faetar Automatic Speech Recognition Benchmark, a benchmark corpus designed to push the limits of current approaches to low-resource speech recognition. Faetar, a Franco-Proven\c{c}al variety spoken primarily in Italy, has no standard orthography, has virtually no existing textual or speech resources other than what is included in the benchmark, and is quite different from other forms of Franco-Proven\c{c}al. The corpus comes from field recordings, most of which are noisy, for which only 5 hrs have matching transcriptions, and for which forced alignment is of variable quality. The corpus contains an additional 20 hrs of unlabelled speech. We report baseline results from state-of-the-art multilingual speech foundation models with a best phone error rate of 30.4%, using a pipeline that continues pre-training on the foundation model using the unlabelled set. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# サプライチェーンの透明性向上のための協調型プラットフォームの設計
Designing a Collaborative Platform for Advancing Supply Chain Transparency ( http://arxiv.org/abs/2409.08104v1 ) ライセンス: Link先を確認 | Lukas Hueller, Tim Kuffner, Matthias Schneider, Leo Schuhmann, Virginie Cauderay, Tolga Buz, Vincent Beermann, Falk Uebernickel, | (参考訳) サプライチェーンの透明性(SCT)の確立は、規制の遵守と持続可能性基準の遵守に不可欠である。
多層SCTは、組織の運用、環境、社会(ESG)リスクを特定し緩和する上で重要な役割を担っている。
研究は、SCTへの取り組みの増加を観察する一方で、少数の企業が現在サプライチェーン情報を公開している。
デザインサイエンスリサーチのアプローチを用いて、サプライチェーン透明性のための協調プラットフォームを開発する。
我々は、設計要件を導出し、設計原則を定式化し、その成果を業界専門家に評価する。
当社のアーティファクトは、将来の参加者をプラットフォームに乗せるための自動パイプラインを通じて、公開可能なサプライチェーンデータで初期化されています。
この研究は、多層SCTを実装する上での課題と機会に関する洞察を提供し、組織が透明なエコシステムに参加することを奨励する実践的なソリューションを提供することによって、SCT研究に貢献します。
Enabling supply chain transparency (SCT) is essential for regulatory compliance and meeting sustainability standards. Multi-tier SCT plays a pivotal role in identifying and mitigating an organization's operational, environmental, and social (ESG) risks. While research observes increasing efforts towards SCT, a minority of companies are currently publishing supply chain information. Using the Design Science Research approach, we develop a collaborative platform for supply chain transparency. We derive design requirements, formulate design principles, and evaluate the artefact with industry experts. Our artefact is initialized with publicly available supply chain data through an automated pipeline designed to onboard future participants to our platform. This work contributes to SCT research by providing insights into the challenges and opportunities of implementing multi-tier SCT and offers a practical solution that encourages organizations to participate in a transparent ecosystem. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# DEMAU: 不確かさの分解、探索、モデル、分析
DEMAU: Decompose, Explore, Model and Analyse Uncertainties ( http://arxiv.org/abs/2409.08105v1 ) ライセンス: Link先を確認 | Arthur Hoarau, Vincent Lemaire, | (参考訳) 機械学習の最近の研究は、モデル不確実性の定量化と分解について、盛んに研究されている。
この情報は、アクティブラーニングや適応学習、特に不確実なサンプリングなど、学習者との相互作用において非常に有用である。
これらの総体的(再現性)およびアレタリックな(非再現性)不確実性の簡易表現を可能にするため、機械学習における分類モデルに対するいくつかの種類の不確実性を可視化し、探索し、分析するためのオープンソースの教育ツールであるDEMAUを提供する。
Recent research in machine learning has given rise to a flourishing literature on the quantification and decomposition of model uncertainty. This information can be very useful during interactions with the learner, such as in active learning or adaptive learning, and especially in uncertainty sampling. To allow a simple representation of these total, epistemic (reducible) and aleatoric (irreducible) uncertainties, we offer DEMAU, an open-source educational, exploratory and analytical tool allowing to visualize and explore several types of uncertainty for classification models in machine learning. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# WhisperNER: 統一されたオープンネームエンティティと音声認識
WhisperNER: Unified Open Named Entity and Speech Recognition ( http://arxiv.org/abs/2409.08107v1 ) ライセンス: Link先を確認 | Gil Ayache, Menachem Pirchi, Aviv Navon, Aviv Shamsian, Gill Hetz, Joseph Keshet, | (参考訳) 名前付きエンティティ認識(NER)と自動音声認識(ASR)を統合することで、転写精度と情報性を大幅に向上させることができる。
本稿では,共同音声の書き起こしと実体認識が可能な新しいモデルであるWhisperNERを紹介する。
WhisperNERはオープンタイプのNERをサポートし、推論時に多様で進化するエンティティの認識を可能にする。
オープンNER研究の最近の進歩を基盤として,合成音声サンプルを用いた大規模合成データセットを構築した。
これによって、さまざまなNERタグを持つ多数の例でWhisperNERをトレーニングすることができます。
トレーニング中、モデルはNERラベルでトリガーされ、対応するタグ付けされたエンティティとともに書き起こされた発話を出力するように最適化される。
WhisperNERを評価するために、よく使われるNERベンチマークのための合成音声を生成し、オープンなNERタグで既存のASRデータセットに注釈を付ける。
実験の結果,WhisperNERはドメイン外オープン型NERと教師付き微調整の両方において,自然なベースラインよりも優れていた。
Integrating named entity recognition (NER) with automatic speech recognition (ASR) can significantly enhance transcription accuracy and informativeness. In this paper, we introduce WhisperNER, a novel model that allows joint speech transcription and entity recognition. WhisperNER supports open-type NER, enabling recognition of diverse and evolving entities at inference. Building on recent advancements in open NER research, we augment a large synthetic dataset with synthetic speech samples. This allows us to train WhisperNER on a large number of examples with diverse NER tags. During training, the model is prompted with NER labels and optimized to output the transcribed utterance along with the corresponding tagged entities. To evaluate WhisperNER, we generate synthetic speech for commonly used NER benchmarks and annotate existing ASR datasets with open NER tags. Our experiments demonstrate that WhisperNER outperforms natural baselines on both out-of-domain open type NER and supervised finetuning. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# ネットワークトラフィック分析のためのグラフベース基礎モデルに向けて
Towards a graph-based foundation model for network traffic analysis ( http://arxiv.org/abs/2409.08111v1 ) ライセンス: Link先を確認 | Louis Van Langendonck, Ismael Castell-Uroz, Pere Barlet-Ros, | (参考訳) 基礎モデルは様々な研究分野において大きな可能性を示してきた。
このようなモデルの潜在的な応用は、コンピュータネットワークトラフィック分析において、これらのモデルはネットワークトラフィックの複雑さを把握し、最小限の微調整で特定のタスクやネットワーク環境に適応することができる。
従来のアプローチでは、トークン化ヘックスレベルのパケットデータと、大規模言語トランスフォーマーモデルのモデルアーキテクチャが用いられてきた。
本稿では,フローレベルでグラフベースの新しい代替案を提案する。
このネットワークグラフフレームワークでは,ネットワークトラフィックを動的時空間グラフとして表現し,自己教師付きリンク予測事前学習タスクを用いて空間的・時間的ダイナミクスを捉える。
提案手法の有効性を評価するために,侵入検出,交通分類,ボットネット分類という3つの異なる下流ネットワークタスクに対して,数発の学習実験を行った。
プレトレーニングベースから微調整されたモデルは、スクラッチからトレーニングして平均6.87 %の性能向上を実現し、プレトレーニング中に一般的なネットワークトラフィックのダイナミクスを効果的に学習できることを実証した。
この成功は、大規模バージョンが運用基盤モデルとして機能する可能性を示唆している。
Foundation models have shown great promise in various fields of study. A potential application of such models is in computer network traffic analysis, where these models can grasp the complexities of network traffic dynamics and adapt to any specific task or network environment with minimal fine-tuning. Previous approaches have used tokenized hex-level packet data and the model architecture of large language transformer models. We propose a new, efficient graph-based alternative at the flow-level. Our approach represents network traffic as a dynamic spatio-temporal graph, employing a self-supervised link prediction pretraining task to capture the spatial and temporal dynamics in this network graph framework. To evaluate the effectiveness of our approach, we conduct a few-shot learning experiment for three distinct downstream network tasks: intrusion detection, traffic classification, and botnet classification. Models finetuned from our pretrained base achieve an average performance increase of 6.87\% over training from scratch, demonstrating their ability to effectively learn general network traffic dynamics during pretraining. This success suggests the potential for a large-scale version to serve as an operational foundational model. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# ガウス過程回帰法の最近の進歩
Review of Recent Advances in Gaussian Process Regression Methods ( http://arxiv.org/abs/2409.08112v1 ) ライセンス: Link先を確認 | Chenyi Lyu, Xingchi Liu, Lyudmila Mihaylova, | (参考訳) ガウス過程(GP)法は近年広く研究されており、特にビッグデータを持つ大規模システムや、データ不足時にさらに極端な場合について研究されている。
これらの方法の主な利点は次の通りである。
1)不確実性(特にデータ及び環境)がソリューションに与える影響を評価するための本質的な方法を提供する能力。
2) 効率的な因数分解に基づく実装
3.3は分散した方法で簡単に実装できるため、スケーラブルなソリューションを提供する。
本稿では,最近開発された階層型外対角低ランク近似法やKronecker構造を持つGPなどの重要な因子化GP法について概説する。
例として、これらの手法の精度と計算複雑性に関する性能を例に挙げる。
Gaussian process (GP) methods have been widely studied recently, especially for large-scale systems with big data and even more extreme cases when data is sparse. Key advantages of these methods consist in: 1) the ability to provide inherent ways to assess the impact of uncertainties (especially in the data, and environment) on the solutions, 2) have efficient factorisation based implementations and 3) can be implemented easily in distributed manners and hence provide scalable solutions. This paper reviews the recently developed key factorised GP methods such as the hierarchical off-diagonal low-rank approximation methods and GP with Kronecker structures. An example illustrates the performance of these methods with respect to accuracy and computational complexity. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 匿名ネットワークセンシンググラフチャレンジ
Anonymized Network Sensing Graph Challenge ( http://arxiv.org/abs/2409.08115v1 ) ライセンス: Link先を確認 | Hayden Jananthan, Michael Jones, William Arcand, David Bestor, William Bergeron, Daniel Burrill, Aydin Buluc, Chansup Byun, Timothy Davis, Vijay Gadepally, Daniel Grant, Michael Houle, Matthew Hubbell, Piotr Luszczek, Peter Michaleas, Lauren Milechin, Chasen Milner, Guillermo Morales, Andrew Morris, Julie Mullen, Ritesh Patel, Alex Pentland, Sandeep Pisharody, Andrew Prout, Albert Reuther, Antonio Rosa, Gabriel Wachman, Charles Yee, Jeremy Kepner, | (参考訳) MIT/IEEE/Amazon GraphChallengeは、ソーシャルメディア、センサーフィード、科学データから得られるグラフとスパースデータを分析し、フィールドで展開するイベント間の関係を検出する新しいソリューションを開発するためのコミュニティアプローチを奨励している。
匿名化されたネットワークセンシング グラフチャレンジは、大規模でオープンなコミュニティベースのネットワーク保護アプローチの実現を目指している。
多くの大規模ネットワーク問題は、プライバシーと強力なコミュニティ購入を最も尊重する、非常に広いデータセットへのコミュニティアクセスによってのみ解決できる。
このようなアプローチは、しばしばコミュニティベースのデータ共有を必要とする。
より広範なネットワークコミュニティ(商業、連邦、アカデミック)では、標準データ共有契約によるソース・ツー・デスティネーションのトラフィック行列が、これらの要求の多くを満たすデータ製品として出現している。
この課題は、世界最大のインターネット望遠鏡(CAIDA)から得られた1000億以上のネットワークパケットを用いて、匿名化されたトラフィック行列の構築と分析を最適化するための新しいアプローチを強調する機会を提供する。
この課題は、これらのトラフィック行列の匿名化、構築、分析である。
GraphBLASリファレンス実装が提供されているが、このグラフチャレンジではGraphBLASの使用は必要ない。
以前のグラフチャレンジと同様に、ゴールはイノベーションを実証するための明確に定義されたコンテキストを提供することです。
グラフチャレンジの参加者は、イノベーションを強調するのに適したグラフチャレンジの要素を(説明とともに)自由に選択できる。
The MIT/IEEE/Amazon GraphChallenge encourages community approaches to developing new solutions for analyzing graphs and sparse data derived from social media, sensor feeds, and scientific data to discover relationships between events as they unfold in the field. The anonymized network sensing Graph Challenge seeks to enable large, open, community-based approaches to protecting networks. Many large-scale networking problems can only be solved with community access to very broad data sets with the highest regard for privacy and strong community buy-in. Such approaches often require community-based data sharing. In the broader networking community (commercial, federal, and academia) anonymized source-to-destination traffic matrices with standard data sharing agreements have emerged as a data product that can meet many of these requirements. This challenge provides an opportunity to highlight novel approaches for optimizing the construction and analysis of anonymized traffic matrices using over 100 billion network packets derived from the largest Internet telescope in the world (CAIDA). This challenge specifies the anonymization, construction, and analysis of these traffic matrices. A GraphBLAS reference implementation is provided, but the use of GraphBLAS is not required in this Graph Challenge. As with prior Graph Challenges the goal is to provide a well-defined context for demonstrating innovation. Graph Challenge participants are free to select (with accompanying explanation) the Graph Challenge elements that are appropriate for highlighting their innovations. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 不安定真空中のQED補正
QED Corrections in Unstable Vacuum ( http://arxiv.org/abs/2409.08121v1 ) ライセンス: Link先を確認 | V. A. Zaytsev, V. A. Yerokhin, C. H. Keitel, N. S. Oreshkina, | (参考訳) 超臨界クーロン場において、量子電磁力学(QED)における自己エネルギーと真空分極効果が計算され、ディラックエネルギーレベルが負のエネルギー連続体に埋め込まれる。
この状態において、量子真空は不安定になり、自発的な電子-陽電子対が生成される。
QED補正の想像的部分を計算することで、真空不安定な未探索チャネルへのアクセスが得られる。
以上の結果から, この放射チャネルは超臨界状態のしきい値付近で大幅に増強され, 微細構造定数$\alpha$に対する非摂動効果の証拠が得られた。
したがって、自然対生成の総確率は、特に超臨界しきい値付近のディラック理論の予測と大きく異なる可能性がある。
Self-energy and vacuum polarization effects in quantum electrodynamics (QED) are calculated for the supercritical Coulomb field, where Dirac energy levels become embedded in the negative-energy continuum. In this regime, the quantum vacuum becomes unstable, resulting in spontaneous electron-positron pair creation. By calculating the imaginary part of the QED correction, we gain access to an unexplored channel of vacuum instability: radiative spontaneous pair creation. Our results show that this radiative channel is greatly enhanced in the vicinity of the threshold of the supercritical regime, providing evidence for nonperturbative effects with respect to the fine-structure constant $\alpha$. We therefore conjecture that the total probability of spontaneous pair creation could differ significantly from the predictions of Dirac theory, especially near the supercritical threshold. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# GAZEploit:VR/MRデバイスにおけるアバタービューからの注視推定によるリモートキーストローク推論攻撃
GAZEploit: Remote Keystroke Inference Attack by Gaze Estimation from Avatar Views in VR/MR Devices ( http://arxiv.org/abs/2409.08122v1 ) ライセンス: Link先を確認 | Hanqiu Wang, Zihao Zhan, Haoqi Shan, Siqi Dai, Max Panoff, Shuo Wang, | (参考訳) VR(Virtual Reality)とMR(Mixed Reality)ソリューションの出現と人気は、私たちがデジタルプラットフォームと対話する方法に革命をもたらした。
最先端の視線制御型タイピング方式は、今やこれらのデバイスのハイエンドモデル、例えばApple Vision Proでは、ユーザー体験の改善だけでなく、手の動き、頭部の動き、音響サイドチャネルに依存する従来のキーストローク推論攻撃を緩和している。
しかし、この進歩はパラドックス的に、新たな、より威圧的なサイバー脅威であるGAZEploitを生んだ。
本稿では,VRアプリケーションにおける仮想外観の共通利用を活用して,視線追跡情報を利用した新たな眼球追跡攻撃であるGAZEploitを公表する。
この利用は、既存の方法と比較して、我々の攻撃の実用性と実現可能性を大幅に向上させる。
GAZEploitはこの脆弱性を利用して、リモートで視線推定を抽出し、メッセージ、パスワード、URL、メール、パスコードなど、さまざまなタイプシナリオにわたる機密キーストローク情報を盗む。
30名以上の被験者を対象に,キーストローク推論の精度を80%以上達成した。
また本誌の調査では、Apple Storeの上位15あまりのアプリがGAZEploit攻撃の被害に遭っており、この最先端のVR/MRテキスト入力方法に対する緊急のセキュリティ対策の必要性を強調している。
The advent and growing popularity of Virtual Reality (VR) and Mixed Reality (MR) solutions have revolutionized the way we interact with digital platforms. The cutting-edge gaze-controlled typing methods, now prevalent in high-end models of these devices, e.g., Apple Vision Pro, have not only improved user experience but also mitigated traditional keystroke inference attacks that relied on hand gestures, head movements and acoustic side-channels. However, this advancement has paradoxically given birth to a new, potentially more insidious cyber threat, GAZEploit. In this paper, we unveil GAZEploit, a novel eye-tracking based attack specifically designed to exploit these eye-tracking information by leveraging the common use of virtual appearances in VR applications. This widespread usage significantly enhances the practicality and feasibility of our attack compared to existing methods. GAZEploit takes advantage of this vulnerability to remotely extract gaze estimations and steal sensitive keystroke information across various typing scenarios-including messages, passwords, URLs, emails, and passcodes. Our research, involving 30 participants, achieved over 80% accuracy in keystroke inference. Alarmingly, our study also identified over 15 top-rated apps in the Apple Store as vulnerable to the GAZEploit attack, emphasizing the urgent need for bolstered security measures for this state-of-the-art VR/MR text entry method. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 局所精製テンソルネットワークのリンドブラディアンダイナミクスに対するリーマン的アプローチ
A Riemannian Approach to the Lindbladian Dynamics of a Locally Purified Tensor Network ( http://arxiv.org/abs/2409.08127v1 ) ライセンス: Link先を確認 | Emiliano Godinez-Ramirez, Richard Milbradt, Christian B. Mendl, | (参考訳) テンソルネットワークは、近辺結合を持つ多体開量子系においてリンドブレディアン力学を実装するための貴重なフレームワークを提供する。
特に、局所精製密度演算子として知られるテンソルネットワークアンサッツは、常に状態の正当性を保証するために密度行列の局所的な精製を用いる。
この枠組みの中では、散逸進化はトロッタースズキ分裂を利用し、二階近似誤差をもたらす。
しかし、リンドブラディアン力学の性質のため、高次スキームを用いることで非物理量子チャネルが得られる。
本研究では、量子チャネルのクラウス表現に固有のゲージ自由を利用して、分割誤差を改善する。
この目的のために、アイソメトリーのリーマン多様体上の最適化問題を定式化し、2階信頼領域アルゴリズムによる解を求める。
2つの近接雑音モデルを用いて本手法の有効性を検証し,他の定性保存方式と比較して桁違いの精度向上を実現した。
さらに,本手法の圧縮手法としての有用性を実証し,計算資源の指数的成長の制御に有効であることを示す。
Tensor networks offer a valuable framework for implementing Lindbladian dynamics in many-body open quantum systems with nearest-neighbor couplings. In particular, a tensor network ansatz known as the Locally Purified Density Operator employs the local purification of the density matrix to guarantee the positivity of the state at all times. Within this framework, the dissipative evolution utilizes the Trotter-Suzuki splitting, yielding a second-order approximation error. However, due to the Lindbladian dynamics' nature, employing higher-order schemes results in non-physical quantum channels. In this work, we leverage the gauge freedom inherent in the Kraus representation of quantum channels to improve the splitting error. To this end, we formulate an optimization problem on the Riemannian manifold of isometries and find a solution via the second-order trust-region algorithm. We validate our approach using two nearest-neighbor noise models and achieve an improvement of orders of magnitude compared to other positivity-preserving schemes. In addition, we demonstrate the usefulness of our method as a compression scheme, helping to control the exponential growth of computational resources, which thus far has limited the use of the locally purified ansatz. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# JPEG Plenoラーニングベースのポイントクラウドコーディング標準:人間とマシンのシリアル
The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine ( http://arxiv.org/abs/2409.08130v1 ) ライセンス: Link先を確認 | André F. R. Guarda, Nuno M. M. Rodrigues, Fernando Pereira, | (参考訳) バーチャルリアリティ、自律運転、デジタルツインシステムといった複数のアプリケーションにおいて、リッチでインタラクティブな3Dデータ表現が機能的に違いを生じさせる、効率的なポイントクラウドコーディングがますます重要になっている。
ディープラーニングは、この領域で強力なツールとして登場し、従来のコーディング手法よりも効率的なポイントクラウドの圧縮技術を提供しながら、圧縮されたドメインで実行された効率的なコンピュータビジョンタスクを初めて実現し、人間と機械の両方に有効な共通の圧縮された視覚表現を提供する。
この可能性を生かして、JPEGはJPEG Pleno LearningベースのPoint Cloud Coding(PCC)標準を完了した。静的ポイントクラウドの効率の悪いコーディングを提供し、幾何学とカラーコーディングのためのディープラーニングモデルを活用することで、人間の可視化と機械学習の両方をターゲットにしている。
ジオメトリは、スパース畳み込みニューラルネットワークを使用して、元の3D形式で直接処理され、カラーデータは2Dイメージに投影され、学習ベースのJPEG AI標準を使用してエンコードされる。
本論文の目的は、JPEG PCC標準の完全な技術的記述と、最先端技術に対するパフォーマンスの徹底的なベンチマークを提供することであり、その主な強みと弱点を強調している。
圧縮性能の面では、JPEG PCCは従来のMPEG PCC標準、特に幾何符号化よりも優れており、大幅な速度低下を実現している。
色圧縮性能は競争力に欠けるが、これは幾何学と色の両方とそれに関連する効果的な圧縮ドメイン処理のための完全な学習ベースのコーディングフレームワークの力によって克服される。
Efficient point cloud coding has become increasingly critical for multiple applications such as virtual reality, autonomous driving, and digital twin systems, where rich and interactive 3D data representations may functionally make the difference. Deep learning has emerged as a powerful tool in this domain, offering advanced techniques for compressing point clouds more efficiently than conventional coding methods while also allowing effective computer vision tasks performed in the compressed domain thus, for the first time, making available a common compressed visual representation effective for both man and machine. Taking advantage of this potential, JPEG has recently finalized the JPEG Pleno Learning-based Point Cloud Coding (PCC) standard offering efficient lossy coding of static point clouds, targeting both human visualization and machine processing by leveraging deep learning models for geometry and color coding. The geometry is processed directly in its original 3D form using sparse convolutional neural networks, while the color data is projected onto 2D images and encoded using the also learning-based JPEG AI standard. The goal of this paper is to provide a complete technical description of the JPEG PCC standard, along with a thorough benchmarking of its performance against the state-of-the-art, while highlighting its main strengths and weaknesses. In terms of compression performance, JPEG PCC outperforms the conventional MPEG PCC standards, especially in geometry coding, achieving significant rate reductions. Color compression performance is less competitive but this is overcome by the power of a full learning-based coding framework for both geometry and color and the associated effective compressed domain processing. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 非相反量子吸収のための時空間光子遮断
Spatiotemporal Photon Blockade for Nonreciprocal Quantum Absorption ( http://arxiv.org/abs/2409.08137v1 ) ライセンス: Link先を確認 | Sajjad Taravati, | (参考訳) 光子の流れを制御することは、量子技術の進歩に不可欠である。
時空間-周期的準曲面を用いた非相互量子吸収のための時空間光子遮断の概念を導入する。
本研究では, この効果を実験的に実現するための方法論を提案し, 準曲面の時空間変調と光子周波数のコヒーレンスにより, 片方向量子吸収が可能となることを示した。
本システムでは、前方移動光子はスラブ内でエネルギー的に変調・吸収され、後方移動光子は相互作用なく伝達される。
我々の分析には、バンド構造、等周波図、非相互吸収結果が含まれる。
これらの発見は、ミリケルビン温度量子系における非相互量子デバイスの開発と光子管理の強化の基礎となった。
Controlling the flow of photons is crucial for advancing quantum technologies. We introduce the concept of spatiotemporal photon blockade for nonreciprocal quantum absorption, utilizing space-time-periodic metasurfaces. Our study presents a methodology for experimentally realizing this effect, where photon frequency coherence with the metasurface's space-time modulation enables one-way quantum absorption. In this system, forward-traveling photons are energetically modulated and absorbed within the slab, while backward-traveling photons are transmitted without interaction. Our analysis includes band structure, isofrequency diagrams, and nonreciprocal absorption results. These findings lay the groundwork for developing nonreciprocal quantum devices and enhancing photon management in milli-Kelvin temperature quantum systems. | 翻訳日:2024-09-13 16:07:58 公開日:2024-09-12 |
# 簡単なアプローチによる外傷後グリオーマの効果的な分別:人工シーケンス生成とエンサンブルモデル
Effective Segmentation of Post-Treatment Gliomas Using Simple Approaches: Artificial Sequence Generation and Ensemble Models ( http://arxiv.org/abs/2409.08143v1 ) ライセンス: Link先を確認 | Heejong Kim, Leo Milecki, Mina C Moghadam, Fengbei Liu, Minh Nguyen, Eric Qiu, Abhishek Thanki, Mert R Sabuncu, | (参考訳) セグメンテーションは医療画像分野において重要な課題であり、しばしば重要な一次ステップであり、医療量分析の前提条件でもある。
しかし、手術などの治療は、興味のある領域の正確な記述を複雑にする。
BraTS Post-Treatment 2024 Challengeは、外科手術後のグリオーマセグメンテーションのための最初の公開データセットを出版し、MRIデータにおけるグリオーマの自動セグメンテーションツールの開発を促進することで、前述の問題に対処した。
本研究では,ディープラーニング手法のセグメンテーション性能を高めるための2つの簡単なアプローチを提案する。
まず、利用可能なMRIシーケンス入力の単純な線形結合に基づく追加入力を組み込み、腫瘍の増強を強調させる。
第二に、モデルのバッテリの寄与を測るために様々なアンサンブル手法を用いる。
以上の結果から,これらの手法はベースラインモデルに比べてセグメンテーション性能が有意に向上し,医用画像セグメンテーションタスクの改善におけるこれらの単純な手法の有効性が示唆された。
Segmentation is a crucial task in the medical imaging field and is often an important primary step or even a prerequisite to the analysis of medical volumes. Yet treatments such as surgery complicate the accurate delineation of regions of interest. The BraTS Post-Treatment 2024 Challenge published the first public dataset for post-surgery glioma segmentation and addresses the aforementioned issue by fostering the development of automated segmentation tools for glioma in MRI data. In this effort, we propose two straightforward approaches to enhance the segmentation performances of deep learning-based methodologies. First, we incorporate an additional input based on a simple linear combination of the available MRI sequences input, which highlights enhancing tumors. Second, we employ various ensembling methods to weigh the contribution of a battery of models. Our results demonstrate that these approaches significantly improve segmentation performance compared to baseline models, underscoring the effectiveness of these simple approaches in improving medical image segmentation tasks. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# LLM-POTUS Score: 大規模言語モデルによる大統領討論の分析フレームワーク
LLM-POTUS Score: A Framework of Analyzing Presidential Debates with Large Language Models ( http://arxiv.org/abs/2409.08147v1 ) ライセンス: Link先を確認 | Zhengliang Liu, Yiwei Li, Oleksandra Zolotarevych, Rongwei Yang, Tianming Liu, | (参考訳) 大規模言語モデルは自然言語処理において顕著な能力を示してきたが、政治談話分析への応用はいまだ未解明である。
本稿では,LLMを用いた大統領討論会のパフォーマンス評価に新たなアプローチを導入し,議論成果を客観的に評価する上での長年の課題に対処する。
本研究では, 候補者の「政策, ペルソナ, パーソナ, パースペクティブ」(3P)を分析し, 有権者, 企業, ドナー, 政治家の4つの主要オーディエンスグループの「関心, イデオロギー, アイデンティティ」とどのように共鳴するかを分析する枠組みを提案する。
提案手法では,3Pと3Iのアライメントに基づく議論性能の定量的尺度であるLLM-POTUS Scoreを生成するために,大規模言語モデルを用いる。
本稿では,近年の米大統領討論会の原稿の分析にこの枠組みを適用し,候補性能の微妙な多次元評価を行う能力を実証する。
本研究は,様々な議論戦略の有効性と,様々なオーディエンスセグメントへの影響について考察した。
本研究は、政治分析のための新しいツールを提供するだけでなく、複雑な社会的文脈における公平な判断としてLLMを使用することの可能性と限界についても検討する。
さらに、この枠組みは、個人の市民に、民主的エンゲージメントを高め、潜在的に偏見のあるメディア解釈と制度的影響力への依存を減らし、情報的な市民参加の基盤を強化する、大統領討論のパフォーマンスを評価するための独立したツールを提供する。
Large language models have demonstrated remarkable capabilities in natural language processing, yet their application to political discourse analysis remains underexplored. This paper introduces a novel approach to evaluating presidential debate performances using LLMs, addressing the longstanding challenge of objectively assessing debate outcomes. We propose a framework that analyzes candidates' "Policies, Persona, and Perspective" (3P) and how they resonate with the "Interests, Ideologies, and Identity" (3I) of four key audience groups: voters, businesses, donors, and politicians. Our method employs large language models to generate the LLM-POTUS Score, a quantitative measure of debate performance based on the alignment between 3P and 3I. We apply this framework to analyze transcripts from recent U.S. presidential debates, demonstrating its ability to provide nuanced, multi-dimensional assessments of candidate performances. Our results reveal insights into the effectiveness of different debating strategies and their impact on various audience segments. This study not only offers a new tool for political analysis but also explores the potential and limitations of using LLMs as impartial judges in complex social contexts. In addition, this framework provides individual citizens with an independent tool to evaluate presidential debate performances, which enhances democratic engagement and reduces reliance on potentially biased media interpretations and institutional influence, thereby strengthening the foundation of informed civic participation. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# MagicStyle: 参照画像に基づくポートレートスティル化
MagicStyle: Portrait Stylization Based on Reference Image ( http://arxiv.org/abs/2409.08156v1 ) ライセンス: Link先を確認 | Zhaoli Deng, Kaibin Zhou, Fanyi Wang, Zhenpeng Mi, | (参考訳) 拡散モデルの開発は画像のスタイリゼーションの研究を著しく前進させており、特に、与えられたスタイルの画像に基づいてコンテンツイメージをスタイリングする分野では、多くの学者を惹きつけている。
この参照画像スタイリングタスクの主な課題は、スタイル画像の色とテクスチャの特徴を取り入れながら、コンテンツ画像の詳細を維持する方法にある。
この課題は、コンテンツイメージが複雑なテクスチャの詳細を持つポートレートであるときにさらに顕著になる。
この課題に対処するために、MagicStyleと呼ばれるポートレート専用の拡散モデルに基づく参照画像スタイリング手法を提案する。
MagicStyleはコンテンツとスタイルDDIMインバージョン(CSDI)とFeature Fusion Forward(FFF)の2つのフェーズで構成されている。
CSDIフェーズは、コンテントイメージとスタイルイメージに対してDDIMインバージョンを別々に実行し、インバージョンプロセス中に両方の画像の自己アテンションクエリ、キーと値の特徴を格納する逆復調処理を含む。
FFFフェーズは、事前記憶された特徴クエリ、キー、値からテクスチャと色情報を、よく設計された特徴融合注意(FFA)に基づいて拡散生成プロセスに統合し、前方分解を実行する。
提案するMagicStyleとFFAの有効性を検証するため,総合比較・アブレーション実験を行った。
The development of diffusion models has significantly advanced the research on image stylization, particularly in the area of stylizing a content image based on a given style image, which has attracted many scholars. The main challenge in this reference image stylization task lies in how to maintain the details of the content image while incorporating the color and texture features of the style image. This challenge becomes even more pronounced when the content image is a portrait which has complex textural details. To address this challenge, we propose a diffusion model-based reference image stylization method specifically for portraits, called MagicStyle. MagicStyle consists of two phases: Content and Style DDIM Inversion (CSDI) and Feature Fusion Forward (FFF). The CSDI phase involves a reverse denoising process, where DDIM Inversion is performed separately on the content image and the style image, storing the self-attention query, key and value features of both images during the inversion process. The FFF phase executes forward denoising, harmoniously integrating the texture and color information from the pre-stored feature queries, keys and values into the diffusion generation process based on our Well-designed Feature Fusion Attention (FFA). We conducted comprehensive comparative and ablation experiments to validate the effectiveness of our proposed MagicStyle and FFA. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# SDformer: 奥行き完了のための効率的なエンドツーエンド変換器
SDformer: Efficient End-to-End Transformer for Depth Completion ( http://arxiv.org/abs/2409.08159v1 ) ライセンス: Link先を確認 | Jian Qian, Miao Sun, Ashley Lee, Jie Li, Shenglong Zhuo, Patrick Yin Chiang, | (参考訳) 深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
しかし、優れたハイエンドパフォーマンスにもかかわらず、それらは限られた表現領域に悩まされる。
CNNの欠点を克服するために、より効果的で強力な方法として、適応的な自己アテンション設定シーケンス・ツー・シーケンスモデルであるTransformerが提示されている。
標準のTransformerは入力解像度のキー・クエリ・ドット積から計算コストを2倍に増やすが、深さ完了タスクは不適切に使用する。
本研究では,Sparse-to-Dense Transformer (SDformer) と呼ばれる深度完了タスクのための異なるウィンドウベースのTransformerアーキテクチャを提案する。
ネットワークは、深度マップ用の入力モジュールと、深度マップの抽出と連結のためのRGB画像特徴抽出と、深度マップを抽出するU字型エンコーダデコーダ変換器と、精細モジュールとから構成される。
具体的には、入力モデルにより、まず深度マップの特徴とRGB画像の特徴を結合する。
そして,特徴マップ全体の自己注意を計算する代わりに,異なるウィンドウサイズを適用して,長距離深度依存性を抽出する。
最後に,入力モジュールとU字型エンコーダ・デコーダ・トランスフォーマ・モジュールから予測された特徴を改良し,拡張深度を求めるとともに,畳み込み層を用いて深度マップを得る。
実際には、SDformerは、NYU Depth V2とKITTI DCデータセットの計算負荷とパラメータが低いCNNベースの深度補完モデルに対して、最先端の結果を得る。
Depth completion aims to predict dense depth maps with sparse depth measurements from a depth sensor. Currently, Convolutional Neural Network (CNN) based models are the most popular methods applied to depth completion tasks. However, despite the excellent high-end performance, they suffer from a limited representation area. To overcome the drawbacks of CNNs, a more effective and powerful method has been presented: the Transformer, which is an adaptive self-attention setting sequence-to-sequence model. While the standard Transformer quadratically increases the computational cost from the key-query dot-product of input resolution which improperly employs depth completion tasks. In this work, we propose a different window-based Transformer architecture for depth completion tasks named Sparse-to-Dense Transformer (SDformer). The network consists of an input module for the depth map and RGB image features extraction and concatenation, a U-shaped encoder-decoder Transformer for extracting deep features, and a refinement module. Specifically, we first concatenate the depth map features with the RGB image features through the input model. Then, instead of calculating self-attention with the whole feature maps, we apply different window sizes to extract the long-range depth dependencies. Finally, we refine the predicted features from the input module and the U-shaped encoder-decoder Transformer module to get the enriching depth features and employ a convolution layer to obtain the dense depth map. In practice, the SDformer obtains state-of-the-art results against the CNN-based depth completion models with lower computing loads and parameters on the NYU Depth V2 and KITTI DC datasets. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 読解時間予測における文脈の役割について
On the Role of Context in Reading Time Prediction ( http://arxiv.org/abs/2409.08160v1 ) ライセンス: Link先を確認 | Andreas Opedal, Eleanor Chodroff, Ryan Cotterell, Ethan Gotlieb Wilcox, | (参考訳) 我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位(例えば,単語)の処理作業が,文脈内情報の内容のアフィン関数であることを示す。
まず,文脈予測器が言語モデルから導出できる可能性の多さのうちの1つであることを考察する。
もう一つは、単位とその文脈の間のポイントワイド相互情報(PMI)であり、これは一グラムの周波数を制御しているときに、素数と同じ予測力が得られる。
さらに、PMIとサブプライサルは周波数と相関する。
これは PMI も sprisal もコンテキストのみに関する情報を含まないことを意味する。
これに対応して、周波数の直交補体に仮定を投影し、周波数とは無関係な新しい文脈予測器を生成する手法を提案する。
本実験は, 文脈が直交予測器で表される場合, 文脈によって説明される読解時間のばらつきの割合がはるかに小さいことを示す。
解釈可能性の観点からは、過去の研究が読解時間の予測において文脈が果たす役割を過大評価していた可能性があることを示している。
We present a new perspective on how readers integrate context during real-time language comprehension. Our proposals build on surprisal theory, which posits that the processing effort of a linguistic unit (e.g., a word) is an affine function of its in-context information content. We first observe that surprisal is only one out of many potential ways that a contextual predictor can be derived from a language model. Another one is the pointwise mutual information (PMI) between a unit and its context, which turns out to yield the same predictive power as surprisal when controlling for unigram frequency. Moreover, both PMI and surprisal are correlated with frequency. This means that neither PMI nor surprisal contains information about context alone. In response to this, we propose a technique where we project surprisal onto the orthogonal complement of frequency, yielding a new contextual predictor that is uncorrelated with frequency. Our experiments show that the proportion of variance in reading times explained by context is a lot smaller when context is represented by the orthogonalized predictor. From an interpretability standpoint, this indicates that previous studies may have overstated the role that context has in predicting reading times. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 非同期投票型ブロックチェーンに関する研究
A Study on Asynchronous Vote-based Blockchains ( http://arxiv.org/abs/2409.08161v1 ) ライセンス: Link先を確認 | Yibin Xu, Jianhua Shao, Tijs Slaats, Boris Düdder, Yongluan Zhou, | (参考訳) 投票ベースのブロックチェーンは、Byzantine Fault Tolerance(BFT)コンセンサスプロトコルを使用して、参加ノード間でステートマシンレプリケーション(SMR)システムを構築し、状態から別の状態へ移行する。
現時点では、リーダベースのコーディネーションを備えた同期ネットワークまたは部分同期ネットワーク、あるいは非同期設定におけるコストの高い非同期共通サブセット(ACS)プロトコルに依存しているため、大規模な非同期アプリケーションでは実用的ではない。
本稿では、非同期SMRをスケーラブルにするために、非同期設定におけるリーダベースの協調を可能にする、emph{validated strong} BFTコンセンサスモデルを提案する。
我々のBFTコンセンサスモデルは、バイナリビザンチン合意と同じレベルの寛容性を提供するが、投票前に正直なノード間で一貫性を求めることはない。
我々のモデルを用いたSMRにより、ノードは同じ状態に収束するまで、異なる、仮の、そして相互排他的な状態でノードを動作させることができる。
投票ラウンド全体でノードが最終的に同じ状態に収束することを保証する方法、ブロックチェーンがエポックを通じて着実に進行することを保証する方法、以前のエポックに対するコンセンサスに到達し、堅牢なビザンチンフォールトトレランスを維持する方法について、いくつかの重要な課題に対処するために、投票ベースのブロックチェーンを対象とした非同期なBFTプロトコルを提案する。
我々のプロトコルはメッセージの複雑さを大幅に減らし、しきい値のシグネチャに頼ることなく線形ビューの変更を実現する最初のプロトコルです。
当社のプロトコル上に構築された非同期ブロックチェーンは,‘emph{same}’のシンプルさと効率性を,HotStuff-2などの部分同期ブロックチェーンとして実現可能であることを証明しています。
これにより、大規模なネットワークに非同期ブロックチェーンをデプロイすることが可能になる。
Vote-based blockchains construct a state machine replication (SMR) system among participating nodes, using Byzantine Fault Tolerance (BFT) consensus protocols to transition from one state to another. Currently, they rely on either synchronous or partially synchronous networks with leader-based coordination or costly Asynchronous Common Subset (ACS) protocols in asynchronous settings, making them impractical for large-scale asynchronous applications. To make Asynchronous SMR scalable, this paper proposes a \emph{validated strong} BFT consensus model that allows leader-based coordination in asynchronous settings. Our BFT consensus model offers the same level of tolerance as binary byzantine agreement but does not demand consistency among honest nodes before they vote. An SMR using our model allows nodes to operate in different, tentative, but mutually exclusive states until they eventually converge on the same state. We propose an asynchronous BFT protocol for vote-based blockchains employing our consensus model to address several critical challenges: how to ensure that nodes eventually converge on the same state across voting rounds, how to assure that a blockchain will steadily progress through epochs while reaching consensus for previous epochs, and how to maintain robust byzantine fault tolerance. Our protocol greatly reduces message complexity and is the first one to achieve linear view changes without relying on threshold signatures. We prove that an asynchronous blockchain built on our protocol can operate with the \emph{same} simplicity and efficiency as partially synchronous blockchains built on, e.g. HotStuff-2. This facilitates deploying asynchronous blockchains across large-scale networks. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 手動・非手動手話分析におけるクロスアテンションに基づく影響モデル
Cross-Attention Based Influence Model for Manual and Nonmanual Sign Language Analysis ( http://arxiv.org/abs/2409.08162v1 ) ライセンス: Link先を確認 | Lipisha Chaudhary, Fei Xu, Ifeoma Nwogu, | (参考訳) 手(手)と非手動マーカー(NMM)の両方が、アメリカ手話(ASL)におけるフレーズの完全な意味を提供するのに重要である。
手話や文字による言語理解への手話の進歩には努力が払われているが、その多くは手動機能のみに重点を置いている。
本研究では, 高度なニューラルネットワーク翻訳手法を用いて, 表情が手話句の理解にどの程度貢献するかを調査, 報告する。
本稿では,2ストリームエンコーダと顔を扱うエンコーダ,上半身を扱う(手)エンコーダからなる手話翻訳アーキテクチャを提案する。
本稿では,各入力モードが出力に与える影響を定量化するのに有用な,新しい並列クロスアテンション復号機構を提案する。
エンコーダからの2つのストリームは、デコーダ内の異なるアテンションスタックに同時に向けられる。
パラレル・クロスアテンション・ウェイトの特性を調べることで,翻訳作業中の身体や手の特徴と比較して,顔のマーカーの重要性を分析することができる。
Both manual (relating to the use of hands) and non-manual markers (NMM), such as facial expressions or mouthing cues, are important for providing the complete meaning of phrases in American Sign Language (ASL). Efforts have been made in advancing sign language to spoken/written language understanding, but most of these have primarily focused on manual features only. In this work, using advanced neural machine translation methods, we examine and report on the extent to which facial expressions contribute to understanding sign language phrases. We present a sign language translation architecture consisting of two-stream encoders, with one encoder handling the face and the other handling the upper body (with hands). We propose a new parallel cross-attention decoding mechanism that is useful for quantifying the influence of each input modality on the output. The two streams from the encoder are directed simultaneously to different attention stacks in the decoder. Examining the properties of the parallel cross-attention weights allows us to analyze the importance of facial markers compared to body and hand features during a translating task. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# セルセグメンテーションのためのオープンソース基盤
Open Source Infrastructure for Automatic Cell Segmentation ( http://arxiv.org/abs/2409.08163v1 ) ライセンス: Link先を確認 | Aaron Rock Menezes, Bharath Ramsundar, | (参考訳) 細胞分割の自動化は、様々な生物学的、医学的応用に不可欠であり、細胞カウント、形態解析、薬物発見などの作業を容易にする。
しかし、手動のセグメンテーションは時間がかかり、主観的になりがちであり、堅牢な自動手法を必要とする。
本稿では, ディープラーニングアーキテクチャであるUNetモデルを用いて, 画像セグメンテーションタスクの有効性を示すオープンソースインフラストラクチャを提案する。
この実装はオープンソースのDeepChemパッケージに統合され、研究者や実践者のアクセシビリティとユーザビリティを高める。
このツールは便利なユーザフレンドリーなインターフェースを提供し、高い精度を維持しつつ、セルセグメンテーションの参入障壁を低減する。
さらに、このモデルを様々なデータセットに対してベンチマークし、様々な画像条件や細胞タイプにまたがる堅牢性と汎用性を実証する。
Automated cell segmentation is crucial for various biological and medical applications, facilitating tasks like cell counting, morphology analysis, and drug discovery. However, manual segmentation is time-consuming and prone to subjectivity, necessitating robust automated methods. This paper presents open-source infrastructure, utilizing the UNet model, a deep-learning architecture noted for its effectiveness in image segmentation tasks. This implementation is integrated into the open-source DeepChem package, enhancing accessibility and usability for researchers and practitioners. The resulting tool offers a convenient and user-friendly interface, reducing the barrier to entry for cell segmentation while maintaining high accuracy. Additionally, we benchmark this model against various datasets, demonstrating its robustness and versatility across different imaging conditions and cell types. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 高周波アンチDreamBooth:画像合成に対するロバスト防御
High-Frequency Anti-DreamBooth: Robust Defense Against Image Synthesis ( http://arxiv.org/abs/2409.08167v1 ) ライセンス: Link先を確認 | Takuto Onikubo, Yusuke Matsui, | (参考訳) 近年、テキスト・ツー・イメージ生成モデルが誤用されて、個人が無許可で悪意ある画像を作成するようになり、社会的な問題が高まっている。
アンチDreamBoothのような以前のソリューションは、悪意のある世代のためのトレーニングデータとして使用されるのを防ぐために、画像に敵対的なノイズを追加する。
しかし, DiffPure などの逆流浄化法により, 逆流音を除去できることが判明した。
そこで本稿では, 画像の高周波領域に強い摂動を付加し, 対人浄化をより堅牢にする新たな対人攻撃法を提案する。
実験の結果, 敵画像は, 敵画像の浄化後もノイズを保ち, 悪意のある画像生成を妨げていることがわかった。
Recently, text-to-image generative models have been misused to create unauthorized malicious images of individuals, posing a growing social problem. Previous solutions, such as Anti-DreamBooth, add adversarial noise to images to protect them from being used as training data for malicious generation. However, we found that the adversarial noise can be removed by adversarial purification methods such as DiffPure. Therefore, we propose a new adversarial attack method that adds strong perturbation on the high-frequency areas of images to make it more robust to adversarial purification. Our experiment showed that the adversarial images retained noise even after adversarial purification, hindering malicious image generation. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 術前MRと術中超音波における2次元キーポイントの一致の学習
Learning to Match 2D Keypoints Across Preoperative MR and Intraoperative Ultrasound ( http://arxiv.org/abs/2409.08169v1 ) ライセンス: Link先を確認 | Hassan Rasheed, Reuben Dorent, Maximilian Fehrentz, Tina Kapur, William M. Wells III, Alexandra Golby, Sarah Frisken, Julia A. Schnabel, Nazim Haouchine, | (参考訳) 本稿では,術前MR画像と術中超音波画像との整合性を考慮したテクスチャ不変2Dキーポイント記述法を提案する。
複数MRモードと術中US変動を考慮したMR画像から術中US画像を合成するマッチング・バイ・シンセシス方式を提案する。
我々は,すべての画像に対してキーポイントのローカライゼーションを強制してトレーニングセットを構築し,テクスチャ不変の識別特徴を教師付きコントラスト方式で学習する患者固有のディスクリプタネットワークをトレーニングし,ロバストなキーポイント記述を実現する。
本実験は, 提案手法の有効性を実証し, 最先端の手法に勝り, マッチング精度を平均80.35%向上した。
We propose in this paper a texture-invariant 2D keypoints descriptor specifically designed for matching preoperative Magnetic Resonance (MR) images with intraoperative Ultrasound (US) images. We introduce a matching-by-synthesis strategy, where intraoperative US images are synthesized from MR images accounting for multiple MR modalities and intraoperative US variability. We build our training set by enforcing keypoints localization over all images then train a patient-specific descriptor network that learns texture-invariant discriminant features in a supervised contrastive manner, leading to robust keypoints descriptors. Our experiments on real cases with ground truth show the effectiveness of the proposed approach, outperforming the state-of-the-art methods and achieving 80.35% matching precision on average. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# AD-Lite Net:MRI画像からのアルツハイマー検出のための軽量CNNモデル
AD-Lite Net: A Lightweight and Concatenated CNN Model for Alzheimer's Detection from MRI Images ( http://arxiv.org/abs/2409.08170v1 ) ライセンス: Link先を確認 | Santanu Roy, Archit Gupta, Shubhi Tiwari, Palak Sahu, | (参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は、ヒトの脳に影響を及ぼす非硬化性進行性神経変性疾患であり、記憶力、認知能力の低下、そして最終的には日常的なタスクを実行する能力の低下につながる。
MRI画像からのアルツハイマー病の診断は感度が低く、神経科医にとって非常に面倒なプロセスである。
そのため,ADを早期に高精度に検出できるCADシステムが必要である。
本研究では,上記の問題を緩和できる新しいAD-Lite Netモデル(スクラッチから学習)を提案する。
I)Depth Wise Separable Convolutional(DWSC)層とGlobal Average Pooling(GAP)層を統合することで、非常に軽量なCNNモデルを提案しました。
(II)
提案した AD-Lite Net モデルでは ``parallel concatenation block'' (pcb) を利用した。
このpcbは変換層(Tx層)と2つの畳み込み層から構成され、それによって元のベースモデルと結合する。
このTx層は、この特徴をアルツハイマー病に必須である非常に異なる種類の特徴に変換する。
その結果, ``parallel concatenation'' を用いた AD-Lite Net モデルはより高速に収束し,MRI データセットからクラス不均衡問題を自動的に緩和する。
提案モデルの有効性について,3種類のMRIデータセットに実装した。
さらに、ADNIとADデータセットを組み合わせて、10倍のクロスバリデーション実験を行い、モデルの一般化能力を検証した。
その結果,提案モデルが既存のCNNモデルよりも優れており,近年のViT(Vision Transformer)モデルでは大きな差がみられた。
Alzheimer's Disease (AD) is a non-curable progressive neurodegenerative disorder that affects the human brain, leading to a decline in memory, cognitive abilities, and eventually, the ability to carry out daily tasks. Manual diagnosis of Alzheimer's disease from MRI images is fraught with less sensitivity and it is a very tedious process for neurologists. Therefore, there is a need for an automatic Computer Assisted Diagnosis (CAD) system, which can detect AD at early stages with higher accuracy. In this research, we have proposed a novel AD-Lite Net model (trained from scratch), that could alleviate the aforementioned problem. The novelties we bring here in this research are, (I) We have proposed a very lightweight CNN model by incorporating Depth Wise Separable Convolutional (DWSC) layers and Global Average Pooling (GAP) layers. (II) We have leveraged a ``parallel concatenation block'' (pcb), in the proposed AD-Lite Net model. This pcb consists of a Transformation layer (Tx-layer), followed by two convolutional layers, which are thereby concatenated with the original base model. This Tx-layer converts the features into very distinct kind of features, which are imperative for the Alzheimer's disease. As a consequence, the proposed AD-Lite Net model with ``parallel concatenation'' converges faster and automatically mitigates the class imbalance problem from the MRI datasets in a very generalized way. For the validity of our proposed model, we have implemented it on three different MRI datasets. Furthermore, we have combined the ADNI and AD datasets and subsequently performed a 10-fold cross-validation experiment to verify the model's generalization ability. Extensive experimental results showed that our proposed model has outperformed all the existing CNN models, and one recent trend Vision Transformer (ViT) model by a significant margin. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# ディープラーニングベースセグメンテーションを用いた低コスト木クラウンダイバック推定
Low-Cost Tree Crown Dieback Estimation Using Deep Learning-Based Segmentation ( http://arxiv.org/abs/2409.08171v1 ) ライセンス: Link先を確認 | M. J. Allen, D. Moreno-Fernández, P. Ruiz-Benito, S. W. D. Grieve, E. R. Lines, | (参考訳) 森林の枯死の世界的な増加は、樹木の葉の死によって特徴づけられ、森林生態系の急激な衰退を招いた。
この劣化は生態系のサービスや機能に大きな変化をもたらし、例えば生息地の供給や炭素の隔離は従来のモニタリング技術では検出が困難であり、大規模で高周波なモニタリングの必要性を強調している。
大規模にデータを収集・処理するための機器や手法の現代的発展は、この監視が可能になったことを意味している。
特に、低価格ドローン技術の進歩と消費者レベルのハードウェアにおけるディープラーニングは、新たな機会を提供する。
本稿では,深層学習と植生指標に基づくアプローチを用いて,LiDARなどの高価な機器を必要とせずに,RGB空中データからクラウンダイバックを評価する。
深層学習によって予測されるクラウンフットプリントと、干ばつによるダイバックを示す地中海生態系のフィールドベース在庫データとを反復的にマッチングし、専門的なフィールドベースクラウンダイバック推定と植生指標に基づく推定を比較した。
我々は、基礎となるMask R-CNNモデルのさらなる技術開発を必要とせずに、高い全体セグメント化精度(mAP:0.519)を得る。
また,色座標に基づくダイバック推定は,専門家のフィールドベース推定とよく相関している。
Mask R-CNNモデル予測のための基礎的真実の置換は、ダイバック推定に無視できない影響を示し、ロバスト性を示している。
本研究は,森林ダイバックモニタリングの網羅性,速度,コストを改善するため,ディープラーニングの適用を含む自動データ収集および処理の可能性を示すものである。
The global increase in observed forest dieback, characterised by the death of tree foliage, heralds widespread decline in forest ecosystems. This degradation causes significant changes to ecosystem services and functions, including habitat provision and carbon sequestration, which can be difficult to detect using traditional monitoring techniques, highlighting the need for large-scale and high-frequency monitoring. Contemporary developments in the instruments and methods to gather and process data at large-scales mean this monitoring is now possible. In particular, the advancement of low-cost drone technology and deep learning on consumer-level hardware provide new opportunities. Here, we use an approach based on deep learning and vegetation indices to assess crown dieback from RGB aerial data without the need for expensive instrumentation such as LiDAR. We use an iterative approach to match crown footprints predicted by deep learning with field-based inventory data from a Mediterranean ecosystem exhibiting drought-induced dieback, and compare expert field-based crown dieback estimation with vegetation index-based estimates. We obtain high overall segmentation accuracy (mAP: 0.519) without the need for additional technical development of the underlying Mask R-CNN model, underscoring the potential of these approaches for non-expert use and proving their applicability to real-world conservation. We also find colour-coordinate based estimates of dieback correlate well with expert field-based estimation. Substituting ground truth for Mask R-CNN model predictions showed negligible impact on dieback estimates, indicating robustness. Our findings demonstrate the potential of automated data collection and processing, including the application of deep learning, to improve the coverage, speed and cost of forest dieback monitoring. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 中心ハブにおける量子エンタングルメントの配置
Quantum Entanglement Allocation through a Central Hub ( http://arxiv.org/abs/2409.08173v1 ) ライセンス: Link先を確認 | Yu-Ao Chen, Xia Liu, Chenghong Zhu, Lei Zhang, Junyu Liu, Xin Wang, | (参考訳) 完全に機能する量子インターネットを確立するには、高度な量子通信プロトコル、セキュアなマルチパーティの量子鍵分布、分散量子コンピューティングを可能にするマルチパーティの絡み合った状態の効率的な割り当てに依存する。
本研究では,中央ハブノードが各終端ノードとベル状態を事前共有する集中ハブアーキテクチャにおいて,一般化された$N$-qubit WおよびGHZ状態を割り当てるためのローカル演算と古典通信(LOCC)プロトコルを提案する。
提案プロトコルは,W と GHZ の各状態に対して,それぞれ2N - 2$ および$N$ 古典的ビットの通信コストを持つ,中央システム内の量子メモリのわずか$N$ qubit を用いて,これらの状態を決定的かつ正確に分散する。
これらのリソース効率のよいプロトコルは、メモリと通信のコストの双方において、従来の通信プロトコルよりも優れた、集中型のハブアーキテクチャの中で最適であることがさらに証明されている。
本研究は, 量子ネットワークにおける本質的な多部絡み合い状態の割当てに, より資源効率のよい方法を提供し, 量子インターネットの実現を効率よく進めるものである。
Establishing a fully functional quantum internet relies on the efficient allocation of multipartite entangled states, which enables advanced quantum communication protocols, secure multipartite quantum key distribution, and distributed quantum computing. In this work, we propose local operations and classical communication (LOCC) protocols for allocating generalized $N$-qubit W and GHZ states within a centralized hub architecture, where the central hub node preshares Bell states with each end node. Our protocols deterministically and exactly distribute these states using only $N$ qubits of quantum memory within the central system, with communication costs of $2N - 2$ and $N$ classical bits for W and GHZ states, respectively. These resource-efficient protocols are further proven to be optimal within the centralized hub architecture, outperforming conventional teleportation protocols for entanglement distribution in both memory and communication costs. Our results provide a more resource-efficient method for allocating essential multipartite entangled states in quantum networks, paving the way for the realization of a quantum internet with enhanced efficiency. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# 頭部運動学に基づく頭部衝撃位置・速度・力の同定
Identification of head impact locations, speeds, and force based on head kinematics ( http://arxiv.org/abs/2409.08177v1 ) ライセンス: Link先を確認 | Xianghao Zhan, Yuzhe Liu, Nicholas J. Cecchi, Jessica Towns, Ashlyn A. Callan, Olivier Gevaert, Michael M. Zeineh, David B. Camarillo, | (参考訳) 目的: 衝撃方向、速度、力を含む頭部衝撃情報は、外傷性脳損傷の研究、保護具の設計、評価に重要である。
本研究は, 頭部運動学に基づく頭部衝撃情報(位置, 速度, 方向, 力)を正確に予測する深層学習モデルを提案する。
方法: リデルヘルメット有限要素モデルを用いて, 16,000個の模擬頭部衝撃のデータセットを用いて, 3軸線形加速度と角速度の頭部運動学処理を行う長短期記憶(LSTM)ネットワークを実装した。
結果: モデルでは, 衝突位置, 方向, 速度, R2 による衝撃力プロファイルを正確に予測した。
さらに、計測されたマウスガードとビデオによって記録されたフィールド上のデータセットを用いて、衝撃位置を特定できる79個の頭部衝撃を用いて、さらなる検証を行った。
ディープ・ラーニング・モデルは従来の手法に比べて79.7%の精度を達成し、従来の手法に比べて精度が低い(既存の手法の精度は49.4%)。
結論:この精度は、より正確な衝撃データを提供することで、スポーツにおけるヘルメットの設計と安全性を高めるモデルの可能性を示している。
将来の研究では、様々なヘルメットやスポーツのモデルを、大きな生体内データセット上でテストして、モデルの正確性を検証する必要がある。
Objective: Head impact information including impact directions, speeds and force are important to study traumatic brain injury, design and evaluate protective gears. This study presents a deep learning model developed to accurately predict head impact information, including location, speed, orientation, and force, based on head kinematics during helmeted impacts. Methods: Leveraging a dataset of 16,000 simulated helmeted head impacts using the Riddell helmet finite element model, we implemented a Long Short-Term Memory (LSTM) network to process the head kinematics: tri-axial linear accelerations and angular velocities. Results: The models accurately predict the impact parameters describing impact location, direction, speed, and the impact force profile with R2 exceeding 70% for all tasks. Further validation was conducted using an on-field dataset recorded by instrumented mouthguards and videos, consisting of 79 head impacts in which the impact location can be clearly identified. The deep learning model significantly outperformed existing methods, achieving a 79.7% accuracy in identifying impact locations, compared to lower accuracies with traditional methods (the highest accuracy of existing methods is 49.4%). Conclusion: The precision underscores the model's potential in enhancing helmet design and safety in sports by providing more accurate impact data. Future studies should test the models across various helmets and sports on large in vivo datasets to validate the accuracy of the models, employing techniques like transfer learning to broaden its effectiveness. | 翻訳日:2024-09-13 15:55:10 公開日:2024-09-12 |
# SU(1,1)\times SU(2)$ approach and the Mandel parameter to the Hamiltonian of two oscillator with weak coupling
$SU(1,1)\times SU(2)$ approach and the Mandel parameter to the Hamiltonian of two oscillators with weak coupling ( http://arxiv.org/abs/2409.08179v1 ) ライセンス: Link先を確認 | J. C. Vega, D. Ojeda-Guillén, R. D. Mota, | (参考訳) 代数的アプローチから弱い結合を持つ2つの等方振動子のハミルトニアンについて検討する。
我々は、この問題のハミルトニアンを、$SU(1,1)$および$SU(2)$groupのボソン生成子の観点から記述する。
これにより、両群類似性変換に基づく2つの傾き変換を適用して、そのエネルギースペクトルと固有関数を得ることができる。
次に、光子数 $n_a$ と $n_b$ の Mandel $Q-$parameter を得る。
留意すべき点は、我々の手順では、弱いカップリングの場合を考えることである。
We study the Hamiltonian of two isotropic oscillators with weak coupling from an algebraic approach. We write the Hamiltonian of this problem in terms of the boson generators of the $SU(1,1)$ and $SU(2)$ groups. This allows us to apply two tilting transformations based on both group similarity transformations to obtain its energy spectrum and eigenfunctions. Then, we obtain the Mandel $Q-$parameter of the photon numbers $n_a$ and $n_b$. It is important to note that in our procedure we consider the case of weak coupling. | 翻訳日:2024-09-13 15:55:09 公開日:2024-09-12 |
# フェルミオンガウス試験と畳み込みによる非ガウス測度
Fermionic Gaussian Testing and Non-Gaussian Measures via Convolution ( http://arxiv.org/abs/2409.08180v1 ) ライセンス: Link先を確認 | Nicholas Lyu, Kaifeng Bu, | (参考訳) フェルミオン型ガウスユニタリによって定義されるフェルミオン型畳み込みの性質について検討する。
鍵となる発見は、この畳み込みの下で純粋ガウス状態の純度不変性である。
この特性を利用して、入力状態の3つのコピーを用いて、純状態のフェルミオンガウス性をテストする効率的なプロトコルを提案する。
さらに、状態のフェルミオン非ガウス性を定量化するために設計された「非ガウスエントロピー」と呼ばれる新しい尺度の族を導入する。
We explore the properties of fermionic convolution defined by fermionic Gaussian unitary. A key finding is the purity invariance of pure Gaussian states under this convolution. Leveraging this property, we propose an efficient protocol to test the fermionic Gaussianity of pure states by using 3 copies of the input states. Furthermore, we introduce a new family of measures called ``Non-Gaussian Entropy,'' designed to quantify the fermionic non-Gaussianity of states. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 犬の筋肉骨格の診断の強化:ビジュアルドキュメンテーションによる事前学習AIモデルのための合成画像データを活用する
Enhancing Canine Musculoskeletal Diagnoses: Leveraging Synthetic Image Data for Pre-Training AI-Models on Visual Documentations ( http://arxiv.org/abs/2409.08181v1 ) ライセンス: Link先を確認 | Martin Thißen, Thi Ngoc Diep Tran, Ben Joel Schönbein, Ute Trapp, Barbara Esteve Ratsch, Beate Egner, Romana Piat, Elke Hergenröther, | (参考訳) 犬における筋骨格系の検査は、獣医の実践において難しい課題である。
本研究では,視覚的表現による犬の状態の効率的なドキュメンテーションを可能にする新しい手法を開発した。
しかし、ビジュアルドキュメンテーションは新しいので、既存のトレーニングデータはありません。
この研究の目的は、AIベースの診断支援システムを開発するために、データ不足の影響を軽減することである。
この目的のために、AIモデルの事前学習のための病気の現実的な視覚的ドキュメンテーションを模倣する合成データの可能性について検討した。
本稿では,現実的な視覚資料を模倣した合成画像データを生成する手法を提案する。
最初は3つの異なるクラスを含む基本的なデータセットが生成され、続いて36の異なるクラスを含むより洗練されたデータセットが生成される。
両方のデータセットは、AIモデルの事前トレーニングに使用される。
その後、評価データセットが作成され、250人が手作業で5つの病気のビジュアルドキュメントを作成している。
このデータセットと25のサンプルを含むサブセット。
その結果,実世界の視覚資料を模倣した生成合成画像を利用する場合,診断精度が約10%向上することが確認された。
しかし、これらの結果は250の例を含むより大きな評価データセットには当てはまらないため、AIモデルの事前トレーニングに合成データを使用することの利点は、主に、特定の疾患の視覚的ドキュメントの少数の例を扱うときに現れることを示唆している。
全体として、この研究は、犬筋骨格評価領域を超えて適用可能なアプローチを提示し、生成された合成データの戦略的利用を通じて、限られた訓練データによって課される制限を緩和するための貴重な洞察を提供する。
The examination of the musculoskeletal system in dogs is a challenging task in veterinary practice. In this work, a novel method has been developed that enables efficient documentation of a dog's condition through a visual representation. However, since the visual documentation is new, there is no existing training data. The objective of this work is therefore to mitigate the impact of data scarcity in order to develop an AI-based diagnostic support system. To this end, the potential of synthetic data that mimics realistic visual documentations of diseases for pre-training AI models is investigated. We propose a method for generating synthetic image data that mimics realistic visual documentations. Initially, a basic dataset containing three distinct classes is generated, followed by the creation of a more sophisticated dataset containing 36 different classes. Both datasets are used for the pre-training of an AI model. Subsequently, an evaluation dataset is created, consisting of 250 manually created visual documentations for five different diseases. This dataset, along with a subset containing 25 examples. The obtained results on the evaluation dataset containing 25 examples demonstrate a significant enhancement of approximately 10% in diagnosis accuracy when utilizing generated synthetic images that mimic real-world visual documentations. However, these results do not hold true for the larger evaluation dataset containing 250 examples, indicating that the advantages of using synthetic data for pre-training an AI model emerge primarily when dealing with few examples of visual documentations for a given disease. Overall, this work provides valuable insights into mitigating the limitations imposed by limited training data through the strategic use of generated synthetic data, presenting an approach applicable beyond the canine musculoskeletal assessment domain. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 22nmFDSOICMOSにおけるシリコンスピン量子制御と読み出し回路
Silicon Spin Qubit Control and Readout Circuits in 22nm FDSOI CMOS ( http://arxiv.org/abs/2409.08182v1 ) ライセンス: Link先を確認 | Raffaele R. Severino, Michele Spasaro, Domenico Zito, | (参考訳) 本稿では、電子/ホールスピン量子ビットの制御と読み出しのためのマイクロ波およびミリ波集積回路の実装について、今後の量子コンピューティング技術のための基本構成ブロックとして検討する。
特に、電子/ホールスピン量子ビットの最も関連性の高い読み出しと制御手法を要約し、実現可能性に対処し、2つのブロックの予備的なシミュレーション結果を報告している: 過渡インピーダンス増幅器(TIA)とパルス発生器(PG)。
TIAは18 GHzの3dB帯域で108.5 dB Ohmの超インピーダンスゲインを示し、入力参照ノイズ電流スペクトル密度は0.89 pA/root(Hz)の10 GHzである。
PGは、最低持続時間20psのミリ波正弦波パルスを提供する。
This paper investigates the implementation of microwave and mm-wave integrated circuits for control and readout of electron/hole spin qubits, as elementary building blocks for future emerging quantum computing technologies. In particular, it summarizes the most relevant readout and control techniques of electron/hole spin qubits, addresses the feasibility and reports some preliminary simulation results of two blocks: transimpedance amplifier (TIA) and pulse generator (PG). The TIA exhibits a transimpedance gain of 108.5 dB Ohm over a -3dB bandwidth of 18 GHz, with input-referred noise current spectral density of 0.89 pA/root(Hz) at 10 GHz. The PG provides a mm-wave sinusoidal pulse with a minimum duration time of 20 ps. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# エンティティマッチングのための微調整大型言語モデル
Fine-tuning Large Language Models for Entity Matching ( http://arxiv.org/abs/2409.08185v1 ) ライセンス: Link先を確認 | Aaron Steiner, Ralph Peeters, Christian Bizer, | (参考訳) ジェネレーティブ・大型言語モデル(LLM)は、ゼロショット性能と、未知のエンティティに一般化する能力のために、エンティティマッチングのための事前訓練された言語モデルの有望な代替品である。
実体マッチングにLLMを使うことに関する既存の研究は、素早い工学と文脈内学習に重点を置いている。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
我々は2次元に沿って微調整を分析する。
1)異なるタイプのLCM生成説明をトレーニングセットに追加し、実験するトレーニング例の表現。
2) LLM を用いたトレーニング例の選択と生成について検討した。
ソースデータセットのマッチング性能に加えて、微調整が他のドメイン内のデータセットやトピックドメイン全体への一般化能力にどのように影響するかを調査する。
実験の結果,微調整により小型モデルの性能が大幅に向上し,大型モデルの結果が混在することがわかった。
微調整により、ドメイン間の転送を損なうことなく、ドメイン内のデータセットへの一般化も改善される。
GPT-4o Mini の性能を低下させつつ,Llama 3.1 8B の性能向上を図っている。
Generative large language models (LLMs) are a promising alternative to pre-trained language models for entity matching due to their high zero-shot performance and their ability to generalize to unseen entities. Existing research on using LLMs for entity matching has focused on prompt engineering and in-context learning. This paper explores the potential of fine-tuning LLMs for entity matching. We analyze fine-tuning along two dimensions: 1) The representation of training examples, where we experiment with adding different types of LLM-generated explanations to the training set, and 2) the selection and generation of training examples using LLMs. In addition to the matching performance on the source dataset, we investigate how fine-tuning affects the model's ability to generalize to other in-domain datasets as well as across topical domains. Our experiments show that fine-tuning significantly improves the performance of the smaller models while the results for the larger models are mixed. Fine-tuning also improves the generalization to in-domain datasets while hurting cross-domain transfer. We show that adding structured explanations to the training set has a positive impact on the performance of three out of four LLMs, while the proposed example selection and generation methods only improve the performance of Llama 3.1 8B while decreasing the performance of GPT-4o Mini. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# Gaussian Garments:マルチビュービデオからのフォトリアリスティックな外観を持つシミュレーション可能な衣服の再構築
Gaussian Garments: Reconstructing Simulation-Ready Clothing with Photorealistic Appearance from Multi-View Video ( http://arxiv.org/abs/2409.08189v1 ) ライセンス: Link先を確認 | Boxiang Rong, Artur Grigorev, Wenbo Wang, Michael J. Black, Bernhard Thomaszewski, Christina Tsalicoglou, Otmar Hilliges, | (参考訳) マルチビュービデオから現実的なシミュレーション可能な衣服資産を再構築するための新しいアプローチであるガウシアン・ガーメンツを紹介する。
本手法は,3次元メッシュとガウステクスチャを組み合わせた衣服を表現し,その色と高周波表面の細部をエンコードする。
この表現は、マルチビュービデオへの衣服のジオメトリの正確な登録を可能にし、照明効果からアルベドのテクスチャを遠ざけるのに役立つ。
さらに、トレーニング済みグラフニューラルネットワーク(GNN)を微調整して、各衣服の実際の挙動を再現する方法を実証する。
再建されたガウシアン・ガーメントは、自動的にマルチガーメントの衣装と組み合わせて、微調整されたGNNでアニメーションすることができる。
We introduce Gaussian Garments, a novel approach for reconstructing realistic simulation-ready garment assets from multi-view videos. Our method represents garments with a combination of a 3D mesh and a Gaussian texture that encodes both the color and high-frequency surface details. This representation enables accurate registration of garment geometries to multi-view videos and helps disentangle albedo textures from lighting effects. Furthermore, we demonstrate how a pre-trained graph neural network (GNN) can be fine-tuned to replicate the real behavior of each garment. The reconstructed Gaussian Garments can be automatically combined into multi-garment outfits and animated with the fine-tuned GNN. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# NFTフラクショナル化のためのセキュア標準
A Secure Standard for NFT Fractionalization ( http://arxiv.org/abs/2409.08190v1 ) ライセンス: Link先を確認 | Wejdene Haouari, Marios Fokaefs, | (参考訳) 非偽造トークン(NFT)は、ブロックチェーン上のデジタルおよび物理資産を表現するユニークな方法を提供する。
しかし、NFT市場は近年、高い参入障壁と市場流動性にかかわる課題から、関心の低下を経験している。
分断化は有望な解決策として現れ、複数の当事者が単一のNFTに株式を保有することを可能にする。
株式を一部に分割することで、投資家の参入障壁を低くし、市場の流動性を高め、価値あるデジタル資産へのアクセスを民主化する。
これらの利点にもかかわらず、NFT分数化の現在の状況は断片化されており、分数化機構のセキュアで相互運用可能な実装を導くための標準化されたフレームワークは存在しない。
第1に,これらの課題に対処する標準化されたアプローチを導入し,よりセキュアで相互運用可能な,アクセス可能なNTT分数化プラットフォームを実現する。
Non-fungible tokens (NFTs) offer a unique method for representing digital and physical assets on the blockchain. However, the NFT market has recently experienced a downturn in interest, mainly due to challenges related to high entry barriers and limited market liquidity. Fractionalization emerges as a promising solution, allowing multiple parties to hold a stake in a single NFT. By breaking down ownership into fractional shares, this approach lowers the entry barrier for investors, enhances market liquidity, and democratizes access to valuable digital assets. Despite these benefits, the current landscape of NFT fractionalization is fragmented, with no standardized framework to guide the secure and interoperable implementation of fractionalization mechanisms. This paper contributions are twofold: first, we provide a detailed analysis of the current NFT fractionalization landscape focusing on security challenges; second, we introduce a standardized approach that addresses these challenges, paving the way for more secure, interoperable, and accessible NFT fractionalization platforms. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 運動量空間非同相対称性からの音響的高次位相絶縁体
Acoustic higher-order topological insulator from momentum-space nonsymmorphic symmetries ( http://arxiv.org/abs/2409.08196v1 ) ライセンス: Link先を確認 | Jinbing Hu, Kai Zhou, Tianle Song, Xuntao Jiang, Songlin Zhuang, Yi Yang, | (参考訳) 合成ゲージ場の射影代数から派生したモメンタム空間非同型対称性は、ブリルアンゾーンの多様体を修正でき、様々な位相現象をもたらす。
本稿では,高次トポロジカル絶縁体(HOTI)の音響的実現について述べる。
音響共振器アレイを用いたシリンダー幾何を用いたエッジバンドの運動量半変換による運動量空間のグライド反射の存在と,その運動量分解確率分布を検証した。
開放境界に沿ったホッピング強度の変化はバルクギャップの閉鎖につながり, 閉境界に沿ったホッピング強度はエッジギャップの閉鎖に繋がる。
さらに,伝送・電界分布測定による四重極角モードの存在を確認した。
我々の観測は運動量空間非同型対称性のトポロジカル物理学の研究を豊かにしている。
Momentum-space nonsymmorphic symmetries, stemming from the projective algebra of synthetic gauge fields, can modify the manifold of the Brillouin zone and lead to a variety of topological phenomena. We present an acoustic realization of higher-order topological insulators (HOTIs) protected by a pair of anticommutative momentum-space glide reflections. We confirm the presence of momentum-space glide reflection from the measured momentum half translation of edge bands and their momentum-resolved probability distribution using a cylinder geometry made of acoustic resonator arrays. In particular, we observe both intrinsic and extrinsic HOTI features in such a cylinder: hopping strength variation along the open boundary leads to a bulk gap closure, while that along the closed boundary results in an edge gap closure. In addition, we confirm the presence of quadrupole corner modes with transmission and field distribution measurements. Our observation enriches the study of topological physics of momentum-space nonsymmorphic symmetries. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# AudioBERT: Augmented Language Model
AudioBERT: Audio Knowledge Augmented Language Model ( http://arxiv.org/abs/2409.08199v1 ) ライセンス: Link先を確認 | Hyunjong Ok, Suho Yoo, Jaeho Lee, | (参考訳) 近年の研究では、テキストのみのデータセットで事前訓練された言語モデルには、日常の物体の色である「textit{e g ,}」といった基本的な視覚的知識が欠けていることが確認されている。
この観察により、同様の欠点が \textit{auditory} の知識の観点で存在するかどうかを問う。
そこで我々は,聴覚知識を評価するための2つの新しいタスクからなるAuditoryBenchというデータセットを構築した。
このベンチマークを用いて分析した結果,言語モデルにも聴覚的知識が不足していることが判明した。
この制限に対処するために,検索に基づくアプローチによりBERTの聴覚知識を増強する新しい手法であるAudioBERTを提案する。
まず、検索モデルを効率的にクエリするプロンプトにおいて、聴覚的知識の範囲を検知する。
そして、BERTに音声知識を注入し、音声知識が必要な場合の効果的な適応のために低ランク適応を切り替える。
実験の結果,AudioBERTは非常に効果的であり,AuditoryBench上での優れた性能が得られた。
データセットとコードは \bulurl{https://github.com/HJ-Ok/AudioBERT} で公開されている。
Recent studies have identified that language models, pretrained on text-only datasets, often lack elementary visual knowledge, \textit{e.g.,} colors of everyday objects. Motivated by this observation, we ask whether a similar shortcoming exists in terms of the \textit{auditory} knowledge. To answer this question, we construct a new dataset called AuditoryBench, which consists of two novel tasks for evaluating auditory knowledge. Based on our analysis using the benchmark, we find that language models also suffer from a severe lack of auditory knowledge. To address this limitation, we propose AudioBERT, a novel method to augment the auditory knowledge of BERT through a retrieval-based approach. First, we detect auditory knowledge spans in prompts to query our retrieval model efficiently. Then, we inject audio knowledge into BERT and switch on low-rank adaptation for effective adaptation when audio knowledge is required. Our experiments demonstrate that AudioBERT is quite effective, achieving superior performance on the AuditoryBench. The dataset and code are available at \bulurl{https://github.com/HJ-Ok/AudioBERT}. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 右センサデータに基づく2サンプルテストのための機械学習:シミュレーションによる検討
Machine Learning for Two-Sample Testing under Right-Censored Data: A Simulation Study ( http://arxiv.org/abs/2409.08201v1 ) ライセンス: Link先を確認 | Petr Philonenko, Sergey Postovalov, | (参考訳) 本研究は,2サンプル検定における機械学習(ML)手法の有効性を評価することを目的とする。
そこで我々は,様々なアーキテクチャを持つMLベースの手法を開発し,それらを2サンプルテストとして実装する。
それぞれの方法は、古典的な2サンプルテストからの予測を組み合わせたアンサンブル(スタックング)である。
本稿では,提案手法の学習結果について,従来の2サンプル試験と比較して統計力を検証し,ヌル仮説が真である場合に提案手法のテスト統計の分布を分析し,提案手法に組み込まれた特徴の意義を評価する。
数値実験の結果はすべて、スミルノフ変換(逆変換サンプリング)を用いて生成された合成データセットから得られ、モンテカルロシミュレーションにより複数回複製された。
右側の観測で2サンプル問題をテストするためには,提案した2サンプル法を用いることができる。
必要な材料(ソースコード、サンプルスクリプト、データセット、サンプル)はすべてGitHubとHugging Faceで利用可能だ。
The focus of this study is to evaluate the effectiveness of Machine Learning (ML) methods for two-sample testing with right-censored observations. To achieve this, we develop several ML-based methods with varying architectures and implement them as two-sample tests. Each method is an ensemble (stacking) that combines predictions from classical two-sample tests. This paper presents the results of training the proposed ML methods, examines their statistical power compared to classical two-sample tests, analyzes the distribution of test statistics for the proposed methods when the null hypothesis is true, and evaluates the significance of the features incorporated into the proposed methods. All results from numerical experiments were obtained from a synthetic dataset generated using the Smirnov transform (Inverse Transform Sampling) and replicated multiple times through Monte Carlo simulation. To test the two-sample problem with right-censored observations, one can use the proposed two-sample methods. All necessary materials (source code, example scripts, dataset, and samples) are available on GitHub and Hugging Face. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 迷路って何? 迷路って何?
What Makes a Maze Look Like a Maze? ( http://arxiv.org/abs/2409.08202v1 ) ライセンス: Link先を確認 | Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Noah D. Goodman, Jiajun Wu, | (参考訳) 人間の視覚的理解のユニークな側面は、抽象概念を柔軟に解釈する能力である。
既成の視覚言語モデルはイメージのリテラル解釈(例:木の枝のようなオブジェクトのカテゴリを認識する)に長けているが、それでもそのような視覚的抽象化(例:木の枝の配列が迷路の壁を形成するか)を理解するのに苦労している。
この課題に対処するために,視覚的抽象化の明示的な構造化表現を基盤と推論に活用するフレームワークであるDeep Schema Grounding (DSG)を紹介した。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは大きな言語モデルを使用してスキーマを抽出し、階層的に具体化してスキーマのコンポーネントを視覚言語モデルで画像に抽象化する。
基底スキーマは、視覚的抽象化の理解を強化するために使用される。
我々は,抽象概念の多種多様な実世界のイメージと,人間によってラベル付けされた質問応答対からなる新しい視覚抽象データセットに基づいて,DSGと異なる手法を体系的に評価した。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させ,視覚的抽象化の人間的理解に向けた一歩であることを示す。
A unique aspect of human visual understanding is the ability to flexibly interpret abstract concepts: acquiring lifted rules explaining what they symbolize, grounding them across familiar and unfamiliar contexts, and making predictions or reasoning about them. While off-the-shelf vision-language models excel at making literal interpretations of images (e.g., recognizing object categories such as tree branches), they still struggle to make sense of such visual abstractions (e.g., how an arrangement of tree branches may form the walls of a maze). To address this challenge, we introduce Deep Schema Grounding (DSG), a framework that leverages explicit structured representations of visual abstractions for grounding and reasoning. At the core of DSG are schemas--dependency graph descriptions of abstract concepts that decompose them into more primitive-level symbols. DSG uses large language models to extract schemas, then hierarchically grounds concrete to abstract components of the schema onto images with vision-language models. The grounded schema is used to augment visual abstraction understanding. We systematically evaluate DSG and different methods in reasoning on our new Visual Abstractions Dataset, which consists of diverse, real-world images of abstract concepts and corresponding question-answer pairs labeled by humans. We show that DSG significantly improves the abstract visual reasoning performance of vision-language models, and is a step toward human-aligned understanding of visual abstractions. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# 状態調製のためのクビット制御パルスの最適化
Optimizing Qubit Control Pulses for State Preparation ( http://arxiv.org/abs/2409.08204v1 ) ライセンス: Link先を確認 | Annika S. Wiening, Joern Bergendahl, Vicente Leyton-Ortega, Peter Nalbach, | (参考訳) 量子コンピューティングの急成長する分野において、量子パルスの正確な設計と最適化は、量子ビット演算の忠実性を高めるために不可欠である。
本研究は, 超伝導量子ビットのパルス工学的手法の精製に焦点をあて, 様々な近似スキームの下での正方形およびガウス式のパルスエンベロープの詳細な解析を行った。
ナイーブパルス設計によるコヒーレント誤差の影響について検討した。
ハミルトンモデルの近似レベルにおいて,これらの誤差の原因を同定した。
本研究では,これらの誤差を外部駆動周波数とパルス持続時間に調整することで緩和し,ストロボスコープによる誤差低減によるパルススキームを実装した。
これらの改良パルス戦略は, 性能の向上とコヒーレントエラーの低減を図っている。
さらに、ここで開発された技術は、イオントラップ、原子、フォトニックシステムなど、様々な量子アーキテクチャに適用できる。
In the burgeoning field of quantum computing, the precise design and optimization of quantum pulses are essential for enhancing qubit operation fidelity. This study focuses on refining the pulse engineering techniques for superconducting qubits, employing a detailed analysis of Square and Gaussian pulse envelopes under various approximation schemes. We evaluated the effects of coherent errors induced by naive pulse designs. We identified the sources of these errors in the Hamiltonian model's approximation level. We mitigated these errors through adjustments to the external driving frequency and pulse durations, thus, implementing a pulse scheme with stroboscopic error reduction. Our results demonstrate that these refined pulse strategies improve performance and reduce coherent errors. Moreover, the techniques developed herein are applicable across different quantum architectures, such as ion-trap, atomic, and photonic systems. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# ComAlign:視覚言語モデルにおける構成的アライメント
ComAlign: Compositional Alignment in Vision-Language Models ( http://arxiv.org/abs/2409.08206v1 ) ライセンス: Link先を確認 | Ali Abdollah, Amirmohammad Izadi, Armin Saghafian, Reza Vahidimajd, Mohammad Mozafari, Amirreza Mirzaei, Mohammadmahdi Samiei, Mahdieh Soleymani Baghshah, | (参考訳) CLIPのような視覚言語モデル(VLM)は、下流タスクの転送可能な機能を抽出する素晴らしい能力を示した。
それにもかかわらず、これらのモデルのトレーニングプロセスは、通常、これらのモダリティの構成構造を失う可能性のある画像とテキストのグローバルな埋め込みの間の粗い対照的な損失に基づいている。
最近の多くの研究で、VLMは属性結合やオブジェクト関係の同定のような構成的理解が欠如していることが示されている。
近年では細かなアライメントを実現しようとする手法もあるが、それらは適切な粒度の有意義な成分を抽出することに基づいていないか、あるいはモダリティの対応(特により多くの成分を持つ画像テキストペア)を適切に利用していない。
このような制約に対処するため,画像テキストペアの弱監督のみを用いて,テキストと画像コンポーネントのより正確な対応を見つけるための,よりきめ細かなアプローチであるコンポジションアライメント(ComAlign)を導入する。
本手法では, テキストのモダリティから抽出される構成構造(実体や関係を含む)も画像のモダリティに残さなければならないことを強調する。
画像とテキストのモダリティの微妙な概念の対応を強制するために、我々は、小さなデータセットを用いて、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークを訓練する。
ネットワークは、構造体のノードとエッジをモダリティにわたって整列するように訓練されている。
各種VLMおよびデータセットの実験結果から,検索および構成ベンチマークの大幅な改善が示され,プラグインモデルの有効性が確認された。
Vision-language models (VLMs) like CLIP have showcased a remarkable ability to extract transferable features for downstream tasks. Nonetheless, the training process of these models is usually based on a coarse-grained contrastive loss between the global embedding of images and texts which may lose the compositional structure of these modalities. Many recent studies have shown VLMs lack compositional understandings like attribute binding and identifying object relationships. Although some recent methods have tried to achieve finer-level alignments, they either are not based on extracting meaningful components of proper granularity or don't properly utilize the modalities' correspondence (especially in image-text pairs with more ingredients). Addressing these limitations, we introduce Compositional Alignment (ComAlign), a fine-grained approach to discover more exact correspondence of text and image components using only the weak supervision in the form of image-text pairs. Our methodology emphasizes that the compositional structure (including entities and relations) extracted from the text modality must also be retained in the image modality. To enforce correspondence of fine-grained concepts in image and text modalities, we train a lightweight network lying on top of existing visual and language encoders using a small dataset. The network is trained to align nodes and edges of the structure across the modalities. Experimental results on various VLMs and datasets demonstrate significant improvements in retrieval and compositional benchmarks, affirming the effectiveness of our plugin model. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# VI3DRM:フォトリアリスティックノベルビュー合成によるスパースビューからの細かな3次元再構成
VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis ( http://arxiv.org/abs/2409.08207v1 ) ライセンス: Link先を確認 | Hao Chen, Jiafu Wu, Ying Jin, Jinlong Peng, Xiaofeng Mao, Mingmin Chi, Mufeng Yao, Bo Peng, Jian Li, Yun Cao, | (参考訳) 最近、Zero-1-2-3のような手法は、シングルビューベースの3D再構成に焦点を合わせており、目覚ましい成功を収めている。
しかし、その未確認領域に対する予測は、大規模な事前学習拡散モデルの帰納バイアスに大きく依存している。
その後のDreamComposerのような研究は、追加の視点を取り入れて予測をより制御可能にしようとするが、その結果は、照明、材料、構造などの要因を含むバニラ潜在空間における特徴の絡み合いのため、現実的ではないままである。
これらの問題に対処するために、拡散型スパースビュー3D再構成モデルであるVisual Isotropy 3D Restruction Model (VI3DRM)を導入する。
セマンティック情報、色、材料特性、照明の切り離しを容易にすることで、VI3DRMは実際の写真と区別できない非常にリアルな画像を生成することができる。
実画像と合成画像の両方を活用することで、ポイントマップの正確な構築を可能にし、最終的には微細なテクスチャ化されたメッシュやポイントクラウドを生成する。
GSOデータセットでテストされたNVSタスクでは、VI3DRMは最先端のDreamComposerよりも優れており、PSNRは38.61、SSIMは0.929、LPIPSは0.027である。
コードは出版時に公開されます。
Recently, methods like Zero-1-2-3 have focused on single-view based 3D reconstruction and have achieved remarkable success. However, their predictions for unseen areas heavily rely on the inductive bias of large-scale pretrained diffusion models. Although subsequent work, such as DreamComposer, attempts to make predictions more controllable by incorporating additional views, the results remain unrealistic due to feature entanglement in the vanilla latent space, including factors such as lighting, material, and structure. To address these issues, we introduce the Visual Isotropy 3D Reconstruction Model (VI3DRM), a diffusion-based sparse views 3D reconstruction model that operates within an ID consistent and perspective-disentangled 3D latent space. By facilitating the disentanglement of semantic information, color, material properties and lighting, VI3DRM is capable of generating highly realistic images that are indistinguishable from real photographs. By leveraging both real and synthesized images, our approach enables the accurate construction of pointmaps, ultimately producing finely textured meshes or point clouds. On the NVS task, tested on the GSO dataset, VI3DRM significantly outperforms state-of-the-art method DreamComposer, achieving a PSNR of 38.61, an SSIM of 0.929, and an LPIPS of 0.027. Code will be made available upon publication. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# グラフラプラシアンに基づくベイズ多面体モデリング
Graph Laplacian-based Bayesian Multi-fidelity Modeling ( http://arxiv.org/abs/2409.08211v1 ) ライセンス: Link先を確認 | Orazio Pinti, Jeremy M. Budd, Franca Hoffmann, Assad A. Oberai, | (参考訳) 本稿では,低忠実度データと高忠実度データの両方に固有の誤りを考慮しつつ,多忠実度データを生成するための新しい確率論的アプローチを提案する。
このアプローチでは、低忠実度データから構築されたグラフラプラシアンを用いて、真のデータ点の座標に対する多変量ガウス事前密度を定義する。
さらに、共役可能性項を構築するために高忠実度データポイントは少ない。
その後、ベイズ則を適用して、多変量ガウスである後続密度の明示的な式を導出する。
この密度の最大値であるtextit{a reari} (MAP) を最適多忠実度推定として選択する。
MAP推定と後続密度の共分散は方程式の線形系の解によって決定できることが示されている。
その後, スペクトルトランケーションに基づく2つの手法と低ランク近似に基づく2つの手法を開発し, これらの方程式を効率的に解いた。
多面体アプローチは、一次元と二次元の離散化された空間場と興味量のベクトルを表すデータを用いて、固体および流体力学の様々な問題に対して試験される。
その結果、少数の高忠実度データを利用することで、多忠実度アプローチは大量の低忠実度データポイントの精度を大幅に向上させることができることを示した。
We present a novel probabilistic approach for generating multi-fidelity data while accounting for errors inherent in both low- and high-fidelity data. In this approach a graph Laplacian constructed from the low-fidelity data is used to define a multivariate Gaussian prior density for the coordinates of the true data points. In addition, few high-fidelity data points are used to construct a conjugate likelihood term. Thereafter, Bayes rule is applied to derive an explicit expression for the posterior density which is also multivariate Gaussian. The maximum \textit{a posteriori} (MAP) estimate of this density is selected to be the optimal multi-fidelity estimate. It is shown that the MAP estimate and the covariance of the posterior density can be determined through the solution of linear systems of equations. Thereafter, two methods, one based on spectral truncation and another based on a low-rank approximation, are developed to solve these equations efficiently. The multi-fidelity approach is tested on a variety of problems in solid and fluid mechanics with data that represents vectors of quantities of interest and discretized spatial fields in one and two dimensions. The results demonstrate that by utilizing a small fraction of high-fidelity data, the multi-fidelity approach can significantly improve the accuracy of a large collection of low-fidelity data points. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# コントラスト的説明からの適応型言語ガイドによる抽象化
Adaptive Language-Guided Abstraction from Contrastive Explanations ( http://arxiv.org/abs/2409.08212v1 ) ライセンス: Link先を確認 | Andi Peng, Belinda Z. Li, Ilia Sucholutsky, Nishanth Kumar, Julie A. Shah, Jacob Andreas, Andreea Bobu, | (参考訳) ロボット学習への多くのアプローチは、人間のデモから報酬関数を推定することから始まる。
良い報奨を得るためには、これらの特徴がどのようにして報酬を計算するべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
結合特徴と報酬学習のためのエンドツーエンドの手法(例えば、ディープネットワークやプログラム合成技術)は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数を生成する。
対照的に、人間は少数のデモンストレーションから、デモのどの特徴が関心のあるタスクに意味があるかについての強い事前を組み込むことで、一般的に学習することができる。
新しいデモから学ぶとき、このような背景知識を活用するロボットをどうやって作るのか?
本稿では,ALGAE(Adaptive Language-Guided Abstraction from [Contrastive] Explanations)と呼ばれる手法について述べる。
シミュレーションと実世界の両方のロボット環境における実験により、ALGAEは少数の実演だけで解釈可能な特徴に定義された一般化可能な報酬関数を学習することを示した。
重要なことは、ALGAEは機能がいつ欠落しているかを認識し、その機能を人間の入力なしで抽出して定義することができるため、ユーザの振る舞いのリッチな表現を迅速かつ効率的に取得することができる。
Many approaches to robot learning begin by inferring a reward function from a set of human demonstrations. To learn a good reward, it is necessary to determine which features of the environment are relevant before determining how these features should be used to compute reward. End-to-end methods for joint feature and reward learning (e.g., using deep networks or program synthesis techniques) often yield brittle reward functions that are sensitive to spurious state features. By contrast, humans can often generalizably learn from a small number of demonstrations by incorporating strong priors about what features of a demonstration are likely meaningful for a task of interest. How do we build robots that leverage this kind of background knowledge when learning from new demonstrations? This paper describes a method named ALGAE (Adaptive Language-Guided Abstraction from [Contrastive] Explanations) which alternates between using language models to iteratively identify human-meaningful features needed to explain demonstrated behavior, then standard inverse reinforcement learning techniques to assign weights to these features. Experiments across a variety of both simulated and real-world robot environments show that ALGAE learns generalizable reward functions defined on interpretable features using only small numbers of demonstrations. Importantly, ALGAE can recognize when features are missing, then extract and define those features without any human input -- making it possible to quickly and efficiently acquire rich representations of user behavior. | 翻訳日:2024-09-13 15:45:03 公開日:2024-09-12 |
# LT3SD:3次元シーン拡散のための潜木
LT3SD: Latent Trees for 3D Scene Diffusion ( http://arxiv.org/abs/2409.08215v1 ) ライセンス: Link先を確認 | Quan Meng, Lei Li, Matthias Nießner, Angela Dai, | (参考訳) 本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
拡散モデルの最近の進歩は、3次元オブジェクト生成において顕著な結果を示しているが、3次元シーンに拡張された場合、空間的範囲と品質に制限がある。
複雑で多様な3次元シーン構造を生成するために,低周波形状と高周波詳細の両方を,粗大な階層構造で効果的に符号化する潜木表現を導入する。
そして、この潜伏3次元シーン空間で生成的拡散過程を学習し、各解像度レベルでシーンの潜伏成分をモデル化する。
大規模シーンを様々な大きさで合成するために、シーンパッチ上で拡散モデルを訓練し、複数のシーンパッチをまたいだ共有拡散生成を通して任意の大きさの3Dシーンを合成する。
大規模かつ高品質な非条件の3Dシーン生成と部分的なシーン観察のための確率的完了のためのLT3SDの有効性と利点を実証した。
We present LT3SD, a novel latent diffusion model for large-scale 3D scene generation. Recent advances in diffusion models have shown impressive results in 3D object generation, but are limited in spatial extent and quality when extended to 3D scenes. To generate complex and diverse 3D scene structures, we introduce a latent tree representation to effectively encode both lower-frequency geometry and higher-frequency detail in a coarse-to-fine hierarchy. We can then learn a generative diffusion process in this latent 3D scene space, modeling the latent components of a scene at each resolution level. To synthesize large-scale scenes with varying sizes, we train our diffusion model on scene patches and synthesize arbitrary-sized output 3D scenes through shared diffusion generation across multiple scene patches. Through extensive experiments, we demonstrate the efficacy and benefits of LT3SD for large-scale, high-quality unconditional 3D scene generation and for probabilistic completion for partial scene observations. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# CliquePH: Clique Graphs上の永続ホモロジーによるグラフニューラルネットワークの高次情報
CliquePH: Higher-Order Information for Graph Neural Networks through Persistent Homology on Clique Graphs ( http://arxiv.org/abs/2409.08217v1 ) ライセンス: Link先を確認 | Davide Buffelli, Farzin Soleymani, Bastian Rieck, | (参考訳) グラフニューラルネットワークは、グラフ分類やノード分類といったグラフ学習タスクの実践者によるデフォルトの選択肢となっている。
それでも、人気のあるグラフニューラルネットワークモデルでは、高次情報、すなわち、ペアワイズインタラクションのemph{beyond}に関する情報の取得に苦慮している。
近年の研究では、トポロジデータ解析のツールである永続ホモロジーが、他の方法では捉えられないトポロジ情報でグラフニューラルネットワークを拡張できることが示されている。
そのような特徴を計算することは、次元0(連結成分)と次元1(サイクル)に対して効率的である。
しかし、高次構造に関しては、$O(n^d)$の複雑さがあり、$n$はノードの数、$d$は構造体の順序である。
本研究では,効率的な低次元持続的ホモロジーアルゴリズムを用いて,グラフ内の高次構造に関する情報を抽出する手法を提案する。
標準ベンチマークデータセットでは,テスト精度が最大311\%向上することを示す。
Graph neural networks have become the default choice by practitioners for graph learning tasks such as graph classification and node classification. Nevertheless, popular graph neural network models still struggle to capture higher-order information, i.e., information that goes \emph{beyond} pairwise interactions. Recent work has shown that persistent homology, a tool from topological data analysis, can enrich graph neural networks with topological information that they otherwise could not capture. Calculating such features is efficient for dimension 0 (connected components) and dimension 1 (cycles). However, when it comes to higher-order structures, it does not scale well, with a complexity of $O(n^d)$, where $n$ is the number of nodes and $d$ is the order of the structures. In this work, we introduce a novel method that extracts information about higher-order structures in the graph while still using the efficient low-dimensional persistent homology algorithm. On standard benchmark datasets, we show that our method can lead to up to $31\%$ improvements in test accuracy. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# Tweezers: イベント属性中心のつぶやき埋め込みによるセキュリティイベント検出フレームワーク
Tweezers: A Framework for Security Event Detection via Event Attribution-centric Tweet Embedding ( http://arxiv.org/abs/2409.08221v1 ) ライセンス: Link先を確認 | Jian Cui, Hanna Kim, Eugene Jang, Dayeon Yim, Kicheol Kim, Yongjae Lee, Jin-Woo Chung, Seungwon Shin, Xiaojing Liao, | (参考訳) TwitterはCTI(Cyber Threat Intelligence)の普及と収集のための重要なプラットフォームとして認識されている。
リアルタイムで行動可能なインテリジェンスを提供する能力は、セキュリティイベントの検出に必須のツールであり、セキュリティ専門家がますます増加する脅威に対処するのに役立つ。
しかし、大量のツイートと人造ツイートの固有のノイズは、セキュリティイベントを正確に識別する上で重要な課題となっている。
多くの研究は、キーワードに基づいてイベント関連ツイートをフィルタリングしようとしたが、ツイートの意味を理解するのに制限があるため効果がない。
Twitterによるセキュリティイベント検出のもうひとつの課題は、セキュリティイベントの包括的カバレッジだ。
これまでの研究では、セキュリティイベントの早期検出の重要性を強調していたが、イベントカバレッジの重要性を見落としていた。
これらの課題に対処するため,本稿では,イベントの高精度とカバレッジを実現するために,新しいイベント属性中心のつぶやき埋め込み手法を提案する。
実験の結果,提案手法は,既存のテキストやグラフベースのつぶやき埋め込み手法よりも,セキュリティイベントの識別に優れていることがわかった。
この新たな埋め込みアプローチを活用して,TwitterからCTI収集用のセキュリティイベント検出に適用可能なフレームワークであるTweezersを開発し,実装した。
このフレームワークは、確立されたベースラインの2倍のイベントを検出することで、その効果を実証している。
さらに、セキュリティイベントの統合とインスペクション、すなわちセキュリティイベントトレンド分析と情報セキュリティユーザ識別のためのTweezers上に構築された2つのアプリケーションを紹介した。
Twitter is recognized as a crucial platform for the dissemination and gathering of Cyber Threat Intelligence (CTI). Its capability to provide real-time, actionable intelligence makes it an indispensable tool for detecting security events, helping security professionals cope with ever-growing threats. However, the large volume of tweets and inherent noises of human-crafted tweets pose significant challenges in accurately identifying security events. While many studies tried to filter out event-related tweets based on keywords, they are not effective due to their limitation in understanding the semantics of tweets. Another challenge in security event detection from Twitter is the comprehensive coverage of security events. Previous studies emphasized the importance of early detection of security events, but they overlooked the importance of event coverage. To cope with these challenges, in our study, we introduce a novel event attribution-centric tweet embedding method to enable the high precision and coverage of events. Our experiment result shows that the proposed method outperforms existing text and graph-based tweet embedding methods in identifying security events. Leveraging this novel embedding approach, we have developed and implemented a framework, Tweezers, that is applicable to security event detection from Twitter for CTI gathering. This framework has demonstrated its effectiveness, detecting twice as many events compared to established baselines. Additionally, we have showcased two applications, built on Tweezers for the integration and inspection of security events, i.e., security event trend analysis and informative security user identification. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# フォトニック量子コンピュータ
Photonic Quantum Computers ( http://arxiv.org/abs/2409.08229v1 ) ライセンス: Link先を確認 | M. AbuGhanem, | (参考訳) スケーラブルでフォールトトレラントな量子コンピューティングアーキテクチャを追求する中で、フォトニックベースの量子コンピュータが最前線として登場した。
本稿では,光量子コンピューティングの先駆者によって開発され,現在のパフォーマンス,アーキテクチャ設計,大規模かつフォールトトレラントなフォトニック量子コンピュータ開発戦略を概観する。
また、フォトニック技術の独特な利点を生かした最近の画期的な実験も強調し、その変革の可能性を強調している。
このレビューは、ノイズの多い中間スケール量子(NISQ)時代のフォトニック量子コンピューティングの重要な瞬間を捉え、フォトニック量子コンピュータが量子コンピューティングの未来をどう変えるかについての洞察を提供する。
In the pursuit of scalable and fault-tolerant quantum computing architectures, photonic-based quantum computers have emerged as a leading frontier. This article provides a comprehensive overview of advancements in photonic quantum computing, developed by leading industry players, examining current performance, architectural designs, and strategies for developing large-scale, fault-tolerant photonic quantum computers. It also highlights recent groundbreaking experiments that leverage the unique advantages of photonic technologies, underscoring their transformative potential. This review captures a pivotal moment of photonic quantum computing in the noisy intermediate-scale quantum (NISQ) era, offering insights into how photonic quantum computers might reshape the future of quantum computing. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# III-V半導体マイクロリングのダウンコンバージョンによる光子対生成:モード分散と準位相整合
Photon pair generation via down-conversion in III-V semiconductor microrings: modal dispersion and quasi-phase matching ( http://arxiv.org/abs/2409.08230v1 ) ライセンス: Link先を確認 | Samuel E. Fontaine, Colin Vendromin, Trevor J. Steiner, Amirali Atrli, Lillian Thiel, Joshua Castro, Galan Moody, John Bowers, Marco Liscidini, J. E. Sipe, | (参考訳) 我々は,III-V半導体マイクロリング共振器が擬似位相整合とモード分散を利用して,自発パラメトリックダウン変換により光子対と真空状態を効率的に生成する方法について検討した。
本稿では、弱いポンプパルスによって生成される光子対の双光子波関数の解析式を示し、より強いポンプ条件下で生じる圧縮状態の特徴付けを行う。
我々のモデルは損失を含み、散乱した光子の統計をキャプチャする。
詳細なサンプル計算により、低出力電力変換効率10$^{-5}$に対して、1$\mu$Wのポンプ電力に対する39MHzのレートに対応し、連続波とパルス励起状態の両方において、導波路に結合された単純なマイクロリングのような初歩的な構造に対して達成可能であることが示された。
我々の結果は、高レベルのスクイーズとポンプの枯渇が達成可能であり、おそらく非ガウス状態の決定論的生成につながることを示唆している。
We explore how III-V semiconductor microring resonators can efficiently generate photon pairs and squeezed vacuum states via spontaneous parametric down-conversion by utilizing their built-in quasi phase matching and modal dispersion. We present an analytic expression for the biphoton wave function of photon pairs generated by weak pump pulses, and characterize the squeezed states that result under stronger pumping conditions. Our model includes loss, and captures the statistics of the scattered photons. A detailed sample calculation shows that for low pump powers conversion efficiencies of 10$^{-5}$, corresponding to a rate of 39 MHz for a pump power of 1 $\mu$W, are attainable for rudimentary structures such as a simple microring coupled to a waveguide, in both the continuous wave and pulsed excitation regimes. Our results suggest that high levels of squeezing and pump depletion are attainable, possibly leading to the deterministic generation of non-Gaussian states | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# 深部強化学習による核融合炉の設計最適化
Design Optimization of Nuclear Fusion Reactor through Deep Reinforcement Learning ( http://arxiv.org/abs/2409.08231v1 ) ライセンス: Link先を確認 | Jinsu Kim, Jaemin Seo, | (参考訳) 本研究では,核融合炉の設計を最適化するための深部強化学習(DRL)の適用について検討する。
DRLは、定常動作に対する複数の物理および工学的制約に起因する問題に効果的に対処することができる。
DRLによる並列化に適用可能な核融合炉設計計算と最適化コードを開発した。
提案手法により, 建設コストを低減しつつ, 運転要件を満たす最適原子炉設計の立案が可能となる。
核融合炉の多目的設計の最適化はDRLにより単純化され、将来の原子炉の効率的かつ持続可能な設計を進めるための枠組みの可能性が示唆された。
This research explores the application of Deep Reinforcement Learning (DRL) to optimize the design of a nuclear fusion reactor. DRL can efficiently address the challenging issues attributed to multiple physics and engineering constraints for steady-state operation. The fusion reactor design computation and the optimization code applicable to parallelization with DRL are developed. The proposed framework enables finding the optimal reactor design that satisfies the operational requirements while reducing building costs. Multi-objective design optimization for a fusion reactor is now simplified by DRL, indicating the high potential of the proposed framework for advancing the efficient and sustainable design of future reactors. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# 磁気共鳴画像における脳腫瘍切片のモデルアンサンブル
Model Ensemble for Brain Tumor Segmentation in Magnetic Resonance Imaging ( http://arxiv.org/abs/2409.08232v1 ) ライセンス: Link先を確認 | Daniel Capellán-Martín, Zhifan Jiang, Abhijeet Parida, Xinyang Liu, Van Lam, Hareem Nisar, Austin Tapp, Sarah Elsharkawi, Maria J. Ledesma-Carbayo, Syed Muhammad Anwar, Marius George Linguraru, | (参考訳) マルチパラメトリック磁気共鳴画像における脳腫瘍の分離は、臨床試験とパーソナライズされた患者のケアをサポートするための定量的分析を可能にする。
この分析は、診断や予後を含む臨床的意思決定プロセスに影響を与える可能性がある。
2023年、BraTS(Brain tumor Segmentation)の課題は、8つのタスクと4500の脳腫瘍のケースで大幅に拡大した。
本稿では,小児脳腫瘍 (PED) , 頭蓋内髄膜腫 (MEN) , 脳転移 (MET) の3つのタスクにおいて, 新たに含まれた腫瘍に対して, 深層学習に基づくアンサンブル戦略を提案する。
特に、最先端のnnU-NetとSwin UNETRモデルの出力を領域的にアンサンブルする。
さらに,腫瘍部分領域のセグメンテーション結果を改善するために,クロスバリデーションしきい値探索に基づくターゲットポストプロセッシング戦略を実装した。
今回提案した3つの課題に対する検査結果から, PEDでは0.653, 0.809, 0.826, MEN:0.876, 0.867, 0.849, MET:0.555, 0.6, 0.58, 造影腫瘍では0.653, 0.809, 0.826, MEN: 0.876, 0.867, 0.849, MET: 0.555, 0.6, 0.58であった。
PEDでは第1位,MENでは第3位,METでは第4位であった。
Segmenting brain tumors in multi-parametric magnetic resonance imaging enables performing quantitative analysis in support of clinical trials and personalized patient care. This analysis provides the potential to impact clinical decision-making processes, including diagnosis and prognosis. In 2023, the well-established Brain Tumor Segmentation (BraTS) challenge presented a substantial expansion with eight tasks and 4,500 brain tumor cases. In this paper, we present a deep learning-based ensemble strategy that is evaluated for newly included tumor cases in three tasks: pediatric brain tumors (PED), intracranial meningioma (MEN), and brain metastases (MET). In particular, we ensemble outputs from state-of-the-art nnU-Net and Swin UNETR models on a region-wise basis. Furthermore, we implemented a targeted post-processing strategy based on a cross-validated threshold search to improve the segmentation results for tumor sub-regions. The evaluation of our proposed method on unseen test cases for the three tasks resulted in lesion-wise Dice scores for PED: 0.653, 0.809, 0.826; MEN: 0.876, 0.867, 0.849; and MET: 0.555, 0.6, 0.58; for the enhancing tumor, tumor core, and whole tumor, respectively. Our method was ranked first for PED, third for MEN, and fourth for MET, respectively. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# LLM Honeypot: 対話型Honeypotシステムとしての大規模言語モデルを活用する
LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems ( http://arxiv.org/abs/2409.08234v1 ) ライセンス: Link先を確認 | Hakan T. Otal, M. Abdullah Canbaz, | (参考訳) サイバー脅威の急速な進化は、悪意ある活動を検出し分析するための革新的な解決策を必要とする。
ハニーポットは、攻撃者を誘惑し、相互作用するように設計されたデコイシステムであり、サイバーセキュリティにおいて重要な要素として浮上している。
本稿では,Large Language Models (LLMs) を用いた,現実的でインタラクティブなハニーポットシステム構築のための新しいアプローチを提案する。
攻撃者が生成したコマンドとレスポンスの多様なデータセットに基づいて事前学習されたオープンソース言語モデルを微調整することにより、攻撃者との高度なエンゲージメントが可能なハニーポットを開発した。
提案手法には,データ収集と処理,プロンプトエンジニアリング,モデル選択,モデルの性能最適化のための教師付き微調整など,いくつかの重要なステップが含まれていた。
類似度測定と実運用による評価により,本手法が正確かつ情報的応答を効果的に生成できることが実証された。
この結果は、LLMがハニーポット技術に革命をもたらす可能性を浮き彫りにし、サイバーセキュリティの専門家に悪意ある活動を検出し分析する強力なツールを提供し、それによって全体的なセキュリティインフラが強化される。
The rapid evolution of cyber threats necessitates innovative solutions for detecting and analyzing malicious activity. Honeypots, which are decoy systems designed to lure and interact with attackers, have emerged as a critical component in cybersecurity. In this paper, we present a novel approach to creating realistic and interactive honeypot systems using Large Language Models (LLMs). By fine-tuning a pre-trained open-source language model on a diverse dataset of attacker-generated commands and responses, we developed a honeypot capable of sophisticated engagement with attackers. Our methodology involved several key steps: data collection and processing, prompt engineering, model selection, and supervised fine-tuning to optimize the model's performance. Evaluation through similarity metrics and live deployment demonstrated that our approach effectively generates accurate and informative responses. The results highlight the potential of LLMs to revolutionize honeypot technology, providing cybersecurity professionals with a powerful tool to detect and analyze malicious activity, thereby enhancing overall security infrastructure. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# モデルポジショニング攻撃に対するマルチモデルに基づくフェデレート学習:MECシステムのための深層学習に基づくモデル選択
Multi-Model based Federated Learning Against Model Poisoning Attack: A Deep Learning Based Model Selection for MEC Systems ( http://arxiv.org/abs/2409.08237v1 ) ライセンス: Link先を確認 | Somayeh Kianpisheh, Chafika Benzaid, Tarik Taleb, | (参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、分散データからグローバルモデルのトレーニングを可能にする。
しかし、FLの特異モデルに基づく操作は、グローバルモデル構造と互換性のある有毒モデルをアップロードすることでオープンであり、モデル中毒攻撃を行う脆弱性として利用することができる。
本稿では, モデル中毒対策の機会を高めるための積極的メカニズムとして, マルチモデルFLを提案する。
マスターモデルは、一連のスレーブモデルによって訓練される。
攻撃緩和の機会を高めるため、学習エポック内でクライアントモデルの構造が動的に変化し、支援者FLプロトコルを提供する。
MECシステムの場合、モデル選択問題はロバストネスの信頼性を満たしつつ、損失と認識時間を最小化する最適化としてモデル化される。
動的ネットワーク条件に適応して、深層強化学習に基づくモデル選択を提案する。
DDoS攻撃検出のシナリオでは、システムは攻撃を受けないというシナリオと、認識時間の改善の可能性によって、毒殺攻撃下での競争精度の向上が示される。
Federated Learning (FL) enables training of a global model from distributed data, while preserving data privacy. However, the singular-model based operation of FL is open with uploading poisoned models compatible with the global model structure and can be exploited as a vulnerability to conduct model poisoning attacks. This paper proposes a multi-model based FL as a proactive mechanism to enhance the opportunity of model poisoning attack mitigation. A master model is trained by a set of slave models. To enhance the opportunity of attack mitigation, the structure of client models dynamically change within learning epochs, and the supporter FL protocol is provided. For a MEC system, the model selection problem is modeled as an optimization to minimize loss and recognition time, while meeting a robustness confidence. In adaption with dynamic network condition, a deep reinforcement learning based model selection is proposed. For a DDoS attack detection scenario, results illustrate a competitive accuracy gain under poisoning attack with the scenario that the system is without attack, and also a potential of recognition time improvement. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# Source2Synth: 実データソースに接地した合成データ生成とキュレーション
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources ( http://arxiv.org/abs/2409.08239v1 ) ライセンス: Link先を確認 | Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli, | (参考訳) 大規模言語モデルは、構造化データ、複雑な推論、ツールの使用などを活用する難題に苦慮している。
本稿では,コストのかかる人的アノテーションに頼ることなく,LLMに新たなスキルを教えるための新しい手法であるSource2Synthを提案する。
Source2Synthはカスタムデータソースを入力として、実世界のソースをベースとした中間的推論ステップを備えた合成データポイントを生成する。
Source2Synthは、その応答性に基づいて、低品質世代を破棄することで、データセットの品質を改善する。
本稿では,マルチホップ質問応答(MHQA)における推論能力と,表型質問応答(TQA)におけるツール利用の2つの領域に適用することで,このアプローチの汎用性を実証する。
WikiSQLではTQAが25.51%,HotPotQAではMHQAが22.57%向上した。
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# IFAdapter: 接地テキスト・画像生成のためのインスタンス特徴制御
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation ( http://arxiv.org/abs/2409.08240v1 ) ライセンス: Link先を確認 | Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang, | (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは個々のインスタンスの視覚的に魅力的な画像を生成するのに優れていますが、複数のインスタンスの特徴の生成を正確に位置決めし制御するのに苦労しています。
Layout-to-Image(L2I)タスクは、境界ボックスを空間制御信号として組み込むことによって位置決めの問題に対処するために導入された。
そこで本研究では,生成インスタンスにおける位置精度と特徴の忠実度を両立することを目的としたIFGタスクを提案する。
IFGタスクに対処するために、インスタンス・フィーチャー・アダプタ(IFAdapter)を導入します。
IFAdapterは、追加の外観トークンを導入し、インスタンスレベルの機能を空間的位置と整列するためにインスタンスセマンティックマップを活用することで、機能描写を強化する。
IFAdapterは、拡散プロセスをプラグアンドプレイモジュールとしてガイドし、様々なコミュニティモデルに適応できるようにする。
評価のために、IFGベンチマークにコントリビュートし、正確な位置決めと特徴を持つインスタンスを生成するためのモデルの能力を客観的に比較する検証パイプラインを開発する。
実験の結果,IFAdapterは定量評価と定性評価の両方において,他のモデルよりも優れていた。
While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models' abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# ビジュアルアートワークのスタイルベースのクラスタリング
Style Based Clustering of Visual Artworks ( http://arxiv.org/abs/2409.08245v1 ) ライセンス: Link先を確認 | Abhishek Dangeti, Pavan Gajula, Vivek Srivastava, Vikram Jamwal, | (参考訳) スタイルに基づくクラスタリングアートは、アートレコメンデーション、スタイルベースの検索と検索、アートコーパスにおけるアートスタイルの進化の研究など、現実の多くの応用の可能性を秘めている。
しかし、スタイルに基づくクラスタリングアートは、ほとんど未解決の問題である。
アートワークをクラスタリングするためのいくつかの方法は、主にディープニューラルネットワークから派生した一般的な画像特徴表現に依存しており、特に芸術的スタイルに対処していない。
本稿では,視覚芸術作品のスタイルに基づくクラスタリングの概念について紹介し,考察する。
私たちの主な目的は、スタイルベースのクラスタリングに使用可能なニューラルな特徴表現とアーキテクチャを探求し、その影響と効果を観察することです。
我々は,4つのアートコーパスと4つのキュレートされた合成スタイルデータセットに適用し,定性的および定量的分析により,異なる手法を開発し,その相対的有効性を評価する。
我々の分析は、アーキテクチャ、特徴表現、およびスタイルベースのクラスタリングに適した評価方法に関するいくつかの重要な新しい洞察を提供する。
Clustering artworks based on style has many potential real-world applications like art recommendations, style-based search and retrieval, and the study of artistic style evolution in an artwork corpus. However, clustering artworks based on style is largely an unaddressed problem. A few present methods for clustering artworks principally rely on generic image feature representations derived from deep neural networks and do not specifically deal with the artistic style. In this paper, we introduce and deliberate over the notion of style-based clustering of visual artworks. Our main objective is to explore neural feature representations and architectures that can be used for style-based clustering and observe their impact and effectiveness. We develop different methods and assess their relative efficacy for style-based clustering through qualitative and quantitative analysis by applying them to four artwork corpora and four curated synthetically styled datasets. Our analysis provides some key novel insights on architectures, feature representations, and evaluation methods suitable for style-based clustering. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# TextBoost: 微調整テキストエンコーダによるテキスト間画像モデルのワンショットパーソナライズに向けて
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder ( http://arxiv.org/abs/2409.08248v1 ) ライセンス: Link先を確認 | NaHyeon Park, Kunhee Kim, Hyunjung Shim, | (参考訳) 近年のテキスト・ツー・イメージモデルにおけるブレークスルーは、パーソナライズされた画像生成における有望な研究の道を開き、ユーザーは自然言語のプロンプトを使って、特定の主題の多様な画像を作成することができるようになった。
しかし、既存の手法は単一の参照画像のみを与えられた場合、しばしば性能劣化に悩まされる。
彼らは入力に過度に適合し、テキストのプロンプトに関係なく非常に類似した出力を生成する傾向がある。
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
具体的には,テキストエンコーダに着目した微調整戦略を提案する。
さらに, パーソナライズ性能を高めるための3つの重要な手法を紹介し, 1) 特徴のゆがみを助長し, 過剰適合を緩和する拡張トークン, (2) 言語ドリフトを減らし, 多様なプロンプトをまたいだ一般化性を促進する知識保存損失, (3) 効率的なトレーニングのためのSNR重み付きサンプリングを紹介する。
大規模な実験により, 単一の参照画像のみを用いて, 高品質で多様な画像を効率よく生成し, メモリとストレージの要求を大幅に低減した。
Recent breakthroughs in text-to-image models have opened up promising research avenues in personalized image generation, enabling users to create diverse images of a specific subject using natural language prompts. However, existing methods often suffer from performance degradation when given only a single reference image. They tend to overfit the input, producing highly similar outputs regardless of the text prompt. This paper addresses the challenge of one-shot personalization by mitigating overfitting, enabling the creation of controllable images through text prompts. Specifically, we propose a selective fine-tuning strategy that focuses on the text encoder. Furthermore, we introduce three key techniques to enhance personalization performance: (1) augmentation tokens to encourage feature disentanglement and alleviate overfitting, (2) a knowledge-preservation loss to reduce language drift and promote generalizability across diverse prompts, and (3) SNR-weighted sampling for efficient training. Extensive experiments demonstrate that our approach efficiently generates high-quality, diverse images using only a single reference image while significantly reducing memory and storage requirements. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# OmniQuery: パーソナライズ可能なマルチモーダルメモリのコンテキスト拡張
OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering ( http://arxiv.org/abs/2409.08250v1 ) ライセンス: Link先を確認 | Jiahao Nick Li, Zhuohao, Zhang, Jiaju Ma, | (参考訳) 人々はしばしば写真、スクリーンショット、ビデオを通して記憶を捉えます。
既存のAIベースのツールは、これらのデータを自然言語でクエリできるが、それらは主に、写真の中の特定のオブジェクトのような個々の情報を取得することをサポートし、イベントシーケンスのような相互接続された記憶を解釈するより複雑なクエリに答えることに苦労する。
本研究では,現実的なユーザクエリを収集するために1ヶ月の日誌調査を行い,収集した記憶と統合するために必要な文脈情報の分類を作成した。
OmniQueryは複雑な個人記憶に関する質問に応答し、コンテキスト情報を抽出し、推測することを必要とする新しいシステムである。
OmniQueryは、複数の相互接続メモリから分散したコンテキスト情報を統合して、単一のキャプチャーメモリを拡張し、関連するメモリを検索し、大きな言語モデル(LLM)を使用して答えを包括する。
人間の評価では,71.5%の精度でOmniQueryの有効性を示した。
People often capture memories through photos, screenshots, and videos. While existing AI-based tools enable querying this data using natural language, they mostly only support retrieving individual pieces of information like certain objects in photos and struggle with answering more complex queries that involve interpreting interconnected memories like event sequences. We conducted a one-month diary study to collect realistic user queries and generated a taxonomy of necessary contextual information for integrating with captured memories. We then introduce OmniQuery, a novel system that is able to answer complex personal memory-related questions that require extracting and inferring contextual information. OmniQuery augments single captured memories through integrating scattered contextual information from multiple interconnected memories, retrieves relevant memories, and uses a large language model (LLM) to comprehensive answers. In human evaluations, we show the effectiveness of OmniQuery with an accuracy of 71.5%, and it outperformed a conventional RAG system, winning or tying in 74.5% of the time. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# パン光学的ナラティブグラウンドリングのための凍結型テキスト・画像拡散モデルの動的プロンプト
Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding ( http://arxiv.org/abs/2409.08251v1 ) ライセンス: Link先を確認 | Hongyu Li, Tianrui Hui, Zihan Ding, Jing Zhang, Bin Ma, Xiaoming Wei, Jizhong Han, Si Liu, | (参考訳) 中心となるターゲットがきめ細かい画像テキストアライメントであるPNG(Panoptic narrative grounding)は、物語キャプションを付与された参照対象のパノプティックセグメンテーションを必要とする。
従来の識別法は、汎視的セグメンテーション事前訓練やCLIPモデル適応によって、弱いあるいは粗いアライメントしか達成していない。
近年のテキスト・ツー・イメージ・ディフュージョン・モデルの進歩を踏まえ、クロスアテンション・マップによる微粒な画像・テキストアライメントの実現と、一般的なセグメンテーション性能の向上が示されている。
しかし、PNGタスクに凍結拡散モデルを適用するための静的なプロンプトとしてフレーズの直接的使用は、大きなタスクギャップと視覚言語間相互作用の不足に悩まされ、性能が劣る。
そこで我々は,Diffusion UNet内の抽出帰納句適応器 (EIPA) をバイパスして,画像特徴を持つフレーズプロンプトを動的に更新し,マルチモーダルキューをインジェクトし,ディフュージョンモデルのより詳細な画像テキストアライメント機能を活用する。
さらに,複数レベルの画像とフレーズを相互に融合するMLMAモジュールを設計し,セグメンテーションの洗練を図る。
PNGベンチマークの大規模な実験により,本手法が新たな最先端性能を実現することが示された。
Panoptic narrative grounding (PNG), whose core target is fine-grained image-text alignment, requires a panoptic segmentation of referred objects given a narrative caption. Previous discriminative methods achieve only weak or coarse-grained alignment by panoptic segmentation pretraining or CLIP model adaptation. Given the recent progress of text-to-image Diffusion models, several works have shown their capability to achieve fine-grained image-text alignment through cross-attention maps and improved general segmentation performance. However, the direct use of phrase features as static prompts to apply frozen Diffusion models to the PNG task still suffers from a large task gap and insufficient vision-language interaction, yielding inferior performance. Therefore, we propose an Extractive-Injective Phrase Adapter (EIPA) bypass within the Diffusion UNet to dynamically update phrase prompts with image features and inject the multimodal cues back, which leverages the fine-grained image-text alignment capability of Diffusion models more sufficiently. In addition, we also design a Multi-Level Mutual Aggregation (MLMA) module to reciprocally fuse multi-level image and phrase features for segmentation refinement. Extensive experiments on the PNG benchmark show that our method achieves new state-of-the-art performance. | 翻訳日:2024-09-13 15:35:07 公開日:2024-09-12 |
# 半自律型サイバー物理システムのためのインフォーマティブ・テイクオーバー要求の設計:ドローン制御系における音声言語と視覚アイコンの組み合わせ
The Design of Informative Take-Over Requests for Semi-Autonomous Cyber-Physical Systems: Combining Spoken Language and Visual Icons in a Drone-Controller Setting ( http://arxiv.org/abs/2409.08253v1 ) ライセンス: Link先を確認 | Ashwini Gundappa, Emilia Ellsiepen, Lukas Schmitz, Frederik Wiehr, Vera Demberg, | (参考訳) サイバー物理システムは、制御を乗っ取り、監視を行うことのできる人間のパートナーとどのように相互作用すべきかという疑問は、より広い範囲のタスクに配備されるため、ますます迫りつつある。
本稿では,半自律運転と人間ロボットのインタラクションにおける制御の引き渡しに関する文献に基づいて,抽象的プレアラートと情報的TORを組み合わせたテイクオーバー要求の設計を提案する: 関連するセンサ情報をコントローラのディスプレイにハイライトし,音声メッセージがTORの理由を口頭で述べる。
我々は、テストベッドとして半自律ドローン制御シナリオの文脈で研究を行う。
私たちのオンライン研究の目的は、言語ベースのTORがどのような形をとるべきかをより詳細に評価することにあります。
具体的には、全文条件を短い断片と比較し、視覚的ハイライトを音声と同期的に、あるいは非同期的に行うべきかをテストする。
被験者は,両モードのTORで正しい解を選択する際に高い精度を示し,危機状況の認識がより良好であると感じた。
完全文ではなく音声メッセージの断片のみを使用することで、精度の向上や反応の高速化には至らなかった。
また、音声メッセージと視覚強調表示を同期させることで精度が向上せず、応答時間も増大した。
The question of how cyber-physical systems should interact with human partners that can take over control or exert oversight is becoming more pressing, as these systems are deployed for an ever larger range of tasks. Drawing on the literatures on handing over control during semi-autonomous driving and human-robot interaction, we propose a design of a take-over request that combines an abstract pre-alert with an informative TOR: Relevant sensor information is highlighted on the controller's display, while a spoken message verbalizes the reason for the TOR. We conduct our study in the context of a semi-autonomous drone control scenario as our testbed. The goal of our online study is to assess in more detail what form a language-based TOR should take. Specifically, we compare a full sentence condition to shorter fragments, and test whether the visual highlighting should be done synchronously or asynchronously with the speech. Participants showed a higher accuracy in choosing the correct solution with our bi-modal TOR and felt that they were better able to recognize the critical situation. Using only fragments in the spoken message rather than full sentences did not lead to improved accuracy or faster reactions. Also, synchronizing the visual highlighting with the spoken message did not result in better accuracy and response times were even increased in this condition. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# LoRID: 逆浄化のための低ランク反復拡散
LoRID: Low-Rank Iterative Diffusion for Adversarial Purification ( http://arxiv.org/abs/2409.08255v1 ) ライセンス: Link先を確認 | Geigh Zollicoffer, Minh Vu, Ben Nebgen, Juan Castorena, Boian Alexandrov, Manish Bhattarai, | (参考訳) 本研究は,拡散モデルを用いて敵の例として悪質な摂動を除去する,拡散に基づく浄化法に関する情報理論的検討である。
マルコフの拡散浄化に伴う自然浄化誤差を理論的に特徴付けることにより, 本手法は, 対向的摂動を低内在的浄化誤差で除去するように設計された新しい低ランク反復拡散浄化法である LoRID を導入する。
LoRIDは、拡散モデルの初期段階における拡散還元ループの複数ラウンドを活用する多段階浄化プロセスと、行列分解の拡張であるタッカー分解を統合して、高雑音状態における対向ノイズを除去する。
その結果、LoRIDは効果的な拡散時間ステップを増大させ、強力な敵攻撃を克服し、ホワイトボックスとブラックボックスの設定の両方でCIFAR-10/100、CelebA-HQ、ImageNetデータセットにおいて優れた堅牢性を実現する。
This work presents an information-theoretic examination of diffusion-based purification methods, the state-of-the-art adversarial defenses that utilize diffusion models to remove malicious perturbations in adversarial examples. By theoretically characterizing the inherent purification errors associated with the Markov-based diffusion purifications, we introduce LoRID, a novel Low-Rank Iterative Diffusion purification method designed to remove adversarial perturbation with low intrinsic purification errors. LoRID centers around a multi-stage purification process that leverages multiple rounds of diffusion-denoising loops at the early time-steps of the diffusion models, and the integration of Tucker decomposition, an extension of matrix factorization, to remove adversarial noise at high-noise regimes. Consequently, LoRID increases the effective diffusion time-steps and overcomes strong adversarial attacks, achieving superior robustness performance in CIFAR-10/100, CelebA-HQ, and ImageNet datasets under both white-box and black-box settings. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# ガーメント中心拡散モデルによる仮想トライオンの改善
Improving Virtual Try-On with Garment-focused Diffusion Models ( http://arxiv.org/abs/2409.08258v1 ) ライセンス: Link先を確認 | Siqi Wan, Yehao Li, Jingwen Chen, Yingwei Pan, Ting Yao, Yang Cao, Tao Mei, | (参考訳) 拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
それでも、対象者の画像、すなわち画像ベースの仮想試行(VTON)タスクを合成するために拡散モデルを直接適用するのは簡単ではない。
この困難さは、拡散過程が対象者の全体像だけでなく、与えられた衣服の外観やテクスチャの詳細を局所的に保存することにも起因している。
これに対処するため、我々はGarDiffと呼ばれる新しい拡散モデルを作成し、その服から得られる基本的な視覚的外観と詳細なテクスチャ(すなわち高周波詳細)の両方を増幅して、衣服中心の拡散プロセスを誘発する。
GarDiff はまず、CLIP および VAE エンコーディングから派生した、事前訓練された潜伏拡散モデルを再成形する。
一方、新しい衣料着着は拡散モデルのUNetに統合され、参照服や人間のポーズの視覚的外観と局所的なきめ細かいアライメントが追求される。
具体的には,合成衣料の外観損失を,重要で高周波な細部を強化するために設計する。
VITON-HDとDressCodeのデータセットに関する大規模な実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
コードは以下で公開されている。 \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}。
Diffusion models have led to the revolutionizing of generative modeling in numerous image synthesis tasks. Nevertheless, it is not trivial to directly apply diffusion models for synthesizing an image of a target person wearing a given in-shop garment, i.e., image-based virtual try-on (VTON) task. The difficulty originates from the aspect that the diffusion process should not only produce holistically high-fidelity photorealistic image of the target person, but also locally preserve every appearance and texture detail of the given garment. To address this, we shape a new Diffusion model, namely GarDiff, which triggers the garment-focused diffusion process with amplified guidance of both basic visual appearance and detailed textures (i.e., high-frequency details) derived from the given garment. GarDiff first remoulds a pre-trained latent diffusion model with additional appearance priors derived from the CLIP and VAE encodings of the reference garment. Meanwhile, a novel garment-focused adapter is integrated into the UNet of diffusion model, pursuing local fine-grained alignment with the visual appearance of reference garment and human pose. We specifically design an appearance loss over the synthesized garment to enhance the crucial, high-frequency details. Extensive experiments on VITON-HD and DressCode datasets demonstrate the superiority of our GarDiff when compared to state-of-the-art VTON approaches. Code is publicly available at: \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# セマンティックプリインペイントによるテキスト誘導型オブジェクトインペイントの改善
Improving Text-guided Object Inpainting with Semantic Pre-inpainting ( http://arxiv.org/abs/2409.08260v1 ) ライセンス: Link先を確認 | Yifu Chen, Jingwen Chen, Yingwei Pan, Yehao Li, Ting Yao, Zhineng Chen, Tao Mei, | (参考訳) 近年,大規模なテキスト・画像拡散モデルの成功と,高品質な画像生成の可能性が注目されている。
画像の編集性を高めるためのさらなる追求は、画像内の指定された領域内でテキストプロンプトによって記述された新しいオブジェクトを描画する下流タスクに大きな関心を喚起した。
それでも問題は2つの側面から見れば簡単ではない。
1) 1つのU-Netに頼ってテキストプロンプトと視覚オブジェクトを全段階にわたって整列させることは,所望のオブジェクトを生成するには不十分である。
2)拡散モデルの複雑なサンプリング空間において,オブジェクト生成の制御性は保証されない。
本稿では,典型的な単一ステージオブジェクトを2つのカスケードプロセスに分解することを提案する。
1) マルチモーダルな特徴空間における所望のオブジェクトのセマンティックな特徴を推測するセマンティック・プレインパインティング
2) 拡散潜時空間における高磁場オブジェクト生成は, それらが塗布された意味的特徴に基づく。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,テキスト誘導オブジェクトインパインティングのための新しいCAAT-Diffusion(CAT-Diffusion)フレームワークを実現する。
技術的には、セマンティック・インペーターは、未成熟のコンテキストとテキストプロンプトに基づいてターゲットオブジェクトのセマンティックな特徴を予測するために訓練される。
セマンティック・インパインの出力は、参照アダプタ層を通して高視野オブジェクト生成を誘導する情報的視覚的プロンプトとして機能し、制御可能なオブジェクトインパインティングをもたらす。
OpenImages-V6とMSCOCOの大規模な評価は、最先端手法に対するCAT拡散の優位性を検証する。
コードは \url{https://github.com/Nnn-s/CATdiffusion} で入手できる。
Recent years have witnessed the success of large text-to-image diffusion models and their remarkable potential to generate high-quality images. The further pursuit of enhancing the editability of images has sparked significant interest in the downstream task of inpainting a novel object described by a text prompt within a designated region in the image. Nevertheless, the problem is not trivial from two aspects: 1) Solely relying on one single U-Net to align text prompt and visual object across all the denoising timesteps is insufficient to generate desired objects; 2) The controllability of object generation is not guaranteed in the intricate sampling space of diffusion model. In this paper, we propose to decompose the typical single-stage object inpainting into two cascaded processes: 1) semantic pre-inpainting that infers the semantic features of desired objects in a multi-modal feature space; 2) high-fieldity object generation in diffusion latent space that pivots on such inpainted semantic features. To achieve this, we cascade a Transformer-based semantic inpainter and an object inpainting diffusion model, leading to a novel CAscaded Transformer-Diffusion (CAT-Diffusion) framework for text-guided object inpainting. Technically, the semantic inpainter is trained to predict the semantic features of the target object conditioning on unmasked context and text prompt. The outputs of the semantic inpainter then act as the informative visual prompts to guide high-fieldity object generation through a reference adapter layer, leading to controllable object inpainting. Extensive evaluations on OpenImages-V6 and MSCOCO validate the superiority of CAT-Diffusion against the state-of-the-art methods. Code is available at \url{https://github.com/Nnn-s/CATdiffusion}. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# GMRESのための不完全分解プレコンディショナーの学習
Learning incomplete factorization preconditioners for GMRES ( http://arxiv.org/abs/2409.08262v1 ) ライセンス: Link先を確認 | Paul Häusner, Aleix Nieto Juscafresa, Jens Sjölund, | (参考訳) 本稿では,大規模スパース行列の不完全LU分解を生成するためのデータ駆動手法を開発する。
GMRES法において, 学習された近似因数分解を対応する線形方程式系のプレコンディショナーとして利用する。
不完全分解法はスパース線形方程式系において最もよく用いられる代数的プレコンディショナーの1つであり、クリロフ部分空間法の収束を高速化することができる。
しかし、それらはハイパーパラメータに敏感であり、数値的な分解に悩まされるか、適切に適用されないと収束が遅くなる可能性がある。
我々は、手書きのアルゴリズムをグラフニューラルネットワークベースのアプローチに置き換え、近似因数分解を予測するためにデータに対してトレーニングする。
これにより、特定の問題分布に適したプレコンディショナーを学習できます。
本研究では,学習済みプレコンディショナーの学習における損失関数の解析と評価を行い,GMRESの反復回数を減らし,合成データセットのスペクトル特性を改善する効果を示す。
コードはhttps://github.com/paulhausner/neural-incomplete-factorizationで公開されている。
In this paper, we develop a data-driven approach to generate incomplete LU factorizations of large-scale sparse matrices. The learned approximate factorization is utilized as a preconditioner for the corresponding linear equation system in the GMRES method. Incomplete factorization methods are one of the most commonly applied algebraic preconditioners for sparse linear equation systems and are able to speed up the convergence of Krylov subspace methods. However, they are sensitive to hyper-parameters and might suffer from numerical breakdown or lead to slow convergence when not properly applied. We replace the typically hand-engineered algorithms with a graph neural network based approach that is trained against data to predict an approximate factorization. This allows us to learn preconditioners tailored for a specific problem distribution. We analyze and empirically evaluate different loss functions to train the learned preconditioners and show their effectiveness to decrease the number of GMRES iterations and improve the spectral properties on our synthetic dataset. The code is available at https://github.com/paulhausner/neural-incomplete-factorization. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# Windows Agent Arena: 大規模マルチモーダルOSエージェントの評価
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale ( http://arxiv.org/abs/2409.08264v1 ) ライセンス: Link先を確認 | Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui, | (参考訳) 大規模言語モデル(LLM)はコンピュータエージェントとして機能し、計画や推論を必要とするマルチモーダルタスクにおける人間の生産性とソフトウェアアクセシビリティを向上させる。
しかし、現実的な環境におけるエージェントのパフォーマンスの測定は、現在でも課題である。
(i)ほとんどのベンチマークは特定のモダリティやドメイン(テキストのみ、Webナビゲーション、Q&A、コーディングなど)に限定されている。
(ii)タスクの逐次的性質を考えると,ベンチマーク評価は遅い(日数等級)。
これらの課題に対処するために、我々は、Windows Agent Arenaを紹介した: 再現可能な、Windows OS(OS)にのみ焦点をあてた一般的な環境。
私たちはOSWorldフレームワーク(Xie et al , 2024)に適応し、計画、画面理解、ツール使用においてエージェント能力を必要とする代表ドメイン間で150以上の多様なWindowsタスクを作成します。
私たちのベンチマークはスケーラブルで、完全なベンチマーク評価を20分以内で、Azureでシームレスに並列化できます。
Windows Agent Arenaの機能を示すために、新しいマルチモーダルエージェントであるNaviも導入した。
我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。
Naviはまた、もう1つの人気のあるWebベースのベンチマークであるMind2Webで、強力なパフォーマンスを示している。
また, Windows Agent Arena を用いたエージェント開発とデータ生成における今後の研究の機会についての知見を提供する。
Webページ: https://microsoft.github.io/WindowsAgentArenaコード: https://github.com/microsoft/WindowsAgentArena
Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# 修正積公式による高速アルゴリズム量子と古典シミュレーション
Faster Algorithmic Quantum and Classical Simulations by Corrected Product Formulas ( http://arxiv.org/abs/2409.08265v1 ) ライセンス: Link先を確認 | Mohsen Bagherimehrab, Dominic W. Berry, Philipp Schleich, Abdulrahman Aldossary, Jorge A. Campos Gonzalez Angulo, Alan Aspuru-Guzik, | (参考訳) 製品公式を用いたハミルトンシミュレーションは、量子コンピュータ上の量子系の力学のアルゴリズムシミュレーションにおいて最も単純かつ実用的なアプローチである。
ここでは、修正製品公式(CPFs)という、標準製品公式に補語と呼ばれる補助語を注入することによって達成される製品公式のバリエーションについて述べる。
格子ハミルトンの共通特徴である2つの分割からなるハミルトン式をシミュレートするための標準積公式の精度を大幅に向上するいくつかの補正器を構築し、シミュレーションコストに小さな加法因子または乗法因子を加えるだけでよい。
シミュレーション誤差を制御するための追加パラメータとして小ノルムを使用できるため、一方のパーティションが他方に比べて比較的小さなノルムを持つような摂動システムでは、補正器が特に有利であることを示す。
いくつかの格子ハミルトニアンに対する数値シミュレーションによりCPFの性能を示す。
計算結果から, CPF に対する理論誤差は, これらのシステムに対する標準積公式の実証誤差と一致するか, あるいは超えていることがわかった。
CPFは、限られた計算資源を持つ初期のフォールトトレラント量子コンピュータにとって、貴重なアルゴリズムツールである可能性がある。
標準の製品公式では、CPFは古典的なコンピュータのシミュレーションにも使える。
Hamiltonian simulation using product formulas is arguably the most straightforward and practical approach for algorithmic simulation of a quantum system's dynamics on a quantum computer. Here we present corrected product formulas (CPFs), a variation of product formulas achieved by injecting auxiliary terms called correctors into standard product formulas. We establish several correctors that greatly improve the accuracy of standard product formulas for simulating Hamiltonians comprised of two partitions that can be exactly simulated, a common feature of lattice Hamiltonians, while only adding a small additive or multiplicative factor to the simulation cost. We show that correctors are particularly advantageous for perturbed systems, where one partition has a relatively small norm compared to the other, as they allow the small norm to be utilized as an additional parameter for controlling the simulation error. We demonstrate the performance of CPFs by numerical simulations for several lattice Hamiltonians. Numerical results show our theoretical error bound for CPFs matches or exceeds the empirical error of standard product formulas for these systems. CPFs could be a valuable algorithmic tool for early fault-tolerant quantum computers with limited computing resources. As for standard product formulas, CPFs could also be used for simulations on a classical computer. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# CROSS: オープンソースソフトウェアのためのコントリビュータとプロジェクトのインタラクションライフサイクルモデル
CROSS: A Contributor-Project Interaction Lifecycle Model for Open Source Software ( http://arxiv.org/abs/2409.08267v1 ) ライセンス: Link先を確認 | Tapajit Dey, Brian Fitzgerald, Sherae Daniel, | (参考訳) オープンソースソフトウェア(OSS)が広く採用されているにもかかわらず、その持続性は、セキュリティ上の脆弱性や、OSSプロジェクトが減少するにつれて、しばしば不適切なエンド・オブ・サービス(EoS)プロセスを考えると、依然として重要な関心事である。
既存のOSSコミュニティ参加モデル、例えば、オニオンモデルやエピソードコントリビューションモデルは、価値ある洞察を提供するが、基本的には互換性がなく、OSSプロジェクトへのコントリビュータ関与の包括的イメージを提供していない。
本稿では,オープンソースのための新しいコントリビュータ・プロジェクト間インタラクションライフサイクルモデルであるCROSSモデルを提案することで,これらのギャップに対処する。
OSSコミュニティ、組織行動、人的資源開発に関する既存の研究を合成することにより、コントリビュータの関与のさまざまなアーキティパルケースを説明し、特にEoS/オフボードシナリオにおける研究ギャップを強調します。
CROSSモデルはOSSプロジェクトの持続可能性を理解し、拡張するための基盤を提供し、将来の研究と実践的な応用のための堅牢な基盤を提供する。
Despite the widespread adoption of open source software (OSS), its sustainability remains a critical concern, particularly in light of security vulnerabilities and the often inadequate end-of-service (EoS) processes for OSS projects as they decline. Existing models of OSS community participation, like the Onion model and the episodic contribution model, offer valuable insights but are fundamentally incompatible and fail to provide a comprehensive picture of contributor engagement with OSS projects. This paper addresses these gaps by proposing the CROSS model, a novel contributor-project interaction lifecycle model for open source, which delineates the various lifecycle stages of contributor-project interaction along with the driving and retaining forces pertinent to each stage. By synthesizing existing research on OSS communities, organizational behavior, and human resource development, it explains a range of archetypal cases of contributor engagement and highlights research gaps, especially in EoS/offboarding scenarios. The CROSS model provides a foundation for understanding and enhancing the sustainability of OSS projects, offering a robust foundation for future research and practical application. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# FlashSplat:2Dから3Dのガウス・スプレイティング・セグメンテーションを最適に解決
FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally ( http://arxiv.org/abs/2409.08270v1 ) ライセンス: Link先を確認 | Qiuhong Shen, Xingyi Yang, Xinchao Wang, | (参考訳) 本研究は,2次元マスクから3次元ガウススプラッティングを正確に分割することの課題に対処する。
従来の手法は、各ガウスを一意なラベルに割り当てるために反復勾配降下に依存することが多く、長い最適化と準最適解をもたらす。
代わりに、3D-GSセグメンテーションのための単純かつグローバルな最適解法を提案する。
提案手法の中核となる洞察は,再構成された3D-GSシーンでは,2次元マスクの描画はガウスのラベルに対して本質的に線形関数であるということである。
そのため、最適ラベル割り当ては閉形式で線形プログラミングによって解決できる。
この解は、単一ステップ最適化のためのスプレイティングプロセスのアルファブレンディング特性を生かしたものである。
対象関数に背景バイアスを組み込むことにより, 雑音に対する3次元分割において, 優れたロバスト性を示す。
注目すべきは、最適化が30秒以内に完了することです。
広範囲な実験により, 様々なシーンのセグメンテーションにおける手法の有効性とロバスト性を実証し, 物体除去や塗装などの下流作業において優れた性能を示した。
デモとコードはhttps://github.com/florinshen/FlashSplat.comで公開される。
This study addresses the challenge of accurately segmenting 3D Gaussian Splatting from 2D masks. Conventional methods often rely on iterative gradient descent to assign each Gaussian a unique label, leading to lengthy optimization and sub-optimal solutions. Instead, we propose a straightforward yet globally optimal solver for 3D-GS segmentation. The core insight of our method is that, with a reconstructed 3D-GS scene, the rendering of the 2D masks is essentially a linear function with respect to the labels of each Gaussian. As such, the optimal label assignment can be solved via linear programming in closed form. This solution capitalizes on the alpha blending characteristic of the splatting process for single step optimization. By incorporating the background bias in our objective function, our method shows superior robustness in 3D segmentation against noises. Remarkably, our optimization completes within 30 seconds, about 50$\times$ faster than the best existing methods. Extensive experiments demonstrate the efficiency and robustness of our method in segmenting various scenes, and its superior performance in downstream tasks such as object removal and inpainting. Demos and code will be available at https://github.com/florinshen/FlashSplat. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# ドリームビースト:3Dファストリアルな動物を分別で蒸留する
DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer ( http://arxiv.org/abs/2409.08271v1 ) ライセンス: Link先を確認 | Runjia Li, Junlin Han, Luke Melas-Kyriazi, Chunyi Sun, Zhaochong An, Zhongrui Gui, Shuyang Sun, Philip Torr, Tomas Jakab, | (参考訳) 本研究では,異なる部分からなる素晴らしい3D動物資産を生成するための,スコア蒸留サンプリング(SDS)に基づく新しい手法であるDreamBeastを提案する。
既存のSDSメソッドは、テキストと画像の拡散モデルにおける部分レベルのセマンティクスの限定的な理解のために、この生成タスクに苦労することが多い。
安定拡散3のような最近の拡散モデルは、より優れた部分レベル理解を示すが、それらは禁断的に遅く、単視点拡散モデルに関連する他の一般的な問題を示す。
DreamBeastは、新しい知識伝達機構を通じて、この制限を克服する。
生成した各資産に対して、安定拡散3モデルから部分レベルの知識を効率よく3次元部分親和性暗示表現に抽出する。
これにより、任意のカメラビューからPart-Affinityマップを瞬時に生成し、SDS中に多視点拡散モデルのガイダンスを変調して、幻想的な動物の3Dアセットを作成することができる。
DreamBeastは、計算オーバーヘッドを低減しつつ、ユーザが特定した部分構成で生成された3D生物の質を大幅に向上させる。
We present DreamBeast, a novel method based on score distillation sampling (SDS) for generating fantastical 3D animal assets composed of distinct parts. Existing SDS methods often struggle with this generation task due to a limited understanding of part-level semantics in text-to-image diffusion models. While recent diffusion models, such as Stable Diffusion 3, demonstrate a better part-level understanding, they are prohibitively slow and exhibit other common problems associated with single-view diffusion models. DreamBeast overcomes this limitation through a novel part-aware knowledge transfer mechanism. For each generated asset, we efficiently extract part-level knowledge from the Stable Diffusion 3 model into a 3D Part-Affinity implicit representation. This enables us to instantly generate Part-Affinity maps from arbitrary camera views, which we then use to modulate the guidance of a multi-view diffusion model during SDS to create 3D assets of fantastical animals. DreamBeast significantly enhances the quality of generated 3D creatures with user-specified part compositions while reducing computational overhead, as demonstrated by extensive quantitative and qualitative evaluations. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# Click2Mask: 動的マスク生成によるローカル編集
Click2Mask: Local Editing with Dynamic Mask Generation ( http://arxiv.org/abs/2409.08272v1 ) ライセンス: Link先を確認 | Omer Regev, Omri Avrahami, Dani Lischinski, | (参考訳) 生成モデルの最近の進歩は、画像生成と編集に革命をもたらし、これらのタスクは非専門家にアクセスできるようになった。
本稿では,局所的な画像編集,特にゆるやかに指定された領域に新たなコンテンツを追加することに焦点を当てる。
既存の方法は、しばしば正確なマスクや位置の詳細な説明を必要とする。
我々はClick2Maskを提案する。Click2Maskは、コンテンツ記述に加えて、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。
マスクは、Blended Latent Diffusion (BLD)プロセス中に、マスク付きCLIPベースのセマンティックロスによって誘導される。
Click2Maskはセグメンテーションベースおよび微調整依存メソッドの制限を超越し、よりユーザフレンドリでコンテキスト的に正確なソリューションを提供する。
我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、人間の判断と自動測定の両方で、SoTA法と比較して、競争力や優れた局所画像操作結果を提供することを示した。
主なコントリビューションには、ユーザ入力の単純化、既存のセグメントに制約のないオブジェクトを自由に追加する機能、他の編集方法におけるダイナミックマスクアプローチの統合可能性などがあります。
Recent advancements in generative models have revolutionized image generation and editing, making these tasks accessible to non-experts. This paper focuses on local image editing, particularly the task of adding new content to a loosely specified area. Existing methods often require a precise mask or a detailed description of the location, which can be cumbersome and prone to errors. We propose Click2Mask, a novel approach that simplifies the local editing process by requiring only a single point of reference (in addition to the content description). A mask is dynamically grown around this point during a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based semantic loss. Click2Mask surpasses the limitations of segmentation-based and fine-tuning dependent methods, offering a more user-friendly and contextually accurate solution. Our experiments demonstrate that Click2Mask not only minimizes user effort but also delivers competitive or superior local image manipulation results compared to SoTA methods, according to both human judgement and automatic metrics. Key contributions include the simplification of user input, the ability to freely add objects unconstrained by existing segments, and the integration potential of our dynamic mask approach within other editing methods. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# ビデオから学ぶ手動物体のインタラクション
Hand-Object Interaction Pretraining from Videos ( http://arxiv.org/abs/2409.08273v1 ) ライセンス: Link先を確認 | Himanshu Gaurav Singh, Antonio Loquercio, Carmelo Sferrazza, Jane Wu, Haozhi Qi, Pieter Abbeel, Jitendra Malik, | (参考訳) 本稿では,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習するためのアプローチを提案する。
我々は,触覚ロボットの軌跡を生成するためのフレームワークを構築した。
人間の手と操作対象を共有した3D空間で持ち上げ、人間の動きをロボットの動作に再ターゲットすることで実現します。
このデータに基づく生成モデリングは、タスクに依存しない基本ポリシーを提供します。
このポリシーは、以前の一般的な、フレキシブルな操作をキャプチャする。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
定性的実験は以下の通りである。
We present an approach to learn general robot manipulation priors from 3D hand-object interaction trajectories. We build a framework to use in-the-wild videos to generate sensorimotor robot trajectories. We do so by lifting both the human hand and the manipulated object in a shared 3D space and retargeting human motions to robot actions. Generative modeling on this data gives us a task-agnostic base policy. This policy captures a general yet flexible manipulation prior. We empirically demonstrate that finetuning this policy, with both reinforcement learning (RL) and behavior cloning (BC), enables sample-efficient adaptation to downstream tasks and simultaneously improves robustness and generalizability compared to prior approaches. Qualitative experiments are available at: \url{https://hgaurav2k.github.io/hop/}. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# AnySkin:ロボットタッチのためのプラグ&プレイスキンセンシング
AnySkin: Plug-and-play Skin Sensing for Robotic Touch ( http://arxiv.org/abs/2409.08276v1 ) ライセンス: Link先を確認 | Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto, | (参考訳) 触覚は、重要かつ有用な感覚モダリティとして広く受け入れられているが、視覚やプロプレセプションといった他の感覚モダリティと比べて、青くなっている。
AnySkinは、触覚センシング -- 汎用性、置換性、データ再利用性 -- を阻害する重要な課題に対処する。
AnySkinは、ReSkinをシンプルにデザインし、センサーインターフェースからセンサーエレクトロニクスを分離することで、電話ケースを装着して充電器を接続するのと同じくらい簡単に統合できる。
さらに、AnySkinは、学習された操作ポリシーのクロスインスタンスの一般化性を持つ最初の非校正触覚センサである。
まず,AnySkinセンサーを用いたスリップ検出とポリシー学習を特徴付けるとともに,AnySkinのインスタンス上でトレーニングされたモデルのゼロショット一般化を新しいインスタンスに適用し,DIGITやReSkin.https://any-skin.github.io/ReSkin.github.ioのような既存の触覚ソリューションと比較する。
While tactile sensing is widely accepted as an important and useful sensing modality, its use pales in comparison to other sensory modalities like vision and proprioception. AnySkin addresses the critical challenges that impede the use of tactile sensing -- versatility, replaceability, and data reusability. Building on the simplistic design of ReSkin, and decoupling the sensing electronics from the sensing interface, AnySkin simplifies integration making it as straightforward as putting on a phone case and connecting a charger. Furthermore, AnySkin is the first uncalibrated tactile-sensor with cross-instance generalizability of learned manipulation policies. To summarize, this work makes three key contributions: first, we introduce a streamlined fabrication process and a design tool for creating an adhesive-free, durable and easily replaceable magnetic tactile sensor; second, we characterize slip detection and policy learning with the AnySkin sensor; and third, we demonstrate zero-shot generalization of models trained on one instance of AnySkin to new instances, and compare it with popular existing tactile solutions like DIGIT and ReSkin.https://any-skin.github.io/ | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# 需要の深さ:低フレームレートアクティブセンサから高密度をストリーミングする
Depth on Demand: Streaming Dense Depth from a Low Frame Rate Active Sensor ( http://arxiv.org/abs/2409.08277v1 ) ライセンス: Link先を確認 | Andrea Conti, Matteo Poggi, Valerio Cambareri, Stefano Mattoccia, | (参考訳) 高いフレームレートと正確な深さ推定は、ロボティクスや自動車の知覚に不可欠ないくつかのタスクにおいて重要な役割を果たす。
これまでのところ、これはToFとLiDARデバイスで、それぞれ屋内および屋外のアプリケーションで実現されている。
しかし, その適用性は, 低フレームレート, エネルギー消費, 空間空間幅によって制限される。
Depth on Demand (DoD) は、高いフレームレートRGBセンサと潜在的に低いフレームレートとスパース活性深度センサーを併用することにより、時間的および空間的深度を正確に密度化することができる。
提案手法は,3つのコアステージにより,深度センサのストリーミング要求を大幅に低減し,低消費電力化と高密度形状復元を可能にする。
i) マルチモーダル符号化
二 反復的マルチモーダル統合及び
三 深度復号
室内および屋外のビデオデータセットにおけるDoDの有効性を実証し, 環境スキャンと自動車認識の両方のユースケースについて検討した。
High frame rate and accurate depth estimation plays an important role in several tasks crucial to robotics and automotive perception. To date, this can be achieved through ToF and LiDAR devices for indoor and outdoor applications, respectively. However, their applicability is limited by low frame rate, energy consumption, and spatial sparsity. Depth on Demand (DoD) allows for accurate temporal and spatial depth densification achieved by exploiting a high frame rate RGB sensor coupled with a potentially lower frame rate and sparse active depth sensor. Our proposal jointly enables lower energy consumption and denser shape reconstruction, by significantly reducing the streaming requirements on the depth sensor thanks to its three core stages: i) multi-modal encoding, ii) iterative multi-modal integration, and iii) depth decoding. We present extended evidence assessing the effectiveness of DoD on indoor and outdoor video datasets, covering both environment scanning and automotive perception use cases. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# Dreamhoi: 拡散前の3次元物体相互作用の主観的生成
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors ( http://arxiv.org/abs/2409.08278v1 ) ライセンス: Link先を確認 | Thomas Hanwen Zhu, Ruining Li, Tomas Jakab, | (参考訳) 本研究では,人間の物体間相互作用(HOI)をゼロショット合成する新しい手法であるDreamHOIについて述べる。
このタスクは、現実世界のオブジェクトの様々なカテゴリとジオメトリと、多様なHOIを含むデータセットの不足によって複雑になる。
膨大なデータの必要性を回避するために、何十億もの画像キャプチャー対で訓練されたテキストと画像の拡散モデルを利用する。
これらのモデルから得られたスコア蒸留サンプリング(SDS)勾配を用いて、画像空間の編集を予測し、肌付きメッシュの調音を最適化する。
しかし、そのような勾配の局所的な性質のため、画像空間勾配を複雑な調音パラメータへ直接バックプロパゲートすることは効果がない。
これを解決するために、スキン付きメッシュの2つの暗黙的-明示的表現を導入し、(単純)神経放射場(NeRF)と(特異)骨格駆動メッシュの明瞭さを組み合わせた。
最適化中、暗黙の形式と明示的な形式の間で遷移し、メッシュの明瞭化を改良しながら、NeRF生成を接地する。
提案手法を広範囲な実験により検証し,現実的なHOIを生成する上での有効性を実証する。
We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs. | 翻訳日:2024-09-13 15:24:38 公開日:2024-09-12 |
# Stepping Stones: Audio-Visual Semantic Segmentationのためのプログレッシブトレーニング戦略
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2407.11820v3 ) ライセンス: Link先を確認 | Juncheng Ma, Peiwen Sun, Yaoting Wang, Di Hu, | (参考訳) オーディオ・ビジュアル・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セメンテーション(AVSS)は、映像中の音源のピクセルレベルのローカライゼーションを実現することを目的としており、AVSの拡張として、音声・視覚シーンのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクス(AVSS)は、さらに音声・視覚シーンのセマンティック・理解を追求している。
しかし、AVSSタスクは音声と視覚の対応と意味理解を同時に行う必要があるため、従来の手法では、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分であったことが観察された。
そこで本研究では,AVSSタスクを局所化から意味理解までの2つの単純なサブタスクに分解し,各ステージで完全に最適化し,ステップバイステップのグローバル最適化を実現するための2段階のトレーニング戦略である「textit{Stepping Stones}」を提案する。
このトレーニング戦略は既存の手法の一般化と有効性も証明している。
AVSタスクの性能をさらに向上するために,適応型音声クエリジェネレータを組み込み,マスキングされた注意をトランスフォーマーデコーダに統合し,視覚的特徴と音声的特徴の適応的融合を容易にする,新しいフレームワークであるAdaptive Audio Visual Segmentationを提案する。
3つのAVSベンチマークのすべてにおいて,本手法が最先端の成果を達成できることを実証した。
プロジェクトのホームページはhttps://gewu-lab.github.io/stepping_stones/.comからアクセスできる。
Audio-Visual Segmentation (AVS) aims to achieve pixel-level localization of sound sources in videos, while Audio-Visual Semantic Segmentation (AVSS), as an extension of AVS, further pursues semantic understanding of audio-visual scenes. However, since the AVSS task requires the establishment of audio-visual correspondence and semantic understanding simultaneously, we observe that previous methods have struggled to handle this mashup of objectives in end-to-end training, resulting in insufficient learning and sub-optimization. Therefore, we propose a two-stage training strategy called \textit{Stepping Stones}, which decomposes the AVSS task into two simple subtasks from localization to semantic understanding, which are fully optimized in each stage to achieve step-by-step global optimization. This training strategy has also proved its generalization and effectiveness on existing methods. To further improve the performance of AVS tasks, we propose a novel framework Adaptive Audio Visual Segmentation, in which we incorporate an adaptive audio query generator and integrate masked attention into the transformer decoder, facilitating the adaptive fusion of visual and audio features. Extensive experiments demonstrate that our methods achieve state-of-the-art results on all three AVS benchmarks. The project homepage can be accessed at https://gewu-lab.github.io/stepping_stones/. | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# ソフトな値に基づく復号化を伴う連続・離散拡散モデルにおける導出自由誘導
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding ( http://arxiv.org/abs/2408.08252v3 ) ライセンス: Link先を確認 | Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara, | (参考訳) 拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
しかし、単に自然である設計を生成するのではなく、これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目的としていることが多い。
この目的を達成するための既存の方法は、しばしば ``differentiable' プロキシモデル (\textit{e g }, 分類器ガイダンスまたはDPS) や、計算に高価な拡散モデルの微調整 (\textit{e g }, 分類器なしガイダンス、RLベースの微調整) を必要とする。
本研究では,これらの課題に対処するための新しい手法を提案する。
提案アルゴリズムは,中間ノイズ状態が将来高い報酬をもたらすか,あるいは事前学習した拡散モデルの標準推論手順に先立って,ソフト値関数を統合する反復サンプリング手法である。
特に、本手法は微調整生成モデルを避け、微分可能なモデルを構築する必要をなくす。
これにより、(1)多くの科学的領域で一般的に使われている非微分可能特徴/回帰フィードバックを直接利用し、(2)近年の離散拡散モデルに原則的に適用することができる。
最後に、画像生成、分子生成、DNA/RNA配列生成など、複数の領域にわたるアルゴリズムの有効性を示す。
コードは \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} で公開されている。
Diffusion models excel at capturing the natural design spaces of images, molecules, DNA, RNA, and protein sequences. However, rather than merely generating designs that are natural, we often aim to optimize downstream reward functions while preserving the naturalness of these design spaces. Existing methods for achieving this goal often require ``differentiable'' proxy models (\textit{e.g.}, classifier guidance or DPS) or involve computationally expensive fine-tuning of diffusion models (\textit{e.g.}, classifier-free guidance, RL-based fine-tuning). In our work, we propose a new method to address these challenges. Our algorithm is an iterative sampling method that integrates soft value functions, which looks ahead to how intermediate noisy states lead to high rewards in the future, into the standard inference procedure of pre-trained diffusion models. Notably, our approach avoids fine-tuning generative models and eliminates the need to construct differentiable models. This enables us to (1) directly utilize non-differentiable features/reward feedback, commonly used in many scientific domains, and (2) apply our method to recent discrete diffusion models in a principled way. Finally, we demonstrate the effectiveness of our algorithm across several domains, including image generation, molecule generation, and DNA/RNA sequence generation. The code is available at \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD}. | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# 予測可能性の最大化と語順調和の起源
Predictability maximization and the origins of word order harmony ( http://arxiv.org/abs/2408.16570v3 ) ライセンス: Link先を確認 | Ramon Ferrer-i-Cancho, | (参考訳) 本稿では,情報理論の観点から,頭部の逐次配置とその依存関係の言語的問題に対処する。
特に、シーケンスの予測可能性を最大化するヘッドの最適配置について検討する。
係り受けは, 自由選択原理と依存文法の中核的な仮定に従って, 頭部に対して統計的に独立であると仮定する。
我々は、頭部を最後に配置すると頭部の予測可能性が最大になるのに対して、頭部を最初に配置すると依存者の予測可能性が最大になるという調和秩序の最適性を示す。
また,頭部の延期が予測可能性の最大化のための最適戦略であり,さらに,依存者の予測可能性の最大化のための最適戦略であることを示す。
我々は,依存者の予測可能性の最大化よりも,頭部の予測可能性の最大化という戦略の利点を明らかにする。
以上の結果から,実言語で採用される頭部の配置や,異なる種類の実験で現れる頭部の配置が明らかになった。
We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments. | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# 単眼深度推定のためのクラス認識メトリクスの導入:自動車の視点から
Introducing a Class-Aware Metric for Monocular Depth Estimation: An Automotive Perspective ( http://arxiv.org/abs/2409.04086v2 ) ライセンス: Link先を確認 | Tim Bader, Leon Eisemann, Adrian Pogorzelski, Namrata Jangid, Attila-Balazs Kis, | (参考訳) メートル法単眼深度推定モデルの精度の向上は自動車分野からの関心の高まりにつながった。
現在のモデル評価は、モデルの性能に関する深い洞察を与えていない。
本稿では,深度推定モデルの評価のための新しい手法を提案する。
提案手法では,3つのコンポーネント,クラスワイドコンポーネント,エッジとコーナーの画像特徴成分,グローバルな一貫性保持コンポーネントを活用している。
クラスは、シーンにおける距離と、自動車応用の臨界点についてさらに重み付けされている。
評価では,古典的メトリクスとの比較,クラスワイド分析,重要な状況の検索を通じて,指標の利点を示す。
結果から,我々の測定基準は,安全クリティカルな要件を満たしつつ,モデル結果のより深い洞察を提供することがわかった。
https://github.com/leisemann/ca_mmde
The increasing accuracy reports of metric monocular depth estimation models lead to a growing interest from the automotive domain. Current model evaluations do not provide deeper insights into the models' performance, also in relation to safety-critical or unseen classes. Within this paper, we present a novel approach for the evaluation of depth estimation models. Our proposed metric leverages three components, a class-wise component, an edge and corner image feature component, and a global consistency retaining component. Classes are further weighted on their distance in the scene and on criticality for automotive applications. In the evaluation, we present the benefits of our metric through comparison to classical metrics, class-wise analytics, and the retrieval of critical situations. The results show that our metric provides deeper insights into model results while fulfilling safety-critical requirements. We release the code and weights on the following repository: https://github.com/leisemann/ca_mmde | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# 工学系人口の回帰学習 : リスクインフォームドアプローチ
Active learning for regression in engineering populations: A risk-informed approach ( http://arxiv.org/abs/2409.04328v2 ) ライセンス: Link先を確認 | Daniel R. Clarkson, Lawrence A. Bull, Chandula T. Wickramarachchi, Elizabeth J. Cross, Timothy J. Rogers, Keith Worden, Nikolaos Dervilis, Aidan J. Hughes, | (参考訳) 回帰(Regression)は、連続変数間のマッピングの学習を含む、データ中心のエンジニアリングアプリケーションで一般的な基本的な予測タスクである。
多くの工学的応用(例えば構造的健康モニタリング)において、そのようなマッピングを学習するのに使われる特徴ラベルペアは可用性が限られており、従来の教師付き機械学習アプローチの有効性を妨げている。
本稿では,アクティブラーニングと階層型ベイズモデルを組み合わせることで,データの不足を克服する手法を提案する。
アクティブラーニング(英: Active Learning)は、リソース効率のよい特徴ラベルペアを優先的に取得する手法である。
特に、現在の作業では、レグレッションベースのエンジニアリング意思決定タスク(例えば、検査とメンテナンス)に関連するコンテキスト情報を活用するリスクインフォームドアプローチを採用しています。
階層的ベイズモデルにより、複数の関連する回帰タスクが集団を通して学習され、局所的および世界的影響を捉えることができる。
このモデリングアプローチによって促進される情報共有は、あるエンジニアリングシステムで得られた情報によって、人口全体の予測性能が向上することを意味する。
提案手法は, 実験ケーススタディを用いて実証された。
具体的には, 加工品の表面粗さに注目が集まる加工工具の個体群に対して, 複数の回帰処理を行う。
能動学習アルゴリズムの構築に使用される回帰タスクを用いて,検査・保守決定プロセスを定義する。
提案手法はラベル取得と回帰タスクの独立なモデリングに対する非形式的アプローチに対してベンチマークされる。
提案手法は, 予測性能を維持しつつ, 必要な検査回数を削減し, 予測コストの観点から優れた性能を有することを示す。
Regression is a fundamental prediction task common in data-centric engineering applications that involves learning mappings between continuous variables. In many engineering applications (e.g.\ structural health monitoring), feature-label pairs used to learn such mappings are of limited availability which hinders the effectiveness of traditional supervised machine learning approaches. The current paper proposes a methodology for overcoming the issue of data scarcity by combining active learning with hierarchical Bayesian modelling. Active learning is an approach for preferentially acquiring feature-label pairs in a resource-efficient manner. In particular, the current work adopts a risk-informed approach that leverages contextual information associated with regression-based engineering decision-making tasks (e.g.\ inspection and maintenance). Hierarchical Bayesian modelling allow multiple related regression tasks to be learned over a population, capturing local and global effects. The information sharing facilitated by this modelling approach means that information acquired for one engineering system can improve predictive performance across the population. The proposed methodology is demonstrated using an experimental case study. Specifically, multiple regressions are performed over a population of machining tools, where the quantity of interest is the surface roughness of the workpieces. An inspection and maintenance decision process is defined using these regression tasks which is in turn used to construct the active-learning algorithm. The novel methodology proposed is benchmarked against an uninformed approach to label acquisition and independent modelling of the regression tasks. It is shown that the proposed approach has superior performance in terms of expected cost -- maintaining predictive performance while reducing the number of inspections required. | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# 基礎モデルの埋め込みを用いた病理組織におけるゼロショット全スライド画像検索
Zero-Shot Whole Slide Image Retrieval in Histopathology Using Embeddings of Foundation Models ( http://arxiv.org/abs/2409.04631v2 ) ライセンス: Link先を確認 | Saghir Alfasly, Ghazal Alabtah, Sobhan Hemati, Krishna Rani Kalari, H. R. Tizhoosh, | (参考訳) 我々は最近,画像検索のための病理組織学の基礎モデルを検証した。
本稿では,トップ1検索におけるF1スコアのマクロ平均,トップ3検索の多数,トップ5検索の多数について報告する。
ゼロショット検索、すなわち埋め込みを変更したり、分類器を訓練したりしない。
検査データとして,23の臓器と117の癌サブタイプからなるTGA,The Cancer Genome Atlasの診断スライドを用いた。
検索プラットフォームとして、パッチを使用してWSI検索を実行可能にするYottixelを使用しました。
達成されたF1スコアは,トップ5検索では27%+/-13%(Yottixel-DenseNet),42%+/-14%(Yottixel-UNI),40%+/-13%(Yottixel-Virchow),41%+/-13%(Yottixel-GigaPath),41%+/-14%(GigaPath WSI)である。
We have tested recently published foundation models for histopathology for image retrieval. We report macro average of F1 score for top-1 retrieval, majority of top-3 retrievals, and majority of top-5 retrievals. We perform zero-shot retrievals, i.e., we do not alter embeddings and we do not train any classifier. As test data, we used diagnostic slides of TCGA, The Cancer Genome Atlas, consisting of 23 organs and 117 cancer subtypes. As a search platform we used Yottixel that enabled us to perform WSI search using patches. Achieved F1 scores show low performance, e.g., for top-5 retrievals, 27% +/- 13% (Yottixel-DenseNet), 42% +/- 14% (Yottixel-UNI), 40%+/-13% (Yottixel-Virchow), 41%+/-13% (Yottixel-GigaPath), and 41%+/-14% (GigaPath WSI). | 翻訳日:2024-09-13 13:26:31 公開日:2024-09-12 |
# 自己教師付き学習のための説明的相互情報の最大化
Explicit Mutual Information Maximization for Self-Supervised Learning ( http://arxiv.org/abs/2409.04747v3 ) ライセンス: Link先を確認 | Lele Chang, Peilin Liu, Qinghai Guo, Fei Wen, | (参考訳) 近年,自己教師型学習(SSL)が広く研究されている。
理論的には、相互情報最大化(MIM)はSSLの最適基準であり、情報理論の強力な理論的基礎である。
しかし、データ分散がアプリケーションで分析的に利用できないため、SSLにMIMを直接適用することは困難である。
実際には、多くの既存の手法をMIM基準の近似実装と見なすことができる。
この研究は、MIの不変性に基づいて、データ分散の緩和条件である一般的な分布仮定の下で、明示的なMIの最大化をSSLに適用できることを示している。
さらに、一般化されたガウス分布を解析することによって、これを説明できる。
この結果に基づき、2次統計量のみを用いてMIM基準に基づく損失関数を導出する。
我々はSSLの新たな損失を実装し、その効果を広範な実験を通じて実証する。
Recently, self-supervised learning (SSL) has been extensively studied. Theoretically, mutual information maximization (MIM) is an optimal criterion for SSL, with a strong theoretical foundation in information theory. However, it is difficult to directly apply MIM in SSL since the data distribution is not analytically available in applications. In practice, many existing methods can be viewed as approximate implementations of the MIM criterion. This work shows that, based on the invariance property of MI, explicit MI maximization can be applied to SSL under a generic distribution assumption, i.e., a relaxed condition of the data distribution. We further illustrate this by analyzing the generalized Gaussian distribution. Based on this result, we derive a loss function based on the MIM criterion using only second-order statistics. We implement the new loss for SSL and demonstrate its effectiveness via extensive experiments. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# フェデレーション学習におけるモデル校正の可能性の解き放つ
Unlocking the Potential of Model Calibration in Federated Learning ( http://arxiv.org/abs/2409.04901v2 ) ライセンス: Link先を確認 | Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher Brinton, | (参考訳) 近年,機械学習における主要な性能指標であるモデル精度を向上させるために,様々なフェデレートラーニング法が開発されている。
しかし、FLを実際の意思決定シナリオで活用するためには、精度を考慮せずに、訓練されたモデルはそれぞれの予測に信頼性を持たなければならない。
そこで本研究では,FLとモデル校正の概念を統合した汎用フレームワークであるNon-Uniform Calibration for Federated Learning (NUCFL)を提案する。
FL環境における固有のデータ不均一性は、様々なデータ分散とクライアント条件の信頼性を保証する必要があるため、モデルのキャリブレーションを特に困難にします。
NUCFLは,各クライアントの局所モデルとFLのグローバルモデルとの統計的関係に基づいて,モデルの校正目標を動的に調整することで,この問題に対処する。
特に、NUCFLは、局所的モデル関係とグローバル的モデル関係の類似性を評価し、クライアント側ローカルトレーニングにおける校正損失のペナルティ項を制御する。
これにより、NUCFLは精度を犠牲にすることなく、不均一なFL設定でグローバルモデルのキャリブレーション要求を効果的に調整する。
大規模な実験により、NUCFLは様々なFLアルゴリズムの柔軟性と有効性を提供し、精度を向上し、モデルのキャリブレーションも向上した。
Over the past several years, various federated learning (FL) methodologies have been developed to improve model accuracy, a primary performance metric in machine learning. However, to utilize FL in practical decision-making scenarios, beyond considering accuracy, the trained model must also have a reliable confidence in each of its predictions, an aspect that has been largely overlooked in existing FL research. Motivated by this gap, we propose Non-Uniform Calibration for Federated Learning (NUCFL), a generic framework that integrates FL with the concept of model calibration. The inherent data heterogeneity in FL environments makes model calibration particularly difficult, as it must ensure reliability across diverse data distributions and client conditions. Our NUCFL addresses this challenge by dynamically adjusting the model calibration objectives based on statistical relationships between each client's local model and the global model in FL. In particular, NUCFL assesses the similarity between local and global model relationships, and controls the penalty term for the calibration loss during client-side local training. By doing so, NUCFL effectively aligns calibration needs for the global model in heterogeneous FL settings while not sacrificing accuracy. Extensive experiments show that NUCFL offers flexibility and effectiveness across various FL algorithms, enhancing accuracy as well as model calibration. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# 軽量モダリティ融合と類似性を利用した無トレーニングZS-CIR
Training-free ZS-CIR via Weighted Modality Fusion and Similarity ( http://arxiv.org/abs/2409.04918v2 ) ライセンス: Link先を確認 | Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang, | (参考訳) 参照画像と修正テキストの組み合わせとしてクエリを定式化した合成画像検索(CIR)は,ユーザの意図を捉える能力の強化により,画像検索の新たな形態として登場した。
しかし、監督的な方法でCIRモデルをトレーニングするには、通常、労働集約的な(参照画像、テキスト修飾子、ターゲット画像)三重項の収集が必要である。
既存のゼロショットCIR(ZS-CIR)メソッドでは、特定のダウンストリームデータセットのトレーニングは不要だが、大規模なイメージテキストペアで追加の事前トレーニングが必要になる。
本稿では,ZS-CIRのトレーニング不要なアプローチを提案する。
WeiMoCIR (textbf{Wei}ghted \textbf{Mo}dality fusion and similarity for \textbf{CIR} (WeiMoCIR) は、単純な重み付き平均を用いて画像とテキストのモダリティを効果的に組み合わせることができるという仮定の下で機能する。
これにより、参照画像とテキスト修飾子から直接クエリ表現を構築することができる。
検索性能をより高めるため,データベース画像の画像キャプションを生成するためにMLLM(Multimodal Large Language Model)を用いて,重み付き平均を用いた画像情報と組み合わせることで,それらのテキストキャプションを類似性計算に組み込む。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
Composed image retrieval (CIR), which formulates the query as a combination of a reference image and modified text, has emerged as a new form of image search due to its enhanced ability to capture users' intentions. However, training a CIR model in a supervised manner typically requires labor-intensive collection of (reference image, text modifier, target image) triplets. While existing zero-shot CIR (ZS-CIR) methods eliminate the need for training on specific downstream datasets, they still require additional pretraining with large-scale image-text pairs. In this paper, we introduce a training-free approach for ZS-CIR. Our approach, \textbf{Wei}ghted \textbf{Mo}dality fusion and similarity for \textbf{CIR} (WeiMoCIR), operates under the assumption that image and text modalities can be effectively combined using a simple weighted average. This allows the query representation to be constructed directly from the reference image and text modifier. To further enhance retrieval performance, we employ multimodal large language models (MLLMs) to generate image captions for the database images and incorporate these textual captions into the similarity computation by combining them with image information using a weighted average. Our approach is simple, easy to implement, and its effectiveness is validated through experiments on the FashionIQ and CIRR datasets. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# パーセルロッカーの動的需要管理
Dynamic Demand Management for Parcel Lockers ( http://arxiv.org/abs/2409.05061v2 ) ライセンス: Link先を確認 | Daniela Sailer, Robert Klein, Claudius Steinhardt, | (参考訳) より持続的で費用効率のよいラストマイルを追求する中で、パーセルロッカーは、パーセル配達の現場で確固たる足場を築き上げてきた。
その可能性を完全に活用し、同時に顧客満足度を確保するために、ロッカーの限られた容量の管理を成功させることが不可欠である。
将来のデリバリ要求とピックアップ時間がプロバイダの観点から確率的であるため、これは難しいことです。
そこで本研究では,プライオリティによって重み付けされたサービス要求数の最大化を目標として,受信した顧客に対して,ロッカーが利用可能な配送オプションとして提供されるかどうかを動的に制御することを提案する。
さらに、デリバリに予定されるパーセルを割り当てる必要があるため、第2のタイプの決定を必要とする、さまざまなコンパートメントサイズを考慮に入れています。
この問題を無限水平逐次決定問題として定式化し、次元の呪いによって正確な方法が難解であることが見いだされる。
そこで我々は,逐次決定分析と強化学習に根ざした複数のアルゴリズム手法,すなわちコスト関数近似とオフラインで訓練されたパラメトリック値関数近似を,オンラインロールアウトと合わせて編成するソリューションフレームワークを開発した。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
一般的な方法論的貢献として、我々は値関数の構造を強制する経験リプレイの修正版を用いて、値関数近似のトレーニングを強化する。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
In pursuit of a more sustainable and cost-efficient last mile, parcel lockers have gained a firm foothold in the parcel delivery landscape. To fully exploit their potential and simultaneously ensure customer satisfaction, successful management of the locker's limited capacity is crucial. This is challenging as future delivery requests and pickup times are stochastic from the provider's perspective. In response, we propose to dynamically control whether the locker is presented as an available delivery option to each incoming customer with the goal of maximizing the number of served requests weighted by their priority. Additionally, we take different compartment sizes into account, which entails a second type of decision as parcels scheduled for delivery must be allocated. We formalize the problem as an infinite-horizon sequential decision problem and find that exact methods are intractable due to the curses of dimensionality. In light of this, we develop a solution framework that orchestrates multiple algorithmic techniques rooted in Sequential Decision Analytics and Reinforcement Learning, namely cost function approximation and an offline trained parametric value function approximation together with a truncated online rollout. Our innovative approach to combine these techniques enables us to address the strong interrelations between the two decision types. As a general methodological contribution, we enhance the training of our value function approximation with a modified version of experience replay that enforces structure in the value function. Our computational study shows that our method outperforms a myopic benchmark by 13.7% and an industry-inspired policy by 12.6%. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# 非定常設定のためのスライディング・ウィンドウトンプソンサンプリング
Sliding-Window Thompson Sampling for Non-Stationary Settings ( http://arxiv.org/abs/2409.05181v2 ) ライセンス: Link先を確認 | Marco Fiandri, Alberto Maria Metelli, Francesco Trovò, | (参考訳) $\textit{Restless Bandits}$は、政策立案者による行動とは独立して報酬が時間とともに進化するシーケンシャルな意思決定問題を記述する。
従来のBanditアルゴリズムは、基礎となる環境が変化しているときにフェールすることが示されており、より困難なシナリオに対処するためには、特別に構築されたアルゴリズムが必要であることが明確に示されている。
本稿では,Thompson-Samplingにインスパイアされたアルゴリズム,すなわち$\texttt{BETA-SWTS}$と$\textt{$\gamma$-SWGTS}$を解析し,設定の非定常性によって与えられる追加の複雑さに直面する。
最後に、一般的な定式化から、最も一般的な非定常的な設定の2つの後悔を推測する: $\textit{Abruptly Changing}$と$\textit{Smoothly Changing}$環境。
$\textit{Restless Bandits}$ describe sequential decision-making problems in which the rewards evolve with time independently from the actions taken by the policy-maker. It has been shown that classical Bandit algorithms fail when the underlying environment is changing, making clear that in order to tackle more challenging scenarios specifically crafted algorithms are needed. In this paper, extending and correcting the work by \cite{trovo2020sliding}, we analyze two Thompson-Sampling inspired algorithms, namely $\texttt{BETA-SWTS}$ and $\texttt{$\gamma$-SWGTS}$, introduced to face the additional complexity given by the non-stationary nature of the settings; in particular we derive a general formulation for the regret in $\textit{any}$ arbitrary restless environment for both Bernoulli and Subgaussian rewards, and, through the introduction of new quantities, we delve in what contribution lays the deeper foundations of the error made by the algorithms. Finally, we infer from the general formulation the regret for two of the most common non-stationary settings: the $\textit{Abruptly Changing}$ and the $\textit{Smoothly Changing}$ environments. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation ( http://arxiv.org/abs/2409.05463v4 ) ライセンス: Link先を確認 | Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding, | (参考訳) 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。
しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。
10Hzで1024 x 576の高解像度ビデオを生成することができる3次元条件付きビデオ生成のためのエンドツーエンドフレームワークであるDriveScapeを提案する。
3Dボックスのアノテーションフレームレートによって2Hzに制限された他の方法とは異なり、DriveScapeはスパース条件下での動作能力でこれを克服している。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証し、空間的時間的整合性を維持する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
プロジェクトのホームページ: https://metadrivescape.github.io/papers_project/drivescapev1/index.html
Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. We propose DriveScape, an end-to-end framework for multi-view, 3D condition-guided video generation, capable of producing 1024 x 576 high-resolution videos at 10Hz. Unlike other methods limited to 2Hz due to the 3D box annotation frame rate, DriveScape overcomes this with its ability to operate under sparse conditions. Our Bi-Directional Modulated Transformer (BiMot) ensures precise alignment of 3D structural information, maintaining spatial-temporal consistency. DriveScape excels in video generation performance, achieving state-of-the-art results on the nuScenes dataset with an FID score of 8.34 and an FVD score of 76.39. Our project homepage: https://metadrivescape.github.io/papers_project/drivescapev1/index.html | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# DSDFormer:ロバスト高精度ドライバ抽出のための革新的トランスフォーマー・マンバフレームワーク
DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification ( http://arxiv.org/abs/2409.05587v2 ) ライセンス: Link先を確認 | Junzhou Chen, Zirui Zhang, Jing Yu, Heqiang Huang, Ronghui Zhang, Xuemiao Xu, Bin Sheng, Hong Yan, | (参考訳) ドライバーの気晴らしは依然として交通事故の主要な原因であり、世界中の道路安全にとって重大な脅威となっている。
インテリジェント交通システムが進化するにつれて、ドライバーの注意を正確にリアルタイムに識別することが不可欠になっている。
しかし、既存の手法では、トレーニングデータセットでノイズの多いラベルと競合しながら、グローバルなコンテキストときめ細かいローカル特徴の両方をキャプチャするのに苦労している。
DSDFormerは、TransformerとMambaアーキテクチャの長所をDual State Domain Attention (DSDA)メカニズムで統合し、長距離依存と堅牢な運転行動認識のための詳細な特徴抽出のバランスを可能にする新しいフレームワークである。
さらに、ビデオシーケンスの時空間相関を利用してノイズラベルを洗練させる教師なしアプローチであるTRCL(Temporal Reasoning Confident Learning)を導入する。
本モデルは,AUC-V1,AUC-V2,100-Driverのデータセット上での最先端性能を実現し,NVIDIA Jetson AGX Orinプラットフォーム上でのリアルタイム処理効率を実証する。
DSDFormer と TRCL は運転注意障害検出の精度とロバスト性を向上し,道路安全性を高めるスケーラブルなソリューションを提供する。
Driver distraction remains a leading cause of traffic accidents, posing a critical threat to road safety globally. As intelligent transportation systems evolve, accurate and real-time identification of driver distraction has become essential. However, existing methods struggle to capture both global contextual and fine-grained local features while contending with noisy labels in training datasets. To address these challenges, we propose DSDFormer, a novel framework that integrates the strengths of Transformer and Mamba architectures through a Dual State Domain Attention (DSDA) mechanism, enabling a balance between long-range dependencies and detailed feature extraction for robust driver behavior recognition. Additionally, we introduce Temporal Reasoning Confident Learning (TRCL), an unsupervised approach that refines noisy labels by leveraging spatiotemporal correlations in video sequences. Our model achieves state-of-the-art performance on the AUC-V1, AUC-V2, and 100-Driver datasets and demonstrates real-time processing efficiency on the NVIDIA Jetson AGX Orin platform. Extensive experimental results confirm that DSDFormer and TRCL significantly improve both the accuracy and robustness of driver distraction detection, offering a scalable solution to enhance road safety. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# より強力な誘導によるセマンティックセグメンテーションのための生成データ強化
Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance ( http://arxiv.org/abs/2409.06002v2 ) ライセンス: Link先を確認 | Quang-Huy Che, Duc-Tri Le, Vinh-Tiep Nguyen, | (参考訳) データ拡張は、セマンティックセグメンテーションのようなラベル付きデータを必要とするタスクのためのトレーニングデータを作成するために広く使用されるテクニックである。
この方法は、多くの労力と集中的な労力を必要とする画素単位のアノテーションタスクに役立ちます。
従来のデータ拡張方法は、回転やフリップのような単純な変換を伴って、既存のものから新しいイメージを生成する。
しかし、これらの新しい画像はデータの主セマンティック軸に沿って多様性が欠如し、高レベルのセマンティック特性が変化しない可能性がある。
この問題に対処するために、生成モデルは、合成画像を生成してデータを増強するための有効なソリューションとして登場した。
制御可能な生成モデルは、元の画像からのプロンプトと視覚的参照を使用して、セマンティックセグメンテーションタスクのためのデータを増やす方法を提供する。
しかし、これらのモデルを使用することで、効果的なプロンプトと視覚的参照を作成し、オリジナルの内容と構造を正確に反映した合成画像を生成するといった課題を直接提示する。
本研究では,制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。
提案手法は,実画像におけるラベル付きクラスへの注意を高めるために,クラス・プロンプト・アペンディングとビジュアル・プライオリデーションを用いた効率的なプロンプト生成を含む。
これらの手法により、実画像中のセグメント化されたクラスを正確に描写する画像を生成することができる。
さらに,学習データセットのバランスデータを生成するために,合成画像と原画像とをマージする際の効率を確保するために,クラスバランスアルゴリズムを用いる。
提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
Data augmentation is a widely used technique for creating training data for tasks that require labeled data, such as semantic segmentation. This method benefits pixel-wise annotation tasks requiring much effort and intensive labor. Traditional data augmentation methods involve simple transformations like rotations and flips to create new images from existing ones. However, these new images may lack diversity along the main semantic axes in the data and not change high-level semantic properties. To address this issue, generative models have emerged as an effective solution for augmenting data by generating synthetic images. Controllable generative models offer a way to augment data for semantic segmentation tasks using a prompt and visual reference from the original image. However, using these models directly presents challenges, such as creating an effective prompt and visual reference to generate a synthetic image that accurately reflects the content and structure of the original. In this work, we introduce an effective data augmentation method for semantic segmentation using the Controllable Diffusion Model. Our proposed method includes efficient prompt generation using Class-Prompt Appending and Visual Prior Combination to enhance attention to labeled classes in real images. These techniques allow us to generate images that accurately depict segmented classes in the real image. In addition, we employ the class balancing algorithm to ensure efficiency when merging the synthetic and original images to generate balanced data for the training dataset. We evaluated our method on the PASCAL VOC datasets and found it highly effective for synthesizing images in semantic segmentation. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# ALSS-YOLO:UAV画像におけるTIR野生生物検出のための適応型軽量チャネル分割・シャッフルネットワーク
ALSS-YOLO: An Adaptive Lightweight Channel Split and Shuffling Network for TIR Wildlife Detection in UAV Imagery ( http://arxiv.org/abs/2409.06259v2 ) ライセンス: Link先を確認 | Ang He, Xiaobo Li, Ximei Wu, Chengyue Su, Jing Chen, Sheng Xu, Xiaobin Guo, | (参考訳) 熱赤外線カメラを搭載した無人航空機(UAV)は、夜間野生生物の密猟と戦う上で重要な役割を担っている。
しかし、TIR画像は、しばしばジッタや野生生物の重複といった課題に直面し、UAVがぼやけた小さな標的を識別する能力を持つ必要がある。
現在のUAVに展開されている従来の軽量ネットワークは、ぼやけた小さなターゲットから特徴を引き出すのに苦労している。
この問題に対処するため、TIR空中画像に最適化された効率的で軽量な検出器であるALSS-YOLOを開発した。
まず,Adaptive Lightweight Channel Split and Shuffling (ALSS)モジュールを提案する。
このモジュールは、特徴抽出を最適化するために適応的なチャネル分割戦略を採用し、チャネル間の情報交換を強化するためのチャネルシャッフル機構を統合する。
これにより、ジッタによって引き起こされるぼやけや重なり合うターゲットを扱うのに不可欠な、ぼやけた特徴の抽出が改善される。
次に,アダプティブプーリングとグループ畳み込みを用いた軽量協調注意モジュールを開発し,各次元にまたがる特徴情報を統合した。
このモジュールは、ジッタとターゲットの重なりに対する高い検出精度と堅牢性を維持しつつ、軽量な操作を保証する。
さらに,各チャネルの幅と高さを4次元のチャネル融合に集約する単一チャネルフォーカスモジュールを開発し,赤外線画像の特徴表現効率を向上させる。
最後に、局所化損失関数を変更し、小さなオブジェクトに関連付けられた損失値を強調し、局所化精度を向上させる。
BIRDSAIとISOD TIR UAVの野生生物データセットに関する大規模な実験は、ALSS-YOLOが最先端のパフォーマンスを達成したことを示している。
Unmanned aerial vehicles (UAVs) equipped with thermal infrared (TIR) cameras play a crucial role in combating nocturnal wildlife poaching. However, TIR images often face challenges such as jitter, and wildlife overlap, necessitating UAVs to possess the capability to identify blurred and overlapping small targets. Current traditional lightweight networks deployed on UAVs struggle to extract features from blurry small targets. To address this issue, we developed ALSS-YOLO, an efficient and lightweight detector optimized for TIR aerial images. Firstly, we propose a novel Adaptive Lightweight Channel Split and Shuffling (ALSS) module. This module employs an adaptive channel split strategy to optimize feature extraction and integrates a channel shuffling mechanism to enhance information exchange between channels. This improves the extraction of blurry features, crucial for handling jitter-induced blur and overlapping targets. Secondly, we developed a Lightweight Coordinate Attention (LCA) module that employs adaptive pooling and grouped convolution to integrate feature information across dimensions. This module ensures lightweight operation while maintaining high detection precision and robustness against jitter and target overlap. Additionally, we developed a single-channel focus module to aggregate the width and height information of each channel into four-dimensional channel fusion, which improves the feature representation efficiency of infrared images. Finally, we modify the localization loss function to emphasize the loss value associated with small objects to improve localization accuracy. Extensive experiments on the BIRDSAI and ISOD TIR UAV wildlife datasets show that ALSS-YOLO achieves state-of-the-art performance, Our code is openly available at https://github.com/helloworlder8/computer_vision. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# ニューラルネットワーク最適化における対称性の破れ:入力次元拡大からの考察
Symmetry Breaking in Neural Network Optimization: Insights from Input Dimension Expansion ( http://arxiv.org/abs/2409.06402v2 ) ライセンス: Link先を確認 | Jun-Jie Zhang, Nan Cheng, Fu-Peng Li, Xiu-Cheng Wang, Jian-Nan Chen, Long-Gang Pang, Deyu Meng, | (参考訳) ニューラルネットワーク最適化の背後にあるメカニズムを理解することは、ネットワーク設計と性能を改善する上で不可欠である。
様々な最適化技術が開発されているが、これらの技術を管理する基礎となる原則の包括的な理解はいまだ解明されていない。
特に、物理における基本的な概念である対称性の破れの役割は、ニューラルネットワークの最適化において完全には研究されていない。
この知識のギャップは、効率的かつ効果的にネットワークを設計する能力を制限します。
本稿では,ニューラルネットワーク最適化の強化における対称性破れの意義を明らかにするために,対称性破れ仮説を提案する。
単純な入力拡張は様々なタスクにおけるネットワーク性能を著しく向上させることができることを実証し、この改善は基礎となる対称性の破れ機構によるものであることを示す。
さらに、ニューラルネットワークにおける対称性の破れの程度を定量化する指標を開発し、ネットワーク設計の評価とガイドを行うための実践的なアプローチを提供する。
その結果, 対称性の破れは, ドロップアウト, バッチ正規化, 等分散など, 様々な最適化手法の基盤となる基本原理であることが確認された。
対称性の破れの度合いを定量化することにより、我々の研究は、パフォーマンス向上のための実践的な技術と、完全なデータセットや広範なトレーニングプロセスを必要としない、ネットワーク設計をガイドする指標を提供する。
Understanding the mechanisms behind neural network optimization is crucial for improving network design and performance. While various optimization techniques have been developed, a comprehensive understanding of the underlying principles that govern these techniques remains elusive. Specifically, the role of symmetry breaking, a fundamental concept in physics, has not been fully explored in neural network optimization. This gap in knowledge limits our ability to design networks that are both efficient and effective. Here, we propose the symmetry breaking hypothesis to elucidate the significance of symmetry breaking in enhancing neural network optimization. We demonstrate that a simple input expansion can significantly improve network performance across various tasks, and we show that this improvement can be attributed to the underlying symmetry breaking mechanism. We further develop a metric to quantify the degree of symmetry breaking in neural networks, providing a practical approach to evaluate and guide network design. Our findings confirm that symmetry breaking is a fundamental principle that underpins various optimization techniques, including dropout, batch normalization, and equivariance. By quantifying the degree of symmetry breaking, our work offers a practical technique for performance enhancement and a metric to guide network design without the need for complete datasets and extensive training processes. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# TeXBLEU:LaTeXフォーマット評価のための自動メトリック
TeXBLEU: Automatic Metric for Evaluate LaTeX Format ( http://arxiv.org/abs/2409.06639v2 ) ライセンス: Link先を確認 | Kyudan Jung, Nam-Joon Kim, Hyongon Ryu, Sieun Hyeon, Seung-jun Lee, Hyeok-jae Lee, | (参考訳) LaTeXは、科学、技術、数学、計算機科学で特別なフォーマットの文書を作成するのに適している。
言語モデルとともにLaTeX形式での数学的表現の利用が増加しているが、評価する適切な評価行列は存在しない。
本研究では,n-gram-based BLEU で構築された LaTeX 形式の数学的表現を評価するための計量である TeXBLEU を提案する。
提案したTeXBLEUは、arXiv紙データセットでトレーニングされた事前定義されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
TeXBLEUスコアは、BLUEの修正精度スコアをn-gramベースのトークンの類似性に置き換えることで計算された。
TeXBLEUは、1,000のデータポイントを持つMathBridgeデータセット上で、それぞれBLEU、S sacreBLEU、Rurgeといった従来の評価指標よりも86\%、121\%、610\%の改善を示した。
コードはhttps://github.com/KyuDan1/TeXBLEUで公開されている。
LaTeX is suitable for creating specially formatted documents in science, technology, mathematics, and computer science. Although the use of mathematical expressions in LaTeX format along with language models is increasing, there are no proper evaluation matrices to evaluate them. In this study, we propose TeXBLEU, a metric for evaluating mathematical expressions in the LaTeX format built on the n-gram-based BLEU metric widely used in translation tasks. The proposed TeXBLEU consists of a predefined tokenizer trained on the arXiv paper dataset and a fine-tuned embedding model with positional encoding. The TeXBLEU score was calculated by replacing BLUE's modified precision score with the similarity of n-gram-based tokens. TeXBLEU showed improvements of 86\%, 121\%, and 610\% over traditional evaluation metrics, such as BLEU, sacreBLEU, and Rouge, respectively, on the MathBridge dataset with 1,000 data points. The code is available at https://github.com/KyuDan1/TeXBLEU. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# LLM時代の小モデルの役割:調査
What is the Role of Small Models in the LLM Era: A Survey ( http://arxiv.org/abs/2409.06857v2 ) ライセンス: Link先を確認 | Lihu Chen, Gaël Varoquaux, | (参考訳) 大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。
しかし、モデルのサイズを拡大すると計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られた資源を持つ学術研究者やビジネスにとって実用的ではない。
同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。
このことは、LLMの時代における小型モデルの役割に関する重要な疑問を提起する。
本研究では,LLMとSMの関係を,コラボレーションと競争という2つの重要な観点から体系的に検討する。
この調査が実践者に貴重な洞察を与え、小さなモデルの貢献をより深く理解し、より効率的な計算資源の利用を促進することを願っている。
コードはhttps://github.com/tigerchen52/role_of_small_modelsで公開されている。
Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# 拡散モデルのアライメント:基礎・課題・将来
Alignment of Diffusion Models: Fundamentals, Challenges, and Future ( http://arxiv.org/abs/2409.07253v2 ) ライセンス: Link先を確認 | Buhua Liu, Shitong Shao, Bao Li, Lichen Bai, Zhiqiang Xu, Haoyi Xiong, James Kwok, Sumi Helal, Zeke Xie, | (参考訳) 拡散モデルは生成モデルの主要なパラダイムとして登場し、様々な応用に優れています。
彼らの成功にもかかわらず、これらのモデルは、しばしば人間の意図に反し、テキストのプロンプトと一致しない、あるいは望ましい特性を持たない出力を生成する。
大規模言語モデルの調整におけるアライメントの成功に触発された最近の研究は、人間の期待や嗜好と拡散モデルの整合性について研究している。
この研究は、主に拡散モデルのアライメント、アライメントの基礎の進歩、拡散モデルのアライメント技術、選好ベンチマーク、拡散モデルの評価についてレビューする。
さらに,現在の課題に対する重要な視点と,拡散モデルのアライメントにおける残りの課題の解決に向けた今後の方向性について論じる。
我々の知識を最大限に活用するために、我々の研究は、拡散モデルの理解、実践、研究のアライメントを研究者やエンジニアが理解するための、初めての総合的なレビュー論文である。
Diffusion models have emerged as the leading paradigm in generative modeling, excelling in various applications. Despite their success, these models often misalign with human intentions, generating outputs that may not match text prompts or possess desired properties. Inspired by the success of alignment in tuning large language models, recent studies have investigated aligning diffusion models with human expectations and preferences. This work mainly reviews alignment of diffusion models, covering advancements in fundamentals of alignment, alignment techniques of diffusion models, preference benchmarks, and evaluation for diffusion models. Moreover, we discuss key perspectives on current challenges and promising future directions on solving the remaining challenges in alignment of diffusion models. To the best of our knowledge, our work is the first comprehensive review paper for researchers and engineers to comprehend, practice, and research alignment of diffusion models. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# Robust Robot Walker: アジャイルのロコモーションをTiny Trapsで学ぶ
Robust Robot Walker: Learning Agile Locomotion over Tiny Traps ( http://arxiv.org/abs/2409.07409v2 ) ライセンス: Link先を確認 | Shaoting Zhu, Runhan Huang, Linzhan Mou, Hang Zhao, | (参考訳) 四足歩行ロボットは、実用的な用途に頑丈な歩行能力を持たなければならない。
本研究では,四足歩行ロボットが様々な小さな障害物や「小さなトラップ」を通過できるようにする手法を提案する。
既存の方法は、しばしば外部受容センサーに依存しており、そのような小さなトラップを検出するには信頼性が低い。
この制限を克服するために、我々のアプローチは、受容性入力にのみ焦点をあてる。
本稿では,異なるトラップの暗黙的表現を学習するために,コンタクトエンコーダと分類ヘッドを組み込んだ2段階のトレーニングフレームワークを提案する。
さらに、トレーニングの安定性と目標追跡タスクの展開容易性の両方を改善するために、一連の報酬関数を設計する。
さらなる研究の恩恵を受けるため、我々は小さなトラップタスクのための新しいベンチマークを設計する。
本手法の有効性とロバスト性を示すため,シミュレーションと実世界の双方での大規模な実験を行った。
Project Page: https://robust-robot-walker.github.io/
Quadruped robots must exhibit robust walking capabilities in practical applications. In this work, we propose a novel approach that enables quadruped robots to pass various small obstacles, or "tiny traps". Existing methods often rely on exteroceptive sensors, which can be unreliable for detecting such tiny traps. To overcome this limitation, our approach focuses solely on proprioceptive inputs. We introduce a two-stage training framework incorporating a contact encoder and a classification head to learn implicit representations of different traps. Additionally, we design a set of tailored reward functions to improve both the stability of training and the ease of deployment for goal-tracking tasks. To benefit further research, we design a new benchmark for tiny trap task. Extensive experiments in both simulation and real-world settings demonstrate the effectiveness and robustness of our method. Project Page: https://robust-robot-walker.github.io/ | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-12 |
# 目的地の魅力によるレヴィウォークへのブラウンウォークを連続的に生成するウォークモデル
Walk model that continuously generates Brownian walks to Lévy walks depending on destination attractiveness ( http://arxiv.org/abs/2405.07541v4 ) ライセンス: Link先を確認 | Shuji Shinohara, Daiki Morita, Hayato Hirai, Ryosuke Kuribayashi, Nobuhito Manome, Toru Moriyama, Hiroshi Okamoto, Yoshihiro Nakajima, Yukio-Pegio Gunji, Ung-il Chung, | (参考訳) L''evy ウォーク(L'evy walk)は、細菌からヒトまで、様々な生物の移動行動において、力の分布に追従する線形ステップの長さを特徴とするランダムウォークの一種である。
特に、コーシー・ウォーク(Cauchy walk)としても知られる2つに近いパワー指数を持つL''evy walkは、しばしば観察されるが、その根本原因は解明されていない。
本研究では,多次元空間においてエージェントが目的地に向かって移動する歩行モデルを提案し,その移動戦略は目的地への最短経路を追求する範囲によってパラメータ化される。
このパラメータは、エージェントへの目的地の魅力を表すために用いられる。
調査の結果,目的地が非常に魅力的な場合,エージェントがブラウン歩行を用いて周辺地域を集中的に探索するのに対し,目的地が魅力のない場合,L''evy歩行を2つ未満のパワー指数で遠方の地域を探索することがわかった。
エージェントが目的地が魅力的か魅力がないかを判断できない場合、コーシー・ウォークが現れる。
コーシー・ウォーカーは、目的地からの距離に逆比例する確率で地域を探索する。
このことは、目的地に近い領域を優先的に検索すると同時に、検索領域をさらに拡張する可能性を持っていることを示唆している。
目的地の魅力に応じて探索手法や探索領域を変更することが可能なモデルでは,最適化問題のパラメータ空間の探索に利用することができる。
The L\'evy walk, a type of random walk characterized by linear step lengths that follow a power-law distribution, is observed in the migratory behaviors of various organisms, ranging from bacteria to humans. Notably, L\'evy walks with power exponents close to two, also known as Cauchy walks, are frequently observed, though their underlying causes remain elusive. This study proposes a walk model in which agents move toward a destination in multi-dimensional space and their movement strategy is parameterized by the extent to which they pursue the shortest path to the destination. This parameter is taken to represent the attractiveness of the destination to the agents. Our findings reveal that if the destination is very attractive, agents intensively search the area around it using Brownian walks, whereas if the destination is unattractive, they explore a distant region away from the point using L\'evy walks with power exponents less than two. In the case where agents are unable to determine whether the destination is attractive or unattractive, Cauchy walks emerge. The Cauchy walker searches the region with a probability inversely proportional to the distance from the destination. This suggests that it preferentially searches the area close to the destination, while concurrently having the potential to extend the search area much further. Our model, which can change the search method and search area depending on the attractiveness of the destination, has the potential to be utilized for exploring the parameter space of optimization problems. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-12 |
# DreamMapping:変動分布マッピングによる高忠実テキスト・ツー・3D生成
DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping ( http://arxiv.org/abs/2409.05099v3 ) ライセンス: Link先を確認 | Zeyu Cai, Duotun Wang, Yixun Liang, Zhijing Shao, Ying-Cong Chen, Xiaohang Zhan, Zeyu Wang, | (参考訳) SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
しかし、過飽和色や過度な滑らかさなどの欠点がしばしば現れる。
本稿では、SDSの徹底的な解析を行い、その定式化を洗練し、コア設計はレンダリング画像の分布をモデル化することであることを示す。
この知見に従えば,拡散ベース生成の劣化事例としてレンダリングされた画像について,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) と呼ばれる新しい戦略を導入する。
この特別な設計は、拡散U-ネットにおけるジャコビアンの計算をスキップすることで、変動分布の効率的な訓練を可能にする。
また, 蒸留精度を向上させるため, 時間ステップ依存性の分散係数アニール (DCA) も導入した。
VDMとDCAを活用することで、3D表現としてガウススプラッティングを使用し、テキストから3D生成フレームワークを構築する。
大規模な実験と評価は、最適化効率で高忠実で現実的な資産を生成するためのVDMとDCAの能力を示す。
Score Distillation Sampling (SDS) has emerged as a prevalent technique for text-to-3D generation, enabling 3D content creation by distilling view-dependent information from text-to-2D guidance. However, they frequently exhibit shortcomings such as over-saturated color and excess smoothness. In this paper, we conduct a thorough analysis of SDS and refine its formulation, finding that the core design is to model the distribution of rendered images. Following this insight, we introduce a novel strategy called Variational Distribution Mapping (VDM), which expedites the distribution modeling process by regarding the rendered images as instances of degradation from diffusion-based generation. This special design enables the efficient training of variational distribution by skipping the calculations of the Jacobians in the diffusion U-Net. We also introduce timestep-dependent Distribution Coefficient Annealing (DCA) to further improve distilling precision. Leveraging VDM and DCA, we use Gaussian Splatting as the 3D representation and build a text-to-3D generation framework. Extensive experiments and evaluations demonstrate the capability of VDM and DCA to generate high-fidelity and realistic assets with optimization efficiency. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-12 |
# 大規模言語モデルにおける結合の表現論的解析
Representational Analysis of Binding in Large Language Models ( http://arxiv.org/abs/2409.05448v2 ) ライセンス: Link先を確認 | Qin Dai, Benjamin Heinzerling, Kentaro Inui, | (参考訳) 複雑な推論にはエンティティのトラッキングが不可欠だ。
コンテキスト内エンティティ追跡を実行するには、言語モデル(LM)がエンティティを属性(例えば、コンテナをコンテンツにバインドする)にバインドし、エンティティの属性をリコールする必要がある。
例えば、'The coffee is in Box Z', the stone is in Box M', the map is in Box H'', to infer ``Box Z contains the coffee'' という文脈では、LMは ``Box Z'' を ``coffee'' に結合しなければならない。
Feng と Steinhardt (2023) は LM の結合挙動を説明するため、Binding ID 機構を導入し、LM がBinding ID (BI) と呼ばれる抽象概念を使ってエンティティと属性のペアを内部的にマークしていることを述べる。
しかし、BI決定情報をエンティティアクティベーションから直接は取得していない。
本研究では,BI情報のプロトタイプをローカライズすることで,バインディングID機構の新たなビューを提供する。
具体的には、主にエンティティと属性の順序を符号化し、BIのプロトタイプとして結合を因果的に決定する、LMの隠れ状態(またはアクティベーション)に低ランクな部分空間が存在することを明らかにする。
この部分空間を特定するために、我々は原理的成分分析を最初の試みとして選択し、有効であることが実証的に証明されている。
さらに、サブスペース内の方向に沿って表現を編集する場合、LMは特定のエンティティを他の属性に結び付ける傾向にあることもわかりました。
例えば、BIエンコーディング方向に沿ってアクティベーションをパッチすることで、LM に ``Box Z が Stone' を含むと ``Box Z が map'' を含むと推測させることができる。
Entity tracking is essential for complex reasoning. To perform in-context entity tracking, language models (LMs) must bind an entity to its attribute (e.g., bind a container to its content) to recall attribute for a given entity. For example, given a context mentioning ``The coffee is in Box Z, the stone is in Box M, the map is in Box H'', to infer ``Box Z contains the coffee'' later, LMs must bind ``Box Z'' to ``coffee''. To explain the binding behaviour of LMs, Feng and Steinhardt (2023) introduce a Binding ID mechanism and state that LMs use a abstract concept called Binding ID (BI) to internally mark entity-attribute pairs. However, they have not directly captured the BI determinant information from entity activations. In this work, we provide a novel view of the Binding ID mechanism by localizing the prototype of BI information. Specifically, we discover that there exists a low-rank subspace in the hidden state (or activation) of LMs, that primarily encodes the order of entity and attribute and which is used as the prototype of BI to causally determine the binding. To identify this subspace, we choose principle component analysis as our first attempt and it is empirically proven to be effective. Moreover, we also discover that when editing representations along directions in the subspace, LMs tend to bind a given entity to other attributes accordingly. For example, by patching activations along the BI encoding direction we can make the LM to infer ``Box Z contains the stone'' and ``Box Z contains the map''. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-12 |
# 3DGCQA: 3D AI生成コンテンツの品質評価データベース
3DGCQA: A Quality Assessment Database for 3D AI-Generated Contents ( http://arxiv.org/abs/2409.07236v2 ) ライセンス: Link先を確認 | Yingjie Zhou, Zicheng Zhang, Farong Wen, Jun Jia, Yanwei Jiang, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai, | (参考訳) 3D生成コンテンツ(3DGC)は、生産コストの削減と設計タイムラインの高速化にメリットがあるが、プロの3D生成コンテンツと比較すると、品質は低下することが多い。
一般的な品質問題はしばしば3DGCに影響を与え、タイムリーで効果的な品質評価の重要性を強調している。
このような評価は、エンドユーザーに対して高い3DGCを保証するだけでなく、生成技術の進歩に重要な洞察を与える。
そこで本研究では,テキスト・ツー・3D生成手法を用いて構築した3DGC品質評価データセットである3DGCQAを提案する。
データセットの構築中に、50の固定プロンプトを使用して、すべてのメソッドにまたがるコンテンツを生成し、3DGCQAデータセットを構成する313のテクスチャ化されたメッシュを生成する。
可視化によって、生成された3DGCに6つの共通の歪みカテゴリが存在することが直感的に明らかになる。
3DGCの品質をさらに調査するため、評価者によって主観的品質評価が行われ、その評価は、異なる生成方法における品質の有意な変動を示す。
さらに、3DGCQAデータセット上で、いくつかの客観的品質評価アルゴリズムがテストされている。
その結果、既存のアルゴリズムの性能の限界を明らかにし、より専門的な品質評価手法を開発する必要性を浮き彫りにした。
3Dコンテンツ生成および品質評価における将来の研究開発のための貴重なリソースを提供するため、データセットはhttps://github.com/zyj-2000/3DGCQAでオープンソース化された。
Although 3D generated content (3DGC) offers advantages in reducing production costs and accelerating design timelines, its quality often falls short when compared to 3D professionally generated content. Common quality issues frequently affect 3DGC, highlighting the importance of timely and effective quality assessment. Such evaluations not only ensure a higher standard of 3DGCs for end-users but also provide critical insights for advancing generative technologies. To address existing gaps in this domain, this paper introduces a novel 3DGC quality assessment dataset, 3DGCQA, built using 7 representative Text-to-3D generation methods. During the dataset's construction, 50 fixed prompts are utilized to generate contents across all methods, resulting in the creation of 313 textured meshes that constitute the 3DGCQA dataset. The visualization intuitively reveals the presence of 6 common distortion categories in the generated 3DGCs. To further explore the quality of the 3DGCs, subjective quality assessment is conducted by evaluators, whose ratings reveal significant variation in quality across different generation methods. Additionally, several objective quality assessment algorithms are tested on the 3DGCQA dataset. The results expose limitations in the performance of existing algorithms and underscore the need for developing more specialized quality assessment methods. To provide a valuable resource for future research and development in 3D content generation and quality assessment, the dataset has been open-sourced in https://github.com/zyj-2000/3DGCQA. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-12 |