このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240911となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 大規模言語モデルによる現象型正規化の精度向上のための簡易検索手法
A Simplified Retriever to Improve Accuracy of Phenotype Normalizations by Large Language Models ( http://arxiv.org/abs/2409.13744v1 ) ライセンス: Link先を確認 | Daniel B. Hier, Thanh Son Do, Tayo Obafemi-Ajayi, | (参考訳) 大規模言語モデル (LLM) は, 項定義に基づく候補正規化を提案する検索器を組み込んだ場合, 表現型用語正規化タスクにおいて, 精度が向上している。
本研究では,Human Phenotype Ontology (HPO) を明示的な用語定義を必要とせずに,BioBERT の文脈単語埋め込みを用いて検索することにより,LLMの精度を向上させる簡易検索手法を提案する。
OMIM(Online Mendelian Inheritance in Man, オンライン・メンデル・インジェクタンス・イン・マン)から得られた用語を用いて, 本手法を検証したところ, 最先端LLMの正規化精度が62.3%から90.3%に上昇することが示された。
このアプローチは他の生物医学用語の正規化タスクに一般化できる可能性があり、より複雑な検索方法に代わる効率的な代替手段を提供する。
Large language models (LLMs) have shown improved accuracy in phenotype term normalization tasks when augmented with retrievers that suggest candidate normalizations based on term definitions. In this work, we introduce a simplified retriever that enhances LLM accuracy by searching the Human Phenotype Ontology (HPO) for candidate matches using contextual word embeddings from BioBERT without the need for explicit term definitions. Testing this method on terms derived from the clinical synopses of Online Mendelian Inheritance in Man (OMIM), we demonstrate that the normalization accuracy of a state-of-the-art LLM increases from a baseline of 62.3% without augmentation to 90.3% with retriever augmentation. This approach is potentially generalizable to other biomedical term normalization tasks and offers an efficient alternative to more complex retrieval methods. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-11 |
# 事前訓練された大規模言語モデルに対する文脈認識型メンバーシップ推論攻撃
Context-Aware Membership Inference Attacks against Pre-trained Large Language Models ( http://arxiv.org/abs/2409.13745v1 ) ライセンス: Link先を確認 | Hongyan Chang, Ali Shahin Shamsabadi, Kleomenis Katevas, Hamed Haddadi, Reza Shokri, | (参考訳) 事前訓練されたLarge Language Models (LLM) における事前メンバーシップ推論攻撃 (MIA) は、トークンシーケンス間でLLMの生成プロセスを無視するため失敗する。
本稿では,データポイント内のサブシーケンスのパープレキシティダイナミクスにMIA統計的テストを適用する新たな攻撃を提案する。
本手法は, 事前学習LLMにおける文脈依存記憶パターンを明らかにすることによって, 従来のロスベース手法よりも有意に優れていた。
Prior Membership Inference Attacks (MIAs) on pre-trained Large Language Models (LLMs), adapted from classification model attacks, fail due to ignoring the generative process of LLMs across token sequences. In this paper, we present a novel attack that adapts MIA statistical tests to the perplexity dynamics of subsequences within a data point. Our method significantly outperforms prior loss-based approaches, revealing context-dependent memorization patterns in pre-trained LLMs. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-11 |
# あまり多くない場合:大規模言語モデルは低頻度で精度の低い用語を正規化する
When Less Is Not More: Large Language Models Normalize Less-Frequent Terms with Lower Accuracy ( http://arxiv.org/abs/2409.13746v1 ) ライセンス: Link先を確認 | Daniel B. Hier, Thanh Son Do, Tayo Obafemi-Ajayi, | (参考訳) 用語の正規化は、用語を自由テキストから標準化された概念にマッピングするプロセスであり、その機械可読コードはオントロジーで記述される。
患者と疾患の表現型の違いを捉える用語の正確な正規化は、精密医療イニシアチブの成功に不可欠である。
GPT-4oのような大きな言語モデル (LLM) はHuman Phenotype Ontology (HPO) の用語を正規化することができるが、誤ったHPO IDを検索することができる。
これらのタスクにおけるLSMの精度の報告は、高周波の項に歪んだ不均衡なテストデータセットのために膨らませられる可能性がある。
GPT-4oはHPOの2,655疾患に対する268,776の表現型アノテーションの包括的なデータセットを用いて,11,225の独自用語の正常化において13.1%の精度を達成した。
しかし、精度は不均一に分布し、より高頻度で短い用語は低頻度で長い用語よりもより正確に正規化された。
SHAPと置換法を用いて特徴重要度分析を行い、正規化誤差の最も重要な予測因子として低周波を同定した。
これらの結果から, LLM を用いた用語正規化のためのトレーニングおよび評価データセットは, モデル性能を改善するために低頻度と高頻度の用語のバランスをとる必要があることが示唆された。
Term normalization is the process of mapping a term from free text to a standardized concept and its machine-readable code in an ontology. Accurate normalization of terms that capture phenotypic differences between patients and diseases is critical to the success of precision medicine initiatives. A large language model (LLM), such as GPT-4o, can normalize terms to the Human Phenotype Ontology (HPO), but it may retrieve incorrect HPO IDs. Reported accuracy rates for LLMs on these tasks may be inflated due to imbalanced test datasets skewed towards high-frequency terms. In our study, using a comprehensive dataset of 268,776 phenotype annotations for 12,655 diseases from the HPO, GPT-4o achieved an accuracy of 13.1% in normalizing 11,225 unique terms. However, the accuracy was unevenly distributed, with higher-frequency and shorter terms normalized more accurately than lower-frequency and longer terms. Feature importance analysis, using SHAP and permutation methods, identified low-term frequency as the most significant predictor of normalization errors. These findings suggest that training and evaluation datasets for LLM-based term normalization should balance low- and high-frequency terms to improve model performance, particularly for infrequent terms critical to precision medicine. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-11 |
# カリフォルニアにおける学校体力テストのための対話型Webアプリケーション:地理空間分析とカスタムマッピング
An Interactive Web Application for School-Based Physical Fitness Testing in California: Geospatial Analysis and Custom Mapping ( http://arxiv.org/abs/2409.15352v1 ) ライセンス: Link先を確認 | Yawen Guo, Kaiyuan Hu, Di Hu, Kai Zheng, Dan Cooper, | (参考訳) 身体活動は、子供の健康な成長と発達に不可欠である。
米国では、カリフォルニアを含むほとんどの州が体育標準に準拠し、20年以上にわたり義務化された学校ベースの体力検査(SB-PFT)を実践してきた。
膨大なデータ収集にもかかわらず、SB-PFTの研究利用は、アクセス可能な分析ツールがないために制限されている。
我々は、GeoServer、ArcGIS、AWSを使ってSB-PFTデータを視覚化するWebアプリケーションを開発した。
このユーザフレンドリーなプラットフォームにより、教育管理者や政策立案者が子供の体力の傾向を分析し、学校や地区で成功したプログラムを特定し、新しい体力教育イニシアチブを評価することができる。
また、外部データセットとSB-PFTデータを比較するカスタムマッピングツールも備えている。
このプラットフォームは,情報に基づくツールに高度な分析機能を組み込むことで,子どもの体力向上への関与を著しく向上させると結論付けた。
Physical activity is essential for children's healthy growth and development. In the US, most states, including California, adhere to physical education standards and have implemented the mandated School-based Physical Fitness Testing (SB-PFT) for over two decades. Despite extensive data collection, research utilization of SB-PFT has been limited due to the absence of accessible analytical tools. We developed a web application using GeoServer, ArcGIS, and AWS to visualize SB-PFT data. This user-friendly platform enables education administrators and policymakers to analyze trends in children's physical fitness, identify successful programs at schools and districts, and evaluate new physical education initiatives. The application also features a custom mapping tool for comparing external datasets with SB-PFT data. We conclude that this platform, by integrating advanced analytical capabilities in an informatics-based tool, significantly enhances engagement in promoting children's physical fitness. | 翻訳日:2024-11-06 19:43:38 公開日:2024-09-11 |
# 音声検索に基づく拡張を用いたLLMを用いたASRの文脈化
Contextualization of ASR with LLM using phonetic retrieval-based augmentation ( http://arxiv.org/abs/2409.15353v1 ) ライセンス: Link先を確認 | Zhihong Lei, Xingyu Na, Mingbin Xu, Ernest Pusateri, Christophe Van Gysel, Yuanyuan Zhang, Shiyi Han, Zhen Huang, | (参考訳) 大規模言語モデル(LLM)は、音声やテキストを含むマルチモーダル信号をモデル化し、音声入力によって音声やテキストの応答を生成する能力を示す。
しかし、入力モダリティが音声である場合、電話帳の連絡先など、個人名を持つエンティティを認識することは依然として困難である。
本研究は,音声認識タスクから始まり,LLMを文脈化するための検索ベースソリューションを提案する。まず,LLMが任意の文脈なしに名前付きエンティティを検出し,この名前付きエンティティをクエリとして使用して,個人データベースから音声的に類似した名前付きエンティティを検索し,LLMにフィードし,最後に文脈対応のLCMデコーディングを実行する。
音声アシスタントタスクでは, 文脈化のないベースラインシステムと比較して, 単語誤り率の30.2%, エンティティエラー率の73.6%の削減を実現した。
特に、設計によるソリューションは、完全な名前付きエンティティデータベースによるLLMのプロンプトを回避し、大きな名前付きエンティティデータベースに非常に効率よく適用できます。
Large language models (LLMs) have shown superb capability of modeling multimodal signals including audio and text, allowing the model to generate spoken or textual response given a speech input. However, it remains a challenge for the model to recognize personal named entities, such as contacts in a phone book, when the input modality is speech. In this work, we start with a speech recognition task and propose a retrieval-based solution to contextualize the LLM: we first let the LLM detect named entities in speech without any context, then use this named entity as a query to retrieve phonetically similar named entities from a personal database and feed them to the LLM, and finally run context-aware LLM decoding. In a voice assistant task, our solution achieved up to 30.2% relative word error rate reduction and 73.6% relative named entity error rate reduction compared to a baseline system without contextualization. Notably, our solution by design avoids prompting the LLM with the full named entity database, making it highly efficient and applicable to large named entity databases. | 翻訳日:2024-11-06 19:43:38 公開日:2024-09-11 |
# 悪意を考慮した自律走行車両意思決定フレームワーク
符号なし断面積における挙動
Autonomous Vehicle Decision-Making Framework for Considering Malicious Behavior at Unsignalized Intersections ( http://arxiv.org/abs/2409.17162v1 ) ライセンス: Link先を確認 | Qing Li, Jinxing Hua, Qiuxia Sun | (参考訳) 本稿では,不特定交差点を通過しながら,他の悪意ある行動車両に遭遇した場合に,自動運転車の安全性と効率を向上させるためのQラーニングに基づく意思決定フレームワークを提案する。
自律走行車では、従来の報酬信号が安全や効率などのフィードバック要因に関する通常の報酬として設定される。
本稿では,緊急時の安全性を高めるために,可変重み付けパラメータによって安全ゲインを変調する。
本稿では,一階の信念を付加的な報酬信号として用い,従来の報酬の上に一階の心推定理論を導入する。
この決定枠組みにより、自動運転車は、信号のない交差点で潜在的に悪意のある振る舞いをする車両に遭遇する際に、情報的な決定を下すことができ、それによって、自動運転車輸送システムの全体的な安全性と効率を向上させることができる。
本稿では,決定フレームワークの性能を検証するために,Prescan/Simulink共シミュレーションを用いてシミュレーションを行い,その結果から,決定フレームワークの性能が設定された要件を満たすことを示す。
In this paper, we propose a Q-learning based decision-making framework to improve the safety and efficiency of Autonomous Vehicles when they encounter other maliciously behaving vehicles while passing through unsignalized intersections. In Autonomous Vehicles, conventional reward signals are set as regular rewards regarding feedback factors such as safety and efficiency. In this paper, safety gains are modulated by variable weighting parameters to ensure that safety can be emphasized more in emergency situations. The framework proposed in this paper introduces first-order theory of mind inferences on top of conventional rewards, using first-order beliefs as additional reward signals. The decision framework enables Autonomous Vehicles to make informed decisions when encountering vehicles with potentially malicious behaviors at unsignalized intersections, thereby improving the overall safety and efficiency of Autonomous Vehicle transportation systems. In order to verify the performance of the decision framework, this paper uses Prescan/Simulink co-simulations for simulation, and the results show that the performance of the decision framework can meet the set requirements. | 翻訳日:2024-11-06 16:50:22 公開日:2024-09-11 |
# スケーラブルで効率的なパーソナライズドレコメンデーションのためのMamba
Mamba for Scalable and Efficient Personalized Recommendations ( http://arxiv.org/abs/2409.17165v1 ) ライセンス: Link先を確認 | Andrew Starnes, Clayton Webster | (参考訳) 本研究では,パーソナライズされたレコメンデーションシステムにおける表データ処理のためのMambaを提案する。
本稿では,FT-Transformer アーキテクチャ内の Mamba 層に変換器層を置き換えた新しいハイブリッドモデルである \textit{FT-Mamba} (Feature Tokenizer\,$+$\,Mamba) を提案する。
textit{Mamba model} はトランスフォーマーの効率的な代替手段を提供し、状態空間モデル(SSM)の能力を増強することで計算複雑性を2次から線形に低減する。
FT-Mambaは、性能を維持しながらレコメンデーションシステムのスケーラビリティと効率を向上させるように設計されている。
FT-Mambaを,Spotifyの音楽推薦,H&Mファッションレコメンデーション,ワクチンメッセージングレコメンデーションの3つのデータセット上で,従来のTransformerベースのモデルと比較した。
各モデルは16万のユーザアクションペアでトレーニングされ、精度(P)、リコール(R)、平均相反ランク(MRR)、ヒット比(HR)をいくつかのトラルニケーション値で測定する。
この結果から,FT-Mamba は Transformer ベースモデルよりも計算効率が優れ,主要な推奨指標をまたいだ性能を維持したり超えたりしていることがわかった。
Mambaレイヤを活用することで、FT-Mambaは大規模パーソナライズされたレコメンデーションシステムに対してスケーラブルで効果的なソリューションを提供する。
In this effort, we propose using the Mamba for handling tabular data in personalized recommendation systems. We present the \textit{FT-Mamba} (Feature Tokenizer\,$+$\,Mamba), a novel hybrid model that replaces Transformer layers with Mamba layers within the FT-Transformer architecture, for handling tabular data in personalized recommendation systems. The \textit{Mamba model} offers an efficient alternative to Transformers, reducing computational complexity from quadratic to linear by enhancing the capabilities of State Space Models (SSMs). FT-Mamba is designed to improve the scalability and efficiency of recommendation systems while maintaining performance. We evaluate FT-Mamba in comparison to a traditional Transformer-based model within a Two-Tower architecture on three datasets: Spotify music recommendation, H\&M fashion recommendation, and vaccine messaging recommendation. Each model is trained on 160,000 user-action pairs, and performance is measured using precision (P), recall (R), Mean Reciprocal Rank (MRR), and Hit Ratio (HR) at several truncation values. Our results demonstrate that FT-Mamba outperforms the Transformer-based model in terms of computational efficiency while maintaining or exceeding performance across key recommendation metrics. By leveraging Mamba layers, FT-Mamba provides a scalable and effective solution for large-scale personalized recommendation systems, showcasing the potential of the Mamba architecture to enhance both efficiency and accuracy. | 翻訳日:2024-11-06 16:50:22 公開日:2024-09-11 |
# 脳ネットワーク拡散駆動型fMRI接続性増強による自閉症スペクトラム障害の診断
Brain Network Diffusion-Driven fMRI Connectivity Augmentation for Enhanced Autism Spectrum Disorder Diagnosis ( http://arxiv.org/abs/2409.18967v1 ) ライセンス: Link先を確認 | Haokai Zhao, Haowei Lou, Lina Yao, Yu Zhang, | (参考訳) 機能的磁気共鳴イメージング(英: functional magnetic resonance imaging、fMRI)は、脳機能や精神障害を理解するために、関心の領域(ROI)とその接続のネットワークとして一般的にモデル化される、新興の神経画像モダリティである。
しかし、fMRIデータ取得とラベル付けのコストが高いため、fMRIデータの量は通常小さく、認識モデルの性能が大幅に制限される。
生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的なサンプルを生成する能力は、データ拡張に広く利用されている。
本研究では,FMRI機能接続のための拡張ツールとしての拡散モデルの有効性を示す。
さらに,学習した特徴パターンの生成品質と解釈の詳細な解析を行うために,拡張実験を行った。
私たちのコードは受け入れ次第公開します。
Functional magnetic resonance imaging (fMRI) is an emerging neuroimaging modality that is commonly modeled as networks of Regions of Interest (ROIs) and their connections, named functional connectivity, for understanding the brain functions and mental disorders. However, due to the high cost of fMRI data acquisition and labeling, the amount of fMRI data is usually small, which largely limits the performance of recognition models. With the rise of generative models, especially diffusion models, the ability to generate realistic samples close to the real data distribution has been widely used for data augmentations. In this work, we present a transformer-based latent diffusion model for functional connectivity generation and demonstrate the effectiveness of the diffusion model as an augmentation tool for fMRI functional connectivity. Furthermore, extended experiments are conducted to provide detailed analysis of the generation quality and interpretations for the learned feature pattern. Our code will be made public upon acceptance. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-11 |
# 医療におけるAIの安全性の課題
Safety challenges of AI in medicine ( http://arxiv.org/abs/2409.18968v1 ) ライセンス: Link先を確認 | Xiaoye Wang, Nicole Xi Zhang, Hongyu He, Trang Nguyen, Kun-Hsing Yu, Hao Deng, Cynthia Brandt, Danielle S. Bitterman, Ling Pan, Ching-Yu Cheng, James Zou, Dianbo Liu, | (参考訳) 人工知能(AI)の最近の進歩、特に深層学習と大規模言語モデル(LLM)は、医学への統合を加速している。
しかし、これらの開発はAIの安全な適用に関しても公の関心を喚起している。
医療において、これらの懸念は特に重要であり、患者の健康とプライバシを保護するためにAIの倫理的かつ安全な展開が不可欠である。
本稿では,医療の安全性を損なう可能性のあるAIプラクティスの潜在的なリスクについて検討する。例えば,多様な集団におけるパフォーマンスの低下,一貫性のない運用安定性,効果的なモデルチューニングのための高品質なデータの必要性,モデル開発とデプロイメントにおけるデータ侵害のリスクなどだ。
医療従事者、患者、研究者にとって、LLMは言語を介してAIやデータと対話する便利な手段を提供する。
しかし、その出現は、特に幻覚などの問題により、安全性の懸念も増している。
この記事では、複雑なロジックの処理の制限、AI目標と人間の価値の整合性に関する課題、理解の錯覚、多様性に関する懸念など、医学的な文脈でLLMに特有の安全性の問題について論じる。
安全なAIの思慮深い開発は、現実世界の医療環境における採用を加速させる可能性がある。
Recent advancements in artificial intelligence (AI), particularly in deep learning and large language models (LLMs), have accelerated their integration into medicine. However, these developments have also raised public concerns about the safe application of AI. In healthcare, these concerns are especially pertinent, as the ethical and secure deployment of AI is crucial for protecting patient health and privacy. This review examines potential risks in AI practices that may compromise safety in medicine, including reduced performance across diverse populations, inconsistent operational stability, the need for high-quality data for effective model tuning, and the risk of data breaches during model development and deployment. For medical practitioners, patients, and researchers, LLMs provide a convenient way to interact with AI and data through language. However, their emergence has also amplified safety concerns, particularly due to issues like hallucination. Second part of this article explores safety issues specific to LLMs in medical contexts, including limitations in processing complex logic, challenges in aligning AI objectives with human values, the illusion of understanding, and concerns about diversity. Thoughtful development of safe AI could accelerate its adoption in real-world medical settings. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-11 |
# 学術データを用いた質問応答のためのSPARQLとLLMの統合
Integrating SPARQL and LLMs for Question Answering over Scholarly Data Sources ( http://arxiv.org/abs/2409.18969v1 ) ライセンス: Link先を確認 | Fomubad Borista Fondi, Azanzi Jiomekong Fidel, | (参考訳) The Scholarly Hybrid Question Answering over Linked Data (QALD) Challenge at International Semantic Web Conference (ISWC) 2024は、様々な学術資料(DBLP、SemOpenAlex、Wikipediaベースのテキスト)に対する質問回答(QA)に焦点を当てている。
本稿では,SPARQLクエリ,分割と計算アルゴリズム,およびBERTベースのケース-SQuad2予測を組み合わせた方法論について述べる。
データを収集するためにSPARQLクエリから始まり、パーティションとコンピュートを適用してさまざまな質問タイプとソースを管理し、BERTを使用して個人的な著者の質問を処理する。
Exact MatchとFスコアのメトリクスで評価されたこの手法は、学術的な文脈におけるQAの精度と効率を改善することを約束している。
The Scholarly Hybrid Question Answering over Linked Data (QALD) Challenge at International Semantic Web Conference (ISWC) 2024 focuses on Question Answering (QA) over diverse scholarly sources: DBLP, SemOpenAlex, and Wikipedia-based texts. This paper describes a methodology that combines SPARQL queries, divide and conquer algorithms, and BERT-based-case-SQuad2 predictions. It starts with SPARQL queries to gather data, then applies divide and conquer to manage various question types and sources, and uses BERT to handle personal author questions. The approach, evaluated with Exact Match and F-score metrics, shows promise for improving QA accuracy and efficiency in scholarly contexts. | 翻訳日:2024-11-06 05:22:52 公開日:2024-09-11 |
# 機械学習を用いた海面高度スナップショットのマルチスケール分解
Multi-scale decomposition of sea surface height snapshots using machine learning ( http://arxiv.org/abs/2409.17354v1 ) ライセンス: Link先を確認 | Jingwen Lyu, Yue Wang, Christian Pedersen, Spencer Jones, Dhruv Balwada, | (参考訳) 海洋循環の知識は、天候や気候を理解し、予測し、ブルーエコノミーを管理するために重要である。
この循環は海面高度(SSH)観測によって推定できるが、SSHを平衡運動(BM)と非平衡運動(UBM)の寄与に分解する必要がある。
この分解は、SSHを前例のない空間分解能で測定する新しいSWOT衛星にとって特に重要である。
具体的には、この作業の要件と目標は、即時的なSSHをBMとUBMに分解することである。
深層学習(DL)アプローチを用いたいくつかの研究では、この分解を画像から画像への変換タスクとして扱うことは約束されているが、これらのモデルは幅広い空間スケールでうまく機能し、この領域では不十分な広範なトレーニングデータを必要とすることに苦慮している。
これらの課題は我々のタスクに特有のものではなく、マルチスケールの忠実さを必要とする多くの問題に及んでいる。
これらの課題は、ゼロ位相成分分析(ZCA)の白化とデータ拡張によって解決できることを示し、スケールをまたいだSSH分解に有効な選択肢であることを示す。
Knowledge of ocean circulation is important for understanding and predicting weather and climate, and managing the blue economy. This circulation can be estimated through Sea Surface Height (SSH) observations, but requires decomposing the SSH into contributions from balanced and unbalanced motions (BMs and UBMs). This decomposition is particularly pertinent for the novel SWOT satellite, which measures SSH at an unprecedented spatial resolution. Specifically, the requirement, and the goal of this work, is to decompose instantaneous SSH into BMs and UBMs. While a few studies using deep learning (DL) approaches have shown promise in framing this decomposition as an image-to-image translation task, these models struggle to work well across a wide range of spatial scales and require extensive training data, which is scarce in this domain. These challenges are not unique to our task, and pervade many problems requiring multi-scale fidelity. We show that these challenges can be addressed by using zero-phase component analysis (ZCA) whitening and data augmentation; making this a viable option for SSH decomposition across scales. | 翻訳日:2024-09-30 11:54:29 公開日:2024-09-11 |
# 電気自動車、ヒートポンプ、ソーラーパネルが低電圧給電装置に及ぼす影響:スマートメーターによる検証
Effect of electric vehicles, heat pumps, and solar panels on low-voltage feeders: Evidence from smart meter profiles ( http://arxiv.org/abs/2409.18105v1 ) ライセンス: Link先を確認 | T. Becker, R. Smet, B. Macharis, K. Vanthournout, | (参考訳) 電気自動車(EV)、ヒートポンプ(HP)、ソーラーパネル(ソーラーパネル)は、低電圧グリッド(LVG)に高速で接続される低炭素技術(LCT)である。
LVGへの影響を理解するための大きなハードルの1つは、現実の環境で測定された最近の大規模電力消費データセットの欠如である。
住宅LVG顧客を対象とした42,089個のスマートメータの大規模データセットを用いて,LV供給者のピークの大きさとタイミングに対するLCTの寄与について検討した。
これらのプロファイルは2022年にベルギーのフランドル(Flanders)のDSOであるFluviusによって測定された。
このデータセットには、高解像度のスマート計測データを積極的に要求する顧客が含まれており、それによってエネルギーに興味のある人たちに偏っている。
異なる大きさのLVフィードは、プロファイルサンプリングアプローチで統計的にモデル化された。
40接続の給餌者は,HPが1.2kW,EVが1.4kW,EVが2.0kW,充電速度が6.5kW以上であった。
供給者レベルの負荷を視覚的に分析すると、古典的なアヒル曲線は、HPのみの給餌者のための夜間カメラ曲線と、EVのみの充電速度が6.5kW未満の給餌者のための夜間水量曲線に置き換えられている。
例えば、動的電気関税やバッテリー容量の増大などにより、エネルギー移行が進むにつれて消費パターンは変わらず変化し続ける。
導入した手法は実装が簡単で、スマートメーターデータにアクセスして消費パターンの変化を監視するDSOにとって有用なツールである。
Electric vehicles (EVs), heat pumps (HPs) and solar panels are low-carbon technologies (LCTs) that are being connected to the low-voltage grid (LVG) at a rapid pace. One of the main hurdles to understand their impact on the LVG is the lack of recent, large electricity consumption datasets, measured in real-world conditions. We investigated the contribution of LCTs to the size and timing of peaks on LV feeders by using a large dataset of 42,089 smart meter profiles of residential LVG customers. These profiles were measured in 2022 by Fluvius, the distribution system operator (DSO) of Flanders, Belgium. The dataset contains customers that proactively requested higher-resolution smart metering data, and hence is biased towards energy-interested people. LV feeders of different sizes were statistically modelled with a profile sampling approach. For feeders with 40 connections, we found a contribution to the feeder peak of 1.2 kW for a HP, 1.4 kW for an EV and 2.0 kW for an EV charging faster than 6.5 kW. A visual analysis of the feeder-level loads shows that the classical duck curve is replaced by a night-camel curve for feeders with only HPs and a night-dromedary curve for feeders with only EVs charging faster than 6.5 kW. Consumption patterns will continue to change as the energy transition is carried out, because of e.g. dynamic electricity tariffs or increased battery capacities. Our introduced methods are simple to implement, making it a useful tool for DSOs that have access to smart meter data to monitor changing consumption patterns. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-11 |
# 不均一な記録条件を有するアルツハイマー音声データセットにおける音響システムの信頼性の検証
The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions ( http://arxiv.org/abs/2409.12170v1 ) ライセンス: Link先を確認 | Lara Gauder, Pablo Riera, Andrea Slachevsky, Gonzalo Forno, Adolfo M. Garcia, Luciana Ferrer, | (参考訳) 自動音声分析は、アルツハイマー病(AD)の早期マーカーを検出するための活発なアプローチである。
しかし、ほとんどのADデータセットにおける記録条件は異種であり、患者やコントロールは異なる音環境下で評価されることが多い。
これは、音声の書き起こしや手動のアライメントから得られる特徴に基づく分析では問題ではないが、取得条件の影響を強く受けている音響的特徴の有効性に深刻な疑念を呈している。
Pitt corpus から得られた ADreSSo データセットでこの問題を検討した。
MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムでは,音声信号の非音声部分のみを使用する場合,AD 患者をより高精度な制御から識別できることを示す。
私たちはこの発見を、別のスペイン語話者のデータセットで再現しました。
したがって、これらのデータセットでは、クラスは記録条件によって部分的に予測できる。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
認知症研究のための音響学的異種データセットは、いずれかのものであるべきであると提案する。
(a)手書き注釈から派生した文字や他の特徴のみを用いて分析する、又は
(b) 厳密に制御された音響条件で収集したデータセットに置き換えられた。
Automated speech analysis is a thriving approach to detect early markers of Alzheimer's disease (AD). Yet, recording conditions in most AD datasets are heterogeneous, with patients and controls often evaluated in different acoustic settings. While this is not a problem for analyses based on speech transcription or features obtained from manual alignment, it does cast serious doubts on the validity of acoustic features, which are strongly influenced by acquisition conditions. We examined this issue in the ADreSSo dataset, derived from the widely used Pitt corpus. We show that systems based on two acoustic features, MFCCs and Wav2vec 2.0 embeddings, can discriminate AD patients from controls with above-chance performance when using only the non-speech part of the audio signals. We replicated this finding in a separate dataset of Spanish speakers. Thus, in these datasets, the class can be partly predicted by recording conditions. Our results are a warning against the use of acoustic systems for identifying patients based on non-standardized recordings. We propose that acoustically heterogeneous datasets for dementia studies should be either (a) analyzed using only transcripts or other features derived from manual annotations, or (b) replaced by datasets collected with strictly controlled acoustic conditions. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-11 |
# 知識グラフに基づくスマートコントラクト生成によるブロックチェーンのセマンティック相互運用性
Semantic Interoperability on Blockchain by Generating Smart Contracts Based on Knowledge Graphs ( http://arxiv.org/abs/2409.12171v1 ) ライセンス: Link先を確認 | William Van Woensel, Oshani Seneviratne, | (参考訳) 背景: Health 3.0は、患者のヘルスケアジャーニー全体から、複数の機関の縦断的なデータに基づいて意思決定を可能にする。
このような分散環境では、ブロックチェーンスマートコントラクトが中立的な仲介者として機能し、信頼できる意思決定を実現する。
目的: 分散環境では、送信されたデータはセマンティック相互運用性のために標準(HL7 FHIRなど)を使用して構造化されます。
その代わり、スマートコントラクトは、この標準との相互運用性を必要とし、複雑な通信設定(オーラクルの使用など)を実装し、ブロックチェーン言語(例えばSolidity)を使用して開発する。
本稿では,ドメイン標準の概念を用いて,高レベルな意味知識グラフを用いたスマートコントラクト論理の符号化を提案する。
次に、ブロックチェーンにこのセマンティックKGをデプロイします。
メソッド: Off-chain、コード生成パイプラインは、KGを具体的なスマートコントラクトにコンパイルし、オンチェーンにデプロイする。
私たちのパイプラインは、特定のブロックチェーン言語にトランスパイル可能な中間ブリッジ表現をターゲットとしています。
私たちの選択は、予測不可能で高い計算コストで、オンチェーンルールエンジンを避けます。
結果: 医療保険3件のスマートコントラクト作成にコード生成アプローチを適用した。
我々は、多くの医療のユースケースにおいて、我々のアプローチ、すなわち中立的な仲介者の必要性について論じる。
我々の評価によると、生成されたコントラクトはブロックチェーン上での正確性と実行コスト(ガス)の観点からうまく機能している。
結論:私たちは、ブロックチェーンの経済ルールを尊重する方法で、セマンティックなKGに基づいてスマートコントラクトコードを自動的に生成できることを示しました。
今後の研究には、アプローチにおけるLarge Language Models(LLM)の使用や、他のブロックチェーンの評価などが含まれる。
Background: Health 3.0 allows decision making to be based on longitudinal data from multiple institutions, from across the patient's healthcare journey. In such a distributed setting, blockchain smart contracts can act as neutral intermediaries to implement trustworthy decision making. Objective: In a distributed setting, transmitted data will be structured using standards (such as HL7 FHIR) for semantic interoperability. In turn, the smart contract will require interoperability with this standard, implement a complex communication setup (e.g., using oracles), and be developed using blockchain languages (e.g., Solidity). We propose the encoding of smart contract logic using a high-level semantic Knowledge Graph, using concepts from the domain standard. We then deploy this semantic KG on blockchain. Methods: Off-chain, a code generation pipeline compiles the KG into a concrete smart contract, which is then deployed on-chain. Our pipeline targets an intermediary bridge representation, which can be transpiled into a specific blockchain language. Our choice avoids on-chain rule engines, with unpredictable and likely higher computational cost; it is thus in line with the economic rules of blockchain. Results: We applied our code generation approach to generate smart contracts for 3 health insurance cases from Medicare. We discuss the suitability of our approach - the need for a neutral intermediary - for a number of healthcare use cases. Our evaluation finds that the generated contracts perform well in terms of correctness and execution cost ("gas") on blockchain. Conclusions: We showed that it is feasible to automatically generate smart contract code based on a semantic KG, in a way that respects the economic rules of blockchain. Future work includes studying the use of Large Language Models (LLM) in our approach, and evaluations on other blockchains. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-11 |
# DrLLM: 大規模言語モデルを用いた Prompt-Enhanced Distributed Denial-of-Service resistance 法
DrLLM: Prompt-Enhanced Distributed Denial-of-Service Resistance Method with Large Language Models ( http://arxiv.org/abs/2409.10561v1 ) ライセンス: Link先を確認 | Zhenyu Yin, Shang Liu, Guangyuan Xu, | (参考訳) DDoS(Distributed Denial of Service)攻撃の増加はインターネットに大きな脅威をもたらし、DDoS緩和の重要性を強調している。
既存のアプローチのほとんどは、データの特徴を学習するために複雑なトレーニング方法を必要とし、アプリケーションの複雑さと汎用性を高めます。
本稿では,Large Language Models (LLM) を用いたゼロショットシナリオにおける異常なトラフィック情報のマイニングを目的としたDrLLMを提案する。
DrLLMと既存のアプローチのギャップを埋めるために、トラフィックデータのグローバルおよびローカル情報を推論パラダイムに組み込み、データ表現と推論のために、知識埋め込み、トークン埋め込み、プログレッシブロール推論という3つのモジュールを設計する。
さらに,DrLLMの分類能力を向上させるために,サイバーセキュリティ領域におけるプロンプトエンジニアリングの一般化について検討する。
我々のアブレーション実験は、ゼロショットシナリオにおけるDrLLMの適用性を実証し、ネットワーク領域におけるLLMの可能性をさらに実証する。
DrLLMの実装コードはhttps://github.com/liuup/DrLLMでオープンソース化された。
The increasing number of Distributed Denial of Service (DDoS) attacks poses a major threat to the Internet, highlighting the importance of DDoS mitigation. Most existing approaches require complex training methods to learn data features, which increases the complexity and generality of the application. In this paper, we propose DrLLM, which aims to mine anomalous traffic information in zero-shot scenarios through Large Language Models (LLMs). To bridge the gap between DrLLM and existing approaches, we embed the global and local information of the traffic data into the reasoning paradigm and design three modules, namely Knowledge Embedding, Token Embedding, and Progressive Role Reasoning, for data representation and reasoning. In addition we explore the generalization of prompt engineering in the cybersecurity domain to improve the classification capability of DrLLM. Our ablation experiments demonstrate the applicability of DrLLM in zero-shot scenarios and further demonstrate the potential of LLMs in the network domains. DrLLM implementation code has been open-sourced at https://github.com/liuup/DrLLM. | 翻訳日:2024-09-18 21:09:36 公開日:2024-09-11 |
# モバイルクラスタとエッジクラスタを用いた分散畳み込みニューラルネットワークトレーニング
Distributed Convolutional Neural Network Training on Mobile and Edge Clusters ( http://arxiv.org/abs/2409.09083v1 ) ライセンス: Link先を確認 | Pranav Rama, Madison Threadgill, Andreas Gerstlauer, | (参考訳) ディープニューラルネットワークと/または畳み込みニューラルネットワーク(DNN/CNN)のトレーニングは、従来、強力なCPUとGPUを持つサーバ上で行われてきた。
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
プルーニング、量子化、インクリメンタルおよび転送学習に基づくモバイルおよびエッジデバイスにおける推論とトレーニングのためのアプローチは、精度のトレードオフを必要とする。
モバイルクラスタとエッジクラスタ上での推論操作の分散について、いくつかの研究がなされている。
しかし、エッジでの分散トレーニングに関する文献は限られている。
既存のアプローチはすべて、調整やオフロードのために、中央の、潜在的に強力なエッジまたはクラウドサーバを必要とする。
本稿では,モバイル端末とエッジ端末のみを対象とした分散CNNトレーニングのアプローチについて述べる。
私たちのアプローチは、機能マップが支配する初期のCNN層にとって有益です。
デバイス間のフォワード推論とバックプロパゲーション操作のパーティショニングに基づいて、局所性を最大化し、通信とメモリ認識並列性を公開する。
また、計算と通信のトレードオフに基づいて、さらに微調整性能を高めるために層分けの概念を導入する。
その結果、2-6個のクアッドコアRaspberry Pi3デバイスのクラスタでは、オブジェクト検出CNNのトレーニングは、単一のコアに対して2x-15倍のスピードアップを提供し、デバイス毎のメモリ使用量を最大8倍削減する。
Groupingは参照プロファイルとバッチサイズによって最大1.5倍のスピードアップを提供する。
The training of deep and/or convolutional neural networks (DNNs/CNNs) is traditionally done on servers with powerful CPUs and GPUs. Recent efforts have emerged to localize machine learning tasks fully on the edge. This brings advantages in reduced latency and increased privacy, but necessitates working with resource-constrained devices. Approaches for inference and training in mobile and edge devices based on pruning, quantization or incremental and transfer learning require trading off accuracy. Several works have explored distributing inference operations on mobile and edge clusters instead. However, there is limited literature on distributed training on the edge. Existing approaches all require a central, potentially powerful edge or cloud server for coordination or offloading. In this paper, we describe an approach for distributed CNN training exclusively on mobile and edge devices. Our approach is beneficial for the initial CNN layers that are feature map dominated. It is based on partitioning forward inference and back-propagation operations among devices through tiling and fusing to maximize locality and expose communication and memory-aware parallelism. We also introduce the concept of layer grouping to further fine-tune performance based on computation and communication trade-off. Results show that for a cluster of 2-6 quad-core Raspberry Pi3 devices, training of an object-detection CNN provides a 2x-15x speedup with respect to a single core and up to 8x reduction in memory usage per device, all without sacrificing accuracy. Grouping offers up to 1.5x speedup depending on the reference profile and batch size. | 翻訳日:2024-09-17 22:18:52 公開日:2024-09-11 |
# HESSO: ニューラルネットワークトレーニングとプルーニングの効率化とユーザフレンドリー化を目指す
HESSO: Towards Automatic Efficient and User Friendly Any Neural Network Training and Pruning ( http://arxiv.org/abs/2409.09085v1 ) ライセンス: Link先を確認 | Tianyi Chen, Xiaoyi Qu, David Aponte, Colby Banbury, Jongwoo Ko, Tianyu Ding, Yong Ma, Vladimir Lyapunov, Ilya Zharkov, Luming Liang, | (参考訳) 構造化プルーニングは、パフォーマンスを維持しながら、重いディープニューラルネットワーク(DNN)をコンパクトなサブネットワークに効果的に圧縮する最も一般的なアプローチの1つである。
既存の手法は、重要なエンジニアリングの取り組みと人間の専門知識とともに、多段階的な手順に悩まされている。
Only-Train-Once(OTO)シリーズは、ワークフローを合理化して自動的に実行することで、多くの痛点を解決するために最近提案されている。
(i)検索空間生成
(二)構造化スパース最適化、及び
(iii)サブネットワーク構築。
しかし、OTOシリーズのスパースオプティマイザ、すなわちハーフスペース・プロジェクテッド・グラディエント(HSPG)ファミリーには、ハイパーパラメータチューニングと空間探索の暗黙的な制御を必要とする制限があり、そのために人間の専門知識の介入を必要とする。
このような制約に対処するため,HESSO(Hybrid Efficient Structured Sparse Optimizer)を提案する。
HESSOはDNNを自動かつ効率的に訓練し、高性能なサブネットワークを構築できる。
一方、ほぼチューニング不要で、汎用的なトレーニングアプリケーションのためのユーザフレンドリな統合を楽しみます。
刈り取られたDNNで観測される可逆的性能崩壊の別の一般的な問題に対処するために,不必要な構造を確実に識別する補正冗長同定サイクル(CRIC)を提案する。
HESSOとHESSO-CRICのコンピュータビジョンから,大規模言語モデルを含む自然言語処理まで,さまざまなアプリケーションに対する効果を数値的に示す。
数値的な結果から,HESSOは様々な最先端技術に対してさらに優れた性能を達成し,ほとんどのDNNアーキテクチャをサポートできることが示されている。
一方、CRICは、不可能な性能の崩壊を効果的に防ぎ、特定のアプリケーション上でのHESSOの性能をさらに向上させることができる。
コードはhttps://github.com/microsoft/only_train_once.comで公開されている。
Structured pruning is one of the most popular approaches to effectively compress the heavy deep neural networks (DNNs) into compact sub-networks while retaining performance. The existing methods suffer from multi-stage procedures along with significant engineering efforts and human expertise. The Only-Train-Once (OTO) series has been recently proposed to resolve the many pain points by streamlining the workflow by automatically conducting (i) search space generation, (ii) structured sparse optimization, and (iii) sub-network construction. However, the built-in sparse optimizers in the OTO series, i.e., the Half-Space Projected Gradient (HSPG) family, have limitations that require hyper-parameter tuning and the implicit controls of the sparsity exploration, consequently requires intervening by human expertise. To address such limitations, we propose a Hybrid Efficient Structured Sparse Optimizer (HESSO). HESSO could automatically and efficiently train a DNN to produce a high-performing subnetwork. Meanwhile, it is almost tuning-free and enjoys user-friendly integration for generic training applications. To address another common issue of irreversible performance collapse observed in pruning DNNs, we further propose a Corrective Redundant Identification Cycle (CRIC) for reliably identifying indispensable structures. We numerically demonstrate the efficacy of HESSO and its enhanced version HESSO-CRIC on a variety of applications ranging from computer vision to natural language processing, including large language model. The numerical results showcase that HESSO can achieve competitive even superior performance to varying state-of-the-arts and support most DNN architectures. Meanwhile, CRIC can effectively prevent the irreversible performance collapse and further enhance the performance of HESSO on certain applications. The code is available at https://github.com/microsoft/only_train_once. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-11 |
# Inf-MLLM: 単一GPU上でのマルチモーダル大言語モデルの効率的なストリーミング推定
Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU ( http://arxiv.org/abs/2409.09086v1 ) ライセンス: Link先を確認 | Zhenyu Ning, Jieru Zhao, Qihao Jin, Wenchao Ding, Minyi Guo, | (参考訳) MLLM(Multimodal Large Language Models)は、GPT-4o、自律運転、ロボット工学など、多くの現実世界のアプリケーションで広く利用されている。
印象的な性能にもかかわらず、マルチモーダル入力は常に長いコンテキストを伴います。
長いコンテキスト下での推論では、以前のトークンの巨大なキーとバリューステート(KVキャッシュ)をキャッシュする必要がある。
このため、MLLMのストリーミング推論をエッジデバイスに展開することは困難であり、実世界のアプリケーションではMLLMのパワーと使用をほとんど制限している。
本稿では,MLLMの効率的な推論フレームワークであるInf-MLLMを紹介する。
Inf-MLLMは、LLMとMLLMの両方の注意パターンを「注意サドル」と呼ぶ重要な観察結果に基づいている。
新たに発見された注目パターンのおかげで、Inf-MLLMは、最近のトークンと関連するトークンを動的にキャッシュすることで、サイズ制限されたKVキャッシュを維持している。
さらに、Inf-MLLMは長期依存を捕捉するための新しいアプローチであるアテンションバイアスを提案する。
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
さらに、Inf-MLLMは、StreamingLLMやH2Oよりも2倍のスピードアップといった既存の方法よりも優れたストリーミング推論品質を示している。
Multimodal Large Language Models (MLLMs) are distinguished by their multimodal comprehensive ability and widely used in many real-world applications including GPT-4o, autonomous driving and robotics. Despite their impressive performance, the multimodal inputs always incur long context. The inference under long context requires caching massive Key and Value states (KV cache) of previous tokens, which introduces high latency and excessive memory consumption. Due to this reason, it is challenging to deploy streaming inference of MLLMs on edge devices, which largely constrains the power and usage of MLLMs in real-world applications. In this paper, we introduce Inf-MLLM, an efficient inference framework for MLLMs, which enable streaming inference of MLLM on a single GPU with infinite context. Inf-MLLM is based on our key observation of the attention pattern in both LLMs and MLLMs called "attention saddles". Thanks to the newly discovered attention pattern, Inf-MLLM maintains a size-constrained KV cache by dynamically caching recent tokens and relevant tokens. Furthermore, Inf-MLLM proposes attention bias, a novel approach to enable MLLMs to capture long-term dependency. We show that Inf-MLLM enables multiple LLMs and MLLMs to achieve stable performance over 4M-token long texts and multi-round conversations with 1-hour-long videos on a single GPU. In addition, Inf-MLLM exhibits superior streaming reasoning quality than existing methods such as StreamingLLM and 2x speedup than H2O. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-11 |
# KKTインフォームニューラルネットワーク
KKT-Informed Neural Network ( http://arxiv.org/abs/2409.09087v1 ) ライセンス: Link先を確認 | Carmine Delle Femine, | (参考訳) ニューラルネットワークを用いたパラメトリック凸最適化問題の解法を提案し、入力パラメータのバッチが与えられた最適点を推定する。
このネットワークは、KKT(Karush-Kuhn-Tucker)条件の違反を罰し、その予測がこれらの最適基準に適合することを保証している。
さらに、パラメータ空間のバウンダリが知られているため、外部データを必要とせずにトレーニングバッチをランダムに生成することができる。
この方法では、速度の大幅な改善のために最適性を保証し、最適化問題のクラスを並列で解くことができる。
A neural network-based approach for solving parametric convex optimization problems is presented, where the network estimates the optimal points given a batch of input parameters. The network is trained by penalizing violations of the Karush-Kuhn-Tucker (KKT) conditions, ensuring that its predictions adhere to these optimality criteria. Additionally, since the bounds of the parameter space are known, training batches can be randomly generated without requiring external data. This method trades guaranteed optimality for significant improvements in speed, enabling parallel solving of a class of optimization problems. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-11 |
# Y-Drop: 完全な結合層のための導電性ベースのドロップアウト
Y-Drop: A Conductance based Dropout for fully connected layers ( http://arxiv.org/abs/2409.09088v1 ) ライセンス: Link先を確認 | Efthymios Georgiou, Georgios Paraskevopoulos, Alexandros Potamianos, | (参考訳) そこで本研究では,Y-Dropを導入し,より重要なニューロンを高い確率で減少させるために,ドロップアウトアルゴリズムをバイアスする正規化手法を提案する。
我々のアプローチのバックボーンはニューロンのコンダクタンスであり、ネットワークのエンドツーエンドマッピングに対する各ニューロンの寄与を計算する神経重要度を解釈可能な尺度である。
より重要なユニットに高いドロップアウト確率を割り当てることにより、均一なドロップアウト選択基準が性能に与える影響について検討する。
重要なユニットが存在しない場合、ネットワークにタスクの解決を強制することは、強い正規化効果をもたらすことを示す。
さらなる分析により、Y-Dropはより多くのニューロンが重要である解、すなわち高い伝導率を持ち、ロバストなネットワークをもたらすことが示されている。
実験の結果,Y-Dropの正則化効果は,アーキテクチャサイズがバニラドロップアウトよりも大きく,複数のデータセットとアーキテクチャの組み合わせよりも常に優れた性能を示し,チューニングがほとんどないことがわかった。
In this work, we introduce Y-Drop, a regularization method that biases the dropout algorithm towards dropping more important neurons with higher probability. The backbone of our approach is neuron conductance, an interpretable measure of neuron importance that calculates the contribution of each neuron towards the end-to-end mapping of the network. We investigate the impact of the uniform dropout selection criterion on performance by assigning higher dropout probability to the more important units. We show that forcing the network to solve the task at hand in the absence of its important units yields a strong regularization effect. Further analysis indicates that Y-Drop yields solutions where more neurons are important, i.e have high conductance, and yields robust networks. In our experiments we show that the regularization effect of Y-Drop scales better than vanilla dropout w.r.t. the architecture size and consistently yields superior performance over multiple datasets and architecture combinations, with little tuning. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-11 |
# GPT-4Vによる都市再生手書きコレクションの書き起こしの評価
An Evaluation of GPT-4V for Transcribing the Urban Renewal Hand-Written Collection ( http://arxiv.org/abs/2409.09090v1 ) ライセンス: Link先を確認 | Myeong Lee, Julia H. P. Hsu, | (参考訳) 1960年から1980年の間、都市再生は多くの都市を変革し、手書きの大規模な記録を作った。
これらの文書は、その量と手書きの性質から、研究者にとって大きな課題となった。
2023年11月のGPT-4Vの打ち上げは突破口となり、これらの歴史的都市再生文書の大規模かつ効率的な転写と分析を可能にした。
Between 1960 and 1980, urban renewal transformed many cities, creating vast handwritten records. These documents posed a significant challenge for researchers due to their volume and handwritten nature. The launch of GPT-4V in November 2023 offered a breakthrough, enabling large-scale, efficient transcription and analysis of these historical urban renewal documents. | 翻訳日:2024-09-17 22:18:51 公開日:2024-09-11 |
# 予測モデルを用いたTwitter上のロシアのインターネットトロルネットワークのマッピング
Mapping the Russian Internet Troll Network on Twitter using a Predictive Model ( http://arxiv.org/abs/2409.08305v1 ) ライセンス: Link先を確認 | Sachith Dassanayaka, Ori Swed, Dimitri Volchenkov, | (参考訳) ロシアのインターネットトロルは偽のペルソナを使って、複数のソーシャルメディアストリームを通じて偽情報を拡散している。
ソーシャルメディアプラットフォームにまたがるこの脅威の頻度が高まる中、これらの活動を理解することは、彼らの影響力と戦う上で最重要である。
ロシアの影響ネットワークの一部として特定されたTwitterコンテンツを使用して、ネットワーク操作をマップする予測モデルを作成しました。
そこで我々は,各サブサンプルの信頼度関数に基づいたアカウントタイプを,論理的カテゴリを導入し,ネットワーク全体の類似行動パターンを特定するための予測モデルを訓練することにより分類する。
我々のモデルは、テストセットの88%の精度で予測できる。
検証は、ロシアのトロルツイートデータセット300万と類似点を比較して行われる。
その結果、2つのデータセット間の90.7%の類似性を示している。
さらに、ロシアのつぶやきデータセットのモデル予測を比較し、その結果、予測と実際のカテゴリの間に90.5%の対応があることが示されている。
予測および検証結果は,我々の予測モデルが,そのようなネットワーク内のアクターのマッピングを支援することを示唆している。
Russian Internet Trolls use fake personas to spread disinformation through multiple social media streams. Given the increased frequency of this threat across social media platforms, understanding those operations is paramount in combating their influence. Using Twitter content identified as part of the Russian influence network, we created a predictive model to map the network operations. We classify accounts type based on their authenticity function for a sub-sample of accounts by introducing logical categories and training a predictive model to identify similar behavior patterns across the network. Our model attains 88% prediction accuracy for the test set. Validation is done by comparing the similarities with the 3 million Russian troll tweets dataset. The result indicates a 90.7% similarity between the two datasets. Furthermore, we compare our model predictions on a Russian tweets dataset, and the results state that there is 90.5% correspondence between the predictions and the actual categories. The prediction and validation results suggest that our predictive model can assist with mapping the actors in such networks. | 翻訳日:2024-09-16 18:46:54 公開日:2024-09-11 |
# 4ビットクラスタ状態を利用した無線マルチホップ量子テレポーテーション
Wireless Multihop Quantum Teleportation Utilizing a 4-Qubit Cluster State ( http://arxiv.org/abs/1708.00087v7 ) ライセンス: Link先を確認 | S. J. Emem-Obong, Yame Mwanzang Philemon, C. Iyen, M. S. Liman, B. J. Falaye, | (参考訳) 本稿では,無線メッシュバックボーンネットワークのためのマルチホップ伝送を用いた量子ルーティングプロトコルを提案する。
量子マルチホッププロトコルを分析した後、このプロトコルの量子チャネルとして4量子クラスタ状態を選択する。
中間ノード間の量子チャネルは、四ビットのクラスタ状態を利用して絡み換えによって確立される。
さらに、古典ルートと量子ルートの両方を分散的に作成する。
送信元ノードから宛先ノードへ、量子情報をホップバイホップで伝送できることを実証する。
有効量子テレポーテーションは、送信者がベル状態測定(BSM)を行うときに起こり、受信機は補助粒子を導入し、正の演算子値測定(POVM)を適用し、対応するユニタリ変換を用いて送信された状態を回復する。
量子状態移動の成功確率を解析し、$\tau_{2|1} = \frac{1}{\sqrt{2}}$ のときに最適な成功確率を得る。
我々の数値結果は$P_{\text{suc}}$のホップ数に対する感受性を示している。
これらの結果は,4ビットクラスタ状態の分散無線量子ネットワークを用いたマルチホップテレポーテーションが実現可能であることを示唆している。
This paper proposes a quantum routing protocol using multihop teleportation for wireless mesh backbone networks. After analyzing the quantum multihop protocol, a four-qubit cluster state is selected as the quantum channel for the protocol. The quantum channel between intermediate nodes is established through entanglement swapping, utilizing the four-qubit cluster state. Additionally, both classical and quantum routes are created in a distributed manner. We demonstrate that quantum information can be teleported hop-by-hop from the source node to the destination node. Successful quantum teleportation occurs when the sender performs Bell state measurements (BSM), while the receiver introduces auxiliary particles, applies a positive operator-valued measure (POVM), and uses a corresponding unitary transformation to recover the transmitted state. We analyze the success probability of quantum state transfer and find that the optimal success probability is achieved when $\tau_{2|1} = \frac{1}{\sqrt{2}}$. Our numerical results show the susceptibility of $P_{\text{suc}}$ to the number of hops $N$. These findings indicate that multihop teleportation using distributed wireless quantum networks with a four-qubit cluster state is feasible. | 翻訳日:2024-09-15 16:28:34 公開日:2024-09-11 |
# 非相対論的ディラック方程式:高電荷水素様イオンの光イオン化への応用
A non-relativistic Dirac equation: An application to photo ionization of highly charged hydrogen-like ions ( http://arxiv.org/abs/2001.00646v2 ) ライセンス: Link先を確認 | Tor Kjellsson Lindblom, Simen Bræck, Sølve Selstø, | (参考訳) レーザーパルスによる水素様イオンの光イオン化における相対性の役割について検討する。
水素の場合、レーザーの波長は弱い紫外領域に存在する。
高い核電荷に対して、レーザーパラメータは、核電荷に依存しない双極子近似において時間依存のシュルデンガー方程式を描画する方法でスケールされる。
これらの高電荷イオンのイオン化ポテンシャルは相対論的効果によって強く変化する。
初期の作品『Ivanova et al , Phys』に収録されている。
A {\displaystyle A} 98}, 063402 (2018) は、これが電離確率に対する相対論的補正のほとんどを説明することを実証している。
ここでは, 強い外界から生じる相対論的影響によって, どの程度の相違が生じるかを検討する。
この目的のために、Schr{\「o}dinger」方程式とディラック方程式の両方の半相対論的定式化を解き、前者は外部レーザー場による慣性増大を、後者は非相対論的相互作用項を特徴とする。
We investigate the role of relativity in photo ionization of hydrogen-like ions by a laser pulse. For hydrogen, the wavelengths of the laser resides in the weakly ultra violet region. For higher nuclear charges, the laser parameters are scaled in a manner which renders the time-dependent Schr{\"o}dinger equation in the dipole approximation independent of nuclear charge. The ionization potentials of these highly charged ions are strongly modified by relativistic effects. In an earlier work, Ivanova et al., Phys. Rev. A {\bf 98}, 063402 (2018), it is demonstrated how this explains most of the relativistic correction to the ionization probability. Here we investigate to what extent remaining discrepancies can be attributed to relativistic effects stemming from the strong external field. To this end, we solve semi-relativistic formulations of both the Schr{\"o}dinger and the Dirac equations; the former accounts for increased inertia due to the external laser field, while the latter features a non-relativistic interaction term. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-11 |
# 反対符号不調和をもつ超伝導量子ビットを用いた高コントラストZZ相互作用
High-contrast ZZ interaction using superconducting qubits with opposite-sign anharmonicity ( http://arxiv.org/abs/2002.07560v5 ) ライセンス: Link先を確認 | Peng Zhao, Peng Xu, Dong Lan, Ji Chu, Xinsheng Tan, Haifeng Yu, Yang Yu, | (参考訳) 超伝導量子ビットを用いたスケーラブルな量子プロセッサを構築する上で、ZZ相互作用は、その残余が2量子ゲートの忠実性に決定的な影響を与えるため、大きな関心事である。
耐故障性量子計算の基準を満たす2量子ゲートをZZ相互作用を用いて実証した。
しかし、量子プロセッサの性能が向上するにつれて、残留静的ZZは量子ゲート演算と量子誤り訂正の性能制限要因となる。
ここでは,逆符号アンハーモニック性を持つ量子ビット,トランスモン量子ビット,Cシャントフラックス量子ビットを用いた超伝導アーキテクチャを導入し,この問題に対処する。
理論的には、2種類の量子ビットを結合することにより、高コントラストZZ相互作用を実現することができる。
これにより、高いオン/オフ比の相互作用を制御し、2量子CZゲートを実装したり、XY相互作用(例えば、iSWAPゲート)を用いて2量子ゲート操作中にそれを抑制できる。
提案アーキテクチャは、マルチキュービットケースにも拡張可能である。
固定結合系では、隣接するオブザーバ量子ビットに関連するZZクロストークも大幅に抑制できる。
For building a scalable quantum processor with superconducting qubits, ZZ interaction is of great concern because its residual has a crucial impact to two-qubit gate fidelity. Two-qubit gates with fidelity meeting the criterion of fault-tolerant quantum computationhave been demonstrated using ZZ interaction. However, as the performance of quantum processors improves, the residual static-ZZ can become a performance-limiting factor for quantum gate operation and quantum error correction. Here, we introduce a superconducting architecture using qubits with opposite-sign anharmonicity, a transmon qubit and a C-shunt flux qubit, to address this issue. We theoretically demonstrate that by coupling the two types of qubits, the high-contrast ZZ interaction can be realized. Thus, we can control the interaction with a high on/off ratio to implement two-qubit CZ gates, or suppress it during two-qubit gate operation using XY interaction (e.g., an iSWAP gate). The proposed architecture can also be scaled up to multi-qubit cases. In a fixed coupled system, ZZ crosstalk related to neighboring spectator qubits could also be heavily suppressed. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-11 |
# 簡単な実用的な量子ビットコミットメントプロトコル
A simple practical quantum bit commitment protocol ( http://arxiv.org/abs/2009.13263v2 ) ライセンス: Link先を確認 | Muqian Wen, | (参考訳) 本稿では,既存の量子ビットコミットメントプロトコルと同様に実装が容易だが,よりセキュアな単純な量子ビットコミットメントプロトコルを考案する。
This paper would devise a simple quantum bit commitment protocol that is just as easy to implement as any existing practical quantum bit commitment protocols but will be more secure. | 翻訳日:2024-09-13 22:57:37 公開日:2024-09-11 |
# 非コヒーレントオーバーザエア分散グラディエント染料
Non-Coherent Over-the-Air Decentralized Gradient Descent ( http://arxiv.org/abs/2211.10777v4 ) ライセンス: Link先を確認 | Nicolo' Michelusi, | (参考訳) 無線システムにおけるDGDの実装は、ノイズ、フェーディング、帯域幅の制限、トポロジ認識、送信スケジューリング、干渉を緩和し信頼性の高い通信を維持するためにチャネル状態情報(CSI)の取得を必要とするため、困難である。
これらの操作は、中央調整が欠如している大規模ネットワークにおいて、オーバヘッドとスケーラビリティの重大なシグナリングをもたらす可能性がある。
本稿では、スケジューリング、トポロジ情報、CSI(平均と瞬時の両方)の必要性を解消するスケーラブルなDGDアルゴリズムを提案する。
中心となるのは、無線チャネルのノイズの多いエネルギー重畳特性を利用する非コヒーレントオーバー・ザ・エア(NCOTA)コンセンサススキームである。
ノードはローカル最適化信号をOFDMフレーム内のエネルギーレベルにエンコードし、調整することなく同時に送信する。
重要な洞察は、受信したエネルギーが平均的に、それぞれの平均チャネルゲインによってスケールされた送信信号のエネルギーの合計と、コンセンサスステップと等しいことである。
この特性は、平均チャネルゲインを混合重みとして利用し、明示的な設計やCSIの必要性を排除し、バイアスのないコンセンサス推定を可能にする。
コンセンサスのステップ化の導入は、期待値の周りのエネルギー変動によるコンセンサス推定誤差を緩和する。
強凸問題に対して、局所最適モデルと大域最適モデルの間の期待二乗距離は k 反復の後に O(1/sqrt{k}) の速度で消失し、学習とコンセンサスを適切に減少させる。
拡張は幅広い種類のフェージングモデルと周波数選択チャネルに対応している。
画像分類に関する数値実験は、特に高密度ネットワークシナリオにおいて、最先端のスキームと比較して、実行時間での収束が速いことを示す。
Implementing Decentralized Gradient Descent (DGD) in wireless systems is challenging due to noise, fading, and limited bandwidth, necessitating topology awareness, transmission scheduling, and the acquisition of channel state information (CSI) to mitigate interference and maintain reliable communications. These operations may result in substantial signaling overhead and scalability challenges in large networks lacking central coordination. This paper introduces a scalable DGD algorithm that eliminates the need for scheduling, topology information, or CSI (both average and instantaneous). At its core is a Non-Coherent Over-The-Air (NCOTA) consensus scheme that exploits a noisy energy superposition property of wireless channels. Nodes encode their local optimization signals into energy levels within an OFDM frame and transmit simultaneously, without coordination. The key insight is that the received energy equals, on average, the sum of the energies of the transmitted signals, scaled by their respective average channel gains, akin to a consensus step. This property enables unbiased consensus estimation, utilizing average channel gains as mixing weights, thereby removing the need for their explicit design or for CSI. Introducing a consensus stepsize mitigates consensus estimation errors due to energy fluctuations around their expected values. For strongly-convex problems, it is shown that the expected squared distance between the local and globally optimum models vanishes at a rate of O(1/sqrt{k}) after k iterations, with suitable decreasing learning and consensus stepsizes. Extensions accommodate a broad class of fading models and frequency-selective channels. Numerical experiments on image classification demonstrate faster convergence in terms of running time compared to state-of-the-art schemes, especially in dense network scenarios. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-11 |
# 下肢に対するヒト逆運動学法の比較研究
A comparative study of human inverse kinematics techniques for lower limbs ( http://arxiv.org/abs/2302.10769v3 ) ライセンス: Link先を確認 | Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar, | (参考訳) 逆キネマティクス (Inverse Kinematics, IK) は研究のダイナミックな分野であり、様々な手法が速度と精度を追求している。
進歩にもかかわらず、多くのIK技術は、高い計算要求や非現実的な関節構成を生成するリスクなど、重大な課題に直面している。
本稿では,ヒトの足に応用されるIK法を総合的に比較検討し,最も効果的なアプローチを同定することを目的とした。
計算効率と現実的な姿勢を創出する能力に基づいて各手法の評価を行った。
バイオメカニクスとアニメーションの実用化に向けたIKソリューションの最適化に関する知見を提供する。
Inverse Kinematics (IK) remains a dynamic field of research, with various methods striving for speed and precision. Despite advancements, many IK techniques face significant challenges, including high computational demands and the risk of generating unrealistic joint configurations. This paper conducts a comprehensive comparative analysis of leading IK methods applied to the human leg, aiming to identify the most effective approach. We evaluate each method based on computational efficiency and its ability to produce realistic postures, while adhering to the natural range of motion and comfort zones of the joints. The findings provide insights into optimizing IK solutions for practical applications in biomechanics and animation. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-11 |
# 機械学習ベンチマーク性能における多重性を考慮した会計
Accounting for multiplicity in machine learning benchmark performance ( http://arxiv.org/abs/2303.07272v5 ) ライセンス: Link先を確認 | Kajsa Møllersen, Einar Holsbø, | (参考訳) 機械学習の手法は一般に評価され、公開リポジトリのデータセットのパフォーマンスによって比較される。
これにより、複数のメソッド、しばしば数千のメソッドが、同じ条件下で、時間にわたって評価される。
問題における最上位の成績は「最先端(SOTA)パフォーマンス」と呼ばれ、新しい手法を公表するための基準点として用いられる。
SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。
マルチプリシティ(multiplicity)は、複数の比較と複数のテストの文脈でよく研究されているトピックであるが、著者たちが認識している限り、SOTAの推定に関する議論からほとんど欠落している。
新しい手法を評価するための基準として,楽観的な最先端推定法が用いられ,その結果が著しく劣る手法が容易に見過ごされてしまう。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
独立分類器を用いた模擬例による乗法の影響を実演する。
分類器依存性が分散にどのように影響するかを示すとともに、精度が高い場合には影響が制限されることを示す。
最後に,実世界の3つの実例について論じる。
Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss three real-world examples; Kaggle competitions that demonstrate various aspects. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-11 |
# ChatGPTは株価変動を予測できるか? 予測可能性と大規模言語モデル
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models ( http://arxiv.org/abs/2304.07619v5 ) ライセンス: Link先を確認 | Alejandro Lopez-Lira, Yuehua Tang, | (参考訳) 本稿では,ChatGPT のような大規模言語モデル (LLM) によるニュース見出しによる株価変動の予測能力について述べる。
チャットGPTのスコアは、従来の手法を仮定し、サンプル外1日当たりのリターンを著しく予測し、より小さな株の間で予測可能性が強くなり、ネガティブなニュースが続く。
これらの知見を説明するため,情報容量の制約,過小反応,制限対アビトラージュ,LLMを組み込んだ理論的モデルを構築した。
モデルはいくつかの重要な予測を生成し、それを経験的にテストします。
i)黒字予測に必要なAI能力において重要なしきい値を確立すること。
(II)高度なLCMだけが複雑な情報を効果的に解釈できることを示し、
三 LLM の普及により市場効率が向上するおそれがある。
我々の結果は、洗練されたリターン予測はAIシステムの新たな能力であり、これらの技術は金融市場の情報拡散や意思決定プロセスを変えることができることを示唆している。
最後に、LLMの推論を評価するための解釈可能性フレームワークを導入し、AIの透明性と経済的な意思決定に寄与する。
We document the capability of large language models (LLMs) like ChatGPT to predict stock price movements using news headlines, even without direct financial training. ChatGPT scores significantly predict out-of-sample daily stock returns, subsuming traditional methods, and predictability is stronger among smaller stocks and following negative news. To explain these findings, we develop a theoretical model incorporating information capacity constraints, underreaction, limits-to-arbitrage, and LLMs. The model generates several key predictions, which we empirically test: (i) it establishes a critical threshold in AI capabilities necessary for profitable predictions, (ii) it demonstrates that only advanced LLMs can effectively interpret complex information, and (iii) it predicts that widespread LLM adoption can enhance market efficiency. Our results suggest that sophisticated return forecasting is an emerging capability of AI systems and that these technologies can alter information diffusion and decision-making processes in financial markets. Finally, we introduce an interpretability framework to evaluate LLMs' reasoning, contributing to AI transparency and economic decision-making. | 翻訳日:2024-09-13 22:51:28 公開日:2024-09-11 |
# 有用な自律量子マシン
Useful autonomous quantum machines ( http://arxiv.org/abs/2307.08739v2 ) ライセンス: Link先を確認 | José Antonio Marín Guzmán, Paul Erker, Simone Gasparinetti, Marcus Huber, Nicole Yunger Halpern, | (参考訳) 制御された量子マシンは著しく成熟した。
自然な次のステップは、徐々に自律性を与え、時間に依存した外部制御から解放することだ。
例えば、自律性は量子回路を加熱しデコヒーアする古典的な制御ワイヤを解析し、量子冷凍機は計算に必要となるように、最近超伝導量子ビットを基底状態に近い状態にリセットした。
有用な自律量子マシンの実現には,どのような基本的な条件が必要か?
最近の量子力学と化学にインスパイアされた我々は、Divincenzoの量子コンピューティングの基準に類似した条件を仮定する。
さらに、複数の自律量子マシン(冷凍機、回路、クロックなど)と複数の候補プラットフォーム(中性原子、分子、超伝導量子ビットなど)で基準を説明する。
我々の基準は、有用な自律量子マシンの開発を阻止し、指導することを目的としています。
Controlled quantum machines have matured significantly. A natural next step is to increasingly grant them autonomy, freeing them from time-dependent external control. For example, autonomy could pare down the classical control wires that heat and decohere quantum circuits; and an autonomous quantum refrigerator recently reset superconducting qubits to near their ground states, as is necessary before a computation. Which fundamental conditions are necessary for realizing useful autonomous quantum machines? Inspired by recent quantum thermodynamics and chemistry, we posit conditions analogous to DiVincenzo's criteria for quantum computing. Furthermore, we illustrate the criteria with multiple autonomous quantum machines (refrigerators, circuits, clocks, etc.) and multiple candidate platforms (neutral atoms, molecules, superconducting qubits, etc.). Our criteria are intended to foment and guide the development of useful autonomous quantum machines. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-11 |
# 自律型超音波ガイド下局所麻酔における神経ブロックの局所化と針誘導
Nerve Block Target Localization and Needle Guidance for Autonomous Robotic Ultrasound Guided Regional Anesthesia ( http://arxiv.org/abs/2308.03717v2 ) ライセンス: Link先を確認 | Abhishek Tyagi, Abhay Tyagi, Manpreet Kaur, Richa Aggarwal, Kapil D. Soni, Jayanthi Sivaswamy, Anjan Trikha, | (参考訳) UltraSound(US)ガイド下局所麻酔を施行できる自律型ロボットシステムの開発のためのビジュアルサーボは、神経のリアルタイム分割、針先端の局在、針軌道外挿を必要とする。
まず、私たちは227人の患者を雇い、41,000人の麻酔科医の大規模なデータセットを構築しました。
最適なモデルの一般化性は、別のUSスキャナーから構築されたデータセットでテストされた。
これらの神経分節予測を用いて、神経輪郭にエリプスを嵌合させることにより、自動麻酔針ターゲットを定義する。
次に,針を対象に向かって誘導する画像解析ツールを開発した。
針のセグメンテーションのために、自然のRGB事前訓練ニューラルネットワークは、ドメイン転送のために米国内の大きなデータセットでまず微調整され、その後小さなデータセットを使用して針に適応した。
ラドン変換により分割針軌道角を算出し、針先端から軌道を外挿する。
外挿された軌道と針標的との交差は、薬剤の投与のために針のナビゲーションをガイドする。
経験的麻酔科医では針の軌道平均誤差が許容範囲5mm以内であった。
データセット全体は、https://github.com/Regional-US/で研究コミュニティによるさらなる研究のために公開された。
Visual servoing for the development of autonomous robotic systems capable of administering UltraSound (US) guided regional anesthesia requires real-time segmentation of nerves, needle tip localization and needle trajectory extrapolation. First, we recruited 227 patients to build a large dataset of 41,000 anesthesiologist annotated images from US videos of brachial plexus nerves and developed models to localize nerves in the US images. Generalizability of the best suited model was tested on the datasets constructed from separate US scanners. Using these nerve segmentation predictions, we define automated anesthesia needle targets by fitting an ellipse to the nerve contours. Next, we developed an image analysis tool to guide the needle toward their targets. For the segmentation of the needle, a natural RGB pre-trained neural network was first fine-tuned on a large US dataset for domain transfer and then adapted for the needle using a small dataset. The segmented needle trajectory angle is calculated using Radon transformation and the trajectory is extrapolated from the needle tip. The intersection of the extrapolated trajectory with the needle target guides the needle navigation for drug delivery. The needle trajectory average error was within acceptable range of 5 mm as per experienced anesthesiologists. The entire dataset has been released publicly for further study by the research community at https://github.com/Regional-US/ | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-11 |
# ディラックフェルミオンを持つ回転環におけるサニャック効果
Sagnac effect in a rotating ring with Dirac fermions ( http://arxiv.org/abs/2309.10497v2 ) ライセンス: Link先を確認 | A. Yu. Fesh, Yu. V. Shtanov, S. G. Sharapov, | (参考訳) 物質粒子に対するサニャック効果の観測は、同じ面積と角回転速度の光学干渉計と比較して感度を著しく向上させる。
このため、半導体やグラフェンに依存する固体干渉計を採用するという提案がなされている。
相対論的な準粒子分散法則によって支配されるディラック材料のサニャック効果について検討し,自由電子の質量によっても外周シフトが決定されることを示す。
これは、グラフェンが固体サニャック干渉計を作るための有望な材料であることを確認する。
単層グラフェンとその線形分散法則を考慮し、光と比較すると、サニャック効果の深い理解が得られる。
The observation of the Sagnac effect for massive material particles offers a significant enhancement in sensitivity when compared to optical interferometers with equal area and angular rotation velocity. For this reason, there have been suggestions to employ solid-state interferometers that rely on semiconductors and graphene. We investigate the Sagnac effect in Dirac materials governed by the relativisticlike quasiparticle dispersion law and show that the fringe shift is still determined by the mass of a free electron. This confirms that graphene is indeed a promising material for creating solid-state Sagnac interferometers. Considering monolayer graphene with its linear dispersion law and comparing it with light provides a deeper understanding of the Sagnac effect. | 翻訳日:2024-09-13 22:36:48 公開日:2024-09-11 |
# SparseCoder: スパースアテンションと学習トークンプルーニングによるソースコード解析の改善
SparseCoder: Advancing Source Code Analysis with Sparse Attention and Learned Token Pruning ( http://arxiv.org/abs/2310.07109v2 ) ライセンス: Link先を確認 | Xueqi Yang, Mariusz Jakubowski, Li Kang, Haojie Yu, Tim Menzies, | (参考訳) ソフトウェアプロジェクトが急速に進化するにつれて、ソフトウェアアーチファクトはより複雑になり、裏にある欠陥は識別しにくくなります。
Transformerベースの新たなアプローチは、優れたパフォーマンスを達成しているが、シーケンス長を4倍にスケールする自己アテンションメカニズムのために、長いコードシーケンスに苦労している。
本稿では、この制限に対処するために、スパースアテンションと学習トークンプルーニング(LTP)手法を取り入れた革新的なアプローチであるSparseCoderを紹介する。
従来の最先端モデルであるCodeBERT、RoBERTa、CodeT5と比較して、SparseCoderはハードウェアリソースとデータ統計の限界の中で、少なくとも2倍の長い入力シーケンスを処理できることを示した。
さらに、SparseCoderはランタイムで測定された他のメソッドの4倍の速度で、1秒あたりの浮動小数点演算(FLOP)の50%削減を実現している。
トークン長に対するモデル推論のFLOPは、SparseCoderが線形にスケールするのに対して、現在の最先端モデルであるCodeT5を含む他のメソッドは、二次的にスケールすることを示している。
さらに、SparseCoderは非自明なトークンを階層的に視覚化することで、解釈可能性を高める。
As software projects rapidly evolve, software artifacts become more complex and defects behind get harder to identify. The emerging Transformer-based approaches, though achieving remarkable performance, struggle with long code sequences due to their self-attention mechanism, which scales quadratically with the sequence length. This paper introduces SparseCoder, an innovative approach incorporating sparse attention and learned token pruning (LTP) method (adapted from natural language processing) to address this limitation. Compared to previous state-of-the-art models CodeBERT, RoBERTa, and CodeT5, our experiments demonstrate that SparseCoder can handle significantly longer input sequences--at least twice as long, within the limits of our hardware resources and data statistics. Additionally, SparseCoder is four times faster than other methods measured in runtime, achieving a 50% reduction in floating point operations per second (FLOPs) with a negligible performance drop of less than 1% compared to Transformers using sparse attention (Sparse Atten). Plotting FLOPs of model inference against token lengths reveals that SparseCoder scales linearly, whereas other methods, including the current state-of-the-art model CodeT5, scale quadratically. Moreover, SparseCoder enhances interpretability by visualizing non-trivial tokens layer-wise. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-11 |
# 非凸最適化における定常点探索の計算複雑性
The Computational Complexity of Finding Stationary Points in Non-Convex Optimization ( http://arxiv.org/abs/2310.09157v2 ) ライセンス: Link先を確認 | Alexandros Hollender, Manolis Zampetakis, | (参考訳) 非凸だが滑らかな目的関数 $f$ over unrestricted $d$-dimensional domain は古典的非凸最適化における最も基本的な問題の1つである。
それでも、この問題の計算とクエリの複雑さは、その問題の次元$d$が近似誤差とは無関係であるときにはまだよく理解されていない。
本稿では,以下の計算およびクエリの複雑性結果を示す。 1. 制限のない領域に近似した定常点を求める問題はPLS完全である。
2.$d = 2$ の場合、目的関数に対して最大$O(1/\varepsilon)$値クエリを必要とする $\varepsilon$-approximate 定常点を求めるゼロオーダーアルゴリズムを提供する。
3. 任意のアルゴリズムが対象関数に対する少なくとも$\Omega(1/\varepsilon)$クエリと/またはその勾配を求め、$d=2$のとき$\varepsilon$-approximateの定常点を見つける。
上記の問題と組み合わせると、この問題のクエリの複雑さは$\Theta(1/\varepsilon)$である。
4.$d = 2$の場合、最大$O(1/\sqrt{\varepsilon})$値クエリを必要とする制約付き最適化問題において、$\varepsilon$-KKTを求めるゼロオーダーアルゴリズムを提供する。
これは、Bubeck と Mikulincer [2020] と Vavasis [1993] の間のギャップを埋め、この問題のクエリ複雑性を$\Theta(1/\sqrt{\varepsilon})$と特徴づける。
5) Fearnley et al [2022] の最近の結果と組み合わせて, 制約付き最適化における近似KKT点の発見は, 制約なし最適化における近似定常点の発見には有効であるが, 逆は不可能であることを示す。
Finding approximate stationary points, i.e., points where the gradient is approximately zero, of non-convex but smooth objective functions $f$ over unrestricted $d$-dimensional domains is one of the most fundamental problems in classical non-convex optimization. Nevertheless, the computational and query complexity of this problem are still not well understood when the dimension $d$ of the problem is independent of the approximation error. In this paper, we show the following computational and query complexity results: 1. The problem of finding approximate stationary points over unrestricted domains is PLS-complete. 2. For $d = 2$, we provide a zero-order algorithm for finding $\varepsilon$-approximate stationary points that requires at most $O(1/\varepsilon)$ value queries to the objective function. 3. We show that any algorithm needs at least $\Omega(1/\varepsilon)$ queries to the objective function and/or its gradient to find $\varepsilon$-approximate stationary points when $d=2$. Combined with the above, this characterizes the query complexity of this problem to be $\Theta(1/\varepsilon)$. 4. For $d = 2$, we provide a zero-order algorithm for finding $\varepsilon$-KKT points in constrained optimization problems that requires at most $O(1/\sqrt{\varepsilon})$ value queries to the objective function. This closes the gap between the works of Bubeck and Mikulincer [2020] and Vavasis [1993] and characterizes the query complexity of this problem to be $\Theta(1/\sqrt{\varepsilon})$. 5. Combining our results with the recent result of Fearnley et al. [2022], we show that finding approximate KKT points in constrained optimization is reducible to finding approximate stationary points in unconstrained optimization but the converse is impossible. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-11 |
# Resilient Graph Neural Networks: Coupled Dynamical Systems Approach
Resilient Graph Neural Networks: A Coupled Dynamical Systems Approach ( http://arxiv.org/abs/2311.06942v3 ) ライセンス: Link先を確認 | Moshe Eliasof, Davide Murari, Ferdia Sherry, Carola-Bibiane Schönlieb, | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフベースのタスクに対処するための重要なコンポーネントとして、自らを確立している。
彼らの顕著な成功にもかかわらず、GNNは相変わらず敵の攻撃の形で摂動を入力できる。
本稿では, 連成力学系のレンズを用いて, 対向摂動に対するGNNの強化手法を提案する。
本手法は,GNNの強靭性を改善するために,縮退特性を持つ微分方程式に基づくグラフニューラル層を導入する。
提案手法の特筆すべき特徴は,ノード特徴と隣接行列の同時学習進化であり,入力特徴の摂動とグラフの接続性に対するモデルロバストネスの本質的な向上をもたらす。
我々は、数学的に新しいアーキテクチャの基盤を導き、その期待される振る舞いを推論するための理論的洞察を提供する。
提案手法の有効性を実世界のベンチマークを用いて実証し,既存手法と比較した場合の読み出しや性能改善について述べる。
Graph Neural Networks (GNNs) have established themselves as a key component in addressing diverse graph-based tasks. Despite their notable successes, GNNs remain susceptible to input perturbations in the form of adversarial attacks. This paper introduces an innovative approach to fortify GNNs against adversarial perturbations through the lens of coupled dynamical systems. Our method introduces graph neural layers based on differential equations with contractive properties, which, as we show, improve the robustness of GNNs. A distinctive feature of the proposed approach is the simultaneous learned evolution of both the node features and the adjacency matrix, yielding an intrinsic enhancement of model robustness to perturbations in the input features and the connectivity of the graph. We mathematically derive the underpinnings of our novel architecture and provide theoretical insights to reason about its expected behavior. We demonstrate the efficacy of our method through numerous real-world benchmarks, reading on par or improved performance compared to existing methods. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-11 |
# Q-Pilot:フライングアンシラによるフィールドプログラマブルクビットアレーコンパイル
Q-Pilot: Field Programmable Qubit Array Compilation with Flying Ancillas ( http://arxiv.org/abs/2311.16190v3 ) ライセンス: Link先を確認 | Hanrui Wang, Daniel Bochen Tan, Pengyu Liu, Yilian Liu, Jiaqi Gu, Jason Cong, Song Han, | (参考訳) ニュートラル原子配列は量子コンピューティングにとって有望なプラットフォームとなり、特に、原子移動のユニークな能力を持つフィールドプログラマブル量子ビットアレイ(FPQA)が注目されている。
この機能により、実行中のqubit接続の動的変更が可能になり、長距離ゲートの実行コストを削減し、並列性を改善することができる。
しかし、この柔軟性が追加され、サーキットコンパイルにおける新たな課題がもたらされる。
FPGAの配置とルーティング戦略に着想を得て,データキュービット間の2キュービットゲートのルーティングに可動原子を用いながら,すべてのデータキュービットを固定原子にマッピングすることを提案する。
空飛ぶアンシラと結合されたこれらの移動原子は、アンシラ量子ビットとして機能し、実行中に動的に生成され、リサイクルされる。
本稿では,フライングアンシラを用いたFPQA用スケーラブルコンパイラQ-Pilotについて述べる。
量子シミュレーションと量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)の2つの重要な量子アプリケーションに対して、ドメイン固有のルーティング戦略を考案する。
超伝導デバイスや固定原子配列などの代替技術と比較して、Q-PilotはFPQAの柔軟性を効果的に活用し、100量子ランダム、量子シミュレーション、QAOA回路の回路深さの1.4x、27.7x、6.3xの低減を実現している。
Neutral atom arrays have become a promising platform for quantum computing, especially the field programmable qubit array (FPQA) endowed with the unique capability of atom movement. This feature allows dynamic alterations in qubit connectivity during runtime, which can reduce the cost of executing long-range gates and improve parallelism. However, this added flexibility introduces new challenges in circuit compilation. Inspired by the placement and routing strategies for FPGAs, we propose to map all data qubits to fixed atoms while utilizing movable atoms to route for 2-qubit gates between data qubits. Coined flying ancillas, these mobile atoms function as ancilla qubits, dynamically generated and recycled during execution. We present Q-Pilot, a scalable compiler for FPQA employing flying ancillas to maximize circuit parallelism. For two important quantum applications, quantum simulation and the Quantum Approximate Optimization Algorithm (QAOA), we devise domain-specific routing strategies. In comparison to alternative technologies such as superconducting devices or fixed atom arrays, Q-Pilot effectively harnesses the flexibility of FPQA, achieving reductions of 1.4x, 27.7x, and 6.3x in circuit depth for 100-qubit random, quantum simulation, and QAOA circuits, respectively. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-11 |
# 量子複雑度対古典複雑度:サーベイ
Quantum Complexity vs Classical Complexity: A Survey ( http://arxiv.org/abs/2312.14075v5 ) ライセンス: Link先を確認 | Arash Vaezi, Ali Movaghar, Mohammad Ghodsi, Seyed Mohammad Hussein Kazemi, Negin Bagheri Noghrehy, Seyed Mohsen Kazemi, | (参考訳) 科学者は、量子コンピューティングが計算上の課題に対処するための新しいアプローチを提示したことを実証している。
量子コンピューティングの潜在能力を最大限活用するためには、問題解決戦略の適応が不可欠である。
それでも、量子コンピューティングの能力には境界が定義されている。
本稿では,量子コンピューティングによる複雑な古典的計算問題を解くことを目的とした先行研究の集約に焦点をあてる。
目的は、これらのソリューションの網羅的な在庫を体系的にコンパイルし、さらなる探索を待つ必要のあるオープンな問題の集合を分類することである。
統計的分析を通じて、研究のさらなる研究を支援する。
Scientists have demonstrated that quantum computing has presented novel approaches to address computational challenges, each varying in complexity. Adapting problem-solving strategies is crucial to harness the full potential of quantum computing. Nonetheless, there are defined boundaries to the capabilities of quantum computing. This paper concentrates on aggregating prior research efforts dedicated to solving intricate classical computational problems through quantum computing. The objective is to systematically compile an exhaustive inventory of these solutions and categorize a collection of demanding open problems that await further exploration. Through statistical analysis, we help the researchers with their further investigations. | 翻訳日:2024-09-13 22:22:54 公開日:2024-09-11 |
# SymmPI: グループ対称性を持つデータの予測推論
SymmPI: Predictive Inference for Data with Group Symmetries ( http://arxiv.org/abs/2312.16160v3 ) ライセンス: Link先を確認 | Edgar Dobriban, Mengxin Yu, | (参考訳) 予測の不確実性の定量化は、現代の統計学における中核的な問題である。
予測推論の手法は様々な仮定の下で開発され、例えば標準共形予測では、置換群のような特殊な変換群の下でのデータ分布の不変性に依存することが多い。
さらに,既存の予測手法の多くは,特徴出力観測の順序で観測されていない結果を予測することを目的としている。
一方、より一般的な観測モデル(例えば、部分的に観察された特徴)の下での予測推論や、より一般的な分布対称性を満たすデータ(例えば、物理学における回転不変あるいは座標独立な観測)への関心がある。
本稿では,データ分布が任意の観測モデルに一般群対称性を持つ場合の予測推論手法であるSymbPIを提案する。
本手法では, 分散不変変換の新たな概念を活用し, 分散不変性を保ちながらデータを処理している。
本研究では,SymbPIが分布不変条件下で有効なカバレッジを有し,分布シフト時の性能を特徴付けることを示し,最近の結果を特殊事例として回収する。
ネットワーク内の頂点に関連付けられた未観測値を予測するために,SymmPIを適用した。
2層階層モデルにおけるいくつかのシミュレーションや経験的データ分析の例では、SymbPIは既存の手法と比較して好意的に機能する。
Quantifying the uncertainty of predictions is a core problem in modern statistics. Methods for predictive inference have been developed under a variety of assumptions, often -- for instance, in standard conformal prediction -- relying on the invariance of the distribution of the data under special groups of transformations such as permutation groups. Moreover, many existing methods for predictive inference aim to predict unobserved outcomes in sequences of feature-outcome observations. Meanwhile, there is interest in predictive inference under more general observation models (e.g., for partially observed features) and for data satisfying more general distributional symmetries (e.g., rotationally invariant or coordinate-independent observations in physics). Here we propose SymmPI, a methodology for predictive inference when data distributions have general group symmetries in arbitrary observation models. Our methods leverage the novel notion of distributional equivariant transformations, which process the data while preserving their distributional invariances. We show that SymmPI has valid coverage under distributional invariance and characterize its performance under distribution shift, recovering recent results as special cases. We apply SymmPI to predict unobserved values associated to vertices in a network, where the distribution is unchanged under relabelings that keep the network structure unchanged. In several simulations in a two-layer hierarchical model, and in an empirical data analysis example, SymmPI performs favorably compared to existing methods. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-11 |
# 遅延拡散モデルを用いた教師付きグラフ外乱検出のためのデータ拡張
Data Augmentation for Supervised Graph Outlier Detection with Latent Diffusion Models ( http://arxiv.org/abs/2312.17679v2 ) ライセンス: Link先を確認 | Kay Liu, Hengrui Zhang, Ziqing Hu, Fangxin Wang, Philip S. Yu, | (参考訳) グラフ外乱検出は、グラフニューラルネットワークの領域における研究と応用の顕著な課題である。
グラフの多数から逸脱を示す外れ値ノードを識別する。
教師付きグラフの外れ値検出アルゴリズムに直面する根本的な課題の1つは、クラス不均衡の問題である。
従来の方法では、損失関数の推定におけるインスタンスの再重み付けによる不均衡を緩和し、より高い重み付けを外れ値に、低い重み付けを下降値に割り当てる。
それでも、これらの戦略は、それぞれ過度に適合する傾向にある。
近年, 生成モデル, 特に拡散モデルが高忠実度画像の合成に有効であることが証明されている。
異常な生成品質にもかかわらず、教師付きグラフ外乱検出のためのデータ拡張の可能性は、大半が未発見のままである。
このギャップを埋めるため,遅延拡散モデルを用いた教師付きグラフアウトリア検出において,クラス不均衡を緩和する新しいデータ拡張であるGODMを導入する。
提案手法は,(1) Variantioanl Encoderは,グラフデータ内に存在する異種情報を統一潜在空間にマッピングする。
2)グラフ生成器は,潜伏空間の実際の外れ値と統計的に類似したグラフデータを合成し,(3)潜伏拡散モデルにより反復分解により実際の有機データの潜伏空間分布を学習する。
複数のデータセットに対して行われた大規模な実験は、GODMの有効性と効率を裏付けるものである。
ケーススタディは、我々の合成データの生成品質をさらに実証した。
アクセシビリティと再現性を向上するため、GODMをプラグイン・アンド・プレイパッケージにカプセル化し、Python Package Index (PyPI)でリリースする。
Graph outlier detection is a prominent task of research and application in the realm of graph neural networks. It identifies the outlier nodes that exhibit deviation from the majority in the graph. One of the fundamental challenges confronting supervised graph outlier detection algorithms is the prevalent issue of class imbalance, where the scarcity of outlier instances compared to normal instances often results in suboptimal performance. Conventional methods mitigate the imbalance by reweighting instances in the estimation of the loss function, assigning higher weights to outliers and lower weights to inliers. Nonetheless, these strategies are prone to overfitting and underfitting, respectively. Recently, generative models, especially diffusion models, have demonstrated their efficacy in synthesizing high-fidelity images. Despite their extraordinary generation quality, their potential in data augmentation for supervised graph outlier detection remains largely underexplored. To bridge this gap, we introduce GODM, a novel data augmentation for mitigating class imbalance in supervised Graph Outlier detection with latent Diffusion Models. Specifically, our proposed method consists of three key components: (1) Variantioanl Encoder maps the heterogeneous information inherent within the graph data into a unified latent space. (2) Graph Generator synthesizes graph data that are statistically similar to real outliers from latent space, and (3) Latent Diffusion Model learns the latent space distribution of real organic data by iterative denoising. Extensive experiments conducted on multiple datasets substantiate the effectiveness and efficiency of GODM. The case study further demonstrated the generation quality of our synthetic data. To foster accessibility and reproducibility, we encapsulate GODM into a plug-and-play package and release it at the Python Package Index (PyPI). | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-11 |
# 粒子崩壊からの絡み合い自己蒸留
Entanglement autodistillation from particle decays ( http://arxiv.org/abs/2401.06854v2 ) ライセンス: Link先を確認 | J. A. Aguilar-Saavedra, J. A. Casas, | (参考訳) 粒子崩壊は、量子力学的意味では「測定」というスピンを構成するのではなく、スピン状態、特に絡み合った系に対して変化させる。
スピン絡み合った一対の粒子に対して, 1つの粒子が崩壊した後, 系の絡み合いが増大することを示した。
この特異な現象は安定粒子と等価ではなく、高エネルギー偏光$e^+ e^-$コライダーでトップペアの生成で観測可能である。
Particle decays do not constitute a spin ``measurement'' in the quantum-mechanical sense, but still modify the spin state, in particular for an entangled system. We show that for a spin-entangled pair of particles the entanglement of the system can increase after the decay of one particle. This unique phenomenon has no equivalent for stable particles and could be observable in top pair production at a high-energy polarized $e^+ e^-$ collider. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-11 |
# 推論・ロバストネス評価(TRASHFIRE)のためのトレーニング率と生存ヒューリスティック
A Training Rate and Survival Heuristic for Inference and Robustness Evaluation (TRASHFIRE) ( http://arxiv.org/abs/2401.13751v2 ) ライセンス: Link先を確認 | Charles Meyers, Mohammad Reza Saleh Sedghpour, Tommy Löfstedt, Erik Elmroth, | (参考訳) ディープラーニングモデル — 特にディープニューラルネットワーク — は、さまざまな領域にわたるベンチマークデータセットにおいて、極めてよく機能している。
しかし, 敵反例の発見の容易さは, 訓練時間を数時間ないし数日で測定し, 敵反例の発見に要する時間を数秒で測定する場合, 依然として持続的な問題である。
敵の反撃に対して多くの作業を行い、防御してきたが、攻撃と防衛の相対的なコストはめったに議論されていない。
さらに、機械学習の研究はほとんどすべてテスト/トレーニングのメトリクスでガイドされていますが、業界標準を満たすには何十億ものサンプルが必要です。
本研究は,特定のモデルハイパーパラメータが,相手の存在下でのモデルの性能にどのように影響するかを理解し,予測する問題に対処する。
提案手法では、サバイバルモデル、最悪の事例、コストアウェア分析を用いて、実際の展開や高価な形式的検証方法、あるいは非常に複雑なシステムの正確なシミュレーションに頼るのではなく、日常的なモデルトレーニング手順中に、特定のモデル変更を正確に正確に拒否する(\textit{e g }、車や飛行機のすべての部分をデジタル的に再現する)。
多くの前処理技術、対向反例、ニューラルネットワーク構成の評価を通じて、より深いモデルでは、より浅いモデルに比べて生存時間に差があるという結論が導かれる。
しかし、これらの利得は、本質的な頑健性特性よりもモデル推論時間によってより駆動されることが示される。
提案手法を用いて、最も単純なホワイトボックス攻撃に対して、ResNetは絶望的に安全でないことを示す。
Machine learning models -- deep neural networks in particular -- have performed remarkably well on benchmark datasets across a wide variety of domains. However, the ease of finding adversarial counter-examples remains a persistent problem when training times are measured in hours or days and the time needed to find a successful adversarial counter-example is measured in seconds. Much work has gone into generating and defending against these adversarial counter-examples, however the relative costs of attacks and defences are rarely discussed. Additionally, machine learning research is almost entirely guided by test/train metrics, but these would require billions of samples to meet industry standards. The present work addresses the problem of understanding and predicting how particular model hyper-parameters influence the performance of a model in the presence of an adversary. The proposed approach uses survival models, worst-case examples, and a cost-aware analysis to precisely and accurately reject a particular model change during routine model training procedures rather than relying on real-world deployment, expensive formal verification methods, or accurate simulations of very complicated systems (\textit{e.g.}, digitally recreating every part of a car or a plane). Through an evaluation of many pre-processing techniques, adversarial counter-examples, and neural network configurations, the conclusion is that deeper models do offer marginal gains in survival times compared to more shallow counterparts. However, we show that those gains are driven more by the model inference time than inherent robustness properties. Using the proposed methodology, we show that ResNet is hopelessly insecure against even the simplest of white box attacks. | 翻訳日:2024-09-13 22:12:50 公開日:2024-09-11 |
# YIG/Permalloy界面における反強磁性結合の起源の解明
Unraveling the origin of antiferromagnetic coupling at YIG/permalloy interface ( http://arxiv.org/abs/2402.14553v5 ) ライセンス: Link先を確認 | Jiangchao Qian, Yi Li, Zhihao Jiang, Robert Busch, Hsu-Chih Ni, Tzu-Hsiang Lo, Axel Hoffmann, André Schleife, Jian-Min Zuo, | (参考訳) イットリウム鉄ガーネット(YIG)とパーマロイ(Py)の原子準位における反強磁性(AFM)カップリングの構造と電子的起源について検討した。
強磁性共鳴(FMR)は、YIG/Py界面における反強磁性交換結合を示す表面イオンミリング法を用いて作製した試料に独自のハイブリッドモードを示す。
原子分解能走査透過電子顕微鏡 (STEM) を用いて, イオンミリングにより形成された四面体YIG表面のYIG/Py界面にAFMカップリングが存在することを確認した。
STEM測定は、界面AFMカップリングは酸素を介する超交換結合機構によって主に駆動され、密度汎関数理論(DFT)計算によりエネルギー的に有利であることが確認されたことを示唆している。
したがって,YIG/強磁性体ヘテロ構造における型磁気カップリング決定における界面原子構造の重要性を実験的および理論的に明らかにし,界面構造が表面イオンミリングによって実験的に調整可能であることを証明した。
We investigate the structural and electronic origin of antiferromagnetic (AFM) coupling in the Yttrium iron garnet (YIG) and permalloy (Py) bilayer system at the atomic level. Ferromagnetic Resonance (FMR) reveal unique hybrid modes in samples prepared with surface ion milling, indicative of antiferromagnetic exchange coupling at the YIG/Py interface. Using atomic resolution scanning transmission electron microscopy (STEM), we found that AFM coupling appears at the YIG/Py interface of the tetrahedral YIG surface formed with ion milling. The STEM measurements suggest that the interfacial AFM coupling is predominantly driven by an oxygen-mediated super-exchange coupling mechanism, which is confirmed by the density functional theory (DFT) calculations to be energetically favorable. Thus, the combined experimental and theoretical results reveal the critical role of interfacial atomic structure in determining the type magnetic coupling in a YIG/ferromagnet heterostructure, and prove that the interfacial structure can be experimentally tuned by surface ion-milling. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-11 |
# Deep Configuration Performance Learning: A Systematic Survey and Taxonomy
Deep Configuration Performance Learning: A Systematic Survey and Taxonomy ( http://arxiv.org/abs/2403.03322v3 ) ライセンス: Link先を確認 | Jingzhi Gong, Tao Chen, | (参考訳) パフォーマンスは、構成可能なソフトウェアシステムの品質を反映する最も重要な属性であることは間違いない。
しかし、現代のソフトウェアの規模と複雑さの増大を考えると、様々な構成がパフォーマンスにどのように影響するかをモデリングし、予測することは、ソフトウェアメンテナンスにおける大きな課題の1つになります。
このように、パフォーマンスはソフトウェアシステムに詳しい知識を持たずにモデル化されることが多いが、主にデータに依存しており、これはディープラーニングの目的に正確に適合する。
本稿では6つの索引付けサービスにまたがる1,206件の検索論文を網羅し,99件の一次論文を抽出,分析した。
本研究は、構成データの作成、深層学習のパフォーマンスモデルの構築、それらのモデルの評価、各種ソフトウェア構成関連タスクにおける活用に関する技術に関する重要な統計、分類学、強度、弱点、そして最適利用シナリオについて概説し、また、調査した研究から、優れた実践と潜在的に問題となる事象を、現場における行動可能な提案と今後の可能性に関する洞察の包括的概要とともに明らかにする。
オープンサイエンスを促進するために、この調査の生の成果はすべて、私たちのリポジトリでアクセスできます。
Performance is arguably the most crucial attribute that reflects the quality of a configurable software system. However, given the increasing scale and complexity of modern software, modeling and predicting how various configurations can impact performance becomes one of the major challenges in software maintenance. As such, performance is often modeled without having a thorough knowledge of the software system, but relying mainly on data, which fits precisely with the purpose of deep learning. In this paper, we conduct a comprehensive review exclusively on the topic of deep learning for performance learning of configurable software, covering 1,206 searched papers spanning six indexing services, based on which 99 primary papers were extracted and analyzed. Our results outline key statistics, taxonomy, strengths, weaknesses, and optimal usage scenarios for techniques related to the preparation of configuration data, the construction of deep learning performance models, the evaluation of these models, and their utilization in various software configuration-related tasks.We also identify the good practices and potentially problematic phenomena from the studies surveyed, together with a comprehensive summary of actionable suggestions and insights into future opportunities within the field. To promote open science, all the raw results of this survey can be accessed at our repository: https://github.com/ideas-labo/DCPL-SLR. | 翻訳日:2024-09-13 22:02:48 公開日:2024-09-11 |
# FFT-ReLUスパシティによるブラインド画像の劣化
Blind Image Deblurring with FFT-ReLU Sparsity Prior ( http://arxiv.org/abs/2406.08344v2 ) ライセンス: Link先を確認 | Abdul Mohaimen Al Radi, Prothito Shovon Majumder, Md. Mosaddek Khan, | (参考訳) ブラインドイメージデブロアリング(Blind image deblurring)は、ぼやけたカーネルに関する事前知識のないぼやけたイメージからシャープなイメージを復元するプロセスである。
なぜなら、大きなデータセットから学ぶのではなく、単一の画像や限られたデータから未知のムラの度合いを推定することにあるからだ。
解決策は、画像劣化プロセスを効果的にモデル化するアルゴリズムの開発に大きく依存する。
画像の種類を多岐にわたって効果的に劣化させるために, ボケカーネルを対象とする前処理を利用する手法を提案する。
我々の広範な経験分析において、我々のアルゴリズムは最先端のブラインド画像復調アルゴリズムと競合する結果を達成し、最大で2倍高速な推論を提供し、高効率な解となる。
Blind image deblurring is the process of recovering a sharp image from a blurred one without prior knowledge about the blur kernel. It is a small data problem, since the key challenge lies in estimating the unknown degrees of blur from a single image or limited data, instead of learning from large datasets. The solution depends heavily on developing algorithms that effectively model the image degradation process. We introduce a method that leverages a prior which targets the blur kernel to achieve effective deblurring across a wide range of image types. In our extensive empirical analysis, our algorithm achieves results that are competitive with the state-of-the-art blind image deblurring algorithms, and it offers up to two times faster inference, making it a highly efficient solution. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-11 |
# 最適輸送支援型リスク感性Q-Learning
Optimal Transport-Assisted Risk-Sensitive Q-Learning ( http://arxiv.org/abs/2406.11774v2 ) ライセンス: Link先を確認 | Zahra Shahrooei, Ali Baheri, | (参考訳) 強化学習の第一の目的は、リスクや安全性を考慮せずに最適なパフォーマンスを優先する意思決定ポリシーを開発することである。
対照的に、安全な強化学習は、安全でない状態を緩和または回避することを目的としている。
本稿では,エージェントの安全性を高めるために最適な輸送理論を利用するリスク感受性Q-ラーニングアルゴリズムを提案する。
提案手法は,Qラーニングフレームワークに最適なトランスポートを組み込むことにより,政策の定常分布とリスク分布とのワッサーシュタイン距離を最小化しつつ,政策の期待したリターンを最適化することを目的とする。
提案したアルゴリズムをGridworld環境で検証する。
その結果,本手法はリスク状態への訪問頻度を著しく低減し,従来のQ-ラーニングアルゴリズムと比較して,安定したポリシへの収束を早めることが示唆された。
The primary goal of reinforcement learning is to develop decision-making policies that prioritize optimal performance without considering risk or safety. In contrast, safe reinforcement learning aims to mitigate or avoid unsafe states. This paper presents a risk-sensitive Q-learning algorithm that leverages optimal transport theory to enhance the agent safety. By integrating optimal transport into the Q-learning framework, our approach seeks to optimize the policy's expected return while minimizing the Wasserstein distance between the policy's stationary distribution and a predefined risk distribution, which encapsulates safety preferences from domain experts. We validate the proposed algorithm in a Gridworld environment. The results indicate that our method significantly reduces the frequency of visits to risky states and achieves faster convergence to a stable policy compared to the traditional Q-learning algorithm. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-11 |
# MUMU:テキストから画像データへのマルチモーダル画像生成のブートストラップ
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data ( http://arxiv.org/abs/2406.18790v2 ) ライセンス: Link先を確認 | William Berman, Alexander Peysakhovich, | (参考訳) 我々は, インターリーブされたテキストのマルチモーダルなプロンプトから画像を生成するためにモデルを訓練し, 「人間と犬の写真」のような画像を生成する。
合成画像および公開画像データの画像キャプション中の単語に対応する意味論的意味のある画像作物を抽出し、マルチモーダルデータセットをブートストラップする。
我々のモデルMUMUは拡散復号器を備えた視覚言語モデルエンコーダで構成されており、単一の8xH100 GPUノードで訓練されている。
MUMUは、同じ画像からの作物についてのみ訓練されているにもかかわらず、異なる画像からの入力をコヒーレントな出力に合成することを学ぶ。
例えば、現実的な人物と漫画の入力は、同一人物を漫画スタイルで出力し、立像とスクーターの入力は、スクーターに乗る被験者を出力する。
その結果,本モデルはスタイル伝達や文字の一貫性といったタスクに一般化される。
この結果から,画像生成のための汎用コントローラとしてマルチモーダルモデルを用いることが期待できることを示す。
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation. | 翻訳日:2024-09-13 21:31:38 公開日:2024-09-11 |
# エッジ上のヴィジュアルトランスフォーマーにレイテンシ-ワークロード非Linearitiesを活用する
Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge ( http://arxiv.org/abs/2407.05941v3 ) ライセンス: Link先を確認 | Nick John Eliopoulos, Purvish Jajal, James Davis, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu, | (参考訳) 本稿では,小型ワークロードを対象としたエッジデバイスに視覚変換器を効率よくデプロイする方法について検討する。
最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。
しかし、これらの手法はエッジデバイスの配置を念頭に設計されておらず、レイテンシー-ワークロードのトレンドに関する情報を活用して効率を向上しない。
私たちはこの欠点を我々の仕事で解決する。
まず、ViTレイテンシー-ワークロードの関係に影響を与える要因を特定する。
次に,非線形遅延-ワークロード関係を利用してトークンのプルーニングスケジュールを決定する。
第3に、このスケジュールを利用したトレーニング不要なトークンプルーニング手法を実証する。
他の手法ではレイテンシを2~30%増加させますが、レイテンシを9~26%削減します。
デバイス間での同様のレイテンシ(5.2%または7ms)では、78.6%-84.5%のImageNet1K精度が達成され、最先端のToken Mergingは45.8%-85.4%である。
This paper investigates how to efficiently deploy vision transformers on edge devices for small workloads. Recent methods reduce the latency of transformer neural networks by removing or merging tokens, with small accuracy degradation. However, these methods are not designed with edge device deployment in mind: they do not leverage information about the latency-workload trends to improve efficiency. We address this shortcoming in our work. First, we identify factors that affect ViT latency-workload relationships. Second, we determine token pruning schedule by leveraging non-linear latency-workload relationships. Third, we demonstrate a training-free, token pruning method utilizing this schedule. We show other methods may increase latency by 2-30%, while we reduce latency by 9-26%. For similar latency (within 5.2% or 7ms) across devices we achieve 78.6%-84.5% ImageNet1K accuracy, while the state-of-the-art, Token Merging, achieves 45.8%-85.4%. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-11 |
# マヨラナ・クリフォード群の構造
The Structure of the Majorana Clifford Group ( http://arxiv.org/abs/2407.11319v2 ) ライセンス: Link先を確認 | Valérie Bettaque, Brian Swingle, | (参考訳) 量子情報科学において、クリフォード作用素と安定化符号は量子ビット(または量子ビット)系において中心的な役割を果たす。
本稿では,マヨラナフェルミオン系の類似物について検討する。
決定的な役割はフェルミオンパリティ対称性 (fermion parity symmetric) によって演じられる。
パリティ保存型フェルミオンクリフォードの部分群は二進体 $\mathbb{F}_2$ 上の直交群で表せることを証明し、演算子をブレイディングして生成し、任意の(偶数の)マヨラナ安定化符号を構成する方法を示す。
また、このいわゆる p-クリフォード群に対するフレームポテンシャルを解析し、これはヒルベルト空間の固定パリティセクターで作用する通常のクリフォード群のフレームポテンシャルと同値であることを示した。
In quantum information science, Clifford operators and stabilizer codes play a central role for systems of qubits (or qudits). In this paper, we study the analogous objects for systems of Majorana fermions. A crucial role is played by fermion parity symmetry, which is an unbreakable symmetry present in any system in which the fundamental degrees of freedom are fermionic. We prove that the subgroup of parity-preserving fermionic Cliffords can be represented by the orthogonal group over the binary field $\mathbb{F}_2$, and we show how it can be generated by braiding operators and used to construct any (even-parity) Majorana stabilizer code. We also analyze the frame potential for this so-called p-Clifford group, proving that it is equivalent to the frame potential of the ordinary Clifford group acting on a fixed-parity sector of the Hilbert space. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-11 |
# $\mathbb{X}$-Sample Contrastive Loss: サンプル類似グラフによるコントラスト学習の改善
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs ( http://arxiv.org/abs/2407.18134v2 ) ライセンス: Link先を確認 | Vlad Sobal, Mark Ibrahim, Randall Balestriero, Vivien Cabannes, Diane Bouchacourt, Pietro Astolfi, Kyunghyun Cho, Yann LeCun, | (参考訳) 優れた表現を学ぶには、データサンプルが関係するさまざまな方法を取得する必要がある。
コントラスト損失(Contrastive Los) - 自己管理からマルチモーダル学習への手法を、客観的にマッチングするサンプル。
しかし、対照的な損失は、サンプルが埋め込み空間にどのように関係するかを示す類似性グラフを変更するものとして、より広範に見ることができる。
この見解は対照的な学習の欠点を明らかにしている:類似性グラフは二項であり、1つのサンプルのみが関連する正のサンプルであるからである。
重要な点として、類似性 \textit{across} サンプルは無視される。
この観察に基づいて、サンプルが他とどのように関連しているかを明示的に符号化するために、標準のコントラスト損失を補正する。
我々はこの新たな目的である$\mathbb{X}$-Sample Contrastiveを試行し、クラスやテキストキャプションの記述の類似性に基づいて視覚モデルを訓練する。
ImageNet-1kは100万、CC3Mは300万、CC12Mは1200万である。
目的によって学習された表現は、さまざまなタスクで同じデータで訓練された対照的な自己監督モデルと視覚言語モデルの両方より優れています。
CC12Mでのトレーニングでは、ImageNetとImageNet Realの両方でCLIPを$0.6\%で上回ります。
CC3Mでトレーニングすると、ImageNetでCLIPが$16.8\%、ImageNet Realで$18.1\%だった。
最後に、私たちの目標は、モデルが属性や背景からオブジェクトを分離する表現を学ぶことを奨励しているように思える。
提案手法は,基礎モデルにおけるサンプル関係を理解するために,よりリッチな学習目標の開発に向けて,少しの一歩を踏み出したいと願っている。
Learning good representations involves capturing the diverse ways in which data samples relate. Contrastive loss - an objective matching related samples - underlies methods from self-supervised to multimodal learning. Contrastive losses, however, can be viewed more broadly as modifying a similarity graph to indicate how samples should relate in the embedding space. This view reveals a shortcoming in contrastive learning: the similarity graph is binary, as only one sample is the related positive sample. Crucially, similarities \textit{across} samples are ignored. Based on this observation, we revise the standard contrastive loss to explicitly encode how a sample relates to others. We experiment with this new objective, called $\mathbb{X}$-Sample Contrastive, to train vision models based on similarities in class or text caption descriptions. Our study spans three scales: ImageNet-1k with 1 million, CC3M with 3 million, and CC12M with 12 million samples. The representations learned via our objective outperform both contrastive self-supervised and vision-language models trained on the same data across a range of tasks. When training on CC12M, we outperform CLIP by $0.6\%$ on both ImageNet and ImageNet Real. Our objective appears to work particularly well in lower-data regimes, with gains over CLIP of $16.8\%$ on ImageNet and $18.1\%$ on ImageNet Real when training with CC3M. Finally, our objective seems to encourage the model to learn representations that separate objects from their attributes and backgrounds, with gains of $3.3$-$5.6$\% over CLIP on ImageNet9. We hope the proposed solution takes a small step towards developing richer learning objectives for understanding sample relations in foundation models. | 翻訳日:2024-09-13 21:20:46 公開日:2024-09-11 |
# SYKモデルにおけるクリロフ状態複雑性の空間依存性
Sparsity dependence of Krylov state complexity in the SYK model ( http://arxiv.org/abs/2407.20569v2 ) ライセンス: Link先を確認 | Raghav G. Jha, Ranadeep Roy, | (参考訳) 我々は、Sachdev-Ye-Kitaev (SYK) モデルの Krylov 状態複雑性を$N \le 28$ Majorana fermions with $q$-body fermion interaction with $q=4,6,8$ for a range of sparse parameter $k$。
クリャロフ複雑性のピークをプローブとして、様々な$q$に対して$k$が異なる振る舞いの変化を見出す。
これは、すべての$k \ge k_{\text{min}}$に対して、モデルがホログラフィであるようなスパースSYK型モデルにおけるホログラフィーから非ホログラフィー的挙動の変化を捉えるものである。
We study the Krylov state complexity of the Sachdev-Ye-Kitaev (SYK) model for $N \le 28$ Majorana fermions with $q$-body fermion interaction with $q=4,6,8$ for a range of sparse parameter $k$. Using the peak of the Krylov complexity as a probe, we find change in behavior as we vary $k$ for various $q$. We argue that this captures the change from holographic to non-holographic behavior in the sparse SYK-type models such that model is holographic for all $k \ge k_{\text{min}}$. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-11 |
# 協力を促進する進化的メカニズムは社会福祉を促進できない
Evolutionary mechanisms that promote cooperation may not promote social welfare ( http://arxiv.org/abs/2408.05373v2 ) ライセンス: Link先を確認 | The Anh Han, Manh Hong Duong, Matjaz Perc, | (参考訳) 利己的な個人間の社会的行動の出現を理解することは、多くの科学分野において重要な問題である。
このような行動の進化を説明するための様々なメカニズムが提案されている。
これらのメカニズムは通常、個人の報酬を変更するコストを含むため、高いレベルの協力を目指すことは社会福祉にとって有害である可能性がある。
ここでは、社会的行動、すなわちピアインセンティブと制度インセンティブの2つの確立されたメカニズムの確率論的進化モデルから得られた社会福祉と協力のレベルを、相対的に分析することにより、正確にそれを実証する。
協力度を最大化する目的や社会福祉を最大化する目的は、しばしば不一致であることを示す。
社会・集団商品の進化的メカニズムを設計・実装する際に,社会福祉を主目的とする必要性を論じる。
Understanding the emergence of prosocial behaviours among self-interested individuals is an important problem in many scientific disciplines. Various mechanisms have been proposed to explain the evolution of such behaviours, primarily seeking the conditions under which a given mechanism can induce highest levels of cooperation. As these mechanisms usually involve costs that alter individual payoffs, it is however possible that aiming for highest levels of cooperation might be detrimental for social welfare -- the later broadly defined as the total population payoff, taking into account all costs involved for inducing increased prosocial behaviours. Herein, by comparatively analysing the social welfare and cooperation levels obtained from stochastic evolutionary models of two well-established mechanisms of prosocial behaviour, namely, peer and institutional incentives, we demonstrate exactly that. We show that the objectives of maximising cooperation levels and the objectives of maximising social welfare are often misaligned. We argue for the need of adopting social welfare as the main optimisation objective when designing and implementing evolutionary mechanisms for social and collective goods. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-11 |
# 回帰における深部限界モデルフリー予測
Deep Limit Model-free Prediction in Regression ( http://arxiv.org/abs/2408.09532v3 ) ライセンス: Link先を確認 | Kejin Wu, Dimitris N. Politis, | (参考訳) 本稿では,Deep Neural Network(DNN)に基づくモデルフリー手法を提案する。
通常、人々は依存変数と独立変数(YとX)を橋渡しするためにパラメトリックまたは非パラメトリックモデルに依存します。
しかし、この古典的な手法は正しいモデル仕様に大きく依存している。
非パラメトリックなアプローチであっても、いくつかの加法形式がしばしば仮定される。
新たに提案されたモデルフリー予測原則は、モデル仮定なしで予測手順に光を当てる。
この原則に関する以前の研究は、他の標準的な選択肢よりも優れたパフォーマンスを示している。
近年,機械学習手法の1つであるDNNは,実際の性能が優れており,注目を集めている。
対象のDNNは、X上のY条件のランダム性を訓練されたDNNを介してZにアウトソースするように、特別に設計された損失関数を最小化することによって訓練される。
提案手法は,特に最適点予測において,他のDNN法に比べて安定かつ正確である。
特定の予測手順により、予測間隔は予測変数をキャプチャし、有限サンプルの場合のカバレッジ率を改善することができる。
本手法の優れた性能をシミュレーションおよび実証実験により検証した。
In this paper, we provide a novel Model-free approach based on Deep Neural Network (DNN) to accomplish point prediction and prediction interval under a general regression setting. Usually, people rely on parametric or non-parametric models to bridge dependent and independent variables (Y and X). However, this classical method relies heavily on the correct model specification. Even for the non-parametric approach, some additive form is often assumed. A newly proposed Model-free prediction principle sheds light on a prediction procedure without any model assumption. Previous work regarding this principle has shown better performance than other standard alternatives. Recently, DNN, one of the machine learning methods, has received increasing attention due to its great performance in practice. Guided by the Model-free prediction idea, we attempt to apply a fully connected forward DNN to map X and some appropriate reference random variable Z to Y. The targeted DNN is trained by minimizing a specially designed loss function so that the randomness of Y conditional on X is outsourced to Z through the trained DNN. Our method is more stable and accurate compared to other DNN-based counterparts, especially for optimal point predictions. With a specific prediction procedure, our prediction interval can capture the estimation variability so that it can render a better coverage rate for finite sample cases. The superior performance of our method is verified by simulation and empirical studies. | 翻訳日:2024-09-13 21:10:23 公開日:2024-09-11 |
# Power Scheduler: Batch SizeとToken Number Agnostic Learning Rate Scheduler
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler ( http://arxiv.org/abs/2408.13359v2 ) ライセンス: Link先を確認 | Yikang Shen, Matthew Stallone, Mayank Mishra, Gaoyuan Zhang, Shawn Tan, Aditya Prasad, Adriana Meza Soria, David D. Cox, Rameswar Panda, | (参考訳) 言語モデルの事前学習に最適な学習率を見つけることは難しい課題である。
これは、学習率、バッチサイズ、トレーニングトークン数、モデルサイズとその他のハイパーパラメータとの間に複雑な相関関係があるだけでなく、数十億または3兆のパラメータを持つ大規模言語モデルのハイパーパラメータ検索を行うことが違法に高価であるためでもある。
近年の研究では、小さなプロキシモデルと小さなコーパスを用いて、ハイパーパラメーター探索を行い、最適なパラメータを大きなモデルや大きなコーパスに変換する手法が提案されている。
ゼロショット転送性は、深さや幅などのモデルサイズに関連するハイパーパラメーターに対して理論的および実験的に証明されているが、小さなコーパスから大きなコーパスへのゼロショット転送は過小評価されている。
本稿では,最近提案されたWSDスケジューラにおける最適学習率,バッチサイズ,トレーニングトークン数の相関について検討する。
何千もの小さな実験の後、変数間の電力-法則関係を発見し、モデルサイズ間での転送可能性を示した。
そこで本研究では,学習率スケジューラであるパワースケジューラを提案する。
実験によると、Powerスケジューラと最大更新パラメータ(muP)を組み合わせることで、トレーニングトークンの数、バッチサイズ、モデルサイズ、さらにはモデルアーキテクチャにも拘わらず、1セットのハイパーパラメータで、常に優れたパフォーマンスを達成することができる。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
トレーニング済みのモデルをhttps://ibm.biz/BdKhLa.comで公開しています。
Finding the optimal learning rate for language model pretraining is a challenging task. This is not only because there is a complicated correlation between learning rate, batch size, number of training tokens, model size, and other hyperparameters but also because it is prohibitively expensive to perform a hyperparameter search for large language models with Billions or Trillions of parameters. Recent studies propose using small proxy models and small corpus to perform hyperparameter searches and transposing the optimal parameters to large models and large corpus. While the zero-shot transferability is theoretically and empirically proven for model size related hyperparameters, like depth and width, the zero-shot transfer from small corpus to large corpus is underexplored. In this paper, we study the correlation between optimal learning rate, batch size, and number of training tokens for the recently proposed WSD scheduler. After thousands of small experiments, we found a power-law relationship between variables and demonstrated its transferability across model sizes. Based on the observation, we propose a new learning rate scheduler, Power scheduler, that is agnostic about the number of training tokens and batch size. The experiment shows that combining the Power scheduler with Maximum Update Parameterization (muP) can consistently achieve impressive performance with one set of hyperparameters regardless of the number of training tokens, batch size, model size, and even model architecture. Our 3B dense and MoE models trained with the Power scheduler achieve comparable performance as state-of-the-art small language models. We open-source these pretrained models at https://ibm.biz/BdKhLa. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-11 |
# 量子機械による創薬支援 : 調査と展望
Quantum-machine-assisted Drug Discovery: Survey and Perspective ( http://arxiv.org/abs/2408.13479v3 ) ライセンス: Link先を確認 | Yidong Zhou, Jintai Chen, Jinglei Cheng, Gopal Karemore, Marinka Zitnik, Frederic T. Chong, Junyu Liu, Tianfan Fu, Zhiding Liang, | (参考訳) 医薬品の発見と開発は複雑でコストのかかる取り組みであり、新しい薬を市場に出すには10年以上の資金と相当な資金を必要としている。
従来のコンピュータ支援ドラッグデザイン(CADD)は、このプロセスの加速に大きな進歩を遂げてきたが、量子コンピューティングの開発は、そのユニークな能力のために潜在的に有益である。
本稿では、量子コンピューティングの創薬・開発への統合について論じ、量子技術が医薬品開発サイクルの様々な段階をいかに加速し、促進するかに焦点を当てる。
具体的には,分子シミュレーションや薬物-標的相互作用の予測,臨床試験結果の最適化など,薬物発見に関わる課題への量子コンピューティングの適用について検討する。
量子コンピューティングの本質的な能力を活用することで、新しい薬を市場に投入する際の時間とコストを削減できるかもしれません。
Drug discovery and development is a highly complex and costly endeavor, typically requiring over a decade and substantial financial investment to bring a new drug to market. Traditional computer-aided drug design (CADD) has made significant progress in accelerating this process, but the development of quantum computing offers potential due to its unique capabilities. This paper discusses the integration of quantum computing into drug discovery and development, focusing on how quantum technologies might accelerate and enhance various stages of the drug development cycle. Specifically, we explore the application of quantum computing in addressing challenges related to drug discovery, such as molecular simulation and the prediction of drug-target interactions, as well as the optimization of clinical trial outcomes. By leveraging the inherent capabilities of quantum computing, we might be able to reduce the time and cost associated with bringing new drugs to market, ultimately benefiting public health. | 翻訳日:2024-09-13 20:59:43 公開日:2024-09-11 |
# セマンティックAIを用いたスマートEコマース勧告
Smart E-commerce Recommendations with Semantic AI ( http://arxiv.org/abs/2409.01137v3 ) ライセンス: Link先を確認 | M. Badouch, M. Boutaounte, | (参考訳) 電子商取引では、ページレコメンデーションのためのウェブマイニングが広く使われているが、しばしばユーザーのニーズを満たすことができない。
そこで本研究では,BPニューラルネットワークとセマンティックWebマイニングを組み合わせた新しいソリューションを提案する。
ユーザの検索ログを処理して,コンテンツ優先,時間浪費,ユーザフィードバック,レコメンデーションセマンティクス,入力偏差の5つの重要な特徴を抽出する。
これらの機能はBPニューラルネットワークに入力され、Webページの分類と優先順位付けが行われる。
優先順位付けされたページはユーザーに推奨される。
本研究の結果は,本書の販売ページを用いて,ユーザが必要とするページを迅速かつ正確に識別できることを実証した。
当社のアプローチは、レコメンデーションがより関連性が高く、個人の好みに合わせて調整され、オンラインショッピング体験が向上することを保証する。
高度なセマンティック分析とニューラルネットワーク技術を利用することで、ユーザの期待と実際のレコメンデーションのギャップを埋める。
このイノベーティブな手法は、精度の向上だけでなく、レコメンデーションプロセスのスピードアップも実現し、ユーザの満足度とエンゲージメントを高めることを目的とした、Eコマースプラットフォームにとって貴重なツールとなる。
さらに、大規模なデータセットを処理し、リアルタイムレコメンデーションを提供するシステムでは、現代的なeコマースの課題に対して、スケーラブルで効率的なソリューションになります。
In e-commerce, web mining for page recommendations is widely used but often fails to meet user needs. To address this, we propose a novel solution combining semantic web mining with BP neural networks. We process user search logs to extract five key features: content priority, time spent, user feedback, recommendation semantics, and input deviation. These features are then fed into a BP neural network to classify and prioritize web pages. The prioritized pages are recommended to users. Using book sales pages for testing, our results demonstrate that this solution can quickly and accurately identify the pages users need. Our approach ensures that recommendations are more relevant and tailored to individual preferences, enhancing the online shopping experience. By leveraging advanced semantic analysis and neural network techniques, we bridge the gap between user expectations and actual recommendations. This innovative method not only improves accuracy but also speeds up the recommendation process, making it a valuable tool for e-commerce platforms aiming to boost user satisfaction and engagement. Additionally, our system ability to handle large datasets and provide real-time recommendations makes it a scalable and efficient solution for modern e-commerce challenges. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-11 |
# 動きからの大規模構造に対する幾何学的特徴マッチング
Geometry-aware Feature Matching for Large-Scale Structure from Motion ( http://arxiv.org/abs/2409.02310v2 ) ライセンス: Link先を確認 | Gonglin Chen, Jinsen Wu, Haiwei Chen, Wenbin Teng, Zhiyuan Gao, Andrew Feng, Rongjun Qin, Yajie Zhao, | (参考訳) 複数の画像に一貫した密接な対応を確立することは、Structure from Motion (SfM)システムにとって重要である。
非常にスパースなビューオーバーラップを持つ空対地のような重要なビュー変更は、対応解決者にとってさらに大きな課題を生じさせる。
カラーキューに加えて幾何学的キューを導入することにより,既存の特徴マッチング手法を大幅に強化する,新しい最適化手法を提案する。
これにより、大規模なシナリオの重複が少なくなると、ギャップを埋めることができます。
本手法は, 幾何検定を最適化問題として定式化し, 検出器フリー法における特徴マッチングを導出し, 検出器ベース法からのスパース対応をアンカーポイントとして用いる。
Sampson Distance を用いて幾何学的制約を強制することにより、検出器なし法からのより密度の高い対応が幾何的に一貫し、より正確であることを保証する。
このハイブリッド戦略は、対応密度と精度を大幅に改善し、マルチビューの不整合を緩和し、カメラの精度と点雲密度を顕著に向上させる。
ベンチマークデータセットにおける最先端の機能マッチングメソッドよりも優れており、極端な大規模設定で機能マッチングを可能にする。
Establishing consistent and dense correspondences across multiple images is crucial for Structure from Motion (SfM) systems. Significant view changes, such as air-to-ground with very sparse view overlap, pose an even greater challenge to the correspondence solvers. We present a novel optimization-based approach that significantly enhances existing feature matching methods by introducing geometry cues in addition to color cues. This helps fill gaps when there is less overlap in large-scale scenarios. Our method formulates geometric verification as an optimization problem, guiding feature matching within detector-free methods and using sparse correspondences from detector-based methods as anchor points. By enforcing geometric constraints via the Sampson Distance, our approach ensures that the denser correspondences from detector-free methods are geometrically consistent and more accurate. This hybrid strategy significantly improves correspondence density and accuracy, mitigates multi-view inconsistencies, and leads to notable advancements in camera pose accuracy and point cloud density. It outperforms state-of-the-art feature matching methods on benchmark datasets and enables feature matching in challenging extreme large-scale settings. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-11 |
# 対話による連続的スキルとタスク学習
Continual Skill and Task Learning via Dialogue ( http://arxiv.org/abs/2409.03166v2 ) ライセンス: Link先を確認 | Weiwei Gu, Suresh Kondepudi, Lixiao Huang, Nakul Gopalan, | (参考訳) ロボットが新しいスキルを習得し、サンプル効率で新しいタスクを恒久的に解くことを期待する人間にロボットが存在しているため、連続的かつ対話的なロボット学習は難しい問題である。
本研究では,人間との対話を通じて,ロボットがロボットのスキルとタスク関連情報をクエリし,学習するためのフレームワークを提案する。
従来のアプローチでは、エージェントに従う命令のパフォーマンスを改善することに注力するか、新しいスキルやコンセプトを受動的に学習する。
代わりに、ダイアログと言語スキルの接地埋め込みを組み合わせて、ユーザが要求するスキルやタスクをクエリしたり、確認したりしました。
この目的を達成するために,エージェントのための3つの異なるコンポーネントを開発し,統合した。
まず,既存の SoTA ACT モデルで数発の連続学習が可能となる,低ランク適応型視覚運動制御 ACT (ACT-LoRA) を提案する。
第2に,ユーザからの質問やデモをいつ行うかを知るために,スキルの具体化を越えて,共有埋め込みにデモを投影するアライメントモデルを開発する。
最後に,既存のLLMを統合し,人間のユーザと対話し,タスクを解くための対話型連続的スキル学習を行う。
我々のACT-LoRAモデルは、RLBenchデータセットにおいて、トレーニング済みスキルの74.75%の精度を維持しながら、新しいスキルの5つのデモでトレーニングされた場合に、100%の精度で新しい微調整スキルを学習する。
また,本フレームワークの連続学習能力を実証するため,被験者8名を対象に人体実験を行った。
本研究では,本手法を用いて非熟練ユーザとの対話から,ロボットが新しいスキルやタスク知識を学習できることを実証した参加者データから,実際のロボットによるサンドイッチ作成作業において,75%の成功率を達成する。
Continual and interactive robot learning is a challenging problem as the robot is present with human users who expect the robot to learn novel skills to solve novel tasks perpetually with sample efficiency. In this work we present a framework for robots to query and learn visuo-motor robot skills and task relevant information via natural language dialog interactions with human users. Previous approaches either focus on improving the performance of instruction following agents, or passively learn novel skills or concepts. Instead, we used dialog combined with a language-skill grounding embedding to query or confirm skills and/or tasks requested by a user. To achieve this goal, we developed and integrated three different components for our agent. Firstly, we propose a novel visual-motor control policy ACT with Low Rank Adaptation (ACT-LoRA), which enables the existing SoTA ACT model to perform few-shot continual learning. Secondly, we develop an alignment model that projects demonstrations across skill embodiments into a shared embedding allowing us to know when to ask questions and/or demonstrations from users. Finally, we integrated an existing LLM to interact with a human user to perform grounded interactive continual skill learning to solve a task. Our ACT-LoRA model learns novel fine-tuned skills with a 100% accuracy when trained with only five demonstrations for a novel skill while still maintaining a 74.75% accuracy on pre-trained skills in the RLBench dataset where other models fall significantly short. We also performed a human-subjects study with 8 subjects to demonstrate the continual learning capabilities of our combined framework. We achieve a success rate of 75% in the task of sandwich making with the real robot learning from participant data demonstrating that robots can learn novel skills or task knowledge from dialogue with non-expert users using our approach. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-11 |
# 変分量子アルゴリズムを音化するためのフレームワークの開発:音楽合成における意味
Developing a Framework for Sonifying Variational Quantum Algorithms: Implications for Music Composition ( http://arxiv.org/abs/2409.07104v1 ) ライセンス: Link先を確認 | Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa, Karl Jansen, Tim Schwägerl, María Aguado Yáñez, | (参考訳) 本章では、変分量子アルゴリズム(VQA)の最小化ステップの音化問題に着目し、量子システムの特性のシミュレーションと量子ハードウェアによる最適化問題に焦点を当てたソフトウェアツールおよび音楽インターフェースである変分量子調和器について検討する。
特に、VQAを用いた擬似非拘束バイナリ最適化(QUBO)問題のソナライズについて詳述する。
フレキシブルなデザインは、科学的研究における聴覚ディスプレイの音化ツールや、芸術的努力のためのハイブリッド量子デジタル楽器としての将来的な応用を可能にする。
ソニフィケーションは、研究者たちが複雑なシステムをよりよく理解し、量子物理学と量子コンピューティングのトレーニングに役立てることができる。
ソフトウェア実装、制御機構、音素化マッピングを含むVQH構造について詳述する。
さらに、VQHにおける楽曲合成対象としてのQUBOコスト関数の設計を導く。
この議論は、量子コンピュータ支援合成とライブコーディング性能に量子支援シミュレーションを適用することの意味にまで拡張されている。
芸術作品として『textit{Hexagonal Chambers}』(Thomas and Itabora\'i, 2023年)がある。
This chapter examines the Variational Quantum Harmonizer, a software tool and musical interface that focuses on the problem of sonification of the minimization steps of Variational Quantum Algorithms (VQA), used for simulating properties of quantum systems and optimization problems assisted by quantum hardware. Particularly, it details the sonification of Quadratic Unconstrained Binary Optimization (QUBO) problems using VQA. A flexible design enables its future applications both as a sonification tool for auditory displays in scientific investigation, and as a hybrid quantum-digital musical instrument for artistic endeavours. In turn, sonification can help researchers understand complex systems better and can serve for the training of quantum physics and quantum computing. The VQH structure, including its software implementation, control mechanisms, and sonification mappings are detailed. Moreover, it guides the design of QUBO cost functions in VQH as a music compositional object. The discussion is extended to the implications of applying quantum-assisted simulation in quantum-computer aided composition and live-coding performances. An artistic output is showcased by the piece \textit{Hexagonal Chambers} (Thomas and Itabora\'i, 2023). | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-11 |
# AdaPPA: LLMをターゲットとした適応的位置対応型プリフィル・ジェイルブレイク攻撃手法
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs ( http://arxiv.org/abs/2409.07503v1 ) ライセンス: Link先を確認 | Lijia Lv, Weigang Zhang, Xuehai Tang, Jie Wen, Feng Liu, Jizhong Han, Songlin Hu, | (参考訳) LLM(Large Language Models)のジェイルブレイク脆弱性は、研究コミュニティから大きな注目を集めているプロンプトや接尾辞を慎重に作成することで、モデルから悪意のあるコンテンツを抽出する手法を指す。
しかし、主にセマンティックレベルに焦点を当てた従来の攻撃方法は、モデルによって容易に検出される。
これらの方法は、異なる出力段階でモデルのアライメント保護能力の違いを見落としている。
この問題に対処するため, LLMに対するジェイルブレイク攻撃を適応的に行うために, ジェイルブレイク前攻撃手法を提案する。
提案手法は,提案モデルの命令追従機能を利用して,まず予め満たされた安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
大規模なブラックボックス実験により,既存の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上できることを示した。
私たちのコードは、https://github.com/Yummy416/AdaPPA.com/AdaPPAで参照できます。
Jailbreak vulnerabilities in Large Language Models (LLMs) refer to methods that extract malicious content from the model by carefully crafting prompts or suffixes, which has garnered significant attention from the research community. However, traditional attack methods, which primarily focus on the semantic level, are easily detected by the model. These methods overlook the difference in the model's alignment protection capabilities at different output stages. To address this issue, we propose an adaptive position pre-fill jailbreak attack approach for executing jailbreak attacks on LLMs. Our method leverages the model's instruction-following capabilities to first output pre-filled safe content, then exploits its narrative-shifting abilities to generate harmful content. Extensive black-box experiments demonstrate our method can improve the attack success rate by 47% on the widely recognized secure model (Llama2) compared to existing approaches. Our code can be found at: https://github.com/Yummy416/AdaPPA. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 車両内ネットワークにおける異常検出の実態調査
A Survey of Anomaly Detection in In-Vehicle Networks ( http://arxiv.org/abs/2409.07505v1 ) ライセンス: Link先を確認 | Övgü Özdemir, M. Tuğberk İşyapar, Pınar Karagöz, Klaus Werner Schmidt, Demet Demir, N. Alpay Karagöz, | (参考訳) 現代の車両は電子制御ユニット(ECU)を備えており、安全上重要な操作を含む重要な車両機能を制御するのに使用される。
ECUは車内通信バスを介して情報を交換し、制御エリアネットワーク(CANバス)が最も広く使われている。
車両の物理的部分や悪意のある攻撃で発生する可能性のある問題は、CANトラフィックの異常を引き起こし、適切な車両操作を損なう可能性がある。
そのため、車両の安全にはこのような異常の検出が不可欠である。
本稿では,車内ネットワークの異常検出に関する研究,特にCANバスについて概説する。
本研究の主な焦点は,CANバス異常検出に用いる手法と,その解析に用いるデータセットの評価である。
より包括的な主題の理解を深めるために,まず時系列に基づく異常検出に関する関連研究について概説する。
そこで本研究では,近年の深層学習技術と,CANバス異常検出のための従来手法の広範な調査を行う。
我々は,車内ネットワークにおける異常検出アルゴリズムについて,学習パラダイム,固有の強度,弱点,CANバスデータセットに適用した場合の有効性などに着目した総合的な分析を行った。
最後に,CANバス異常検出における課題とオープンな研究課題について述べる。
Modern vehicles are equipped with Electronic Control Units (ECU) that are used for controlling important vehicle functions including safety-critical operations. ECUs exchange information via in-vehicle communication buses, of which the Controller Area Network (CAN bus) is by far the most widespread representative. Problems that may occur in the vehicle's physical parts or malicious attacks may cause anomalies in the CAN traffic, impairing the correct vehicle operation. Therefore, the detection of such anomalies is vital for vehicle safety. This paper reviews the research on anomaly detection for in-vehicle networks, more specifically for the CAN bus. Our main focus is the evaluation of methods used for CAN bus anomaly detection together with the datasets used in such analysis. To provide the reader with a more comprehensive understanding of the subject, we first give a brief review of related studies on time series-based anomaly detection. Then, we conduct an extensive survey of recent deep learning-based techniques as well as conventional techniques for CAN bus anomaly detection. Our comprehensive analysis delves into anomaly detection algorithms employed in in-vehicle networks, specifically focusing on their learning paradigms, inherent strengths, and weaknesses, as well as their efficacy when applied to CAN bus datasets. Lastly, we highlight challenges and open research problems in CAN bus anomaly detection. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# トレーサブルLSMによる知識グラフにおける文の検証
Traceable LLM-based validation of statements in knowledge graphs ( http://arxiv.org/abs/2409.07507v1 ) ライセンス: Link先を確認 | Daniel Adam, Tomáš Kliegr, | (参考訳) 本稿では,LLMを用いたRDF三重項の検証手法を提案する。
LLMは、ユーザクエリに対する応答を構築するのに使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
このワークフローのバイオサイエンスコンテンツへの適用性を評価するため,BioREDデータセットから1,719個の正のステートメントと,新たに生成された負のステートメントの数を比較検討した。
その結果の精度は88%、リコール率は44%である。
これは、この方法が人間の監視を必要とすることを示している。
本手法はWikidata上で,SPARQLクエリを用いて検証が必要な文を自動的に検索する手法である。
以上の結果から,LLMは人為的アノテーションのコストが原因で従来不可能であったKGにおける文の大規模検証に有効であることが示唆された。
This article presents a method for verifying RDF triples using LLMs, with an emphasis on providing traceable arguments. Because the LLMs cannot currently reliably identify the origin of the information used to construct the response to the user query, our approach is to avoid using internal LLM factual knowledge altogether. Instead, verified RDF statements are compared to chunks of external documents retrieved through a web search or Wikipedia. To assess the possible application of this workflow on biosciences content, we evaluated 1,719 positive statements from the BioRED dataset and the same number of newly generated negative statements. The resulting precision is 88%, and recall is 44%. This indicates that the method requires human oversight. We demonstrate the method on Wikidata, where a SPARQL query is used to automatically retrieve statements needing verification. Overall, the results suggest that LLMs could be used for large-scale verification of statements in KGs, a task previously unfeasible due to human annotation costs. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# SafeBPF: eBPFカーネル拡張のためのハードウェア支援型ディフェンスインディース
SafeBPF: Hardware-assisted Defense-in-depth for eBPF Kernel Extensions ( http://arxiv.org/abs/2409.07508v1 ) ライセンス: Link先を確認 | Soo Yee Lim, Tanya Prasad, Xueyuan Han, Thomas Pasquier, | (参考訳) eBPFフレームワークは、Linuxカーネルでユーザが提供するコードの実行を可能にする。
ここ数年、クラウドサービスの大規模なエコシステムがeBPFを活用して、コンテナのセキュリティ、システムオブザーバビリティ、ネットワーク管理を強化してきた。
一方、メモリ安全性の脆弱性に関する緊急の発見は、特権のないeBPFプログラムを許可する以外、システムコミュニティに選択の余地がなく、残念なことにEBPFの使用を特権のあるユーザのみに制限している。
このフレームワークのランタイム安全性を改善するために,他のカーネルからEBPFプログラムを分離する汎用設計であるSafeBPFを導入し,メモリ安全性の脆弱性の悪用を防止する。
我々は、ソフトウェアベースの障害分離(SFI)アプローチと、ARMのメモリタグ拡張(MTE)を利用したハードウェア支援実装を用いた純粋なソフトウェア実装を提案する。
SafeBPFは,所望のセキュリティ特性を達成しつつ,マクロベンチマーク上で最大4%のオーバーヘッドを発生させることを示す。
The eBPF framework enables execution of user-provided code in the Linux kernel. In the last few years, a large ecosystem of cloud services has leveraged eBPF to enhance container security, system observability, and network management. Meanwhile, incessant discoveries of memory safety vulnerabilities have left the systems community with no choice but to disallow unprivileged eBPF programs, which unfortunately limits eBPF use to only privileged users. To improve run-time safety of the framework, we introduce SafeBPF, a general design that isolates eBPF programs from the rest of the kernel to prevent memory safety vulnerabilities from being exploited. We present a pure software implementation using a Software-based Fault Isolation (SFI) approach and a hardware-assisted implementation that leverages ARM's Memory Tagging Extension (MTE). We show that SafeBPF incurs up to 4% overhead on macrobenchmarks while achieving desired security properties. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 依然としてNullの影: 責任を欠く価値のインプットのベンチマーク
Still More Shades of Null: A Benchmark for Responsible Missing Value Imputation ( http://arxiv.org/abs/2409.07510v1 ) ライセンス: Link先を確認 | Falaah Arif Khan, Denys Herasymuk, Nazar Protsiv, Julia Stoyanovich, | (参考訳) 以下に示すのがShades-of-NULLであり、これは欠落した値の計算を行うためのベンチマークである。
我々のベンチマークには最先端の計算技術が含まれており、それらを機械学習開発ライフサイクルに組み込む。
我々は、ルビンの古典的なミス・アット・ランダム(MCAR)、ミス・アット・ランダム(MAR)、ミス・アット・ランダム(MNAR)を超えた現実的な欠落シナリオをモデル化し、マルチメカニズムの不足(データに異なる欠落パターンが共存する場合)と不足(トレーニングとテストの間に欠落メカニズムが変化した場合)を含む。
私たちの研究のもう1つの重要な特徴は、予測性能、公平性、モデルの安定性に基づいて、インプタを全体的評価し、それらが生成するデータに基づいてトレーニングし、テストすることです。
私たちはShades-of-NULLを使って20,952の実験パイプラインを含む大規模な実験的な研究を行い、すべての欠如タイプに対して最高のパフォーマンスの計算アプローチは存在しないが、複雑な欠如シナリオと比較して、インプタパフォーマンスの比較において興味深いパフォーマンスパターンが現れることに気付きました。
さらに、予測性能、公正性、安定性は直交的であると見なすことができるが、欠落シナリオ、インプタの選択、データポストインプットに基づいて訓練されたモデルのアーキテクチャの組み合わせによって生じるトレードオフを識別する。
私たちはShades-of-NULLを公開し、研究者が様々な評価指標に基づいて、有意義で社会的に意味のある欠落シナリオにおいて、新しい欠落値計算手法を包括的かつ厳格に評価できるようにすることを期待しています。
We present Shades-of-NULL, a benchmark for responsible missing value imputation. Our benchmark includes state-of-the-art imputation techniques, and embeds them into the machine learning development lifecycle. We model realistic missingness scenarios that go beyond Rubin's classic Missing Completely at Random (MCAR), Missing At Random (MAR) and Missing Not At Random (MNAR), to include multi-mechanism missingness (when different missingness patterns co-exist in the data) and missingness shift (when the missingness mechanism changes between training and test). Another key novelty of our work is that we evaluate imputers holistically, based on the predictive performance, fairness and stability of the models that are trained and tested on the data they produce. We use Shades-of-NULL to conduct a large-scale empirical study involving 20,952 experimental pipelines, and find that, while there is no single best-performing imputation approach for all missingness types, interesting performance patterns do emerge when comparing imputer performance in simpler vs. more complex missingness scenarios. Further, while predictive performance, fairness and stability can be seen as orthogonal, we identify trade-offs among them that arise due to the combination of missingness scenario, the choice of an imputer, and the architecture of the model trained on the data post-imputation. We make Shades-of-NULL publicly available, and hope to enable researchers to comprehensively and rigorously evaluate new missing value imputation methods on a wide range of evaluation metrics, in plausible and socially meaningful missingness scenarios. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 翻訳不変系の高温における量子熱化
Quantum thermalization of translation-invariant systems at high temperature ( http://arxiv.org/abs/2409.07516v1 ) ライセンス: Link先を確認 | Saúl Pilatowsky-Cameo, Soonwon Choi, | (参考訳) 量子熱化(Quantum thermalization)は、閉じた量子系が熱平衡に効果的に到達し、Schr\\odinger方程式の可逆性と熱力学の第2法則によって決定される不可逆エントロピー成長の間の明らかな不整合を解消する方法について記述する。
その普遍性と概念的重要性にもかかわらず、量子熱化の完全な証明は数十年にわたって発見されてきた。
ここでは、局所的な相互作用が3つの条件を満たす任意の量子ビット系において量子熱化が起こらなければならないことを証明する。
(i)高い有効温度
(ii)翻訳不変性、及び
(三)エネルギースペクトルに完全共鳴はない。
具体的には、最大エントロピーを持つ任意のアンサンブルから引き出された典型的な、最初は絡み合っていない純粋な状態が、単体進化の時にギブス状態と局所的に区別できないことを示す。
我々の証明は、高温の熱状態の分離性を証明する最近の量子情報理論のブレークスルーと、量子熱化の十分な条件を特定する新しい技術結果に依拠している。
我々の研究は、統計物理学が量子力学の最初の原理から明確に導かれた創発的な現象として理解できることを示している。
Quantum thermalization describes how closed quantum systems can effectively reach thermal equilibrium, resolving the apparent incongruity between the reversibility of Schr\"odinger's equation and the irreversible entropy growth dictated by the second law of thermodynamics. Despite its ubiquity and conceptual significance, a complete proof of quantum thermalization has remained elusive for several decades. Here, we prove that quantum thermalization must occur in any qubit system with local interactions satisfying three conditions: (i) high effective temperature, (ii) translation invariance, and (iii) no perfect resonances in the energy spectrum. Specifically, we show that a typical, initially unentangled pure state drawn from any ensemble with maximum entropy becomes locally indistinguishable from a Gibbs state upon unitary evolution. Our proof relies on a recent breakthrough in quantum information theory proving the separability of high-temperature thermal states, as well as on new technical results identifying sufficient conditions for quantum thermalization, whose applicability extends beyond our main result. Our work illustrates that statistical physics can be understood as an emergent phenomenon, explicitly derived from the first principles of quantum mechanics. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# ニューラルネットワークモデルによるリチウム等価幅からステラー年齢の推定:EAGLESの拡張
Using Neural Network Models to Estimate Stellar Ages from Lithium Equivalent Widths: An EAGLES Expansion ( http://arxiv.org/abs/2409.07523v1 ) ライセンス: Link先を確認 | George Weaver, Robin D. Jeffries, Richard J. Jackson, | (参考訳) 冷却星(3000 <Teff / K < 6500)における光球性リチウム劣化のニューラルネットワーク(ANN)モデルを提案し、LiI 6708A等価幅(LiEW)と有効温度データ入力から年齢の推定と確率分布を導出した。
このモデルは、ガイア-ESO分光法で観測された52個の開星団から6200個の恒星の同じサンプルで訓練され、2-6000 Myr と -0.3 < [Fe/H] < 0.2 の EAGLES モデルの校正に使用された。
ANNのさらなる柔軟性は、50MyrとTeff ~3500Kの年齢での"リチウムディップ"のモデリングの改善、あらゆる年齢におけるLiEWの固有の分散など、いくつかの改善を提供する。
年齢の低さは、まだ年齢 > 1 Gyr の問題であり、LiEW - 年齢 - テフ関係を完全に表すには、さらなるモデリングの柔軟性が不十分であることを確認し、さらなる天体物理学的パラメータの関与を示唆している。
このようなパラメータ(回転、降着、表面重力)を含むための拡張について論じ、ANNを使用することにより、LiEW分散のためのより柔軟な関数形式とともに、将来のイテレーションにこれらをより簡単に組み込むことができる。
我々の手法とANNモデルはEAGLESソフトウェアのアップデートバージョン2.0で提供される。
We present an Artificial Neural Network (ANN) model of photospheric lithium depletion in cool stars (3000 < Teff / K < 6500), producing estimates and probability distributions of age from Li I 6708A equivalent width (LiEW) and effective temperature data inputs. The model is trained on the same sample of 6200 stars from 52 open clusters, observed in the Gaia-ESO spectroscopic survey, and used to calibrate the previously published analytical EAGLES model, with ages 2 - 6000 Myr and -0.3 < [Fe/H] < 0.2. The additional flexibility of the ANN provides some improvements, including better modelling of the "lithium dip" at ages < 50 Myr and Teff ~ 3500K, and of the intrinsic dispersion in LiEW at all ages. Poor age discrimination is still an issue at ages > 1 Gyr, confirming that additional modelling flexibility is not sufficient to fully represent the LiEW - age - Teff relationship, and suggesting the involvement of further astrophysical parameters. Expansion to include such parameters - rotation, accretion, and surface gravity - is discussed, and the use of an ANN means these can be more easily included in future iterations, alongside more flexible functional forms for the LiEW dispersion. Our methods and ANN model are provided in an updated version 2.0 of the EAGLES software. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 拡張ウィグナーの友人引数と非コンテクスト性との接続
Connecting extended Wigner's friend arguments and noncontextuality ( http://arxiv.org/abs/2409.07537v1 ) ライセンス: Link先を確認 | Laurens Walleghem, Yìlè Yīng, Rafael Wagner, David Schmid, | (参考訳) 局所親和性論(Local Friendliness argument)は、ベルの定理や非コンテキスト性論(noncontextuality arguments)によって課されるものよりも強い現実の性質に強い制約を与える、ウィグナーの友人のno-go theorem(英語版)である。
本研究では、ローカルなフレンドリーなシナリオとKochen-Specker非コンテクスト性の間の様々な関係を実証する。
具体的には、まず、既知のツールとKochen-Speckerノンコンテクスト性に関する文献から、新しい局所親和性不等式を導出する方法を示す。
そこで我々は、局所親和性ポリトープのいくつかの面に対して新しい導出を行い、このポリトープが多部エージェントと逐次測定によるワイグナーの友人シナリオの広い範囲におけるベルポリトープと等しいことを証明した。
すると、如何なる確率的コッチェン=スペーカー論法も、数学的に局所フレンドリネスのノーゴー定理の関連する証明に変換できるかを示す。
特に、友達がスーパーオブザーバーの操作間でいくつかの互換性のある測定(またはそれらの共同測定)を行うような、新しいタイプのローカルフレンドリーシナリオを構築する。
これをよく知られた5サイクルとペレス・メルミンの文脈性議論で説明する。
The Local Friendliness argument is an extended Wigner's friend no-go theorem that provides strong constraints on the nature of reality -- stronger even than those imposed by Bell's theorem or by noncontextuality arguments. In this work, we prove a variety of connections between Local Friendliness scenarios and Kochen-Specker noncontextuality. Specifically, we first show how one can derive new Local Friendliness inequalities using known tools and results from the literature on Kochen-Specker noncontextuality. In doing so, we provide a new derivation for some of the facets of the Local Friendliness polytope, and we prove that this polytope is equal to the Bell polytope in a wide range of extended Wigner's friend scenarios with multipartite agents and sequential measurements. We then show how any possibilistic Kochen-Specker argument can be mathematically translated into a related proof of the Local Friendliness no-go theorem. In particular, we construct a novel kind of Local Friendliness scenario where a friend implements several compatible measurements (or joint measurements of these) in between the superobserver's operations on them. We illustrate this with the well-known 5-cycle and Peres-Mermin contextuality arguments. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# ENACT: Entropy-based Clustering of Attention Input for improveing the Computational Performance of Object Detection Transformers
ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers ( http://arxiv.org/abs/2409.07541v1 ) ライセンス: Link先を確認 | Giorgos Savathrakis, Antonis Argyros, | (参考訳) トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
しかし、注意重みの二次的な大きさのため、かなりの計算資源を必要とする。
本研究では,そのエントロピーに基づいて変換器の入力をクラスタリングすることを提案する。
この理由は、各ピクセル(合計がエントロピーである)の自己情報が、同じ対象に対応するピクセル間で類似している可能性が高いからである。
クラスタリングはトランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減すると同時に、ネットワークの残りの部分を通過する意味のある情報を保存する。
提案プロセスはENACTと呼ばれるモジュールで構成され,エンコーダ内のマルチヘッド自己アテンション計算からなるトランスフォーマーアーキテクチャをプラグインすることができる。
我々はCOCOオブジェクト検出データセットと3つの検出変換器を用いて広範囲に実験を行った。
その結果,全てのテストケースにおいて,必要な計算資源が一貫した減少がみられ,検出タスクの精度はわずかに低下していることがわかった。
ENACTモジュールのコードはhttps://github.com/GSavathrakis/ENACTで利用可能になる。
Transformers demonstrate competitive performance in terms of precision on the problem of vision-based object detection. However, they require considerable computational resources due to the quadratic size of the attention weights. In this work, we propose to cluster the transformer input on the basis of its entropy. The reason for this is that the self-information of each pixel (whose sum is the entropy), is likely to be similar among pixels corresponding to the same objects. Clustering reduces the size of data given as input to the transformer and therefore reduces training time and GPU memory usage, while at the same time preserves meaningful information to be passed through the remaining parts of the network. The proposed process is organized in a module called ENACT, that can be plugged-in any transformer architecture that consists of a multi-head self-attention computation in its encoder. We ran extensive experiments using the COCO object detection dataset, and three detection transformers. The obtained results demonstrate that in all tested cases, there is consistent reduction in the required computational resources, while the precision of the detection task is only slightly reduced. The code of the ENACT module will become available at https://github.com/GSavathrakis/ENACT | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 効率的な医療スケジューリングのための機械学習と制約プログラミング
Machine Learning and Constraint Programming for Efficient Healthcare Scheduling ( http://arxiv.org/abs/2409.07547v1 ) ライセンス: Link先を確認 | Aymen Ben Said, Malek Mouhoub, | (参考訳) 組合せ最適化問題の解決には、いくつかの目的を最適化しながら、一連の制約を満たすことが含まれる。
この文脈では、正確なあるいは近似的な手法が用いられる。
正確な方法では最適解が保証されるが、ソリューションの品質をよりよい実行時間と交換する近似的な方法とは対照的に、指数関数的な実行時間を持つことが多い。
この文脈では、NSP(Nurse Scheduling Problem)に取り組む。
NSPは、病院のコストと看護師の選好が最適化されている間、作業負荷の制約が満たされるように、計画の地平内での日々のシフトに看護師を割り当てる。
NSP を解決するために,暗黙的かつ明示的なアプローチを提案する。
暗黙の問題解決アプローチでは、学習パターンに埋め込まれる可能性のある制約や目的を通じて、過去のデータを使って新しいソリューションを学習し、生成する機械学習手法を頼りにしています。
組込み制約や目的を捉えるために暗黙のアプローチを用いる場合の質を定量化するために、生成した解と履歴データの間の平均誤差を計算するのに使用されるフロベニウス・ノーム(Frobenius Norm)に依存する。
提案手法では, 制約や目的が具体的に見えるものではないことを考慮し, 暗黙的アプローチに関する不確実性を補うために, 制約満足度問題(CSP)フレームワークを用いてまずNSPをモデル化する代替的明示的アプローチを提案する。
次に,確率的局所探索法と,制約伝搬法と変数/値順序ヒューリスティックスにより拡張された新しい分岐境界アルゴリズムを開発した。
我々の暗黙的アプローチは生成したソリューションの実現可能性や最適性を保証するものではないため、制約ネットワークとしてNSPを受動的に学習するデータ駆動型アプローチを提案する。
学習された制約ネットワークは、CSPとして定式化され、先にリストしたメソッドを使って解決されます。
Solving combinatorial optimization problems involve satisfying a set of hard constraints while optimizing some objectives. In this context, exact or approximate methods can be used. While exact methods guarantee the optimal solution, they often come with an exponential running time as opposed to approximate methods that trade the solutions quality for a better running time. In this context, we tackle the Nurse Scheduling Problem (NSP). The NSP consist in assigning nurses to daily shifts within a planning horizon such that workload constraints are satisfied while hospitals costs and nurses preferences are optimized. To solve the NSP, we propose implicit and explicit approaches. In the implicit solving approach, we rely on Machine Learning methods using historical data to learn and generate new solutions through the constraints and objectives that may be embedded in the learned patterns. To quantify the quality of using our implicit approach in capturing the embedded constraints and objectives, we rely on the Frobenius Norm, a quality measure used to compute the average error between the generated solutions and historical data. To compensate for the uncertainty related to the implicit approach given that the constraints and objectives may not be concretely visible in the produced solutions, we propose an alternative explicit approach where we first model the NSP using the Constraint Satisfaction Problem (CSP) framework. Then we develop Stochastic Local Search methods and a new Branch and Bound algorithm enhanced with constraint propagation techniques and variables/values ordering heuristics. Since our implicit approach may not guarantee the feasibility or optimality of the generated solution, we propose a data-driven approach to passively learn the NSP as a constraint network. The learned constraint network, formulated as a CSP, will then be solved using the methods we listed earlier. | 翻訳日:2024-09-13 20:40:16 公開日:2024-09-11 |
# 自己蒸留による無監督点雲登録
Unsupervised Point Cloud Registration with Self-Distillation ( http://arxiv.org/abs/2409.07558v1 ) ライセンス: Link先を確認 | Christian Löwens, Thorben Funke, André Wagner, Alexandru Paul Condurache, | (参考訳) Rigidのクラウド登録は基本的な問題であり、ロボティクスと自動運転に非常に関係している。
今日では、それら間の変換を考慮して、一対のポイントクラウドにマッチするように、ディープラーニングメソッドをトレーニングすることができる。
しかし、地上の真実のポーズを収集するコストが高いため、このトレーニングはスケーラビリティが低いことが多い。
そこで本研究では,教師なし方式で点雲登録を学習するための自己蒸留手法を提案する。
ここで、各サンプルは教師ネットワークに渡され、拡張ビューは学生ネットワークに渡される。
教師は、訓練可能な特徴抽出器と、RANSACのような学習不要で堅牢な解決器を含む。
解法は、対応間の整合性を強制し、教師なし不整合比の最適化を行い、基底真理ラベルの必要性を排除した。
本手法は,手作り機能や連続点クラウドフレームの必要性を除去し,トレーニング手順を簡素化する。
提案手法は,RGB-Dベンチマーク3DMatchに勝るだけでなく,従来の特徴が失敗する自動車レーダにも適用可能であることを示す。
コードはhttps://github.com/boschresearch/direg で公開されている。
Rigid point cloud registration is a fundamental problem and highly relevant in robotics and autonomous driving. Nowadays deep learning methods can be trained to match a pair of point clouds, given the transformation between them. However, this training is often not scalable due to the high cost of collecting ground truth poses. Therefore, we present a self-distillation approach to learn point cloud registration in an unsupervised fashion. Here, each sample is passed to a teacher network and an augmented view is passed to a student network. The teacher includes a trainable feature extractor and a learning-free robust solver such as RANSAC. The solver forces consistency among correspondences and optimizes for the unsupervised inlier ratio, eliminating the need for ground truth labels. Our approach simplifies the training procedure by removing the need for initial hand-crafted features or consecutive point cloud frames as seen in related methods. We show that our method not only surpasses them on the RGB-D benchmark 3DMatch but also generalizes well to automotive radar, where classical features adopted by others fail. The code is available at https://github.com/boschresearch/direg . | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# TabMixer による肺動脈圧の非侵襲的評価
TabMixer: Noninvasive Estimation of the Mean Pulmonary Artery Pressure via Imaging and Tabular Data Mixing ( http://arxiv.org/abs/2409.07564v1 ) ライセンス: Link先を確認 | Michal K. Grzeszczyk, Przemysław Korzeniowski, Samer Alabed, Andrew J. Swift, Tomasz Trzciński, Arkadiusz Sitek, | (参考訳) 右心カテーテル法は平均肺動脈圧(mPAP)を測定することで肺高血圧を診断するための金標準法である。
侵襲的で、コストがかかり、時間もかかり、リスクも伴います。
本稿では,非侵襲的心臓磁気共鳴画像からmPAPを推定する方法を初めて検討する。
本研究では,この課題に使用するディープラーニングモデルの予測能力を高めるために,人口統計学的特徴や臨床測定の形式に付加的なモダリティを導入する。
多層パーセプトロンアーキテクチャにインスパイアされたTabMixerは,空間,時間,チャネルの混合による画像と表層データの統合を可能にする新しいモジュールである。
具体的には,マルチレイヤ・パーセプトロンを用いて,視覚モデルにおける図形情報と画像の特徴を交換する手法を提案する。
我々は、mPAP推定のためにTabMixerをテストし、画像や表データのための以前のモジュールと競合しながら、畳み込みニューラルネットワーク、3D-MLP、ビジョントランスフォーマーの性能を向上させることを示す。
特に非侵襲的mPAP推定では,肺高血圧症に罹患した患者の生活の質が著しく向上する可能性が示唆された。
https://github.com/SanoScience/TabMixer.comでTabMixerを使用するためのソースコードを提供する。
Right Heart Catheterization is a gold standard procedure for diagnosing Pulmonary Hypertension by measuring mean Pulmonary Artery Pressure (mPAP). It is invasive, costly, time-consuming and carries risks. In this paper, for the first time, we explore the estimation of mPAP from videos of noninvasive Cardiac Magnetic Resonance Imaging. To enhance the predictive capabilities of Deep Learning models used for this task, we introduce an additional modality in the form of demographic features and clinical measurements. Inspired by all-Multilayer Perceptron architectures, we present TabMixer, a novel module enabling the integration of imaging and tabular data through spatial, temporal and channel mixing. Specifically, we present the first approach that utilizes Multilayer Perceptrons to interchange tabular information with imaging features in vision models. We test TabMixer for mPAP estimation and show that it enhances the performance of Convolutional Neural Networks, 3D-MLP and Vision Transformers while being competitive with previous modules for imaging and tabular data. Our approach has the potential to improve clinical processes involving both modalities, particularly in noninvasive mPAP estimation, thus, significantly enhancing the quality of life for individuals affected by Pulmonary Hypertension. We provide a source code for using TabMixer at https://github.com/SanoScience/TabMixer. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# EchoDFKD:合成データを用いた心エコー区分けのためのデータフリー知識蒸留
EchoDFKD: Data-Free Knowledge Distillation for Cardiac Ultrasound Segmentation using Synthetic Data ( http://arxiv.org/abs/2409.07566v1 ) ライセンス: Link先を確認 | Grégoire Petit, Nathan Palluau, Axel Bauer, Clemens Dlaska, | (参考訳) 心臓の医療用超音波ビデオ(エコー心エコー法)への機械学習の応用は、最近、大規模な公開データセットが利用可能になったことで、注目を集めている。
従来の教師付きタスク、例えば射出分数回帰は、データ分布の潜在構造と生成方法にもっと焦点を絞ったアプローチの道を開いた。
本稿では,教師モデルによって提案されるマスクの検索を含む実データと合成データに基づいて,知識蒸留に特化して訓練されたモデルを提案する。
我々は,終末期および終末期のフレームを識別するタスクにおいて,最先端のSOTA(State-of-the-art)値を得る。
モデルを合成データのみでトレーニングすることにより、実際のデータでトレーニングした際の性能に近いセグメンテーション能力に到達し、重量を大幅に削減する。
既存の5つのメソッドと比較すると、ほとんどの場合、我々のメソッドは他のメソッドよりも優れています。
また,人間のアノテーションを必要とせず,大規模な補助モデルに依存する新たな評価手法を提案する。
本手法は,人間のアノテーションから得られたスコアと一致したスコアを生成する。
膨大な量のレコードから統合された知識に基づいて、この手法は人間のアノテータラベリングに固有の制限を克服する。
コード:https://github.com/GregoirePetit/EchoDFKD
The application of machine learning to medical ultrasound videos of the heart, i.e., echocardiography, has recently gained traction with the availability of large public datasets. Traditional supervised tasks, such as ejection fraction regression, are now making way for approaches focusing more on the latent structure of data distributions, as well as generative methods. We propose a model trained exclusively by knowledge distillation, either on real or synthetical data, involving retrieving masks suggested by a teacher model. We achieve state-of-the-art (SOTA) values on the task of identifying end-diastolic and end-systolic frames. By training the model only on synthetic data, it reaches segmentation capabilities close to the performance when trained on real data with a significantly reduced number of weights. A comparison with the 5 main existing methods shows that our method outperforms the others in most cases. We also present a new evaluation method that does not require human annotation and instead relies on a large auxiliary model. We show that this method produces scores consistent with those obtained from human annotations. Relying on the integrated knowledge from a vast amount of records, this method overcomes certain inherent limitations of human annotator labeling. Code: https://github.com/GregoirePetit/EchoDFKD | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# WFAのサイバーセキュリティチャレンジ分析とユーザスタディによる勧告
Cybersecurity Challenge Analysis of Work-from-Anywhere (WFA) and Recommendations guided by a User Study ( http://arxiv.org/abs/2409.07567v1 ) ライセンス: Link先を確認 | Mohammed Mahyoub, Ashraf Matrawy, Kamal Isleem, Olakunle Ibitoye, | (参考訳) 多くの組織は、新型コロナウイルスのパンデミックに伴う規制にもかかわらず、業務を継続し、営業を続ける必要性から、すぐにWFAモデルに移行せざるを得なかった。
多くの決定が急いでおり、この移行をサポートするためにサイバーセキュリティのデリケートツールが設定されていなかった。
本稿では,WFAモデルのサイバーセキュリティに関する課題と意味を明らかにするために,まず最初に試みる。
第2に,遠隔勤務に移行した雇用主とその従業員の即応性とサイバーセキュリティ意識を調査するため,オンラインユーザスタディを実施した。
ユーザスタディは個人や組織のさまざまなレジリエンスの観点に対処した。
収集されたデータには、大学、政府、民間、非営利団体など、さまざまなタイプのリモートワーク従業員からの45の回答が含まれている。
セキュリティトレーニングとガイドラインの重要性にもかかわらず、多くの参加者がそれを受け取っていなかったことは驚きだった。
組織が遭遇するセキュリティインシデントに対して、従業員が通知され、更新されることを保証するために、堅牢なコミュニケーション戦略が必要である。
さらに、従業員の行動、意識、コンプライアンスなど、セキュリティ関連の特性に注意を払う必要がある。
最後に、研究結果から導かれるベストプラクティスの勧告と緩和ヒントを概説し、個人や組織がサイバー犯罪や詐欺に抵抗し、WFA関連のサイバーセキュリティリスクを軽減できるよう支援した。
Many organizations were forced to quickly transition to the work-from-anywhere (WFA) model as a necessity to continue with their operations and remain in business despite the restrictions imposed during the COVID-19 pandemic. Many decisions were made in a rush, and cybersecurity decency tools were not in place to support this transition. In this paper, we first attempt to uncover some challenges and implications related to the cybersecurity of the WFA model. Secondly, we conducted an online user study to investigate the readiness and cybersecurity awareness of employers and their employees who shifted to work remotely from anywhere. The user study questionnaire addressed different resilience perspectives of individuals and organizations. The collected data includes 45 responses from remotely working employees of different organizational types: universities, government, private, and non-profit organizations. Despite the importance of security training and guidelines, it was surprising that many participants had not received them. A robust communication strategy is necessary to ensure that employees are informed and updated on security incidents that the organization encounters. Additionally, there is an increased need to pay attention to the security-related attributes of employees, such as their behavior, awareness, and compliance. Finally, we outlined best practice recommendations and mitigation tips guided by the study results to help individuals and organizations resist cybercrime and fraud and mitigate WFA-related cybersecurity risks. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 誤差不変対数コントラストモデルに対するデバイアス付き高次元回帰キャリブレーション
Debiased high-dimensional regression calibration for errors-in-variables log-contrast models ( http://arxiv.org/abs/2409.07568v1 ) ライセンス: Link先を確認 | Huali Zhao, Tianying Wang, | (参考訳) 本研究は, 腸内微生物およびメダゲノミクスデータの解析における課題から, 構成共変量を含む高次元回帰モデルにおける測定誤差の問題に取り組むことを目的としている。
本稿では,誤測定や汚染データの影響を受け,高次元構成データに対する統計的推測を行うための先駆的な取り組みを示す。
線形対数コントラストモデルに適した校正手法を提案する。
パラメータの疎度レベルに関する比較的寛大な条件下では、推定のための推定器の漸近正規性を確立した。
マイクロバイオーム研究における数値実験と応用により, 偏差を最小化し, 被曝率の予測値を達成するための高次元キャリブレーション法の有効性が示された。
さらに,提案手法の潜在的な適用範囲は,構成データを超え,幅広い研究状況に適応可能であることを示唆している。
Motivated by the challenges in analyzing gut microbiome and metagenomic data, this work aims to tackle the issue of measurement errors in high-dimensional regression models that involve compositional covariates. This paper marks a pioneering effort in conducting statistical inference on high-dimensional compositional data affected by mismeasured or contaminated data. We introduce a calibration approach tailored for the linear log-contrast model. Under relatively lenient conditions regarding the sparsity level of the parameter, we have established the asymptotic normality of the estimator for inference. Numerical experiments and an application in microbiome study have demonstrated the efficacy of our high-dimensional calibration strategy in minimizing bias and achieving the expected coverage rates for confidence intervals. Moreover, the potential application of our proposed methodology extends well beyond compositional data, suggesting its adaptability for a wide range of research contexts. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 逆制約強化学習に関する調査:定義・進歩・課題
A Survey of Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges ( http://arxiv.org/abs/2409.07569v1 ) ライセンス: Link先を確認 | Guiliang Liu, Sheng Xu, Shicheng Liu, Ashish Gaurav, Sriram Ganapathi Subramanian, Pascal Poupart, | (参考訳) 逆制約強化学習(英: Inverse Constrained Reinforcement Learning, ICRL)は、暗黙の制約を推論し、その実証データから専門家エージェントが続くタスクである。
ICRLは近年,新たな研究トピックとして注目されている。
本論では, ICRLの最近の進歩について分類学的に考察する。
ICRLの定義、進歩、重要な課題を理解しようとする初心者だけでなく、機械学習の研究者や実践者にとっても包括的な参照として機能する。
まず、問題を正式に定義し、様々なシナリオにまたがる制約推論を容易にするアルゴリズムフレームワークの概要を説明します。
これには決定論的または確率的環境、限られたデモのある環境、複数のエージェントが含まれる。
それぞれの文脈について、批判的な課題を説明し、これらの問題に取り組むための基本的な方法を紹介します。
この調査は、ICRLエージェントを評価するための離散的で仮想的で現実的な環境を含む。
また、自律運転、ロボット制御、スポーツ分析など、ICRLの最も重要な応用についても調べる。
本研究は, 理論的理解と産業応用の橋渡しを効果的に促進できる ICRL の重要な未解決問題について, 調査を締めくくった。
Inverse Constrained Reinforcement Learning (ICRL) is the task of inferring the implicit constraints followed by expert agents from their demonstration data. As an emerging research topic, ICRL has received considerable attention in recent years. This article presents a categorical survey of the latest advances in ICRL. It serves as a comprehensive reference for machine learning researchers and practitioners, as well as starters seeking to comprehend the definitions, advancements, and important challenges in ICRL. We begin by formally defining the problem and outlining the algorithmic framework that facilitates constraint inference across various scenarios. These include deterministic or stochastic environments, environments with limited demonstrations, and multiple agents. For each context, we illustrate the critical challenges and introduce a series of fundamental methods to tackle these issues. This survey encompasses discrete, virtual, and realistic environments for evaluating ICRL agents. We also delve into the most pertinent applications of ICRL, such as autonomous driving, robot control, and sports analytics. To stimulate continuing research, we conclude the survey with a discussion of key unresolved questions in ICRL that can effectively foster a bridge between theoretical understanding and practical industrial applications. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# FaVoR:Voxel Renderingによるカメラ再ローカライゼーション機能
FaVoR: Features via Voxel Rendering for Camera Relocalization ( http://arxiv.org/abs/2409.07571v1 ) ライセンス: Link先を確認 | Vincenzo Polizzi, Marco Cannici, Davide Scaramuzza, Jonathan Kelly, | (参考訳) カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
これらのうち、スパースな特徴マッチングは多くのアプリケーションで効率的で汎用的で一般的に軽量なアプローチとして際立っている。
しかし、機能ベースの手法は、しばしば重要な視点や外観の変化に苦しむため、失敗と不正確なポーズ推定に繋がる。
この制限を克服するために,グローバルに疎いが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
初期ポーズ推定を行うと、まずボリュームレンダリングを用いてボクセルから記述子を合成し、次に特徴マッチングを行い、カメラのポーズを推定する。
この方法論は、見えないビューのための記述子の生成を可能にし、変更を見るための堅牢性を強化します。
提案手法を7シーンとケンブリッジランドマークのデータセット上で広範囲に評価した。
その結果,本手法は室内環境における既存の特徴表現技術よりも優れており,中央値翻訳誤差が39%向上していることがわかった。
さらに,本手法は,メモリの削減と計算コストの低減を図りながら,屋外シナリオの他の手法に匹敵する結果をもたらす。
Camera relocalization methods range from dense image alignment to direct camera pose regression from a query image. Among these, sparse feature matching stands out as an efficient, versatile, and generally lightweight approach with numerous applications. However, feature-based methods often struggle with significant viewpoint and appearance changes, leading to matching failures and inaccurate pose estimates. To overcome this limitation, we propose a novel approach that leverages a globally sparse yet locally dense 3D representation of 2D features. By tracking and triangulating landmarks over a sequence of frames, we construct a sparse voxel map optimized to render image patch descriptors observed during tracking. Given an initial pose estimate, we first synthesize descriptors from the voxels using volumetric rendering and then perform feature matching to estimate the camera pose. This methodology enables the generation of descriptors for unseen views, enhancing robustness to view changes. We extensively evaluate our method on the 7-Scenes and Cambridge Landmarks datasets. Our results show that our method significantly outperforms existing state-of-the-art feature representation techniques in indoor environments, achieving up to a 39% improvement in median translation error. Additionally, our approach yields comparable results to other methods for outdoor scenarios while maintaining lower memory and computational costs. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# fence.t.s: ISA-Supported Temporal Partitioning による高パフォーマンスアウトオブオーダコアのタイミングチャネルの閉鎖
fence.t.s: Closing Timing Channels in High-Performance Out-of-Order Cores through ISA-Supported Temporal Partitioning ( http://arxiv.org/abs/2409.07576v1 ) ライセンス: Link先を確認 | Nils Wistoff, Gernot Heiser, Luca Benini, | (参考訳) マイクロアーキテクチャのタイミングチャネルは、分離すべきセキュリティドメイン間の情報漏洩を利用して、オペレーティングシステムのセキュリティ境界をバイパスする。
これらのチャネルは、共有マイクロアーキテクチャー状態に対する競合から生じる。
RISC-V命令セットでは、時間的フェンス命令 (fence.t) が、単純なインオーダーコアで時間的にマイクロアーキテクチャ状態を安価に分割する手段を備えたオペレーティングシステムを提供することにより、タイミングチャネルを閉じるように提案された。
この研究は、大規模で広く分布するミクロ構造体を特徴とする超スカラー・アウト・オブ・オーダーコアにおける fence.t による課題を探求する。
これらの課題を克服するために、既存の機構を再利用し、高度なマイクロアーキテクチャ機能をサポートし、ハードウェアコストの無視とパフォーマンスへの影響の最小化で、模範的なアウトオブオーダコア(OpenC910)の完全なタイミングチャネル保護を可能にする新しいSWサポート時間フェンス(fence.t.s)を提案する。
Microarchitectural timing channels exploit information leakage between security domains that should be isolated, bypassing the operating system's security boundaries. These channels result from contention for shared microarchitectural state. In the RISC-V instruction set, the temporal fence instruction (fence.t) was proposed to close timing channels by providing an operating system with the means to temporally partition microarchitectural state inexpensively in simple in-order cores. This work explores challenges with fence.t in superscalar out-of-order cores featuring large and pervasive microarchitectural state. To overcome these challenges, we propose a novel SW-supported temporal fence (fence.t.s), which reuses existing mechanisms and supports advanced microarchitectural features, enabling full timing channel protection of an exemplary out-of-order core (OpenC910) at negligible hardware costs and a minimal performance impact of 1.0 %. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 教師なし適応のためのセルフマスキングネットワーク
Self-Masking Networks for Unsupervised Adaptation ( http://arxiv.org/abs/2409.07577v1 ) ライセンス: Link先を確認 | Alfonso Taboada Warmerdam, Mathilde Caron, Yuki M. Asano, | (参考訳) 数十億パラメータの基礎モデルの出現により、下流タスクへのモデルの適応において、効率的な微調整がますます重要になっている。
しかし、特にコンピュータビジョンでは、高品質なラベル付きデータにアクセスできない場合、優れた性能を達成することは困難である。
本研究では,二項マスクを学習することで,事前学習されたジェネリストモデルを自己指導的に適応させる手法を提案する。
これらの自己教師型マスキングネットワーク(SMN)は、ラベル効率の低いダウンストリームタスクの性能を最大79倍に向上させる。
8つのデータセットと3つのモデルアーキテクチャ上での微調整手法としてバイナリマスクを学習することの有用性を検証するとともに、3つのラベル効率の良い設定におけるSMNの有効性を実証する。
With the advent of billion-parameter foundation models, efficient fine-tuning has become increasingly important for the adaptation of models to downstream tasks. However, especially in computer vision, it can be hard to achieve good performance when access to quality labeled data is lacking. In this work, we propose a method adapting pretrained generalist models in a self-supervised manner by learning binary masks. These self-supervised masking networks (SMNs) are up to 79x more efficient to store and significantly improve performance on label-efficient downstream tasks. We validate the usefulness of learning binary masks as a fine-tuning method on 8 datasets and 3 model architectures, and we demonstrate the effectiveness of SMNs in 3 label-efficient settings. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 対話型AI(CAI)システムを用いたアイデアの客観的評価のための新しい数学的枠組み
A Novel Mathematical Framework for Objective Evaluation of Ideas using a Conversational AI (CAI) System ( http://arxiv.org/abs/2409.07578v1 ) ライセンス: Link先を確認 | B. Sankar, Dibakar Sen, | (参考訳) 製品デザインにおけるイノベーションの需要は、多くのアイデアフェーズを必要とします。
GPT(Generative Pre-trained Transformer)のような大規模言語モデル(LLM)を使用する会話型AI(CAI)システムは、人間の創造性を増強し、数多くの斬新で多様なアイデアを提供する上で有益であることが示されている。
アイデア量の成功にもかかわらず、これらのアイデアの質的な評価は依然として困難であり、伝統的に専門家による人間の評価に依存している。
この方法は、人間の判断ミス、偏見、監視などの制限に悩まされる。
このギャップに対処するため,本研究では,CAIシステムや人間によって生み出されるアイデアの多元性を客観的に評価する,自動解析のための包括的な数学的枠組みを提案する。
このフレームワークは、有望なアイデアを選択する経験のない初心者デザイナにとって特に有利である。
提案手法は, アイデアを高次元ベクトルに変換し, UMAP, DBSCAN, PCAなどのツールを用いてその多様性を定量的に測定することにより, 最も有望なアイデアを選択する信頼性と客観的な方法を提供する。
The demand for innovation in product design necessitates a prolific ideation phase. Conversational AI (CAI) systems that use Large Language Models (LLMs) such as GPT (Generative Pre-trained Transformer) have been shown to be fruitful in augmenting human creativity, providing numerous novel and diverse ideas. Despite the success in ideation quantity, the qualitative assessment of these ideas remains challenging and traditionally reliant on expert human evaluation. This method suffers from limitations such as human judgment errors, bias, and oversight. Addressing this gap, our study introduces a comprehensive mathematical framework for automated analysis to objectively evaluate the plethora of ideas generated by CAI systems and/or humans. This framework is particularly advantageous for novice designers who lack experience in selecting promising ideas. By converting the ideas into higher dimensional vectors and quantitatively measuring the diversity between them using tools such as UMAP, DBSCAN and PCA, the proposed method provides a reliable and objective way of selecting the most promising ideas, thereby enhancing the efficiency of the ideation phase. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 擬似乱数符号の新しい構成法
New constructions of pseudorandom codes ( http://arxiv.org/abs/2409.07580v1 ) ライセンス: Link先を確認 | Surendra Ghentiyala, Venkatesan Guruswami, | (参考訳) CG24で導入された疑似ランダム誤り訂正符号(PRC)は、生成AIモデルの透かしに応用された新しい暗号プリミティブである。
これらは、多項式的に多くのコードワードの集合が、復号鍵を持つ個人を除いて、ランダムと計算的に区別できないコードである。
本研究では,一定誤差率に対して頑健なPRCが存在するという仮定を考察する。
1) [BKR23] で導入された植込みハイパーループ仮定とゴールドライヒのPRGホールディングスのセキュリティの両方を併用すると, 効率の良い逆数を持たない公開鍵PRCが$o(1)$より有利な符号ワードの多項式数とランダムに区別できることを示す。
2) [CG24] の構成を再検討し, [CG24] に示されるよりも広い範囲の仮定に基づくことができることを示す。
これを実現するために、弱植込み XOR 仮定を弱植込み XOR 仮定と呼び、独立した関心を持つかもしれない弱植込み XOR 仮定の弱化版を導入する。
3. スペースバウンドな敵に対して安全なPRCの研究を開始する。
これは$\textit{unconditionally}$ indistinguishable from random by $\text{poly}(n)$ time, $O(n^{1.5-\varepsilon})$ space adversariesである。
Introduced in [CG24], pseudorandom error-correcting codes (PRCs) are a new cryptographic primitive with applications in watermarking generative AI models. These are codes where a collection of polynomially many codewords is computationally indistinguishable from random, except to individuals with the decoding key. In this work, we examine the assumptions under which PRCs with robustness to a constant error rate exist. 1. We show that if both the planted hyperloop assumption introduced in [BKR23] and security of a version of Goldreich's PRG hold, then there exist public-key PRCs for which no efficient adversary can distinguish a polynomial number of codewords from random with better than $o(1)$ advantage. 2. We revisit the construction of [CG24] and show that it can be based on a wider range of assumptions than presented in [CG24]. To do this, we introduce a weakened version of the planted XOR assumption which we call the weak planted XOR assumption and which may be of independent interest. 3. We initiate the study of PRCs which are secure against space-bounded adversaries. We show how to construct secret-key PRCs of length $O(n)$ which are $\textit{unconditionally}$ indistinguishable from random by $\text{poly}(n)$ time, $O(n^{1.5-\varepsilon})$ space adversaries. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# ディープリカレントニューラルネットワークと畳み込みニューラルネットワークを用いたビデオの暴力検出
Violence detection in videos using deep recurrent and convolutional neural networks ( http://arxiv.org/abs/2409.07581v1 ) ライセンス: Link先を確認 | Abdarahmane Traoré, Moulay A. Akhloufi, | (参考訳) 暴力と異常な行動検出の研究は、主に世界中の大都市で犯罪が増加しているため、近年、関心が高まっていることが知られている。
本研究では、リカレントニューラルネットワーク(RNN)と2次元畳み込みニューラルネットワーク(2D CNN)を組み合わせた暴力検出のためのディープラーニングアーキテクチャを提案する。
ビデオフレームに加えて、キャプチャーシーケンスを用いて計算した光フローを用いる。
CNNは各フレームの空間特性を抽出し、RNNは時間特性を抽出する。
光フローを使用することで、シーンの動きを符号化することができる。
提案手法は最先端技術と同じレベルに達し,時折それらを上回るものとなる。
3つのデータベースで検証され、良好な結果が得られた。
Violence and abnormal behavior detection research have known an increase of interest in recent years, due mainly to a rise in crimes in large cities worldwide. In this work, we propose a deep learning architecture for violence detection which combines both recurrent neural networks (RNNs) and 2-dimensional convolutional neural networks (2D CNN). In addition to video frames, we use optical flow computed using the captured sequences. CNN extracts spatial characteristics in each frame, while RNN extracts temporal characteristics. The use of optical flow allows to encode the movements in the scenes. The proposed approaches reach the same level as the state-of-the-art techniques and sometime surpass them. It was validated on 3 databases achieving good results. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# ロバストなアウト・オブ・ディストリビューション性能のための埋め込み歪みの最小化
Minimizing Embedding Distortion for Robust Out-of-Distribution Performance ( http://arxiv.org/abs/2409.07582v1 ) ライセンス: Link先を確認 | Tom Shaked, Yuval Goldman, Oran Shayer, | (参考訳) 膨大な多様なデータセットに基づいてトレーニングされた基礎モデルは、さまざまなドメインとさまざまなゼロショットタスクの分散をまたいで一般化する驚くべき能力を示してきた。
我々の研究は、微調整による特定の下流タスクに基礎モデルを適用する際に、これらの強力な一般化能力を維持するという課題に対処する。
この目的のために、我々は「類似性損失」と呼ぶ新しい手法を導入し、タスクの微調整プロセスに組み込むことができる。
予め訓練した埋め込みから微調整した埋め込みの歪みを最小限に抑えることで,タスク固有の適応と広範囲な一般化能力のバランスをとることができる。
衛星画像のイメージ分類と顔認識の2つのタスクについて,オープンクラスとドメインシフトのシナリオに着目し,アウト・オブ・ディストリビューション(OOD)の性能を評価する。
我々は,この手法が強力な分散内分散(ID)性能を維持しつつ,OOD性能を著しく向上させることを実証した。
Foundational models, trained on vast and diverse datasets, have demonstrated remarkable capabilities in generalizing across different domains and distributions for various zero-shot tasks. Our work addresses the challenge of retaining these powerful generalization capabilities when adapting foundational models to specific downstream tasks through fine-tuning. To this end, we introduce a novel approach we call "similarity loss", which can be incorporated into the fine-tuning process of any task. By minimizing the distortion of fine-tuned embeddings from the pre-trained embeddings, our method strikes a balance between task-specific adaptation and preserving broad generalization abilities. We evaluate our approach on two diverse tasks: image classification on satellite imagery and face recognition, focusing on open-class and domain shift scenarios to assess out-of-distribution (OOD) performance. We demonstrate that this approach significantly improves OOD performance while maintaining strong in-distribution (ID) performance. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# DS-ViT: アルツハイマー早期診断におけるクロスタスク蒸留用デュアルストリーム・ビジョン・トランス
DS-ViT: Dual-Stream Vision Transformer for Cross-Task Distillation in Alzheimer's Early Diagnosis ( http://arxiv.org/abs/2409.07584v1 ) ライセンス: Link先を確認 | Ke Chen, Yifeng Wang, Yufei Zhou, Haohan Wang, | (参考訳) アルツハイマー病の診断の分野では、セグメンテーションと分類タスクは本質的に相互に関連している。
これらのタスクのモデル間での知識共有は、特にトレーニングデータが不足している場合、トレーニング効率を著しく向上させる。
しかしながら、伝統的な知識蒸留技術は、タスクと異なるモデルアーキテクチャの異なる性質のために、セグメンテーションと分類のギャップを埋めるのに苦労することが多い。
この課題に対処するために、クロスタスクとクロスアーキテクチャの知識共有を容易にするデュアルストリームパイプラインを提案する。
本手法では,分割モデルと分類モデルから特徴表現を統一し,それらの特徴を次元的に統合し,分類モデルを導出する。
アルツハイマー病診断のための複数の3次元データセットを用いて本手法の有効性を検証し,特に小データセットの分類性能を著しく改善した。
さらに,脳萎縮前の画像を用いて,早期診断のための時間的注意機構を付加してパイプラインを拡張した。
この進歩は、軽度、無症状の段階で約6カ月前に診断が可能となり、介入に要する時間を与えている。
In the field of Alzheimer's disease diagnosis, segmentation and classification tasks are inherently interconnected. Sharing knowledge between models for these tasks can significantly improve training efficiency, particularly when training data is scarce. However, traditional knowledge distillation techniques often struggle to bridge the gap between segmentation and classification due to the distinct nature of tasks and different model architectures. To address this challenge, we propose a dual-stream pipeline that facilitates cross-task and cross-architecture knowledge sharing. Our approach introduces a dual-stream embedding module that unifies feature representations from segmentation and classification models, enabling dimensional integration of these features to guide the classification model. We validated our method on multiple 3D datasets for Alzheimer's disease diagnosis, demonstrating significant improvements in classification performance, especially on small datasets. Furthermore, we extended our pipeline with a residual temporal attention mechanism for early diagnosis, utilizing images taken before the atrophy of patients' brain mass. This advancement shows promise in enabling diagnosis approximately six months earlier in mild and asymptomatic stages, offering critical time for intervention. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# ニューラル気象予報の局所的適応 : MENA領域を事例として
Efficient Localized Adaptation of Neural Weather Forecasting: A Case Study in the MENA Region ( http://arxiv.org/abs/2409.07585v1 ) ライセンス: Link先を確認 | Muhammad Akhtar Munir, Fahad Shahbaz Khan, Salman Khan, | (参考訳) 正確な気象と気候のモデリングは、科学的進歩と環境リスクに対するコミュニティの保護の両方に不可欠である。
伝統的なアプローチは、地球のシステム全体にわたるエネルギーと物質の流れをシミュレートする数値気象予測(NWP)モデルに大きく依存している。
しかし、計算量の重い要求と低効率はNWPの適合性を制限し、モデリング技術の強化の必要性が高まった。
ニューラルネットワークベースのモデルは、大気変数を予測するためにデータ駆動アプローチを活用する、有望な代替手段として登場した。
本研究では,地域レベルのダウンストリームタスクに特化して,リミテッド・エリア・モデリングに焦点をあててモデルを訓練する。
ケーススタディでは,水資源の管理や農業,極度の気象事象の影響緩和に,正確な局地的気象予報が不可欠である,独特の気候問題から,MENA地域を考察する。
このターゲティングアプローチにより、関心領域のユニークな条件に合わせてモデルの能力を調整できます。
本研究では,パラメータ効率のよい微調整手法,特にローランド適応(LoRA)とその変種を統合することの有効性を検証することを目的とした。
Accurate weather and climate modeling is critical for both scientific advancement and safeguarding communities against environmental risks. Traditional approaches rely heavily on Numerical Weather Prediction (NWP) models, which simulate energy and matter flow across Earth's systems. However, heavy computational requirements and low efficiency restrict the suitability of NWP, leading to a pressing need for enhanced modeling techniques. Neural network-based models have emerged as promising alternatives, leveraging data-driven approaches to forecast atmospheric variables. In this work, we focus on limited-area modeling and train our model specifically for localized region-level downstream tasks. As a case study, we consider the MENA region due to its unique climatic challenges, where accurate localized weather forecasting is crucial for managing water resources, agriculture and mitigating the impacts of extreme weather events. This targeted approach allows us to tailor the model's capabilities to the unique conditions of the region of interest. Our study aims to validate the effectiveness of integrating parameter-efficient fine-tuning (PEFT) methodologies, specifically Low-Rank Adaptation (LoRA) and its variants, to enhance forecast accuracy, as well as training speed, computational resource utilization, and memory efficiency in weather and climate modeling for specific regions. | 翻訳日:2024-09-13 18:42:28 公開日:2024-09-11 |
# 質問・回答サイトからのコピー・アンド・ペーストしやすさコードスニペットの影響の分析
Analyzing the Impact of Copying-and-Pasting Vulnerable Solidity Code Snippets from Question-and-Answer Websites ( http://arxiv.org/abs/2409.07586v1 ) ライセンス: Link先を確認 | Konrad Weiss, Christof Ferreira Torres, Florian Wendland, | (参考訳) Ethereumスマートコントラクトは、ブロックチェーン上にデプロイされる実行可能なプログラムである。
一度デプロイすると、固有の不変性のために更新できない。
さらに、彼らはしばしば数百万ドルの価値ある資産を管理し、攻撃者にとって魅力的なターゲットとなる。
Stack OverflowのようなQ&Aウェブサイトにポストされた脆弱性のあるコードの再利用によるプログラムの脆弱性の導入は、新しい問題ではない。
しかしながら、デプロイされたスマートコントラクトにおけるこの問題の程度を分析するための努力はほとんど行われていない。
本稿では,スマートコントラクト開発におけるQ&A Webサイトからの脆弱なコード再利用の影響について検討し,完全かつ不完全なSmart Contractコードにおいて,脆弱なコードパターンの検出にユニークなツールを提供する。
本稿では,コードスニペット(不完全なコード)を解析できるパターンベースの脆弱性検出ツールと,コードプロパティグラフの概念に基づいた完全なスマートコントラクトを提案する。
また、ファジィハッシュを利用して、デプロイされたスマートコントラクト間の脆弱なスニペットのコードクローンを迅速に検出する手法を提案する。
以上の結果から,コードスニペットに適用可能な脆弱性検索とコードクローン検出は,最先端のコードスニペットに匹敵することがわかった。
18,660のコードスニペットに関する大規模な調査によると、そのうち4,596件が脆弱で、うち7,852件のデプロイされたスマートコントラクトで616件が見つかる。
これらの結果は、脆弱性のあるコードスニペットの再利用が、現在デプロイされているスマートコントラクトの問題であることを示している。
Ethereum smart contracts are executable programs deployed on a blockchain. Once deployed, they cannot be updated due to their inherent immutability. Moreover, they often manage valuable assets that are worth millions of dollars, making them attractive targets for attackers. The introduction of vulnerabilities in programs due to the reuse of vulnerable code posted on Q&A websites such as Stack Overflow is not a new issue. However, little effort has been made to analyze the extent of this issue on deployed smart contracts. In this paper, we conduct a study on the impact of vulnerable code reuse from Q&A websites during the development of smart contracts and provide tools uniquely fit to detect vulnerable code patterns in complete and incomplete Smart Contract code. This paper proposes a pattern-based vulnerability detection tool that is able to analyze code snippets (i.e., incomplete code) as well as full smart contracts based on the concept of code property graphs. We also propose a methodology that leverages fuzzy hashing to quickly detect code clones of vulnerable snippets among deployed smart contracts. Our results show that our vulnerability search, as well as our code clone detection, are comparable to state-of-the-art while being applicable to code snippets. Our large-scale study on 18,660 code snippets reveals that 4,596 of them are vulnerable, out of which 616 can be found in 7,852 deployed smart contracts. These results highlight that the reuse of vulnerable code snippets is indeed an issue in currently deployed smart contracts. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# マルウェア検出のためのLCMの探索: レビュー, フレームワーク設計, 対策アプローチ
Exploring LLMs for Malware Detection: Review, Framework Design, and Countermeasure Approaches ( http://arxiv.org/abs/2409.07587v1 ) ライセンス: Link先を確認 | Jamal Al-Karaki, Muhammad Al-Zafar Khan, Marwan Omar, | (参考訳) マルウェアの生成と拡散にLLM(Large Language Models)の利用が増加していることは、攻撃を簡単に生成および配布する能力のため、サイバーセキュリティ上の大きな課題となっている。
単一のプロンプトは、様々な悪意のあるアクティビティを開始することができる。
本稿では,多面的アプローチによってこの問題に対処する。
まず,多様なソースからのマルウェア検出におけるLSMとその役割について概説する。
マルウェアハニーポット、テキストベースの脅威の識別、悪意のある意図を検出するためのコード解析、マルウェアの傾向分析、非標準的な偽装マルウェアの検出。
本稿では,既存の文献を詳細に分析し,LLMの安全利用の指針を定めている。
また、関連する文献を分類する分類方式も導入する。
第2に,これらの文脈におけるLLMの有効性を評価するための性能指標を提案する。
第3に,LSMを利用したマルウェア防止のためのリスク軽減フレームワークを提案する。
最後に,LLM 対応マルウェアに対するリスク軽減対策の評価を行い,その効果を実証した。
この論文は、この魅力的な人工知能分野において、今後の進歩とより深い探索を必要とする領域を提案することで締めくくっている。
The rising use of Large Language Models (LLMs) to create and disseminate malware poses a significant cybersecurity challenge due to their ability to generate and distribute attacks with ease. A single prompt can initiate a wide array of malicious activities. This paper addresses this critical issue through a multifaceted approach. First, we provide a comprehensive overview of LLMs and their role in malware detection from diverse sources. We examine five specific applications of LLMs: Malware honeypots, identification of text-based threats, code analysis for detecting malicious intent, trend analysis of malware, and detection of non-standard disguised malware. Our review includes a detailed analysis of the existing literature and establishes guiding principles for the secure use of LLMs. We also introduce a classification scheme to categorize the relevant literature. Second, we propose performance metrics to assess the effectiveness of LLMs in these contexts. Third, we present a risk mitigation framework designed to prevent malware by leveraging LLMs. Finally, we evaluate the performance of our proposed risk mitigation strategies against various factors and demonstrate their effectiveness in countering LLM-enabled malware. The paper concludes by suggesting future advancements and areas requiring deeper exploration in this fascinating field of artificial intelligence. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# エンドツーエンド暴力検出のための2次元双方向ゲート繰り返し単位畳み込みニューラルネットワーク
2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos ( http://arxiv.org/abs/2409.07588v1 ) ライセンス: Link先を確認 | Abdarahmane Traoré, Moulay A. Akhloufi, | (参考訳) ビデオにおける異常な行動検出、行動認識、戦闘、暴力検出は、近年多くの関心を集めている分野だ。
本研究では,双方向Gated Recurrent Unit (BiGRU) と2次元畳み込みニューラルネットワーク (CNN) を組み合わせて,ビデオシーケンス中の暴力を検出するアーキテクチャを提案する。
CNNは各フレームから空間特性を抽出し、BiGRUは複数のフレームからCNN抽出特徴を用いて時間的および局所的な運動特性を抽出する。
提案するエンドツーエンドのディープラーニングネットワークは、さまざまなシーンの複雑さを持つ3つの公開データセットでテストされている。
提案したネットワークは、最大98%のアキュラティを達成している。
得られた結果は,提案手法のエンド・ツー・エンド・アプローチの性能を示すものである。
Abnormal behavior detection, action recognition, fight and violence detection in videos is an area that has attracted a lot of interest in recent years. In this work, we propose an architecture that combines a Bidirectional Gated Recurrent Unit (BiGRU) and a 2D Convolutional Neural Network (CNN) to detect violence in video sequences. A CNN is used to extract spatial characteristics from each frame, while the BiGRU extracts temporal and local motion characteristics using CNN extracted features from multiple frames. The proposed end-to-end deep learning network is tested in three public datasets with varying scene complexities. The proposed network achieves accuracies up to 98%. The obtained results are promising and show the performance of the proposed end-to-end approach. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# レート・インダクタンス・チップの深層学習
Deep Learning for predicting rate-induced tipping ( http://arxiv.org/abs/2409.07590v1 ) ライセンス: Link先を確認 | Yu Huang, Sebastian Bathiany, Peter Ashwin, Niklas Boers, | (参考訳) 非線形力学系は、強制力を変化させることによって、代替としばしば著しく異なる状態の間の破滅的な遷移を示す。
臨界減速現象(Critical slowing down, CSD)は、分岐によって引き起こされた場合や、システムの内部時間スケールと比較して強制力の変化が遅い場合の遷移を予測するために用いられる。
しかし、現実の多くの状況では、これらの仮定は満たされず、強制が臨界速度を超えるため、遷移が引き起こされる可能性がある。
例えば、極氷床やアトランティック・メリディショナル・オーバーターン・サーキュレーションのような主要な地球系成分の内部の時間スケールと比較して、人為的な気候変動のペースを考えると、そのような速度によって引き起こされる転換は深刻なリスクをもたらす。
さらに、ランダムな摂動の実現によっては、いくつかの軌道は不安定な境界を越えて遷移しうるが、他の軌道は、同じ強制の下でも変化しない。
CSDに基づくインジケータは、一般的にこれらのノイズによって引き起こされる先端と先端とを区別することができない。
これは、チップのリスクを評価し、個々の軌跡を予測する能力を著しく制限します。
そこで本研究では,動的システムの遷移確率を,速度依存性の遷移に先立って予測するディープラーニングフレームワークの開発を試みている。
提案手法は,時間変化の平衡ドリフトと雑音の摂動を条件として,3種類のプリンティングの原型システム上での早期警告を発行する。
提案手法は, 長時間のリード時においても, レート・インジェクション・チップの早期検出に必要な指紋を抽出する。
以上の結果から,従来より広い種類の動的システムに対して,安全な動作空間を決定する能力の向上が期待できる。
Nonlinear dynamical systems exposed to changing forcing can exhibit catastrophic transitions between alternative and often markedly different states. The phenomenon of critical slowing down (CSD) can be used to anticipate such transitions if caused by a bifurcation and if the change in forcing is slow compared to the internal time scale of the system. However, in many real-world situations, these assumptions are not met and transitions can be triggered because the forcing exceeds a critical rate. For example, given the pace of anthropogenic climate change in comparison to the internal time scales of key Earth system components, such as the polar ice sheets or the Atlantic Meridional Overturning Circulation, such rate-induced tipping poses a severe risk. Moreover, depending on the realisation of random perturbations, some trajectories may transition across an unstable boundary, while others do not, even under the same forcing. CSD-based indicators generally cannot distinguish these cases of noise-induced tipping versus no tipping. This severely limits our ability to assess the risks of tipping, and to predict individual trajectories. To address this, we make a first attempt to develop a deep learning framework to predict transition probabilities of dynamical systems ahead of rate-induced transitions. Our method issues early warnings, as demonstrated on three prototypical systems for rate-induced tipping, subjected to time-varying equilibrium drift and noise perturbations. Exploiting explainable artificial intelligence methods, our framework captures the fingerprints necessary for early detection of rate-induced tipping, even in cases of long lead times. Our findings demonstrate the predictability of rate-induced and noise-induced tipping, advancing our ability to determine safe operating spaces for a broader class of dynamical systems than possible so far. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 非構造データからのペアワイズインタラクションの自動発見
Automated Discovery of Pairwise Interactions from Unstructured Data ( http://arxiv.org/abs/2409.07594v1 ) ライセンス: Link先を確認 | Zuheng, Xu, Moksh Jain, Ali Denton, Shawn Whitfield, Aniket Didolkar, Berton Earnshaw, Jason Hartford, | (参考訳) システムに対する摂動間のペアワイズ相互作用は、システムの基礎となるメカニズムの因果依存性の証拠を与えることができる。
観測が低次元の場合、手作業による計測では単純な統計検査に相当するが、潜伏変数に影響を及ぼす摂動間の相互作用を検出する方法は明らかではない。
ペアの介入に基づく2つのインタラクションテストを導き、これらのテストがアクティブな学習パイプラインに統合され、摂動間のペアのインタラクションを効率的に検出できることを示す。
これらの実験の価値を生物学の文脈で説明し、一つの摂動から観測できない相互作用を明らかにするために、ペアワイズ摂動実験が頻繁に使用される。
我々のテストは、画像中のピクセルなどの非構造データ上で実行することができ、通常のセルの可視性実験よりも、より一般的な相互作用の概念を可能にし、より安価な実験的なアッセイで実行することができる。
我々は、相互作用するペアを効果的に識別できるいくつかの合成および実生物学的実験を検証した。
我々は、50組の遺伝子をノックアウトし、顕微鏡画像でその効果を計測する、実際の生物学的実験に対するアプローチを評価した。
ランダム検索や標準的な能動学習ベースラインよりもはるかに多くの生物学的相互作用を再現できることを示す。
Pairwise interactions between perturbations to a system can provide evidence for the causal dependencies of the underlying underlying mechanisms of a system. When observations are low dimensional, hand crafted measurements, detecting interactions amounts to simple statistical tests, but it is not obvious how to detect interactions between perturbations affecting latent variables. We derive two interaction tests that are based on pairwise interventions, and show how these tests can be integrated into an active learning pipeline to efficiently discover pairwise interactions between perturbations. We illustrate the value of these tests in the context of biology, where pairwise perturbation experiments are frequently used to reveal interactions that are not observable from any single perturbation. Our tests can be run on unstructured data, such as the pixels in an image, which enables a more general notion of interaction than typical cell viability experiments, and can be run on cheaper experimental assays. We validate on several synthetic and real biological experiments that our tests are able to identify interacting pairs effectively. We evaluate our approach on a real biological experiment where we knocked out 50 pairs of genes and measured the effect with microscopy images. We show that we are able to recover significantly more known biological interactions than random search and standard active learning baselines. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 量子力学におけるベルの不等式入門
Introduction to Bell's inequality in Quantum Mechanics ( http://arxiv.org/abs/2409.07597v1 ) ライセンス: Link先を確認 | M. S. Guimaraes, I. Roditi, S. P. Sorella, | (参考訳) ベルの量子力学における不等式について、教育学的に紹介する。
スピン1/2$からコヒーレントで圧縮された状態まで、いくつかの例が研究されている。
メルミンの不等式とGHZ状態への一般化についても概説する。
A pedagogical introduction to Bell's inequality in Quantum Mechanics is presented. Several examples, ranging from spin $1/2$ to coherent and squeezed states are worked out. The generalization to Mermin's inequalities and to GHZ states is also outlined. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 数パラメータ速度最適化による長距離スピンシャットリング
Long distance spin shuttling enabled by few-parameter velocity optimization ( http://arxiv.org/abs/2409.07600v1 ) ライセンス: Link先を確認 | Alessandro David, Akshay Menon Pazhedath, Lars R. Schreiber, Tommaso Calarco, Hendrik Bluhm, Felix Motzoi, | (参考訳) Si/SiGeにおける移動コンベヤモード量子ドットによるスピン量子ビットのシャットリングは、スケーラブルな量子コンピューティングへの有望な経路を提供する。
近年のバレー自由度と良質な障害によるデファスティングのモデル化では、減速速度が決定され、修正しきい値以上の誤差が制限される。
この予測の精度を高め、一定の速度で10$\mu$mのシャットリングを行う場合の典型的な誤差がO(1)エラーとなることを示す。
しかし, これらの誤差は, 4つのフーリエ成分しか持たない, 非常に単純なパラメトリゼーションによるトラジェクティブシェーピングにより, 耐故障しきい値よりかなり低い値に収まることが示唆された。
Spin qubit shuttling via moving conveyor-mode quantum dots in Si/SiGe offers a promising route to scalable miniaturized quantum computing. Recent modeling of dephasing via valley degrees of freedom and well disorder dictate a slow shutting speed which seems to limit errors to above correction thresholds if not mitigated. We increase the precision of this prediction, showing that typical errors for 10 $\mu$m shuttling at constant speed results in O(1) error, using fast, automatically differentiable numerics and including improved disorder modeling and potential noise ranges. However, remarkably, we show that these errors can be brought to well below fault-tolerant thresholds using trajectory shaping with very simple parametrization with as few as 4 Fourier components, well within the means for experimental in-situ realization, and without the need for targeting or knowing the location of valley near degeneracies. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# オフラインRLのアクターに対するディープラーニング正規化の役割
The Role of Deep Learning Regularizations on Actors in Offline RL ( http://arxiv.org/abs/2409.07606v1 ) ライセンス: Link先を確認 | Denis Tarasov, Anja Surina, Caglar Gulcehre, | (参考訳) 深層学習正規化技術、例えば \emph{dropout} や \emph{layer normalization} や \emph{weight decay} は、現代の人工ニューラルネットワークの構築において広く採用されており、しばしばより堅牢なトレーニングプロセスと一般化能力の向上をもたらす。
しかしながら、 \emph{Reinforcement Learning} (RL) の領域では、これらの手法の適用は制限されており、通常は値関数推定器 \citep{hiraoka2021dropout, smith2022walk} に適用される。
この問題はオフラインのRL設定でさらに顕著で、教師あり学習と似ているが、あまり注目されていない。
連続オフラインRLにおける最近の研究は、十分に強力な批評家ネットワークを構築することができる一方で、アクターネットワークの一般化はボトルネックのままであることを示した。
本研究では、2つのアルゴリズムと3つの異なる連続D4RLドメインに対して、オフラインRLアクター批判アルゴリズムにおけるアクターネットワークに標準正規化手法を適用することにより、平均6倍の性能向上が得られることを実証的に示す。
Deep learning regularization techniques, such as \emph{dropout}, \emph{layer normalization}, or \emph{weight decay}, are widely adopted in the construction of modern artificial neural networks, often resulting in more robust training processes and improved generalization capabilities. However, in the domain of \emph{Reinforcement Learning} (RL), the application of these techniques has been limited, usually applied to value function estimators \citep{hiraoka2021dropout, smith2022walk}, and may result in detrimental effects. This issue is even more pronounced in offline RL settings, which bear greater similarity to supervised learning but have received less attention. Recent work in continuous offline RL has demonstrated that while we can build sufficiently powerful critic networks, the generalization of actor networks remains a bottleneck. In this study, we empirically show that applying standard regularization techniques to actor networks in offline RL actor-critic algorithms yields improvements of 6\% on average across two algorithms and three different continuous D4RL domains. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 悪意のあるウェブサイト識別の促進:粒状特徴分析を用いた機械学習アプローチ
Advancing Malicious Website Identification: A Machine Learning Approach Using Granular Feature Analysis ( http://arxiv.org/abs/2409.07608v1 ) ライセンス: Link先を確認 | Kinh Tran, Dusan Sovilj, | (参考訳) 悪意のあるWebサイト検出は、ますます関連性が高く、複雑なタスクであり、大量の詳細を考慮しなければならない。
私たちの目標は、これらの細部をトレーニングした機械学習モデルを作ることです。
悪意のある場合は、そのモデルが果たす役割(フィッシング、スパム、マルウェアホスティングなど)を分類する。
77の機能を提案し,9つのWebサイト分類にまたがる441,701のデータセットを作成し,モデルをトレーニングした。
提案した機能を、これらの特徴を計算するのに必要な時間とリソースと、各サブセットをモデルに含めることによるパフォーマンスの変化に基づいて、機能サブセットにグループ化した。
その結果,機能サブセットの導入に伴って,最高のパフォーマンスモデルの性能が向上することが判明した。
最終的に、我々の最高のパフォーマンスモデルは、95.89\%の精度スコアでウェブサイトを9つの分類のうち1つに分類することができた。
次に、提案した機能がいかに重要度にランク付けされ、我々のモデルによる最も関連性の高い機能のトップ10について詳細に検討した。
URL埋め込み機能のうち2つは、最高のパフォーマンスモデルによって最も関連性があり、コンテンツベースの機能はトップ10のポイントの半分を占めています。
リストの残りの部分には、ホスト機能、ロボット.txt機能、語彙機能、受動的ドメイン名システム機能など、さまざまな機能カテゴリの特異な機能が含まれていた。
Malicious website detection is an increasingly relevant yet intricate task that requires the consideration of a vast amount of fine details. Our objective is to create a machine learning model that is trained on as many of these finer details as time will allow us to classify a website as benign or malicious. If malicious, the model will classify the role it plays (phishing, spam, malware hosting, etc.). We proposed 77 features and created a dataset of 441,701 samples spanning 9 website classifications to train our model. We grouped the proposed features into feature subsets based on the time and resources required to compute these features and the performance changes with the inclusion of each subset to the model. We found that the performance of the best performing model increased as more feature subsets were introduced. In the end, our best performing model was able to classify websites into 1 of 9 classifications with a 95.89\% accuracy score. We then investigated how well the features we proposed ranked in importance and detail the top 10 most relevant features according to our models. 2 of our URL embedding features were found to be the most relevant by our best performing model, with content-based features representing half of the top 10 spots. The rest of the list was populated with singular features from different feature categories including: a host feature, a robots.txt feature, a lexical feature, and a passive domain name system feature. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# ニューラルネットワークの対向ロバスト性に対するコストアウェアアプローチ
A Cost-Aware Approach to Adversarial Robustness in Neural Networks ( http://arxiv.org/abs/2409.07609v1 ) ライセンス: Link先を確認 | Charles Meyers, Mohammad Reza Saleh Sedghpour, Tommy Löfstedt, Erik Elmroth, | (参考訳) 生産レベルのAIの普及と、実行時にモデルを回避できる敵攻撃の脅威を考えると、これらの回避攻撃に対するモデルの堅牢性を評価することが重要である。
さらに、テストモデルの変更は、モデルが(例えば車や医療画像装置)、あるいはドローンにデプロイされ、それがパフォーマンスにどのように影響するかを確認することを意味し、テストされていない変更は、開発速度を減少させ、開発コストを増大させ、効果を解析することが困難(不可能ではないとしても)になる。
本研究では, 対向雑音の存在下でのモデル性能を予測するための, クラウドネイティブ, 時間効率, 高精度な手法として生存分析を用いた。
特にニューラルネットワークでは、学習率、バッチサイズ、トレーニング時間、収束時間、デプロイメントコストの関係は非常に複雑であるため、研究者は一般的に、トレーニングデータを超えてモデルを一般化する能力を評価するために、ベンチマークデータセットに依存する。
そこで本研究では,ハードウェア選択,バッチサイズ,エポック数,テストセットの精度の測定にアクセラレーションされた故障時間モデルを用い,実世界へのモデルをデプロイする前に,参照モデルアーキテクチャ上で障害を誘導するために逆アタックを用いる手法を提案する。
我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
これにより、モデルを評価し、単一のステップで最適化すると同時に、トレーニング時間、予測時間、精度に対するモデルパラメータの影響をモデル化することが可能になる。
この手法を用いることで、より新しい、より強力なハードウェアがトレーニング時間を短縮することを示したが、金銭的、電力的コストが精度の限界ゲインをはるかに上回っている。
Considering the growing prominence of production-level AI and the threat of adversarial attacks that can evade a model at run-time, evaluating the robustness of models to these evasion attacks is of critical importance. Additionally, testing model changes likely means deploying the models to (e.g. a car or a medical imaging device), or a drone to see how it affects performance, making un-tested changes a public problem that reduces development speed, increases cost of development, and makes it difficult (if not impossible) to parse cause from effect. In this work, we used survival analysis as a cloud-native, time-efficient and precise method for predicting model performance in the presence of adversarial noise. For neural networks in particular, the relationships between the learning rate, batch size, training time, convergence time, and deployment cost are highly complex, so researchers generally rely on benchmark datasets to assess the ability of a model to generalize beyond the training data. To address this, we propose using accelerated failure time models to measure the effect of hardware choice, batch size, number of epochs, and test-set accuracy by using adversarial attacks to induce failures on a reference model architecture before deploying the model to the real world. We evaluate several GPU types and use the Tree Parzen Estimator to maximize model robustness and minimize model run-time simultaneously. This provides a way to evaluate the model and optimise it in a single step, while simultaneously allowing us to model the effect of model parameters on training time, prediction time, and accuracy. Using this technique, we demonstrate that newer, more-powerful hardware does decrease the training time, but with a monetary and power cost that far outpaces the marginal gains in accuracy. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# データ処理量の増加:超高速機械学習による多様性の低下を緩和しながらデータカバレッジを最適化する
When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential ( http://arxiv.org/abs/2409.07610v1 ) ライセンス: Link先を確認 | Jason B. Gibson, Tesia D. Janicki, Ajinkya C. Hire, Chris Bishop, J. Matthew D. Lane, Richard G. Hennig, | (参考訳) 機械学習型原子間ポテンシャル(MLIP)は材料モデリングにおいて重要なツールになりつつある。
しかし、MLIPのパラメータ化に使用されるトレーニングデータの生成を最適化することは、依然として大きな課題である。
これは、MLIPがトレーニングデータにあるものとは異なるローカル環境に遭遇する際に失敗する可能性があるためである。
分子動力学(MD)シミュレーションで発生する環境を決定するのが困難であることは、多種多様な高品質なトレーニングデータを必要とする。
本研究では,非晶質窒化ケイ素をモデルとした超高速力場(UF$^3$)を用いたMLIPの性能に及ぼすトレーニングデータの多様性の影響について検討した。
専門家と自律的に生成されたデータを用いて、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超え,シミュレーション精度を低下させる可能性がある。
具体的には,窒素量の多い構造を除去したトレーニングデータのサブセットに基づいてトレーニングしたUF$^3$変異体は,他のどの変種よりも予測とシミュレーションの精度が大幅に向上した。
これらのUF$^3$の変種を比較することで、複雑な物質挙動をモデル化する上で、アプリケーション固有のトレーニングデータの重要性を強調し、正確なMLIPを作成するための曖昧な要求を強調します。
Machine-learned interatomic potentials (MLIPs) are becoming an essential tool in materials modeling. However, optimizing the generation of training data used to parameterize the MLIPs remains a significant challenge. This is because MLIPs can fail when encountering local enviroments too different from those present in the training data. The difficulty of determining \textit{a priori} the environments that will be encountered during molecular dynamics (MD) simulation necessitates diverse, high-quality training data. This study investigates how training data diversity affects the performance of MLIPs using the Ultra-Fast Force Field (UF$^3$) to model amorphous silicon nitride. We employ expert and autonomously generated data to create the training data and fit four force-field variants to subsets of the data. Our findings reveal a critical balance in training data diversity: insufficient diversity hinders generalization, while excessive diversity can exceed the MLIP's learning capacity, reducing simulation accuracy. Specifically, we found that the UF$^3$ variant trained on a subset of the training data, in which nitrogen-rich structures were removed, offered vastly better prediction and simulation accuracy than any other variant. By comparing these UF$^3$ variants, we highlight the nuanced requirements for creating accurate MLIPs, emphasizing the importance of application-specific training data to achieve optimal performance in modeling complex material behaviors. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 機械学習を用いたイランの干ばつ危機に対するTwitter利用者の意見の検出と分類
Detection and Classification of Twitter Users' Opinions on Drought Crises in Iran Using Machine Learning Techniques ( http://arxiv.org/abs/2409.07611v1 ) ライセンス: Link先を確認 | Somayeh Labafi, Leila Rabiei, Zeinab Rajabi, | (参考訳) 本研究の目的は、イランの干ばつ危機に関連するペルシア語を話すTwitterユーザーの意見を特定し、分類し、その後プラットフォーム上でこれらの意見を検出するモデルを開発することである。
これを実現するために,イランの干ばつ問題に関して,ペルシア語を話すTwitterユーザの意見を検出するために,機械学習とテキストマイニングを用いてモデルを開発した。
この調査の統計には、1年間に投稿された干ばつ関連ツイート42,028件が含まれていた。
これらのツイートは、イランの干ばつに関するキーワードを使ってTwitterから抽出された。
その後、2300のツイートのサンプルを質的に分析し、ラベル付けし、分類し、調査した。
次に、干ばつとこれらの危機に対するイラン人の弾力性に関する4つのカテゴリの利用者の意見が特定された。
これら4つのカテゴリに基づいて、ロジスティック回帰に基づく機械学習モデルがトレーニングされ、Twitter投稿のさまざまな意見の予測と検出が可能になった。
開発されたモデルは66.09%の精度でFスコアは60%であり、このモデルはイランのTwitterユーザーの干ばつに関する意見を検出するのに優れた性能を示している。
機械学習を使ってTwitterのようなプラットフォーム上の干ばつに関する意見を検出する能力は、これらの危機に直面したイラン社会のレジリエンスレベルをインテリジェントに表現し、この領域の政策立案者に世論の変化を知らせることができる。
The main objective of this research is to identify and classify the opinions of Persian-speaking Twitter users related to drought crises in Iran and subsequently develop a model for detecting these opinions on the platform. To achieve this, a model has been developed using machine learning and text mining methods to detect the opinions of Persian-speaking Twitter users regarding the drought issues in Iran. The statistical population for the research included 42,028 drought-related tweets posted over a one-year period. These tweets were extracted from Twitter using keywords related to the drought crises in Iran. Subsequently, a sample of 2,300 tweets was qualitatively analyzed, labeled, categorized, and examined. Next, a four-category classification of users` opinions regarding drought crises and Iranians' resilience to these crises was identified. Based on these four categories, a machine learning model based on logistic regression was trained to predict and detect various opinions in Twitter posts. The developed model exhibits an accuracy of 66.09% and an F-score of 60%, indicating that this model has good performance for detecting Iranian Twitter users' opinions regarding drought crises. The ability to detect opinions regarding drought crises on platforms like Twitter using machine learning methods can intelligently represent the resilience level of the Iranian society in the face of these crises, and inform policymakers in this area about changes in public opinion. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# フラキソニウムと後空洞の間の可逆符号とのin-situチューナブル相互作用
In-situ tunable interaction with an invertible sign between a fluxonium and a post cavity ( http://arxiv.org/abs/2409.07612v1 ) ライセンス: Link先を確認 | Desislava G. Atanasova, Ian Yang, Teresa Hönigl-Decrinis, Daria Gusenkova, Ioan M. Pop, Gerhard Kirchmair, | (参考訳) ボソニックモードを用いた量子計算は、複雑な情報処理タスクを実行するために量子力学の原理を利用するための強力なパラダイムを示す。
超伝導回路を用いたボソニック量子ビットの構築において、非線形性は典型的にはアシラリー2レベル量子ビットを介してキャビティモードに導入される。
しかし、アンシラの急激な加熱は完全なフォールトトレラントなボソニッククビットへの進行を妨げている。
使用していない場合、アンシラを分離できる能力は有益であるが、まだ実現されていない。
本研究は, 読み出し共振器を介してフラクソニウムアンシラに結合した3次元後空洞を含む, 量子情報処理のための新しいアーキテクチャを提案する。
この系の複雑なエネルギー準位構造は、フラクソニウムループをスレッディングする磁場によってサインをその場で調整できる複雑な相互作用の風景をもたらす。
その結果,ボソニック量子ビットの寿命と可制御性が著しく向上した。
Quantum computation with bosonic modes presents a powerful paradigm for harnessing the principles of quantum mechanics to perform complex information processing tasks. In constructing a bosonic qubit with superconducting circuits, nonlinearity is typically introduced to a cavity mode through an ancillary two-level qubit. However, the ancilla's spurious heating has impeded progress towards fully fault-tolerant bosonic qubits. The ability to in-situ decouple the ancilla when not in use would be beneficial but has not been realized yet. This work presents a novel architecture for quantum information processing, comprising a 3D post cavity coupled to a fluxonium ancilla via a readout resonator. This system's intricate energy level structure results in a complex landscape of interactions whose sign can be tuned in situ by the magnetic field threading the fluxonium loop. Our results could significantly advance the lifetime and controllability of bosonic qubits. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# トーケンチューリングマシンは効率的な視覚モデルである
Token Turing Machines are Efficient Vision Models ( http://arxiv.org/abs/2409.07613v1 ) ライセンス: Link先を確認 | Purvish Jajal, Nick John Eliopoulos, Benjamin Shiue-Hal Chou, George K. Thiravathukal, James C. Davis, Yung-Hsiang Lu, | (参考訳) 高速・低レイテンシ・メモリ拡張型ビジョントランス (ViT) であるビジョントークンチューリングマシン (ViTTM) を提案する。
提案手法は,NLPおよび逐次視覚理解タスクに適用したニューラルチューリングマシンとトケンチューリングマシンをベースとした。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
プロセストークンはエンコーダブロックを通り、ネットワーク内の各エンコーダブロックのメモリトークンから読み書きされ、メモリから情報を格納および取得することができる。
メモリトークンよりも少ないプロセストークンを確保することで、その正確性を保ちながら、ネットワークの推論時間を短縮できるのです。
ImageNet-1Kでは、最先端のViT-Bは529.5ms、精度81.0%であり、VTTM-Bは56%(234.1ms)、FLOPは2.4倍、精度82.9%である。
ADE20Kセマンティックセグメンテーションでは、VT-Bは毎秒13.8フレームで45.65mIoUを達成するが、VTTM-Bモデルは26.8FPS(+94%)の45.17mIoUを達成している。
We propose Vision Token Turing Machines (ViTTM), an efficient, low-latency, memory-augmented Vision Transformer (ViT). Our approach builds on Neural Turing Machines and Token Turing Machines, which were applied to NLP and sequential visual understanding tasks. ViTTMs are designed for non-sequential computer vision tasks such as image classification and segmentation. Our model creates two sets of tokens: process tokens and memory tokens; process tokens pass through encoder blocks and read-write from memory tokens at each encoder block in the network, allowing them to store and retrieve information from memory. By ensuring that there are fewer process tokens than memory tokens, we are able to reduce the inference time of the network while maintaining its accuracy. On ImageNet-1K, the state-of-the-art ViT-B has median latency of 529.5ms and 81.0% accuracy, while our ViTTM-B is 56% faster (234.1ms), with 2.4 times fewer FLOPs, with an accuracy of 82.9%. On ADE20K semantic segmentation, ViT-B achieves 45.65mIoU at 13.8 frame-per-second (FPS) whereas our ViTTM-B model acheives a 45.17 mIoU with 26.8 FPS (+94%). | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# 大規模言語モデルの混合を用いたゼロショットマシン生成テキスト検出
Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models ( http://arxiv.org/abs/2409.07615v1 ) ライセンス: Link先を確認 | Matthieu Dubois, François Yvon, Pablo Piantanida, | (参考訳) 大規模で訓練され、強力なテキスト生成能力を備えた大規模言語モデル(LLM)の普及は、有害、有害、偽、偽のコンテンツの生成コストを削減し、生成AI技術によって引き起こされる脅威を大幅に増大させた。
これに対し、人文テキストから人工的に生成されたテキストを自動的に識別する様々な提案がなされており、典型的には、この問題を分類問題とみなす。
殆どのアプローチは、低パープレキシティスコアが確実に機械製コンテンツにシグナルを与えると仮定して、ウェルコセン検出器LDMによる入力文書を評価する。
1つの検出器を使用することで性能の脆さが引き起こされるので、我々は代わりにいくつかのことを考慮し、それぞれの強度を組み合わせるための新しい理論的なアプローチを導出する。
種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
The dissemination of Large Language Models (LLMs), trained at scale, and endowed with powerful text-generating abilities has vastly increased the threats posed by generative AI technologies by reducing the cost of producing harmful, toxic, faked or forged content. In response, various proposals have been made to automatically discriminate artificially generated from human-written texts, typically framing the problem as a classification problem. Most approaches evaluate an input document by a well-chosen detector LLM, assuming that low-perplexity scores reliably signal machine-made content. As using one single detector can induce brittleness of performance, we instead consider several and derive a new, theoretically grounded approach to combine their respective strengths. Our experiments, using a variety of generator LLMs, suggest that our method effectively increases the robustness of detection. | 翻訳日:2024-09-13 18:31:44 公開日:2024-09-11 |
# SL_2(\mathbb{N}$)のトラップドア片道埋め込みによる公開鍵暗号
Public-key encryption from a trapdoor one-way embedding of $SL_2(\mathbb{N}$) ( http://arxiv.org/abs/2409.07616v1 ) ライセンス: Link先を確認 | Robert Hines, | (参考訳) 簡単な分解アルゴリズム(SL_2(\mathbb{N})$)で2つのジェネレータ上の自由モノイド中の与えられた長さの単語を難解化し、公開鍵暗号スキームを作成する。
我々はPythonの参照実装と提案されたパラメータを提供します。
セキュリティ分析は、弱いものと存在しないものとの間にある。
We obfuscate words of a given length in a free monoid on two generators with a simple factorization algorithm (namely $SL_2(\mathbb{N})$) to create a public-key encryption scheme. We provide a reference implementation in Python and suggested parameters. The security analysis is between weak and non-existent, left to future work. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 基礎モデルを理解する: 私たちは1924年に戻ってきたか?
Understanding Foundation Models: Are We Back in 1924? ( http://arxiv.org/abs/2409.07618v1 ) ライセンス: Link先を確認 | Alan F. Smeaton, | (参考訳) 本稿では,AIにおけるファンデーションモデル(FM)の急速な発展とそのインテリジェンスと推論への応用について考察する。
FMの特徴について検討し、膨大なデータセットのトレーニングや、セマンティックな関係を捉えるための埋め込み空間の利用を含む。
本論文は, モデルサイズが増大するだけでなく, グルーキングのような学習現象を生じさせる新しい学習技術に起因して, FMの推論能力の最近の進歩について論じる。
また、FMのベンチマークの課題にも対処し、その構造を人間の脳と比較する。
FMは推論と知識表現において有望な発展を示すが、人間の脳機能を理解するための神経科学の継続的な取り組みと同様に、その内部の働きを理解することは大きな課題である。
いくつかの類似点があるにもかかわらず、FMと人間の脳の構造の根本的な違いは、直接比較したり、神経科学がFM機能に対する即時的な洞察を提供することを期待していることを警告している。
This position paper explores the rapid development of Foundation Models (FMs) in AI and their implications for intelligence and reasoning. It examines the characteristics of FMs, including their training on vast datasets and use of embedding spaces to capture semantic relationships. The paper discusses recent advancements in FMs' reasoning abilities which we argue cannot be attributed to increased model size but to novel training techniques which yield learning phenomena like grokking. It also addresses the challenges in benchmarking FMs and compares their structure to the human brain. We argue that while FMs show promising developments in reasoning and knowledge representation, understanding their inner workings remains a significant challenge, similar to ongoing efforts in neuroscience to comprehend human brain function. Despite having some similarities, fundamental differences between FMs and the structure of human brain warn us against making direct comparisons or expecting neuroscience to provide immediate insights into FM function. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 隠れマルコフモデルを用いたシーケンス分類のためのアンサンブル法
Ensemble Methods for Sequence Classification with Hidden Markov Models ( http://arxiv.org/abs/2409.07619v1 ) ライセンス: Link先を確認 | Maxime Kawawa-Beaudan, Srijan Sood, Soham Palande, Ganapathy Mani, Tucker Balch, Manuela Veloso, | (参考訳) 本稿では,隠れマルコフモデル (HMM) のためのアンサンブル手法を用いたシーケンス分類への軽量なアプローチを提案する。
HMMは、その単純さ、解釈可能性、効率性のために、不均衡または小さいデータセットを持つシナリオにおいて、大きな利点を提供する。
これらのモデルは金融や生物学といった分野において特に効果的であり、伝統的な手法は高い特徴次元と様々なシーケンス長に苦しむ。
アンサンブルに基づくスコアリング手法により,任意の長さのシーケンスの比較が可能となり,不均衡なデータセットの性能が向上する。
この研究は二項分類問題、特に負のクラスが多数(例:正規データ)であり、正のクラスが少数(例:異常データ)であり、しばしば極度の分布スキューを伴う場合に焦点を当てる。
マルチクラス問題に一般化し,分類と異常検出をサポートするHMMアンサンブルの新しいトレーニング手法を提案する。
提案手法は,ランダムなデータサブセットを用いてクラス固有のモデル群に適合し,クラス間での確率を比較して合成スコアを生成し,高い平均精度とAUCを実現する。
さらに、我々のアプローチを畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory Network(LSTM)といったニューラルネットワークベースの手法と比較し、データスカース環境でのHMMの効率性と堅牢性を強調した。
実世界のユースケースに触発された本手法は,様々なベンチマークにおいて堅牢な性能を示し,多様なアプリケーションに対して柔軟なフレームワークを提供する。
We present a lightweight approach to sequence classification using Ensemble Methods for Hidden Markov Models (HMMs). HMMs offer significant advantages in scenarios with imbalanced or smaller datasets due to their simplicity, interpretability, and efficiency. These models are particularly effective in domains such as finance and biology, where traditional methods struggle with high feature dimensionality and varied sequence lengths. Our ensemble-based scoring method enables the comparison of sequences of any length and improves performance on imbalanced datasets. This study focuses on the binary classification problem, particularly in scenarios with data imbalance, where the negative class is the majority (e.g., normal data) and the positive class is the minority (e.g., anomalous data), often with extreme distribution skews. We propose a novel training approach for HMM Ensembles that generalizes to multi-class problems and supports classification and anomaly detection. Our method fits class-specific groups of diverse models using random data subsets, and compares likelihoods across classes to produce composite scores, achieving high average precisions and AUCs. In addition, we compare our approach with neural network-based methods such as Convolutional Neural Networks (CNNs) and Long Short-Term Memory networks (LSTMs), highlighting the efficiency and robustness of HMMs in data-scarce environments. Motivated by real-world use cases, our method demonstrates robust performance across various benchmarks, offering a flexible framework for diverse applications. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# ステレオビジョンとSLAMの統合によるオブジェクト深さとサイズ推定
Object Depth and Size Estimation using Stereo-vision and Integration with SLAM ( http://arxiv.org/abs/2409.07623v1 ) ライセンス: Link先を確認 | Layth Hamad, Muhammad Asif Khan, Amr Mohamed, | (参考訳) 自律ロボットは、様々な環境における効率的で安全なナビゲーションのために、同時ローカライゼーションとマッピング(SLAM)を使用する。
LiDARセンサーは、これらのシステムにおいて、物体の識別と位置決めに不可欠である。
しかし, 固体物(ごみ箱, ボトルなど)の検出には有効であるが, 反射特性が乏しいため, 半透明物や無形物(火災, 煙, 蒸気など)の識別に限界がある。
加えて、LiDARはナビゲーションサインのような特徴の検出にも失敗し、効果的なレーザー反射のための表面を欠いた危険な物質の検出に苦慮することが多い。
本稿では,自律ロボットにおけるLiDARを補完する高精度な立体視手法を提案する。
このシステムは、高度な立体視に基づく物体検出を使用して、有形物体と非有形物体の両方を検出し、単純な機械学習を用いて物体の深さと大きさを正確に推定する。
深さと大きさの情報はSLAMプロセスに統合され、複雑な環境でロボットのナビゲーション能力を高める。
我々は,LiDARとステレオビジョンシステムを備えた自律型ロボットを用いて,物体の深さと大きさを推定する際の高精度な評価を行った。
提案されたスキームの動画は以下の通りである。
v=nusI6tA9eSk}。
Autonomous robots use simultaneous localization and mapping (SLAM) for efficient and safe navigation in various environments. LiDAR sensors are integral in these systems for object identification and localization. However, LiDAR systems though effective in detecting solid objects (e.g., trash bin, bottle, etc.), encounter limitations in identifying semitransparent or non-tangible objects (e.g., fire, smoke, steam, etc.) due to poor reflecting characteristics. Additionally, LiDAR also fails to detect features such as navigation signs and often struggles to detect certain hazardous materials that lack a distinct surface for effective laser reflection. In this paper, we propose a highly accurate stereo-vision approach to complement LiDAR in autonomous robots. The system employs advanced stereo vision-based object detection to detect both tangible and non-tangible objects and then uses simple machine learning to precisely estimate the depth and size of the object. The depth and size information is then integrated into the SLAM process to enhance the robot's navigation capabilities in complex environments. Our evaluation, conducted on an autonomous robot equipped with LiDAR and stereo-vision systems demonstrates high accuracy in the estimation of an object's depth and size. A video illustration of the proposed scheme is available at: \url{https://www.youtube.com/watch?v=nusI6tA9eSk}. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# NISQ時代の量子機械学習における一般化誤差境界
Generalization Error Bound for Quantum Machine Learning in NISQ Era -- A Survey ( http://arxiv.org/abs/2409.07626v1 ) ライセンス: Link先を確認 | Bikram Khanal, Pablo Rivas, Arun Sanjel, Korn Sooksatra, Ernesto Quevedo, Alejandro Rodriguez, | (参考訳) 量子革命への期待が高まっているにもかかわらず、ノイズ中間スケール量子(NISQ)時代の量子機械学習(QML)の成功は、ほとんど未解明の要素である一般化エラーバウンド(英語版)、堅牢で信頼性の高い機械学習モデルの基礎に基づいている。
現在のQML研究は、新しいアルゴリズムや応用を幅広く研究しているが、主にノイズフリーで理想的な量子コンピュータの文脈にある。
しかし、NISQ時代のデバイスにおける量子回路(QC)の動作は、様々なノイズ源や誤差の影響を受けやすい。
本稿では,NISQ-eraにおける教師付きQMLのための最先端の一般化を探索し,その分野における最新の実践を分析するために,システムマッピング研究(SMS)を実施している。
本研究は,既存の計算プラットフォームを,量子ハードウェア,データセット,最適化手法,文献に見られる境界の共通特性で体系的に要約する。
さらに、MNISTやIRISデータセットのような古典的なベンチマークデータセットにおいて、様々なアプローチのパフォーマンス精度を示す。
SMSはまた、NISQ時代のQMLの限界と課題を強調し、分野を前進させる今後の研究の方向性について論じている。
5つの信頼できるインデクサで詳細なBoolean演算子クエリを使用して、544の論文を収集し、37の関連記事の小さなセットにフィルタリングしました。
この濾過は、よく定義された研究の質問と包摂と排除の基準でSMSのベストプラクティスに従って行われた。
Despite the mounting anticipation for the quantum revolution, the success of Quantum Machine Learning (QML) in the Noisy Intermediate-Scale Quantum (NISQ) era hinges on a largely unexplored factor: the generalization error bound, a cornerstone of robust and reliable machine learning models. Current QML research, while exploring novel algorithms and applications extensively, is predominantly situated in the context of noise-free, ideal quantum computers. However, Quantum Circuit (QC) operations in NISQ-era devices are susceptible to various noise sources and errors. In this article, we conduct a Systematic Mapping Study (SMS) to explore the state-of-the-art generalization bound for supervised QML in NISQ-era and analyze the latest practices in the field. Our study systematically summarizes the existing computational platforms with quantum hardware, datasets, optimization techniques, and the common properties of the bounds found in the literature. We further present the performance accuracy of various approaches in classical benchmark datasets like the MNIST and IRIS datasets. The SMS also highlights the limitations and challenges in QML in the NISQ era and discusses future research directions to advance the field. Using a detailed Boolean operators query in five reliable indexers, we collected 544 papers and filtered them to a small set of 37 relevant articles. This filtration was done following the best practice of SMS with well-defined research questions and inclusion and exclusion criteria. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 動的ヘッダを用いたレコメンダシステムのユーザ生成レビューの活用
Leveraging User-Generated Reviews for Recommender Systems with Dynamic Headers ( http://arxiv.org/abs/2409.07627v1 ) ライセンス: Link先を確認 | Shanu Vashishtha, Abhay Kumar, Lalitesh Morishetti, Kaushiki Nag, Kannan Achan, | (参考訳) 電子商取引プラットフォームは、顧客のショッピング上の関心を満たすための膨大なアイテムカタログを持っている。
これらのプラットフォームのほとんどは、顧客が望む商品を素早く見つけられるよう最適化されたレコメンデーションカルーセルを提供することによって、ショッピングプロセスにおける顧客を支援する。
学術文献では、これらのカルーセルの項目のランク付けとリコールセットの生成と向上のために多くのモデルが提案されている。
伝統的に、これらカルーセルのタイトルテキスト(ヘッダー)は静止している。
ほとんどの場合、"現在の視聴に類似したアイテム"のような一般的なテキストが利用される。
また、特定の属性である「類似販売者からの商品」や「類似ブランドからの商品」の他、「頻繁に購入される」「一緒に考える」といった定型的なバリエーションも観察されている。
本研究は,これらのカルーセルのヘッダ生成プロセスをカスタマイズするための新しいアプローチを提案する。
本研究は,対象項目とのインタラクションにおいてユーザから好意的に認識された項目の属性(アスペクト)に焦点をあてたユーザ生成レビューを活用する。
我々はこれらの側面をレビューから抽出し、条件付きランキングタスクの枠組みの下でグラフニューラルネットワークベースのモデルを訓練する。
本稿では,アンカーアイテムとそのリコールセットに対して複数のヘッダテキストを生成するDTS(Dynamic Text Snippets)と呼ぶ。
提案手法は,ユーザ生成レビューを活用する可能性を示し,コンテキスト対応レコメンデーションシステムを探求するためのユニークなパラダイムを示す。
E-commerce platforms have a vast catalog of items to cater to their customers' shopping interests. Most of these platforms assist their customers in the shopping process by offering optimized recommendation carousels, designed to help customers quickly locate their desired items. Many models have been proposed in academic literature to generate and enhance the ranking and recall set of items in these carousels. Conventionally, the accompanying carousel title text (header) of these carousels remains static. In most instances, a generic text such as "Items similar to your current viewing" is utilized. Fixed variations such as the inclusion of specific attributes "Other items from a similar seller" or "Items from a similar brand" in addition to "frequently bought together" or "considered together" are observed as well. This work proposes a novel approach to customize the header generation process of these carousels. Our work leverages user-generated reviews that lay focus on specific attributes (aspects) of an item that were favorably perceived by users during their interaction with the given item. We extract these aspects from reviews and train a graph neural network-based model under the framework of a conditional ranking task. We refer to our innovative methodology as Dynamic Text Snippets (DTS) which generates multiple header texts for an anchor item and its recall set. Our approach demonstrates the potential of utilizing user-generated reviews and presents a unique paradigm for exploring increasingly context-aware recommendation systems. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 分割可能な構成性能学習
Dividable Configuration Performance Learning ( http://arxiv.org/abs/2409.07629v1 ) ライセンス: Link先を確認 | Jingzhi Gong, Tao Chen, Rami Bahsoon, | (参考訳) マシン/ディープ学習モデルは、ソフトウェアシステムの構成性能を予測するために広く採用されている。
しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。
本稿では,「分割学習」によるモデル構築の新たなパラダイムに基づく,DALと呼ばれる構成性能予測のためのモデル非依存・スポーシティ・ロバストなフレームワークを提案する。
サンプルの分散性を扱うために,構成ランドスケープから抽出したサンプルを分割して,疎局所モデル(例えば,正規化階層型相互作用ニューラルネットワーク)を構築し,特徴の分散性に対処する。
新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。
さらに、DaLは、追加のトレーニングやプロファイリングなしで、システムに必要な分割数とサンプルサイズを適応的に決定する。
12の現実世界システムと5つのトレーニングデータによる実験結果から、DaLは最先端のアプローチと比較して、精度が最大1.61倍改善された60のケースのうち44のケースにおいて、最高のシステムよりも劣悪であることがわかった。
特に、パラメータdを適応させるメカニズムは、個々のランの76.43%の最適値に達することができる。
また, 可分学習のパラダイムは, 構成性能を予測するためのアンサンブル学習などの類似のパラダイムよりも適していることを確認した。
実際にDaLは、基礎となるローカルモデルとして使用する場合、さまざまなグローバルモデルを大幅に改善し、柔軟性をさらに強化します。
Machine/deep learning models have been widely adopted for predicting the configuration performance of software systems. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose a model-agnostic and sparsity-robust framework for predicting configuration performance, dubbed DaL, based on the new paradigm of dividable learning that builds a model via "divide-and-learn". To handle sample sparsity, the samples from the configuration landscape are divided into distant divisions, for each of which we build a sparse local model, e.g., regularized Hierarchical Interaction Neural Network, to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Further, DaL adaptively determines the optimal number of divisions required for a system and sample size without any extra training or profiling. Experiment results from 12 real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, DaL performs no worse than the best counterpart on 44 out of 60 cases with up to 1.61x improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. In particular, the mechanism that adapted the parameter d can reach the optimal value for 76.43% of the individual runs. The result also confirms that the paradigm of dividable learning is more suitable than other similar paradigms such as ensemble learning for predicting configuration performance. Practically, DaL considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# HERL:強化学習を用いた適応同型暗号化による階層型フェデレーション学習
HERL: Tiered Federated Learning with Adaptive Homomorphic Encryption using Reinforcement Learning ( http://arxiv.org/abs/2409.07631v1 ) ライセンス: Link先を確認 | Jiaxang Tang, Zeshan Fayyaz, Mohammad A. Salahuddin, Raouf Boutaba, Zhi-Li Zhang, Ali Anwar, | (参考訳) フェデレートラーニング(Federated Learning)は、プライバシを保ちながら、分散化されたデータ間で機械学習モデルを協調的にトレーニングする、よく研究されているアプローチである。
しかし、データの機密性を確保するために同型暗号化を統合することは、特にクライアントが計算能力やセキュリティニーズの異なる異種環境において、重要な計算オーバーヘッドと通信オーバーヘッドをもたらす。
本稿では,強化学習に基づくアルゴリズムであるHERLを提案し,Q-Learningを用いて動的に暗号化パラメータ、特に多項式係数次数,$N$,および係数係数次数,$q$をクライアント層で最適化する。
提案手法は、選択したクラスタリング手法に従ってクライアントのファーストプロファイリングと階層化を行い、次にRLエージェントを用いて最適な暗号化パラメータを動的に選択する。
実験により,本手法は有効性と高いセキュリティを維持しつつ,計算オーバーヘッドを大幅に低減することを示した。
実証実験の結果、HERLは実用性を17%改善し、収束時間を最大24%削減し、収束効率を最大30%向上し、セキュリティ損失を最小限に抑えた。
Federated Learning is a well-researched approach for collaboratively training machine learning models across decentralized data while preserving privacy. However, integrating Homomorphic Encryption to ensure data confidentiality introduces significant computational and communication overheads, particularly in heterogeneous environments where clients have varying computational capacities and security needs. In this paper, we propose HERL, a Reinforcement Learning-based approach that uses Q-Learning to dynamically optimize encryption parameters, specifically the polynomial modulus degree, $N$, and the coefficient modulus, $q$, across different client tiers. Our proposed method involves first profiling and tiering clients according to the chosen clustering approach, followed by dynamically selecting the most suitable encryption parameters using an RL-agent. Experimental results demonstrate that our approach significantly reduces the computational overhead while maintaining utility and a high level of security. Empirical results show that HERL improves utility by 17%, reduces the convergence time by up to 24%, and increases convergence efficiency by up to 30%, with minimal security loss. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 量子機械学習における雑音に対処可能なロバスト学習
Learning Robust Observable to Address Noise in Quantum Machine Learning ( http://arxiv.org/abs/2409.07632v1 ) ライセンス: Link先を確認 | Bikram Khanal, Pablo Rivas, | (参考訳) 量子機械学習(QML)は、量子コンピューティングのパワーと機械学習の原理を組み合わせた、有望な分野として登場した。
QMLにおける重要な課題の1つは、特にノイズ中間スケール量子(NISQ)時代に量子システムのノイズを扱うことである。
量子システムのノイズは、量子計算にエラーを導入し、量子アルゴリズムの性能を低下させる。
本稿では,量子システムにおけるノイズチャネルに対して頑健な観測値の学習フレームワークを提案する。
ノイズの影響下で不変な観測値の学習が可能であることを実証し,機械学習手法により実現可能であることを示す。
本稿では, 可観測性の概念を説明するために, 脱分極チャネルの下でベル状態を用いた玩具の例を示す。
次に,6つの2量子ビット量子回路と5つのノイズチャネルにまたがる可観測性学習のための機械学習フレームワークについて述べる。
以上の結果から,従来の観測値よりも騒音に強い観測値の学習が可能であることが示唆された。
ノイズの多い環境でのQMLモデルの安定性向上への潜在的な応用を含む、量子機械学習におけるこの発見の意義について論じる。
頑健な観測対象を学習する技術を開発することで、ノイズの存在下で量子機械学習モデルの性能と信頼性を向上させることができ、NISQ時代の実用的なQMLアプリケーションの進歩に寄与する。
Quantum Machine Learning (QML) has emerged as a promising field that combines the power of quantum computing with the principles of machine learning. One of the significant challenges in QML is dealing with noise in quantum systems, especially in the Noisy Intermediate-Scale Quantum (NISQ) era. Noise in quantum systems can introduce errors in quantum computations and degrade the performance of quantum algorithms. In this paper, we propose a framework for learning observables that are robust against noisy channels in quantum systems. We demonstrate that it is possible to learn observables that remain invariant under the effects of noise and show that this can be achieved through a machine-learning approach. We present a toy example using a Bell state under a depolarization channel to illustrate the concept of robust observables. We then describe a machine-learning framework for learning such observables across six two-qubit quantum circuits and five noisy channels. Our results show that it is possible to learn observables that are more robust to noise than conventional observables. We discuss the implications of this finding for quantum machine learning, including potential applications in enhancing the stability of QML models in noisy environments. By developing techniques for learning robust observables, we can improve the performance and reliability of quantum machine learning models in the presence of noise, contributing to the advancement of practical QML applications in the NISQ era. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 気象インフォームによる電力系統の確率予測とシナリオ生成
Weather-Informed Probabilistic Forecasting and Scenario Generation in Power Systems ( http://arxiv.org/abs/2409.07637v1 ) ライセンス: Link先を確認 | Hanyu Zhang, Reza Zandehshahvar, Mathieu Tanneau, Pascal Van Hentenryck, | (参考訳) 再生可能エネルギー源(RES)の電力網への統合は、その内在的確率性と不確実性から重要な課題を示し、信頼性と効率的な予測のための新しい技術の開発を必要としている。
本稿では,高次元環境下での日頭予測と風力,太陽エネルギーのシナリオ生成のための確率予測とガウスコプラを組み合わせた手法を提案する。
気象共変量と時空間相関の復元により,RESの確率予測の信頼性を向上させる。
大規模数値実験は,MISO(Midcontinent Independent System Operator)による実世界および高次元データセットの総合的指標を用いて,異なる時系列モデルの有効性を比較検討した。
その結果,気象情報の重要性が強調され,現実的なシナリオを生成する上でガウシアン・コプラの有効性が示された。
The integration of renewable energy sources (RES) into power grids presents significant challenges due to their intrinsic stochasticity and uncertainty, necessitating the development of new techniques for reliable and efficient forecasting. This paper proposes a method combining probabilistic forecasting and Gaussian copula for day-ahead prediction and scenario generation of load, wind, and solar power in high-dimensional contexts. By incorporating weather covariates and restoring spatio-temporal correlations, the proposed method enhances the reliability of probabilistic forecasts in RES. Extensive numerical experiments compare the effectiveness of different time series models, with performance evaluated using comprehensive metrics on a real-world and high-dimensional dataset from Midcontinent Independent System Operator (MISO). The results highlight the importance of weather information and demonstrate the efficacy of the Gaussian copula in generating realistic scenarios, with the proposed weather-informed Temporal Fusion Transformer (WI-TFT) model showing superior performance. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# LLMは有効か? : GPT-4能力の固定効力低下と主張
Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities ( http://arxiv.org/abs/2409.07638v1 ) ライセンス: Link先を確認 | Thomas Ball, Shuo Chen, Cormac Herley, | (参考訳) 本稿では,LLMの性能評価について検討する。
本稿では,複数の決定論的タスクにおいてGPT-4の性能の測定を行う。各タスクは基本計算を伴い,大集団から引き出された要素(例えば,リスト内の要素数,2桁のk桁数など)を入力パラメータとして扱う。
本研究では,タスクごとのいくつかの条件を調査し,統計的に有意な差異を検出するために十分な試行を行う。
これにより,質問文と入力パラメータ群を問合せするタスク精度の感度を調べることができる。
タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。
例えば、単純なリストカウントタスクのパフォーマンスは、クエリのフレーズやリストの長さによって異なるが、リストの構成(例えば、to-be-counted)やオブジェクトの頻度(例えば、$\approx$ 50\%の要素が$\approx$ 70\%の要素を持つ場合の成功など)も異なる。
我々は,LLMの能力の定量化に向けた取り組みは,実験的な観察が不適切にデータをサポートする範囲を超えて一般化される言語・アズ・ア・エフェクト・フェース・フェース・フェース・フェース・フェース・フェース・フェース・フェース・アセス(Language-as-ef fallacy)に容易に結びつくと結論付けた。
結果として、人間との相互作用に基づいて形成された直感は、LLMのパフォーマンスに対して入力の修正が '`make no difference'' すべきという非常に信頼できないガイドを形成しているように思われる。
In this paper we explore evaluation of LLM capabilities. We present measurements of GPT-4 performance on several deterministic tasks; each task involves a basic calculation and takes as input parameter some element drawn from a large well-defined population (e.g., count elements in a list, multiply two k-digit numbers, etc). We examine several conditions per-task and perform enough trials so that statistically significant differences can be detected. This allows us to investigate the sensitivity of task-accuracy both to query phrasing and input parameter population. We find that seemingly trivial modifications in the task-prompt or input population can yield differences far larger than can be explained by sampling effects. For example, performance on a simple list-counting task varies with query-phrasing and list-length, but also with list composition (i.e., the thing-to-be-counted) and object frequency (e.g., success when an element accounts for $\approx$ 50\% of a list is different from when it accounts for $\approx$ 70\% etc). We conclude that efforts to quantify LLM capabilities easily succumb to the language-as-fixed-effect fallacy, where experimental observations are improperly generalized beyond what the data supports. A consequence appears to be that intuitions that have been formed based on interactions with humans form a very unreliable guide as to which input modifications should ``make no difference'' to LLM performance. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# Scoping Sustainable Collaborative Mixed Reality
Scoping Sustainable Collaborative Mixed Reality ( http://arxiv.org/abs/2409.07640v1 ) ライセンス: Link先を確認 | Yasra Chandio, Noman Bashir, Tian Guo, Elsa Olivetti, Fatima Anwar, | (参考訳) Mixed Reality(MR)は、教育、医療、その他のレジャー以外の分野にも応用されている。
ヘッドセットのようなMRエンドデバイスはエネルギー強度が低いが、全体のデバイス数と、クラウドとエッジエンドポイントを含むMRエコシステム全体のリソース要件は、非常に重要である。
MRの動作および実施された炭素フットプリントは、その環境への影響を懸念している。
最近の研究は、ハードウェア設計空間やネットワーク最適化を探索することで、MRデバイスの炭素フットプリントを削減することを検討している。
しかし、非プロセッサコンポーネントの省エネや協調型MRエコシステムのカーボンアウェア最適化など、MRの持続可能性を高めるための他の多くの道は未解決のままである。
本稿では,MRサステナビリティ向上のための重要な課題,既存ソリューション,将来的な研究方向性を明らかにすることを目的とする。
組み込みおよびモバイルコンピューティングシステムの隣接分野を考察し、新しいソリューションを必要とするMR固有の問題を概説する。
私たちは、研究者、開発者、ユーザが協調的なMRシステムでこれらの機会を活用できるように、取り組まなければならない課題を特定します。
Mixed Reality (MR) is becoming ubiquitous as it finds its applications in education, healthcare, and other sectors beyond leisure. While MR end devices, such as headsets, have low energy intensity, the total number of devices and resource requirements of the entire MR ecosystem, which includes cloud and edge endpoints, can be significant. The resulting operational and embodied carbon footprint of MR has led to concerns about its environmental implications. Recent research has explored reducing the carbon footprint of MR devices by exploring hardware design space or network optimizations. However, many additional avenues for enhancing MR's sustainability remain open, including energy savings in non-processor components and carbon-aware optimizations in collaborative MR ecosystems. In this paper, we aim to identify key challenges, existing solutions, and promising research directions for improving MR sustainability. We explore adjacent fields of embedded and mobile computing systems for insights and outline MR-specific problems requiring new solutions. We identify the challenges that must be tackled to enable researchers, developers, and users to avail themselves of these opportunities in collaborative MR systems. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# SimulBench: 創造的なシミュレーションタスクによる言語モデルの評価
SimulBench: Evaluating Language Models with Creative Simulation Tasks ( http://arxiv.org/abs/2409.07641v1 ) ライセンス: Link先を確認 | Qi Jia, Xiang Yue, Tianyu Zheng, Jie Huang, Bill Yuchen Lin, | (参考訳) 我々は,Linux端末として動作したり,ユーザとテキストゲームをしたりするなど,多岐にわたるクリエイティブなシミュレーションシナリオに対して,大規模言語モデル(LLM)を評価するために設計されたベンチマークであるSimulBenchを紹介した。
これらのシミュレーションタスクはLLMの汎用知能の効果的な尺度として機能するが、既存のベンチマークには組み込まれない。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
この問題に対処するために、固定LLMをユーザエージェントとして使用してLLMと関わり、まず異なるタスク下で対話を収集することを提案する。
そして、異なる目標LLMを評価するために、挑戦的な対話スクリプトを抽出する。
GPT-4は, マルチターン対話スクリプトを対象とするLLMが生成する最終応答の質を評価するために, 評価器として使用される。
我々の総合的な実験から、これらのシミュレーションタスクは、その特異性において重要な課題であり続けており、プロプライエタリなモデルと最も先進的なオープンなLLMとのギャップを示している。
例えば、GPT-4-turboは18.55\%のケースでLLaMA-3-70b-Chatを上回っている。
We introduce SimulBench, a benchmark designed to evaluate large language models (LLMs) across a diverse collection of creative simulation scenarios, such as acting as a Linux terminal or playing text games with users. While these simulation tasks serve as effective measures of an LLM's general intelligence, they are seldom incorporated into existing benchmarks. A major challenge is to develop an evaluation framework for testing different LLMs fairly while preserving the multi-round interactive nature of simulation tasks between users and AI. To tackle this issue, we suggest using a fixed LLM as a user agent to engage with an LLM to collect dialogues first under different tasks. Then, challenging dialogue scripts are extracted for evaluating different target LLMs. To facilitate automatic assessment on \DataName{}, GPT-4 is employed as the evaluator, tasked with reviewing the quality of the final response generated by the target LLMs given multi-turn dialogue scripts. Our comprehensive experiments indicate that these simulation tasks continue to pose a significant challenge with their unique natures and show the gap between proprietary models and the most advanced open LLMs. For example, GPT-4-turbo outperforms LLaMA-3-70b-Chat on 18.55\% more cases. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# システム識別ツールボックス(TM)を用いた動的システムの深層学習
Deep Learning of Dynamic Systems using System Identification Toolbox(TM) ( http://arxiv.org/abs/2409.07642v1 ) ライセンス: Link先を確認 | Tianyu Dai, Khaled Aljanaideh, Rong Chen, Rajiv Singh, Alec Stothert, Lennart Ljung, | (参考訳) 過去3年間のMATLAB(R)リリースは、システム識別ツールボックス(TM)が提供する動的モデリング機能の継続的な成長を目撃している。
ディープラーニングアーキテクチャとトレーニング技術を統合することで、ディープニューラルネットワークを非線形モデルの構築ブロックとして利用することに注力している。
このツールボックスは、大規模システムの低次モデリングに特に適した自動エンコーディング機能で拡張可能なニューラルステートスペースモデルを提供する。
このツールボックスには、最先端の機械学習技術との統合を強化し、状態推定に自動微分機能を活用し、トレーニングモデルに生の数値行列とタイムテーブルを直接使用可能にする、いくつかの拡張が含まれている。
MATLAB(R) releases over the last 3 years have witnessed a continuing growth in the dynamic modeling capabilities offered by the System Identification Toolbox(TM). The emphasis has been on integrating deep learning architectures and training techniques that facilitate the use of deep neural networks as building blocks of nonlinear models. The toolbox offers neural state-space models which can be extended with auto-encoding features that are particularly suited for reduced-order modeling of large systems. The toolbox contains several other enhancements that deepen its integration with the state-of-art machine learning techniques, leverage auto-differentiation features for state estimation, and enable a direct use of raw numeric matrices and timetables for training models. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 歩行者の意図予測における特徴の重要性 : 文脈認識による検討
Feature Importance in Pedestrian Intention Prediction: A Context-Aware Review ( http://arxiv.org/abs/2409.07645v1 ) ライセンス: Link先を確認 | Mohsen Azarmi, Mahdi Rezaei, He Wang, Ali Arabian, | (参考訳) コンピュータビジョンとディープニューラルネットワークを用いた自律走行車における歩行者横断意図の予測の最近の進歩は有望である。
しかしながら、DNNのブラックボックスの性質は、モデルがどのように機能し、入力機能が最終的な予測にどのように貢献するかを理解する上で、課題を提起する。
この解釈可能性の欠如は、モデルパフォーマンスに対する信頼を低下させ、特徴の選択、表現、モデルの最適化に関する情報的決定を妨げる。
これを解決するために,歩行者の意図予測に適した新しいアプローチであるCAPFI(Context-aware Permutation Feature Importance)を導入する。
CAPFIは、細分化されたシナリオコンテキストを活用し、ターゲットシャッフルによる特徴値のランダム性を緩和することにより、より解釈可能性と信頼性の高い特徴重要度評価を可能にする。
これは分散を減らし、置換中の重要点の偏りを抑えることを目的としている。
PIE(Pedestrian Intention Estimation)データセットを16のコンテキストセットに分割し、各コンテキストにおける意図予測のために5つの異なるニューラルネットワークアーキテクチャのベースライン性能を測定し、CAPFIを用いて入力特徴の重要度を評価する。
様々な文脈特性にまたがるモデル間のニュアンス差を観測した。
本研究は,歩行者拘束ボックスとエゴ車速度が歩行者の意図を予測する上で重要な役割を担っていること,および,クロスコンテクスト・パーミューテーション・アセスメント・アセスメントによる速度特性による潜在的な予測バイアスを明らかにする。
本稿では,動的な歩行者車移動のレンダリングにおける近接変化率を考慮し,入力特徴の意図的予測への寄与を高めることによる特徴表現を提案する。
これらの知見は、文脈的特徴の重要性と、その多様性が、正確で堅牢な意図予測モデルを開発することの重要性を浮き彫りにしている。
Recent advancements in predicting pedestrian crossing intentions for Autonomous Vehicles using Computer Vision and Deep Neural Networks are promising. However, the black-box nature of DNNs poses challenges in understanding how the model works and how input features contribute to final predictions. This lack of interpretability delimits the trust in model performance and hinders informed decisions on feature selection, representation, and model optimisation; thereby affecting the efficacy of future research in the field. To address this, we introduce Context-aware Permutation Feature Importance (CAPFI), a novel approach tailored for pedestrian intention prediction. CAPFI enables more interpretability and reliable assessments of feature importance by leveraging subdivided scenario contexts, mitigating the randomness of feature values through targeted shuffling. This aims to reduce variance and prevent biased estimations in importance scores during permutations. We divide the Pedestrian Intention Estimation (PIE) dataset into 16 comparable context sets, measure the baseline performance of five distinct neural network architectures for intention prediction in each context, and assess input feature importance using CAPFI. We observed nuanced differences among models across various contextual characteristics. The research reveals the critical role of pedestrian bounding boxes and ego-vehicle speed in predicting pedestrian intentions, and potential prediction biases due to the speed feature through cross-context permutation evaluation. We propose an alternative feature representation by considering proximity change rate for rendering dynamic pedestrian-vehicle locomotion, thereby enhancing the contributions of input features to intention prediction. These findings underscore the importance of contextual features and their diversity to develop accurate and robust intent-predictive models. | 翻訳日:2024-09-13 18:21:43 公開日:2024-09-11 |
# 絡み合いの多部埋め込み
Multipartite Embezzlement of Entanglement ( http://arxiv.org/abs/2409.07646v1 ) ライセンス: Link先を確認 | Lauritz van Luijk, Alexander Stottmeister, Henrik Wilming, | (参考訳) エンタングルメントの埋め込み(エンタングルメントのえんざい、英語: Embezzlement of entanglement)とは、アンタングルメントリソースから局所的な操作を通じて、あるいは通信なしで、リソースを任意に摂動しながら、アンタングルメントリソースからアンタングルメントを抽出するタスクである。
近年、III型フォン・ノイマン環の双分数系のエンベジング状態の存在が示されている。
しかし、マルチパーティのケースとエンベジング状態とエンベジング族の概念の正確な関係は、もともとファン・ダムとヘイデンによって定義されていた。
ここでは、多部エンベジング状態の有限次元近似が多部エンベジング族を形成することを示す。
対照的に、すべてのエンベジング族はエンベジング状態に収束するわけではない。
我々は、エンベジング族がエンベジング状態に収束することを保証する追加の一貫性条件を同定する。
この基準は、ファン・ダムとヘイデンのエンベジングの家族と、ルング、トナー、ワトラスの家族を区別する。
後者は多部設定に一般化する。
極限を取ることで、全ての状態がエンベジング状態となる、通勤型III$_1$因子のマルチパートシステムを得る。
我々は、量子場理論と量子多体物理学の文脈でこの結果について議論する。
オープンな問題として、2つ以上の時空次元の相対論的量子場の空孔が多部埋め込み状態であるかどうか、および多部埋め込みが作用素-代数的特徴を与えるかどうかを問う。
Embezzlement of entanglement refers to the task of extracting entanglement from an entanglement resource via local operations and without communication while perturbing the resource arbitrarily little. Recently, the existence of embezzling states of bipartite systems of type III von Neumann algebras was shown. However, both the multipartite case and the precise relation between embezzling states and the notion of embezzling families, as originally defined by van Dam and Hayden, was left open. Here, we show that finite-dimensional approximations of multipartite embezzling states form multipartite embezzling families. In contrast, not every embezzling family converges to an embezzling state. We identify an additional consistency condition that ensures that an embezzling family converges to an embezzling state. This criterion distinguishes the embezzling family of van Dam and Hayden from the one by Leung, Toner, and Watrous. The latter generalizes to the multipartite setting. By taking a limit, we obtain a multipartite system of commuting type III$_1$ factors on which every state is an embezzling state. We discuss our results in the context of quantum field theory and quantum many-body physics. As open problems, we ask whether vacua of relativistic quantum fields in more than two spacetime dimensions are multipartite embezzling states and whether multipartite embezzlement allows for an operator-algebraic characterization. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# DiffTED:1ショットの音声駆動TEDトークビデオ生成
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures ( http://arxiv.org/abs/2409.07649v1 ) ライセンス: Link先を確認 | Steven Hogue, Chenxu Zhang, Hamza Daruger, Yapeng Tian, Xiaohu Guo, | (参考訳) 音声駆動の音声ビデオ生成は大幅に進歩しているが、既存の手法はビデオ間翻訳技術やGANのような従来の生成ネットワークに依存しており、通常は頭と音声のジェスチャーを別々に生成し、一貫性の低い出力をもたらす。
さらに、これらの手法によって生み出されるジェスチャーは、多様性に欠ける過度にスムーズあるいは抑えられ、多くのジェスチャー中心のアプローチは音声ヘッド生成を統合しない。
これらの制約に対処するため,1枚の画像から1ショットの音声駆動型TED音声ビデオ生成のための新しいアプローチであるDiffTEDを紹介した。
具体的には,拡散モデルを用いて,時間的コヒーレントかつ多様なジェスチャーを確保しつつ,アバターのアニメーションを正確に制御し,薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
この革新的なアプローチは、学習済みの分類器に頼ることなく、ジェスチャーが音声入力で自然に流れるようにする。
実験により、DiffTEDは多様な音声ジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
Audio-driven talking video generation has advanced significantly, but existing methods often depend on video-to-video translation techniques and traditional generative networks like GANs and they typically generate taking heads and co-speech gestures separately, leading to less coherent outputs. Furthermore, the gestures produced by these methods often appear overly smooth or subdued, lacking in diversity, and many gesture-centric approaches do not integrate talking head generation. To address these limitations, we introduce DiffTED, a new approach for one-shot audio-driven TED-style talking video generation from a single image. Specifically, we leverage a diffusion model to generate sequences of keypoints for a Thin-Plate Spline motion model, precisely controlling the avatar's animation while ensuring temporally coherent and diverse gestures. This innovative approach utilizes classifier-free guidance, empowering the gestures to flow naturally with the audio input without relying on pre-trained classifiers. Experiments demonstrate that DiffTED generates temporally coherent talking videos with diverse co-speech gestures. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# ファウンデーションモデルが低レベルの知覚的類似度指標を向上
Foundation Models Boost Low-Level Perceptual Similarity Metrics ( http://arxiv.org/abs/2409.07650v1 ) ライセンス: Link先を確認 | Abhijay Ghildyal, Nabajeet Barman, Saman Zadtootaghaj, | (参考訳) ディープラーニングアプローチを用いたフルリファレンス画像品質評価(FR-IQA)では、歪んだ画像と参照画像との知覚的類似度スコアは、通常、事前訓練されたCNNまたはより最近ではトランスフォーマーネットワークから抽出された特徴間の距離測定として計算される。
これらの中間機能は、最終的な類似度スコアを人間の判断に合わせるために、追加のニューラルネットワークレイヤによるさらなる微調整や処理を必要とすることが多い。
今のところ、ほとんどのIQAモデルは、主に最終層や、品質スコア推定のための埋め込みに依存している。
対照的に、この研究は、低レベルの知覚的類似度指標の設計において、これまでほとんど研究されていないこれらの基礎モデルの中間的特徴を利用する可能性を探究している。
中間機能の方が比較的効果的であることを示す。
さらに、トレーニングを必要とせずに、これらのメトリクスは、特徴間の距離測定を利用することで、従来のものと最先端の学習メトリクスの両方を上回ります。
For full-reference image quality assessment (FR-IQA) using deep-learning approaches, the perceptual similarity score between a distorted image and a reference image is typically computed as a distance measure between features extracted from a pretrained CNN or more recently, a Transformer network. Often, these intermediate features require further fine-tuning or processing with additional neural network layers to align the final similarity scores with human judgments. So far, most IQA models based on foundation models have primarily relied on the final layer or the embedding for the quality score estimation. In contrast, this work explores the potential of utilizing the intermediate features of these foundation models, which have largely been unexplored so far in the design of low-level perceptual similarity metrics. We demonstrate that the intermediate features are comparatively more effective. Moreover, without requiring any training, these metrics can outperform both traditional and state-of-the-art learned metrics by utilizing distance measures between the features. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# 無線センサネットワーク上での分散点目標追跡におけるガウス過程の上層信頼境界
Gaussian Process Upper Confidence Bounds in Distributed Point Target Tracking over Wireless Sensor Networks ( http://arxiv.org/abs/2409.07652v1 ) ライセンス: Link先を確認 | Xingchi Liu, Lyudmila Mihaylova, Jemin George, Tien Pham, | (参考訳) 不確実性定量化は、自律システムの開発、意思決定、無線センサネットワーク(WSN)の追跡において重要な役割を果たしている。
しかし、特に分散機械学習ベースのトラッキングにおいて、センサが収集したさまざまな量のデータを扱う、確実な信頼性境界を提供する必要がある。
本稿では、このギャップを埋めることを目的として、点目標追跡のための分散ガウス過程(DGP)アプローチを提案し、状態推定の上限値(UCB)を導出する。
本論文の独特な貢献は,提案手法の導出した理論的保証と,粗い測定を伴わずに追跡するための最大精度を含む。
特に、不確実性境界を持つ先進的なアプローチは汎用的であり、信頼性を高めた信頼性の高いソリューションを提供することができる。
The novel hybrid Bayesian filtering method is proposed to improve the DGP approach by adopted a Poisson measurement chance model。
提案手法は,センサの検知範囲が限られているWSNケーススタディで検証された。
数値計算により,提案手法の追跡精度とロバスト性を示す。
得られたUPBはDGPアプローチの信頼性評価ツールを構成する。
シミュレーションの結果,提案したUCBは,信頼区間法と比較して,X座標とY座標の確率が88%,Y座標の確率が42%高い真の目標状態を含むことがわかった。
Uncertainty quantification plays a key role in the development of autonomous systems, decision-making, and tracking over wireless sensor networks (WSNs). However, there is a need of providing uncertainty confidence bounds, especially for distributed machine learning-based tracking, dealing with different volumes of data collected by sensors. This paper aims to fill in this gap and proposes a distributed Gaussian process (DGP) approach for point target tracking and derives upper confidence bounds (UCBs) of the state estimates. A unique contribution of this paper includes the derived theoretical guarantees on the proposed approach and its maximum accuracy for tracking with and without clutter measurements. Particularly, the developed approaches with uncertainty bounds are generic and can provide trustworthy solutions with an increased level of reliability. A novel hybrid Bayesian filtering method is proposed to enhance the DGP approach by adopting a Poisson measurement likelihood model. The proposed approaches are validated over a WSN case study, where sensors have limited sensing ranges. Numerical results demonstrate the tracking accuracy and robustness of the proposed approaches. The derived UCBs constitute a tool for trustworthiness evaluation of DGP approaches. The simulation results reveal that the proposed UCBs successfully encompass the true target states with 88% and 42% higher probability in X and Y coordinates, respectively, when compared to the confidence interval-based method. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# STAND:対話型タスク学習のためのデータ効率と自己認識型プレコンディション
STAND: Data-Efficient and Self-Aware Precondition Induction for Interactive Task Learning ( http://arxiv.org/abs/2409.07653v1 ) ライセンス: Link先を確認 | Daniel Weitekamp, Kenneth Koedinger, | (参考訳) STANDは、データ効率と計算効率のよい機械学習アプローチであり、インタラクティブトレーニングからの学習ルール条件のような小さなデータ表の分類問題において、XGBoostのような一般的なアプローチよりも優れた分類精度を生み出す。
STANDは、結合をランダムに破ることによって単一の一般化を選択する代わりに、優れた候補一般化の完全なセットを記述している。
STANDは、決定ツリーの学習やシーケンシャルなカバレッジなど、あらゆる欲求的な概念構築戦略を使用でき、不規則な通常の論理文よりもバージョン空間を近似する構造を構築することができる。
バージョン空間学習の候補除去アプローチとは異なり、STANDはノイズの多いデータからバージョン空間が崩壊する問題に悩まされず、厳密な結合概念の学習に制限されない。
さらに重要なことは、STANDは、ホールドアウトセットのパフォーマンスの増加を予測し、アクティブラーニングヒューリスティックとして高い実用性を持つインスタンス確実性と呼ばれる尺度を作成することができる。
インスタンスの確実性によって、STANDは自身の学習を自己認識することが可能になります。
我々は、インスタンスの確実性は、ユーザーが次のトレーニング問題を選択するのに役立つ望ましい特性を持ち、ユーザーがAIに複雑なプログラムを対話的に教えるアプリケーションでトレーニングが完了したことを推定する。
STAND is a data-efficient and computationally efficient machine learning approach that produces better classification accuracy than popular approaches like XGBoost on small-data tabular classification problems like learning rule preconditions from interactive training. STAND accounts for a complete set of good candidate generalizations instead of selecting a single generalization by breaking ties randomly. STAND can use any greedy concept construction strategy, like decision tree learning or sequential covering, and build a structure that approximates a version space over disjunctive normal logical statements. Unlike candidate elimination approaches to version-space learning, STAND does not suffer from issues of version-space collapse from noisy data nor is it restricted to learning strictly conjunctive concepts. More importantly, STAND can produce a measure called instance certainty that can predict increases in holdout set performance and has high utility as an active-learning heuristic. Instance certainty enables STAND to be self-aware of its own learning: it knows when it learns and what example will help it learn the most. We illustrate that instance certainty has desirable properties that can help users select next training problems, and estimate when training is complete in applications where users interactively teach an AI a complex program. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# チューリングテストに合格:チューリングの未来に生きる
Passed the Turing Test: Living in Turing Futures ( http://arxiv.org/abs/2409.07656v1 ) ライセンス: Link先を確認 | Bernardo Gonçalves, | (参考訳) 世界は、事前訓練されたモデル、トランスフォーマー(生成人工知能としても知られる)に基づくマシンが出現し、テキスト、画像、オーディオ、合成データなど、さまざまなタイプのコンテンツを生成できるようになった。
プリプログラミングや特別なトリックに頼らずに、経験から学びながら知性は成長し、普通の人には会話の中で人間のようなように見える。
つまり、彼らはチューリングテストに合格することができ、我々は現在、マシンがそうでないものにパスできる多くの可能なチューリングの未来の1つに住んでいます。
しかし、チューリングが模擬試験に合格すると想像していた学習機械は、低エネルギーのヒト大脳皮質の自然発生に触発された機械であった。
人間の子供のように育てられ、観察者を騙す能力が自然に学習される。
こうした「児童機械」は、チューリングが期待していたように、社会や自然に影響を及ぼすほど強力だった。
The world has seen the emergence of machines based on pretrained models, transformers, also known as generative artificial intelligences for their ability to produce various types of content, including text, images, audio, and synthetic data. Without resorting to preprogramming or special tricks, their intelligence grows as they learn from experience, and to ordinary people, they can appear human-like in conversation. This means that they can pass the Turing test, and that we are now living in one of many possible Turing futures where machines can pass for what they are not. However, the learning machines that Turing imagined would pass his imitation tests were machines inspired by the natural development of the low-energy human cortex. They would be raised like human children and naturally learn the ability to deceive an observer. These ``child machines,'' Turing hoped, would be powerful enough to have an impact on society and nature. | 翻訳日:2024-09-13 18:11:59 公開日:2024-09-11 |
# VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery
VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery ( http://arxiv.org/abs/2409.04732v2 ) ライセンス: Link先を確認 | Mohammadmahdi Honarmand, Muhammad Abdullah Jamal, Omid Mohareri, | (参考訳) ロボットおよび腹腔鏡下手術に特化して設計された新しいビデオ言語(VL)事前学習フレームワークであるVidLPROを紹介する。
既存の外科的VLモデルは、主にコントラスト学習に依存しているが、複雑な時間的ダイナミクスを捉え、動画を言語に合わせるためのより包括的なアプローチを提案する。
VidLPROは、ビデオテキストコントラスト学習、ビデオテキストマッチング、マスキング言語モデリングの目的を統合し、リッチなVL表現を学習する。
この枠組みをサポートするために,GenSurgery 由来の慎重にキュレートされたデータセットであるGenSurg+ を,Whisper モデルで抽出した転写文を用いて GPT-4 で生成されたキャプションと組み合わせた17kの手術用ビデオクリップからなる。
このデータセットは、外科領域における大規模で高品質なVLデータの必要性に対処する。
Cholec80やAutoLaparoといったベンチマークデータセットに関する大規模な実験は、我々のアプローチの有効性を実証している。
VidLPROは、ゼロショットの外科的位相認識において最先端のパフォーマンスを達成し、SurgVLPやHecVLといった既存の外科的VLモデルよりも大幅に優れている。
本モデルでは,F1スコアの精度が最大21.5\%,F1スコアが15.7%向上し,新たなベンチマークが設定された。
特に、VidLPROは、単一フレームの推論でも堅牢なパフォーマンスを示しながら、時間的コンテキストの増大によって効果的にスケールする。
アブレーション研究は、フレームサンプリング戦略がモデル性能と計算効率に与える影響を明らかにする。
これらの結果は,手術映像理解の基礎モデルとしてのVidLPROの可能性を裏付けるものである。
We introduce VidLPRO, a novel video-language (VL) pre-training framework designed specifically for robotic and laparoscopic surgery. While existing surgical VL models primarily rely on contrastive learning, we propose a more comprehensive approach to capture the intricate temporal dynamics and align video with language. VidLPRO integrates video-text contrastive learning, video-text matching, and masked language modeling objectives to learn rich VL representations. To support this framework, we present GenSurg+, a carefully curated dataset derived from GenSurgery, comprising 17k surgical video clips paired with captions generated by GPT-4 using transcripts extracted by the Whisper model. This dataset addresses the need for large-scale, high-quality VL data in the surgical domain. Extensive experiments on benchmark datasets, including Cholec80 and AutoLaparo, demonstrate the efficacy of our approach. VidLPRO achieves state-of-the-art performance in zero-shot surgical phase recognition, significantly outperforming existing surgical VL models such as SurgVLP and HecVL. Our model demonstrates improvements of up to 21.5\% in accuracy and 15.7% in F1 score, setting a new benchmark in the field. Notably, VidLPRO exhibits robust performance even with single-frame inference, while effectively scaling with increased temporal context. Ablation studies reveal the impact of frame sampling strategies on model performance and computational efficiency. These results underscore VidLPRO's potential as a foundation model for surgical video understanding. | 翻訳日:2024-09-13 13:20:50 公開日:2024-09-11 |
# 要素ワイド乗算に基づくより深い物理インフォームドニューラルネットワーク
Element-wise Multiplication Based Deeper Physics-Informed Neural Networks ( http://arxiv.org/abs/2406.04170v4 ) ライセンス: Link先を確認 | Feilong Jiang, Xiaonan Hou, Min Xia, | (参考訳) 偏微分方程式(PDE)を解くための有望な枠組みとして、物理情報ニューラルネットワーク(PINN)は産業や科学分野から広く注目を集めている。
しかし、表現力の欠如や初期化病理の問題点は、複雑なPDEにPINNを適用するのを妨げている。
本研究では,これらの問題を解決するために,より深い物理インフォームドニューラルネットワーク(Deeper-PINN)を提案する。
要素ワイド乗算演算は、特徴を高次元の非線形空間に変換するために用いられる。
Deeper-PINNは、要素の乗算操作から恩恵を受け、PINNの初期化病理を緩和し、PINNの表現能力を高める。
提案手法は様々なベンチマークで検証される。
以上の結果から,Deeper-PINNは初期化病理を効果的に解決し,強力な表現能力を示すことが示唆された。
As a promising framework for resolving partial differential equations (PDEs), Physics-Informed Neural Networks (PINNs) have received widespread attention from industrial and scientific fields. However, lack of expressive ability and initialization pathology issues are found to prevent the application of PINNs in complex PDEs. In this work, we propose Deeper Physics-Informed Neural Network (Deeper-PINN) to resolve these issues. The element-wise multiplication operation is adopted to transform features into high-dimensional, non-linear spaces. Benefiting from element-wise multiplication operation, Deeper-PINNs can alleviate the initialization pathologies of PINNs and enhance the expressive capability of PINNs. The proposed structure is verified on various benchmarks. The results show that Deeper-PINNs can effectively resolve the initialization pathology and exhibit strong expressive ability. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-11 |
# CoLaNET - 分類のためのカラム階層アーキテクチャを備えたスパイクニューラルネットワーク
CoLaNET -- A Spiking Neural Network with Columnar Layered Architecture for Classification ( http://arxiv.org/abs/2409.01230v4 ) ライセンス: Link先を確認 | Mikhail Kiselev, | (参考訳) 本稿では、幅広い教師付き学習分類タスクに使用できるスパイキングニューラルネットワーク(SNN)アーキテクチャについて述べる。
全ての参加信号(分類対象記述、正しいクラスラベル、SNN決定)がスパイクの性質を持つと仮定する。
このアーキテクチャの特徴は、異なるクラスに対応する原型ネットワーク構造と、1つのクラス(=カラム)の顕著な特異なインスタンスと、列(=層)内のニューロンの機能的に異なる個体群の組み合わせである。
もう一つの特徴は、抗ヘビアンとドーパミン修飾可塑性の新規な組み合わせである。
塑性規則は局所的であり、バックプロパゲーション原理を使わない。
それに加えて、以前の研究と同様に、全てのニューロン/塑性モデルが現代の神経チップに容易に実装されるべきという要件に導かれました。
モデルに基づく強化学習,すなわち,外界状態と対象状態との近接性を評価するタスクにおいて,私のネットワークの性能について説明する。
In the present paper, I describe a spiking neural network (SNN) architecture which, can be used in wide range of supervised learning classification tasks. It is assumed, that all participating signals (the classified object description, correct class label and SNN decision) have spiking nature. The distinctive feature of this architecture is a combination of prototypical network structures corresponding to different classes and significantly distinctive instances of one class (=columns) and functionally differing populations of neurons inside columns (=layers). The other distinctive feature is a novel combination of anti-Hebbian and dopamine-modulated plasticity. The plasticity rules are local and do not use the backpropagation principle. Besides that, as in my previous studies, I was guided by the requirement that the all neuron/plasticity models should be easily implemented on modern neurochips. I illustrate the high performance of my network on a task related to model-based reinforcement learning, namely, evaluation of proximity of an external world state to the target state. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-11 |
# Jäger:電話コールのトレースバックを自動化
Jäger: Automated Telephone Call Traceback ( http://arxiv.org/abs/2409.02839v3 ) ライセンス: Link先を確認 | David Adei, Varun Madathil, Sathvik Prasad, Bradley Reaves, Alessandra Scafuro, | (参考訳) 詐欺や不正なテレマーケティングを促進する無言電話は、ネットワークユーザーやそれを告発する規制当局を圧倒し続けている。
電話乱用を訴追する最初のステップは、発信元を特定するトレースバックだ。
この基本的な調査作業には1回の呼び出しに何時間もの手作業が必要になります。
本稿では,分散セキュアコールトレースバックシステムであるJ\"agerを紹介する。
コールパーティのプライバシを暗号化的に保存し、ピアやコールボリュームなどのキャリアのトレードシークレットを保護し、バルク分析の脅威を制限する。
セキュアなトレースバックの定義と要件を確立し、証人暗号、不明瞭な擬似ランダム関数、グループシグネチャを使用して、これらの要件を満たす一連のプロトコルを開発します。
ユニバーサルコンポジビリティフレームワークにおいて,これらのプロトコルをセキュアに証明する。
次に、J\"agerは1コールあたりの計算コストと帯域幅コストが低く、これらのコストは呼び出し量とともに線形にスケールすることを示した。
J\"ager"は、オペレーターに最小限のコストで電話不正調査に革命をもたらす、効率的でセキュアでプライバシー保護システムを提供する。
Unsolicited telephone calls that facilitate fraud or unlawful telemarketing continue to overwhelm network users and the regulators who prosecute them. The first step in prosecuting phone abuse is traceback -- identifying the call originator. This fundamental investigative task currently requires hours of manual effort per call. In this paper, we introduce J\"ager, a distributed secure call traceback system. J\"ager can trace a call in a few seconds, even with partial deployment, while cryptographically preserving the privacy of call parties, carrier trade secrets like peers and call volume, and limiting the threat of bulk analysis. We establish definitions and requirements of secure traceback, then develop a suite of protocols that meet these requirements using witness encryption, oblivious pseudorandom functions, and group signatures. We prove these protocols secure in the universal composibility framework. We then demonstrate that J\"ager has low compute and bandwidth costs per call, and these costs scale linearly with call volume. J\"ager provides an efficient, secure, privacy-preserving system to revolutionize telephone abuse investigation with minimal costs to operators. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-11 |
# 混合光子偏光と純光子偏光を混合した非線形準曲面における量子ペア生成
Quantum Pair Generation in Nonlinear Metasurfaces with Mixed and Pure Photon Polarizations ( http://arxiv.org/abs/2409.04569v2 ) ライセンス: Link先を確認 | Jiho Noh, Tomás Santiago-Cruz, Vitaliy Sultanov, Chloe F. Doiron, Sylvain D. Gennaro, Maria V. Chekhova, Igal Brener, | (参考訳) しかし, 非線形共振形地表面から発生する非古典的な光の偏光を効果的に制御することは困難である。
そこで本研究では, GaAsメタ曲面における自然パラメトリックダウンコンバージョン(SPDC)により放出される周波数非退化二光子の偏光工学を達成し, 連続体(qBIC)共鳴における準バウンド状態を用いてバイフォトン生成を促進させる方法を提案する。
包括的偏光トモグラフィーにより、放射された光子の偏光がqBICモードの遠距離場特性を直接反映することを示した。
さらに、qBICモードのタイプとメタ原子の対称性の両方を、各単光子偏光状態を制御するように調整することができ、その後の2光子偏光状態はほぼ分離可能であることを示し、調整可能な偏光を持つ単光子生成に潜在的な応用を提供する。
この研究は、量子光を生成するだけでなく、将来の量子技術にとって重要な側面である偏光を設計するために、準曲面を利用するための重要なステップを提供する。
Metasurfaces are highly effective at manipulating classical light in the linear regime; however, effectively controlling the polarization of non-classical light generated from nonlinear resonant metasurfaces remains a challenge. Here, we present a solution by achieving polarization engineering of frequency-nondegenerate biphotons emitted via spontaneous parametric down-conversion (SPDC) in GaAs metasurfaces, where quasi-bound states in the continuum (qBIC) resonances were utilized for boosting the biphoton generation. By performing a comprehensive polarization tomography, we demonstrate that the polarization of the emitted photons directly reflects the qBIC mode's far-field properties. Furthermore, we show that both the type of qBIC mode and the symmetry of the meta-atoms can be tailored to control each single-photon polarization state, and that the subsequent two-photon polarization states are nearly separable, offering potential applications in the heralded generation of single photons with adjustable polarization. This work provides a significant step towards utilizing metasurfaces to not only generate quantum light but also engineer their polarization, a critical aspect for future quantum technologies. | 翻訳日:2024-09-13 11:22:09 公開日:2024-09-11 |
# 全遷移量子プロセッサにおける静的ZZ相互作用の抑制
Suppression of static ZZ interaction in an all-transmon quantum processor ( http://arxiv.org/abs/2011.03976v3 ) ライセンス: Link先を確認 | Peng Zhao, Dong Lan, Peng Xu, Guangming Xue, Mace Blank, Xinsheng Tan, Haifeng Yu, Yang Yu, | (参考訳) 超伝導トランスモン量子ビットは、現在量子コンピューティングにおける主要な量子ビットモダリティであるが、トランスモンを持つ量子プロセッサにおけるゲート性能は、実用的な応用のために複雑なアルゴリズムの実行をサポートするには不十分であることが多い。
したがって、ゲート性能をさらに向上することが望ましい。
トランスモンの弱い非調和性のため、結合されたトランスモン間の静的ZZ相互作用は一般的に存在し、ゲート性能を損なう。
ここでは、この問題に対処するために、すべてのトランスモンシステムにおいて、未探索のパラメータ領域を理論的に探索する。
本稿では,ZZ相互作用を強く抑制し,XY相互作用を2量子ゲートの実装に十分な強度で残しながら実現可能なパラメータ領域が全トランモン系で見られることを示す。
これにより、静的ZZ相互作用による有害な影響を伴わずに、クロス共振ゲートやiSWAPゲートのような2量子ゲートを実現することができる。
これを説明するために,高速ゲート速度と条件位相誤差を劇的に低減したiSWAPゲートが実現可能であることを示す。
大規模トランスモン量子プロセッサ、特に固定結合、アドレス誤り、アイドリングエラー、静的ZZ相互作用から生じるクロストークのケースへのスケーリングも強く抑制される。
The superconducting transmon qubit is currently a leading qubit modality for quantum computing, but gate performance in quantum processor with transmons is often insufficient to support running complex algorithms for practical applications. It is thus highly desirable to further improve gate performance. Due to the weak anharmonicity of transmon, a static ZZ interaction between coupled transmons commonly exists, undermining the gate performance, and in long term, it can become performance limiting. Here we theoretically explore a previously unexplored parameter region in an all-transmon system to address this issue. We show that an feasible parameter region, where the ZZ interaction is heavily suppressed while leaving XY interaction with an adequate strength to implement two-qubit gates, can be found for all-transmon systems. Thus, two-qubit gates, such as cross-resonance gate or iSWAP gate, can be realized without the detrimental effect from static ZZ interaction. To illustrate this, we demonstrate that an iSWAP gate with fast gate speed and dramatically lower conditional phase error can be achieved. Scaling up to large-scale transmon quantum processor, especially the cases with fixed coupling, addressing error, idling error, and crosstalk that arises from static ZZ interaction could also be strongly suppressed. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# ランダム・プロジェクション分類法の近似と一般化特性
Approximation and generalization properties of the random projection classification method ( http://arxiv.org/abs/2108.06339v4 ) ライセンス: Link先を確認 | Mireille Boutin, Evzenie Coupkova, | (参考訳) 分類器の一般化ギャップは、分類器が選択される関数の集合の複雑さに関連している。
ランダムな一次元特徴を閾値付けした低複素度分類器群について検討する。
この特徴は、次数 k の単項によってパラメータ化された高次元空間にそれを埋め込んだ後に、ランダムな直線上にデータを投影することによって得られる。
より具体的には、拡張されたデータはn時間に投影され、トレーニングデータのパフォーマンスに基づいて、それらのnの中で最良の分類器が選択される。
このタイプの分類器は、穏やかな条件下でクラス条件密度の完全な知識が与えられたとき、これらの分類器の誤差は k と n が無限大になるときに最適(ベイズ)誤差に収束することを示す。
また、ランダム分類器の一般化ギャップも有界である。
一般に、これらの境界は、O(ln n) よりも大きいVC次元を持つ任意の分類器よりも優れている。
特に境界は、射影数 n が極端に大きい限り、ランダム射影アプローチの一般化ギャップは拡張空間における線型分類器のそれよりも著しく小さいことを意味する。
したがって、ある分類問題(例えば、大きな羅生門比を持つもの)に対して、クラスの中で最良のものを選ぶのではなく、ランダムにパラメータを選択することによって一般化特性が潜在的に大きなゲインを持つ。
The generalization gap of a classifier is related to the complexity of the set of functions among which the classifier is chosen. We study a family of low-complexity classifiers consisting of thresholding a random one-dimensional feature. The feature is obtained by projecting the data on a random line after embedding it into a higher-dimensional space parametrized by monomials of order up to k. More specifically, the extended data is projected n-times and the best classifier among those n, based on its performance on training data, is chosen. We show that this type of classifier is extremely flexible as, given full knowledge of the class conditional densities, under mild conditions, the error of these classifiers would converge to the optimal (Bayes) error as k and n go to infinity. We also bound the generalization gap of the random classifiers. In general, these bounds are better than those for any classifier with VC dimension greater than O(ln n). In particular, the bounds imply that, unless the number of projections n is extremely large, the generalization gap of the random projection approach is significantly smaller than that of a linear classifier in the extended space. Thus, for certain classification problems (e.g., those with a large Rashomon ratio), there is a potntially large gain in generalization properties by selecting parameters at random, rather than selecting the best one amongst the class. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# 移動可能な視覚語彙と絶対的・相対的特徴を持つオープンワールド分散ロボットの自己ローカライゼーション
Open-World Distributed Robot Self-Localization with Transferable Visual Vocabulary and Both Absolute and Relative Features ( http://arxiv.org/abs/2109.04569v3 ) ライセンス: Link先を確認 | Mitsuki Yoshida, Ryogo Yamamoto, Daiki Iwata, Kanji Tanaka, | (参考訳) 視覚ロボットの自己ローカライゼーションは、視覚ロボットナビゲーションの基本的な問題であり、モノクロやシーケンシャルなローカライゼーションを含む様々な問題設定で研究されている。
しかし、既存の多くの研究は、主に単一ロボットのシナリオに焦点を当てており、オープンワールド分散ロボットシステムのような制約のある通信能力を持つ無線ネットワークを介して接続される多様なロボットを含む一般的な設定について限定的な調査を行っている。
特に、ロボット間の視覚記述や視覚語彙などの重要な知識の伝達と共有に関する問題は、ほとんど無視されてきた。
本研究は,1)マルチモーダル,軽量,移動可能な視覚特徴にマップする教師なし視覚語彙モデル,(2)視覚語彙自体が軽量でコミュニケーションに優しいモデルである,という2つの長所を提供する,オープンワールド分散ロボットシステムを対象とした,新たな自己ローカライゼーションフレームワークを提案する。
主な焦点はモノクロビューイメージの符号化であるが、このフレームワークはシーケンシャルなローカライゼーションアプリケーションに容易に拡張できる。
絶対的および相対的両方の相補的な類似性保存機能を活用することで、フレームワークは教師なし、マルチモーダル、軽量、転送可能な要件を満たす。
すべての機能は、軽量グラフニューラルネットワークとシーングラフを使用して学習され、認識される。
提案手法の有効性は,受動的かつ能動的な自己ローカライゼーションシナリオにおいて検証される。
Visual robot self-localization is a fundamental problem in visual robot navigation and has been studied across various problem settings, including monocular and sequential localization. However, many existing studies focus primarily on single-robot scenarios, with limited exploration into general settings involving diverse robots connected through wireless networks with constrained communication capacities, such as open-world distributed robot systems. In particular, issues related to the transfer and sharing of key knowledge, such as visual descriptions and visual vocabulary, between robots have been largely neglected. This work introduces a new self-localization framework designed for open-world distributed robot systems that maintains state-of-the-art performance while offering two key advantages: (1) it employs an unsupervised visual vocabulary model that maps to multimodal, lightweight, and transferable visual features, and (2) the visual vocabulary itself is a lightweight and communication-friendly model. Although the primary focus is on encoding monocular view images, the framework can be easily extended to sequential localization applications. By utilizing complementary similarity-preserving features -- both absolute and relative -- the framework meets the requirements for being unsupervised, multimodal, lightweight, and transferable. All features are learned and recognized using a lightweight graph neural network and scene graph. The effectiveness of the proposed method is validated in both passive and active self-localization scenarios. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# DNSSECの最初の15年で重要な変化
From the Beginning: Key Transitions in the First 15 Years of DNSSEC ( http://arxiv.org/abs/2109.08783v2 ) ライセンス: Link先を確認 | Eric Osterweil, Pouyan Fotouhi Tehrani, Thomas C. Schmidt, Matthias Wählisch, | (参考訳) 2005年にDNSSEC(DNS Security Extensions)のグローバル展開が始まったとき、最初の実験が始まった。
これにより、DNSにおける疎結合なデリゲートの規模は、前例のない暗号鍵管理の課題となった。
現在の運用成功と将来の運用成功には基本的ですが、キーを安全に移行するプロセスを実証的に評価する方法という明確な概念は、私たちのコミュニティには欠如しています。
本稿では,キー遷移を形式的に特徴付け,評価する2つのビルディングブロックを提案する。
第一に、キー遷移の解剖学、すなわち、キー変化の計測可能かつ明確に定義された性質、第二に、この解剖学に基づく新しい分類モデルにより、キー遷移の実践を抽象的に記述する。
この抽象化により、運用動作の分類が可能になる。
提案するトランジションアナロジーとトランジションクラスを適用して,グローバルDNSSECデプロイメントを記述する。
具体的には、DNSSECの最初の15年間のロールアウトから得られた測定値を使用して、どのキートランジションがどの程度、どのエラーや警告の発生率に使用されたかを検出し、理解します。
以前の作業とは対照的に、1:1キーのロールオーバーだけでなく、すべてのトランジションを考慮に入れます。
以上の結果から,所定のキー管理プロセスと野生におけるキートランジションの間には,測定可能なギャップが認められた。
また、このような非準拠な移行が運用に必要であることを示す証拠も見つかる。
When the global rollout of the DNS Security Extensions (DNSSEC) began in 2005, a first-of-its-kind trial started: The complexity of a core Internet protocol was magnified in favor of better security for the overall Internet. Thereby, the scale of the loosely-federated delegation in DNS became an unprecedented cryptographic key management challenge. Though fundamental for current and future operational success, our community lacks a clear notion of how to empirically evaluate the process of securely transitioning keys. In this paper, we propose two building blocks to formally characterize and assess key transitions. First, the anatomy of key transitions, i.e., measurable and well-defined properties of key changes; and second, a novel classification model based on this anatomy for describing key transition practices in abstract terms. This abstraction allows for classifying operational behavior. We apply our proposed transition anatomy and transition classes to describe the global DNSSEC deployment. Specifically, we use measurements from the first 15 years of the DNSSEC rollout to detect and understand which key transitions have been used to what degree and which rates of errors and warnings occurred. In contrast to prior work, we consider all possible transitions and not only 1:1 key rollovers. Our results show measurable gaps between prescribed key management processes and key transitions in the wild. We also find evidence that such noncompliant transitions are needed in operations. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# まだ存在するのか? 差別的プライバシシステムに対するタイミングと浮動小数点攻撃
Are We There Yet? Timing and Floating-Point Attacks on Differential Privacy Systems ( http://arxiv.org/abs/2112.05307v4 ) ライセンス: Link先を確認 | Jiankai Jin, Eleanor McMurtry, Benjamin I. P. Rubinstein, Olga Ohrimenko, | (参考訳) 差別化プライバシは事実上のプライバシフレームワークであり、多くの成熟したソフトウェアプラットフォームを通じて実際に採用されている。
エンドツーエンドのセキュリティ保証を保証するためには,DP機構の実装を慎重に行う必要がある。
本稿では,DPシステムで一般的なノイズ発生における2つの実装欠陥について検討する。
まず,浮動小数点表現攻撃に対するガウス機構の感受性について検討する。
この最初の脆弱性の前提は、2011年にMironovがLaplaceメカニズムに対して行ったものと似ている。
我々の実験はDPアルゴリズムに対する攻撃の成功を示し、その中には微分プライベートな確率勾配勾配を用いて訓練されたディープラーニングモデルも含まれている。
論文の後半では、実数の浮動小数点表現の欠点を軽減するために以前に提案されたラプラスとガウスのメカニズムの離散的な相違について研究する。
このような実装は残念ながら別のサイドチャネル、すなわち新しいタイミングアタックに悩まされている。
ラプラス (Laplace) やガウスノイズ (Gaussian noise) を描画(離散)する時間を計測できるオブザーバは、ノイズの大きさを予測することができる。
この攻撃は、そのような機構を実装するシステムの差分プライバシー保証を無効にする。
差分プライバシーの最先端実装が、これらの攻撃の影響を受けやすいことを実証する。
DP-SGDに対する浮動小数点攻撃で最大92.56%、離散ラプラスで保護されたプライベートサムに対するエンドツーエンドのタイミング攻撃で最大99.65%の成功率を報告した。
最後に,部分緩和の評価と提案を行った。
Differential privacy is a de facto privacy framework that has seen adoption in practice via a number of mature software platforms. Implementation of differentially private (DP) mechanisms has to be done carefully to ensure end-to-end security guarantees. In this paper we study two implementation flaws in the noise generation commonly used in DP systems. First we examine the Gaussian mechanism's susceptibility to a floating-point representation attack. The premise of this first vulnerability is similar to the one carried out by Mironov in 2011 against the Laplace mechanism. Our experiments show attack's success against DP algorithms, including deep learning models trained using differentially-private stochastic gradient descent. In the second part of the paper we study discrete counterparts of the Laplace and Gaussian mechanisms that were previously proposed to alleviate the shortcomings of floating-point representation of real numbers. We show that such implementations unfortunately suffer from another side channel: a novel timing attack. An observer that can measure the time to draw (discrete) Laplace or Gaussian noise can predict the noise magnitude, which can then be used to recover sensitive attributes. This attack invalidates differential privacy guarantees of systems implementing such mechanisms. We demonstrate that several commonly used, state-of-the-art implementations of differential privacy are susceptible to these attacks. We report success rates up to 92.56% for floating-point attacks on DP-SGD, and up to 99.65% for end-to-end timing attacks on private sum protected with discrete Laplace. Finally, we evaluate and suggest partial mitigations. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# 基本量子アルゴリズム
Basic Quantum Algorithms ( http://arxiv.org/abs/2201.10574v7 ) ライセンス: Link先を確認 | Renato Portugal, | (参考訳) 量子コンピューティングは急速に進化しており、理論の基礎を再検討し、書き直し、更新せざるを得ない。
基本量子アルゴリズムは、初期の量子アルゴリズムを再考する。
この旅は1985年にDeutschが2つの領域で関数を同時に評価することから始まった。
1992年、DeutschとJozsaはブール関数が定数か平衡かを決定する量子アルゴリズムを開発した。
翌年、ベルンシュタインとヴァジラニは同じアルゴリズムを使って線型ブール関数の集合内の特定のブール関数を特定できることが分かった。
1994年、サイモンは関数がどの古典的アルゴリズムよりも指数関数的に速いかを決定する新しい量子アルゴリズムを導入した。
同年、ショアは整数因数分解と離散対数計算のための2つの画期的な量子アルゴリズムを開発し、広く使われている暗号法に脅威を与えた。
1995年、KitaevはShorのアルゴリズムの代替版を提案し、他の多くのアプリケーションで有用であることが証明された。
翌年、グロバーは量子探索アルゴリズムを考案した。
回路モデルに重点を置いて、この研究はこれらの顕著なアルゴリズムの詳細な記述を提供する。
Quantum computing is evolving so rapidly that it forces us to revisit, rewrite, and update the foundations of the theory. Basic Quantum Algorithms revisits the earliest quantum algorithms. The journey began in 1985 with Deutsch attempting to evaluate a function at two domain points simultaneously. Then, in 1992, Deutsch and Jozsa created a quantum algorithm that determines whether a Boolean function is constant or balanced. The following year, Bernstein and Vazirani realized that the same algorithm could be used to identify a specific Boolean function within a set of linear Boolean functions. In 1994, Simon introduced a novel quantum algorithm that determined whether a function was one-to-one or two-to-one exponentially faster than any classical algorithm for the same problem. That same year, Shor developed two groundbreaking quantum algorithms for integer factoring and calculating discrete logarithms, posing a threat to the widely used cryptography methods. In 1995, Kitaev proposed an alternative version of Shor's algorithms that proved valuable in numerous other applications. The following year, Grover devised a quantum search algorithm that was quadratically faster than its classical equivalent. With an emphasis on the circuit model, this work provides a detailed description of all these remarkable algorithms. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# 浅部ReLUネットワークのトレーニングにおける勾配降下によるサドル点の回避
Gradient descent provably escapes saddle points in the training of shallow ReLU networks ( http://arxiv.org/abs/2208.02083v2 ) ライセンス: Link先を確認 | Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek, | (参考訳) 力学系論は近年、勾配降下アルゴリズムが損失関数の厳密なサドル点をバイパスすることを証明するために最適化に応用されている。
しかし、現代の機械学習アプリケーションの多くでは、要求される規則性条件は満たされていない。
本稿では、関連する力学系の結果の変種である中心安定な多様体定理を証明し、そこでは正規性要件の一部を緩和する。
本稿では,浅度修正線形ユニット(ReLU)とスカラー入力によるリークReLUネットワークに着目し,機械学習タスクの関連性について検討する。
浅部ReLUおよび漏洩ReLUネットワークに対する2乗積分損失関数の臨界点を,アフィンターゲット関数に対して詳細に検討した結果,勾配降下がほとんどのサドル点を回避できることが判明した。
さらに,制限損失に対する明確なしきい値によって定量化され,良好な初期化条件下での大域的最小値への収束を証明した。
Dynamical systems theory has recently been applied in optimization to prove that gradient descent algorithms bypass so-called strict saddle points of the loss function. However, in many modern machine learning applications, the required regularity conditions are not satisfied. In this paper, we prove a variant of the relevant dynamical systems result, a center-stable manifold theorem, in which we relax some of the regularity requirements. We explore its relevance for various machine learning tasks, with a particular focus on shallow rectified linear unit (ReLU) and leaky ReLU networks with scalar input. Building on a detailed examination of critical points of the square integral loss function for shallow ReLU and leaky ReLU networks relative to an affine target function, we show that gradient descent circumvents most saddle points. Furthermore, we prove convergence to global minima under favourable initialization conditions, quantified by an explicit threshold on the limiting loss. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# セルレス大量MIMOシステムにおけるエッジキャッシングの深部強化学習
Exploiting Deep Reinforcement Learning for Edge Caching in Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2208.12453v2 ) ライセンス: Link先を確認 | Yu Zhang, Shuaifei Chen, Jiayi Zhang, | (参考訳) セルフリーな大規模マルチインプット・マルチプル出力は、多くの連続アクセスポイント(AP)を協調してオンボードユーザーに提供することで、鉄道無線通信の厳格な品質要件(QoE)を満たすことを約束している。
重要な課題は、列車の速度の増大による急激な変化による伝搬環境の変化により、所望のコンテンツをタイムリーに配信する方法である。
本稿では,このコヒーレント伝送を行ない,エンドツーエンドの遅延を低減するために,潜在的に要求されるコンテンツのキャッシュを今後のAPに積極的に行うことを提案する。
長期QoE最大化問題を定式化し、2つのキャッシュ配置アルゴリズムを提案する。
1つはヒューリスティック凸最適化(HCO)に基づいており、もう1つはソフトアクタークリティカル(SAC)を用いた深部強化学習(DRL)を利用している。
従来のベンチマークと比較すると,提案したQoEアルゴリズムとヒット確率の利点が示される。
アドバンストDRLモデルでは、SACはユーザの要求を正確に予測することで、QoE上のHCOよりも優れている。
Cell-free massive multiple-input-multiple-output is promising to meet the stringent quality-of-experience (QoE) requirements of railway wireless communications by coordinating many successional access points (APs) to serve the onboard users coherently. A key challenge is how to deliver the desired contents timely due to the radical changing propagation environment caused by the growing train speed. In this paper, we propose to proactively cache the likely-requesting contents at the upcoming APs which perform the coherent transmission to reduce end-to-end delay. A long-term QoE-maximization problem is formulated and two cache placement algorithms are proposed. One is based on heuristic convex optimization (HCO) and the other exploits deep reinforcement learning (DRL) with soft actor-critic (SAC). Compared to the conventional benchmark, numerical results show the advantage of our proposed algorithms on QoE and hit probability. With the advanced DRL model, SAC outperforms HCO on QoE by predicting the user requests accurately. | 翻訳日:2024-09-12 22:35:44 公開日:2024-09-11 |
# 分散シフトのためのラベルアライメント規則化
Label Alignment Regularization for Distribution Shift ( http://arxiv.org/abs/2211.14960v5 ) ライセンス: Link先を確認 | Ehsan Imani, Guojun Zhang, Runjia Li, Jun Luo, Pascal Poupart, Philip H. S. Torr, Yangchen Pan, | (参考訳) 最近の研究は、教師あり学習におけるラベルアライメント特性(LAP)を強調している。
この観測からインスピレーションを得て、対象領域の予測とその頂点特異ベクトルとの整合性を促進する教師なし領域適応の正規化法を提案する。
表現の正規化に重点を置く従来のドメイン適応アプローチとは異なり、ソースドメインとターゲットドメインの両方でLAPによって導かれる教師なしのターゲットデータと整合するように分類器を正規化する。
理論的解析により、ある仮定の下では、我々の解は対象の領域データの右上特異ベクトルの範囲内にあり、最適解と整合することを示した。
古典的領域適応理論で見られる最適結合リスク仮定を除去することにより,従来の領域適応手法が高い結合誤差のためにしばしば不足する問題に対処する上で,本手法の有効性を示す。
さらに、MNIST-USPSドメイン適応や言語間感情分析などのよく知られたタスクにおいて、ドメイン適応ベースラインよりもパフォーマンスが向上したことを報告した。
Recent work has highlighted the label alignment property (LAP) in supervised learning, where the vector of all labels in the dataset is mostly in the span of the top few singular vectors of the data matrix. Drawing inspiration from this observation, we propose a regularization method for unsupervised domain adaptation that encourages alignment between the predictions in the target domain and its top singular vectors. Unlike conventional domain adaptation approaches that focus on regularizing representations, we instead regularize the classifier to align with the unsupervised target data, guided by the LAP in both the source and target domains. Theoretical analysis demonstrates that, under certain assumptions, our solution resides within the span of the top right singular vectors of the target domain data and aligns with the optimal solution. By removing the reliance on the commonly used optimal joint risk assumption found in classic domain adaptation theory, we showcase the effectiveness of our method on addressing problems where traditional domain adaptation methods often fall short due to high joint error. Additionally, we report improved performance over domain adaptation baselines in well-known tasks such as MNIST-USPS domain adaptation and cross-lingual sentiment analysis. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 量子微分同相は不定因数順序を確定することはできない
Quantum diffeomorphisms cannot make indefinite causal order definite ( http://arxiv.org/abs/2211.15685v2 ) ライセンス: Link先を確認 | Anne-Catherine de la Hamette, Viktoria Kabel, Marios Christodoulou, Časlav Brukner, | (参考訳) 因果順序の不確定な分野は近年大きな進歩を遂げている。
古典的には、2つの時間的な分離事象 A と B の因果順序は、A の前の A か B のどちらかで固定されるが、量子論ではもはやそうではない。
ここでは、因果順序の重ね合わせに遭遇することができる。
量子スイッチは、不明確な因果順序を持つ最も顕著な過程の1つである。
光学量子スイッチは実験でうまく実装されているが、これは不明確な因果順序の過程をシミュレートするだけであり、真の実現には時空メトリクスの重ね合わせが必要であると主張する者もいる。
ここでは、因果次数の相対論的定義を提供し、光学的および重力的量子スイッチの両方を包含し、それらが区別されないことを示す。
さらに、この因果次数の概念はいわゆる量子微分同相の下で不変であり、一般相対論的および量子力学的意味の両方において操作的に意味のある観測可能であることを示す。
重要なことは、このオブザーバブルは、光学量子スイッチと重力量子スイッチに実装された不定因数順序を区別しないので、光学量子スイッチは重力スイッチと同程度に不定因数順序を実現するという理論を支持する。
The field of indefinite causal order has seen significant advancements in recent years. While classically the causal order of two timelike separated events A and B is fixed - either A before B or B before A - this is no longer true in quantum theory. There, it is possible to encounter superpositions of causal orders. The quantum switch is one of the most prominent processes with indefinite causal order. While the optical quantum switch has been successfully implemented in experiments, some argue that this merely simulates a process with indefinite causal order and that a superposition of spacetime metrics is required for a true realization. Here, we provide a relativistic definition of causal order, show that it encompasses both the optical and gravitational quantum switch, and does not differentiate between them. Moreover, we show that this notion of causal order is invariant under so-called quantum diffeomorphisms and that it is an operationally meaningful observable in both the general relativistic and quantum mechanical sense. Importantly, this observable does not distinguish between the indefinite causal order implemented in the optical and gravitational quantum switch, thus supporting the thesis that the optical quantum switch is just as much a realization of indefinite causal order as its gravitational counterpart. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 短ビットニューラルネットワークのロバストとスパーストレーニングのための多目的線形アンサンブル
Multi-Objective Linear Ensembles for Robust and Sparse Training of Few-Bit Neural Networks ( http://arxiv.org/abs/2212.03659v2 ) ライセンス: Link先を確認 | Ambrogio Maria Bernardelli, Stefano Gualandi, Hoong Chuin Lau, Simone Milanesi, Neil Yorke-Smith, | (参考訳) 近年,組合せ最適化を用いたニューラルネットワーク(NN)のトレーニングが注目されている。
低データ設定では、最先端の混合整数線形プログラミングソルバがNNを正確にトレーニングすることができ、GPUベースのトレーニングとハイパーパラメータチューニングを回避し、同時にネットワークをトレーニングし、スパース化することができる。
Integer Neural Networks (Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, Integer Neural Networks, In-P, ..., P}。
軽量なアーキテクチャと低消費電力デバイス上での動作能力により,認識度が向上しているNNは少ない。
本稿では,BNN と INN のトレーニングを改善するための新しい手法を提案する。
コントリビューションは、可能なクラスごとにひとつのNNをトレーニングし、最終的な出力を予測するために多数決方式を適用する、多目的アンサンブルアプローチである。
提案手法は,入力に対する小さな摂動の影響を受けず,アクティブウェイト数が極力少ないロバスト・スパシファイドネットワークを訓練する。
我々は,このBeMiアプローチを,BNN学習に焦点をあてた問題解決型NNトレーニングと勾配型トレーニングの最先端技術と比較する。
INNとBNNの利点と欠点を比較し,<-P, ..., P}間隔における重みの分布に新たな光をもたらす。
最後に、マルチオブジェクトとシングルオブジェクトのトレーニングを比較し、ロバストさとネットワークの単純さを同時に獲得し、より良いテスト性能が得られることを示す。
これまでの最先端のアプローチでは、MNISTデータセットの平均精度は51.1%であったが、BeMiアンサンブルアプローチでは、クラス毎に10のイメージでトレーニングされた場合の平均精度は68.4%、クラス毎に40のイメージでトレーニングされた場合には81.8%で、最大75.3%のNNリンクが削除された。
Training neural networks (NNs) using combinatorial optimization solvers has gained attention in recent years. In low-data settings, state-of-the-art mixed integer linear programming solvers can train exactly a NN, avoiding intensive GPU-based training and hyper-parameter tuning and simultaneously training and sparsifying the network. We study the case of few-bit discrete-valued neural networks, both Binarized Neural Networks (BNNs), whose values are restricted to +-1, and Integer Neural Networks (INNs), whose values lie in a range {-P, ..., P}. Few-bit NNs receive increasing recognition due to their lightweight architecture and ability to run on low-power devices. This paper proposes new methods to improve the training of BNNs and INNs. Our contribution is a multi-objective ensemble approach based on training a single NN for each possible pair of classes and applying a majority voting scheme to predict the final output. Our approach results in training robust sparsified networks whose output is not affected by small perturbations on the input and whose number of active weights is as small as possible. We compare this BeMi approach to the current state-of-the-art in solver-based NN training and gradient-based training, focusing on BNN learning in few-shot contexts. We compare the benefits and drawbacks of INNs versus BNNs, bringing new light to the distribution of weights over the {-P, ..., P} interval. Finally, we compare multi-objective versus single-objective training of INNs, showing that robustness and network simplicity can be acquired simultaneously, thus obtaining better test performances. While the previous state-of-the-art approaches achieve an average accuracy of 51.1% on the MNIST dataset, the BeMi ensemble approach achieves an average accuracy of 68.4% when trained with 10 images per class and 81.8% when trained with 40 images per class, having up to 75.3% NN links removed. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# プログラミングのスキルは十分ではない:コンピュータサイエンスを勉強するためにより多くの女の子を誘う悲惨な戦略
Programming Skills are Not Enough: a Greedy Strategy to Attract More Girls to Study Computer Science ( http://arxiv.org/abs/2302.06304v2 ) ライセンス: Link先を確認 | Tiziana Catarci, Luca Podo, Daniel Raffini, Paola Velardi, | (参考訳) 多くの研究で、一般的に女子学生はICTのコースを受講することを望んでいないことが観察されている。
近年の文献では、これらの規律に関する女子の偏見を損なうことは、青年期には非常に困難であることが指摘されており、コンピュータの規律に関する意識プログラムを有効にするためには、就学前や中等教育の段階で提供すべきだと示唆されている。
一方、中学校や幼稚園で大規模コンピュータリテラシープログラムを直ちに活性化できると仮定しても、これらのプログラムの有効性を評価できるまで15~20年は待たない。
ICTにおける女性の不足は、国家の技術革新に明白な負の影響をもたらし、即時行動を必要とする。
本稿では,サピエンザ大学の工学科とコンピュータ科学科が連携し,女子高生に新しい技術やICTの重要性を知ってもらうための戦略とプログラムの詳細について述べる。
理論的アプローチを説明することに加えて、この論文はいくつかのプロジェクト例を提供している。
It has been observed in many studies that female students in general are unwilling to undertake a course of study in ICT. Recent literature has also pointed out that undermining the prejudices of girls with respect to these disciplines is very difficult in adolescence, suggesting that, to be effective, awareness programs on computer disciplines should be offered in pre-school or lower school age. On the other hand, even assuming that large-scale computer literacy programs can be immediately activated in lower schools and kindergartens, we can't wait for >15-20 years before we can appreciate the effectiveness of these programs. The scarcity of women in ICT has a tangible negative impact on countries' technological innovation, which requires immediate action. In this paper, we describe a strategy, and the details of a number of programs coordinated by the Engineering and Computer Science Departments at Sapienza University, to make high school girl students aware of the importance of new technologies and ICT. In addition to describing the theoretical approach, the paper offers some project examples. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性
Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v7 ) ライセンス: Link先を確認 | Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart, | (参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。
このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。
平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。
勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。
勾配流に対して異なるエネルギー汎関数とメトリクスを選択することにより、異なる収束特性を持つ異なるアルゴリズムが生じる。
本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。
ここでは勾配流に対するアフィン不変性とその対応する平均場モデルを導入し、与えられた計量がアフィン不変性につながるかどうかを判断し、もしそうでなければそれをアフィン不変性に修正する。
確率密度空間とガウス空間の両方で得られる勾配流について検討する。
ガウス空間のフローは、フローのガウス近似として理解することができる。
計量とモーメント閉包に基づくガウス近似が一致することを実証し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。
Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 確率間のアルゴリズム情報について
On the Algorithmic Information Between Probabilities ( http://arxiv.org/abs/2303.07296v2 ) ライセンス: Link先を確認 | Samuel Epstein, | (参考訳) 我々はアルゴリズムの保存不等式を確率測度まで拡張する。
確率測度の自己情報の量は、ランダム化された処理に送信しても増加しない。
これは(潜在的に計算不可能な)有限列、無限列、および2番目の可算位相である$T_0$を含む。
1つの例は、確率核を持つ実数上の信号の畳み込みである。
したがって、任意の信号のスムース化は、量子的測定によって、純粋な状態の圧倒的多数に対して有意義な情報が生成されないことを示す。
We extend algorithmic conservation inequalities to probability measures. The amount of self information of a probability measure cannot increase when submitted to randomized processing. This includes (potentially non-computable) measures over finite sequences, infinite sequences, and $T_0$, second countable topologies. One example is the convolution of signals over real numbers with probability kernels. Thus the smoothing of any signal due We show that given a quantum measurement, for an overwhelming majority of pure states, no meaningful information is produced. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 予算上の医療拡散:医療画像生成のためのテキスト・インバージョン
Medical diffusion on a budget: Textual Inversion for medical image generation ( http://arxiv.org/abs/2303.13430v2 ) ライセンス: Link先を確認 | Bram de Wilde, Anindo Saha, Maarten de Rooij, Henkjan Huisman, Geert Litjens, | (参考訳) テキスト・画像生成のための拡散モデルは、その効率、アクセシビリティ、品質で知られており、人気を集めている。
コンシューマグレードのGPU上のこれらのシステムによる推論は、ますます実現可能になっているが、スクラッチからのトレーニングには、大きなキャプション付きデータセットと重要な計算リソースが必要である。
医用画像生成では、テキストレポート付き大規模で一般公開されたデータセットの可用性が制限されているため、法的および倫理的懸念による課題が生じる。
本研究は,テキストインバージョンを用いたテキスト埋め込みのトレーニングにより,事前学習した安定拡散モデルを医用画像モダリティに適応させることが可能であることを示す。
本研究では,3つのモダリティからそれぞれ100サンプルの小さな医療データセットを実験し,診断精度の高い画像を生成するために数時間以内に訓練を行った。
テキスト・インバージョン・トレーニングと推論・パラメータを用いた実験は、より大きな埋め込みや医療領域におけるより多くの例の必要性を明らかにしている。
前立腺癌をMRIで検出するための診断精度(AUC)は0.78から0.80に増加した。
さらなる実験では、病気の補間、病態の組み合わせ、および正確な病気の外観制御のための塗布による埋め込み柔軟性が実証された。
トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
Diffusion models for text-to-image generation, known for their efficiency, accessibility, and quality, have gained popularity. While inference with these systems on consumer-grade GPUs is increasingly feasible, training from scratch requires large captioned datasets and significant computational resources. In medical image generation, the limited availability of large, publicly accessible datasets with text reports poses challenges due to legal and ethical concerns. This work shows that adapting pre-trained Stable Diffusion models to medical imaging modalities is achievable by training text embeddings using Textual Inversion. In this study, we experimented with small medical datasets (100 samples each from three modalities) and trained within hours to generate diagnostically accurate images, as judged by an expert radiologist. Experiments with Textual Inversion training and inference parameters reveal the necessity of larger embeddings and more examples in the medical domain. Classification experiments show an increase in diagnostic accuracy (AUC) for detecting prostate cancer on MRI, from 0.78 to 0.80. Further experiments demonstrate embedding flexibility through disease interpolation, combining pathologies, and inpainting for precise disease appearance control. The trained embeddings are compact (less than 1 MB), enabling easy data sharing with reduced privacy concerns. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# デジタル農業の環境影響を考えるための方法論
Towards a methodology to consider the environmental impacts of digital agriculture ( http://arxiv.org/abs/2305.09250v2 ) ライセンス: Link先を確認 | Pierre La Rocca, | (参考訳) 農業は温暖化に影響を及ぼし、収穫は温暖化によって脅かされる。
情報通信技術(ICT)は、監視とプロセス最適化を通じて、この緊張を緩和する潜在的なレバーとみなされることが多い。
しかし、農業ICTは積極的に推進されているものの、環境への影響は見過ごされているようである。
恐らくリバウンド効果は、予想される利益を抑え、農業の持続可能性を妨げる可能性がある。
本研究は、環境フットプリント評価手法をデジタル農業の文脈に適用することにより、農業ICTシステムの環境フットプリントと必要なインフラを考慮した方法論を定義することを目的とする。
期待されている貢献は、農業の持続可能性、充足性、レジリエンスに対する異なる技術経路の効果と結果を評価するために、デジタル化シナリオに基づいた、現在および将来のモデルを提案することである。
最終的な結果は、社会的議論や政治的決定の啓蒙に役立つかもしれない。
Agriculture affects global warming, while its yields are threatened by it. Information and communication technology (ICT) is often considered as a potential lever to mitigate this tension, through monitoring and process optimization. However, while agricultural ICT is actively promoted, its environmental impact appears to be overlooked. Possible rebound effects could put at stake its net expected benefits and hamper agriculture sustainability. By adapting environmental footprint assessment methods to digital agriculture context, this research aims at defining a methodology taking into account the environmental footprint of agricultural ICT systems and their required infrastructures. The expected contribution is to propose present and prospective models based on possible digitalization scenarios, in order to assess effects and consequences of different technological paths on agriculture sustainability, sufficiency and resilience. The final results could be useful to enlighten societal debates and political decisions. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 絶対最大エントロピーの原理
The Principle of Uncertain Maximum Entropy ( http://arxiv.org/abs/2305.09868v4 ) ライセンス: Link先を確認 | Kenneth Bogert, Matthew Kothe, | (参考訳) 最大エントロピーの原理は、バイアスを最小限にしながら利用可能な情報と一致する分布を選択するための確立された手法である。
科学分野や機械学習で広く使われている。
しかし、定義されている原理は観測におけるノイズや誤差の影響を受けやすい。
これにより、現実の実践者は原則の緩やかなバージョンをアドホックな方法で使用せざるを得なくなり、解釈に悪影響を及ぼす。
この状況に対処するため、我々は、古典的な原理を一般化し、使用中の観測方法に関係なく解釈可能な解を提供する不確実な最大エントロピーと呼ぶ新しい原理を提案する。
我々は新しい原理の解を見つけるために凸近似と期待最大化に基づくアルゴリズムを導入する。
最後に、この新手法を理論的に2つのより単純な一般応用解と対比し、実験によりこれらの手法がより優れた精度を提供することを示す。
The principle of maximum entropy is a well-established technique for choosing a distribution that matches available information while minimizing bias. It finds broad use across scientific disciplines and in machine learning. However, the principle as defined by is susceptible to noise and error in observations. This forces real-world practitioners to use relaxed versions of the principle in an ad hoc way, negatively impacting interpretation. To address this situation, we present a new principle we call uncertain maximum entropy that generalizes the classic principle and provides interpretable solutions irrespective of the observational methods in use. We introduce a convex approximation and expectation-maximization based algorithm for finding solutions to our new principle. Finally, we contrast this new technique with two simpler generally applicable solutions theoretically and experimentally show our technique provides superior accuracy. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# RRWKV:RWKVの長距離依存性をキャプチャする
RRWKV: Capturing Long-range Dependencies in RWKV ( http://arxiv.org/abs/2306.05176v3 ) ライセンス: Link先を確認 | Leilei Wang, | (参考訳) ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。
近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非トランスフォーマーアーキテクチャに従っている。
RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。
そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value (RRWKV) アーキテクチャを考案する。
Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 圧縮センシングによる量子位相推定
Quantum Phase Estimation by Compressed Sensing ( http://arxiv.org/abs/2306.07008v4 ) ライセンス: Link先を確認 | Changhao Yi, Cunlu Zhou, Jun Takahashi, | (参考訳) 信号回復アルゴリズムとして、圧縮されたセンシングは、データが低複雑さでサンプルが希少である場合に特に有用であり、量子位相推定(QPE)のタスクと完全に一致する。
本研究では,圧縮センシングに基づく初期量子コンピュータのための新しいハイゼンベルク限定QPEアルゴリズムを提案する。
より具体的には、適切な初期状態の多くのコピーと、いくつかのユニタリ演算子へのクエリを考慮すれば、我々のアルゴリズムは、合計ランタイム$\mathcal{O}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$で周波数を復元することができる。
さらに、最大実行時間は、最先端のアルゴリズムに匹敵する$T_{\max}\epsilon \ll \pi$を満足する。
また、より一般的な量子固有値推定問題(QEEP)を考察し、オフグリッド圧縮センシングがQEEPの解決の有力な候補であることを示す。
As a signal recovery algorithm, compressed sensing is particularly useful when the data has low-complexity and samples are rare, which matches perfectly with the task of quantum phase estimation (QPE). In this work we present a new Heisenberg-limited QPE algorithm for early quantum computers based on compressed sensing. More specifically, given many copies of a proper initial state and queries to some unitary operators, our algorithm is able to recover the frequency with a total runtime $\mathcal{O}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$, where $\epsilon$ is the accuracy. Moreover, the maximal runtime satisfies $T_{\max}\epsilon \ll \pi$, which is comparable to the state of art algorithms, and our algorithm is also robust against certain amount of noise from sampling. We also consider the more general quantum eigenvalue estimation problem (QEEP) and show numerically that the off-grid compressed sensing can be a strong candidate for solving the QEEP. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# 量子ドットにおける断熱量子ポンプの熱力学
Thermodynamics of adiabatic quantum pumping in quantum dots ( http://arxiv.org/abs/2306.08621v4 ) ライセンス: Link先を確認 | Daniele Nello, Alessandro Silva, | (参考訳) 2つのフェルミオンリードに接続された単一レベルの量子ドットである共鳴レベルモデルによる断熱量子ポンピングを考察する。
断熱膨張のツールを用いて, 点のエネルギーレベルと熱浴によるトンネル速度の変動を考慮した, このモデルの自己完結型熱力学記述法を開発した。
これにより、発生したエントロピーや消散力など、関連する熱力学量を計算するポンプサイクルの様々な例を研究できる。
これらの量は系の輸送特性、すなわち励起電荷と電荷雑音と比較される。
その結果, 電荷量子化限界ではエントロピー生成速度が消失し, 散逸した電力は同じ限界で量子化されることがわかった。
We consider adiabatic quantum pumping through a resonant level model, a single-level quantum dot connected to two fermionic leads. Using the tools of adiabatic expansion, we develop a self-contained thermodynamic description of this model accounting for the variation of the energy level of the dot and the tunnelling rates with the thermal baths. This enables us to study various examples of pumping cycles computing the relevant thermodynamic quantities, such as the entropy produced and the dissipated power. These quantities are compared with the transport properties of the system, i.e. the pumped charge and the charge noise. Among other results, we find that the entropy production rate vanishes in the charge quantization limit while the dissipated power is quantized in the same limit. | 翻訳日:2024-09-12 22:28:06 公開日:2024-09-11 |
# マクロ生物系における非古典性の時間的証人
Temporal witnesses of non-classicality in a macroscopic biological system ( http://arxiv.org/abs/2306.12799v3 ) ライセンス: Link先を確認 | Giuseppe Di Pietra, Vlatko Vedral, Chiara Marletto, | (参考訳) ポリマーに沿ったエクシトン移動は、光合成バイオシステムにおける光の収穫など、多くの生物学的プロセスにおいて不可欠である。
ここでは、この現象に非古典性の新たな証人を適用し、励起子が光子のコヒーレント量子進化を仲介できるならば、励起子は非古典的であると結論付ける。
次に, 高分子鎖に沿ったエクシトンを量子移動するための一般量子ビットモデルを提案し, 環境デコヒーレンスの影響を議論する。
この結果の一般性は、複雑な生体分子の量子特性の新しい試験を設計するのに理想的な候補となる。
Exciton transfer along a polymer is essential for many biological processes, for instance light harvesting in photosynthetic biosystems. Here we apply a new witness of non-classicality to this phenomenon, to conclude that, if an exciton can mediate the coherent quantum evolution of a photon, then the exciton is non-classical. We then propose a general qubit model for the quantum transfer of an exciton along a polymer chain, also discussing the effects of environmental decoherence. The generality of our results makes them ideal candidates to design new tests of quantum features in complex bio-molecules. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# 音声認識システムにおける言語間変換学習の活用
Leveraging Cross-Lingual Transfer Learning in Spoken Named Entity Recognition Systems ( http://arxiv.org/abs/2307.01310v2 ) ライセンス: Link先を確認 | Moncef Benaicha, David Thulke, M. A. Tuğtekin Turan, | (参考訳) 最近の名前付きエンティティ認識(NER)の進歩は、テキスト分類機能を大幅に強化した。
本論文は,音声コンテキストに対する包括的データセットの欠如により,広く研究されていない領域である音声文書検索を対象とする音声NERに焦点を当てた。
さらに、低リソース状況下での言語間移動学習の可能性については、さらなる調査が必要である。
本研究では,パイプラインとEnd-to-End(E2E)の両方を用いて,オランダ語,英語,ドイツ語間の移動学習手法を適用した。
We used Wav2Vec2 XLS-R models on custom pseudo-annotated datasets to evaluate the adaptability of cross-lingual systems。
異なるアーキテクチャ構成の探索は、音声NERにおけるこれらのシステムの堅牢性を評価した。
その結果,E2Eモデルはパイプラインモデルよりも優れていることがわかった。
さらに、ドイツ語からオランダへの移行学習は、スタンドアロンのオランダのE2Eシステムよりも7%、オランダのパイプラインモデルよりも4%向上した。
本研究は、音声NERにおける言語間移動の有効性を強調し、これらのシステムを改善するための追加データ収集の必要性を強調した。
Recent Named Entity Recognition (NER) advancements have significantly enhanced text classification capabilities. This paper focuses on spoken NER, aimed explicitly at spoken document retrieval, an area not widely studied due to the lack of comprehensive datasets for spoken contexts. Additionally, the potential for cross-lingual transfer learning in low-resource situations deserves further investigation. In our study, we applied transfer learning techniques across Dutch, English, and German using both pipeline and End-to-End (E2E) approaches. We employed Wav2Vec2 XLS-R models on custom pseudo-annotated datasets to evaluate the adaptability of cross-lingual systems. Our exploration of different architectural configurations assessed the robustness of these systems in spoken NER. Results showed that the E2E model was superior to the pipeline model, particularly with limited annotation resources. Furthermore, transfer learning from German to Dutch improved performance by 7% over the standalone Dutch E2E system and 4% over the Dutch pipeline model. Our findings highlight the effectiveness of cross-lingual transfer in spoken NER and emphasize the need for additional data collection to improve these systems. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# ディープラーニング自動走行システムにおける予測と計画の統合
The Integration of Prediction and Planning in Deep Learning Automated Driving Systems: A Review ( http://arxiv.org/abs/2308.05731v3 ) ライセンス: Link先を確認 | Steffen Hagedorn, Marcel Hallgarten, Martin Stoll, Alexandru Condurache, | (参考訳) 自動走行は、個人、公共、貨物の移動に革命をもたらす可能性がある。
環境を正確に把握するためには、自動運転車は安全で快適で効率的な移動路を計画する必要がある。
安全と進歩を促進するために、多くの研究は周囲の交通の将来の動きを予測するモジュールに依存している。
モジュール化された自動運転システムは、予測と計画を逐次的に別々のタスクとして扱うのが一般的である。
これは、周囲の交通がエゴ車に与える影響を説明できるが、エゴ車の行動に対する交通参加者の反応を予測できない。
最近の手法は、双方向の相互作用をモデル化するための共同または相互依存的なステップにおいて、予測と計画を統合する傾向にある。
現在、異なる統合原則に関する包括的な概要が欠落している。
我々は、最先端のディープラーニングベースの計画システムを体系的にレビューし、どのように予測を統合するかに焦点を当てる。
システムアーキテクチャからハイレベルな振る舞いの側面まで、統合のさまざまな側面が考慮され、互いに関連しています。
さらに、異なる統合原則の意味、強み、限界についても論じる。
研究のギャップを指摘し、今後の課題を解説し、研究分野のトレンドを強調することによって、今後の研究の有望な方向性を明らかにする。
Automated driving has the potential to revolutionize personal, public, and freight mobility. Beside accurately perceiving the environment, automated vehicles must plan a safe, comfortable, and efficient motion trajectory. To promote safety and progress, many works rely on modules that predict the future motion of surrounding traffic. Modular automated driving systems commonly handle prediction and planning as sequential, separate tasks. While this accounts for the influence of surrounding traffic on the ego vehicle, it fails to anticipate the reactions of traffic participants to the ego vehicle's behavior. Recent methods increasingly integrate prediction and planning in a joint or interdependent step to model bidirectional interactions. To date, a comprehensive overview of different integration principles is lacking. We systematically review state-of-the-art deep learning-based planning systems, and focus on how they integrate prediction. Different facets of the integration ranging from system architecture to high-level behavioral aspects are considered and related to each other. Moreover, we discuss the implications, strengths, and limitations of different integration principles. By pointing out research gaps, describing relevant future challenges, and highlighting trends in the research field, we identify promising directions for future research. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# 6つの拡張されたウィグナーの友人議論のレビューと分析
A review and analysis of six extended Wigner's friend arguments ( http://arxiv.org/abs/2308.16220v3 ) ライセンス: Link先を確認 | David Schmid, Yìlè Yīng, Matthew Leifer, | (参考訳) ウィグナーの友人による思考実験は、エージェントが測定を行う際に、エージェントを量子システムとして記述することの難しさを説明することを目的としていた。
量子論の正統的な解釈に挑戦するが、現代のほとんどの解釈は困難を解決するのに問題はない。
近年、ウィグナーのアイデアの多くの拡張が提案されている。
我々はそのような6つの議論を穏やかに紹介し、それらの多くは可能な限りシンプルで統一されたものに修正する。
特に、すべての議論が、原理上もどの観測者にもアクセスできない測定結果間の相関関係に関する仮定にヒンジしていることを示す。
次に、各議論について批判的な分析を行い、特にこれらの到達不能な相関に関する仮定をいかにうまく動機付けるかに焦点を当てる。
これらの仮定のいくつかは、完全に動機づけられているわけではないが、全ての議論は量子論の性質、特にエージェントの記述とその測定について光を当てている。
The Wigner's friend thought experiment was intended to illustrate the difficulty one has in describing an agent as a quantum system when that agent performs a measurement. While it does pose a challenge to the orthodox interpretation of quantum theory, most modern interpretations have no trouble in resolving the difficulty. Recently, a number of extensions of Wigner's ideas have been proposed. We provide a gentle introduction to six such arguments, modifying the specifics of many of them so that they are as simple and unified as possible. In particular, we show that all of the arguments hinge on assumptions about correlations between measurement outcomes that are not accessible to any observer, even in principle. We then provide a critical analysis of each argument, focusing especially on how well one can motivate the required assumptions regarding these inaccessible correlations. Although we argue that some of these assumptions are not entirely well-motivated, all of the arguments do shed light on the nature of quantum theory, especially when concerning the description of agents and their measurements. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# EventTrojan: 知覚不可能なイベントによる非侵入的音声品質評価の操作
EventTrojan: Manipulating Non-Intrusive Speech Quality Assessment via Imperceptible Events ( http://arxiv.org/abs/2309.01480v2 ) ライセンス: Link先を確認 | Ying Ren, Kailai Shen, Zhe Ye, Diqun Yan, | (参考訳) 非侵入的音声品質評価(NISQA)は,参照音声を必要とせず,音声の平均評価スコア(MOS)を予測する上で大きな注目を集めている。
研究者は徐々に様々なシナリオにNISQAを適用し始めている。
しかし、NISQAモデルのセキュリティにはほとんど注意が払われていない。
バックドア攻撃はディープニューラルネットワーク(DNN)にとって最も深刻な脅威である。
しかし、既存のバックドア攻撃では、攻撃者は推論フェーズ中にモデルにトリガーを含むサンプルを積極的に供給していると仮定している。
これは NISQA の特定のシナリオに適合しない。
そして、現在の回帰タスクに対するバックドア攻撃には、攻撃性能を測定する客観的な指標が欠けている。
これらの問題に対処するために、NISQAモデルを使用したイベントをトリガーとして利用する新しいバックドアトリガ手法(EventTrojan)を提案する。
さらに,リグレッションタスクに対するバックドア攻撃の客観的指標を革新的に提供した。
4つのベンチマークデータセットに対する大規模な実験は、EventTrojan攻撃の有効性を示している。
また、いくつかの防御方法にも耐性がある。
Non-Intrusive speech quality assessment (NISQA) has gained significant attention for predicting speech's mean opinion score (MOS) without requiring the reference speech. Researchers have gradually started to apply NISQA to various practical scenarios. However, little attention has been paid to the security of NISQA models. Backdoor attacks represent the most serious threat to deep neural networks (DNNs) due to the fact that backdoors possess a very high attack success rate once embedded. However, existing backdoor attacks assume that the attacker actively feeds samples containing triggers into the model during the inference phase. This is not adapted to the specific scenario of NISQA. And current backdoor attacks on regression tasks lack an objective metric to measure the attack performance. To address these issues, we propose a novel backdoor triggering approach (EventTrojan) that utilizes an event during the usage of the NISQA model as a trigger. Moreover, we innovatively provide an objective metric for backdoor attacks on regression tasks. Extensive experiments on four benchmark datasets demonstrate the effectiveness of the EventTrojan attack. Besides, it also has good resistance to several defense methods. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# 脳腫瘍の分節化に関するセグメンテーションモデル
Segment Anything Model for Brain Tumor Segmentation ( http://arxiv.org/abs/2309.08434v2 ) ライセンス: Link先を確認 | Peng Zhang, Yaping Wang, | (参考訳) グリオーマ(Glioma)は、個体に重大な健康リスクをもたらす脳腫瘍である。
脳腫瘍の正確なセグメンテーションは臨床診断と治療に不可欠である。
Meta AIがリリースしたSegment Anything Model(SAM)は、画像セグメンテーションの基本モデルであり、ゼロサンプルの一般化機能に優れています。
したがって、SAMを脳腫瘍セグメンテーションの課題に適用することは興味深い。
そこで本研究では, SAMの脳腫瘍セグメンテーションにおける性能について検討し, モデル微調整がなければ, SAMと現状SOTAモデルとの間には相違があることを見出した。
Glioma is a prevalent brain tumor that poses a significant health risk to individuals. Accurate segmentation of brain tumor is essential for clinical diagnosis and treatment. The Segment Anything Model(SAM), released by Meta AI, is a fundamental model in image segmentation and has excellent zero-sample generalization capabilities. Thus, it is interesting to apply SAM to the task of brain tumor segmentation. In this study, we evaluated the performance of SAM on brain tumor segmentation and found that without any model fine-tuning, there is still a gap between SAM and the current state-of-the-art(SOTA) model. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# パラレル・イン・タイム確率数値ODEソルバ
Parallel-in-Time Probabilistic Numerical ODE Solvers ( http://arxiv.org/abs/2310.01145v2 ) ライセンス: Link先を確認 | Nathanael Bosch, Adrien Corenflos, Fatemeh Yaghoobi, Filip Tronarp, Philipp Hennig, Simo Särkkä, | (参考訳) 常微分方程式(ODE)の確率論的数値解法は、力学系の数値シミュレーションをベイズ状態推定の問題として扱う。
この定式化の利点は、ODE溶液上に後続分布を生成して数値近似誤差を定量化すること以外に、ベイズフィルタと平滑化の枠組みで数値シミュレーションを定式化することによって得られるアルゴリズムの柔軟性である。
本稿では、この柔軟性を活用し、反復拡張カルマンスムーダの時間並列定式化に基づいて、並列時間確率数値ODEソルバを定式化する。
現在の確率的解法が行うように、動的系を時間的に逐次シミュレーションする代わりに、提案手法は全ての時間ステップを並列に処理することで、時間ステップ数において、スパンコストを線形から対数に削減する。
提案手法の有効性を様々なODE上で実証し,古典的および確率的数値ODE解法の両方と比較する。
Probabilistic numerical solvers for ordinary differential equations (ODEs) treat the numerical simulation of dynamical systems as problems of Bayesian state estimation. Aside from producing posterior distributions over ODE solutions and thereby quantifying the numerical approximation error of the method itself, one less-often noted advantage of this formalism is the algorithmic flexibility gained by formulating numerical simulation in the framework of Bayesian filtering and smoothing. In this paper, we leverage this flexibility and build on the time-parallel formulation of iterated extended Kalman smoothers to formulate a parallel-in-time probabilistic numerical ODE solver. Instead of simulating the dynamical system sequentially in time, as done by current probabilistic solvers, the proposed method processes all time steps in parallel and thereby reduces the span cost from linear to logarithmic in the number of time steps. We demonstrate the effectiveness of our approach on a variety of ODEs and compare it to a range of both classic and probabilistic numerical ODE solvers. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# 依存入力を持つブラックボックスモデルのホップディング分解
Hoeffding decomposition of black-box models with dependent inputs ( http://arxiv.org/abs/2310.06567v3 ) ライセンス: Link先を確認 | Marouane Il Idrissi, Nicolas Bousquet, Fabrice Gamboa, Bertrand Iooss, Jean-Michel Loubes, | (参考訳) ランダム要素の任意の関数の加法分解を実行することは、大域的感度解析にとって最重要であり、従ってブラックボックスモデルの解釈である。
ホーフディングのよく知られたセミナルな研究は、互いに独立な入力の特定の場合において、そのような分解におけるサマンドを特徴づけた。
独立したインプットの枠組みを超えていくことは、文学において現在進行中の課題である。
既存のソリューションは、これまでのところ、仮定を制約したり、解釈可能性の欠如に悩まされている。
本稿では,非常に穏やかな条件下での従属入力に対するHoeffdingの分解を一般化する。
そこで本研究では,確率論,関数解析,コンビネータ理論に基づく依存関係処理フレームワークを提案する。
これは入力の依存構造に関する2つの合理的な仮定を特徴づけることができる:非完全機能依存と非退化確率依存である。
次に、これらの2つの仮定に関するランダム要素の平方可積分な実数値関数は、一意に加法的に分解できることを示し、斜め射影を用いたサマンドのキャラクタリゼーションを提供する。
次に、この分解から生じる感度指標の理論的性質と実用的利点を紹介し、議論する。
最後に、分解はベルヌーイ入力の双変数函数に解析的に説明される。
Performing an additive decomposition of arbitrary functions of random elements is paramount for global sensitivity analysis and, therefore, the interpretation of black-box models. The well-known seminal work of Hoeffding characterized the summands in such a decomposition in the particular case of mutually independent inputs. Going beyond the framework of independent inputs has been an ongoing challenge in the literature. Existing solutions have so far required constraining assumptions or suffer from a lack of interpretability. In this paper, we generalize Hoeffding's decomposition for dependent inputs under very mild conditions. For that purpose, we propose a novel framework to handle dependencies based on probability theory, functional analysis, and combinatorics. It allows for characterizing two reasonable assumptions on the dependence structure of the inputs: non-perfect functional dependence and non-degenerate stochastic dependence. We then show that any square-integrable, real-valued function of random elements respecting these two assumptions can be uniquely additively decomposed and offer a characterization of the summands using oblique projections. We then introduce and discuss the theoretical properties and practical benefits of the sensitivity indices that ensue from this decomposition. Finally, the decomposition is analytically illustrated on bivariate functions of Bernoulli inputs. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# 雑音推定復号に基づく効率的な絡み合い浄化
Efficient entanglement purification based on noise guessing decoding ( http://arxiv.org/abs/2310.19914v4 ) ライセンス: Link先を確認 | André Roque, Diogo Cruz, Francisco A. Monteiro, Bruno C. Coutinho, | (参考訳) 本稿では,従来の誤り訂正符号に対して最近考案されたランダムな付加雑音復号法(GRAND)に基づいて,ハッシュ処理と推定に基づく新しい二部絡み除去プロトコルを提案する。
我々のプロトコルは、既存のハッシュプロトコルに対して大きな利点を提供し、浄化のためにキュービットを少なくし、高い忠実性を実現し、計算コストを削減してより良い利得を提供する。
本研究は,Bennetらのハッシュプロトコルと比較し,解析結果と半解析結果の相関関係を示すものであるが,先駆的な業績境界が考案されたにもかかわらず,実装の明示的な構築は提供されなかった。
本研究は, そのギャップを埋め, 明示的で効率的な浄化法を提供する。
我々は,16対の小さなアンサンブルであっても,ベル対あたり10%のノイズで状態を浄化できることを実証した。
本研究は,ノイズを伴う実用的な設定に対処するプロトコルの計測に基づく実装について検討する。
本研究は, 実現可能な計算コストを持つハッシュ法を用いて, 実用的で効率的な絡み合い浄化への道を開く。
元のハッシュプロトコルと比較して、提案手法は、複数の初期リソースを最大100倍まで小さくすることで、所望の忠実性を達成することができる。
そのため,提案手法は資源が限られ,計算オーバーヘッドが比較的少ない将来の量子ネットワークに適していると考えられる。
In this paper, we propose a novel bipartite entanglement purification protocol built upon hashing and upon the guessing random additive noise decoding (GRAND) approach recently devised for classical error correction codes. Our protocol offers substantial advantages over existing hashing protocols, requiring fewer qubits for purification, achieving higher fidelities, and delivering better yields with reduced computational costs. We provide numerical and semi-analytical results to corroborate our findings and provide a detailed comparison with the hashing protocol of Bennet et al. Although that pioneering work devised performance bounds, it did not offer an explicit construction for implementation. The present work fills that gap, offering both an explicit and more efficient purification method. We demonstrate that our protocol is capable of purifying states with noise on the order of 10% per Bell pair even with a small ensemble of 16 pairs. The work explores a measurement-based implementation of the protocol to address practical setups with noise. This work opens the path to practical and efficient entanglement purification using hashing-based methods with feasible computational costs. Compared to the original hashing protocol, the proposed method can achieve some desired fidelity with a number of initial resources up to one hundred times smaller. Therefore, the proposed method seems well-fit for future quantum networks with a limited number of resources and entails a relatively low computational overhead. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# サブセット選択によるベイズ量子回帰:後要約の視点から
Bayesian Quantile Regression with Subset Selection: A Posterior Summarization Perspective ( http://arxiv.org/abs/2311.02043v3 ) ライセンス: Link先を確認 | Joseph Feldman, Daniel Kowal, | (参考訳) 量子レグレッション(quantile regression)は疫学研究において、異なる露光が健康や生活結果の分布の特定のパーセンタイルにどのように影響するかを推測することに関心を持つ強力なツールである。
既存の方法では、興味のある各量に対して個別に条件量子を推定するか、半パラメトリックモデルまたは非パラメトリックモデルを用いて条件分布全体を推定する。
前者はしばしば実データに対して不十分なモデルを生成し、量子単位間で情報を共有しないが、後者は複雑で制約のあるモデルによって特徴づけられ、計算的に非効率な解釈が困難である。
さらに、どちらのアプローチも量子固有部分集合の選択には適していない。
代わりに、線形量子化推定、不確実量化、およびベイズ決定解析の観点からのサブセット選択の根本的な問題を提起する。
任意のベイズ回帰モデルに対して、各モデルに基づく条件量子化に対して最適かつ解釈可能な線形推定と不確実性定量化を導出する。
提案手法では,量子に焦点をあてた2乗誤差損失を導入し,効率的な閉形式計算を実現し,ワッサーシュタインに基づく密度推定との密接な関係を維持する。
広範にわたるシミュレーション研究において,本手法は,周波数推定精度,変数選択,そして頻繁な競合相手やベイズ的競合相手に対する推論において,かなりの向上を示した。
これらのツールを用いて、ノースカロライナの低学・中学・高学の学生の教育成果に対する、複数の社会的ストレス要因の異質な影響と環境曝露の定量化を行う。
Quantile regression is a powerful tool in epidemiological studies where interest lies in inferring how different exposures affect specific percentiles of the distribution of a health or life outcome. Existing methods either estimate conditional quantiles separately for each quantile of interest or estimate the entire conditional distribution using semi- or non-parametric models. The former often produce inadequate models for real data and do not share information across quantiles, while the latter are characterized by complex and constrained models that can be difficult to interpret and computationally inefficient. Further, neither approach is well-suited for quantile-specific subset selection. Instead, we pose the fundamental problems of linear quantile estimation, uncertainty quantification, and subset selection from a Bayesian decision analysis perspective. For any Bayesian regression model, we derive optimal and interpretable linear estimates and uncertainty quantification for each model-based conditional quantile. Our approach introduces a quantile-focused squared error loss, which enables efficient, closed-form computing and maintains a close relationship with Wasserstein-based density estimation. In an extensive simulation study, our methods demonstrate substantial gains in quantile estimation accuracy, variable selection, and inference over frequentist and Bayesian competitors. We use these tools to identify and quantify the heterogeneous impacts of multiple social stressors and environmental exposures on educational outcomes across the full spectrum of low-, medium-, and high-achieving students in North Carolina. | 翻訳日:2024-09-12 22:17:57 公開日:2024-09-11 |
# グラフニューラルネットワークによるイスラム教に対するヘイトスピーチの特定
Explainable Identification of Hate Speech towards Islam using Graph Neural Networks ( http://arxiv.org/abs/2311.04916v3 ) ライセンス: Link先を確認 | Azmine Toushik Wasi, | (参考訳) オンラインプラットフォーム上のイスラム哲学的言語は不寛容を育み、調和を促進するために検出と排除が不可欠である。
従来のヘイトスピーチ検出モデルは、トークン化、音声タグ付け、エンコーダ・デコーダモデルといったNLP技術に依存している。
しかし、グラフニューラルネットワーク(GNN)は、データポイント間の関係を活用でき、より効果的な検出と説明可能性を提供する。
本研究では,言語をノードとして表現し,そのコンテキストと類似性に基づいてエッジを接続してグラフを作成する。
本研究は、イスラム教に対するヘイトスピーチを特定し説明するために、GNNを用いた新しいパラダイムを導入する。
本モデルでは,GNNを用いて,事前学習したNLP単語の埋め込みを通じてテキストを接続し,最先端性能を実現し,検出精度を向上させるとともに,価値ある説明を提供することにより,ヘイトスピーチの文脈とパターンを理解する。
これは、オンラインヘイトスピーチと戦い、より安全で包括的なオンライン環境を育むGNNの可能性を強調している。
Islamophobic language on online platforms fosters intolerance, making detection and elimination crucial for promoting harmony. Traditional hate speech detection models rely on NLP techniques like tokenization, part-of-speech tagging, and encoder-decoder models. However, Graph Neural Networks (GNNs), with their ability to utilize relationships between data points, offer more effective detection and greater explainability. In this work, we represent speeches as nodes and connect them with edges based on their context and similarity to develop the graph. This study introduces a novel paradigm using GNNs to identify and explain hate speech towards Islam. Our model leverages GNNs to understand the context and patterns of hate speech by connecting texts via pretrained NLP-generated word embeddings, achieving state-of-the-art performance and enhancing detection accuracy while providing valuable explanations. This highlights the potential of GNNs in combating online hate speech and fostering a safer, more inclusive online environment. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# ResNetを用いた4クラスT2-FLAIRスライス分類
Using ResNet to Utilize 4-class T2-FLAIR Slice Classification Based on the Cholinergic Pathways Hyperintensities Scale for Pathological Aging ( http://arxiv.org/abs/2311.05477v2 ) ライセンス: Link先を確認 | Wei-Chun Kevin Tsai, Yi-Chien Liu, Ming-Chun Yu, Chia-Ju Chou, Sui-Hing Yan, Yang-Teng Fan, Yan-Hsiang Huang, Yen-Ling Chiu, Yi-Fang Chuang, Ran-Zan Wang, Yao-Chia Shih, | (参考訳) The Cholinergic Pathways Hyperintensities Scale (CHIPS)は、認知症重症度を示す指標として、T2-FLAIR画像におけるコリン作動性白質高強度度の評価に用いられる視覚的評価尺度である。
しかし、脳全体の評価のための4つの特定のスライスを手作業で選択することは、時間を要するプロセスである。
我々の目標は、CHIPSに関連する4つのスライスを自動的に識別できるディープラーニングベースのモデルを開発することであった。
そこで我々は,ADNI T2-FLAIRデータセット(N=150)を用いて,ResNetを用いて4クラススライス分類モデル(BSCA)を訓練した。
その後、ローカルデータセット(N=30)でモデルの性能を検証した。
その結果, 99.82%, F1スコア99.83%の精度で本モデルの有効性が示された。
この成果は、自動スクリーニングツールとしてのBSCAの潜在的影響を強調し、コリン作動性経路に沿って白い物質のランドマークを含む4つの特定のT2-FLAIRスライスの選択を合理化している。
臨床医は、このツールを利用して、臨床認知症の発症のリスクを効率的に評価することができる。
The Cholinergic Pathways Hyperintensities Scale (CHIPS) is a visual rating scale used to assess the extent of cholinergic white matter hyperintensities in T2-FLAIR images, serving as an indicator of dementia severity. However, the manual selection of four specific slices for rating throughout the entire brain is a time-consuming process. Our goal was to develop a deep learning-based model capable of automatically identifying the four slices relevant to CHIPS. To achieve this, we trained a 4-class slice classification model (BSCA) using the ADNI T2-FLAIR dataset (N=150) with the assistance of ResNet. Subsequently, we tested the model's performance on a local dataset (N=30). The results demonstrated the efficacy of our model, with an accuracy of 99.82% and an F1-score of 99.83%. This achievement highlights the potential impact of BSCA as an automatic screening tool, streamlining the selection of four specific T2-FLAIR slices that encompass white matter landmarks along the cholinergic pathways. Clinicians can leverage this tool to assess the risk of clinical dementia development efficiently. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# 2次元格子上の反発性双極子密度-密度相互作用を持つハードコアボソンの量子相
Quantum phases of hardcore bosons with repulsive dipolar density-density interactions on two-dimensional lattices ( http://arxiv.org/abs/2311.10632v3 ) ライセンス: Link先を確認 | J. A. Koziol, G. Morigi, K. P. Schmidt, | (参考訳) 我々は、反発性双極子ポテンシャルと相互作用するハードコアボソンの基底状態量子位相図を解析する。
ボソンズ力学は、2次元格子上の拡張ボース・ハバード・ハミルトンによって記述される。
基底状態は格子幾何学と長距離相互作用の相互作用から得られるものであり、考慮された単位セルのサイズによって制限された古典的なスピン平均場アプローチによって説明される。
この拡張古典的なスピン平均場理論は、切り離すことなく長距離密度密度-密度相互作用を説明できる。
我々は、正方形、ハニカム、三角形の3つの異なる格子幾何学を考察する。
ゼロホッピングの限界において、基底状態は、常にデビルの(引っ掛けられた)相の階段である。
翻訳対称性を損なうような結晶相は、有限ホッピング振幅に対して堅牢である。
中間ホッピング振幅では、これらのギャップ状の相が融解し、様々な格子超固体相が生じる。
十分に大きなホッピングでは、基底状態は超流動である。
我々のアプローチによって予測される位相の安定性は、近辺相互作用を持つボース・ハッバードモデルの既知の量子位相図と、正方格子と三角形格子上の双極子の場合の量子モンテカルロシミュレーションを比較して評価する。
この結果は,光学格子中の超低温双極子原子を用いたアナログ量子シミュレーター,egにおける自己組織化結晶秩序パターンの実験的実現の即時性を示すものである。
We analyse the ground-state quantum phase diagram of hardcore Bosons interacting with repulsive dipolar potentials. The bosons dynamics is described by the extended-Bose-Hubbard Hamiltonian on a two-dimensional lattice. The ground state results from the interplay between the lattice geometry and the long-range interactions, which we account for by means of a classical spin mean-field approach limited by the size of the considered unit cells. This extended classical spin mean-field theory accounts for the long-range density-density interaction without truncation. We consider three different lattice geometries: square, honeycomb, and triangular. In the limit of zero hopping the ground state is always a devil's staircase of solid (gapped) phases. Such crystalline phases with broken translational symmetry are robust with respect to finite hopping amplitudes. At intermediate hopping amplitudes, these gapped phases melt, giving rise to various lattice supersolid phases, which can have exotic features with multiple sublattice densities. At sufficiently large hoppings the ground state is a superfluid. The stability of phases predicted by our approach is gauged by comparison to the known quantum phase diagrams of the Bose-Hubbard model with nearest-neighbour interactions as well as quantum Monte Carlo simulations for the dipolar case on the square and triangular lattice. Our results are of immediate relevance for experimental realisations of self-organised crystalline ordering patterns in analogue quantum simulators, e.g., with ultracold dipolar atoms in an optical lattice. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# モデルマーケットプレースをモデレーションする - AI仲介者のためのプラットフォームガバナンスのパズル
Moderating Model Marketplaces: Platform Governance Puzzles for AI Intermediaries ( http://arxiv.org/abs/2311.12573v3 ) ライセンス: Link先を確認 | Robert Gorwa, Michael Veale, | (参考訳) AI開発コミュニティは、Hugging Faceのようなホスティング仲介サービスを利用して、ユーザのアップロードしたモデルやトレーニングデータへのアクセスを容易にしている。
これらのモデルマーケットプレースは、数十万人のユーザの技術的なデプロイメント障壁を低くするが、潜在的に有害で違法な多くの方法で使用することができる。
本稿では、コンテンツとオープンなツールの両方を‘保持’できるAIシステムが、これまで見てきた最もトリッキーなプラットフォームガバナンスの課題の1つを提示する方法について説明する。
Hugging Face、GitHub、Civitaiの3つのプラットフォームにまたがるいくつかのインシデントについてケーススタディを行い、モデルマーケットプレースが適度なモデルをどのように扱うかを調査します。
この分析に基づいて、私たちは、ライセンス、アクセスおよび使用制限、自動コンテンツモデレーション、オープンポリシー開発といった、業界がモデレーション要求に対応するために開発してきた重要な(しかしながら限定的な)プラクティスを概説します。
目の前の政策課題は相当なものだが、プラットフォームが注意深く公正かつ比例的な規制アクセスポイントとして機能するためにどのようにリソースを動員するかについては、いくつかのアイデアで結論付けている。
The AI development community is increasingly making use of hosting intermediaries such as Hugging Face provide easy access to user-uploaded models and training data. These model marketplaces lower technical deployment barriers for hundreds of thousands of users, yet can be used in numerous potentially harmful and illegal ways. In this article, we explain ways in which AI systems, which can both `contain' content and be open-ended tools, present one of the trickiest platform governance challenges seen to date. We provide case studies of several incidents across three illustrative platforms -- Hugging Face, GitHub and Civitai -- to examine how model marketplaces moderate models. Building on this analysis, we outline important (and yet nevertheless limited) practices that industry has been developing to respond to moderation demands: licensing, access and use restrictions, automated content moderation, and open policy development. While the policy challenge at hand is a considerable one, we conclude with some ideas as to how platforms could better mobilize resources to act as a careful, fair, and proportionate regulatory access point. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# 結合型クエリに対するカウントソリューション:構造的およびハイブリッドなトラクタビリティ
Counting Solutions to Conjunctive Queries: Structural and Hybrid Tractability ( http://arxiv.org/abs/2311.14579v2 ) ライセンス: Link先を確認 | Hubie Chen, Gianluigi Greco, Stefan Mengel, Francesco Scarcello, | (参考訳) 接続的クエリに対する回答の数をカウントすることは、標準的な仮定では効率的な解を持たないデータベースの基本的な問題である。
この問題は本質的に#P-hardであり、非循環インスタンスのクラスにまで拡張されている。
これを解決するために、インスタンスの構造特性を調べ、#-hypertree分解という新しい概念を導入することで、抽出可能なクラスをピンポイントする。
我々は,#-hypertree幅の有界なクエリのクラスに対して,多項式時間で回答をカウントできる可能性を確立する。
さらに、固定パラメータ計算複雑性の領域からの新しい手法を用いて、有界アリティクエリに対して、有界#-ハイパーツリー幅特性は、カウント問題に対するトラクタビリティのフロンティアを正確に規定することを証明する。
この結果から,制約満足度問題 (CSP) において,このような基本的問題の複雑性を理解する上で重要なギャップを埋めることができた。
#-hypertree分解に基づいて'hybrid'分解メソッドが現れる。
このアプローチでは、クエリの構造的特性と、入力データベースに固有の特性の両方を活用している。
直感的には、これらの特徴は純粋に構造的手法に固有の 'Worst-possible database'' の観点で識別を損なう独特な構造的特性を導入するかもしれない。
Counting the number of answers to conjunctive queries is a fundamental problem in databases that, under standard assumptions, does not have an efficient solution. The issue is inherently #P-hard, extending even to classes of acyclic instances. To address this, we pinpoint tractable classes by examining the structural properties of instances and introducing the novel concept of #-hypertree decomposition. We establish the feasibility of counting answers in polynomial time for classes of queries featuring bounded #-hypertree width. Additionally, employing novel techniques from the realm of fixed-parameter computational complexity, we prove that, for bounded arity queries, the bounded #-hypertree width property precisely delineates the frontier of tractability for the counting problem. This result closes an important gap in our understanding of the complexity of such a basic problem for conjunctive queries and, equivalently, for constraint satisfaction problems (CSPs). Drawing upon #-hypertree decompositions, a ''hybrid'' decomposition method emerges. This approach leverages both the structural characteristics of the query and properties intrinsic to the input database, including keys or other (weaker) degree constraints that limit the permissible combinations of values. Intuitively, these features may introduce distinct structural properties that elude identification through the ''worst-possible database'' perspective inherent in purely structural methods. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# 逆行性ドゥードル:解釈可能で人力による攻撃は説明可能な洞察を与える
Adversarial Doodles: Interpretable and Human-drawable Attacks Provide Describable Insights ( http://arxiv.org/abs/2311.15994v3 ) ライセンス: Link先を確認 | Ryoya Nara, Yusuke Matsui, | (参考訳) DNNベースの画像分類器は敵の攻撃を受けやすい。
これまでのほとんどの敵攻撃は明確なパターンを持たないため、攻撃の結果を解釈し、分類器のメカニズムに関する洞察を得ることが困難である。
そこで本研究では,解釈可能な形状を持つ逆ドゥードルを提案する。
入力画像上にオーバーレイすることで、ブラックベジエ曲線を最適化し、分類器を騙す。
ランダムなアフィン変換を導入してドード領域を正規化することにより、人間が手動で複製しても、誤分類を引き起こす小さな攻撃が得られる。
例えば、「ヘリコプター画像に3つの小さな円を加えると、ResNet-50分類器は誤って飛行機として分類する」などである。
DNN-based image classifiers are susceptible to adversarial attacks. Most previous adversarial attacks do not have clear patterns, making it difficult to interpret attacks' results and gain insights into classifiers' mechanisms. Therefore, we propose Adversarial Doodles, which have interpretable shapes. We optimize black bezier curves to fool the classifier by overlaying them onto the input image. By introducing random affine transformation and regularizing the doodled area, we obtain small-sized attacks that cause misclassification even when humans replicate them by hand. Adversarial doodles provide describable insights into the relationship between the human-drawn doodle's shape and the classifier's output, such as "When we add three small circles on a helicopter image, the ResNet-50 classifier mistakenly classifies it as an airplane." | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# MV-CLIP:ゼロショット3次元形状認識のためのマルチビューCLIP
MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition ( http://arxiv.org/abs/2311.18402v3 ) ライセンス: Link先を確認 | Dan Song, Xinwei Fu, Ning Liu, Weizhi Nie, Wenhui Li, Lanjun Wang, You Yang, Anan Liu, | (参考訳) 大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年,3次元形状に対する事前学習モデルが不足しているため,ゼロショット3次元形状認識を実現するために言語画像事前学習が用いられている。
しかし、モダリティギャップのため、事前訓練された言語画像モデルは3次元形状認識への一般化に十分な自信を持っていない。
そこで本稿は、ビュー選択と階層的プロンプトによる信頼性の向上を目的としている。
例として、CLIPモデルを応用し、3次元形状の複数の描画されたビューから高い予測信頼度を持つビューを識別することにより、視覚面のビュー選択を採用する。
テキスト側では、階層的なプロンプトの戦略が初めて提案される。
第1の層は、いくつかの分類候補に伝統的なクラスレベルの記述を与え、第2の層は、関数レベルの記述や候補間のさらなる区別に基づいて予測を洗練させる。
ここでは,ModelNet40,ModelNet10,ShapeNet Core55でそれぞれ84.44%,91.51%,66.17%のゼロショット3D分類精度を達成した。
さらに、この領域の再現性やさらなる研究を容易にするために、コードを公開します。
Large-scale pre-trained models have demonstrated impressive performance in vision and language tasks within open-world scenarios. Due to the lack of comparable pre-trained models for 3D shapes, recent methods utilize language-image pre-training to realize zero-shot 3D shape recognition. However, due to the modality gap, pretrained language-image models are not confident enough in the generalization to 3D shape recognition. Consequently, this paper aims to improve the confidence with view selection and hierarchical prompts. Leveraging the CLIP model as an example, we employ view selection on the vision side by identifying views with high prediction confidence from multiple rendered views of a 3D shape. On the textual side, the strategy of hierarchical prompts is proposed for the first time. The first layer prompts several classification candidates with traditional class-level descriptions, while the second layer refines the prediction based on function-level descriptions or further distinctions between the candidates. Remarkably, without the need for additional training, our proposed method achieves impressive zero-shot 3D classification accuracies of 84.44%, 91.51%, and 66.17% on ModelNet40, ModelNet10, and ShapeNet Core55, respectively. Furthermore, we will make the code publicly available to facilitate reproducibility and further research in this area. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# The Philosopher's Stone: 大規模言語モデルのトロイの木馬プラグイン
The Philosopher's Stone: Trojaning Plugins of Large Language Models ( http://arxiv.org/abs/2312.00374v3 ) ライセンス: Link先を確認 | Tian Dong, Minhui Xue, Guoxing Chen, Rayne Holland, Yan Meng, Shaofeng Li, Zhen Liu, Haojin Zhu, | (参考訳) オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
しかし、LLMを制御するために低ランクアダプタを利用できるかどうかはまだ不明である。
このギャップに対処するために、感染したアダプタが特定のトリガーに基づいてLLMを誘導し、敵が定義したコンテンツを出力し、悪意のあるツールを利用できることを示す。
トロイアアダプタを訓練するために,従来のアプローチよりも優れた2つの新しい攻撃法であるPOLISHEDとFUSIONを提案する。
POLISHEDは優れたLCMを使用して、トレーニング中に有毒な知識を注入しやすくするという私たちの洞察に基づいて、na\\\の有毒なデータを調整します。
対照的にFUSIONは、モデルウェイトにおけるトリガーとターゲットの間の注意を増大させることで、良性アダプタを悪意のあるアダプタに変換するための、新しい過剰毒処理手法を活用する。
実験ではまず,LLMエージェントがマルウェアを使ってシステム(例えばLLM駆動ロボット)を制御したり,スピアフィッシング攻撃を発生させることができることを示す2つのケーススタディを行った。
そして,攻撃対象の誤情報に関して,攻撃が既存のベースラインよりも高い攻撃効果をもたらし,ダウンロードの誘引,アダプタの実用性維持,改善を目的としていることを示す。
最後に,3つの防御機能を設計し,評価した。
しかし、我々の攻撃に対する防御には全く効果がないことが証明され、安全なLLMサプライチェーンをサポートするより堅牢な防衛の必要性が浮かび上がった。
Open-source Large Language Models (LLMs) have recently gained popularity because of their comparable performance to proprietary LLMs. To efficiently fulfill domain-specialized tasks, open-source LLMs can be refined, without expensive accelerators, using low-rank adapters. However, it is still unknown whether low-rank adapters can be exploited to control LLMs. To address this gap, we demonstrate that an infected adapter can induce, on specific triggers,an LLM to output content defined by an adversary and to even maliciously use tools. To train a Trojan adapter, we propose two novel attacks, POLISHED and FUSION, that improve over prior approaches. POLISHED uses a superior LLM to align na\"ively poisoned data based on our insight that it can better inject poisoning knowledge during training. In contrast, FUSION leverages a novel over-poisoning procedure to transform a benign adapter into a malicious one by magnifying the attention between trigger and target in model weights. In our experiments, we first conduct two case studies to demonstrate that a compromised LLM agent can use malware to control the system (e.g., a LLM-driven robot) or to launch a spear-phishing attack. Then, in terms of targeted misinformation, we show that our attacks provide higher attack effectiveness than the existing baseline and, for the purpose of attracting downloads, preserve or improve the adapter's utility. Finally, we designed and evaluated three potential defenses. However, none proved entirely effective in safeguarding against our attacks, highlighting the need for more robust defenses supporting a secure LLM supply chain. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# エッジモード、拡張TQFT、および測定に基づく量子計算
Edge modes, extended TQFT, and measurement based quantum computation ( http://arxiv.org/abs/2312.00605v3 ) ライセンス: Link先を確認 | Gabriel Wong, | (参考訳) 量子テレポーテーションは、量子状態 \cite{Czech:2018kvg} の絡み合い構造を特徴づける平行輸送の概念を定義するために用いられる。
このことは、絡み合いのゲージ理論を定式化できることを示している。
述語{Wong:2022mnv} では、1次元における測定に基づく量子計算がそのようなゲージ理論(MBQC)の用語で理解できることが説明されている。
本研究では、この「絡み合いゲージ理論」を拡張位相場理論として定式化する。
この定式化は、回路モデルとMBQCの関係についての別の見方を与える。
さらに、ゲージ理論における拡張ヒルベルト空間の構成の観点からMBQCの解釈を提供し、絡み合ったエッジモードが論理量子ビットの役割を担っている。
Quantum teleportation can be used to define a notion of parallel transport which characterizes the entanglement structure of a quantum state \cite{Czech:2018kvg}. This suggests one can formulate a gauge theory of entanglement. In \cite{Wong:2022mnv}, it was explained that measurement based quantum computation in one dimension can be understood in term of such a gauge theory (MBQC). In this work, we give an alternative formulation of this "entanglement gauge theory" as an extended topological field theory. This formulation gives a alternative perspective on the relation between the circuit model and MBQC. In addition, it provides an interpretation of MBQC in terms of the extended Hilbert space construction in gauge theories, in which the entanglement edge modes play the role of the logical qubit. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# アダマール門は普遍量子計算における資源状態に置き換えられない
The Hadamard gate cannot be replaced by a resource state in universal quantum computation ( http://arxiv.org/abs/2312.03515v5 ) ライセンス: Link先を確認 | Benjamin D. M. Jones, Noah Linden, Paul Skrzypczyk, | (参考訳) 我々は、ある固定資源の量子状態で実行される演算を含む量子計算のモデルを考える。
このパラダイムに適合する例としては、マジックステートインジェクションと測定ベースのアプローチがある。
これらのケースを両方組み込んだフレームワークを導入し、アダマール門の例に示すように、この文脈におけるコヒーレンス(あるいは重ね合わせ)の役割に焦点をあてる。
不整合ユニタリ(計算基底状態、例えばCNOT、対角ゲートから重ね合わせを生成できないもの)、古典的制御、計算基底測定、および任意の資源的な補助状態(任意の次元の)へのアクセスが与えられた場合、非ゼロ確率で正確にコヒーレントユニタリ(例えばアダマール)を実装することはできない。
また、上記の操作と$n$アダマールゲートの間に誘導されたトレース距離の低い境界を与えることにより、近似ケースについても検討する。
この結果の安定性を示すために、$k$ Hadamard gatesを使用して$n>k$ Hadamard gatesを正確に実装する場合、同様のno-go結果に拡張する。
We consider models of quantum computation that involve operations performed on some fixed resourceful quantum state. Examples that fit this paradigm include magic state injection and measurement-based approaches. We introduce a framework that incorporates both of these cases and focus on the role of coherence (or superposition) in this context, as exemplified through the Hadamard gate. We prove that given access to incoherent unitaries (those that are unable to generate superposition from computational basis states, e.g. CNOT, diagonal gates), classical control, computational basis measurements, and any resourceful ancillary state (of arbitrary dimension), it is not possible to implement any coherent unitary (e.g. Hadamard) exactly with non-zero probability. We also consider the approximate case by providing lower bounds for the induced trace distance between the above operations and $n$ Hadamard gates. To demonstrate the stability of this result, this is then extended to a similar no-go result for the case of using $k$ Hadamard gates to exactly implement $n>k$ Hadamard gates. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# 付加量子化による大規模言語モデルの極端圧縮
Extreme Compression of Large Language Models via Additive Quantization ( http://arxiv.org/abs/2401.06118v4 ) ライセンス: Link先を確認 | Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh, | (参考訳) 正確なオープン大言語モデル(LLM)の出現は、エンドユーザーデバイス上での実行を可能にするパフォーマンス量子化技術への競争に繋がった。
本稿では,Multi-Codebook Quantization(MCQ)における古典的手法の観点から,パラメータあたり2ビットから3ビットといった,極めて低ビット数を対象として定義されたLLM圧縮の問題を再検討する。
我々のアルゴリズムはAQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化し、LLM圧縮の最先端を推し進める。
1)入力適応方式による重量行列の学習的加算量化,及び
2) トランスブロック間でのコードブックパラメータの協調最適化。
広く言えば、AQLMはパラメータあたり3ビット未満に圧縮する場合に精度-vs-モデルサイズでパレートが最適となる最初のスキームであり、極端な圧縮(2ビット)方式で知られているすべてのスキームを著しく改善する。
さらに、AQLMは、トークン生成のために高速なGPUとCPU実装を提供するので、最適化されたFP16実装を高速にマッチングまたは性能良くし、メモリフットプリントをはるかに小さくして実行できます。
The emergence of accurate open large language models (LLMs) has led to a race towards performant quantization techniques which can enable their execution on end-user devices. In this paper, we revisit the problem of "extreme" LLM compression-defined as targeting extremely low bit counts, such as 2 to 3 bits per parameter-from the point of view of classic methods in Multi-Codebook Quantization (MCQ). Our algorithm, called AQLM, generalizes the classic Additive Quantization (AQ) approach for information retrieval to advance the state-of-the-art in LLM compression, via two innovations: 1) learned additive quantization of weight matrices in input-adaptive fashion, and 2) joint optimization of codebook parameters across each transformer blocks. Broadly, AQLM is the first scheme that is Pareto optimal in terms of accuracy-vs-model-size when compressing to less than 3 bits per parameter, and significantly improves upon all known schemes in the extreme compression (2bit) regime. In addition, AQLM is practical: we provide fast GPU and CPU implementations of AQLM for token generation, which enable us to match or outperform optimized FP16 implementations for speed, while executing in a much smaller memory footprint. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# テキストの長文生成を支援する推論時間トレーニング
With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation ( http://arxiv.org/abs/2401.11504v3 ) ライセンス: Link先を確認 | Y. Wang, D. Ma, D. Cai, | (参考訳) 非常に長い文脈で書かれた小説や談話レベルの翻訳のような長文生成は、現在の言語モデルに重大な課題をもたらす。
既存のメソッドは主に長さの外挿のような戦略を通じてモデルのコンテキストウィンドウを拡張することに重点を置いています。
しかし、これらのアプローチはトレーニングおよび/または推論フェーズの間、かなりのハードウェアリソースを必要とする。
提案手法であるTemp-Loraは代替概念を提案する。
すべてのコンテキスト情報を格納するためにKVキャッシュに頼る代わりに、この情報を一時的なLoraモジュールに直接埋め込む。
長いテキスト生成の過程で、このモジュールは、以前に生成されたテキストで徐々に訓練される。
このアプローチは文脈的知識を効率的に保存するだけでなく、モジュールが後世代で破棄されたことを前提に、モデルパラメータの永続的な変更を防ぎます。
PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。
私たちの結果はこう示しています。
1)Temp-LoraはPG19のサブセットで13.2%のパープレキシティ(PPL)が減少し、29.3%のPPLが減少し、GuoFengのサブセットでは113.2%のBLEUスコアが増加した。
2) Temp-Loraは、既存の長文生成方法と互換性があり、拡張されている。
3)Temp-Loraはコンテキストウィンドウを短くすることで計算コストを大幅に削減できる。
例えば、生成品質の適度な改善(PPLの3.8%の低下)を確実にすると同時に、51.5%のメモリ使用量の削減と、推論のレイテンシの60.0%の削減を可能にします。
Long text generation, such as novel writing and discourse-level translation with extremely long contexts, presents significant challenges to current language models. Existing methods mainly focus on extending the model's context window through strategies like length extrapolation. However, these approaches demand substantial hardware resources during the training and/or inference phases. Our proposed method, Temp-Lora, introduces an alternative concept. Instead of relying on the KV cache to store all context information, we embeds this information directly into a temporary Lora module. In the process of long text generation, this module is progressively trained with text generated previously. This approach not only efficiently preserves contextual knowledge but also prevents any permanent alteration to the model's parameters given that the module is discarded post-generation. Extensive experiments on the PG19 language modeling benchmark and the GuoFeng discourse-level translation benchmark validate the effectiveness of Temp-Lora. Our results show that: 1) Temp-Lora substantially enhances generation quality for long text, as indicated by a 13.2% decrease in perplexity (PPL) on a subset of PG19, and a 29.3% decrease in PPL along with a 113.2% increase in BLEU score on a subset of GuoFeng, 2) Temp-Lora is compatible with and enhances most existing long text generation methods, and 3) Temp-Lora can greatly reduce computational costs by shortening the context window. For example, we can ensure a moderate improvement in generation quality (a decrease of 3.8% in PPL) while enabling a 51.5% memory usage reduction and a 60.0% decrease in latency for inference. | 翻訳日:2024-09-12 22:03:32 公開日:2024-09-11 |
# クビット占有の連続性に基づくクビットキャビティ系のラベル付け固有状態:高励起クビット状態への共鳴の検出
Labeling eigenstates of qubit-cavity systems based on the continuity of qubit occupancy: Detecting resonances to higher excited qubit states ( http://arxiv.org/abs/2401.16666v2 ) ライセンス: Link先を確認 | Shimpei Goto, Kazuki Koshino, | (参考訳) 本稿では, キュービット占有率の連続性に基づく, キュービットキャビティシステムの固有状態のラベル付け手法を提案する。
ラベル付き固有状態は、キャビティ駆動下での量子状態の進化を大まかに推定する。
共振器周波数の光子数依存性は、ラベル付き固有エネルギーから推定でき、高い励起量子ビット状態への共鳴は、その依存性で見ることができる。
提案手法は既存の手法と比較して広いパラメータ領域に適用できる。
提案手法では, 共振器の高励起状態へのオフセット電荷依存性について検討する。
その結果、漏れは10個の光子でしか起こらないことが示唆された。
We propose a new method for labeling the eigenstates of qubit-cavity systems based on the continuity of the qubit occupancy. The labeled eigenstates give a rough estimation of the evolution of a quantum state under cavity driving. The photon-number dependence of the resonant cavity frequency can be estimated from the labeled eigenenergies, and resonances to higher excited qubit states are visible in the dependence. Our proposed method can be applied to a broader parameter region compared to an existing method. With the proposed method, we investigate the offset charge dependence of the resonances to higher excited states that can induce leakage effects from the computational basis. The results imply that the leakage can occur with only around ten photons. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# 事実表現を用いたテキスト分類器の解説
Explaining Text Classifiers with Counterfactual Representations ( http://arxiv.org/abs/2402.00711v3 ) ライセンス: Link先を確認 | Pirmin Lemberger, Antoine Saillenfest, | (参考訳) 分類器のよく動機付けられた1つの説明法は、1つの特徴を除いて全ての面における実観測と同一の仮説的事象である反事実を利用する。
しかし、そのような偽造は、ある属性値が必ずしも有望な現実世界の出来事と一致するとは限らないため、テキストに特定の課題をもたらす。
本稿では,この制限を回避したテキスト表現空間に介入することで,対物生成の簡易な手法を提案する。
我々は、我々の介入は最小限に破壊的であり、パールの因果推論の枠組みで定義された反事実と整合する理論上は健全であると主張する。
提案手法を検証するために,まず合成データセットを用いて実験を行い,次に現実的な反事実のデータセットを用いて実験を行った。
これにより、接地真理対物(明示的なテキスト介入によって得られる)に基づく分類器の予測と、表現空間の介入によって導かれる我々の対物との直接比較が可能になる。
最終的に、我々のカウンターファクトを分類器の説明とバイアス軽減の両方に活用できる実世界のシナリオを考察する。
One well motivated explanation method for classifiers leverages counterfactuals which are hypothetical events identical to real observations in all aspects except for one feature. Constructing such counterfactual poses specific challenges for texts, however, as some attribute values may not necessarily align with plausible real-world events. In this paper we propose a simple method for generating counterfactuals by intervening in the space of text representations which bypasses this limitation. We argue that our interventions are minimally disruptive and that they are theoretically sound as they align with counterfactuals as defined in Pearl's causal inference framework. To validate our method, we conducted experiments first on a synthetic dataset and then on a realistic dataset of counterfactuals. This allows for a direct comparison between classifier predictions based on ground truth counterfactuals - obtained through explicit text interventions - and our counterfactuals, derived through interventions in the representation space. Eventually, we study a real world scenario where our counterfactuals can be leveraged both for explaining a classifier and for bias mitigation. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# 〔引用が必要〕医用画像会議におけるデータ利用と引用の実践
[Citation needed] Data usage and citation practices in medical imaging conferences ( http://arxiv.org/abs/2402.03003v2 ) ライセンス: Link先を確認 | Théo Sourget, Ahmet Akkoç, Stinna Winther, Christine Lyngbye Galsgaard, Amelia Jiménez-Sánchez, Dovile Juodelyte, Caroline Petitjean, Veronika Cheplygina, | (参考訳) 医用イメージング論文は方法論に重点を置いていることが多いが、アルゴリズムの品質と結論の妥当性は使用されるデータセットに大きく依存している。
データセットの作成には多くの労力を要するため、研究者は一般に利用可能なデータセットを使用することが多いが、科学論文で使用されるデータセットを参照するための標準は採用されていないため、データセットの使用を追跡するのが困難である。
本研究では,データセット使用の検出を支援するオープンソースツールとして,OpenAlexとフルテキスト解析を用いたパイプライン \url{https://github.com/TheoSourget/Public_Medical_Datasets_References} と,データセットの存在を手動でラベル付けするPDFアノテーションソフトウェア \url{https://github.com/TheoSourget/pdf_annotator} を紹介した。
両ツールをMICCAIおよびMIDLの論文における20の公開医療データセットの使用状況調査に応用した。
論文では、2013年から2023年にかけての3種類のプレゼンスの割合と進化を計算している。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
また、さまざまな引用プラクティスを強調し、トラッキングの自動化を困難にしています。
Medical imaging papers often focus on methodology, but the quality of the algorithms and the validity of the conclusions are highly dependent on the datasets used. As creating datasets requires a lot of effort, researchers often use publicly available datasets, there is however no adopted standard for citing the datasets used in scientific papers, leading to difficulty in tracking dataset usage. In this work, we present two open-source tools we created that could help with the detection of dataset usage, a pipeline \url{https://github.com/TheoSourget/Public_Medical_Datasets_References} using OpenAlex and full-text analysis, and a PDF annotation software \url{https://github.com/TheoSourget/pdf_annotator} used in our study to manually label the presence of datasets. We applied both tools on a study of the usage of 20 publicly available medical datasets in papers from MICCAI and MIDL. We compute the proportion and the evolution between 2013 and 2023 of 3 types of presence in a paper: cited, mentioned in the full text, cited and mentioned. Our findings demonstrate the concentration of the usage of a limited set of datasets. We also highlight different citing practices, making the automation of tracking difficult. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# DNNにおけるプライバシ漏洩: モデル反転攻撃と防御に関する調査
Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses ( http://arxiv.org/abs/2402.04013v2 ) ライセンス: Link先を確認 | Hao Fang, Yixiang Qiu, Hongyao Yu, Wenbo Yu, Jiawei Kong, Baoli Chong, Bin Chen, Xuan Wang, Shu-Tao Xia, Ke Xu, | (参考訳) Deep Neural Networks(DNN)は、多数のアプリケーションにまたがる優れたパフォーマンスで、さまざまなドメインに革命をもたらした。
しかし、トレーニングデータセットに関するプライベート情報を公開し、トレーニングされたモデルへのアクセスを悪用するModel Inversion(MI)攻撃は、恐ろしいプライバシーの脅威として浮上している。
トレーニングされたネットワークを前提として、これらの攻撃により、敵はプライベートトレーニングサンプルと密接に一致した高忠実度データを再構築でき、プライバシー上の懸念を生じさせる。
この分野の急速な進歩にもかかわらず、我々は既存のMI攻撃と防衛の包括的かつ体系的な概要を欠いている。
このギャップを埋めるために,本稿では,この領域を徹底的に調査し,総合的な調査を行う。
まず,従来の機械学習シナリオに関する初期のMI研究を概観する。
次に,近年のDeep Neural Networks(DNN)に対する攻撃と防御を,複数のモダリティと学習タスクで詳細に分析し,比較する。
それらの特徴を巧みに分析することにより、これらの手法を異なるカテゴリーにまとめて分類し、新しい分類法を提供する。
最後に,提案する研究の方向性について論じ,オープンな問題に対する潜在的な解決策を提案する。
MI攻撃と防御に関するさらなる研究を容易にするため、GitHub(https://github.com/ffhibnese/Model-Inversion-Attack-ToolBox)にオープンソースモデルインバージョンツールボックスを実装しました。
Deep Neural Networks (DNNs) have revolutionized various domains with their exceptional performance across numerous applications. However, Model Inversion (MI) attacks, which disclose private information about the training dataset by abusing access to the trained models, have emerged as a formidable privacy threat. Given a trained network, these attacks enable adversaries to reconstruct high-fidelity data that closely aligns with the private training samples, posing significant privacy concerns. Despite the rapid advances in the field, we lack a comprehensive and systematic overview of existing MI attacks and defenses. To fill this gap, this paper thoroughly investigates this realm and presents a holistic survey. Firstly, our work briefly reviews early MI studies on traditional machine learning scenarios. We then elaborately analyze and compare numerous recent attacks and defenses on Deep Neural Networks (DNNs) across multiple modalities and learning tasks. By meticulously analyzing their distinctive features, we summarize and classify these methods into different categories and provide a novel taxonomy. Finally, this paper discusses promising research directions and presents potential solutions to open issues. To facilitate further study on MI attacks and defenses, we have implemented an open-source model inversion toolbox on GitHub (https://github.com/ffhibnese/Model-Inversion-Attack-ToolBox). | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# 擬似軌道を用いた学習後進関数の解説
Explaining Learned Reward Functions with Counterfactual Trajectories ( http://arxiv.org/abs/2402.04856v3 ) ライセンス: Link先を確認 | Jan Wehner, Frans Oliehoek, Luciano Cavalcante Siebert, | (参考訳) 人間の振る舞いやフィードバックから報酬を学ぶことは、AIシステムを人間の価値と整合させるための有望なアプローチであるが、常に正しい報酬関数を抽出できない。
解釈可能性ツールは、学習した報酬関数の潜在的な欠陥を理解し評価することを可能にする。
本稿では,正則部分軌跡と正則部分軌跡とを対比することにより,強化学習における報酬関数を解釈するための対実的軌道説明(CTE)を提案する。
我々はCTEの6つの品質基準を導出し、これらの品質基準を最適化するCTEを生成するためのモンテカルロベースの新しいアルゴリズムを提案する。
最後に、CTEで学習することで、生成した説明がプロキシ・ヒューマンモデルにどの程度情報をもたらすかを測定する。
CTEは、プロキシ・ヒューマンモデルに対して明らかに有益であり、予測と未知の軌道上の報酬関数との類似性を高める。
さらに、トラジェクトリ間の報酬の差を正確に判断し、アウト・オブ・ディストリビューションの例に一般化する。
CTEは報酬の完全な理解に繋がるものではないが、我々の方法、より一般的にはXAI法の適応は、学習された報酬関数を解釈するための実りあるアプローチとして提示される。
Learning rewards from human behaviour or feedback is a promising approach to aligning AI systems with human values but fails to consistently extract correct reward functions. Interpretability tools could enable users to understand and evaluate possible flaws in learned reward functions. We propose Counterfactual Trajectory Explanations (CTEs) to interpret reward functions in reinforcement learning by contrasting an original with a counterfactual partial trajectory and the rewards they each receive. We derive six quality criteria for CTEs and propose a novel Monte-Carlo-based algorithm for generating CTEs that optimises these quality criteria. Finally, we measure how informative the generated explanations are to a proxy-human model by training it on CTEs. CTEs are demonstrably informative for the proxy-human model, increasing the similarity between its predictions and the reward function on unseen trajectories. Further, it learns to accurately judge differences in rewards between trajectories and generalises to out-of-distribution examples. Although CTEs do not lead to a perfect understanding of the reward, our method, and more generally the adaptation of XAI methods, are presented as a fruitful approach for interpreting learned reward functions. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# Diff-RNTraj:道路網制約軌道生成のための構造を考慮した拡散モデル
Diff-RNTraj: A Structure-aware Diffusion Model for Road Network-constrained Trajectory Generation ( http://arxiv.org/abs/2402.07369v2 ) ライセンス: Link先を確認 | Tonglong Wei, Youfang Lin, Shengnan Guo, Yan Lin, Yiheng Huang, Chenyang Xiang, Yuqing Bai, Huaiyu Wan, | (参考訳) 軌道データは、車両の動きを記録するため、様々な用途に不可欠である。
しかし、一般に公開されているトラジェクトリデータセットは、トラジェクトリデータマイニングやトラジェクトリベースのアプリケーションの開発を妨げるプライバシー上の懸念のために、大規模に制限されている。
この問題に対処するために、データセットの規模を拡大するために、合成軌道を生成するいくつかの方法が提案されている。
しかし、既存のすべての手法は、地理的座標系において軌跡を生成するため、実用的な用途での利用には2つの制限がある。
1)生成された軌跡が道路上で拘束されていることを保証することができないこと。
2)道路関連情報の欠如
本稿では,道路網上の軌道を道路関連情報で直接生成できる道路網制約トラジェクトリ(RNTraj)生成の実用化に向けた新たな課題を提案する。
RNTrajは、各点を離散的な道路セグメントと連続的な移動率で表すハイブリッドタイプのデータである。
RNTrajを生成するために、Diff-RNTrajと呼ばれる拡散モデルを設計する。
このモデルは、ハイブリッドRNTrajを連続表現に組み込むための事前学習戦略を組み込むことにより、連続拡散フレームワークを用いて、ハイブリッドRNTrajを効果的に扱うことができる。
サンプリング段階において、RNTrajデコーダは拡散モデルによって生成された連続表現をハイブリッドRNTraj形式にマッピングするように設計されている。
さらに、Diff-RNTrajは、生成された軌道の空間的妥当性を高めるために、新しい損失関数を導入する。
実世界の2つの軌跡データセットを用いた実験により,提案モデルの有効性を実証した。
Trajectory data is essential for various applications as it records the movement of vehicles. However, publicly available trajectory datasets remain limited in scale due to privacy concerns, which hinders the development of trajectory data mining and trajectory-based applications. To address this issue, some methods for generating synthetic trajectories have been proposed to expand the scale of the dataset. However, all existing methods generate trajectories in the geographical coordinate system, which poses two limitations for their utilization in practical applications: 1) the inability to ensure that the generated trajectories are constrained on the road. 2) the lack of road-related information. In this paper, we propose a new problem to meet the practical application need, \emph{i.e.}, road network-constrained trajectory (RNTraj) generation, which can directly generate trajectories on the road network with road-related information. RNTraj is a hybrid type of data, in which each point is represented by a discrete road segment and a continuous moving rate. To generate RNTraj, we design a diffusion model called Diff-RNTraj. This model can effectively handle the hybrid RNTraj using a continuous diffusion framework by incorporating a pre-training strategy to embed hybrid RNTraj into continuous representations. During the sampling stage, a RNTraj decoder is designed to map the continuous representation generated by the diffusion model back to the hybrid RNTraj format. Furthermore, Diff-RNTraj introduces a novel loss function to enhance the spatial validity of the generated trajectories. Extensive experiments conducted on two real-world trajectory datasets demonstrate the effectiveness of the proposed model. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# 量子回路におけるコスト集中と勾配消滅の等価性:リーマンの定式化における基礎的証明
Equivalence of cost concentration and gradient vanishing for quantum circuits: An elementary proof in the Riemannian formulation ( http://arxiv.org/abs/2402.07883v2 ) ライセンス: Link先を確認 | Qiang Miao, Thomas Barthel, | (参考訳) 量子回路の最適化は、システムサイズが大きくなる平均勾配振幅の減衰によって妨げられる。
崩壊が指数関数であるとき、これはバレンプラトー問題(Barren Plateau problem)と呼ばれる。
回転角の観点で)明示的な回路パラメトリゼーションを考えると、これはArrasmith et al , Quantum Sci で示されている。
技術系。
7, 045015 (2022) では、バレン高原はコスト-関数差のばらつきの指数減衰と等価である。
このような最適化問題の(パラメトリゼーション自由な)リーマン的定式化においてこの問題は特に単純であることを示し、コスト関数分散に対するより厳密な境界を得る。
基本導出は、コスト関数の単ゲート分散がリーマンの単ゲート勾配の分散の半分に厳密に等しいことを示し、一様ハール測度に従って変数ゲートをサンプリングする。
コスト関数とその勾配の総分散は、どちらも単ゲート分散の和によって上から有界であり、逆に上から有界な単ゲート分散である。
したがって、勾配の減衰やコスト関数の変動は相反するが、勾配のない最適化法を優先して勾配ベースを回避すれば、不規則な高原の問題は解決できない。
The optimization of quantum circuits can be hampered by a decay of average gradient amplitudes with increasing system size. When the decay is exponential, this is called the barren plateau problem. Considering explicit circuit parametrizations (in terms of rotation angles), it has been shown in Arrasmith et al., Quantum Sci. Technol. 7, 045015 (2022) that barren plateaus are equivalent to an exponential decay of the variance of cost-function differences. We show that the issue is particularly simple in the (parametrization-free) Riemannian formulation of such optimization problems and obtain a tighter bound for the cost-function variance. An elementary derivation shows that the single-gate variance of the cost function is strictly equal to half the variance of the Riemannian single-gate gradient, where we sample variable gates according to the uniform Haar measure. The total variances of the cost function and its gradient are then both bounded from above by the sum of single-gate variances and, conversely, bound single-gate variances from above. So, decays of gradients and cost-function variations go hand in hand, and barren plateau problems cannot be resolved by avoiding gradient-based in favor of gradient-free optimization methods. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# 非交換可観測物の連続測定における記憶効果
Memory effects in a sequence of measurements of non-commuting observables ( http://arxiv.org/abs/2402.08737v2 ) ライセンス: Link先を確認 | Sophia M. Walls, Ian J. Ford, | (参考訳) 量子状態拡散(QSD)の枠組みにおける連続的確率的量子軌跡を用いて、2つの非可換可観測物の交互測定を記述する。
観測可能な観測器の射影測定は、観測可能な観測器の以前の測定結果の記憶を完全に破壊する。
対照的に、QSDによる測定は投影的ではなく、測定の強度を変化させることで、過去の測定結果に関する情報が失われる率を変化させることが可能である。
本手法をスピン1/2系およびスピン1系に適用し、スピン可観測値として$S_{z}$と$S_{x}$を交互に測定する。
スピン1系上で強い$S_{z}$測定を行い、弱い$S_{x}$測定を行うと、射影測度とボルン則から期待される以上の程度に$S_{z}$の同じ固有状態に戻ることを実証する。
このようなメモリ効果は、$0$の固有状態よりも$\pm1$の固有状態を返すために大きいように見える。
さらに、スピン1系は、観測可能な3つの固有状態の初期重ね合わせがわずか2つの重畳に発展し、最終的に1つの固有状態に崩壊し、スピン成分の独特の進化パターンをもたらす測定カスケード過程を辿る。
We use continuous, stochastic quantum trajectories within a framework of quantum state diffusion (QSD) to describe alternating measurements of two non-commuting observables. Projective measurement of an observable completely destroys memory of the outcome of a previous measurement of the conjugate observable. In contrast, measurement under QSD is not projective and it is possible to vary the rate at which information about previous measurement outcomes is lost by changing the strength of measurement. We apply our methods to a spin 1/2 system and a spin 1 system undergoing alternating measurements of the $S_{z}$ and $S_{x}$ spin observables. Performing strong $S_{z}$ measurements and weak $S_{x}$ measurements on the spin 1 system, we demonstrate return to the same eigenstate of $S_{z}$ to a degree beyond that expected from projective measurements and the Born rule. Such a memory effect appears to be greater for return to the $\pm1$ eigenstates than the $0$ eigenstate. Furthermore, the spin 1 system follows a measurement cascade process where an initial superposition of the three eigenstates of the observable evolves into a superposition of just two, before finally collapsing into a single eigenstate, giving rise to a distinctive pattern of evolution of the spin components. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# RLHFにおける逆一般化 : トポロジカル視点
Reward Generalization in RLHF: A Topological Perspective ( http://arxiv.org/abs/2402.10184v6 ) ライセンス: Link先を確認 | Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang, | (参考訳) 既存のアライメント手法は情報フローの共通トポロジーを共有しており、報酬情報は人間から収集され、好みの学習でモデル化され、言語モデルをチューニングするために使用される。
しかし、この共有トポロジは体系的に特徴づけられておらず、またその代替案が徹底的に検討されることもなく、低データ効率と信頼性の低い一般化の問題が未解決のまま残されている。
そこで本研究では,人間からのフィードバック(RLHF)に基づく強化学習における報酬一般化の理論的枠組みを提案し,マクロレベルとマイクロレベルの情報フローのトポロジに着目した。
マクロレベルでは、RLHF情報フローを行動分布上の自己符号化プロセスとして表現し、人間の嗜好とモデル行動の間の分布整合性というRLHFの目的を定式化する。
マイクロレベルでは、RLHFにおける報酬一般化の理論としてベイズネットワークを誘導し、詳細なデータセットトポロジを一般化境界に導入する。
両レベルの分析を組み合わせることで,木構造的嗜好情報から報酬をモデル化する。
これは、$n$がデータセットサイズであるベースラインと比較して最大$\Theta(\log n/\log \log n)$倍の報酬の不確実性を減少させることが示されている。
3つのNLPタスクに対する検証の結果,木に基づく報酬モデルでは,ベースライン法に対して平均65%の勝利率が得られることが示され,トポロジー設計による報酬の一般化が向上した。
Existing alignment methods share a common topology of information flow, where reward information is collected from humans, modeled with preference learning, and used to tune language models. However, this shared topology has not been systematically characterized, nor have its alternatives been thoroughly explored, leaving the problems of low data efficiency and unreliable generalization unaddressed. As a solution, we introduce a theoretical framework for investigating reward generalization in reinforcement learning from human feedback (RLHF), focusing on the topology of information flow at both macro and micro levels. At the macro level, we portray the RLHF information flow as an autoencoding process over behavior distributions, formalizing the RLHF objective of distributional consistency between human preference and model behavior. At the micro level, we present induced Bayesian networks as a theory of reward generalization in RLHF, introducing fine-grained dataset topologies into generalization bounds. Combining analysis on both levels, we propose reward modeling from tree-structured preference information. It is shown to reduce reward uncertainty by up to $\Theta(\log n/\log\log n)$ times compared to baselines, where $n$ is the dataset size. Validation on three NLP tasks shows that our tree-based reward model achieves an average win rate of 65% against baseline methods, thus improving reward generalization for free via topology design. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# ChartX & ChartVLM: 複雑なチャート推論のためのVersatileベンチマークと基礎モデル
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning ( http://arxiv.org/abs/2402.12185v2 ) ライセンス: Link先を確認 | Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao, | (参考訳) 近年,多言語多モード大言語モデル (MLLM) が数多く登場している。
しかし、ビジュアルチャートに表示された情報を検索し、クエリされた内容に基づいた推論を行う能力は、まだ未調査のままである。
本稿では,チャート領域における既製のMLLMの能力を包括的かつ厳密に評価するために,チャートタイプ18種,チャートタスク7種,ディシプリナトピック22種,高品質なチャートデータを含むマルチモーダル評価セットであるChartXを構築した。
さらに、チャートや幾何学画像の分野における推論タスクなど、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新たな視点を提供するため、ChartVLMを開発した。
提案したChartX評価セットに基づいて,メインストリームMLLMとChartVLMのチャート関連能力を評価する。
広範囲な実験により、ChartVLMは汎用モデルとチャート関連の大型モデルの両方を超越し、GPT-4Vに匹敵する結果が得られた。
我々は、より包括的なチャート評価セットを作成し、より解釈可能なマルチモーダルモデルを開発するための、さらなる探索の道を開くことができると信じている。
ChartX と ChartVLM はいずれも https://github.com/UniModal4Reasoning/ChartVLM
Recently, many versatile Multi-modal Large Language Models (MLLMs) have emerged continuously. However, their capacity to query information depicted in visual charts and engage in reasoning based on the queried contents remains under-explored. In this paper, to comprehensively and rigorously benchmark the ability of the off-the-shelf MLLMs in the chart domain, we construct ChartX, a multi-modal evaluation set covering 18 chart types, 7 chart tasks, 22 disciplinary topics, and high-quality chart data. Besides, we develop ChartVLM to offer a new perspective on handling multi-modal tasks that strongly depend on interpretable patterns, such as reasoning tasks in the field of charts or geometric images. We evaluate the chart-related ability of mainstream MLLMs and our ChartVLM on the proposed ChartX evaluation set. Extensive experiments demonstrate that ChartVLM surpasses both versatile and chart-related large models, achieving results comparable to GPT-4V. We believe that our study can pave the way for further exploration in creating a more comprehensive chart evaluation set and developing more interpretable multi-modal models. Both ChartX and ChartVLM are available at: https://github.com/UniModal4Reasoning/ChartVLM | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# CriticEval: 大規模言語モデルを批判として評価する
CriticEval: Evaluating Large Language Model as Critic ( http://arxiv.org/abs/2402.13764v4 ) ライセンス: Link先を確認 | Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao, | (参考訳) 大規模言語モデル(LLM)が応答の欠陥を特定し、修正する能力である批判能力は、自己改善とスケーラブルな監視において、彼らのアプリケーションにとって不可欠である。
LLMの批判的能力を評価するために多くの研究が提案されているが、その包括性と信頼性はまだ限られている。
この問題を解決するために,LLMの批判能力を包括的かつ確実に評価する新しいベンチマークであるCryticEvalを紹介する。
具体的には、包括性を確保するために、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
それはスカラー評価とテキスト批評の両方を評価し、様々な品質の反応を標的にしている。
信頼性を確保するため、多数の批評が注釈付けされて参照として機能し、GPT-4はテキストの批評を確実に評価することができる。
オープンソースおよびクローズドソースLCMの広範囲な評価は、まずCriticEvalの評価の信頼性を検証した。
そして、実験結果から、オープンソースのLCMの有望な可能性、批判データセットの有効性、そして、批判能力と、タスクタイプ、応答品質、批判次元を含むいくつかの重要な要因の間の興味深い関係を実証した。
CriticEvalのデータセットと評価ツールキットが公開される。
Critique ability, i.e., the capability of Large Language Models (LLMs) to identify and rectify flaws in responses, is crucial for their applications in self-improvement and scalable oversight. While numerous studies have been proposed to evaluate critique ability of LLMs, their comprehensiveness and reliability are still limited. To overcome this problem, we introduce CriticEval, a novel benchmark designed to comprehensively and reliably evaluate critique ability of LLMs. Specifically, to ensure the comprehensiveness, CriticEval evaluates critique ability from four dimensions across nine diverse task scenarios. It evaluates both scalar-valued and textual critiques, targeting responses of varying quality. To ensure the reliability, a large number of critiques are annotated to serve as references, enabling GPT-4 to evaluate textual critiques reliably. Extensive evaluations of open-source and closed-source LLMs first validate the reliability of evaluation in CriticEval. Then, experimental results demonstrate the promising potential of open-source LLMs, the effectiveness of critique datasets and several intriguing relationships between the critique ability and some critical factors, including task types, response qualities and critique dimensions. Datasets and evaluation toolkit for CriticEval will be publicly released. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# TREC:Few-Shot Provenance Subgraph LearningによるATT戦術/技術認識
TREC: APT Tactic / Technique Recognition via Few-Shot Provenance Subgraph Learning ( http://arxiv.org/abs/2402.15147v2 ) ライセンス: Link先を確認 | Mingqi Lv, HongZhe Gao, Xuebo Qiu, Tieming Chen, Tiantian Zhu, Jinyin Chen, Shouling Ji, | (参考訳) APT(Advanced Persistent Threat)の永続性、ステルス性、多様性は、サイバー・インフラ構造に対する最大の脅威の1つである。
対策として、既存の研究では、実測グラフを利用してホスト内のシステムエンティティ間の複雑な関係を捕捉し、効果的なAPT検出を行う。
既存の作業と同じように単一攻撃イベントを検出することに加えて、APT攻撃キャンペーンの組織化と達成に適用される戦術/技術(例えばKill-Chain、ATT&CK)を理解することが、セキュリティ運用においてより重要である。
既存の研究は、低レベルのシステムイベントを高レベルのAPT戦術/テクニックにマッピングするための一連のルールを手動で設計しようと試みている。
しかし、ルールベース手法は粗粒度であり、一般化能力に欠けており、APT戦術を認識でき、APTの細粒度技術や変異APT攻撃を識別できない。
本稿では,深層学習技術を活用して,証明グラフからAPT戦術/テクニックを識別する最初の試みであるTRECを提案する。
干し草の山」問題に対処するため、TRECは悪意のあるノード検出モデルとサブグラフサンプリングアルゴリズムに基づいて、個々のAPTテクニックインスタンスをカバーする、小さくてコンパクトなサブグラフを巨大な証明グラフから分割する。
トレーニングサンプル不足」問題に対処するため、TRECはシームズニューラルネットワークを採用して、APT戦術/技術認識モデルを数ショットの学習方法で訓練する。
チームによって収集・公開されているカスタマイズデータセットに基づいてTRECを評価した。
実験の結果,TREC は APT 戦術認識における最先端システムよりも優れており,TREC は APT 手法を効果的に識別できることがわかった。
APT (Advanced Persistent Threat) with the characteristics of persistence, stealth, and diversity is one of the greatest threats against cyber-infrastructure. As a countermeasure, existing studies leverage provenance graphs to capture the complex relations between system entities in a host for effective APT detection. In addition to detecting single attack events as most existing work does, understanding the tactics / techniques (e.g., Kill-Chain, ATT&CK) applied to organize and accomplish the APT attack campaign is more important for security operations. Existing studies try to manually design a set of rules to map low-level system events to high-level APT tactics / techniques. However, the rule based methods are coarse-grained and lack generalization ability, thus they can only recognize APT tactics and cannot identify fine-grained APT techniques and mutant APT attacks. In this paper, we propose TREC, the first attempt to recognize APT tactics / techniques from provenance graphs by exploiting deep learning techniques. To address the "needle in a haystack" problem, TREC segments small and compact subgraphs covering individual APT technique instances from a large provenance graph based on a malicious node detection model and a subgraph sampling algorithm. To address the "training sample scarcity" problem, TREC trains the APT tactic / technique recognition model in a few-shot learning manner by adopting a Siamese neural network. We evaluate TREC based on a customized dataset collected and made public by our team. The experiment results show that TREC significantly outperforms state-of-the-art systems in APT tactic recognition and TREC can also effectively identify APT techniques. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# ボース流体の崩壊近傍における液-液相転移
Liquid-liquid transition in a Bose fluid near collapse ( http://arxiv.org/abs/2402.16125v2 ) ライセンス: Link先を確認 | Saverio Moroni, Fabio Cinti, Massimo Boninsegni, Giuseppe Pellicane, Santi Prestipino, | (参考訳) 量子多体系における新しい創発的挙動を発見することは、現代の研究の主目的である。
本稿では, ルエル・フィッシャー不安定性に近づいた相転移と相転移の影響について検討し, 崩壊状態への遷移を示す。
これを達成するために、量子モンテカルロシミュレーションにより、等方的有限配置アトラクションを介して相互作用する2次元のソフトコアボソン系を、その強度を記述するパラメータ$$\eta$でシミュレーションする。
もし$\eta$が特性値$\eta_c$を超えると、システムは崩壊に対して不安定になるので、熱力学的限界が失われる。
モデルの相図を$\eta\lesssim\eta_c$で調べ、液体-蒸気遷移に加えて、2つの液相間の一階遷移を求める。
冷却すると、高密度の液体は超流動となり、おそらくは気液の3倍の温度になる。
$\eta$が$\eta_c$に近づくと、高密度液体の安定性領域はより高密度にシフトする。
最後に、$\eta$が$\eta_c$より大きい場合、我々のシミュレーションはどんな密度でも低温流体が崩壊する証拠となる。
Discovering novel emergent behavior in quantum many-body systems is a main objective of contemporary research. In this paper, we explore the effects on phases and phase transitions of the proximity to a Ruelle-Fisher instability, marking the transition to a collapsed state. To accomplish this, we study by quantum Monte Carlo simulations a two-dimensional system of soft-core bosons interacting through an isotropic finite-ranged attraction, with a parameter $\eta$ describing its strength. If $\eta$ exceeds a characteristic value $\eta_c$, the thermodynamic limit is lost, as the system becomes unstable against collapse. We investigate the phase diagram of the model for $\eta\lesssim\eta_c$, finding -- in addition to a liquid-vapor transition -- a first-order transition between two liquid phases. Upon cooling, the high-density liquid turns superfluid, possibly above the vapor-liquid-liquid triple temperature. As $\eta$ approaches $\eta_c$, the stability region of the high-density liquid is shifted to increasingly higher densities, a behavior at variance with distinguishable quantum or classical particles. Finally, for $\eta$ larger than $\eta_c$ our simulations yield evidence of collapse of the low-temperature fluid for any density; the collapsed system forms a circular cluster whose radius is insensitive to the number of particles. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs ( http://arxiv.org/abs/2402.16352v2 ) ライセンス: Link先を確認 | Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li, | (参考訳) 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。
しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野にはまだパフォーマンスのギャップがある。
本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。
シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。
その後、新しい質問に対するコード統合ソリューションを生成する。
コード統合された解の正当性を確保するため、合理性に基づく解の検証手法を採用する。
7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。
これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。
特にMathGenieLM-InternLM2は、GSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。
Large language models (LLMs) have exhibited great potential in mathematical reasoning. However, there remains a performance gap in this area between existing open-source models and closed-source models such as GPT-4. In this paper, we introduce MathGenie, a novel method for generating diverse and reliable math problems from a small-scale problem-solution dataset (denoted as seed data). We augment the ground-truth solutions of our seed data and train a back-translation model to translate the augmented solutions back into new questions. Subsequently, we generate code-integrated solutions for the new questions. To ensure the correctness of the code-integrated solutions, we employ rationale-based strategy for solution verification. Various pretrained models, ranging from 7B to 70B, are trained on the newly curated data to test the effectiveness of the proposed augmentation technique, resulting in a family of models known as MathGenieLM. These models consistently outperform previous open-source models across five representative mathematical reasoning datasets, achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2 achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best overall score among open-source language models. | 翻訳日:2024-09-12 21:47:34 公開日:2024-09-11 |
# ゼロショットタスク適応のための命令調整データセット生成学習
Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation ( http://arxiv.org/abs/2402.18334v3 ) ライセンス: Link先を確認 | Nihal V. Nayak, Yiyang Nan, Avi Trost, Stephen H. Bach, | (参考訳) 我々は,無注釈のテキストをタスク固有のトレーニングデータセットに変換する条件付きタスク生成のオープンソースモデルであるBonitoを紹介した。
我々は,ユーザの専用プライベートデータに対して,大規模言語モデルのゼロショットタスク適応を可能にすることを目的としている。
既存のインストラクションチューニングデータセットをメタテンプレートにリミックスして作成した1.65万のサンプルを備えた,新たな大規模データセット上で,事前トレーニング済みの大規模言語モデルを微調整することで,Bonitoをトレーニングする。
データセットのメタテンプレートは、入力が注釈のないテキストであり、タスク属性と出力が命令と応答からなるトレーニング例を生成する。
Bonitoを使って,3つのタスクタイプ – yes-no question answering, extractive question answering, and natural language inference – にまたがる,注釈のないテキストを持つ専門ドメインから,7つのデータセットの合成タスクを生成します。
そこで,本研究では,自己教師付きベースライン上での事前学習モデルと指導モデルの平均性能を著しく向上することを示す。
例えば、Mistral-Instruct-v2 と、Mistral と Llama2 を Bonito に適応させると、強いゼロショット性能が 22.1 F1 ポイント向上する。
ドメインの効果、トレーニングセットのサイズ、代替の合成タスクジェネレータの選択を理解するために、Bonitoで追加実験を行う。
総合的に,合成指導調律データセットを用いた学習は,言語モデルを新しい領域に適応させる効果的な方法であることを示す。
モデル、データセット、コードはhttps://github.com/BatsResearch/bonito.comで公開されている。
We introduce Bonito, an open-source model for conditional task generation that converts unannotated text into task-specific training datasets for instruction tuning. We aim to enable zero-shot task adaptation of large language models on users' specialized, private data. We train Bonito by fine-tuning a pretrained large language model on a new large-scale dataset with 1.65M examples created by remixing existing instruction tuning datasets into meta-templates. The meta-templates for a dataset produce training examples where the input is the unannotated text and the task attribute and the output consists of the instruction and the response. We use Bonito to generate synthetic tasks for seven datasets from specialized domains with unannotated text across three task types -- yes-no question answering, extractive question answering, and natural language inference -- and adapt language models. We show that Bonito significantly improves the average performance of pretrained and instruction tuned models over the de facto self supervised baseline. For example, adapting Mistral-Instruct-v2 and instruction tuned variants of Mistral and Llama2 with Bonito improves the strong zero-shot performance by 22.1 F1 points whereas the next word prediction objective undoes some of the benefits of instruction tuning and reduces the average performance by 0.8 F1 points. We conduct additional experiments with Bonito to understand the effects of the domain, the size of the training set, and the choice of alternative synthetic task generators. Overall, we show that learning with synthetic instruction tuning datasets is an effective way to adapt language models to new domains. The model, dataset, and code are available at https://github.com/BatsResearch/bonito. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# 確率論的理論の時間配向について
On the Time Orientation of Probabilistic Theories ( http://arxiv.org/abs/2403.01062v2 ) ライセンス: Link先を確認 | Andrea Di Biagio, Carlo Rovelli, | (参考訳) 渡辺里志の影響力のある定理は、非自明な前方遷移確率と後方遷移確率の両方を持つ物理的確率論が存在しないことを多くの人々に納得させた。
この結論は定理に従わないことを示す。
議論の欠点を指摘し、よく定義された後方遷移確率と前方遷移確率を持つ理論の例を示す。
An influential theorem by Satosi Watanabe convinced many that there can be no physical probabilistic theory with both non-trivial forward and backward transition probabilities. We show that this conclusion does not follow from the theorem. We point out the flaw in the argument, and we showcase examples of theories with well-defined backward and forward transition probabilities. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン
MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts ( http://arxiv.org/abs/2403.10568v2 ) ライセンス: Link先を確認 | Ruixiang Jiang, Lingbo Liu, Changwen Chen, | (参考訳) プロンプトベースのマルチモーダル融合法のパラメータ効率が証明されているにもかかわらず、それらの適応性と表現性は、他のチューニング手法と比較して、しばしば準最適性能をもたらす。
本稿では,インスタンスレベルの特徴を適応的にキャプチャするバニラプロンプトを分解することで,これらの制限に対処する。
この分解に基づいて,プロンプト・チューニングの表現性を高めるために,プロンプト・エキスパート(MoPE)技法の混合を導入する。
MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。
バニラプロンプトと比較すると,本手法はより表現力が高く,トレーニングデータやトレーニング可能なパラメータの総数よりも効果的にスケールできる。
また,エキスパート・ルーティングの正規化条件についても検討し,訓練中のエキスパート・スペシャライゼーションを創発し,ソフト・プロンプトの解釈の道を開いた。
4つのモダリティにまたがる6つのマルチモーダルデータセットに対する大規模な実験により、我々の手法は、訓練可能なパラメータの0.8%しか必要とせず、迅速な融合、マッチング、さらには微調整の性能を超越する、最先端の結果が得られることを示した。
コードは、https://github.com/songrise/MoPE.comでリリースされる。
Despite the demonstrated parameter efficiency of prompt-based multimodal fusion methods, their limited adaptivity and expressiveness often result in suboptimal performance compared to other tuning approaches. In this paper, we address these limitations by decomposing the vanilla prompts to adaptively capture instance-level features. Building upon this decomposition, we introduce the mixture of prompt experts (MoPE) technique to enhance the expressiveness of prompt tuning. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based fusion method exhibits greater expressiveness, scaling more effectively with the training data and the overall number of trainable parameters. We also investigate regularization terms for expert routing, which lead to emergent expert specialization during training, paving the way for interpretable soft prompting. Extensive experiments across six multimodal datasets spanning four modalities demonstrate that our method achieves state-of-the-art results for prompt fusion, matching or even surpassing the performance of fine-tuning while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# クリック検出による光子統計量の実験的検索
Experimental retrieval of photon statistics from click detection ( http://arxiv.org/abs/2403.11673v2 ) ライセンス: Link先を確認 | Suchitra Krishnaswamy, Fabian Schule, Laura Ares, Vladyslav Dyachuk, Michael Stefszky, Benjamin Brecht, Christine Silberhorn, Jan Sperling, | (参考訳) 我々は、光子統計の再構成にクリックカウント理論を利用する。
提案手法では, 測定されたクリック数から光子数を推定するために, 解析的擬似反転法を用いる。
必要に応じて光子数の分解能を変更することが可能な、再構成可能な時間ビン多重化クリックカウント検出器が設定される。
検出器トモグラフィーを行い、量子効率、クロストークレートなどの重要な測定特性を得る。
マンデルパラメータと二項パラメータを適用して擬似逆変換の成功を測り、異なる量子統計量の識別のためにこれらのパラメータを付加解釈する。
さらに,検出損失を考慮に入れた損失デコンボリューション手法を適用した。
We utilize click-counting theory for the reconstruction of photon statistics. Our approach employs an analytic pseudo-inversion method to estimate photon counts from measured click counts. A reconfigurable time-bin multiplexing, click-counting detector is set up that renders it possible to alter the photon-number resolution as needed. A detector tomography is carried out, yielding vital measurement features, such as quantum efficiencies, cross-talk rates, etc. We gauge the success of the pseudo-inversion by applying the Mandel and binomial parameters, resulting in an additional interpretation of these parameters for the discrimination of distinct quantum statistics. In addition, we apply a loss deconvolution technique to account for detection losses. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# EmoVOCA: 音声駆動型感情型3Dトーキングヘッド
EmoVOCA: Speech-Driven Emotional 3D Talking Heads ( http://arxiv.org/abs/2403.12886v2 ) ライセンス: Link先を確認 | Federico Nocentini, Claudio Ferrari, Stefano Berretti, | (参考訳) 3Dトーキングヘッドジェネレーションの領域は、近年大きく進歩している。
この分野における顕著な課題は、音声関連運動と表現力学をブレンドすることであり、これは主に、音声文の多様性と様々な表情を組み合わせた包括的3Dデータセットが欠如していることに起因する。
文献は2Dビデオデータとパラメトリックな3Dモデルを回避策として活用しようとしたが、これらは2つの動きを共同でモデル化する際の限界を示している。
本研究では,この課題を異なる視点から解決し,非表現的3次元音声ヘッドの集合と3次元表現的シーケンスの集合を組み合わせた合成データセット(EmoVOCA)の作成に使用した,革新的なデータ駆動手法を提案する。
このアプローチの利点とデータセットの品質を実証するため,我々は,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,表情の表現特性で音声同期唇の動きをアニメーション化することを学ぶ。
我々のデータとジェネレータを用いた総合的な実験は、文献でもっとも優れた手法と比較して、説得力のあるアニメーションを合成する能力に優れていた。
コードと事前訓練されたモデルを利用可能にします。
The domain of 3D talking head generation has witnessed significant progress in recent years. A notable challenge in this field consists in blending speech-related motions with expression dynamics, which is primarily caused by the lack of comprehensive 3D datasets that combine diversity in spoken sentences with a variety of facial expressions. Whereas literature works attempted to exploit 2D video data and parametric 3D models as a workaround, these still show limitations when jointly modeling the two motions. In this work, we address this problem from a different perspective, and propose an innovative data-driven technique that we used for creating a synthetic dataset, called EmoVOCA, obtained by combining a collection of inexpressive 3D talking heads and a set of 3D expressive sequences. To demonstrate the advantages of this approach, and the quality of the dataset, we then designed and trained an emotional 3D talking head generator that accepts a 3D face, an audio file, an emotion label, and an intensity value as inputs, and learns to animate the audio-synchronized lip movements with expressive traits of the face. Comprehensive experiments, both quantitative and qualitative, using our data and generator evidence superior ability in synthesizing convincing animations, when compared with the best performing methods in the literature. Our code and pre-trained model will be made available. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# データ不均一性を考慮した分散学習におけるローカル更新の有効性
The Effectiveness of Local Updates for Decentralized Learning under Data Heterogeneity ( http://arxiv.org/abs/2403.15654v2 ) ライセンス: Link先を確認 | Tongle Wu, Ying Sun, | (参考訳) 本稿では,DGT (Decentralized Gradient Tracking) とDGD (Decentralized Gradient Descent) の2つの基本的な分散最適化手法を再検討する。
2つの設定を考慮し、$K > 1$ ローカル更新手順を組み込むことで通信の複雑さを低減できることを示す。
具体的には、$\mu$-strongly convex および $L$-smooth loss function に対して、局所DGT が通信複雑性を達成できることを証明した。 $\tilde{\mathcal{O}} \Big(\frac{L}{\mu K} + \frac{\delta}{\mu (1 - \rho)} + \frac{\rho }{(1 - \rho)^2} \cdot \frac{L+ \delta}{\mu}\Big)$。
その結果、通信と計算のトレードオフを明らかにし、データ不均一性が低くネットワークが十分に接続されている場合、K$の増加は通信コストを効果的に削減できることを示した。
次に、局所的な損失が同じ最小値を共有する過度パラメータ化方式を考察し、DGDの局所的な更新を用いることで、勾配補正がなくても通信複雑性の低減にDGTと同じような効果が得られることを示した。
数値実験により理論的結果が検証された。
We revisit two fundamental decentralized optimization methods, Decentralized Gradient Tracking (DGT) and Decentralized Gradient Descent (DGD), with multiple local updates. We consider two settings and demonstrate that incorporating $K > 1$ local update steps can reduce communication complexity. Specifically, for $\mu$-strongly convex and $L$-smooth loss functions, we proved that local DGT achieves communication complexity $\tilde{\mathcal{O}} \Big(\frac{L}{\mu K} + \frac{\delta}{\mu (1 - \rho)} + \frac{\rho }{(1 - \rho)^2} \cdot \frac{L+ \delta}{\mu}\Big)$, where $\rho$ measures the network connectivity and $\delta$ measures the second-order heterogeneity of the local loss. Our result reveals the tradeoff between communication and computation and shows increasing $K$ can effectively reduce communication costs when the data heterogeneity is low and the network is well-connected. We then consider the over-parameterization regime where the local losses share the same minimums, we proved that employing local updates in DGD, even without gradient correction, can yield a similar effect as DGT in reducing communication complexity. Numerical experiments validate our theoretical results. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# エンドユーザー関与による神経技術研究・開発促進のための基礎的ガイドライン
Foundational guidelines for enhancing neurotechnology research and development through end-user involvement ( http://arxiv.org/abs/2404.00047v2 ) ライセンス: Link先を確認 | Amparo Güemes, Tiago da Silva Costa, Tamar Makin, | (参考訳) 神経技術は、日々の生活、身体、そして精神状態とますます統合されつつある。
ニューロテクノロジーの人気と影響が高まるにつれて、私たちの責任は、そのエンドユーザーへの特定の影響と、より広範な倫理的および社会的影響を理解することにある。
エンドユーザーやステークホルダーを、その初期の概念からニューロテクノロジー開発に参加させることは、これらの考慮事項に関するデザインをより良くナビゲートし、より影響力のある技術を提供するのに役立つだろう。
技術開発ライフサイクルにエンドユーザを巻き込むという概念を具体化するための用語やフレームワークが数多く存在する。例えば、"Public and patient Involvement and Engagement"(PPIE)、"Life Experience"、"co-design"である。
ここでは,ニューロテクノロジーにおける現在および将来のエンドユーザーによる堅牢な関与プロセスを実装するための明確なガイドラインを開発するために,PPIEフレームワークを利用する。
神経テクノロジーのためのPPI戦略の開発と実施に関心がある研究者や技術者に対して、ベストプラクティスのガイダンスを提示する。
さまざまなオンラインソースから、個々のチーム(および資金提供者)に対して、意味のある関与に対する独自のアプローチを彫るようアドバイスします。
ユーザ関与の具体的かつ概念的なメリットを探求する紹介の後、読者は自身のプロセスを構築するための一般的な戦略を開発するよう指導する。
次に、読者が関連するステークホルダーをマップアウトし、ユーザの多様性と表現をどう考えるかについてのアドバイスを提供するのを手伝います。
また、エンゲージメントの結果を定量化する方法についてのアドバイスや、さまざまな段階で透明性と説明責任を確保するためのチェックリストも提供します。
目的は、患者と公衆の洞察が、我々の科学的調査と製品開発の最前線にあることを保証するための、金本位制の方法論の確立である。
Neurotechnologies are increasingly becoming integrated with our everyday lives, our bodies and our mental states. As the popularity and impact of neurotechnology grows, so does our responsibility to ensure we understand its particular implications on its end users, as well as broader ethical and societal implications. Enabling end-users and stakeholders to participate in the development of neurotechnology, from its earliest stages of conception, will help us better navigate our design around these considerations and deliver more impactful technologies. There are many terms and frameworks to articulate the concept of involving end users in the technology development lifecycle, for example: 'Public and Patient Involvement and Engagement' (PPIE), 'lived experience' and 'co-design'. Here we utilise the PPIE framework to develop clear guidelines for implementing a robust involvement process of current and future end-users in neurotechnology. We present best practice guidance for researchers and engineers who are interested in developing and conducting a PPI strategy for their neurotechnology. We provide advice from various online sources to orient individual teams (and funders) to carve up their own approach to meaningful involvement. After an introduction that coveys the tangible and conceptual benefits of user involvement, we guide the reader to develop a general strategy towards setting up their own process. We then help the reader map out their relevant stakeholders and provide advice on how to consider user diversity and representation. We also provide advice on how to quantify the outcomes of the engagement, as well as a check-list to ensure transparency and accountability at various stages. The aim is the establishment of gold-standard methodologies for ensuring that patient and public insights are at the forefront of our scientific inquiry and product development. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# 検出ループのない高速通信システムにおける非局所性のステアリング
Steering nonlocality in high-speed telecommunication system without detection loophole ( http://arxiv.org/abs/2404.03228v2 ) ライセンス: Link先を確認 | Qiang Zeng, Huihong Yuan, Haoyang Wang, Lai Zhou, Zhiliang Yuan, | (参考訳) 非局所相関は量子力学の重要な特徴であり、量子情報処理において利用可能な資源である。
しかし、抜け穴の問題と関連する適用可能性の妥協は、実用化を妨げている。
超高速な計測切替速度(2.5GHz)を備えた完全チップファイバ通信システムにおいて,非局所性の非局所性を検出・ループホールのない最初の実演を報告した。
本稿では,GHzレベルの変調率に適応する位相符号化計測手法を提案する。
我々は、効率的な絡み合い発生のための低損失シリコンチップの設計と製造を行い、ステアリングパーティーにおける測定実装を模倣する非対称パラダイムを考案し、位相符号化損失を回避する。
その結果,複数の計測設定を積極的に切り替えた決定的量子ステアリングによって要求される検出効率を克服できる光ファイバー装置を構築した。
我々のセットアップは、非局所性、特に量子通信を操るアプリケーションを探究するための即時プラットフォームを提供する。
Nonlocal correlation represents the key feature of quantum mechanics, and is an exploitable resource in quantum information processing. However, the loophole issues and the associated applicability compromises hamper the practical applications. We report the first detection-loophole-free demonstration of steering nonlocality in a fully chip-fiber telecommunication system, with an ultra-fast measurement switching rate (2.5 GHz). In this endeavor, we propose the phase-encoding measurement scheme to adapt the system to the GHz-level modulation rate. We design and fabricate a low-loss silicon chip for efficient entanglement generation, and devise an asymmetric paradigm to mimic the measurement implementation at the steering party thus avoiding the phase-encoding loss. Consequently, we build a fiber-optic setup that can overcome the detection efficiency that is required by conclusive quantum steering with actively switched multiple measurement settings. Our setup presents an immediate platform for exploring applications based on steering nonlocality, especially for quantum communication. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# LHU-Net: 低コストで高性能な医用医用画像分割のための軽量ハイブリッドU-Net
LHU-Net: A Light Hybrid U-Net for Cost-Efficient, High-Performance Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2404.05102v2 ) ライセンス: Link先を確認 | Yousef Sadegheih, Afshin Bozorgpour, Pratibha Kumari, Reza Azad, Dorit Merhof, | (参考訳) Transformerアーキテクチャの台頭は、医療画像セグメンテーションに革命をもたらし、精度を高めるために畳み込みニューラルネットワーク(CNN)とTransformerを組み合わせたハイブリッドモデルを生み出した。
しかし、これらのモデルはしばしば複雑さの増大に悩まされ、空間的特徴とチャネル的特徴の相互作用を見落としている。
LHU-Netは,まず空間的特徴とチャネル的特徴を定量的に分析し,効率的な特徴抽出を行うために設計した医用画像分割用ハイブリッドU-Netである。
5つのベンチマークデータセット(Synapse, LA, Pancreas, ACDC, BRaTS 2018)でテストされたLHU-Netは、ACDC上で92.66Diceスコアを達成し、主要なモデルに比べて85倍のパラメータと計算要求の4分の1を達成した。
このパフォーマンスは、事前トレーニング、余分なデータ、モデルアンサンブルなしで達成され、1100万以下のパラメータを使用して、セグメンテーションにおける計算効率と精度のベンチマークを新たに設定する。
この成果は、医用画像のセグメンテーションにおいて高い精度で計算効率をバランスさせることが可能であることを強調している。
LHU-Netの実装はGitHubのリサーチコミュニティ(https://github.com/xmindflow/LHUNet)に自由にアクセスできます。
The rise of Transformer architectures has revolutionized medical image segmentation, leading to hybrid models that combine Convolutional Neural Networks (CNNs) and Transformers for enhanced accuracy. However, these models often suffer from increased complexity and overlook the interplay between spatial and channel features, which is vital for segmentation precision. We introduce LHU-Net, a streamlined Hybrid U-Net for volumetric medical image segmentation, designed to first analyze spatial and then channel features for effective feature extraction. Tested on five benchmark datasets (Synapse, LA, Pancreas, ACDC, BRaTS 2018), LHU-Net demonstrated superior efficiency and accuracy, notably achieving a 92.66 Dice score on ACDC with 85\% fewer parameters and a quarter of the computational demand compared to leading models. This performance, achieved without pre-training, extra data, or model ensembles, sets new benchmarks for computational efficiency and accuracy in segmentation, using under 11 million parameters. This achievement highlights that balancing computational efficiency with high accuracy in medical image segmentation is feasible. Our implementation of LHU-Net is freely accessible to the research community on GitHub (https://github.com/xmindflow/LHUNet). | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# AEGIS: LLMエキスパートの集まりによるオンライン適応型AIコンテンツ安全性のモデレーション
AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts ( http://arxiv.org/abs/2404.05993v2 ) ライセンス: Link先を確認 | Shaona Ghosh, Prasoon Varshney, Erick Galinkin, Christopher Parisien, | (参考訳) 大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
さらに,AEGISSAFETYDATASETは,約26,000人の人間とLLMの相互作用を解析し,ヒトのアノテーションが分類に付着していることを確認した。
我々は、このデータセットをコミュニティにリリースし、さらなる研究と安全性のためのLCMモデルのベンチマークを支援する予定です。
このデータセットの有効性を示すために,複数のLCMベースの安全モデルについて指導・チューニングを行った。
我々のモデル(AEGISSAFETYEXPERTS)は、最先端のLLMベースの安全モデルや汎用LLMと競合するだけでなく、複数のジェイルブレイク攻撃カテゴリにまたがる堅牢性も示している。
また,LLMアライメントフェーズにおけるAEGISSAFETYDATASETの使用は,MTベンチスコアにおけるアライメントモデルの性能に悪影響を及ぼさないことを示す。
さらに,LLMコンテンツ安全性専門家のアンサンブルによるコンテンツモデレーションを実現するために,理論的確証が強いノンレグレットオンライン適応フレームワークの新たな応用法であるAEGISを提案する。
As Large Language Models (LLMs) and generative AI become more widespread, the content safety risks associated with their use also increase. We find a notable deficiency in high-quality content safety datasets and benchmarks that comprehensively cover a wide range of critical safety areas. To address this, we define a broad content safety risk taxonomy, comprising 13 critical risk and 9 sparse risk categories. Additionally, we curate AEGISSAFETYDATASET, a new dataset of approximately 26, 000 human-LLM interaction instances, complete with human annotations adhering to the taxonomy. We plan to release this dataset to the community to further research and to help benchmark LLM models for safety. To demonstrate the effectiveness of the dataset, we instruction-tune multiple LLM-based safety models. We show that our models (named AEGISSAFETYEXPERTS), not only surpass or perform competitively with the state-of-the-art LLM-based safety models and general purpose LLMs, but also exhibit robustness across multiple jail-break attack categories. We also show how using AEGISSAFETYDATASET during the LLM alignment phase does not negatively impact the performance of the aligned models on MT Bench scores. Furthermore, we propose AEGIS, a novel application of a no-regret online adaptation framework with strong theoretical guarantees, to perform content moderation with an ensemble of LLM content safety experts in deployment | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# 有限遅延を伴う空間分離空洞系の光準正規モードの量子化
Quantization of optical quasinormal modes for spatially separated cavity systems with finite retardation ( http://arxiv.org/abs/2404.07741v2 ) ライセンス: Link先を確認 | Robert Fuchs, Juanjuan Ren, Sebastian Franke, Stephen Hughes, Marten Richter, | (参考訳) 共生背景媒体に埋め込まれた光キャビティの準正規モード(QNM)を用いて、共振器間結合において遅延が重要な場合の多重キャビティ量子化手法を開発した。
計算光学で計算可能な量と数値解法を用いて、従来のQNM量子化スキームを拡張して、QNMキャビティの別個の量子化が正当化されているか、システムの合同量子化が必要かを決定するための定量的測度を定義する。
本測定は,QNMキャビティとして作用する2つの結合型1次元誘電体スラブと金属ナノロッドのダイマーの例を対象としたものである。
十分に大きな分離を行うためには、個々のキャビティに対して定義されたパラメータを用いて、マルチキャビティ現象を効率的に処理することができる。
このスキームは、ハミルトニアンを慣れ親しんだシステムバス形式で定式化し、厳密なQNM理論と、マックスウェル計算から直接得られるパラメータを持つ共有フォトニック浴に結合した開放キャビティの広範な現象論的モデルとを結びつける。
A multi-cavity quantization scheme is developed using quasinormal modes (QNMs) of optical cavities embedded in a homogeneous background medium for cases where retardation is significant in the inter-cavity coupling. Using quantities that can be calculated in computational optics with numerical Maxwell solvers, we extend previous QNM quantization schemes and define a quantitative measure to determine if a separate quantization of QNM cavities is justified or if a joint quantization of the system is necessary. We test this measure for the examples of two coupled one-dimensional dielectric slabs and a dimer of metal nanorods acting as QNM cavities. For sufficiently large separations, the new scheme allows for an efficient treatment of multi-cavity phenomena using parameters defined for the individual cavities. Formulating the Hamiltonian in a familiar system-bath form, the scheme connects the rigorous QNM theory and widespread phenomenological models of open cavities coupled to a shared photonic bath with parameters obtained directly from Maxwell calculations. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# ディープトランスファー学習に基づく乳癌画像の分類法
Breast Cancer Image Classification Method Based on Deep Transfer Learning ( http://arxiv.org/abs/2404.09226v2 ) ライセンス: Link先を確認 | Weimin Wang, Yufeng Li, Xu Yan, Mingxuan Xiao, Min Gao, | (参考訳) 乳がん病理画像の検出・分類において, 限られたサンプル, 時間的特徴設計, 精度の低い課題に対処するために, 深層学習と転写学習を組み合わせた乳癌画像分類モデルを提案する。
このアルゴリズムはディープニューラルネットワークのDenseNet構造に基づいており、注意機構を導入してネットワークモデルを構築し、マルチレベル転送学習を用いて拡張データセットを訓練する。
実験結果から, テストセットの84.0\%以上を効率よく達成し, 従来のモデルと比較して分類精度が大幅に向上し, 医療乳がん検出タスクにも適用可能であることが示された。
To address the issues of limited samples, time-consuming feature design, and low accuracy in detection and classification of breast cancer pathological images, a breast cancer image classification model algorithm combining deep learning and transfer learning is proposed. This algorithm is based on the DenseNet structure of deep neural networks, and constructs a network model by introducing attention mechanisms, and trains the enhanced dataset using multi-level transfer learning. Experimental results demonstrate that the algorithm achieves an efficiency of over 84.0\% in the test set, with a significantly improved classification accuracy compared to previous models, making it applicable to medical breast cancer detection tasks. | 翻訳日:2024-09-12 21:32:34 公開日:2024-09-11 |
# FedCCL:Federated Dual-Clustered Feature Contrast under Domain Heterogeneity
FedCCL: Federated Dual-Clustered Feature Contrast Under Domain Heterogeneity ( http://arxiv.org/abs/2404.09259v2 ) ライセンス: Link先を確認 | Yu Qiao, Huy Q. Le, Mengchun Zhang, Apurba Adhikary, Chaoning Zhang, Choong Seon Hong, | (参考訳) フェデレートラーニング(FL)は、エッジクライアントと中央サーバとのコラボレーションを通じて、プライバシ保護のニューラルネットワークトレーニングパラダイムを促進する。
重要な課題の1つは、分散データが独立で同一の分散(非IID)ではなく、通常、ドメイン内およびドメイン間不均一性の両方を含むことである。
しかし、最近の研究は、単に正規化の一形態として平均信号を使い、これらの非IID課題の1つの側面にのみ焦点をあてることに限られている。
これらの制約を踏まえ、本論文はこれらの2つの非IID課題を明らかにし、局所的およびグローバル的視点からそれらに対処するためのクラスタ表現の導入を試みる。
具体的には、デュアルフォーカスを持つ二重クラスタ型特徴コントラストベースのFLフレームワークを提案する。
まず、各クライアントのローカル表現にクラスタリングを導入し、これらのローカルクラスタに基づいたクラス内情報を高い粒度で取得する。
そして、類似のセマンティクスでクライアントが共有するクラスタに局所的な表現を近づけ、異なるセマンティクスでそれらをクラスタから切り離すことにより、クロスクライアントの知識共有を容易にする。
第2に、同一クラスに属するローカルクラスタのサイズがクライアントごとに異なる可能性があるため、グローバル側でのクラスタリングをさらに活用し、平均化を行い、各ローカルトレーニングを対照的にガイドするための一貫したグローバル信号を生成する。
複数のデータセットに対する実験結果から,ドメイン内およびドメイン間不均一性において,提案手法が同等あるいは優れた性能向上を達成することが示された。
Federated learning (FL) facilitates a privacy-preserving neural network training paradigm through collaboration between edge clients and a central server. One significant challenge is that the distributed data is not independently and identically distributed (non-IID), typically including both intra-domain and inter-domain heterogeneity. However, recent research is limited to simply using averaged signals as a form of regularization and only focusing on one aspect of these non-IID challenges. Given these limitations, this paper clarifies these two non-IID challenges and attempts to introduce cluster representation to address them from both local and global perspectives. Specifically, we propose a dual-clustered feature contrast-based FL framework with dual focuses. First, we employ clustering on the local representations of each client, aiming to capture intra-class information based on these local clusters at a high level of granularity. Then, we facilitate cross-client knowledge sharing by pulling the local representation closer to clusters shared by clients with similar semantics while pushing them away from clusters with dissimilar semantics. Second, since the sizes of local clusters belonging to the same class may differ for each client, we further utilize clustering on the global side and conduct averaging to create a consistent global signal for guiding each local training in a contrastive manner. Experimental results on multiple datasets demonstrate that our proposal achieves comparable or superior performance gain under intra-domain and inter-domain heterogeneity. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# $\textit{sweet}$- 接触のない手指血管生体計測実験のためのオープンソースのモジュラープラットフォーム
$\textit{sweet}$- An Open Source Modular Platform for Contactless Hand Vascular Biometric Experiments ( http://arxiv.org/abs/2404.09376v2 ) ライセンス: Link先を確認 | David Geissbühler, Sushil Bhattacharjee, Ketan Kotwal, Guillaume Clivaz, Sébastien Marcel, | (参考訳) 現在のフィンガーベインまたはパームベイン認識システムは、通常、被検体と機器を直接接触する必要がある。
これは衛生が重要な環境において問題となることがある。
本研究は,手の血管バイオメトリックス研究(毛髪,手のひら,指先)やヤシプリントなどの表面特性に使用できる,接触のない血管バイオメトリックスセンサプラットフォームである \sweet を提案する。
マルチスペクトル近赤外線(NIR)、RGBカラー、ステレオビジョン(SV)、フォトメトリックステレオ(PS)など、いくつかの取得モードをサポートしている。
このプラットフォームを使用して、120人の被験者の指、手のひら、手首の血管データからなるデータセットを収集し、このデータの事前処理のための強力な3Dパイプラインを開発する。
次に,FVR(Finger-Vein Recognition)に着目し,生体計測実験を行った。
最後に、ヤシ-ベインとヤシ-プリントバイオメトリックスを組み合わせたマルチモーダルの融合について論じる。
買収ソフトウェア、ハードウェア設計の一部、新しいFVデータセット、そして我々の実験のためのソースコードは、研究目的で公開されています。
Current finger-vein or palm-vein recognition systems usually require direct contact of the subject with the apparatus. This can be problematic in environments where hygiene is of primary importance. In this work we present a contactless vascular biometrics sensor platform named \sweet which can be used for hand vascular biometrics studies (wrist, palm, and finger-vein) and surface features such as palmprint. It supports several acquisition modalities such as multi-spectral Near-Infrared (NIR), RGB-color, Stereo Vision (SV) and Photometric Stereo (PS). Using this platform we collect a dataset consisting of the fingers, palm and wrist vascular data of 120 subjects and develop a powerful 3D pipeline for the pre-processing of this data. We then present biometric experimental results, focusing on Finger-Vein Recognition (FVR). Finally, we discuss fusion of multiple modalities, such palm-vein combined with palm-print biometrics. The acquisition software, parts of the hardware design, the new FV dataset, as well as source-code for our experiments are publicly available for research purposes. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# ニューラルネットワークを補間するエンジニアリングソフトウェア2.0:トレーニング、解決、校正の統合
Engineering software 2.0 by Interpolating Neural Networks: Unifying Training, Solving, and Calibration ( http://arxiv.org/abs/2404.10296v3 ) ライセンス: Link先を確認 | Chanwook Park, Sourav Saha, Jiachen Guo, Hantao Zhang, Xiaoyu Xie, Miguel A. Bessa, Dong Qian, Wei Chen, Gregory J. Wagner, Jian Cao, Wing Kam Liu, | (参考訳) 人工知能(AI)とニューラルネットワーク理論の進化は、ソフトウェアプログラムの方法に革命をもたらし、ハードコードされた一連のコードであるSoftware 1.0から巨大なニューラルネットワークであるSoftware 2.0へと移行した。
しかし、このエンジニアリングソフトウェアの移行は、データの不足、データの多要素性、モデルの精度の低下、推論の遅いといった問題に直面している。
本稿では、補間理論とテンソル分解に基づく新しいネットワーク、補間ニューラルネットワーク(INN)を提案し、トレーニング、解決、校正を統一するEngineering Software 2.0の新しい時代を開く。
コンピュータ科学における一般的な概念であるトレーニングデータを補間する代わりに、INNは座標と値が訓練可能な物理空間の格子点を補間する。
INNは、トレーニング可能なパラメータ(あるいは問題解決の自由度)を桁違いに少なくし、トレーニング/解決の高速化、推論コストの低減、メモリフットプリントの削減、マルチ層パーセプトロン(MLP)や物理インフォームドニューラルネットワーク(PINN)と比較してモデル精度の向上を実現している。
計算機科学と工学領域をカバーする様々な数値実験により、INNはゼッタスケール(10^{21})の偏微分方程式を解くことができ、異常な精度でデータセットを訓練/校正できるが、1つのグラフィックス処理ユニット(GPU)だけでパラメータを減らした。
The evolution of artificial intelligence (AI) and neural network theories has revolutionized the way software is programmed, shifting from a hard-coded series of codes, Software 1.0, to a vast neural network, Software 2.0. However, this transition in engineering software has faced challenges such as data scarcity, multi-modality of data, low model accuracy, and slow inference. Here, we propose a new network based on interpolation theories and tensor decomposition, the interpolating neural network (INN) to open the new era of Engineering Software 2.0 that unifies training, solving, and calibration. Instead of interpolating training data, a common notion in computer science, INN interpolates grid points in the physical space whose coordinates and values are trainable. INN features orders of magnitude fewer trainable parameters (or degrees of freedom for solving), faster training/solving, less inference cost, smaller memory footprint, and higher model accuracy compared to multi-layer perceptron (MLP) or physics-informed neural networks (PINN). Various numerical experiments that cover computer science and engineering domains demonstrate that INN can solve over Zetta scale (10^{21}) partial differential equations and train/calibrate a dataset with extraordinary accuracy but fewer parameters using only a single graphics processing unit (GPU). | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# ガウスのOpacity Fields:非有界環境における効率的な適応的表面再構成
Gaussian Opacity Fields: Efficient Adaptive Surface Reconstruction in Unbounded Scenes ( http://arxiv.org/abs/2404.10772v2 ) ライセンス: Link先を確認 | Zehao Yu, Torsten Sattler, Andreas Geiger, | (参考訳) 近年,3D Gaussian Splatting (3DGS) は,高解像度画像をリアルタイムにレンダリングしながら,目覚ましいビュー合成結果を示した。
しかし、3Dガウスを表面再構成に利用することは、3Dガウスの明示的で非連結な性質のために大きな課題となる。
本研究では,非有界シーンにおける効率,高品質,適応的な表面再構成のための新しいアプローチであるGOF(Gaussian Opacity Fields)を提案する。
GOFは,ポアソン再構成やTSDF融合を使わずに,3次元ガウシアンからの直接幾何学的抽出が可能な3次元ガウシアンの3次元ボリュームレンダリングから派生した。
我々は、ガウス面の表面正規化を線-ガウス面の正規化として近似し、幾何を著しく拡張する正規化の適用を可能にする。
さらに, 3次元ガウスから四面体格子を誘導し, シーンの複雑さに適応する, テトラヘドラのマーチングを利用した効率的な幾何抽出法を開発した。
本評価の結果,GOFは表面再構成や新しいビュー合成において既存の3DGS法を超越していることがわかった。
さらに、品質とスピードの両方において、ニューラルネットワークの暗黙の手法を好ましく比較する。
Recently, 3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis results, while allowing the rendering of high-resolution images in real-time. However, leveraging 3D Gaussians for surface reconstruction poses significant challenges due to the explicit and disconnected nature of 3D Gaussians. In this work, we present Gaussian Opacity Fields (GOF), a novel approach for efficient, high-quality, and adaptive surface reconstruction in unbounded scenes. Our GOF is derived from ray-tracing-based volume rendering of 3D Gaussians, enabling direct geometry extraction from 3D Gaussians by identifying its levelset, without resorting to Poisson reconstruction or TSDF fusion as in previous work. We approximate the surface normal of Gaussians as the normal of the ray-Gaussian intersection plane, enabling the application of regularization that significantly enhances geometry. Furthermore, we develop an efficient geometry extraction method utilizing Marching Tetrahedra, where the tetrahedral grids are induced from 3D Gaussians and thus adapt to the scene's complexity. Our evaluations reveal that GOF surpasses existing 3DGS-based methods in surface reconstruction and novel view synthesis. Further, it compares favorably to or even outperforms, neural implicit methods in both quality and speed. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 分子グラフにおけるGNNのスケーラビリティについて
On the Scalability of GNNs for Molecular Graphs ( http://arxiv.org/abs/2404.11568v4 ) ライセンス: Link先を確認 | Maciej Sypetkowski, Frederik Wenkel, Farimah Poursafaei, Nia Dickson, Karush Suri, Philip Fradkin, Dominique Beaini, | (参考訳) ディープラーニングモデルをスケールすることは、言語モデリングと画像生成における最近の革命の中心である。
モデルのサイズ、データセットのサイズ、パフォーマンスには強い関係がある。
しかし、グラフニューラルネットワーク(GNN)のような構造ベースのアーキテクチャは、スパース演算の効率の低下、大規模なデータ要求、各種アーキテクチャの有効性に関する明確さの欠如など、スケールのメリットを示さない。
このようなGNNの欠点を,そのスケーリング行動を研究することによって解決する。
具体的には,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。
初めて、GNNは、深度、幅、分子数、ラベルの数、事前学習データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
さらに、38の高度に競争力のある下流タスクにおいて、従来の大規模モデルよりも優れた微調整のスケーリング挙動を示す。
これは、化学空間をナビゲートできる新しいグラフ基盤モデルであるMolGPSが、38の下流タスクのうち26の最先端タスクより優れている。
我々の研究が、基礎的なGNNが医薬品の発見を促進する時代への道を開くことを願っている。
Scaling deep learning models has been at the heart of recent revolutions in language modelling and image generation. Practitioners have observed a strong relationship between model size, dataset size, and performance. However, structure-based architectures such as Graph Neural Networks (GNNs) are yet to show the benefits of scale mainly due to the lower efficiency of sparse operations, large data requirements, and lack of clarity about the effectiveness of various architectures. We address this drawback of GNNs by studying their scaling behavior. Specifically, we analyze message-passing networks, graph Transformers, and hybrid architectures on the largest public collection of 2D molecular graphs. For the first time, we observe that GNNs benefit tremendously from the increasing scale of depth, width, number of molecules, number of labels, and the diversity in the pretraining datasets. We further demonstrate strong finetuning scaling behavior on 38 highly competitive downstream tasks, outclassing previous large models. This gives rise to MolGPS, a new graph foundation model that allows to navigate the chemical space, outperforming the previous state-of-the-arts on 26 out the 38 downstream tasks. We hope that our work paves the way for an era where foundational GNNs drive pharmaceutical drug discovery. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 点雲を用いたシーンフローの攻撃
Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v6 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, | (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。
しかし、これらの手法の堅牢性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。
驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。
この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。
実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。
この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。
シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。
コードはhttps://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.gitで公開されている。
Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. The robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants shows a higher vulnerability for the optical flow networks. Code is available at https://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.git. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# RetinaRegNet: 網膜画像登録のためのゼロショットアプローチ
RetinaRegNet: A Zero-Shot Approach for Retinal Image Registration ( http://arxiv.org/abs/2404.16017v3 ) ライセンス: Link先を確認 | Vishal Balaji Sivaraman, Muhammad Imran, Qingyue Wei, Preethika Muralidharan, Michelle R. Tamplin, Isabella M . Grumbach, Randy H. Kardon, Jui-Kai Wang, Yuyin Zhou, Wei Shao, | (参考訳) RetinaRegNetは、最小オーバーラップ、大きな変形、様々な画質で網膜画像を登録するゼロショット画像登録モデルである。
RetinaRegNetはこれらの課題に対処し、以下のステップで堅牢で正確な登録を実現する。
まず、潜時拡散モデルを用いて、移動画像と固定画像の特徴を抽出する。
次に、SIFTアルゴリズムとランダム点サンプリングの組み合わせを用いて、固定画像から特徴点をサンプリングする。
各サンプル点について、2次元相関写像を用いて移動画像中の対応する点を同定し、固定画像中の点の拡散特徴ベクトルと移動画像中の全ての画素とのコサイン類似性を計算した。
第2に,逆整合制約を強制することにより,不正確な検出点対応(外接点対応)を排除し,前方方向と後方方向の両方で整合性を確保する。
さらに,大域変換に基づく外乱検出器を用いて,対応する点間の距離が大きい外乱検出器を除去する。
最後に,大規模な変形を扱うための2段階の登録フレームワークを実装した。
第1段階は画像間の大域的なアライメントを達成するためにホモグラフィ変換を推定し、第2段階は局所的な変形を推定するために3階多項式変換を使用する。
網膜画像登録データセット(カラーファンドス画像,フルオレセイン血管造影画像,レーザースペックルフローグラフィ画像)を用いてRetinaRegNetを評価した。
私たちのモデルは、すべてのデータセットで常に最先端のメソッドより優れています。
RetinaRegNetによる正確な登録は、眼疾患の進行の追跡を可能にし、手術計画を強化し、治療効果の評価を容易にする。
私たちのコードは、https://github.com/mirthAI/RetinaRegNet.comで公開されています。
We introduce RetinaRegNet, a zero-shot image registration model designed to register retinal images with minimal overlap, large deformations, and varying image quality. RetinaRegNet addresses these challenges and achieves robust and accurate registration through the following steps. First, we extract features from the moving and fixed images using latent diffusion models. We then sample feature points from the fixed image using a combination of the SIFT algorithm and random point sampling. For each sampled point, we identify its corresponding point in the moving image using a 2D correlation map, which computes the cosine similarity between the diffusion feature vectors of the point in the fixed image and all pixels in the moving image. Second, we eliminate most incorrectly detected point correspondences (outliers) by enforcing an inverse consistency constraint, ensuring that correspondences are consistent in both forward and backward directions. We further remove outliers with large distances between corresponding points using a global transformation based outlier detector. Finally, we implement a two-stage registration framework to handle large deformations. The first stage estimates a homography transformation to achieve global alignment between the images, while the second stage uses a third-order polynomial transformation to estimate local deformations. We evaluated RetinaRegNet on three retinal image registration datasets: color fundus images, fluorescein angiography images, and laser speckle flowgraphy images. Our model consistently outperformed state-of-the-art methods across all datasets. The accurate registration achieved by RetinaRegNet enables the tracking of eye disease progression, enhances surgical planning, and facilitates the evaluation of treatment efficacy. Our code is publicly available at: https://github.com/mirthAI/RetinaRegNet. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# COCOLA:Coherence-Oriented Contrastive Learning of Musical Audio Representations
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations ( http://arxiv.org/abs/2404.16969v3 ) ライセンス: Link先を確認 | Ruben Ciranni, Giorgio Mariani, Michele Mancusi, Emilian Postolache, Giorgio Fabbro, Emanuele Rodolà, Luca Cosmo, | (参考訳) サンプル間の調和的・リズム的コヒーレンスをキャプチャする音声表現のコントラスト学習手法であるCOCOLA(Coherence-Oriented Contrastive Learning for Audio)を提案する。
本手法は,音楽トラックを構成する幹のレベルで動作し,ハーモニック・パーカッッシブ分離(HPS)によって得られる特徴を入力できる。
COCOLAは、確立したメトリクスとベンチマークが難しい音楽伴奏生成のための生成モデルの客観的評価を可能にする。
本稿では,提案手法の有効性を実証し,最近の音楽伴奏生成モデルを評価する。
MUSDB18-HQ、MoisesDB、Slakh2100、CocoChorales)を含む公開データセットでトレーニングされたモデルチェックポイントをリリースする。
We present COCOLA (Coherence-Oriented Contrastive Learning for Audio), a contrastive learning method for musical audio representations that captures the harmonic and rhythmic coherence between samples. Our method operates at the level of the stems composing music tracks and can input features obtained via Harmonic-Percussive Separation (HPS). COCOLA allows the objective evaluation of generative models for music accompaniment generation, which are difficult to benchmark with established metrics. In this regard, we evaluate recent music accompaniment generation models, demonstrating the effectiveness of the proposed method. We release the model checkpoints trained on public datasets containing separate stems (MUSDB18-HQ, MoisesDB, Slakh2100, and CocoChorales). | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 圧縮サンプリングによる画質評価
Image Quality Assessment With Compressed Sampling ( http://arxiv.org/abs/2404.17170v2 ) ライセンス: Link先を確認 | Ronghua Liao, Chen Hui, Lang Yuan, Haiqi Zhu, Feng Jiang, | (参考訳) No-Reference Image Quality Assessment (NR-IQA) は、画像品質を主観的人間の知覚に応じて推定することを目的としている。
しかし、ほとんどの手法は、入力画像の制限を伴う最終性能を改善するために、ますます複雑なネットワークの探索に重点を置いている。
特に高分解能(HR)画像に適用した場合、これらの手法はモデル入力に対応するために原画像のサイズを調整する必要があり、上記の問題を緩和するために、圧縮サンプリング(CL-IQAとCS-IQA)を用いたNR-IQAのための2つのネットワークを提案する。
1) イメージをサンプリングする圧縮サンプリングモジュール(CSM) (2) 適応埋め込みモジュール(AEM)。
測定値はAEMに埋め込まれ、高いレベルの特徴を抽出する。
(3)Vision Transformer と Scale Swin TranBlocksformer Moudle (SSTM) は深い特徴を抽出する。
(4) 最終品質スコアを得るための二分枝(DB)。
実験により,提案手法は,データ使用量が少ない様々なデータセットにおいて,他の手法よりも優れていることが示された。
No-Reference Image Quality Assessment (NR-IQA) aims at estimating image quality in accordance with subjective human perception. However, most methods focus on exploring increasingly complex networks to improve the final performance,accompanied by limitations on input images. Especially when applied to high-resolution (HR) images, these methods offen have to adjust the size of original image to meet model input.To further alleviate the aforementioned issue, we propose two networks for NR-IQA with Compressive Sampling (dubbed CL-IQA and CS-IQA). They consist of four components: (1) The Compressed Sampling Module (CSM) to sample the image (2)The Adaptive Embedding Module (AEM). The measurements are embedded by AEM to extract high-level features. (3) The Vision Transformer and Scale Swin TranBlocksformer Moudle(SSTM) to extract deep features. (4) The Dual Branch (DB) to get final quality score. Experiments show that our proposed methods outperform other methods on various datasets with less data usage. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 文脈木モデルへのベイズ符号の適用によるガウスの木構造スティック-ブレーキング過程の変分ベイズ法
Variational Bayesian Methods for a Tree-Structured Stick-Breaking Process Mixture of Gaussians by Application of the Bayes Codes for Context Tree Models ( http://arxiv.org/abs/2405.00385v2 ) ライセンス: Link先を確認 | Yuta Nakahara, | (参考訳) 木構造スティック破断過程(TS-SBP)の混合モデルは、混合成分間の木のような階層構造を表現できる非パラメトリックベイズモデルである。
TS-SBP混合モデルではマルコフ連鎖モンテカルロ法(MCMC)のみが提案されており、変分ベイズ法(VB)は提案されていない。
一般に、MCMC法はVB法よりも計算コストが高い。
したがって,TS-SBP混合モデルの学習には計算コストが大きい。
本稿では,有限木幅と深さを仮定したVB法を用いて,ガウスのTS-SBP混合に対する計算コストの少ない学習アルゴリズムを提案する。
このようなVB法を構築する際には、可能なすべての木に対する和の効率的な計算が主な課題である。
この問題を解決するために,ベイズ符号化アルゴリズムのサブルーチンをコンテキストツリーモデルに用いる。
ベンチマークデータセットを用いた実験により,VB法の計算効率を検証した。
The tree-structured stick-breaking process (TS-SBP) mixture model is a non-parametric Bayesian model that can represent tree-like hierarchical structures among the mixture components. For TS-SBP mixture models, only a Markov chain Monte Carlo (MCMC) method has been proposed and any variational Bayesian (VB) methods has not been proposed. In general, MCMC methods are computationally more expensive than VB methods. Therefore, we require a large computational cost to learn the TS-SBP mixture model. In this paper, we propose a learning algorithm with less computational cost for the TS-SBP mixture of Gaussians by using the VB method under an assumption of finite tree width and depth. When constructing such VB method, the main challenge is efficient calculation of a sum over all possible trees. To solve this challenge, we utilizes a subroutine in the Bayes coding algorithm for context tree models. We confirm the computational efficiency of our VB method through an experiments on a benchmark dataset. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# エラー駆動型不確かさ認識訓練
Error-Driven Uncertainty Aware Training ( http://arxiv.org/abs/2405.01205v2 ) ライセンス: Link先を確認 | Pedro Mendes, Paolo Romano, David Garlan, | (参考訳) ニューラルネットワークは、しばしば彼らの予測を過度に信頼しており、信頼性と信頼性を損なう。
本研究では,ニューラル分類器が不確かさを正確に推定する能力を高めることを目的とした,誤り駆動不確実性意識訓練(EUAT)という新しい手法を提案する。
EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく、または正しく予測されているかどうかに応じて、2つの損失関数を選択的に使用することによって機能する。
これにより、2倍の目標を追求することができる。
一 正しく予測された入力のモデル不確実性を最小化すること。
二 モデルの誤予測率を維持しつつ、誤予測入力の不確かさを最大化すること。
画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
その結果、EUATは、統計指標(例えば、残差との相関関係)を用いて評価した場合に高い品質を持つ不確実性推定を提供するとともに、モデルの出力が信頼可能かどうか、分散データシフトの下で判断するバイナリ分類器を構築する際にも、既存の不確実性評価手法(他の不確実性学習手法、校正、アンサンブル、DEUPを含む)よりも優れていた。
Neural networks are often overconfident about their predictions, which undermines their reliability and trustworthiness. In this work, we present a novel technique, named Error-Driven Uncertainty Aware Training (EUAT), which aims to enhance the ability of neural classifiers to estimate their uncertainty correctly, namely to be highly uncertain when they output inaccurate predictions and low uncertain when their output is accurate. The EUAT approach operates during the model's training phase by selectively employing two loss functions depending on whether the training examples are correctly or incorrectly predicted by the model. This allows for pursuing the twofold goal of i) minimizing model uncertainty for correctly predicted inputs and ii) maximizing uncertainty for mispredicted inputs, while preserving the model's misprediction rate. We evaluate EUAT using diverse neural models and datasets in the image recognition domains considering both non-adversarial and adversarial settings. The results show that EUAT outperforms existing approaches for uncertainty estimation (including other uncertainty-aware training techniques, calibration, ensembles, and DEUP) by providing uncertainty estimates that not only have higher quality when evaluated via statistical metrics (e.g., correlation with residuals) but also when employed to build binary classifiers that decide whether the model's output can be trusted or not and under distributional data shifts. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 大規模言語モデルレコメンダシステムにおける消費者公正度ベンチマークのための規範的フレームワーク
A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System ( http://arxiv.org/abs/2405.02219v2 ) ライセンス: Link先を確認 | Yashar Deldjoo, Fatemeh Nazary, | (参考訳) 推薦システム(RS)における大規模言語モデル(LLM)の急速な採用は、そのバイアスを理解し評価する上で新たな課題を示し、それによってステレオタイプが不公平あるいは増幅される可能性がある。
RSの伝統的な公正度評価は主に協調フィルタリング(CF)の設定に焦点を当てており、これはLLMの複雑さを完全に捉えていない可能性がある。
本稿では,LLMを利用したレコメンデータシステム(RecLLMs)における消費者の公正度を評価するための規範的フレームワークを提案する。
古典的RSの公平性規範がLLMの課題にどう対処するかを批判的に検討する。
このギャップは公平性に関する任意の結論をもたらす可能性があり、そのようなシステムにおいて公平性を評価するためのより構造化された形式的なアプローチを提案する。
消費者の公正度に関するMovieLensデータセットに関する実験では、文脈内学習(ゼロショット対少数ショット)を用いて、特に追加の文脈例が導入された場合(ICL-2)、年齢ベースの推薦における公平さの偏りを明らかにした。
統計的に重要なテストでは、これらの偏差はランダムではなく、ロバストな評価方法の必要性を強調している。
この研究は、提案された規範的フレームワークに関する予備的な議論を提供する一方で、RecLLMの監査とバイアス軽減のための形式的で原則化されたアプローチを提供することを期待しています。
この作業で使用されるコードとデータセットは、"gihub-anonymized"で共有される。
The rapid adoption of large language models (LLMs) in recommender systems (RS) presents new challenges in understanding and evaluating their biases, which can result in unfairness or the amplification of stereotypes. Traditional fairness evaluations in RS primarily focus on collaborative filtering (CF) settings, which may not fully capture the complexities of LLMs, as these models often inherit biases from large, unregulated data. This paper proposes a normative framework to benchmark consumer fairness in LLM-powered recommender systems (RecLLMs). We critically examine how fairness norms in classical RS fall short in addressing the challenges posed by LLMs. We argue that this gap can lead to arbitrary conclusions about fairness, and we propose a more structured, formal approach to evaluate fairness in such systems. Our experiments on the MovieLens dataset on consumer fairness, using in-context learning (zero-shot vs. few-shot) reveal fairness deviations in age-based recommendations, particularly when additional contextual examples are introduced (ICL-2). Statistical significance tests confirm that these deviations are not random, highlighting the need for robust evaluation methods. While this work offers a preliminary discussion on a proposed normative framework, our hope is that it could provide a formal, principled approach for auditing and mitigating bias in RecLLMs. The code and dataset used for this work will be shared at "gihub-anonymized". | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# 多体系における信号伝播速度の限界--量子情報の観点から
Limits to velocity of signal propagation in many-body systems: a quantum-information perspective ( http://arxiv.org/abs/2405.03751v2 ) ライセンス: Link先を確認 | Piotr Wysocki, Jan Chwedeńczuk, | (参考訳) リーブ・ロビンソン境界(LRB)は、複雑な多体系の構成要素間の相互作用の範囲と強度が、信号の伝播速度に上限を課すと述べている。
2つの離れたサブシステムを結ぶ相関関数の光円錐状の成長を示す。
ここでは,多体系に接続された単一量子ビット上での局所的な測定から,LRBが決定可能であることを示すために,量子情報の手法を用いる。
この定式化は、複雑なシステムにおけるLRBを推定するための操作的レシピを提供し、相関関数の測定を単純な単一粒子操作に置き換える。
我々は、XYスピンチェーンにおける信号伝播速度の上限を導出することで、このアプローチの有効性を実証する。
The Lieb-Robinson bound (LRB) states that the range and strength of interactions between the constituents of a complex many-body system impose upper limits to how fast the signal can propagate. It manifests in a light cone-like growth of correlation function connecting two distant subsystems. Here we employ the techniques of quantum information to demonstrate that the LRB can be determined from local measurements performed on a single qubit that is connected to a many-body system. This formulation provides an operational recipe for estimating the LRB in complex systems, replacing the measurement of the correlation function with simple single-particle manipulations. We demonstrate the potency of this approach by deriving the upper limit to the speed of signal propagation in the XY spin chain. | 翻訳日:2024-09-12 21:17:34 公開日:2024-09-11 |
# グラフ用大規模言語モデルの検討
A Survey of Large Language Models for Graphs ( http://arxiv.org/abs/2405.08011v3 ) ライセンス: Link先を確認 | Xubin Ren, Jiabin Tang, Dawei Yin, Nitesh Chawla, Chao Huang, | (参考訳) グラフは、現実世界のシナリオにおける関係を表現するために使用される重要なデータ構造である。
従来の研究では、グラフニューラルネットワーク(GNN)が、リンク予測やノード分類といったグラフ中心のタスクにおいて、驚くべき結果をもたらすことが確認されている。
これらの進歩にもかかわらず、データスパシティや限定的な一般化能力といった課題は引き続き続く。
近年,Large Language Models (LLM) が自然言語処理に注目されている。
彼らは言語理解と要約に長けている。
グラフ学習タスクのパフォーマンス向上手段として,LLMとグラフ学習技術の統合が注目されている。
本稿では,グラフ学習に適用された最新のLLMの詳細なレビューを行い,そのフレームワーク設計に基づいて既存の手法を分類する新しい分類法を提案する。
我々は4つのユニークなデザインを詳述する。
一 プリフィックスとしてのGNN
二 プレフィックスとしてのLLM
三 LLMs-Graphs の統合及び
四 LLMs-第一に、各カテゴリの主要な方法論を強調すること。
各フレームワークの長所と短所について検討し、LLMとグラフ学習技術の現在の統合課題を克服し、新しいアプリケーション分野に進出するなど、将来の研究への潜在的な道のりを強調する。
本調査は,グラフ学習における大規模言語モデルの活用を熱望する研究者や実践者にとって貴重な資源であり,このダイナミックな分野の継続的な進歩を促すことを目的としている。
我々は,関連するオープンソース資料を<url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers} で一貫して管理している。
Graphs are an essential data structure utilized to represent relationships in real-world scenarios. Prior research has established that Graph Neural Networks (GNNs) deliver impressive outcomes in graph-centric tasks, such as link prediction and node classification. Despite these advancements, challenges like data sparsity and limited generalization capabilities continue to persist. Recently, Large Language Models (LLMs) have gained attention in natural language processing. They excel in language comprehension and summarization. Integrating LLMs with graph learning techniques has attracted interest as a way to enhance performance in graph learning tasks. In this survey, we conduct an in-depth review of the latest state-of-the-art LLMs applied in graph learning and introduce a novel taxonomy to categorize existing methods based on their framework design. We detail four unique designs: i) GNNs as Prefix, ii) LLMs as Prefix, iii) LLMs-Graphs Integration, and iv) LLMs-Only, highlighting key methodologies within each category. We explore the strengths and limitations of each framework, and emphasize potential avenues for future research, including overcoming current integration challenges between LLMs and graph learning techniques, and venturing into new application areas. This survey aims to serve as a valuable resource for researchers and practitioners eager to leverage large language models in graph learning, and to inspire continued progress in this dynamic field. We consistently maintain the related open-source materials at \url{https://github.com/HKUDS/Awesome-LLM4Graph-Papers}. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 潜在拡散モデルによる脳波データからの自然音楽復号
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models ( http://arxiv.org/abs/2405.09062v5 ) ライセンス: Link先を確認 | Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Luca Cosmo, Taketo Akama, | (参考訳) 本稿では,脳波(EEG)記録から自然音楽の再構成を行うために,強力な生成モデル群である潜時拡散モデルを用いることの可能性について検討する。
MIDI生成曲やモノフォニック曲のような限られた音色を持つ単純な音楽とは異なり、ここでの焦点は様々な楽器、声、エフェクトを備えた複雑な音楽であり、ハーモニックや音色に富んでいる。
本研究は,非侵襲的な脳波データを用いて高品質な音楽再生を実現するための最初の試みであり,手作業による事前処理やチャネル選択を必要とせず,生データに直接エンドツーエンドのトレーニング手法を適用する。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。
In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 物理インフォームドニューラルネットワークによる量子アンハーモニック振動子の非摂動レギュムの対応
Addressing the Non-perturbative Regime of the Quantum Anharmonic Oscillator by Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.13442v2 ) ライセンス: Link先を確認 | Lorenzo Brevi, Antonio Mandarino, Enrico Prati, | (参考訳) 物理科学におけるディープラーニングの利用により、研究者は分析的な知見がほとんど、あるいは全く得られない物理的システムに取り組むことができるようになった。
近年,物理インフォームドニューラルネットワーク (PINN) は,いくつかの物理的制約によって導かれる微分方程式の系を解く最も有望なツールの1つとして紹介されている。
量子領域において、そのようなアプローチは、非可積分系に対するシュレーディンガー方程式を解く新しいアプローチへの道を開く。
非教師なし学習アプローチに従うことで、位置座標の4番目のパワーに比例する相互作用項が存在する無調波発振器にPINNを適用する。
我々は、クォート相互作用の重みを変化させながら、固有エネルギーと対応する固有関数を計算する。
我々は、摂動と強い結合理論の両方が機能する体制に解を橋渡しし、純粋なクォート振動子を含む。
実数および虚数周波数のシステムについて検討し、量子場理論に現れる問題に対処するための新しい数値法の基礎を築いた。
The use of deep learning in physical sciences has recently boosted the ability of researchers to tackle physical systems where little or no analytical insight is available. Recently, the Physics-Informed Neural Networks (PINNs) have been introduced as one of the most promising tools to solve systems of differential equations guided by some physically grounded constraints. In the quantum realm, such approach paves the way to a novel approach to solve the Schroedinger equation for non-integrable systems. By following an unsupervised learning approach, we apply the PINNs to the anharmonic oscillator in which an interaction term proportional to the fourth power of the position coordinate is present. We compute the eigenenergies and the corresponding eigenfunctions while varying the weight of the quartic interaction. We bridge our solutions to the regime where both the perturbative and the strong coupling theory work, including the pure quartic oscillator. We investigate systems with real and imaginary frequency, laying the foundation for novel numerical methods to tackle problems emerging in quantum field theory. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 緩和時間近似のためのリンドブラディアン法、環境温度クエンチによるキブル・ズレーク過程、リンドブラディアン摂動理論への応用
Lindbladian way for the relaxation time approximation, application to Kibble-Zurek processes due to environment temperature quench, and to Lindbladian perturbation theory ( http://arxiv.org/abs/2405.14825v3 ) ライセンス: Link先を確認 | Gergő Roósz, | (参考訳) 本稿では,地球規模のリンドブラディアン・アンサッツを作製し,温度$T$からGibs状態までの熱処理を行った。
このアンザッツはハミルトニアンの2つの固有状態全てを結び、緩和時間近似(RTA)として知られる単純なマスター方程式をもたらす。
この論文の主なメッセージは、RTAはリンドブラディアンのアプローチそのものであり、物理過程をモデル化する際の熱化を確保するためにリンドブラディアンとして利用することができ、したがって平衡状態のシステムを駆動する他のタイプのリンドブラディアンと組み合わせることができることである。
私はそれを2つのアプリケーションでデモします。
第一の応用は、環境温度を臨界点に変化させることにより、量子系の遅い冷却(または加熱)である。
この RTA-Lindblad ansatz は系の平衡挙動に直接関係し、順序パラメータが指数 $\Psi$ を持つなら、相転移の残り値は $1/\tau^{\Psi}$ で減少する。
第2の応用では、RTA-Lindbladian項が熱化しているのに対し、リンドブラディアン項を平衡から外す余剰な項による保存量(ハミルトンと通勤する演算子)の期待値の変化について検討する。
元の熱平衡で計算された期待値のみを用いて、新しい定常状態における期待値を第1次で閉じた摂動式を与える。
In the present paper, a global Lindbladian ansatz is constructed which leads to thermalization at temperature $T$ to the Gibs state of the investigated system. This ansatz connects every two eigenstates of the Hamiltonian and leads to a simple master equation known in the literature as the relaxation time approximation (RTA). The main message of this paper is that RTA, being a Lindbladian approach itself, can be used as Lindbladian securing thermalization when modeling physical processes, and can be consequently combined with other types of Lindbladians which would drive the system of the equilibrium state. I demonstrate it with two applications. The first application is the slow cooling (or heating) of quantum systems by varying the environment temperature to a critical point. With this RTA-Lindblad ansatz, one can directly relate to the equilibrium behavior of the system, and if an order parameter has the exponent $\Psi$, the remaining value at the phase transition will decrease with $1/\tau^{\Psi}$, where $\tau$ is the overall time of the slow process. In the second application, I investigate the change in the expectation value of a conserved quantity (an operator commuting with the Hamiltonian) due to an extra Lindbladian term which would drive the system out from equilibrium, while the thermalizing RTA-Lindbladian term is also present. I give a closed perturbative expression in the first order for the expectation value in the new steady state using only expectation values calculated in the original thermal equilibrium. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 振り返る:フィーチャーバンクでビデオからビデオへの翻訳をストリーミング
Looking Backward: Streaming Video-to-Video Translation with Feature Banks ( http://arxiv.org/abs/2405.15757v2 ) ライセンス: Link先を確認 | Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu, | (参考訳) 本稿では,ユーザプロンプトによるリアルタイムストリーミングビデオ変換を実現する拡散モデルStreamV2Vを紹介する。
バッチを使用して限られたフレームを処理する従来のV2V手法とは異なり、我々は無制限フレームをサポートするために、ストリーミング形式でフレームを処理することを選択した。
StreamV2Vの中心には、現在と過去を関連づけた後ろ向きの原理がある。
これは、過去のフレームから情報をアーカイブするフィーチャーバンクを維持することで実現される。
入ってくるフレームに対して、StreamV2Vは自己アテンションを拡張して、バンクされたキーと値を含み、同様の過去の機能を出力に直接フューズする。
機能バンクは、格納された機能と新機能をマージすることで継続的に更新される。
StreamV2Vはその適応性と効率性を強調し、微調整なしで画像拡散モデルとシームレスに統合する。
1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。
定量的メトリクスとユーザスタディは、StreamV2Vの時間的一貫性を維持する異常な能力を確認している。
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 2次元PbSナノプレートの分極低温発光におけるサブMeV線幅
Sub-meV Linewidths in Polarized Low-Temperature Photoluminescence of 2D PbS Nanoplatelets ( http://arxiv.org/abs/2405.19821v2 ) ライセンス: Link先を確認 | Pengji Li, Leon Biesterfeld, Lars Klepzig, Jingzhong Yang, Huu Thoai Ngo, Ahmed Addad, Tom N. Rakow, Ruolin Guan, Eddy P. Rugeramigabo, Ivan Zaluzhnyy, Frank Schreiber, Louis Biadala, Jannika Lauth, Michael Zopf, | (参考訳) コロイド半導体ナノ結晶は、その多用途化学と光発光(PL)特性のために古典的および量子的光源に期待できる材料である。
可視放出物質はよく確立されているが、優れた(近赤外線)赤外線源の追求は続いている。
この点において注目すべき候補の1つは、CdSe NPLの典型的な発光範囲限界に直結する720nm (1.7 eV)の励起発光を示す発光性2次元(2D)PbSナノプレートレット(NPL)である。
本稿では,この材料クラスから低温PLを総合的に分析する。
超薄型2D PbS NPLは、走査透過電子顕微鏡により高い結晶性を示し、重なり合う構造におけるモアレパターンを明らかにする。
4Kでは,1個のPbS NPLの特異なPL特性が観察され,線路幅が0.6mVまで狭いゼロフォノン線と,直線偏光度90%までの範囲で観測された。
時間分解測定では、トリオンは2.3 nsの崩壊時間を持つ支配的な放出源である。
サブMeVスペクトルの拡散は観察され、数分で瞬きは見られず、また離散スペクトルのジャンプは記憶効果を伴わない。
これらの知見はコロイドPbS NPLの光学および量子技術への理解と基盤となる。
Colloidal semiconductor nanocrystals are promising materials for classical and quantum light sources due to their versatile chemistry and efficient photoluminescence (PL) properties. While visible emitters are well-established, the pursuit of excellent (near-)infrared sources continues. One notable candidate in this regard are photoluminescent two-dimensional (2D) PbS nanoplatelets (NPLs) exhibiting excitonic emission at 720 nm (1.7 eV) directly tying to the typical emission range limit of CdSe NPLs. Here, we present the first comprehensive analysis of low-temperature PL from this material class. Ultrathin 2D PbS NPLs exhibit high crystallinity confirmed by scanning transmission electron microscopy, and revealing Moire patterns in overlapping structures. At 4K, we observe unique PL features in single PbS NPLs, including narrow zero-phonon lines with line widths down to 0.6 meV and a linear degree of polarization up to 90%. Time-resolved measurements identify trions as the dominant emission source with a 2.3 ns decay time. Sub-meV spectral diffusion and no immanent blinking over minutes is observed, as well as discrete spectral jumps without memory effects. These findings advance the understanding and underpin the potential of colloidal PbS NPLs for optical and quantum technologies. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# SECURE: サイバーセキュリティアドバイザリのための大規模言語モデルのベンチマーク
SECURE: Benchmarking Large Language Models for Cybersecurity Advisory ( http://arxiv.org/abs/2405.20441v2 ) ライセンス: Link先を確認 | Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Nidhi Rastogi, | (参考訳) 大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
既存のベンチマークは、一般的な評価を提供するが、サイバーセキュリティ固有のタスクにおけるLLMのパフォーマンスの実践的および応用的な側面に十分対応していない。
このギャップに対処するために、現実的なサイバーセキュリティシナリオにおいてLLMのパフォーマンスを評価するために設計されたSECURE(Security extract, Understanding \& Reasoning Evaluation)を導入する。
SECUREには、業界標準ソースに基づいた知識抽出、理解、推論を評価するために、産業制御システム分野に焦点を当てた6つのデータセットが含まれている。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈における長所と短所についての洞察を提供し、サイバーアドバイザリーツールとしてLCMの信頼性を向上させるための推奨事項を提供する。
Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 対話型3次元モデリングのためのテキスト誘導制御可能なメッシュ微細化
Text-guided Controllable Mesh Refinement for Interactive 3D Modeling ( http://arxiv.org/abs/2406.01592v2 ) ライセンス: Link先を確認 | Yun-Chun Chen, Selena Ling, Zhiqin Chen, Vladimir G. Kim, Matheus Gadelha, Alec Jacobson, | (参考訳) テキストプロンプトによって案内される入力粗い3Dメッシュに幾何学的詳細を加える新しい手法を提案する。
私たちの方法は3つの段階から成り立っている。
まず、入力粗い幾何学と入力テキストプロンプトに基づいて、単一のビューRGB画像を生成する。
このシングルビュー画像生成ステップにより、ユーザは結果の事前視覚化が可能になり、その後のマルチビュー生成に対してより強い条件付けを提供する。
第2に、新しいマルチビュー正規生成アーキテクチャを用いて、正常画像の6つの異なるビューを共同で生成する。
共同ビュー生成は矛盾を低減し、よりシャープな詳細をもたらす。
第3に、すべてのビューに対してメッシュを最適化し、出力として微細で詳細な幾何学を生成する。
得られた方法は、数秒以内に出力を生成し、粗い構造、ポーズ、および結果の3Dメッシュの所望の詳細を明示的なユーザ制御を提供する。
We propose a novel technique for adding geometric details to an input coarse 3D mesh guided by a text prompt. Our method is composed of three stages. First, we generate a single-view RGB image conditioned on the input coarse geometry and the input text prompt. This single-view image generation step allows the user to pre-visualize the result and offers stronger conditioning for subsequent multi-view generation. Second, we use our novel multi-view normal generation architecture to jointly generate six different views of the normal images. The joint view generation reduces inconsistencies and leads to sharper details. Third, we optimize our mesh with respect to all views and generate a fine, detailed geometry as output. The resulting method produces an output within seconds and offers explicit user control over the coarse structure, pose, and desired details of the resulting 3D mesh. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 意思決定者としてのMamba:オフライン強化学習におけるマルチスケールシーケンスモデリングの探索
Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning ( http://arxiv.org/abs/2406.02013v2 ) ライセンス: Link先を確認 | Jiahang Cao, Qiang Zhang, Ziqing Wang, Jingkai Sun, Jiaxu Wang, Hao Cheng, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu, | (参考訳) 逐次モデリングはオフライン強化学習(RL)において顕著な能力を示しており、決定変換器(DT)は最も顕著な代表者の一人であり、大きな成功を収めている。
しかしながら、RLトラジェクトリは、従来のシーケンス(例えば、テキストや音声)と区別される独自の特性を持っている: 1)RLの次の状態が、マルコフ決定過程(MDP)に基づく現在の状態と行動のみによって理論的に決定される局所的相関、(2)グローバル的相関、そして、各ステップの特徴が、トラジェクトリの時間的連続性に起因する長期的な歴史的情報に関連付けられている。
本稿では,Mamba Decision Maker (MambaDM) と呼ばれる新しいアクションシーケンス予測器を提案する。
特に,入力シーケンスのグローバルな特徴とローカルな特徴を巧みに抽出し,統合する新しいミキサーモジュールを導入し,RLデータセットの相互関係を効果的に捉える。
大規模な実験により、MambaDMはAtariとOpenAI Gymデータセットで最先端のパフォーマンスを達成した。
さらに,MambaDMのスケーリング法則を実証的に検討し,モデルサイズの増加は性能改善をもたらすものではないが,MambaDMのデータセット量を2倍に拡張することで,Atariデータセットのスコア改善率を最大33.7%向上させることができることを示した。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
Sequential modeling has demonstrated remarkable capabilities in offline reinforcement learning (RL), with Decision Transformer (DT) being one of the most notable representatives, achieving significant success. However, RL trajectories possess unique properties to be distinguished from the conventional sequence (e.g., text or audio): (1) local correlation, where the next states in RL are theoretically determined solely by current states and actions based on the Markov Decision Process (MDP), and (2) global correlation, where each step's features are related to long-term historical information due to the time-continuous nature of trajectories. In this paper, we propose a novel action sequence predictor, named Mamba Decision Maker (MambaDM), where Mamba is expected to be a promising alternative for sequence modeling paradigms, owing to its efficient modeling of multi-scale dependencies. In particular, we introduce a novel mixer module that proficiently extracts and integrates both global and local features of the input sequence, effectively capturing interrelationships in RL datasets. Extensive experiments demonstrate that MambaDM achieves state-of-the-art performance in Atari and OpenAI Gym datasets. Furthermore, we empirically investigate the scaling laws of MambaDM, finding that increasing model size does not bring performance improvement, but scaling the dataset amount by 2x for MambaDM can obtain up to 33.7% score improvement on Atari dataset. This paper delves into the sequence modeling capabilities of MambaDM in the RL domain, paving the way for future advancements in robust and efficient decision-making systems. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# エッジコンピューティングにおける無線LLM推論のための適応層分割:モデルに基づく強化学習アプローチ
Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach ( http://arxiv.org/abs/2406.02616v5 ) ライセンス: Link先を確認 | Yuxuan Chen, Rongpeng Li, Xiaoxue Yu, Zhifeng Zhao, Honggang Zhang, | (参考訳) エッジコンピューティング環境における大規模言語モデル(LLM)のデプロイの最適化は、プライバシと計算効率の向上に不可欠である。
本研究は,エッジコンピューティングにおける効率的な無線LLM推論に向けて,主要なオープンソースLLMにおける分割点の影響を包括的に分析する。
そこで本研究では,モデルベース強化学習(MBRL)からインスピレーションを得て,エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。
報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
大規模シミュレーションにより, この手法は, 異なるネットワーク条件下での推論性能と計算負荷のバランスを効果的に保ち, 分散環境におけるLLM配置の堅牢なソリューションを提供することを示した。
Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings. | 翻訳日:2024-09-12 20:57:55 公開日:2024-09-11 |
# 多レベル辞書を用いたロスレス画像圧縮:バイナリ画像
Lossless Image Compression Using Multi-level Dictionaries: Binary Images ( http://arxiv.org/abs/2406.03087v3 ) ライセンス: Link先を確認 | Samar Agnihotri, Renu Rameshan, Ritwik Ghosal, | (参考訳) 画像の保存や送信コストを削減するために、さまざまなアプリケーションにおいてロスレス画像圧縮が必要であるが、再構成された画像はオリジナルのものと比べて情報損失がゼロである必要がある。
既存のロスレス画像圧縮手法は単純な設計だが圧縮性能は劣るが、複雑な設計、性能は向上するが、性能保証はない。
低複雑性で性能が保証されたロスレス画像圧縮手法の開発にあたり、カラー画像の圧縮性はその空間構造、強度変化、色変化のパターンから本質的に派生したものであると論じる。
したがって、損失のない画像圧縮方式の全体設計を、対応する冗長性を利用する3つの部分に分割する。
さらに、画像の双対化バージョンは、その基本的な空間構造をキャプチャすると主張する。
本研究の前半では,2値画像のロスレス圧縮方式を提案する。
提案手法はまず、さまざまなバイナリ画像のデータセットから16ドル/8ドル/4ドル/2ドル/4ドル/2ドル/4ドル/4ドル/2ドル/4セント/4ドル/4ドル/4セント/4セント/4セント/5セント/5セント/5セント/5セント/5セント/5セント/5セントの辞書を学習する。
次に、これらの辞書を使ってバイナリ画像をエンコードする。
これらの辞書には、効率的でスケーラブルなスキームを構築するためにさらに活用される様々な興味深い性質がある。
予備的な結果から,提案手法は従来型および学習型ロスレス圧縮手法を一貫して上回り,一般目的ロスレス圧縮方式(WebP)よりも1.5ドル以上高い性能,最先端の学習ベース方式よりも3ドル以上高い性能,バイナリ画像圧縮方式(JBIG2)よりも優れた性能を提供する。
Lossless image compression is required in various applications to reduce storage or transmission costs of images, while requiring the reconstructed images to have zero information loss compared to the original. Existing lossless image compression methods either have simple design but poor compression performance, or complex design, better performance, but with no performance guarantees. In our endeavor to develop a lossless image compression method with low complexity and guaranteed performance, we argue that compressibility of a color image is essentially derived from the patterns in its spatial structure, intensity variations, and color variations. Thus, we divide the overall design of a lossless image compression scheme into three parts that exploit corresponding redundancies. We further argue that the binarized version of an image captures its fundamental spatial structure. In this first part of our work, we propose a scheme for lossless compression of binary images. The proposed scheme first learns dictionaries of $16\times16$, $8\times8$, $4\times4$, and $2\times 2$ square pixel patterns from various datasets of binary images. It then uses these dictionaries to encode binary images. These dictionaries have various interesting properties that are further exploited to construct an efficient and scalable scheme. Our preliminary results show that the proposed scheme consistently outperforms existing conventional and learning based lossless compression approaches, and provides, on average, as much as $1.5\times$ better performance than a common general purpose lossless compression scheme (WebP), more than $3\times$ better performance than a state of the art learning based scheme, and better performance than a specialized scheme for binary image compression (JBIG2). | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# レプリカフリーケルディシュ形式におけるスピングラスのレプリカ対称性の破れ
Replica symmetry breaking in spin glasses in the replica-free Keldysh formalism ( http://arxiv.org/abs/2406.05842v3 ) ライセンス: Link先を確認 | Johannes Lang, Subir Sachdev, Sebastian Diehl, | (参考訳) パリの超測度行列の代数は、無限領域量子スピングラスのリアルタイム、レプリカフリー、ダイソン・ケルディシュ方程式によって、ガラスの限界の遅れで回復されることを示す。
これは、ガラス相の持続的な緩やかな老化ダイナミクスから超測度がどのように現れるかを示す古典的および量子系の初期の結果と結びついている。
これにより、定常スピンガラス状態は自然に熱対称性を破り、あるいは大域的な熱平衡状態のクボ・マーチン・シュウィンガー関係を破る。
横方向および縦方向の場の無限範囲イジングモデルのケルディシュ経路積分を記述し、作用関数のランダウ展開の文脈において、長時間の極限が平衡形式論において得られる完全なレプリカ対称性の破れとどのように結びつくかを示す。
また、球面量子$p$-spinモデルに適用することで、我々のフォーマリズムを説明し、これは1ステップのレプリカ対称性の破れしか示さない。
We show that the algebra of Parisi ultrametric matrices is recovered by the real-time, replica-free, Dyson-Keldysh equations of infinite-range quantum spin glasses in the late time glassy limit. This connects to earlier results on classical and quantum systems showing how ultrametricity emerges from the persistent slow aging dynamics of the glass phase. The stationary spin glass state thereby spontaneously breaks thermal symmetry, or the Kubo-Martin-Schwinger relation of a state in global thermal equilibrium. We describe the Keldysh path integral of the infinite-range Ising model in transverse and longitudinal fields, and in the context of the Landau expansion of the action functional, show how the long-time limit connects to the full replica symmetry breaking obtained in the equilibrium formalism. We also illustrate our formalism by applying it to the spherical quantum $p$-spin model, which only exhibits one-step replica symmetry breaking | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# 分散とコードブック設計問題の量子スピードアップ
Quantum Speedup of the Dispersion and Codebook Design Problems ( http://arxiv.org/abs/2406.07187v2 ) ライセンス: Link先を確認 | Kein Yukiyoshi, Taku Mikuriya, Hyeon Seok Rou, Giuseppe Thadeu Freitas de Abreu, Naoki Ishikawa, | (参考訳) 本稿では,Grover Adaptive Search(GAS)量子アルゴリズムによる解を実現するために,最大値と最大値の分散問題の新しい定式化を提案する。
分散問題はNPハードに分類される組合せ最適化問題であり、コーディング理論や最適なコードブック設計を含む無線通信アプリケーションによく現れる。
言い換えると、GASは量子的排他的探索アルゴリズムであり、完全な最大形最適解を実装できる。
しかし、従来のナイーブな定式化では、二進ベクトル空間に依存するのが一般的であり、その結果、GASに対しても探索空間のサイズが禁止される。
この問題を回避するために、ディック状態に対する最適分散問題の探索を定式化し、同じハミング重みを持つ二進ベクトルの等重重畳を定式化し、ペナルティ項の排除による量子回路の単純化につながる探索空間を著しく減らした。
さらに,距離係数をランクに置き換える手法を提案し,量子ビット数の削減に寄与する。
提案手法により, 従来のアダマール変換を用いたGASと比較して, クエリ複雑性の低減が達成され, 分散問題の量子ベース解の実現可能性が高まった。
We propose new formulations of max-sum and max-min dispersion problems that enable solutions via the Grover adaptive search (GAS) quantum algorithm, offering quadratic speedup. Dispersion problems are combinatorial optimization problems classified as NP-hard, which appear often in coding theory and wireless communications applications involving optimal codebook design. In turn, GAS is a quantum exhaustive search algorithm that can be used to implement full-fledged maximum-likelihood optimal solutions. In conventional naive formulations however, it is typical to rely on a binary vector spaces, resulting in search space sizes prohibitive even for GAS. To circumvent this challenge, we instead formulate the search of optimal dispersion problem over Dicke states, an equal superposition of binary vectors with equal Hamming weights, which significantly reduces the search space leading to a simplification of the quantum circuit via the elimination of penalty terms. Additionally, we propose a method to replace distance coefficients with their ranks, contributing to the reduction of the number of qubits. Our analysis demonstrates that as a result of the proposed techniques a reduction in query complexity compared to the conventional GAS using Hadamard transform is achieved, enhancing the feasibility of the quantum-based solution of the dispersion problem. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# Potion: ポゾン・アンラーニングを目指して
Potion: Towards Poison Unlearning ( http://arxiv.org/abs/2406.09173v3 ) ライセンス: Link先を確認 | Stefan Schoepf, Jack Foster, Alexandra Brintrup, | (参考訳) トレーニングデータセットに毒のトリガーを導入するなど、悪意のあるアクターによる機械学習システムに対する攻撃は、重大なリスクを引き起こす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
これにより、既に訓練済みのモデルから有毒データのサブセットのみを除去する手法、すなわち未学習の毒物トリガーを開発する必要がある。
このタスクの要件は、モデルによって忘れられるすべてのデータが知られているプライバシー重視のアンラーニングから著しく逸脱する。
これまでの研究では、未発見の毒素サンプルが未学習の方法の確立に失敗し、選択的シナプスダンピング(Selective Synaptic Dampening, SSD)という1つの手法しか成功しなかったことが示されている。
特定された毒を除去した後の完全な再訓練でさえ、未発見の毒のサンプルがモデル内の毒の引き金の再導入につながるため、この課題には対処できない。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
まず、SSDをベースとして、モデル保護と未学習性能を大幅に改善する新規な外れ値耐性手法を提案する。
第二に,ポゾントリガーニュートラライゼーション (PTN) 探索, 高速で並列可能なハイパーパラメータ探索を導入し, 特徴的「学習対モデル保護」のトレードオフを利用して, ディックセットのサイズが不明で, 保持セットが汚染された場合に, 適切なハイパーパラメータを求める。
CIFAR10ではResNet-9、CIFAR100ではWideResNet-28x10を用いてコントリビューションをベンチマークする。
実験の結果,本法はSSD83.41%,フルリトレーニング40.68%と比較して93.72%の毒性を治癒することがわかった。
また、未学習による平均モデルの精度低下を5.68%から1.41%に下げる。
Adversarial attacks by malicious actors on machine learning systems, such as introducing poison triggers into training datasets, pose significant risks. The challenge in resolving such an attack arises in practice when only a subset of the poisoned data can be identified. This necessitates the development of methods to remove, i.e. unlearn, poison triggers from already trained models with only a subset of the poison data available. The requirements for this task significantly deviate from privacy-focused unlearning where all of the data to be forgotten by the model is known. Previous work has shown that the undiscovered poisoned samples lead to a failure of established unlearning methods, with only one method, Selective Synaptic Dampening (SSD), showing limited success. Even full retraining, after the removal of the identified poison, cannot address this challenge as the undiscovered poison samples lead to a reintroduction of the poison trigger in the model. Our work addresses two key challenges to advance the state of the art in poison unlearning. First, we introduce a novel outlier-resistant method, based on SSD, that significantly improves model protection and unlearning performance. Second, we introduce Poison Trigger Neutralisation (PTN) search, a fast, parallelisable, hyperparameter search that utilises the characteristic "unlearning versus model protection" trade-off to find suitable hyperparameters in settings where the forget set size is unknown and the retain set is contaminated. We benchmark our contributions using ResNet-9 on CIFAR10 and WideResNet-28x10 on CIFAR100. Experimental results show that our method heals 93.72% of poison compared to SSD with 83.41% and full retraining with 40.68%. We achieve this while also lowering the average model accuracy drop caused by unlearning from 5.68% (SSD) to 1.41% (ours). | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# WaDec: 大規模言語モデルを使用したWebAssemblyの逆コンパイル
WaDec: Decompiling WebAssembly Using Large Language Model ( http://arxiv.org/abs/2406.11346v3 ) ライセンス: Link先を確認 | Xinyu She, Yanjie Zhao, Haoyu Wang, | (参考訳) WebAssembly(略してWasm)はWeb開発の基礎として現れ、Webブラウザでほぼネイティブに近い速度で実行可能な、コンパクトなバイナリフォーマットを提供する。
その利点にもかかわらず、Wasmのバイナリの性質は、特にWebアプリケーションのデバッグや解析における可読性に関して、開発者や研究者にとって大きな課題をもたらしている。
そのため、効率的な逆コンパイルが重要となる。
残念ながら、従来の逆コンパイラは可読性のある出力を生成するのに苦労することが多い。
いくつかの大きな言語モデル(LLM)ベースのデコンパイラは、一般的なバイナリファイルとの互換性が良いことを示しているが、Wasmを扱う際には、特別な問題に直面している。
本稿では、Wasmバイナリコードをより高レベルでより理解しやすいソースコード表現に解釈・デコンパイルするための微調整LDMの最初の使用である、新しいアプローチ、WaDecを紹介する。
LLMは、Wat-Cコードスニペットの特別なデータセットを使用して、綿密に微調整され、自己教師付き学習技術を用いている。
これにより、WaDecは完全なWat関数だけでなく、よりきめ細かいWatコードスニペットを効果的に分解できる。
我々の実験は、WaDecが現在の最先端ツールを著しく上回り、いくつかのメトリクスで大幅に改善されていることを実証した。
コードインフレーション率はわずか3.34%であり、最先端の116.94%と比べて97%も劇的に減少している。
直接コンパイルまたは実行できないベースラインの出力とは異なり、WaDecは52.11%、再実行率43.55%、出力一貫性27.15%を維持している。
さらに、AST編集距離類似度が185%、サイクロマティック複雑度が8%、コサイン類似度が41%、平均コード類似度が50%以上である。
WebAssembly (abbreviated Wasm) has emerged as a cornerstone of web development, offering a compact binary format that allows high-performance applications to run at near-native speeds in web browsers. Despite its advantages, Wasm's binary nature presents significant challenges for developers and researchers, particularly regarding readability when debugging or analyzing web applications. Therefore, effective decompilation becomes crucial. Unfortunately, traditional decompilers often struggle with producing readable outputs. While some large language model (LLM)-based decompilers have shown good compatibility with general binary files, they still face specific challenges when dealing with Wasm. In this paper, we introduce a novel approach, WaDec, which is the first use of a fine-tuned LLM to interpret and decompile Wasm binary code into a higher-level, more comprehensible source code representation. The LLM was meticulously fine-tuned using a specialized dataset of wat-c code snippets, employing self-supervised learning techniques. This enables WaDec to effectively decompile not only complete wat functions but also finer-grained wat code snippets. Our experiments demonstrate that WaDec markedly outperforms current state-of-the-art tools, offering substantial improvements across several metrics. It achieves a code inflation rate of only 3.34%, a dramatic 97% reduction compared to the state-of-the-art's 116.94%. Unlike baselines' output that cannot be directly compiled or executed, WaDec maintains a recompilability rate of 52.11%, a re-execution rate of 43.55%, and an output consistency of 27.15%. Additionally, it significantly exceeds state-of-the-art performance in AST edit distance similarity by 185%, cyclomatic complexity by 8%, and cosine similarity by 41%, achieving an average code similarity above 50%. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# FullCert:ニューラルネットワークのトレーニングと推論のための決定論的エンドツーエンド認証
FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks ( http://arxiv.org/abs/2406.11522v2 ) ライセンス: Link先を確認 | Tobias Lorenz, Marta Kwiatkowska, Mario Fritz, | (参考訳) 現代の機械学習モデルは、トレーニングデータ(中毒攻撃)と推論データ(逆例)の両方の操作に敏感である。
この問題を認識したコミュニティは、双方の攻撃に対する実証的な防御を数多く開発し、最近では、推論時攻撃に対する証明可能な保証付きの認証方法も開発している。
しかし、そのような保証は依然として訓練時の攻撃には欠落している。
本研究では,音質,決定論的境界を持つ最初のエンドツーエンド認証器であるFullCertを紹介し,トレーニング時間と推論時間の両方に対する堅牢性を示す。
我々はまず、敵が想定される脅威モデルの下でトレーニングデータにできるあらゆる可能な摂動を束縛する。
これらの制約を用いることで、摂動がモデルのパラメータに与える影響を制限します。
最後に、これらのパラメータの変化がモデルの予測に与える影響を限定し、その結果、毒や敵の例に対する共同堅牢性を保証する。
この新たな認証パラダイムを促進するため、我々は、境界付きデータセットのモデルトレーニングを可能にする、新たなオープンソースのライブラリであるBoundFlowと理論的な作業を組み合わせる。
2つのデータセットに対してFullCertの有効性を実験的に示す。
Modern machine learning models are sensitive to the manipulation of both the training data (poisoning attacks) and inference data (adversarial examples). Recognizing this issue, the community has developed many empirical defenses against both attacks and, more recently, certification methods with provable guarantees against inference-time attacks. However, such guarantees are still largely lacking for training-time attacks. In this work, we present FullCert, the first end-to-end certifier with sound, deterministic bounds, which proves robustness against both training-time and inference-time attacks. We first bound all possible perturbations an adversary can make to the training data under the considered threat model. Using these constraints, we bound the perturbations' influence on the model's parameters. Finally, we bound the impact of these parameter changes on the model's prediction, resulting in joint robustness guarantees against poisoning and adversarial examples. To facilitate this novel certification paradigm, we combine our theoretical work with a new open-source library BoundFlow, which enables model training on bounded datasets. We experimentally demonstrate FullCert's feasibility on two datasets. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# DocGenome: マルチモーダルな大規模言語モデルのトレーニングとテストのためのオープンな大規模科学的ドキュメントベンチマーク
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models ( http://arxiv.org/abs/2406.11633v2 ) ライセンス: Link先を確認 | Renqiu Xia, Song Mao, Xiangchao Yan, Hongbin Zhou, Bo Zhang, Haoyang Peng, Jiahao Pi, Daocheng Fu, Wenjie Wu, Hancheng Ye, Shiyang Feng, Bin Wang, Chao Xu, Conghui He, Pinlong Cai, Min Dou, Botian Shi, Sheng Zhou, Yongwei Wang, Bin Wang, Junchi Yan, Fei Wu, Yu Qiao, | (参考訳) 科学文書は、研究結果と貴重な人間の知識を記録し、高品質なデータの膨大なコーパスを構成している。
したがって、これらの文書から抽出したマルチモダリティデータを活用し、科学的文書指向タスクを扱う大規模モデルの能力を評価することは有意義である。
有望な進歩にもかかわらず、大規模モデルは多ページの科学的文書抽出と理解タスクでは依然として不十分であり、グラフや方程式などの文書内データフォーマットを処理する能力は未定のままである。
これらの問題に対処するため,我々は,ArXivオープンアクセスコミュニティの153分野から500Kの学術文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを,当社のカスタム自動ラベルパイプラインを用いて提示した。
DocGenomeには4つの重要な特徴がある。
1) 完全性: LaTeXソースコードとともに13のレイアウト属性を含むすべてのモダリティからデータを構造化する最初のデータセットである。
2)論理性(Logicality):各学術文書内の異なる実体間の6つの論理的関係を提供する。
3)多様性: 文書分類,視覚的基盤化,文書レイアウト検出,文書変換,オープンエンドのシングルページQA,マルチページQAなど,ドキュメント指向のタスクを網羅する。
4) 正確性: 専門チームによる厳格な品質管理チェックを実施する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
Scientific documents record research findings and valuable human knowledge, comprising a vast corpus of high-quality data. Leveraging multi-modality data extracted from these documents and assessing large models' abilities to handle scientific document-oriented tasks is therefore meaningful. Despite promising advancements, large models still perform poorly on multi-page scientific document extraction and understanding tasks, and their capacity to process within-document data formats such as charts and equations remains under-explored. To address these issues, we present DocGenome, a structured document benchmark constructed by annotating 500K scientific documents from 153 disciplines in the arXiv open-access community, using our custom auto-labeling pipeline. DocGenome features four key characteristics: 1) Completeness: It is the first dataset to structure data from all modalities including 13 layout attributes along with their LaTeX source codes. 2) Logicality: It provides 6 logical relationships between different entities within each scientific document. 3) Diversity: It covers various document-oriented tasks, including document classification, visual grounding, document layout detection, document transformation, open-ended single-page QA and multi-page QA. 4) Correctness: It undergoes rigorous quality control checks conducted by a specialized team. We conduct extensive experiments to demonstrate the advantages of DocGenome and objectively evaluate the performance of large models on our benchmark. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# 核スピンと光時計キュービットのハイブリッド原子トウィーザーアレイ
A hybrid atom tweezer array of nuclear spin and optical clock qubits ( http://arxiv.org/abs/2406.12247v3 ) ライセンス: Link先を確認 | Yuma Nakamura, Toshi Kusano, Rei Yokoyama, Keito Saito, Koichiro Higashi, Naoya Ozawa, Tetsushi Takano, Yosuke Takasu, Yoshiro Takahashi, | (参考訳) 量子情報の保存には長いコヒーレンス時間を持つデータ量子ビットが不可欠であるが、フォールトトレラント量子コンピューティングの量子エラー補正(QEC)では、アシラ量子ビットが中心となる。
大規模量子ビットアレイや高忠実ゲート演算などの光ツイーザアレイの最近の開発は、QECプロトコルを実現する可能性を提供しており、次の重要な課題の1つは、原子損失とクロストークを最小化しながら、アンシラ量子ビットを制御および検出することである。
ここでは、フェルミオン${}^{171}\mathrm{Yb}$とボソニック${}^{174}\mathrm{Yb}$の原子核スピンキュービットを非破壊的クビット読み出し能力を持つアンシラキュービットとして利用することができる二重同位体イッテルビウム(Yb)原子配列からなるハイブリッドシステムの実現について述べる。
本研究では,核スピン量子ビットのコヒーレンスに対する影響に関するクビット間のクロストークを${}^{174}\mathrm{Yb}$で評価した。
399 nmのプローブと556 nmの冷却ビームを${}^{174}\mathrm{Yb}$, 99.1(1.8) %のコヒーレンスを20msの露光下で保持し,画像忠実度0.9992,生存確率0.988とした。
556nmのプローブビームを用いたラムジー系列は、コヒーレンスに無視できる影響を示し、低クロストーク測定の潜在的な改善を示唆している。
この結果は、Acilla-qubitベースのQECプロトコルのためのハイブリッドYb原子アレイの可能性を強調している。
While data qubits with a long coherence time are essential for the storage of quantum information, ancilla qubits are pivotal in quantum error correction (QEC) for fault-tolerant quantum computing. The recent development of optical tweezer arrays, such as the preparation of large-scale qubit arrays and high-fidelity gate operations, offers the potential for realizing QEC protocols, and one of the important next challenges is to control and detect ancilla qubits while minimizing atom loss and crosstalk. Here, we present the realization of a hybrid system consisting of a dual-isotope ytterbium (Yb) atom array, in which we can utilize a nuclear spin qubit of fermionic ${}^{171}\mathrm{Yb}$ as a data qubit and an optical clock qubit of bosonic ${}^{174}\mathrm{Yb}$ as an ancilla qubit with a capacity of non-destructive qubit readout. We evaluate the crosstalk between qubits regarding the impact on the coherence of the nuclear spin qubits from the imaging light for ${}^{174}\mathrm{Yb}$. The Hahn-echo sequence with a 399 nm probe and 556 nm cooling beams for ${}^{174}\mathrm{Yb}$, we observe 99.1(1.8) % coherence retained under 20 ms exposure, yielding an imaging fidelity of 0.9992 and a survival probability of 0.988. The Ramsey sequence with a 556 nm probe beam shows negligible influence on the coherence, suggesting the potential future improvement of low cross-talk measurements. This result highlights the potential of the hybrid-Yb atom array for ancilla-qubit-based QEC protocols. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# BiLD: 大規模言語モデルの蒸留における双方向ログの差分
BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation ( http://arxiv.org/abs/2406.13555v2 ) ライセンス: Link先を確認 | Minchong Li, Feng Zhou, Xiaohui Song, | (参考訳) 近年,大規模言語モデル(LLM)は,自然言語処理(NLP)タスクにまたがる例外的な機能を示している。
しかしながら、このような印象的なパフォーマンスは、パラメータサイズが大きくなるというトレードオフによってもたらされることが多く、広く展開する上で大きな課題を招きます。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって解を提供する。
本稿では,LLMのロージットレベルでのタスク特異的蒸留について検討する。
本研究により, 微調整LDMのロジットは, 視覚モデルよりも極端に長い尾分布を示し, 長い尾に隠れた「ノイズ」が蒸留性能に影響を及ぼすことが明らかとなった。
さらに、既存のロジット蒸留法は、ロジットの内部ランキング情報を効果的に活用するのに苦労することが多い。
これらの問題に対処するために,双方向ロジット差分(BiLD)の損失を提案する。
BiLD損失は、教師と学生のロジットのトップ$kだけを利用して、ロングテールノイズをフィルタリングし、ロジットの違いを構築することで、内部ロジットランキング情報を活用する。
BiLD損失を評価するために,2種類のLLMを用いて13のデータセットの総合的な実験を行った。
以上の結果より, BiLD の損失は, 上位8ロジットのみであり, 監督的微調整 (SFT) , バニラKL の損失, NLP および CV フィールドからの5つの蒸留方法よりも優れていた。
In recent years, large language models (LLMs) have shown exceptional capabilities across various natural language processing (NLP) tasks. However, such impressive performance often comes with the trade-off of an increased parameter size, posing significant challenges for widespread deployment. Knowledge distillation (KD) provides a solution by transferring knowledge from a large teacher model to a smaller student model. In this paper, we explore the task-specific distillation of LLMs at the logit level. Our investigation reveals that the logits of fine-tuned LLMs exhibit a more extreme long-tail distribution than those from vision models, with hidden "noise" in the long tail affecting distillation performance. Furthermore, existing logits distillation methods often struggle to effectively utilize the internal ranking information from the logits. To address these, we propose the Bi-directional Logits Difference (BiLD) loss. The BiLD loss filters out the long-tail noise by utilizing only top-$k$ teacher and student logits, and leverages the internal logits ranking information by constructing logits differences. To evaluate BiLD loss, we conduct comprehensive experiments on 13 datasets using two types of LLMs. Our results show that the BiLD loss, with only the top-8 logits, outperforms supervised fine-tuning (SFT), vanilla KL loss, and five other distillation methods from both NLP and CV fields. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# 誤り訂正符号を用いたグラフの逆摂動のカウンタリング
Countering adversarial perturbations in graphs using error correcting codes ( http://arxiv.org/abs/2406.14245v2 ) ライセンス: Link先を確認 | Saif Eddin Jabari, | (参考訳) サイバー攻撃によって生じたような敵の摂動を受けるグラフの問題は、エッジを隠蔽的に付加したり、取り除いたりすることを考える。
逆の摂動は、送信者と受信者の間のグラフの伝送中に発生する。
潜在的な摂動に対処するため,本研究では,送信側が指定した雑音と受信側の多数決による繰り返し符号化方式を探索し,グラフの構造を是正する。
このアプローチは、攻撃の特性を事前に知ることなく動作する。
我々は、再構成されたグラフの品質に関する確率的制約を満たすために必要な反復数に限定して解析的に導出する。
この方法は、非ランダムなエッジ除去の対象であるErd\H{o}s-R\'{e}nyiグラフ、すなわち、攻撃者によるエッジのランダムな加算と除去に加えて、最高固有ベクトル中心性を持つ頂点に接続されたグラフを正確かつ効果的に復号することができる。
この方法は、Barab\'{a}si-Albertモデルを用いて生成される大規模な自由グラフに対する攻撃にも有効であるが、Erd\H{o}s-R\'{e}nyi グラフの修正に必要な回数よりも多くの繰り返しを必要とする。
We consider the problem of a graph subjected to adversarial perturbations, such as those arising from cyber-attacks, where edges are covertly added or removed. The adversarial perturbations occur during the transmission of the graph between a sender and a receiver. To counteract potential perturbations, this study explores a repetition coding scheme with sender-assigned noise and majority voting on the receiver's end to rectify the graph's structure. The approach operates without prior knowledge of the attack's characteristics. We analytically derive a bound on the number of repetitions needed to satisfy probabilistic constraints on the quality of the reconstructed graph. The method can accurately and effectively decode Erd\H{o}s-R\'{e}nyi graphs that were subjected to non-random edge removal, namely, those connected to vertices with the highest eigenvector centrality, in addition to random addition and removal of edges by the attacker. The method is also effective against attacks on large scale-free graphs generated using the Barab\'{a}si-Albert model but require a larger number of repetitions than needed to correct Erd\H{o}s-R\'{e}nyi graphs. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# ゼノレジームにおけるジャイアントエミッターの非マルコフ的集団放出
Non-Markovian Collective Emission of Giant emitters in the Zeno Regime ( http://arxiv.org/abs/2406.14811v2 ) ライセンス: Link先を確認 | Qing-Yang Qiu, Xin-You Lü, | (参考訳) 複数の結合点を介して、共通のフォトニックまたは音響貯留層に結合する巨大な人工原子の集合的なゼノダイナミクスを探索する。
この体制では、原子の協調性の確立と指数的崩壊の復活は高度に絡み合っており、これは非マルコフ的体制には全く及ばず、バックアクションを遅らせるだけである。
我々は、巨大原子がゼロの崩壊速度からマルコフ近似によって予測されるものまで、その集合放出を円滑に積み上げ、異なる導波管QEDセットアップ間で大きな相違を示すことを明らかにした。
比較として, 遅延のみの画像における即時崩壊速度の段階的成長が示されている。
これらの理論図はすべて、長い時間で同じ集団行動を予測する。
現象学的観点から、原子超放射能は重要な指向性を持つ。
さらに、サブラジアント光子は、巨大放射体と磁場の間でエネルギーが著しく交換される集合放射の初期段階で長めの振動を特徴とする。
我々の結果は、最先端の導波管QED実験で調べられ、巨大原子を持つ系における集団放出の分野を根本的に拡大するかもしれない。
We explore the collective Zeno dynamics of giant artificial atoms that are coupled, via multiple coupling points, to a common photonic or acoustic reservoir. In this regime, the establishment of atomic cooperativity and the revivification of exponential decay, are highly intertwined, which is utterly beyond the non-Markovian regime with only retarded backaction. We reveal that giant atoms build up their collective emission smoothly from the decay rate of zero to that predicted by Markovian approximation, and show great disparity between different waveguide QED setups. As a comparison, the step-like growth of instantaneous decay rates in the retardation-only picture has also been shown. All of these theoretical pictures predict the same collective behavior in the long time limit. From a phenomenological standpoint, we observe that the atomic superradiance exhabits significant directional property. In addition, the subradiant photons feature prolonged oscillation in the early stage of collective radiance, where the energy is exchanged remarkably between giant emitters and the field. Our results might be probed in state-of-art waveguide QED experiments, and fundamentally broaden the fields of collective emission in systems with giant atoms. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# GMT:リーフインスタンスセグメンテーション用ガイドマスクトランス
GMT: Guided Mask Transformer for Leaf Instance Segmentation ( http://arxiv.org/abs/2406.17109v2 ) ライセンス: Link先を確認 | Feng Chen, Sotirios A. Tsaftaris, Mario Valerio Giuffrida, | (参考訳) 葉のインスタンスのセグメンテーションは、植物のイメージの中で各葉を分離・デライン化することを目的とした、難易度の高いマルチインスタンスセグメンテーションタスクである。
各葉の正確なセグメンテーションは、植物の成長のきめ細かいモニタリングや収量推定など、植物関連の応用に不可欠である。
この作業は、(形や色において)高い類似性、大きな大きさのバリエーション、葉のインスタンス間の重く閉塞性のために困難である。
さらに、通常、注釈付き葉のデータセットの小さなサイズは、正確なセグメンテーションに必要な特徴を学ぶのを難しくする。
これらの課題を克服する鍵は、葉の分布の特定の空間パターンにあると仮定する。
本稿では,葉の空間分布をトランスフォーマーベースのセグメンタに利用し,統合するガイドマスク変換器(GMT)を提案する。
これらの空間先行は、異なる位置にある葉をより分離可能な埋め込み空間にマッピングする一連のガイド関数に埋め込まれる。
我々のGMTは、3つの公開植物データセットの最先端を一貫して上回ります。
Leaf instance segmentation is a challenging multi-instance segmentation task, aiming to separate and delineate each leaf in an image of a plant. Accurate segmentation of each leaf is crucial for plant-related applications such as the fine-grained monitoring of plant growth and crop yield estimation. This task is challenging because of the high similarity (in shape and colour), great size variation, and heavy occlusions among leaf instances. Furthermore, the typically small size of annotated leaf datasets makes it more difficult to learn the distinctive features needed for precise segmentation. We hypothesise that the key to overcoming the these challenges lies in the specific spatial patterns of leaf distribution. In this paper, we propose the Guided Mask Transformer (GMT), which leverages and integrates leaf spatial distribution priors into a Transformer-based segmentor. These spatial priors are embedded in a set of guide functions that map leaves at different positions into a more separable embedding space. Our GMT consistently outperforms the state-of-the-art on three public plant datasets. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# クロスドメイン新規クラス発見のための排他的スタイル除去
Exclusive Style Removal for Cross Domain Novel Class Discovery ( http://arxiv.org/abs/2406.18140v2 ) ライセンス: Link先を確認 | Yicheng Wang, Feng Liu, Junmin Liu, Zhen Fang, Kai Sun, | (参考訳) オープンワールド学習における有望な分野として、 \textit{Novel Class Discovery} (NCD) は、通常、同じドメイン内のラベル付きデータの事前の知識に基づいて、ラベル付きセットで未確認の新規クラスをクラスタリングするタスクである。
しかし, 従来のNCD法の性能は, ラベル付きクラスと異なる分布から新しいクラスをサンプリングした場合, 著しく損なわれる可能性がある。
本稿では,スタイル情報を削除する必要のある条件で,クロスドメイン設定におけるNCDの可解性について検討し,確立する。
理論的解析に基づいて,基本特徴と異なるスタイル情報を抽出する排他的スタイル除去モジュールを導入し,推論を容易にする。
さらに、このモジュールは他のNCDメソッドと簡単に統合でき、プラグインとして機能し、表示されたラベルセットと異なる分布を持つ新しいクラスのパフォーマンスを向上させることができる。
さらに、異なるバックボーンの非無視的な影響を認識し、NCD法の性能を事前学習戦略で評価し、将来のNCD研究のための公正なベンチマークを構築した。
3つの共通データセットに対する大規模な実験により,提案モジュールの有効性が示された。
As a promising field in open-world learning, \textit{Novel Class Discovery} (NCD) is usually a task to cluster unseen novel classes in an unlabeled set based on the prior knowledge of labeled data within the same domain. However, the performance of existing NCD methods could be severely compromised when novel classes are sampled from a different distribution with the labeled ones. In this paper, we explore and establish the solvability of NCD in cross domain setting with the necessary condition that style information must be removed. Based on the theoretical analysis, we introduce an exclusive style removal module for extracting style information that is distinctive from the baseline features, thereby facilitating inference. Moreover, this module is easy to integrate with other NCD methods, acting as a plug-in to improve performance on novel classes with different distributions compared to the seen labeled set. Additionally, recognizing the non-negligible influence of different backbones and pre-training strategies on the performance of the NCD methods, we build a fair benchmark for future NCD research. Extensive experiments on three common datasets demonstrate the effectiveness of our proposed module. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# 視覚言語異常検出のための人間の自由な自動プロンプト:メタガイド型プロンプトスキームによるプロンプト最適化
Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme ( http://arxiv.org/abs/2406.18197v4 ) ライセンス: Link先を確認 | Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Zih-Ching Chen, Chao-Chun Chen, | (参考訳) 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて様々な下流タスクに高度に適用可能であり、プロンプトベースの異常検出は有望なアプローチである。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習し、人間の介入の必要性をなくす、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
このアプローチの主な課題は、トレーニングフェーズにおける異常サンプルの欠如である。
さらに、VLMにおけるビジョントランスフォーマー(ViT)ベースの画像エンコーダは、元の画像と出力特徴マップとの局所性特徴ミスマッチによる画素ワイド異常セグメンテーションには理想的ではない。
最初の課題に取り組むため、我々は、トレーニング用異常サンプルを合成するオブジェクト指向異常生成モジュール(OAGM)を開発した。
さらに、MPTS(Meta-Guiding Prompt-Tuning Scheme)は、学習可能なプロンプトの勾配に基づく最適化方向を反復的に調整し、合成された異常に過度に適合しないようにする。
第2の課題として,ローカル性意識(Locality-Aware Attention)を提案する。各ローカルパッチ機能は,近傍のパッチ機能にのみ対応し,元のロケーションに対応するローカリティ機能を保持する。
このフレームワークは、人間の意味的な制約なしに、バックプロパゲーションを通じて連続的な潜伏空間を探索することで、最適なプロンプト埋め込みを可能にする。
さらに、修正された局所性認識アテンションにより、画素単位の異常セグメンテーションの精度が向上する。
Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation. | 翻訳日:2024-09-12 20:48:06 公開日:2024-09-11 |
# Divide and Conquer: 多段階ニューラルネットワーク正規微分方程式を用いたカオス力学系の学習
Divide And Conquer: Learning Chaotic Dynamical Systems With Multistep Penalty Neural Ordinary Differential Equations ( http://arxiv.org/abs/2407.00568v3 ) ライセンス: Link先を確認 | Dibyajyoti Chakraborty, Seung Whan Chung, Troy Arcomano, Romit Maulik, | (参考訳) 高次元力学系の予測は、地球科学や工学といった様々な分野における根本的な課題である。
ニューラルネットワークと数値解法を組み合わせたニューラル正規微分方程式(NODE)は、複雑な非線形力学系を予測するための有望なアルゴリズムとして登場した。
しかし、NODEトレーニングに使用される古典的手法はカオス力学系の学習には効果がない。
本研究では,カオス力学系の堅牢な学習を可能にする新しいNODE学習手法を提案する。
本手法は,非凸性および爆発的勾配のカオス力学に関する課題に対処する。
このようなシステムからのトレーニングデータトラジェクトリは、重複しない複数の時間ウィンドウに分割される。
トレーニングデータからのずれに加えて、最適化損失項は、予測された時間窓間の軌道の不連続をさらに罰する。
ウィンドウサイズは、システムの最も速いリアプノフ時間スケールに基づいて選択される。
マルチステップペナルティ(MP)法はローレンツ方程式で最初に示され、損失景観の改善を図示し、最適化収束を加速させる。
MP法は、計算コストを大幅に削減した最小二乗影と同様の方法でカオスシステムを最適化することができる。
提案手法は多段法則 (Multistep Penalty NODE) と表現され, 倉本-シヴァシンスキー方程式, 2次元コルモゴロフ流, ERA5再解析データなどのカオスシステムに適用された。
MP-NODEは、短期軌道予測だけでなく、これらの力学のカオス的性質の指標となる不変統計に対して、このようなカオスシステムに対して実行可能な性能を提供する。
Forecasting high-dimensional dynamical systems is a fundamental challenge in various fields, such as geosciences and engineering. Neural Ordinary Differential Equations (NODEs), which combine the power of neural networks and numerical solvers, have emerged as a promising algorithm for forecasting complex nonlinear dynamical systems. However, classical techniques used for NODE training are ineffective for learning chaotic dynamical systems. In this work, we propose a novel NODE-training approach that allows for robust learning of chaotic dynamical systems. Our method addresses the challenges of non-convexity and exploding gradients associated with underlying chaotic dynamics. Training data trajectories from such systems are split into multiple, non-overlapping time windows. In addition to the deviation from the training data, the optimization loss term further penalizes the discontinuities of the predicted trajectory between the time windows. The window size is selected based on the fastest Lyapunov time scale of the system. Multi-step penalty(MP) method is first demonstrated on Lorenz equation, to illustrate how it improves the loss landscape and thereby accelerates the optimization convergence. MP method can optimize chaotic systems in a manner similar to least-squares shadowing with significantly lower computational costs. Our proposed algorithm, denoted the Multistep Penalty NODE, is applied to chaotic systems such as the Kuramoto-Sivashinsky equation, the two-dimensional Kolmogorov flow, and ERA5 reanalysis data for the atmosphere. It is observed that MP-NODE provide viable performance for such chaotic systems, not only for short-term trajectory predictions but also for invariant statistics that are hallmarks of the chaotic nature of these dynamics. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# ワイル例外環に付随する位相遷移の観測
Observation of topological transitions associated with a Weyl exceptional ring ( http://arxiv.org/abs/2407.00903v2 ) ライセンス: Link先を確認 | Hao-Long Zhang, Pei-Rong Han, Xue-Jia Yu, Shou-Bang Yang, Jia-Hao Lü, Wen Ning, Fan Wu, Qi-Ping Su, Chui-Ping Yang, Zhen-Biao Yang, Shi-Biao Zheng, | (参考訳) 環境によって引き起こされるオープンシステムの散逸は、かつては迷惑と考えられていたが、実際には孤立したシステムに存在しない多くの興味深い現象が出現する可能性がある。
これらのうち、点のような特異点から拡張されたワイル例外環 (WER) は特に興味深い。
理論的には、WERは非ゼロチャーン数のトポロジカル電荷を持つと予測されたが、今のところは測定されていない。
ここでは、WERを超伝導量子ビット制御で合成し、減衰共振器と共振器を結合した回路において、このトポロジーについて検討する。
システムの高い柔軟性により、パラメータ空間の異なる多様体上で固有ベクトルを特徴づけることができる。
我々はこれらの固有ベクトルから量子化されたベリー位相とチャーン数の両方を抽出する。
さらに、WER の特異な特徴量である多様体 $-$a のサイズを縮めることによって引き起こされる位相遷移を実演する。
The environment-induced dissipation of an open system, once thought as a nuisance, can actually lead to emergence of many intriguing phenomena that are absent in an isolated system. Among these, Weyl exceptional rings (WER), extended from point-like singularities, are particularly interesting. Theoretically, a WER was predicted to carry a topological charge with a nonzero Chern number, but it has not been measured so far. We here investigate this topology in a circuit, where the WER is synthesized with a superconducting qubit controllably coupled to a decaying resonator. The high flexibility of the system enables us to characterize its eigenvectors on different manifolds of parameter space. We extract both the quantized Berry phase and Chern number from these eigenvectors. Furthermore, we demonstrate a topological transition triggered by shrinking the size of the manifold$-$a unique feature of the WER. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# BeNeRF: 単一Blurry画像とイベントストリームからのニューラルラジアンス場
BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream ( http://arxiv.org/abs/2407.02174v3 ) ライセンス: Link先を確認 | Wenpu Li, Pian Wan, Peng Wang, Jinghang Li, Yi Zhou, Peidong Liu, | (参考訳) 視覚シーンのニューラルな暗黙の表現は、コンピュータビジョンとグラフィックスの最近の研究で多くの注目を集めている。
従来の手法では、画像の集合から3Dシーンの表現を再構築する方法に焦点が当てられていた。
本研究では,1つのぼやけた画像とそれに対応するイベントストリームからニューラル放射場(NeRF)を復元する可能性を示す。
カメラの動きをSE(3)空間の立方体B-Splineでモデル化する。
そして、立方体B−スプラインから補間された6−DoFポーズが与えられたとき、3Dシーン表現から、ぼやけた画像と、時間間隔内での明るさ変化の両方を合成することができる。
提案手法は,COLMAPから予め計算したカメラポーズを使わずに,合成データと実測値の違いを最小化することにより,暗黙的なニューラルシーン表現とカメラ動作の回復を両立させることができる。
提案手法を合成データと実データの両方を用いて評価する。
実験結果から,学習したNeRF画像から高画質のぼやけた画像が得られることがわかった。
コードとデータはhttps://github.com/wu-cvgl/BeNeRF.comで公開されている。
Neural implicit representation of visual scenes has attracted a lot of attention in recent research of computer vision and graphics. Most prior methods focus on how to reconstruct 3D scene representation from a set of images. In this work, we demonstrate the possibility to recover the neural radiance fields (NeRF) from a single blurry image and its corresponding event stream. We model the camera motion with a cubic B-Spline in SE(3) space. Both the blurry image and the brightness change within a time interval, can then be synthesized from the 3D scene representation given the 6-DoF poses interpolated from the cubic B-Spline. Our method can jointly learn both the implicit neural scene representation and recover the camera motion by minimizing the differences between the synthesized data and the real measurements without pre-computed camera poses from COLMAP. We evaluate the proposed method with both synthetic and real datasets. The experimental results demonstrate that we are able to render view-consistent latent sharp images from the learned NeRF and bring a blurry image alive in high quality. Code and data are available at https://github.com/wu-cvgl/BeNeRF. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# AIレッドチームにおけるヒューマンファクタ - ソーシャルコンピューティングとコラボレーティブコンピューティングの視点から
The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing ( http://arxiv.org/abs/2407.07786v2 ) ライセンス: Link先を確認 | Alice Qian Zhang, Ryland Shaw, Jacy Reese Anthis, Ashlee Milton, Emily Tseng, Jina Suh, Lama Ahmad, Ram Shankar Siva Kumar, Julian Posada, Benjamin Shestakofsky, Sarah T. Roberts, Mary L. Gray, | (参考訳) 汎用AIの急速な進歩は、軍事およびサイバーセキュリティアプリケーションから派生した敵対的テストの実践である"レッドチーム"に大きな関心を呼んだ。
AI Red Teamingは、レッドチームの選択方法、テストの実施方法におけるバイアスや盲点、有害なコンテンツによる心理的影響など、ヒューマンファクタに関する多くの疑問を提起する。
HCIとCSCWの文献は、データラベリング、コンテンツモデレーション、アルゴリズム監査を含む関連するプラクティスを調査している。
しかし、レッドチーム自体を調査した人はほとんどいない。
将来の研究は、公正からメンタルヘルス、その他の潜在的な害のある分野まで幅広いトピックを探求することができる。
我々は、創造性、革新、思慮深い振り返りでこれらの課題に取り組み始めることができる研究者や実践者のコミュニティを促進することを目的としています。
Rapid progress in general-purpose AI has sparked significant interest in "red teaming," a practice of adversarial testing originating in military and cybersecurity applications. AI red teaming raises many questions about the human factor, such as how red teamers are selected, biases and blindspots in how tests are conducted, and harmful content's psychological effects on red teamers. A growing body of HCI and CSCW literature examines related practices-including data labeling, content moderation, and algorithmic auditing. However, few, if any have investigated red teaming itself. Future studies may explore topics ranging from fairness to mental health and other areas of potential harm. We aim to facilitate a community of researchers and practitioners who can begin to meet these challenges with creativity, innovation, and thoughtful reflection. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# トレーニング済みルックアップテーブルによるループ内フィルタリング
In-Loop Filtering via Trained Look-Up Tables ( http://arxiv.org/abs/2407.10926v2 ) ライセンス: Link先を確認 | Zhuoyuan Li, Jiacheng Li, Yao Li, Li Li, Dong Liu, Feng Wu, | (参考訳) インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
近年,ニューラルネットワークをベースとしたループ内フィルタリング手法は,先進的なビデオコーディング標準の能力を超え,将来的なビデオコーディング標準の強力なコーディングツール候補となる。
しかし、ディープニューラルネットワークの利用は、非常に時間と計算の複雑さをもたらし、高性能ハードウェアの要求も高くなるため、コーディングシーンの一般的な用途には適用が難しい。
画像復元における探索から着想を得たこの制限に対処するため,Look-up Table (LUT) を用いたループ内フィルタリング手法を提案する。
我々は、固定されたフィルタリング基準範囲内でループ内フィルタリングのDNNを訓練し、可能な全ての入力をトラバースすることで、DNNの出力値をLUTにキャッシュする。
符号化過程におけるテスト時に、入力画素(基準画素付きフィルタ画素)を位置決めし、キャッシュされたフィルタ画素値を補間することにより、フィルタ画素を生成する。
さらに、LUTのストレージコストが制限された大規模なフィルタリング基準範囲を実現するため、フィルタリングプロセスにおける拡張インデックス化機構と、トレーニングにおけるクリッピング/ファインタニング機構を導入する。
提案手法はVersatile Video Coding (VVC)参照ソフトウェアであるVTM-11.0に実装されている。
実験結果から,提案手法の超高速・超高速・高速モードは, 平均0.13%/0.34%/0.51%, 0.10%/0.27%/0.39%のBDレートで, 全 (AI) およびランダムアクセス (RA) 構成で達成できることがわかった。
特に,本手法は,101%/102%-104%/108%の時間増加,0.13-0.93kMACs/ピクセル,1つのモデルで164-1148KBのストレージコストしか持たない。
私たちのソリューションは、実用的なニューラルネットワークベースのコーディングツール進化の旅に光を当てるかもしれません。
In-loop filtering (ILF) is a key technology for removing the artifacts in image/video coding standards. Recently, neural network-based in-loop filtering methods achieve remarkable coding gains beyond the capability of advanced video coding standards, which becomes a powerful coding tool candidate for future video coding standards. However, the utilization of deep neural networks brings heavy time and computational complexity, and high demands of high-performance hardware, which is challenging to apply to the general uses of coding scene. To address this limitation, inspired by explorations in image restoration, we propose an efficient and practical in-loop filtering scheme by adopting the Look-up Table (LUT). We train the DNN of in-loop filtering within a fixed filtering reference range, and cache the output values of the DNN into a LUT via traversing all possible inputs. At testing time in the coding process, the filtered pixel is generated by locating input pixels (to-be-filtered pixel with reference pixels) and interpolating cached filtered pixel values. To further enable the large filtering reference range with the limited storage cost of LUT, we introduce the enhanced indexing mechanism in the filtering process, and clipping/finetuning mechanism in the training. The proposed method is implemented into the Versatile Video Coding (VVC) reference software, VTM-11.0. Experimental results show that the ultrafast, very fast, and fast mode of the proposed method achieves on average 0.13%/0.34%/0.51%, and 0.10%/0.27%/0.39% BD-rate reduction, under the all intra (AI) and random access (RA) configurations. Especially, our method has friendly time and computational complexity, only 101%/102%-104%/108% time increase with 0.13-0.93 kMACs/pixel, and only 164-1148 KB storage cost for a single model. Our solution may shed light on the journey of practical neural network-based coding tool evolution. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# VLMEvalKit: 大規模なマルチモーダルモデルを評価するオープンソースツールキット
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models ( http://arxiv.org/abs/2407.11691v2 ) ライセンス: Link先を確認 | Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Amit Agarwal, Zhe Chen, Mo Li, Yubo Ma, Hailong Sun, Xiangyu Zhao, Junbo Cui, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen, | (参考訳) 本稿では,PyTorchをベースとした大規模マルチモーダルモデル評価用オープンソースツールキットVLMEvalKitを提案する。
このツールキットは、研究者や開発者が既存のマルチモダリティモデルを評価し、再現可能な評価結果を公開するための、ユーザフレンドリで包括的なフレームワークを提供することを目的としている。
VLMEvalKitでは、プロプライエタリなAPIとオープンソースモデルの両方を含む70以上の大規模なマルチモーダルモデルと、20以上の異なるマルチモーダルベンチマークを実装しています。
単一のインターフェースを実装することで、ツールキットに新しいモデルを簡単に追加でき、ツールキットはデータ準備、分散推論、予測後処理、メトリック計算を含む残りのワークロードを自動的に処理する。
このツールキットは、現在主に大きな視覚言語モデルの評価に使われているが、オーディオやビデオなどの追加のモダリティを含む将来のアップデートと互換性がある。
このツールキットを用いて得られた評価結果に基づいて,マルチモーダル学習研究の進展を追跡する総合的なリーダーボードであるOpenVLM Leaderboardをホストする。
ツールキットはhttps://github.com/open-compass/VLMEvalKitでリリースされ、アクティブにメンテナンスされている。
We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# HIMO:複数オブジェクトによるフルボディヒューマンインタラクションのための新しいベンチマーク
HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects ( http://arxiv.org/abs/2407.12371v2 ) ライセンス: Link先を確認 | Xintao Lv, Liang Xu, Yichao Yan, Xin Jin, Congsheng Xu, Shuwen Wu, Yifan Liu, Lincheng Li, Mengxiao Bi, Wenjun Zeng, Xiaokang Yang, | (参考訳) 人-物相互作用(HOIs)の生成は、デジタルアバターの大幅な進歩に不可欠である。
既存のデータセットは通常、複数のオブジェクトのユビキタスな操作を無視しながら、単一のオブジェクトと対話する人間に限られる。
そこで,本研究では,3.3K 4D HOI シーケンスと4.08M 3D HOI フレームを含む,多数のオブジェクトと相互作用する実物体の大規模な MoCap データセット HIMO を提案する。
また、HIMOに詳細なテキスト記述と時間セグメントを付加し、テキストプロンプト全体またはセグメント化されたテキストプロンプトに条件付されたHOI合成の2つの新しいタスクを、きめ細かいタイムライン制御としてベンチマークする。
このような新しい課題に対処するために,HOI合成のための相互相互作用モジュールを持つ二重分岐条件拡散モデルを提案する。
さらに、HOIセグメント間のスムーズな遷移を得るために自動回帰生成パイプラインも設計されている。
実験結果から, 物体の地形や時間組成を可視化する一般化能力が示された。
Generating human-object interactions (HOIs) is critical with the tremendous advances of digital avatars. Existing datasets are typically limited to humans interacting with a single object while neglecting the ubiquitous manipulation of multiple objects. Thus, we propose HIMO, a large-scale MoCap dataset of full-body human interacting with multiple objects, containing 3.3K 4D HOI sequences and 4.08M 3D HOI frames. We also annotate HIMO with detailed textual descriptions and temporal segments, benchmarking two novel tasks of HOI synthesis conditioned on either the whole text prompt or the segmented text prompts as fine-grained timeline control. To address these novel tasks, we propose a dual-branch conditional diffusion model with a mutual interaction module for HOI synthesis. Besides, an auto-regressive generation pipeline is also designed to obtain smooth transitions between HOI segments. Experimental results demonstrate the generalization ability to unseen object geometries and temporal compositions. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# 分類事項:クラス別注意による映像行動検出の改善
Classification Matters: Improving Video Action Detection with Class-Specific Attention ( http://arxiv.org/abs/2407.19698v4 ) ライセンス: Link先を確認 | Jinsung Lee, Taeoh Kim, Inwoong Lee, Minho Shim, Dongyoon Wee, Minsu Cho, Suha Kwak, | (参考訳) ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
VADはアクターのローカライゼーションよりも分類に苦しむ。
そこで,本研究では,一般的な手法が分類のための特徴をどう形成するかを分析し,それらがアクター領域を優先するが,正確な分類に必要なコンテキスト情報を見越すことが多い。
そこで我々は,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
クラス指定クエリを各アクションクラスに割り当てることで、モデルが効果的に分類する場所を動的に決定できる。
提案モデルでは,パラメータが大幅に少なく,計算量も少ない3つのベンチマークにおいて,優れた性能を示す。
Video action detection (VAD) aims to detect actors and classify their actions in a video. We figure that VAD suffers more from classification rather than localization of actors. Hence, we analyze how prevailing methods form features for classification and find that they prioritize actor regions, yet often overlooking the essential contextual information necessary for accurate classification. Accordingly, we propose to reduce the bias toward actor and encourage paying attention to the context that is relevant to each action class. By assigning a class-dedicated query to each action class, our model can dynamically determine where to focus for effective classification. The proposed model demonstrates superior performance on three challenging benchmarks with significantly fewer parameters and less computation. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# 多原子分子のツイスト電子衝突弾性断面積:全活性電子マルチセンターアプローチ
Twisted electron impact elastic cross sections of polyatomic molecules: All active electron multicentered approach ( http://arxiv.org/abs/2407.19801v2 ) ライセンス: Link先を確認 | Raul Sheldon Pinto, Rakesh Choubisa, | (参考訳) 平面およびツイスト電子ビーム(ベッセルビーム)衝突による多原子分子の絶対弾性差分と積分(トータル)断面積は、例えば$CO_2$と$N_2O$で表される。
クロスセクションは理論上、FBA(First Born Approximation)で計算される。
対象分子は、ガウス型軌道(GTO)を持つ多中心波動関数を用いてモデル化され、密度汎関数理論によって最適化される。
空間座標の関数として得られる電子密度は、分子内の全ての電子の活性な役割を考慮しつつ弾性的なフォームファクターを計算するために用いられる。
クーロン直接ポテンシャルは、入射ビームと全ての電子と核との相互作用に使用される。
実験状況を模倣するために、差動断面の配向平均化を行う。
核によるヤングの干渉効果が考慮されている。
断面は300eVから1keVまでの中間エネルギーで計算される。
提案手法はどんな多原子分子にも確実に適用できる。
ベッセルビーム(ツイスト電子ビーム)と位相電荷$m_l$ = 1, 2, 3の相互作用を解析した。
また、ビームと多数の分子との相互作用を表す差分断断面積の平均オーバーインパクトパラメータについて検討し、提示した。
最後に、平面波とツイストビームによる分子の積分弾性断面積(ICS)を算出し、提示する。
The absolute elastic differential and Integral (total) cross-sections of polyatomic molecules by plane and twisted electron beam (Bessel Beam) impact are presented with $CO_2$ and $N_2O$ as examples. The cross sections are computed theoretically in the First Born Approximation(FBA). The target molecules are modeled using multicentered wavefunctions with Gaussian Type Orbitals(GTOs) and optimized through Density Functional Theory. The electron density obtained as a function of spatial coordinates is used to calculate the elastic form factor while considering the active role of all electrons in the molecule. Coulomb direct potentials are used for the interactions of the incident beam with all electrons and nuclei. An orientation averaging of the differential cross-section is performed to mimic experimental situations. The Young's interference effects due to the nuclei are considered. The cross sections are calculated at intermediate energies ranging from 300eV to 1keV. The proposed methodology can certainly be applied to any polyatomic molecule. The interactions of Bessel beams (Twisted Electron Beam) with topological charges $m_l$ = 1, 2, and 3 are analyzed. The average over impact parameters of the differential cross-sections representing the beam's interaction with a large number of molecules is also studied and presented. Finally, the Integral elastic cross-section (ICS) of the molecules by plane wave and twisted beams is calculated and presented. | 翻訳日:2024-09-12 20:32:18 公開日:2024-09-11 |
# 量子システムのスペクトル計算における物理インフォームドニューラルネットワークの利用に関する研究
A Tutorial on the Use of Physics-Informed Neural Networks to Compute the Spectrum of Quantum Systems ( http://arxiv.org/abs/2407.20669v2 ) ライセンス: Link先を確認 | Lorenzo Brevi, Antonio Mandarino, Enrico Prati, | (参考訳) 量子多体系は物理学、生物学、化学など多くの研究分野において大きな関心を集めている。
しかし、ヒルベルト空間の指数関数的な成長とシステムサイズのため、そのシミュレーションは非常に困難であり、正確な手法を用いて大規模システムの波動関数をパラメータ化することは極めて困難である。
ニューラルネットワークと機械学習は、この課題に直面する方法のひとつだ。
例えば、テンソルネットワークやニューラル量子状態のような手法は、量子力学系の波動関数を得るための有望なツールとして研究されている。
本稿では,特に有望なディープラーニングアルゴリズムのクラスに焦点を当てる。
本稿では,その固有値と固有関数を求めることにより,与えられたポテンシャルに対してシュリンガー方程式を解くことができる物理インフォームドニューラルネットワーク(PINN)を構築する方法について説明する。
この手法は教師なしであり、ほとんど探索されていない方法で新しい計算手法を利用する。
PINNは、メッシュのない方法で積分差分方程式を解くために、自動微分を利用するディープラーニング手法である。
地上と興奮状態の両方を見つける方法を示します。
この方法は、基底状態から始めることによって、段階的に状態を検出する。
物理的システムのさらなる知識を活用するために、損失に帰納バイアスを導入する方法について説明する。
このような追加の制約はより速くより正確な収束を可能にする。
この手法は、PINNのメッシュフリーな性質を活用するために、コロケーションポイントのスマートな選択によって拡張することができる。
これらの手法は、複雑な値の固有関数や退化状態の存在により、人工知能エージェントが学習する難しい問題である、無限のポテンシャル井戸と環内の粒子にそれらを適用することによって明確化される。
Quantum many-body systems are of great interest for many research areas, including physics, biology and chemistry. However, their simulation is extremely challenging, due to the exponential growth of the Hilbert space with the system size, making it exceedingly difficult to parameterize the wave functions of large systems by using exact methods. Neural networks and machine learning in general are a way to face this challenge. For instance, methods like Tensor networks and Neural Quantum States are being investigated as promising tools to obtain the wave function of a quantum mechanical system. In this tutorial, we focus on a particularly promising class of deep learning algorithms. We explain how to construct a Physics-Informed Neural Network (PINN) able to solve the Schr\"odinger equation for a given potential, by finding its eigenvalues and eigenfunctions. This technique is unsupervised, and utilizes a novel computational method in a manner that is barely explored. PINNs are a deep learning method that exploits Automatic Differentiation to solve Integro-Differential Equations in a mesh-free way. We show how to find both the ground and the excited states. The method discovers the states progressively by starting from the ground state. We explain how to introduce inductive biases in the loss to exploit further knowledge of the physical system. Such additional constraints allow for a faster and more accurate convergence. This technique can then be enhanced by a smart choice of collocation points in order to take advantage of the mesh-free nature of the PINN. The methods are made explicit by applying them to the infinite potential well and the particle in a ring, a challenging problem to be learned by an Artificial Intelligence agent due to the presence of complex-valued eigenfunctions and degenerate states. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# TinyChirp:低消費電力無線音響センサを用いたTinyMLモデルによる鳥の歌声認識
TinyChirp: Bird Song Recognition Using TinyML Models on Low-power Wireless Acoustic Sensors ( http://arxiv.org/abs/2407.21453v2 ) ライセンス: Link先を確認 | Zhaolan Huang, Adrien Tousnakhoff, Polina Kozyr, Roman Rehausen, Felix Bießmann, Robert Lachlan, Cedric Adjih, Emmanuel Baccelli, | (参考訳) 大規模な生物多様性のモニタリングは難しい。
微細な分類学における種の検出と同定には、高度に正確な機械学習(ML)手法が必要である。
このようなモデルのトレーニングには、大きな高品質なデータセットが必要です。
そして、これらのモデルを低消費電力デバイスにデプロイするには、新しい圧縮技術とモデルアーキテクチャが必要である。
種分類法は、ML法、特にニューラルネットワークの新たなデータセットから利益を得てきたが、これらの最先端モデルを低消費電力デバイスに展開することは依然として困難である。
本稿では,様々な小型MLニューラルネットワークアーキテクチャと種分類のための圧縮技術について,包括的比較を行った。
鳥の鳴き声検出の例としては,より具体的には,トウモロコシの羽ばたき鳥の研究用に収集されたデータセットに着目した。
データセットは、この研究のすべてのコードと実験と共にリリースされます。
実験では,古典的スペクトログラムに基づく手法と,生音声信号を用いた最近のアプローチの予測性能,記憶量,時間的複雑さを比較した。
本研究は,低消費電力デバイスに容易に展開可能な比較的単純なアーキテクチャを用いて,個々の鳥類種を頑健に検出できることを示唆する。
Monitoring biodiversity at scale is challenging. Detecting and identifying species in fine grained taxonomies requires highly accurate machine learning (ML) methods. Training such models requires large high quality data sets. And deploying these models to low power devices requires novel compression techniques and model architectures. While species classification methods have profited from novel data sets and advances in ML methods, in particular neural networks, deploying these state of the art models to low power devices remains difficult. Here we present a comprehensive empirical comparison of various tinyML neural network architectures and compression techniques for species classification. We focus on the example of bird song detection, more concretely a data set curated for studying the corn bunting bird species. The data set is released along with all code and experiments of this study. In our experiments we compare predictive performance, memory and time complexity of classical spectrogram based methods and recent approaches operating on raw audio signal. Our results indicate that individual bird species can be robustly detected with relatively simple architectures that can be readily deployed to low power devices. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# 高純度原子間のエネルギー輸送
Energy Transport Among Highly-Polarized Atoms ( http://arxiv.org/abs/2407.21764v2 ) ライセンス: Link先を確認 | Catherine D. Opsahl, Yuan Jiang, Samantha A. Grubb, Alan T. Okinaka, Nicolaus A. Chlanda, Hannah S. Conley, Aidan D. Kirk, Sarah E. Spielman, Thomas J. Carroll, Michael W. Noel, | (参考訳) 数V/cmの静電場は、磁気光学トラップ内の超低温のリドバーグ原子のエネルギーレベルをシフトさせる。
与えられた原理量子数に対して、エネルギー準位のほとんどはゼロ場においてほとんど退化し、拡大する場を伴って多様体を形成する。
我々はリドベルク原子を多様体の中心付近のエネルギー準位に励起し、間隔はほぼ調和し、共鳴双極子-双極子相互作用によってエネルギーを交換する。
エネルギーが多様体の中心から遠ざかるにつれて、時間的進化を測定することで、長い相互作用時間の間システムが熱化に失敗することを明らかにする。
システムの本質的な特徴のみを含む計算モデルは、この結果に定性的に一致する。
A static electric field of a few V/cm shifts the energy levels of ultracold Rydberg atoms in a magneto-optical trap. For a given principle quantum number, most of the energy levels are nearly degenerate at zero field and fan out with increasing field to form a manifold. We excite Rydberg atoms to energy levels near the center of the manifold, where the spacing is nearly harmonic, and allow them to exchange energy via resonant dipole-dipole interactions. We measure the time evolution as energy spreads away from the center of the manifold, which reveals that the system fails to thermalize for long interaction times. A computational model that includes only a few essential features of the system qualitatively agrees with this result. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# RainMamba: ビデオレイアウトのためのステートスペースモデルによるローカル学習の強化
RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining ( http://arxiv.org/abs/2407.21773v2 ) ライセンス: Link先を確認 | Hongtao Wu, Yijun Yang, Huihui Xu, Weiming Wang, Jinni Zhou, Lei Zhu, | (参考訳) 屋外の視覚システムは、しばしばレインストリークやレインドロップによって汚染され、視覚タスクやマルチメディアアプリケーションの性能を著しく低下させる。
ビデオの性質は、より安定性の高い雨除去のための冗長な時間的手がかりを示す。
従来のビデオデラリニング手法は、受容場が限られている光フロー推定やカーネルベースの手法に大きく依存している。
しかし、トランスフォーマーアーキテクチャは、長期的な依存関係を実現する一方で、計算複雑性を著しく増加させます。
近年、状態空間モデル(SSM)の線形複雑度演算子は、ビデオにおける雨害や雨滴除去に欠かせない、効率的な長期時間モデリングを促進している。
ビデオ上の一次元のシーケンシャルプロセスは、隣接するピクセルを分散することにより、時空間の局所的相関を破壊します。
そこで本研究では,新しいヒルベルトスキャン機構により,SSMに基づくビデオデライニングネットワーク(RainMamba)を改良し,シーケンスレベルのローカル情報をよりよくキャプチャする。
また,提案したネットワークのパッチレベルの自己相似学習能力を高めるために,差分誘導動的コントラスト学習戦略を導入する。
4つの合成ビデオデラミニングデータセットと実世界の雨天ビデオによる大規模な実験は、雨天や雨水滴の除去における我々のネットワークの有効性と効率を実証している。
私たちのコードと結果はhttps://github.com/TonyHongtaoWu/RainMamba.comで公開されています。
The outdoor vision systems are frequently contaminated by rain streaks and raindrops, which significantly degenerate the performance of visual tasks and multimedia applications. The nature of videos exhibits redundant temporal cues for rain removal with higher stability. Traditional video deraining methods heavily rely on optical flow estimation and kernel-based manners, which have a limited receptive field. Yet, transformer architectures, while enabling long-term dependencies, bring about a significant increase in computational complexity. Recently, the linear-complexity operator of the state space models (SSMs) has contrarily facilitated efficient long-term temporal modeling, which is crucial for rain streaks and raindrops removal in videos. Unexpectedly, its uni-dimensional sequential process on videos destroys the local correlations across the spatio-temporal dimension by distancing adjacent pixels. To address this, we present an improved SSMs-based video deraining network (RainMamba) with a novel Hilbert scanning mechanism to better capture sequence-level local information. We also introduce a difference-guided dynamic contrastive locality learning strategy to enhance the patch-level self-similarity learning ability of the proposed network. Extensive experiments on four synthesized video deraining datasets and real-world rainy videos demonstrate the effectiveness and efficiency of our network in the removal of rain streaks and raindrops. Our code and results are available at https://github.com/TonyHongtaoWu/RainMamba. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# ZNorm: ディープニューラルネットワークのためのZスコア勾配正規化
ZNorm: Z-Score Gradient Normalization for Deep Neural Networks ( http://arxiv.org/abs/2408.01215v3 ) ライセンス: Link先を確認 | Juyoung Yun, Hoyoung Kim, | (参考訳) ディープラーニングの急速な進歩は、ディープニューラルネットワーク(DNN)のより良いトレーニング方法を必要とする。
モデルが複雑化するにつれて、勾配の消滅と爆発がパフォーマンスを妨げます。
Z-Score Normalization for Gradient Descent (ZNorm) は、学習の高速化とモデル性能向上のために勾配のみを調整する革新的な手法である。
ZNormは全体的な勾配を正規化し、階層間の一貫性のある勾配スケーリングを提供する。
CIFAR-10および医療データセットに関する広範な実験により、ZNormはパフォーマンス指標を向上することを示した。
ZNormは既存のメソッドを一貫して上回り、同じ実験的な設定で優れた結果を得る。
医用画像の応用において、ZNormは腫瘍予測とセグメンテーション性能を改善し、その実用性を強調している。
これらの調査結果は、さまざまなアーキテクチャやアプリケーションにわたるディープニューラルネットワークのトレーニング速度と有効性を高めるための、堅牢で汎用的なツールとしてのZNormの可能性を浮き彫りにしている。
The rapid advancements in deep learning necessitate better training methods for deep neural networks (DNNs). As models grow in complexity, vanishing and exploding gradients impede performance. We propose Z-Score Normalization for Gradient Descent (ZNorm), an innovative technique that adjusts only the gradients to accelerate training and improve model performance. ZNorm normalizes the overall gradients, providing consistent gradient scaling across layers, thereby reducing the risks of vanishing and exploding gradients, having better performances. Our extensive experiments on CIFAR-10 and medical datasets demonstrate that ZNorm enhances performance metrics. ZNorm consistently outperforms existing methods, achieving superior results using the same experimental settings. In medical imaging applications, ZNorm improves tumor prediction and segmentation performances, underscoring its practical utility. These findings highlight ZNorm's potential as a robust and versatile tool for enhancing the training speed and effectiveness of deep neural networks across a wide range of architectures and applications. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# コントラスト学習と抽象概念:自然数の場合
Contrastive Learning and Abstract Concepts: The Case of Natural Numbers ( http://arxiv.org/abs/2408.02247v5 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) 対照的学習(CL)は、ImageNetデータセットに含まれるオブジェクトなど、具体的な概念に関連する分類や下流タスクにうまく適用されている。
これまでのところ、より抽象的なエンティティにこの有望なスキームを適用する試みは行われていないようだ。
これらの顕著な例は、(離散的な)量の概念である。
CLはしばしば、深遠でユビキタスな保存原理(例えば、オブジェクト分類タスクにおけるアイデンティティの保存)によって導かれる自己教師型スキームとして解釈される。
この入門研究では、離散量の推定や予測が可能な自然数の半抽象概念に適切な保存原理を適用する。
実験により、おもちゃの問題により、対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることが示される。
と。
類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。
両スキームは, トレーニング段階と試験段階の分布が等しいベースライン実験において, 同様の性能を示すことを示す。
重要なことは、分散のトレーニングとテストが異なるいくつかの一般化シナリオにおいて、CLはより堅牢ではるかに優れたエラー性能を誇示している。
Contrastive Learning (CL) has been successfully applied to classification and other downstream tasks related to concrete concepts, such as objects contained in the ImageNet dataset. No attempts seem to have been made so far in applying this promising scheme to more abstract entities. A prominent example of these could be the concept of (discrete) Quantity. CL can be frequently interpreted as a self-supervised scheme guided by some profound and ubiquitous conservation principle (e.g. conservation of identity in object classification tasks). In this introductory work we apply a suitable conservation principle to the semi-abstract concept of natural numbers by which discrete quantities can be estimated or predicted. We experimentally show, by means of a toy problem, that contrastive learning can be trained to count at a glance with high accuracy both at human as well as at super-human ranges.. We compare this with the results of a trained-to-count at a glance supervised learning (SL) neural network scheme of similar architecture. We show that both schemes exhibit similar good performance on baseline experiments, where the distributions of the training and testing stages are equal. Importantly, we demonstrate that in some generalization scenarios, where training and testing distributions differ, CL boasts more robust and much better error performance. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# バイアスノイズに対する高次元量子XYZ積符号
High-dimensional quantum XYZ product codes for biased noise ( http://arxiv.org/abs/2408.03123v3 ) ライセンス: Link先を確認 | Zhipeng Liang, Zhengzhong Yi, Fusheng Yang, Jiahan Chen, Zicheng Wang, Xuan Wang, | (参考訳) 3次元(3D)量子XYZ積は、3つの古典符号を用いて非CSS符号のクラスを構築することができる。
しかし、それらの誤り訂正性能は、これまで深く研究されておらず、この符号構成を高次元に一般化できるかどうかは、未解決の問題である。
本稿では,3つの繰り返し符号の3次元XYZ積の例である3次元チャモン符号の誤り訂正性能について検討する。
次に,3次元XYZを4次元に一般化し,4次元(4次元)XYZ製品コード構築を提案する。
4Dホモロジー製品と比較して、4D XYZ製品は高いコード次元またはコード距離を持つ非CSSコードを構築することができることを示す。
最後に、4D XYZ製品の2つの例について考察し、それぞれ4D Chamon コードと 4D XYZ 製品結合コードと呼ぶ。
シミュレーションの結果,4D XYZ 製品は 4D ホモロジー製品によって構築された CSS コードよりも,$Z$-biased ノイズに対して誤り訂正性能の高い非CSS コードを構築することができることがわかった。
Three-dimensional (3D) quantum XYZ product can construct a class of non-CSS codes by using three classical codes. However, their error-correcting performance has not been studied in depth so far and whether this code construction can be generalized to higher dimension is an open question. In this paper, we first study the error-correcting performance of the 3D Chamon code, which is an instance of 3D XYZ product of three repetition codes. Next, we show that 3D XYZ product can be generalized to four dimension and propose four-dimensional (4D) XYZ product code construction, which constructs a class of non-CSS codes by using either four classical codes or two CSS codes. Compared with 4D homological product, we show that 4D XYZ product can construct non-CSS codes with higher code dimension or code distance. Finally, we consider two instances of 4D XYZ product, to which we refer as 4D Chamon code and 4D XYZ product concatenated code, respectively. Our simulation results show that, 4D XYZ product can construct non-CSS codes with better error-correcting performance for $Z$-biased noise than CSS codes constructed by 4D homological product. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# 翻訳不変多体系におけるモメンタム依存型量子ルエル・ポリコット共鳴
Momentum dependent quantum Ruelle-Pollicott resonances in translationally invariant many-body systems ( http://arxiv.org/abs/2408.06307v2 ) ライセンス: Link先を確認 | Marko Znidaric, | (参考訳) 無限系上の運動量分解作用素プロパゲータのスペクトルを用いて、変換不変な量子多体格子系におけるルエル・ポリコット共鳴を研究する。
モメンタム依存は相関関数の崩壊に関する洞察を与え、それらの対称性によって、一般に異なる速度で崩壊する相関関数が異なることを示す。
キックされたイジングモデルに焦点をあてると、スペクトルは典型的には、我々が理論的に予測する環のような環状のランダム行列から成り、孤立共鳴は少ない。
相関関数のパワー-ロー崩壊を伴う混合状態を含むいくつかの興味深い規則を同定する。
この方法では、ほぼ保存された演算子によって異なる相関関数の時間スケールに大きな違いが観測される。
作用素プロパゲータの特異値に対する正確な式が予想され、特別な点で特異となることを示す。
We study Ruelle-Pollicott resonances in translationally invariant quantum many-body lattice systems via spectra of momentum-resolved operator propagator on infinite systems. Momentum dependence gives insight into decay of correlation functions, showing that, depending on their symmetries, different correlation functions in general decay with different rates. Focusing on the kicked Ising model the spectrum seems to be typically composed of an annular random matrix like ring whose size we theoretically predict, and few isolated resonances. We identify several interesting regimes, including a mixing regime with a power-law decay of correlation functions. In that regime we also observe a huge difference in time-scales of different correlation functions due to an almost conserved operator. An exact expression for the singular values of the operator propagator is conjectured, showing that it becomes singular at a special point. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# Kolmogorov-Arnold Networks (KAN) による時系列分類とロバスト解析
Kolmogorov-Arnold Networks (KAN) for Time Series Classification and Robust Analysis ( http://arxiv.org/abs/2408.07314v3 ) ライセンス: Link先を確認 | Chang Dong, Liangwei Zheng, Weitong Chen, | (参考訳) Kolmogorov-Arnold Networks (KAN)は、MLP(Multi-Layer Perceptrons)に代わる有望な代替品として、最近大きな注目を集めている。
理論上は魅力的だが、Kaninは大規模なベンチマークデータセットの検証を必要とする。
近年ますます普及している時系列データ,特に単変量時系列は,カンの検証に自然に適している。
そこで我々はkan, MLP, 混合構造の比較を行った。
結果から,kanは128の時系列データセットにまたがるMPPに匹敵する,あるいはやや優れた性能を達成できることが示唆された。
また,Kanに対するアブレーション実験を行い,b-スプライン関数の代わりに基成分によって出力が決定されることを明らかにした。
さらに, これらのモデルのロバスト性を評価した結果, カンとハイブリッド構造 MLP\_KAN はリプシッツ定数が低いため, 高いロバスト性を持つことがわかった。
これは、カン層とカン層がロバストモデルである可能性や、他のモデルの対角的ロバスト性を改善する可能性を持っていることを示唆している。
Kolmogorov-Arnold Networks (KAN) has recently attracted significant attention as a promising alternative to traditional Multi-Layer Perceptrons (MLP). Despite their theoretical appeal, KAN require validation on large-scale benchmark datasets. Time series data, which has become increasingly prevalent in recent years, especially univariate time series are naturally suited for validating KAN. Therefore, we conducted a fair comparison among KAN, MLP, and mixed structures. The results indicate that KAN can achieve performance comparable to, or even slightly better than, MLP across 128 time series datasets. We also performed an ablation study on KAN, revealing that the output is primarily determined by the base component instead of b-spline function. Furthermore, we assessed the robustness of these models and found that KAN and the hybrid structure MLP\_KAN exhibit significant robustness advantages, attributed to their lower Lipschitz constants. This suggests that KAN and KAN layers hold strong potential to be robust models or to improve the adversarial robustness of other models. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# VHR SARの光画像変換のための条件付きブラウン橋拡散モデル
Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation ( http://arxiv.org/abs/2408.07947v3 ) ライセンス: Link先を確認 | Seon-Hoon Kim, Dae-Won Chung, | (参考訳) 合成開口レーダ(SAR)イメージング技術は、気象条件や時間に関係なくデータを収集できるというユニークな利点を提供する。
しかし、SAR画像は複雑な後方散乱パターンとスペックルノイズを示し、解釈の専門知識を必要とする。
SAR画像の光学的表現への変換に関する研究は,SARデータの解釈を支援するために行われている。
それにもかかわらず、既存の研究は、主に低解像度の衛星画像データセットを利用しており、そのトレーニング不安定性と低忠実さで知られているGAN(Generative Adversarial Network)に基づいている。
このような低解像度データ利用の限界とGANに基づくアプローチを克服するために,Brownian Bridge Diffusion Model (BBDM) に基づく条件付き画像-画像変換手法を提案する。
我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR) の光学画像収集に関する総合的な実験を行った。
実験結果から,本手法は条件拡散モデル (CDM) とGANベースモデルの両方を,多様な知覚的品質指標で上回ることがわかった。
Synthetic Aperture Radar (SAR) imaging technology provides the unique advantage of being able to collect data regardless of weather conditions and time. However, SAR images exhibit complex backscatter patterns and speckle noise, which necessitate expertise for interpretation. Research on translating SAR images into optical-like representations has been conducted to aid the interpretation of SAR data. Nevertheless, existing studies have predominantly utilized low-resolution satellite imagery datasets and have largely been based on Generative Adversarial Network (GAN) which are known for their training instability and low fidelity. To overcome these limitations of low-resolution data usage and GAN-based approaches, this paper introduces a conditional image-to-image translation approach based on Brownian Bridge Diffusion Model (BBDM). We conducted comprehensive experiments on the MSAW dataset, a paired SAR and optical images collection of 0.5m Very-High-Resolution (VHR). The experimental results indicate that our method surpasses both the Conditional Diffusion Models (CDMs) and the GAN-based models in diverse perceptual quality metrics. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# ソフトな値に基づく復号化を伴う連続・離散拡散モデルにおける導出自由誘導
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding ( http://arxiv.org/abs/2408.08252v2 ) ライセンス: Link先を確認 | Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara, | (参考訳) 拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
しかし、単に自然である設計を生成するのではなく、これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目的としていることが多い。
この目的を達成するための既存の方法は、しばしば ``differentiable' プロキシモデル (\textit{e g }, 分類器ガイダンスまたはDPS) や、計算に高価な拡散モデルの微調整 (\textit{e g }, 分類器なしガイダンス、RLベースの微調整) を必要とする。
本研究では,これらの課題に対処するための新しい手法を提案する。
提案アルゴリズムは,中間ノイズ状態が将来高い報酬をもたらすか,あるいは事前学習した拡散モデルの標準推論手順に先立って,ソフト値関数を統合する反復サンプリング手法である。
特に、本手法は微調整生成モデルを避け、微分可能なモデルを構築する必要をなくす。
これにより、(1)多くの科学的領域で一般的に使われている非微分可能特徴/回帰フィードバックを直接利用し、(2)近年の離散拡散モデルに原則的に適用することができる。
最後に、画像生成、分子生成、DNA/RNA配列生成など、複数の領域にわたるアルゴリズムの有効性を示す。
コードは \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} で公開されている。
Diffusion models excel at capturing the natural design spaces of images, molecules, DNA, RNA, and protein sequences. However, rather than merely generating designs that are natural, we often aim to optimize downstream reward functions while preserving the naturalness of these design spaces. Existing methods for achieving this goal often require ``differentiable'' proxy models (\textit{e.g.}, classifier guidance or DPS) or involve computationally expensive fine-tuning of diffusion models (\textit{e.g.}, classifier-free guidance, RL-based fine-tuning). In our work, we propose a new method to address these challenges. Our algorithm is an iterative sampling method that integrates soft value functions, which looks ahead to how intermediate noisy states lead to high rewards in the future, into the standard inference procedure of pre-trained diffusion models. Notably, our approach avoids fine-tuning generative models and eliminates the need to construct differentiable models. This enables us to (1) directly utilize non-differentiable features/reward feedback, commonly used in many scientific domains, and (2) apply our method to recent discrete diffusion models in a principled way. Finally, we demonstrate the effectiveness of our algorithm across several domains, including image generation, molecule generation, and DNA/RNA sequence generation. The code is available at \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD}. | 翻訳日:2024-09-12 20:22:30 公開日:2024-09-11 |
# 予測モデル性能と一般化可能性の文脈におけるクロスモデル神経相関の探索
Exploring Cross-model Neuronal Correlations in the Context of Predicting Model Performance and Generalizability ( http://arxiv.org/abs/2408.08448v4 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Lionel Levine, Majid Sarrafzadeh, | (参考訳) 人工知能(AI)モデルが重要なシステムに統合されるにつれて、AIの信頼性を確立するための堅牢なフレームワークの必要性がますます高まっている。
共同作業はそのようなフレームワークの概念的な基盤を確立してきましたが、AIモデルの品質とパフォーマンスを評価する技術的に堅牢な方法を開発する上で、依然として大きなギャップがあります。
モデルの妥当性と一般化性を評価する従来の方法における重大な欠点は、内部の開発者データセットに依存していることだ。
本稿では,ニューラルネットワーク間の相関関係を計算し,他の既知のモデルに基づく新たなトレーニングモデルの性能評価手法を提案する。
提案手法は,1つのネットワーク内の各ニューロンに対して,類似の出力を生成する他のネットワークにニューロンが存在するかどうかを判定することにより相関性を評価する。
このアプローチはメモリ効率に影響を及ぼし、異なるサイズのネットワーク間で高い相関関係が存在する場合、より小さなネットワークを使用することができる。
さらに、本手法はロバスト性に関する洞察を提供し、2つの高相関ネットワークを比較し、本番環境で運用する場合にロバスト性を示すとすると、他方も同様のロバスト性を示す可能性が高いことを示唆している。
このコントリビューションは、責任あるAIのための技術ツールキットを推進し、より包括的でニュアンスなAIモデルの評価をサポートし、安全で効果的なデプロイメントを保証する。
コードはhttps://github.com/aheldis/Cross-model-correlation.gitで公開されている。
As Artificial Intelligence (AI) models are increasingly integrated into critical systems, the need for a robust framework to establish the trustworthiness of AI is increasingly paramount. While collaborative efforts have established conceptual foundations for such a framework, there remains a significant gap in developing concrete, technically robust methods for assessing AI model quality and performance. A critical drawback in the traditional methods for assessing the validity and generalizability of models is their dependence on internal developer datasets, rendering it challenging to independently assess and verify their performance claims. This paper introduces a novel approach for assessing a newly trained model's performance based on another known model by calculating correlation between neural networks. The proposed method evaluates correlations by determining if, for each neuron in one network, there exists a neuron in the other network that produces similar output. This approach has implications for memory efficiency, allowing for the use of smaller networks when high correlation exists between networks of different sizes. Additionally, the method provides insights into robustness, suggesting that if two highly correlated networks are compared and one demonstrates robustness when operating in production environments, the other is likely to exhibit similar robustness. This contribution advances the technical toolkit for responsible AI, supporting more comprehensive and nuanced evaluations of AI models to ensure their safe and effective deployment. Code is available at https://github.com/aheldis/Cross-model-correlation.git. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# ニューラルポーラライゼーションによるフォワードオンリー学習の一般化と安定性向上について
On the Improvement of Generalization and Stability of Forward-Only Learning via Neural Polarization ( http://arxiv.org/abs/2408.09210v2 ) ライセンス: Link先を確認 | Erik B. Terres-Escudero, Javier Del Ser, Pablo Garcia-Bringas, | (参考訳) フォワードのみの学習アルゴリズムは、最近、勾配のバックプロパゲーションの代替として注目され、後者のソルバの後方ステップを、さらにコントラストのあるフォワードパスに置き換えた。
これらの手法のうち、いわゆるフォワード・フォワード・アルゴリズム(FFA)は、一般化と複雑性の観点から、競争性能のレベルを達成することが示されている。
FFAを用いてトレーニングされたネットワークは、実データ(正のサンプルとして記述された)で提示されたとき、層単位で定義された良性スコアを対照的に最大化し、合成データ(負のサンプル)を処理するとき、それを最小化する。
しかし、このアルゴリズムは、主に正と負のサンプルの勾配不均衡のため、モデルの精度と訓練安定性に悪影響を及ぼす弱点に直面している。
この問題を克服するために、我々は、正と負のインスタンスにニューラル分割(\emph{polarization})を導入することにより、元の定式化を拡張した、Polar-FFAと呼ばれるFFAアルゴリズムの新たな実装を提案する。
これらのグループのニューロンは、それぞれのデータ型を提示するときの良さを最大化することを目的としており、それによって対称的な勾配挙動を生み出す。
提案するPolar-FFAの学習能力向上を実証的に評価するために,画像分類データセット上で異なるアクティベーションと良性関数を用いて,いくつかの系統的な実験を行った。
以上の結果から,Polar-FFAはFFAよりも精度と収束速度が優れていることが示された。
さらに、ハイパーパラメータへの依存度が低いため、最適な一般化機能を保証するためにハイパーパラメータチューニングの必要性が軽減され、より広い範囲のニューラルネットワーク構成が可能になる。
Forward-only learning algorithms have recently gained attention as alternatives to gradient backpropagation, replacing the backward step of this latter solver with an additional contrastive forward pass. Among these approaches, the so-called Forward-Forward Algorithm (FFA) has been shown to achieve competitive levels of performance in terms of generalization and complexity. Networks trained using FFA learn to contrastively maximize a layer-wise defined goodness score when presented with real data (denoted as positive samples) and to minimize it when processing synthetic data (corr. negative samples). However, this algorithm still faces weaknesses that negatively affect the model accuracy and training stability, primarily due to a gradient imbalance between positive and negative samples. To overcome this issue, in this work we propose a novel implementation of the FFA algorithm, denoted as Polar-FFA, which extends the original formulation by introducing a neural division (\emph{polarization}) between positive and negative instances. Neurons in each of these groups aim to maximize their goodness when presented with their respective data type, thereby creating a symmetric gradient behavior. To empirically gauge the improved learning capabilities of our proposed Polar-FFA, we perform several systematic experiments using different activation and goodness functions over image classification datasets. Our results demonstrate that Polar-FFA outperforms FFA in terms of accuracy and convergence speed. Furthermore, its lower reliance on hyperparameters reduces the need for hyperparameter tuning to guarantee optimal generalization capabilities, thereby allowing for a broader range of neural network configurations. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# BernGraph: EHRベースの医療勧告のための確率的グラフニューラルネットワーク
BernGraph: Probabilistic Graph Neural Networks for EHR-based Medication Recommendations ( http://arxiv.org/abs/2408.09410v3 ) ライセンス: Link先を確認 | Xihao Piao, Pei Gao, Zheng Chen, Lingwei Zhu, Yasuko Matsubara, Yasushi Sakurai, Jimeng Sun, | (参考訳) 医療コミュニティは、EHRデータにおける2つの医療イベントの結果は、合理的な推奨を行うのに十分な情報を含んでいると考えている。
しかし,このようなデータを効果的に活用するには,(1) 大規模0,1イベント結果の関係をモデル化することは,専門家の知識でも困難である,(2) 実際には,0項目が等しく重要な学習信号を伝達しないため,バイナリ値によって学習が停滞することがある,という2つの課題がある。
現在、想定される十分な情報と、バイナリデータのみを利用することで有望な結果が示されていない現実の間には大きなギャップがある。
本稿では,2つの課題に対処し,二元的 EHR 医療記録のみを用いて有効な医薬品推薦システムを構築することを目的としている。
この目的のために、我々は、EHRデータをコホートからのサンプルと見なして、連続ベルヌーイ確率に変換する統計的視点を取る。
変換されたエントリは、分布を持つ決定論的バイナリイベントをモデル化するだけでなく、条件付き確率で \emph{event-event} 関係を反映することを可能にする。
変換の上にグラフニューラルネットワークが学習される。
これは、emph{event-to- patient}機能を強調しながら、イベントとイベントの相関をキャプチャする。
その結果,提案手法は大規模データベース上での最先端性能を実現し,二次情報を用いたベースライン手法よりも大きなマージンで優れていた。
ソースコードは \url{https://github.com/chenzRG/BEHRMecom} で入手できる。
The medical community believes binary medical event outcomes in EHR data contain sufficient information for making a sensible recommendation. However, there are two challenges to effectively utilizing such data: (1) modeling the relationship between massive 0,1 event outcomes is difficult, even with expert knowledge; (2) in practice, learning can be stalled by the binary values since the equally important 0 entries propagate no learning signals. Currently, there is a large gap between the assumed sufficient information and the reality that no promising results have been shown by utilizing solely the binary data: visiting or secondary information is often necessary to reach acceptable performance. In this paper, we attempt to build the first successful binary EHR data-oriented drug recommendation system by tackling the two difficulties, making sensible drug recommendations solely using the binary EHR medical records. To this end, we take a statistical perspective to view the EHR data as a sample from its cohorts and transform them into continuous Bernoulli probabilities. The transformed entries not only model a deterministic binary event with a distribution but also allow reflecting \emph{event-event} relationship by conditional probability. A graph neural network is learned on top of the transformation. It captures event-event correlations while emphasizing \emph{event-to-patient} features. Extensive results demonstrate that the proposed method achieves state-of-the-art performance on large-scale databases, outperforming baseline methods that use secondary information by a large margin. The source code is available at \url{https://github.com/chenzRG/BEHRMecom} | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# 自律走行車におけるセンサ誤認識に対するロバストな長距離知覚
Robust Long-Range Perception Against Sensor Misalignment in Autonomous Vehicles ( http://arxiv.org/abs/2408.11196v2 ) ライセンス: Link先を確認 | Zi-Xiang Xia, Sudeep Fadadu, Yi Shi, Louis Foucard, | (参考訳) センサフュージョンのための機械学習アルゴリズムの進歩により、他の道路利用者の検出と予測が大幅に改善され、安全性が向上した。
しかし、センサーの配置が小さくても、特に長距離での出力が著しく低下する可能性がある。
本稿では,センサの相違を検知するだけでなく,長距離知覚にも頑健な,シンプルで汎用的で効率的なマルチタスク学習手法を実証する。
また,不整合の量とともに,不整合の度合いを予測し,時間とともに不整合の予測値のフィルタリングや拡散に役立てることができる。
さらに,入力センサデータの自己補正には,予測誤認識パラメータが利用可能であり,センサ誤認識時の知覚性能がさらに向上することを示す。
Advances in machine learning algorithms for sensor fusion have significantly improved the detection and prediction of other road users, thereby enhancing safety. However, even a small angular displacement in the sensor's placement can cause significant degradation in output, especially at long range. In this paper, we demonstrate a simple yet generic and efficient multi-task learning approach that not only detects misalignment between different sensor modalities but is also robust against them for long-range perception. Along with the amount of misalignment, our method also predicts calibrated uncertainty, which can be useful for filtering and fusing predicted misalignment values over time. In addition, we show that the predicted misalignment parameters can be used for self-correcting input sensor data, further improving the perception performance under sensor misalignment. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# マルチエージェント強化学習に基づく高密度小形MISOシステムの分散非コヒーレント継手伝送
Distributed Noncoherent Joint Transmission Based on Multi-Agent Reinforcement Learning for Dense Small Cell MISO Systems ( http://arxiv.org/abs/2408.12067v2 ) ライセンス: Link先を確認 | Shaozhuang Bai, Zhenzhen Gao, Xuewen Liao, | (参考訳) 本研究では,マルチアンテナ小セル基地局(SBS)が共有周波数帯域上で単一アンテナユーザへデータを送信する高密度小型セルネットワークについて考察する。
キャパシティを高めるため、非コヒーレントジョイントトランスミッション(JT)と呼ばれる最先端技術を適用し、複数のSBSからデータを受信することができる。
しかし、非コヒーレント JT の和率最大化問題は本質的に非凸かつNPハードである。
既存の最適化ベースの非コヒーレントJTアルゴリズムは、ほぼ最適性能を提供することができるが、大域的なチャネル状態情報(CSI)と多重反復を必要とするため、DSCネットワークに実装が難しい。これらの課題を克服するためには、まず、最適ビームフォーミング構造が電力最小化問題と和率最大化問題の両方で同じであることを証明し、次いで、最適ビームフォーミング構造は、電力最小化問題を解くことにより、両方の問題に対して最適ビームフォーミング構造を数学的に導出する。
シミュレーションの結果,提案手法は,集中型反復最適化手法に比べて計算複雑性と情報オーバーヘッドが著しく低く,実用的展開がより魅力的であることを示す。
We consider a dense small cell (DSC) network where multi-antenna small cell base stations (SBSs) transmit data to single-antenna users over a shared frequency band. To enhance capacity, a state-of-the-art technique known as noncoherent joint transmission (JT) is applied, enabling users to receive data from multiple coordinated SBSs. However, the sum rate maximization problem with noncoherent JT is inherently nonconvex and NP-hard. While existing optimization-based noncoherent JT algorithms can provide near-optimal performance, they require global channel state information (CSI) and multiple iterations, which makes them difficult to be implemeted in DSC networks.To overcome these challenges, we first prove that the optimal beamforming structure is the same for both the power minimization problem and the sum rate maximization problem, and then mathematically derive the optimal beamforming structure for both problems by solving the power minimization problem.The optimal beamforming structure can effectively reduces the variable dimensions.By exploiting the optimal beamforming structure, we propose a deep deterministic policy gradient-based distributed noncoherent JT scheme to maximize the system sum rate.In the proposed scheme, each SBS utilizes global information for training and uses local CSI to determine beamforming vectors. Simulation results demonstrate that the proposed scheme achieves comparable performance with considerably lower computational complexity and information overhead compared to centralized iterative optimization-based techniques, making it more attractive for practical deployment. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# Show-o:マルチモーダル理解と生成を統一するシングルトランス
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v3 ) ライセンス: Link先を確認 | Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, | (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。
様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。
これは次世代のファウンデーションモデルとしての可能性を著しく強調している。
コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。
We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# 粗粒度アライメントによる音声画像検索の高速化
Coarse-to-fine Alignment Makes Better Speech-image Retrieval ( http://arxiv.org/abs/2408.13119v2 ) ライセンス: Link先を確認 | Lifeng Zhou, Yuke Li, | (参考訳) 本稿では,音声画像検索のための新しいフレームワークを提案する。
我々は,SIC学習タスクを用いて,音声と画像の表現を粗いレベルに整列させ,SIM学習タスクを微粒なクロスモーダルアライメントをさらに洗練させる。
SICとSIM学習タスクは統一的な方法で共同で訓練される。
学習過程を最適化するために,SIC学習中に高品質で多様な否定表現を効率的にサンプリングする埋め込みキューを利用する。
さらに、SICタスクで計算された対照的な類似性に基づいて、ハードネガティブを効果的にマイニングすることにより、SIMタスクの学習を強化する。
ノイズの多い指導下での学習をさらに最適化するために,運動量蒸留をトレーニングプロセスに取り入れる。
実験結果から,我々のフレームワークは,R@1における最先端手法を2つのベンチマークデータセット上で4%以上上回る性能を示した。
さらに、ゼロショット実験で見られるように、我々のフレームワークは優れた一般化能力を示す。
In this paper, we propose a novel framework for speech-image retrieval. We utilize speech-image contrastive (SIC) learning tasks to align speech and image representations at a coarse level and speech-image matching (SIM) learning tasks to further refine the fine-grained cross-modal alignment. SIC and SIM learning tasks are jointly trained in a unified manner. To optimize the learning process, we utilize an embedding queue that facilitates efficient sampling of high-quality and diverse negative representations during SIC learning. Additionally, it enhances the learning of SIM tasks by effectively mining hard negatives based on contrastive similarities calculated in SIC tasks. To further optimize learning under noisy supervision, we incorporate momentum distillation into the training process. Experimental results show that our framework outperforms the state-of-the-art method by more than 4% in R@1 on two benchmark datasets for the speech-image retrieval tasks. Moreover, as observed in zero-shot experiments, our framework demonstrates excellent generalization capabilities. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# MCTR:マルチカメラトラッキングトランス
MCTR: Multi Camera Tracking Transformer ( http://arxiv.org/abs/2408.13243v2 ) ライセンス: Link先を確認 | Alexandru Niculescu-Mizil, Deep Patel, Iain Melvin, | (参考訳) マルチカメラトラッキングは、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
エンドツーエンドの手法はシングルカメラトラッキングに大きな関心を集めているが、マルチカメラトラッキングはヒューリスティックな手法に大きく依存している。
このギャップに対応するために,マルチカメラ・トラッキング・tRansformer (MCTR) を提案する。
MCTRは、Detector TRansformer (DETR)のようなエンドツーエンドの検出器を利用して、カメラビューごとに独立して検出および検出埋め込みを生成する。
このフレームワークは、追跡されたオブジェクトに関するグローバル情報を付加する一連のトラック埋め込みを維持し、ビュー固有の検出埋め込みからローカル情報を統合することで、各フレームでそれらを更新する。
トラック埋め込みは、一貫したオブジェクトトラックを生成するために、すべてのカメラビューとフレームにおける検出と確率的に関連付けられている。
ソフト確率的アソシエーションは、システム全体のエンドツーエンドのトレーニングを可能にする差別化可能な損失の設計を促進する。
我々のアプローチを検証するために、MMPTrackとAI City Challengeという2つの大規模マルチカメラマルチオブジェクト追跡データセットを最近導入した実験を行った。
Multi-camera tracking plays a pivotal role in various real-world applications. While end-to-end methods have gained significant interest in single-camera tracking, multi-camera tracking remains predominantly reliant on heuristic techniques. In response to this gap, this paper introduces Multi-Camera Tracking tRansformer (MCTR), a novel end-to-end approach tailored for multi-object detection and tracking across multiple cameras with overlapping fields of view. MCTR leverages end-to-end detectors like DEtector TRansformer (DETR) to produce detections and detection embeddings independently for each camera view. The framework maintains set of track embeddings that encaplusate global information about the tracked objects, and updates them at every frame by integrating the local information from the view-specific detection embeddings. The track embeddings are probabilistically associated with detections in every camera view and frame to generate consistent object tracks. The soft probabilistic association facilitates the design of differentiable losses that enable end-to-end training of the entire system. To validate our approach, we conduct experiments on MMPTrack and AI City Challenge, two recently introduced large-scale multi-camera multi-object tracking datasets. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# MME-RealWorld:あなたのマルチモーダルLLMは、人間にとって難しい高解像度リアルワールドシナリオに挑戦できるか?
MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans? ( http://arxiv.org/abs/2408.13257v2 ) ライセンス: Link先を確認 | Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan, | (参考訳) MLLM(Multimodal Large Language Models)の総合評価は,最近,研究コミュニティで広く注目を集めている。
しかし、既存のベンチマークにはいくつかの共通の障壁があり、これはモデルが現実世界で直面する重要な課題を測るのを困難にしている。
1)小さなデータスケールは、大きなパフォーマンスのばらつきにつながる。
2) モデルベースのアノテーションに依存すると、データ品質が制限される。
3) 課題難易度は, 特に画像解像度の制限により低下した。
これらの課題に対処するために,MME-RealWorldを紹介する。
具体的には、公開データセットとインターネットから300ドル以上の画像を収集し、アノテーションのために13,366ドルの高品質な画像をフィルタリングします。
これには、プロの25ドルのアノテータと7ドルのMLLMの専門家の努力が含まれており、現実世界のシナリオで43ドルのサブタスクをカバーする質問応答ペアとして29,429ドルを支払っている。
われわれが知る限り、MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションにフォーカスしている。
さらに, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetなどの著名なMLLMを28ドルで評価した。
その結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
高解像度画像を認識し、複雑な現実世界のシナリオを理解するという課題は、解決すべき緊急の問題のままである。
データと評価コードはhttps://mme-realworld.github.io/で公開されている。
Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ . | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# クロスモーダルなDenoising:音声画像検索のための新しい訓練パラダイム
Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval ( http://arxiv.org/abs/2408.13705v2 ) ライセンス: Link先を確認 | Lifeng Zhou, Yuke Li, Rui Deng, Yuting Yang, Haoqi Zhu, | (参考訳) 音声画像検索の成功は、音声と画像の効果的なアライメントを確立することに依存する。
既存の手法はしばしば、各モダリティのグローバルな特徴の単純なコサイン類似性を通じてモダリティ間の相互作用をモデル化するが、モダリティ内の細かな詳細を捉えるには不十分である。
この問題に対処するために,クロスモーダル・デノナイジング(CMD)という,より詳細なクロスモーダルアライメントを実現するための効果的なフレームワークと,新たな学習タスクを導入する。
具体的には、CMDは、あるモダリティ内のノイズの多い特徴から、別のモダリティから特徴を相互作用させることによって、意味的特徴を再構成するように設計された認知タスクである。
特に、CMDはモデルトレーニング中にのみ動作し、追加の推論時間を追加することなく推論中に削除できる。
実験の結果,Flickr8kでは平均R@1で,音声画像検索では平均R@1で平均R@1で2.0%,音声画像検索では平均R@1で平均R@1で0。
これらの実験結果は,本フレームワークの有効性と有効性について検証した。
The success of speech-image retrieval relies on establishing an effective alignment between speech and image. Existing methods often model cross-modal interaction through simple cosine similarity of the global feature of each modality, which fall short in capturing fine-grained details within modalities. To address this issue, we introduce an effective framework and a novel learning task named cross-modal denoising (CMD) to enhance cross-modal interaction to achieve finer-level cross-modal alignment. Specifically, CMD is a denoising task designed to reconstruct semantic features from noisy features within one modality by interacting features from another modality. Notably, CMD operates exclusively during model training and can be removed during inference without adding extra inference time. The experimental results demonstrate that our framework outperforms the state-of-the-art method by 2.0% in mean R@1 on the Flickr8k dataset and by 1.7% in mean R@1 on the SpokenCOCO dataset for the speech-image retrieval tasks, respectively. These experimental results validate the efficiency and effectiveness of our framework. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# 物理的に可能なセマンティックセマンティックセグメンテーション
Physically Feasible Semantic Segmentation ( http://arxiv.org/abs/2408.14672v2 ) ライセンス: Link先を確認 | Shamik Basu, Luc Van Gool, Christos Sakaridis, | (参考訳) 最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。
例えば、最先端のモデルでは、'road'というラベルを、それぞれ‘sky'とラベル付けされたセグメントの上に位置するセグメントに割り当てることができます。
提案手法であるPhyFeaは,意味セグメンテーションデータセットのトレーニングセットから空間クラス関係を規定する明示的な物理的制約を抽出し,これらの制約の違反をペナルティ化し,予測可能性を促進する。
PhyFeaは、ADE20K、Cityscapes、ACDCでベースラインとして使用している各最先端ネットワークに対してmIoUを大幅に改善します。
State-of-the-art semantic segmentation models are typically optimized in a data-driven fashion, minimizing solely per-pixel classification objectives on their training data. This purely data-driven paradigm often leads to absurd segmentations, especially when the domain of input images is shifted from the one encountered during training. For instance, state-of-the-art models may assign the label ``road'' to a segment which is located above a segment that is respectively labeled as ``sky'', although our knowledge of the physical world dictates that such a configuration is not feasible for images captured by forward-facing upright cameras. Our method, Physically Feasible Semantic Segmentation (PhyFea), extracts explicit physical constraints that govern spatial class relations from the training sets of semantic segmentation datasets and enforces a differentiable loss function that penalizes violations of these constraints to promote prediction feasibility. PhyFea yields significant performance improvements in mIoU over each state-of-the-art network we use as baseline across ADE20K, Cityscapes and ACDC, notably a $1.5\%$ improvement on ADE20K and a $2.1\%$ improvement on ACDC. | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# 遷移状態共鳴は62-101 meVエネルギー範囲におけるF + H2 -> F H(vf = 3) + H 反応の角分布をラジカル的に再現する
A transition state resonance radically reshapes angular distributions of the F + H2 -> F H(vf = 3) + H reaction in the 62-101 meV energy range ( http://arxiv.org/abs/2408.16134v3 ) ライセンス: Link先を確認 | Dmitri Sokolovski, Dario De Fazio, Elena Akhmatskaya, | (参考訳) ベンチマーク F + H2(vi = 0) -> F H(vf = 3) + H 反応の反応角分布は、小さな散乱角に対して異常な確率を示す。
状態-状態差分断断面に対する共振寄与の定量化にはReggeトラジェクトリを用いる。
複素エネルギー極への変換により、F+H2系やその同位体変種であるF+HDに存在することが知られている遷移状態共鳴にはほとんど影響しない。
角散乱の詳細な解析には,最近開発されたパッケージDCS Regge(Comp. Phys. Comm., 2022, 277, 108370)を用いる。
Reactive angular distributions of the benchmark F + H2(vi = 0) -> F H(vf = 3) + H reaction show unusual propensity towards small scattering angles, a subject of a long debate in the literature. We use Regge trajectories to quantify the resonance contributions to state-to-state differential cross sections. Conversion to complex energy poles allows us to attribute the effect almost exclusively to a transition state resonance, long known to exist in the F +H2 system and its isotopic variant F +HD. For our detailed analysis of angular scattering we employ the package DCS Regge, recently developed for the purpose [Comp. Phys. Comm., 2022, 277, 108370.] | 翻訳日:2024-09-12 20:12:08 公開日:2024-09-11 |
# 超伝導量子ビットにおける共振器誘起相によるLong-Range$ZZ$相互作用
Long-Range $ZZ$ Interaction via Resonator-Induced Phase in Superconducting Qubits ( http://arxiv.org/abs/2408.16617v2 ) ライセンス: Link先を確認 | Xiang Deng, Wen Zheng, Xudong Liao, Haoyu Zhou, Yangyang Ge, Jie Zhao, Dong Lan, Xinsheng Tan, Yu Zhang, Shaoxiong Li, Yang Yu, | (参考訳) 超伝導量子コンピューティングは、量子優位性を達成するための主要な候補の1つとして出現する。
しかし、一般的な課題は、超伝導量子ビット間の最も近い隣り合うカップリングによって制約される、量子接続の制限によるコーディングオーバーヘッドである。
本稿では、共振器誘起位相ゲートに基づく2つのマイクロ波で駆動される3つの共振器を用いた新しい多モード結合方式を提案し、量子ビット間の相互作用距離を$Z$に拡張する。
我々は、1.4GHzの自由スペクトル範囲(FSR)において、CZゲートの忠実度が160ns以内の99.9\%を超えることを示すとともに、駆動パルスの最適化により、0.2GHzのFSRにおいて、残留光子を100ns以内の10^{-3}$に削減する。
これにより、サブメーターに達する分離を超越した長距離CZゲートが実現され、量子ビット接続が大幅に向上し、量子プロセッサのスケーラブルな統合とモジュール化に向けた実用的なステップが実現される。
具体的には、フォールトトレラントな量子コンピューティングを実現するための、低密度パリティチェックコードなど、高接続性を必要とする量子エラー訂正符号の実装を支援する。
Superconducting quantum computing emerges as one of leading candidates for achieving quantum advantage. However, a prevailing challenge is the coding overhead due to limited quantum connectivity, constrained by nearest-neighbor coupling among superconducting qubits. Here, we propose a novel multimode coupling scheme using three resonators driven by two microwaves, based on the resonator-induced phase gate, to extend the $ZZ$ interaction distance between qubits. We demonstrate a CZ gate fidelity exceeding 99.9\% within 160 ns at free spectral range (FSR) of 1.4 GHz, and by optimizing driving pulses, we further reduce the residual photon to nearly $10^{-3}$ within 100 ns at FSR of 0.2 GHz. These facilitate the long-range CZ gate over separations reaching sub-meters, thus significantly enhancing qubit connectivity and making a practical step towards the scalable integration and modularization of quantum processors. Specifically, our approach supports the implementation of quantum error correction codes requiring high connectivity, such as low-density parity check codes that paves the way to achieving fault-tolerant quantum computing. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 大規模言語モデルのフレキシブルかつ効果的な混合をドメインエキスパートの混合に
Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts ( http://arxiv.org/abs/2408.17280v2 ) ライセンス: Link先を確認 | Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, | (参考訳) 訓練されたモデルから低コストのMixture-of-Domain-Experts(MOE)を作成するためのツールキットを提案する。
ツールキットは、モデルまたはアダプタから混合物を作成するために使用することができる。
我々は広範囲なテストを行い、ツールキットを用いて結果のMOEのアーキテクチャを定義するためのガイダンスを提供する。
パブリックリポジトリが利用可能である。
We present a toolkit for creating low-cost Mixture-of-Domain-Experts (MOE) from trained models. The toolkit can be used for creating a mixture from models or from adapters. We perform extensive tests and offer guidance on defining the architecture of the resulting MOE using the toolkit. A public repository is available. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# LLMによる文学文章の理解--古漢詩を事例として
Understanding Literary Texts by LLMs: A Case Study of Ancient Chinese Poetry ( http://arxiv.org/abs/2409.00060v2 ) ライセンス: Link先を確認 | Cheng Zhao, Bin Wang, Zhen Wang, | (参考訳) 大規模言語モデル(LLMs)の誕生と急速な発展は、文学の分野で大きな騒ぎを引き起こしている。
文芸創造におけるAIの役割は、かつては達成不可能と考えられていたが、次第に現実化しつつある。
詩、ジョーク、短編小説などのジャンルにおいて、多くのAIツールが登場し、新たな視点を提供する。
しかし、これらの作品の質をさらに改善することは困難である。
これは主に、優れた文学作品の理解と評価には、文学理論の知識、審美的感受性、学際的知識など、かなりのしきい値が伴うためである。
そのため、この地域の権威的なデータは欠落している。
さらに、文学作品を評価することはしばしば複雑で、完全に定量化することは困難であり、AI創造のさらなる発展を妨げている。
この問題に対処するために,古漢詩を実験の例として用い,LLMの観点から文学テキストの謎を探究する。
まず、異なる資料からさまざまな古詩を採集し、その一部に専門家が注釈を付けた。
そこで我々は,これらすべての詩を評価するために,LLMに基づく様々な理解尺度を設計した。
最後に,様々な詩集の相互関係と相違点を分析し,文体パターンを同定した。
実験を通じて,LLMをベースとしたハイレベルな文学創作の技術的発展を支援する一連の啓蒙現象を観察した。
The birth and rapid development of large language models (LLMs) have caused quite a stir in the field of literature. Once considered unattainable, AI's role in literary creation is increasingly becoming a reality. In genres such as poetry, jokes, and short stories, numerous AI tools have emerged, offering refreshing new perspectives. However, it's difficult to further improve the quality of these works. This is primarily because understanding and appreciating a good literary work involves a considerable threshold, such as knowledge of literary theory, aesthetic sensibility, interdisciplinary knowledge. Therefore, authoritative data in this area is quite lacking. Additionally, evaluating literary works is often complex and hard to fully quantify, which directly hinders the further development of AI creation. To address this issue, this paper attempts to explore the mysteries of literary texts from the perspective of LLMs, using ancient Chinese poetry as an example for experimentation. First, we collected a variety of ancient poems from different sources and had experts annotate a small portion of them. Then, we designed a range of comprehension metrics based on LLMs to evaluate all these poems. Finally, we analyzed the correlations and differences between various poem collections to identify literary patterns. Through our experiments, we observed a series of enlightening phenomena that provide technical support for the future development of high-level literary creation based on LLMs. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# Latent-EnSF:スパース観測データと高次元データ同化のための潜時アンサンブルスコアフィルタ
Latent-EnSF: A Latent Ensemble Score Filter for High-Dimensional Data Assimilation with Sparse Observation Data ( http://arxiv.org/abs/2409.00127v3 ) ライセンス: Link先を確認 | Phillip Si, Peng Chen, | (参考訳) 複雑な物理系の正確なモデリングと予測は、しばしばモデルシミュレーションに固有の誤りを修正するためにデータ同化技術に依存する。
Ensemble Kalman Filter (EnKF) のような従来の手法や、最近開発されたEnsemble Score Filters (EnSF) のような手法は、高次元および非線形ベイズフィルタ問題とスパース・オブザーバで扱う場合、現実のアプリケーションでユビキタスである。
本稿では,EnSFを有効かつ一貫した全状態の潜在表現とスパース観測で活用し,非線形ベイズフィルタの観測における高次元と高空間の連成課題に対処する新しいデータ同化手法であるLatent-EnSFを提案する。
本研究では,2つのエンコーダを結合した変分オートエンコーダ(VAE)を導入し,定常分布マッチングと正規化,および一貫した状態再構成によって保証される一貫した方法で全状態を符号化し,観察を疎結合にする。
いくつかの手法と比較して,浅海波伝搬と中距離気象予報の複雑なモデルを用いた2つの挑戦的応用に対して,Latent-EnSFの高精度,高速収束,高効率性を実証した。
Accurate modeling and prediction of complex physical systems often rely on data assimilation techniques to correct errors inherent in model simulations. Traditional methods like the Ensemble Kalman Filter (EnKF) and its variants as well as the recently developed Ensemble Score Filters (EnSF) face significant challenges when dealing with high-dimensional and nonlinear Bayesian filtering problems with sparse observations, which are ubiquitous in real-world applications. In this paper, we propose a novel data assimilation method, Latent-EnSF, which leverages EnSF with efficient and consistent latent representations of the full states and sparse observations to address the joint challenges of high dimensionlity in states and high sparsity in observations for nonlinear Bayesian filtering. We introduce a coupled Variational Autoencoder (VAE) with two encoders to encode the full states and sparse observations in a consistent way guaranteed by a latent distribution matching and regularization as well as a consistent state reconstruction. With comparison to several methods, we demonstrate the higher accuracy, faster convergence, and higher efficiency of Latent-EnSF for two challenging applications with complex models in shallow water wave propagation and medium-range weather forecasting, for highly sparse observations in both space and time. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 逆時間不変学習を用いた意味誘導型マルチモーダル知覚復号法
Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning ( http://arxiv.org/abs/2409.00143v2 ) ライセンス: Link先を確認 | Guoyang Xu, Junqi Xue, Yuxin Liu, Zirui Wang, Min Zhang, Zhenxi Song, Zhiguo Zhang, | (参考訳) マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
しかし、既存の研究はしばしば連続時系列に固有のフレームレベルの冗長性を無視し、ノイズを伴う不完全なモジュラリティ表現をもたらす。
この問題に対処するために,時間的変化の時間的変化を制約し,長期的時間的ダイナミクスを効果的に捉え,表現の質とモデルの堅牢性を向上する時間的不変学習を提案する。
テキスト知識におけるリッチな意味情報を完全に活用するために,意味誘導型融合モジュールを提案する。
異なるモジュラリティ間の相関性を評価することにより、このモジュールはモジュラリティ不変表現によって表される相互モーダル相互作用を促進する。
さらに、モジュラリティ不変部分空間とモダリティ固有部分空間をアンタングル化するモダリティ判別器を導入する。
2つの公開データセットの実験結果は、我々のモデルの優位性を示している。
私たちのコードはhttps://github.com/X-G-Y/SATI.comで公開されています。
Multimodal sentiment analysis aims to learn representations from different modalities to identify human emotions. However, existing works often neglect the frame-level redundancy inherent in continuous time series, resulting in incomplete modality representations with noise. To address this issue, we propose temporal-invariant learning for the first time, which constrains the distributional variations over time steps to effectively capture long-term temporal dynamics, thus enhancing the quality of the representations and the robustness of the model. To fully exploit the rich semantic information in textual knowledge, we propose a semantic-guided fusion module. By evaluating the correlations between different modalities, this module facilitates cross-modal interactions gated by modality-invariant representations. Furthermore, we introduce a modality discriminator to disentangle modality-invariant and modality-specific subspaces. Experimental results on two public datasets demonstrate the superiority of our model. Our code is available at https://github.com/X-G-Y/SATI. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 複数話者音声認識のための重複符号化分離によるシリアライズされた音声情報誘導
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition ( http://arxiv.org/abs/2409.00815v3 ) ライセンス: Link先を確認 | Hao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara, | (参考訳) SOT(Serialized output training)は、マルチ話者自動音声認識(ASR)の利便性と柔軟性から注目されている。
しかし、注意をそらすだけの訓練は容易ではない。
本稿では、コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために、重複符号化分離(EncSep)を提案する。
この追加セパレータはエンコーダの後に挿入され、CTC損失を伴うマルチスピーカ情報を抽出する。
さらに、分離された符号化をさらに活用するために、シリアライズされた音声情報誘導SOT(GEncSep)を提案する。
分離されたストリームは、デコード時に注意を誘導する単一話者情報を提供するために連結される。
LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。
CTC損失は複雑なシナリオ下でのエンコーダ表現の改善に役立つ。
GEncSepはさらにパフォーマンスを改善した。
Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for multi-speaker automatic speech recognition (ASR). However, it is not easy to train with attention loss only. In this paper, we propose the overlapped encoding separation (EncSep) to fully utilize the benefits of the connectionist temporal classification (CTC) and attention hybrid loss. This additional separator is inserted after the encoder to extract the multi-speaker information with CTC losses. Furthermore, we propose the serialized speech information guidance SOT (GEncSep) to further utilize the separated encodings. The separated streams are concatenated to provide single-speaker information to guide attention during decoding. The experimental results on LibriMix show that the single-speaker encoding can be separated from the overlapped encoding. The CTC loss helps to improve the encoder representation under complex scenarios. GEncSep further improved performance. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# CLIBE: トランスフォーマーベースNLPモデルにおける動的バックドアの検出
CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models ( http://arxiv.org/abs/2409.01193v2 ) ライセンス: Link先を確認 | Rui Zeng, Xi Chen, Yuwen Pu, Xuhong Zhang, Tianyu Du, Shouling Ji, | (参考訳) バックドアはNLPモデルに注入され、入力テキストにトリガーと呼ばれる特定の機能が含まれており、攻撃者が秘密に選択した場合に誤動作を誘発する。
静的テキストトリガで使用される固定語、フレーズ、文とは異なり、NLP動的バックドアは抽象的および潜在的なテキスト機能に関連する設計トリガーを攻撃し、従来の静的バックドア攻撃よりもかなりステルス性が高い。
しかし、NLPバックドア検出に関する既存の研究は、主に静的バックドア攻撃に対する防御に焦点を当てているが、NLPモデルにおける動的バックドアの検出は明らかにされていない。
本稿では, Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE を提案する。
CLIBEは、ターゲットラベルとして限られた数の参照サンプルを分類するように、注目層に最適化された重量摂動を組み込むことで、疑似トランスフォーマーモデルに「ファウショット摂動」を注入する。
その後、CLIBEは、この数発の摂動の一般化能力を利用して、元のモデルが動的バックドアを含むかどうかを判断する。
3つの高度なNLP動的バックドア攻撃,2つの広く使用されているトランスフォーマーフレームワーク,および4つの実世界の分類タスクに対する広範囲な評価は,CLIBEの有効性を強く検証する。
また,様々なアダプティブアタックに対するCLIBEの堅牢性を示す。
さらに、CLIBEを用いて、Hugging Face上で49の人気のTransformerモデルを精査し、動的バックドアを含む確率の高いモデルを見つける。
我々はHugging Faceにコンタクトを取り、このモデルのバックドア動作の詳細な証拠を提供した。
さらに、CLIBEを拡張し、有害な振る舞いを示すように修正されたバックドアテキスト生成モデルを検出する。
私たちの知る限り、CLIBEは、入力テストサンプルをトリガーすることなく、テキスト生成モデルのバックドアを検出することができる最初のフレームワークです。
Backdoors can be injected into NLP models to induce misbehavior when the input text contains a specific feature, known as a trigger, which the attacker secretly selects. Unlike fixed words, phrases, or sentences used in the static text trigger, NLP dynamic backdoor attacks design triggers associated with abstract and latent text features, making them considerably stealthier than traditional static backdoor attacks. However, existing research on NLP backdoor detection primarily focuses on defending against static backdoor attacks, while detecting dynamic backdoors in NLP models remains largely unexplored. This paper presents CLIBE, the first framework to detect dynamic backdoors in Transformer-based NLP models. CLIBE injects a "few-shot perturbation" into the suspect Transformer model by crafting optimized weight perturbation in the attention layers to make the perturbed model classify a limited number of reference samples as a target label. Subsequently, CLIBE leverages the generalization ability of this few-shot perturbation to determine whether the original model contains a dynamic backdoor. Extensive evaluation on three advanced NLP dynamic backdoor attacks, two widely-used Transformer frameworks, and four real-world classification tasks strongly validates the effectiveness of CLIBE. We also demonstrate the robustness of CLIBE against various adaptive attacks. Furthermore, we employ CLIBE to scrutinize 49 popular Transformer models on Hugging Face and discover one exhibiting a high probability of containing a dynamic backdoor. We have contacted Hugging Face and provided detailed evidence of this model's backdoor behavior. Moreover, we extend CLIBE to detect backdoor text generation models modified to exhibit toxic behavior. To the best of our knowledge, CLIBE is the first framework capable of detecting backdoors in text generation models without access to trigger input test samples. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 弱値の時間微分
Time Derivatives of Weak Values ( http://arxiv.org/abs/2409.01460v2 ) ライセンス: Link先を確認 | Xavier Oriols, | (参考訳) 物理的性質の時間微分は、しばしば別の意味のある性質をもたらす。
弱い値は期待値から導出できない経験的洞察を与えるため、弱い値の時間微分から得られる物理的性質について考察する。
これは一般にゲージ不変の弱値の時間微分が弱値でもゲージ不変量でもないことを示す。
弱値の左あるいは右時間微分もゲージ不変の弱値であることを保証するために、2つの条件が提示される。
これらの条件下では、局所的なエレンフェストのような定理は弱値に対して導出することができ、弱値の時間微分の自然な解釈を与える。
特に、システムの位置の1つの測定された弱い値は、初期弱い値の1階と2階の時間微分を通して、システムの局所速度と加速度という2つの測定されていない弱い値に関する情報を提供する。
これらの発見はまた、弱い値理論を実用的な実験室に翻訳するガイドラインを提供し、革新的な量子技術への道を開いた。
例えば、電磁場が位置の弱い1階と2階の時間微分から特定の位置と時間でどのように決定されるかを示す。
The time derivative of a physical property often gives rise to another meaningful property. Since weak values provide empirical insights that cannot be derived from expectation values, this paper explores what physical properties can be obtained from the time derivative of weak values. It demonstrates that, in general, the time derivative of a gauge-invariant weak value is neither a weak value nor a gauge-invariant quantity. Two conditions are presented to ensure that the left- or right-time derivative of a weak value is also a gauge-invariant weak value. Under these conditions, a local Ehrenfest-like theorem can be derived for weak values giving a natural interpretation for the time derivative of weak values. Notably, a single measured weak value of the system's position provides information about two additional unmeasured weak values: the system's local velocity and acceleration, through the first- and second-order time derivatives of the initial weak value, respectively. These findings also offer guidelines for experimentalists to translate the weak value theory into practical laboratory setups, paving the way for innovative quantum technologies. An example illustrates how the electromagnetic field can be determined at specific positions and times from the first- and second-order time derivatives of a weak value of position. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# キンク励起の絡み目含量
Entanglement content of kink excitations ( http://arxiv.org/abs/2409.03048v2 ) ライセンス: Link先を確認 | Luca Capizzi, Michele Mazzoni, | (参考訳) 秩序相における量子一次元系は、シンクを対称性を破った真空の上の基本励起として認める。
キンクの散乱特性は準粒子の散乱と似ているが、その絡み合いに現れる異なる局所性特性を持つ。
本研究では, キンク励起の絡み合いエントロピーについて検討する。
まず、スピン-1/2鎖の特定の状態に関する詳細な計算を行い、これらの励起の健全な特徴を明らかにする。
第二に、ツイスト場と励起に付随する半局所場の間の代数的関係に基づく場理論の枠組みを提供し、この枠組みでR'enyiエントロピーを計算する。
有限個のキンクを持つ励起状態と対称性を破った基底状態とのエントロピー差の普遍的な予測は、大面積領域の極限におけるモデルの顕微鏡的詳細に依存しない。
最後に,Isingモデルの秩序相と乱相を関連づけたKramers-Wannier双対性の結果について論じる。
Quantum one-dimensional systems in their ordered phase admit kinks as elementary excitations above their symmetry-broken vacua. While the scattering properties of the kinks resemble those of quasiparticles, they have distinct locality features that are manifest in their entanglement content. In this work, we study the entanglement entropy of kink excitations. We first present detailed calculations for specific states of a spin-1/2 chain to highlight the salient features of these excitations. Second, we provide a field-theoretic framework based on the algebraic relations between the twist fields and the semilocal fields associated with the excitations, and we compute the R\'enyi entropies in this framework. We obtain universal predictions for the entropy difference between the excited states with a finite number of kinks and the symmetry-broken ground states, which do not depend on the microscopic details of the model in the limit of large regions. Finally, we discuss some consequences of the Kramers-Wannier duality, which relates the ordered and disordered phases of the Ising model, and we explain why, counterintuitively, no explicit relations between those phases are found at the level of entanglement. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# ZKFault:ゼロ知識に基づくポスト量子デジタル署名スキームの故障攻撃解析
ZKFault: Fault attack analysis on zero-knowledge based post-quantum digital signature schemes ( http://arxiv.org/abs/2409.07150v1 ) ライセンス: Link先を確認 | Puja Mondal, Supriya Adhikary, Suparna Kundu, Angshuman Karmakar, | (参考訳) シンドローム復号問題のような符号化理論に基づく計算困難問題は、長い間、セキュアな暗号スキームの構築に用いられてきた。
これらの問題に基づくスキームは、量子コンピュータに対して安全であると考えられている。
しかしながら、これらのスキームは、大きなキーサイズと非効率な計算時間のために、現実のデプロイメントでは非現実的とみなされることが多い。
最近、国立標準技術研究所による量子後デジタル署名の標準化を求める声が上がっており、LESS、CROSS、MEDSなどいくつかのコードベースの候補が提案されている。
これらのスキームは、比較的新しいゼロ知識フレームワークに基づいて設計されている。
これらのスキームの難易度を分析する研究はいくつかあるが、物理的攻撃の有無でこれらのスキームの安全性を調べる研究はほとんどない。
本研究では,これらのシグネチャスキームを,障害攻撃の観点から分析する。
これらすべてのスキームは、シグネチャサイズを圧縮するために、同様のツリーベースの構造を使用する。
これらのスキームのこのコンポーネントを攻撃します。
したがって、この攻撃はこれらすべてのスキームに適用できる。
本研究では、まずLESSシグネチャスキーマを分析し、攻撃を考案する。
さらに,この攻撃がCROSSシグネチャスキームにどのように拡張できるかを示した。
私たちの攻撃は、非常に単純なフォールト仮定に基づいて構築されています。
この結果から,LESS と CROSS の秘密鍵全体の復元は,単一障害のみを用いて可能であることがわかった。
最後に,このような攻撃を防止するための様々な対策を提案し,その効率性や欠点について議論する。
Computationally hard problems based on coding theory, such as the syndrome decoding problem, have been used for constructing secure cryptographic schemes for a long time. Schemes based on these problems are also assumed to be secure against quantum computers. However, these schemes are often considered impractical for real-world deployment due to large key sizes and inefficient computation time. In the recent call for standardization of additional post-quantum digital signatures by the National Institute of Standards and Technology, several code-based candidates have been proposed, including LESS, CROSS, and MEDS. These schemes are designed on the relatively new zero-knowledge framework. Although several works analyze the hardness of these schemes, there is hardly any work that examines the security of these schemes in the presence of physical attacks. In this work, we analyze these signature schemes from the perspective of fault attacks. All these schemes use a similar tree-based construction to compress the signature size. We attack this component of these schemes. Therefore, our attack is applicable to all of these schemes. In this work, we first analyze the LESS signature scheme and devise our attack. Furthermore, we showed how this attack can be extended to the CROSS signature scheme. Our attacks are built on very simple fault assumptions. Our results show that we can recover the entire secret key of LESS and CROSS using as little as a single fault. Finally, we propose various countermeasures to prevent these kinds of attacks and discuss their efficiency and shortcomings. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# H$_2$O$_2$RAM:高性能階層型2倍のRAM
H$_2$O$_2$RAM: A High-Performance Hierarchical Doubly Oblivious RAM ( http://arxiv.org/abs/2409.07167v1 ) ライセンス: Link先を確認 | Leqian Zheng, Zheng Zhang, Wentao Dong, Yao Zhang, Ye Wu, Cong Wang, | (参考訳) Oblivious RAM (ORAM) とTrusted Execution Environments (TEE) の組み合わせは、その相補的な性質から多くの現実世界の応用を見出した。
TEEは、ネットワーク帯域幅やラウンドトリップレイテンシなどのORAMのパフォーマンスボトルネックを緩和し、ORAMは、メモリアクセスパターンを悪用する攻撃に対して、TEEアプリケーションに対する汎用的な保護を提供する。
この組み合わせの定義特性は、従来のORAM設計と異なり、TEEの内部と外部の両方のメモリアクセスが曖昧にされ、O$2$RAM(英語版)と呼ばれることを保証する能力である。
性能を向上したO$_2$RAMの開発が進行中である。
本稿では,H$_2$O$_2$RAMを提案する。
我々のアプローチの特徴は、既存のツリーベースの2つの曖昧な設計と比較して、本質的により良いデータのローカリティと並列化を享受する階層型フレームワークを初めて採用したことです。
最新の階層型ソリューションであるFutORAMaは、サブリニアサイズのクライアントサイドプライベートメモリの緩やかな仮定を利用して、古典的なクライアントサーバモデルの具体的な効率を実現しています。
そこで我々は,高性能な階層型O$_2$RAM(H$_2$O$_2$RAM)を構築するために,新しい効率の悪いコンポーネントをいくつか導入する。
設計を実装し,様々なシナリオで評価する。
その結果、H$_2$O$_2$RAMは実行時間を最大$\sim 10^3$倍に削減し、最先端のソリューションと比較してメモリ使用量を5\sim44$倍に削減した。
The combination of Oblivious RAM (ORAM) with Trusted Execution Environments (TEE) has found numerous real-world applications due to their complementary nature. TEEs alleviate the performance bottlenecks of ORAM, such as network bandwidth and roundtrip latency, and ORAM provides general-purpose protection for TEE applications against attacks exploiting memory access patterns. The defining property of this combination, which sets it apart from traditional ORAM designs, is its ability to ensure that memory accesses, both inside and outside of TEEs, are made oblivious, thus termed doubly oblivious RAM (O$_2$RAM). Efforts to develop O$_2$RAM with enhanced performance are ongoing. In this work, we propose H$_2$O$_2$RAM, a high-performance doubly oblivious RAM construction. The distinguishing feature of our approach, compared to the existing tree-based doubly oblivious designs, is its first adoption of the hierarchical framework that enjoys inherently better data locality and parallelization. While the latest hierarchical solution, FutORAMa, achieves concrete efficiency in the classic client-server model by leveraging a relaxed assumption of sublinear-sized client-side private memory, adapting it to our scenario poses challenges due to the conflict between this relaxed assumption and our doubly oblivious requirement. To this end, we introduce several new efficient oblivious components to build a high-performance hierarchical O$_2$RAM (H$_2$O$_2$RAM). We implement our design and evaluate it on various scenarios. The results indicate that H$_2$O$_2$RAM reduces execution time by up to $\sim 10^3$ times and saves memory usage by $5\sim44$ times compared to state-of-the-art solutions. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 安全環境のための動的ベイズネットワーク, 省エネ・データ埋め込み
Dynamic Bayesian Networks, Elicitation and Data Embedding for Secure Environments ( http://arxiv.org/abs/2409.07389v1 ) ライセンス: Link先を確認 | Kieran Drury, Jim Q. Smith, | (参考訳) 重大犯罪モデリングは通常、警察の知識と能力が開示されないファイアウォールの裏で安全に行う必要がある。
進行中のインシデントを知らせるデータは少ないことが多く、インシデントが終わったり警察が介入した後にのみ、関連データが明るみに出る。
リアルタイム意思決定をサポートするために警察が利用できるデータの多くは、非常に機密性の高いため、学者と共有できないため、それらに欠けている。
本稿では,学術チームが設計したモデルを警察隊が使用するモデルに安全に翻訳するための枠組みとして,グラフィカルモデルを用いた形式的プロトコルの開発について述べる。
そして、このような安全な環境で見られるデータ不足とタフネスの課題を回避するために、これらのモデルのライブラリをどのように構築し、リアルタイムな意思決定支援に利用できるかを初めて示します。
このプロトコルによって記述された並列開発により、警察によって収集された機密情報が、学者に欠落し、ファイアウォールの後ろで確保されることが保証される。
にもかかわらず、このプロトコルは警察を導くことで、オープンソースである典型的に不完全なデータストリームと、より機密性の高い情報を、形式的で正当化可能な方法で組み合わせられるようにする。
本プロトコルの適用について,新たな侵入 - 自動車攻撃の疑い - を,そのような犯罪計画の警察図書館に埋め込む方法について説明する。
Serious crime modelling typically needs to be undertaken securely behind a firewall where police knowledge and capabilities can remain undisclosed. Data informing an ongoing incident is often sparse, with a large proportion of relevant data only coming to light after the incident culminates or after police intervene - by which point it is too late to make use of the data to aid real-time decision making for the incident in question. Much of the data that is available to police to support real-time decision making is highly confidential so cannot be shared with academics, and is therefore missing to them. In this paper, we describe the development of a formal protocol where a graphical model is used as a framework for securely translating a model designed by an academic team to a model for use by a police team. We then show, for the first time, how libraries of these models can be built and used for real-time decision support to circumvent the challenges of data missingness and tardiness seen in such a secure environment. The parallel development described by this protocol ensures that any sensitive information collected by police, and missing to academics, remains secured behind a firewall. The protocol nevertheless guides police so that they are able to combine the typically incomplete data streams that are open source with their more sensitive information in a formal and justifiable way. We illustrate the application of this protocol by describing how a new entry - a suspected vehicle attack - can be embedded into such a police library of criminal plots. | 翻訳日:2024-09-12 20:02:24 公開日:2024-09-11 |
# 浮き彫り加工による巨大南部・ゴールドストーンモード
Floquet-engineered Emergent Massive Nambu-Goldstone Modes ( http://arxiv.org/abs/2409.01902v3 ) ライセンス: Link先を確認 | Yang Hou, Zhanpeng Fu, Roderich Moessner, Marin Bukov, Hongzheng Zhao, | (参考訳) 本稿では,多体駆動システムにおいて,大質量なナムブ・ゴールドストーン準粒子を実装するための一般的な枠組みを提案する。
基礎となるメカニズムは、ゆっくりとした自由度のダイナミクスを支配できる有効ハミルトニアンにインプリントされた明示的なリー群構造を利用する。
我々は、ギャップ付きスピン波励起をサポートするハイゼンベルク型スピンモデルのような明示的で実験的に実装可能な実現について論じる。
本研究では, 特定の可観測物の力学から, 巨大なナムブ・ゴールドストーンモードの存在を証明し, 弱い明示対称性の破れの存在下での分散スペクトルとその寿命を解析するプロトコルを提案する。
We present a general framework to implement massive Nambu-Goldstone quasi-particles in driven many-body systems. The underlying mechanism leverages an explicit Lie group structure imprinted into an effective Hamiltonian that governs the dynamics of slow degrees of freedom; the resulting emergent continuous symmetry is weakly explicitly broken, giving rise to a massive Nambu-Goldstone mode, with a spectral mass gap scaling linearly with the drive period. We discuss explicit and experimentally implementable realizations, such as Heisenberg-like spin models that support gapped spin-wave excitations. We provide a protocol to certify the existence of the massive Nambu-Goldstone mode from the dynamics of specific observables, and analyse the dispersion spectrum and their lifetime in the presence of weak explicit symmetry breaking. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# 量子自然勾配最適化アルゴリズムの高速化へのランゲヴィンダイナミクスの適用
Application of Langevin Dynamics to Advance the Quantum Natural Gradient Optimization Algorithm ( http://arxiv.org/abs/2409.01978v2 ) ライセンス: Link先を確認 | Oleksandr Borysenko, Mykhailo Bratchenko, Ilya Lukin, Mykola Luhanko, Ihor Omelchenko, Andrii Sotnikov, Alessandro Lomi, | (参考訳) 近年,変分量子回路の最適化のためのQNGアルゴリズムが提案されている。
本研究では,その離散時間解が,モメンタムQNGと呼ばれるアルゴリズムの一般化形式を与えることを示すために,QNG確率力を持つランゲヴィン方程式を用いる。
モーメントムQNGは、モーメントを持つ確率勾配Descent、モーメントを持つRMSProp、モーメントを持つモーメントムQNGなどのモーメント項を持つ他の最適化アルゴリズムと同様に、変分パラメータ空間の局所ミニマとプラトーを逃れるのに効果的であり、したがって基本QNGよりも収束挙動が良い。
私たちのオープンソースコードはhttps://github.com/borbysh/Momentum-QNGで公開されています。
A Quantum Natural Gradient (QNG) algorithm for optimization of variational quantum circuits has been proposed recently. In this study, we employ the Langevin equation with a QNG stochastic force to demonstrate that its discrete-time solution gives a generalized form of the above-specified algorithm, which we call Momentum-QNG. Similar to other optimization algorithms with the momentum term, such as the Stochastic Gradient Descent with momentum, RMSProp with momentum and Adam, Momentum-QNG is more effective to escape local minima and plateaus in the variational parameter space and, therefore, achieves a better convergence behavior compared to the basic QNG. Our open-source code is available at https://github.com/borbysh/Momentum-QNG | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# vec2wav 2.0:離散トークンヴォコーダによる音声変換の改善
vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders ( http://arxiv.org/abs/2409.01995v2 ) ライセンス: Link先を確認 | Yiwei Guo, Zhihan Li, Junjie Li, Chenpeng Du, Hankun Wang, Shuai Wang, Xie Chen, Kai Yu, | (参考訳) 本稿では,音声変換(VC)を高速化する新しい音声離散トークンボコーダ vec2wav 2.0 を提案する。
我々は、音声の自己教師型モデルからの離散トークンをソース音声のコンテンツ特徴として使用し、VCをインシデントヴォコーディングタスクとして扱う。
コンテンツトークンにおける話者の音色喪失を修正するため、vec2wav 2.0はWavLM機能を利用して強い音色依存情報を提供する。
波形再構成プロセスに音色をよりよく組み込むために, 適応型スネーク活性化関数を提案する。
このようにして、vec2wav 2.0は、異なる参照プロンプトを与えられた話者の音色を適切に変更することを学ぶ。
また、vec2wav 2.0を効果的にトレーニングするためには、教師付きデータを必要としない。
実験の結果、vec2wav 2.0はあらゆるVCのオーディオ品質とスピーカーの類似性において、他のすべてのベースラインをかなり上回ります。
アブレーション研究は提案手法による効果を検証する。
さらに、vec2wav 2.0はモノリンガルコーパスのみをトレーニングしても、競争力のあるクロスランガルVCを実現する。
したがって、vec2wav 2.0は、音色を音声トークンボコーダでのみ操作できることを示し、VCのフロンティアと音声合成を推し進める。
We propose a new speech discrete token vocoder, vec2wav 2.0, which advances voice conversion (VC). We use discrete tokens from speech self-supervised models as the content features of source speech, and treat VC as a prompted vocoding task. To amend the loss of speaker timbre in the content tokens, vec2wav 2.0 utilizes the WavLM features to provide strong timbre-dependent information. A novel adaptive Snake activation function is proposed to better incorporate timbre into the waveform reconstruction process. In this way, vec2wav 2.0 learns to alter the speaker timbre appropriately given different reference prompts. Also, no supervised data is required for vec2wav 2.0 to be effectively trained. Experimental results demonstrate that vec2wav 2.0 outperforms all other baselines to a considerable margin in terms of audio quality and speaker similarity in any-to-any VC. Ablation studies verify the effects made by the proposed techniques. Moreover, vec2wav 2.0 achieves competitive cross-lingual VC even only trained on monolingual corpus. Thus, vec2wav 2.0 shows timbre can potentially be manipulated only by speech token vocoders, pushing the frontiers of VC and speech synthesis. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# LongGenbench:Long Context LLMにおけるロングフォーム生成のベンチマーク
LongGenbench: Benchmarking Long-Form Generation in Long Context LLMs ( http://arxiv.org/abs/2409.02076v3 ) ライセンス: Link先を確認 | Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, | (参考訳) 長文言語モデル(LM)の能力は「Needle-in-a-Haystack」(NIAH)テストを用いて評価されることが多い。
これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。
このギャップに対処するため、私たちはLongGenbenchという新しい長文評価ベンチマークを導入しました。
本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。
我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。
これらのモデルはNIAHベンチマークでよく機能するが、LongGenbenchで満足なパフォーマンスを示すものはなく、命令に従う一貫性のある長文を生成する能力に関する懸念が持ち上がった。
さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, LongGenbench, which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the LongGenbench, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# 離散変調連続可変量子鍵分布の一般攻撃対策への応用
Discrete-modulated continuous-variable quantum key distribution secure against general attacks ( http://arxiv.org/abs/2409.02630v2 ) ライセンス: Link先を確認 | Ignatius William Primaatmaja, Wen Yu Kon, Charles Lim, | (参考訳) 近年,離散変調型連続可変量子鍵分布 (DM-CV-QKD) は,コスト効率,簡易な状態調整,既存の通信技術との互換性といった実用的優位性により,注目を集めている。
本研究では,有限サイズ効果を含む一般的なシーケンシャル攻撃に対するDM-CV-QKDのセキュリティ解析を行う。
注目すべきは、我々の証明は独立でも同一でもない攻撃を考慮し、受信機のヒルベルト空間次元について仮定しないことである。
セキュリティを解析するために、最近の一般化エントロピー累積定理と準相対エントロピーに基づく数値手法を利用する。
また,エントロピー蓄積フレームワークと互換性のある新しい次元低減手法を開発した。
分析の結果,鍵レートに対する有意な有限サイズ補正が得られたが,実際的な利点から,特定のシナリオにメリットがある可能性がある。
私たちの研究は、将来のセキュリティ証明がこの作業で引き起こされたセキュリティ境界をどのように改善できるかに関する洞察も提供しています。
In recent years, discrete-modulated continuous-variable quantum key distribution (DM-CV-QKD) has gained traction due to its practical advantages: cost-effectiveness, simple state preparation, and compatibility with existing communication technologies. This work presents a security analysis of DM-CV-QKD against general sequential attacks, including finite-size effects. Remarkably, our proof considers attacks that are neither independent nor identical, and makes no assumptions about the Hilbert space dimension of the receiver. To analyse the security, we leverage the recent generalised entropy accumulation theorem and the numerical methods based on quasi-relative entropy. We also develop a novel dimension reduction technique which is compatible with the entropy accumulation framework. While our analysis reveals significant finite-size corrections to the key rate, the protocol might still offer advantages in specific scenarios due to its practical merits. Our work also offers some insights on how future security proofs can improve the security bounds derived in this work. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# 物理的に制約された量子時計駆動力学
Physically constrained quantum clock-driven dynamics ( http://arxiv.org/abs/2409.02857v2 ) ライセンス: Link先を確認 | Dario Cilluffo, Lea Lautenbacher, Giovanni Spaventa, Susana F. Huelga, Martin B. Plenio, | (参考訳) サーマルマシン(英: thermal machine)とは、サイクリックプロセスにおける状態変換を通じて、熱エネルギーを実用化するために設計された物理システムである。
この概念は、時計を備えた追加の元素の存在に依存しており、システムと貯水池の間のハミルトニアン相互作用は一定の時間で作用し、この過程の間は影響を受けない。
量子力学の領域では、理想的かつ非現実的な場合を除いて、この最終条件を満たすことは不可能であることを示す重要な証拠がある。
本研究では、そのような理想化された条件から始めて、モデルをより現実的でより理想的でないものにするために、一次近似を緩和する。
主な結果は、現実的な量子フレームワーク内でのエンジンクロックのダイナミクスの完全な量子記述である。
さらに、このアプローチは、異なる視点から量子力学の領域において意味のある時間演算子を定義するという、より深く、より根本的な課題に対処することを可能にする。
Thermal machines are physical systems specifically designed to make thermal energy available for practical use through state transformations in a cyclic process. This concept relies on the presence of an additional element equipped with a clock, controlling which interaction Hamiltonian between the system and the reservoirs must act at a certain time and that remains unaffected during this process. In the domain of quantum dynamics, there is substantial evidence to suggest that fulfilling this final condition is, in fact, impossible, except in ideal and far-from-reality cases. In this study we start from one such idealized condition and proceed to relax the primary approximations to make the model more realistic and less ideal. The main result is a fully quantum description of the engine-clock dynamics within a realistic quantum framework. Furthermore, this approach offers the possibility to address the deeper and more fundamental challenge of defining meaningful time operators in the realm of quantum mechanics from a different standpoint. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# 手書きテキスト生成のためのワンショット拡散ミカ
One-Shot Diffusion Mimicker for Handwritten Text Generation ( http://arxiv.org/abs/2409.04004v2 ) ライセンス: Link先を確認 | Gang Dai, Yifan Zhang, Quhui Ke, Qiangya Guo, Shuangping Huang, | (参考訳) 既存の手書きテキスト生成方法は、スタイル参照として10以上の手書きサンプルを必要とすることが多い。
しかし,現実的な応用では,利用者は手書き生成モデルを好む傾向にあり,その利便性と効率性のため,単一の参照サンプルだけで動作させる。
このアプローチは「ワンショット生成(one-shot generation)」と呼ばれ、処理を著しく単純化するが、1つのサンプルから作家のスタイルを正確に捉えることの難しさ、特にスパースフォアグラウンドと望ましくない背景雑音の中で文字の端から詳細を抽出することの難しさから、大きな課題を生んでいる。
この問題に対処するために,手書きテキストを生成するワンショット拡散ミミカ (One-shot Diffusion Mimicker, One-DM) を提案する。
個々のサンプルの高周波情報は、しばしば異なるスタイルパターン(例えば、文字スラント、文字接合)を含んでいるという事実に触発され、単一サンプルから高周波成分を取り入れてスタイル抽出を改善する新しいスタイル強化モジュールを開発した。
次に、拡散モデルを誘導し、高品質な手書きテキスト画像を生成するための統合条件として、テキストコンテンツとスタイル特徴を融合させる。
大規模な実験により,本手法は複数の言語で1つのサンプル参照で手書き文字を生成することができた。
ソースコードはhttps://github.com/dailenson/One-DM.comで公開されています。
Existing handwritten text generation methods often require more than ten handwriting samples as style references. However, in practical applications, users tend to prefer a handwriting generation model that operates with just a single reference sample for its convenience and efficiency. This approach, known as "one-shot generation", significantly simplifies the process but poses a significant challenge due to the difficulty of accurately capturing a writer's style from a single sample, especially when extracting fine details from the characters' edges amidst sparse foreground and undesired background noise. To address this problem, we propose a One-shot Diffusion Mimicker (One-DM) to generate handwritten text that can mimic any calligraphic style with only one reference sample. Inspired by the fact that high-frequency information of the individual sample often contains distinct style patterns (e.g., character slant and letter joining), we develop a novel style-enhanced module to improve the style extraction by incorporating high-frequency components from a single sample. We then fuse the style features with the text content as a merged condition for guiding the diffusion model to produce high-quality handwritten text images. Extensive experiments demonstrate that our method can successfully generate handwriting scripts with just one sample reference in multiple languages, even outperforming previous methods using over ten samples. Our source code is available at https://github.com/dailenson/One-DM. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# BBoxの外で考える - 制約のない生成オブジェクトコンポジション
Thinking Outside the BBox: Unconstrained Generative Object Compositing ( http://arxiv.org/abs/2409.04559v2 ) ライセンス: Link先を確認 | Gemma Canet Tarrés, Zhe Lin, Zhifei Zhang, Jianming Zhang, Yizhi Song, Dan Ruta, Andrew Gilbert, John Collomosse, Soo Ye Kim, | (参考訳) オブジェクトをイメージに組み込むには、オブジェクトの配置やスケーリング、色/光の調和、視点/幾何学の調整、影/反射生成など、複数の非自明なサブタスクが含まれる。
最近の生成画像合成法は拡散モデルを利用して複数のサブタスクを同時に処理する。
しかし、既存のモデルは、トレーニング中に元のオブジェクトをマスクすることに依存するため、その生成を入力マスクに制限する制限に直面している。
さらに、新しい画像における物体の位置とスケールを指定する正確な入力マスクを得るのは非常に困難である。
このような制約を克服するために、我々は、制約のない生成オブジェクト合成という新しい問題、すなわち、生成がマスクによって束縛されていないことを定義し、合成されたペアデータセット上で拡散ベースモデルを訓練する。
私たちの第一種モデルは、マスクの向こう側にある影や反射などの物体効果を発生させ、画像リアリズムを高めます。
さらに,空のマスクが提供されると,オブジェクトを様々な自然の場所やスケールに自動的に配置し,合成ワークフローを高速化する。
我々のモデルは、様々な品質指標やユーザスタディにおいて、既存のオブジェクト配置や合成モデルよりも優れています。
Compositing an object into an image involves multiple non-trivial sub-tasks such as object placement and scaling, color/lighting harmonization, viewpoint/geometry adjustment, and shadow/reflection generation. Recent generative image compositing methods leverage diffusion models to handle multiple sub-tasks at once. However, existing models face limitations due to their reliance on masking the original object during training, which constrains their generation to the input mask. Furthermore, obtaining an accurate input mask specifying the location and scale of the object in a new image can be highly challenging. To overcome such limitations, we define a novel problem of unconstrained generative object compositing, i.e., the generation is not bounded by the mask, and train a diffusion-based model on a synthesized paired dataset. Our first-of-its-kind model is able to generate object effects such as shadows and reflections that go beyond the mask, enhancing image realism. Additionally, if an empty mask is provided, our model automatically places the object in diverse natural locations and scales, accelerating the compositing workflow. Our model outperforms existing object placement and compositing models in various quality metrics and user studies. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# 自己教師付き学習のための説明的相互情報の最大化
Explicit Mutual Information Maximization for Self-Supervised Learning ( http://arxiv.org/abs/2409.04747v2 ) ライセンス: Link先を確認 | Lele Chang, Peilin Liu, Qinghai Guo, Fei Wen, | (参考訳) 近年,自己教師型学習(SSL)が広く研究されている。
理論的には、相互情報最大化(MIM)はSSLの最適基準であり、情報理論の強力な理論的基礎である。
しかし、データ分散がアプリケーションで分析的に利用できないため、SSLにMIMを直接適用することは困難である。
実際には、多くの既存の手法をMIM基準の近似実装と見なすことができる。
この研究は、MIの不変性に基づいて、データ分散の緩和条件である一般的な分布仮定の下で、明示的なMIの最大化をSSLに適用できることを示している。
さらに、一般化されたガウス分布を解析することによって、これを説明できる。
この結果に基づき、2次統計量のみを用いてMIM基準に基づく損失関数を導出する。
我々はSSLの新たな損失を実装し、その効果を広範な実験を通じて実証する。
Recently, self-supervised learning (SSL) has been extensively studied. Theoretically, mutual information maximization (MIM) is an optimal criterion for SSL, with a strong theoretical foundation in information theory. However, it is difficult to directly apply MIM in SSL since the data distribution is not analytically available in applications. In practice, many existing methods can be viewed as approximate implementations of the MIM criterion. This work shows that, based on the invariance property of MI, explicit MI maximization can be applied to SSL under a generic distribution assumption, i.e., a relaxed condition of the data distribution. We further illustrate this by analyzing the generalized Gaussian distribution. Based on this result, we derive a loss function based on the MIM criterion using only second-order statistics. We implement the new loss for SSL and demonstrate its effectiveness via extensive experiments. | 翻訳日:2024-09-12 19:48:16 公開日:2024-09-11 |
# Fisheye-GS:魚眼カメラ用軽量で拡張可能なガウス撮影モジュール
Fisheye-GS: Lightweight and Extensible Gaussian Splatting Module for Fisheye Cameras ( http://arxiv.org/abs/2409.04751v2 ) ライセンス: Link先を確認 | Zimu Liao, Siyan Chen, Rong Fu, Yi Wang, Zhongling Su, Hao Luo, Li Ma, Linning Xu, Bo Dai, Hengjie Li, Zhilin Pei, Xingcheng Zhang, | (参考訳) 近年, 3D Gaussian Splatting (3DGS) が注目されている。
しかし、異なるカメラモデル、特に魚眼レンズに3DGSを適応させることは、ユニークな3Dから2Dのプロジェクション計算のために困難をもたらす。
さらに、特に魚眼レンズの極端な曲率と広い視野において、タイルベースのスプラッティングの非効率性は、より広い現実の用途に欠かせない。
これらの課題に対処するために,魚眼カメラの投射変換とその勾配を再現する革新的な手法である魚眼-GSを紹介する。
我々のアプローチは、モジュールとして他の効率的な3Dレンダリング手法にシームレスに統合することができ、拡張性、軽量な性質、モジュール設計を強調します。
プロジェクションコンポーネントのみを変更したので、異なるカメラモデルで簡単に使用することができる。
非歪の後にトレーニングする手法と比較して、我々の手法は視覚的品質の明確な改善を示す。
Recently, 3D Gaussian Splatting (3DGS) has garnered attention for its high fidelity and real-time rendering. However, adapting 3DGS to different camera models, particularly fisheye lenses, poses challenges due to the unique 3D to 2D projection calculation. Additionally, there are inefficiencies in the tile-based splatting, especially for the extreme curvature and wide field of view of fisheye lenses, which are crucial for its broader real-life applications. To tackle these challenges, we introduce Fisheye-GS.This innovative method recalculates the projection transformation and its gradients for fisheye cameras. Our approach can be seamlessly integrated as a module into other efficient 3D rendering methods, emphasizing its extensibility, lightweight nature, and modular design. Since we only modified the projection component, it can also be easily adapted for use with different camera models. Compared to methods that train after undistortion, our approach demonstrates a clear improvement in visual quality. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# 幾何学的・意味的情報融合に基づく学習自由点認識
Training-Free Point Cloud Recognition Based on Geometric and Semantic Information Fusion ( http://arxiv.org/abs/2409.04760v3 ) ライセンス: Link先を確認 | Yan Chen, Di Huang, Zhichao Liao, Xi Cheng, Xinghui Li, Lone Zeng, | (参考訳) ポイントクラウド認識にトレーニングフリーの手法を採用する傾向は、計算資源と時間コストの大幅な削減により、ますます人気が高まっている。
しかし、既存のアプローチは、一般的に幾何学的特徴または意味的特徴を抽出するため、制限されている。
この制限に対処するため、幾何学的特徴と意味的特徴を統合した新しいトレーニング不要な手法を最初に提案する。
幾何学的分岐に対しては、幾何学的特徴を抽出するための非パラメトリック戦略を採用する。
セマンティックブランチでは、テキストの特徴と整合したモデルを利用してセマンティックな特徴を得る。
さらに,点雲の幾何学的情報を補完する GFE モジュールと MFF モジュールを導入し,数ショット設定での性能向上を図る。
実験の結果,本手法は,ModelNetやScanObiectNNなど,主要なベンチマークデータセット上で,最先端のトレーニングフリーアプローチよりも優れていることがわかった。
The trend of employing training-free methods for point cloud recognition is becoming increasingly popular due to its significant reduction in computational resources and time costs. However, existing approaches are limited as they typically extract either geometric or semantic features. To address this limitation, we are the first to propose a novel training-free method that integrates both geometric and semantic features. For the geometric branch, we adopt a non-parametric strategy to extract geometric features. In the semantic branch, we leverage a model aligned with text features to obtain semantic features. Additionally, we introduce the GFE module to complement the geometric information of point clouds and the MFF module to improve performance in few-shot settings. Experimental results demonstrate that our method outperforms existing state-of-the-art training-free approaches on mainstream benchmark datasets, including ModelNet and ScanObiectNN. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# 内在性パーセルフィルタを用いた高速多重超伝導量子ビットリードアウト
Fast multiplexed superconducting qubit readout with intrinsic Purcell filtering ( http://arxiv.org/abs/2409.04967v2 ) ライセンス: Link先を確認 | Peter A. Spring, Luka Milanovic, Yoshiki Sunada, Shiyu Wang, Arjan F. van Loo, Shuhei Tamate, Yasunobu Nakamura, | (参考訳) 高速かつ正確な量子ビット計測は、フォールトトレラント量子コンピューティングへの道のりにおいて重要な課題である。
超伝導量子回路では、大きな外線幅を持つ分散結合共振器を用いて高速量子ビット計測が達成されている。
これにより、キュービットが読み出しチャネルを通して緩和されるのを防ぐPurcellフィルタを使用する必要がある。
ここでは, パルス共振器とフィルタ共振器を容量的に, インダクタンス的に結合することで, パーセルの減衰チャネルを破壊的干渉により効果的に除去する小型ノッチフィルタ回路を実現できることを示す。
42MHzのライン幅を利用することで、4つのキュービットの56ns同時読み出しを実行し、平均割り当て忠実度99.77%をベンチマークし、最も高いキュービット割り当て忠実度99.9%を超えた。
これらの結果は、多重超伝導量子ビットの読み出しにおける速度と忠実度が著しく向上したことを示している。
Fast and accurate qubit measurement remains a critical challenge on the path to fault-tolerant quantum computing. In superconducting quantum circuits, fast qubit measurement has been achieved using a dispersively coupled resonator with a large external linewidth. This necessitates the use of a Purcell filter that protects the qubit from relaxation through the readout channel. Here we show that a readout resonator and filter resonator, coupled to each other both capacitively and inductively, can produce a compact notch-filter circuit that effectively eliminates the Purcell decay channel through destructive interference. By utilizing linewidths as large as 42 MHz, we perform 56-ns simultaneous readout of four qubits and benchmark an average assignment fidelity of 99.77%, with the highest qubit assignment fidelity exceeding 99.9%. These results demonstrate a significant advancement in speed and fidelity for multiplexed superconducting qubit readout. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# DreamMapping:変動分布マッピングによる高忠実テキスト・ツー・3D生成
DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping ( http://arxiv.org/abs/2409.05099v2 ) ライセンス: Link先を確認 | Zeyu Cai, Duotun Wang, Yixun Liang, Zhijing Shao, Ying-Cong Chen, Xiaohang Zhan, Zeyu Wang, | (参考訳) SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
しかし、過飽和色や過度な滑らかさなどの欠点がしばしば現れる。
本稿では、SDSの徹底的な解析を行い、その定式化を洗練し、コア設計はレンダリング画像の分布をモデル化することであることを示す。
この知見に従えば,拡散ベース生成の劣化事例としてレンダリングされた画像について,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) と呼ばれる新しい戦略を導入する。
この特別な設計は、拡散U-ネットにおけるジャコビアンの計算をスキップすることで、変動分布の効率的な訓練を可能にする。
また, 蒸留精度を向上させるため, 時間ステップ依存性の分散係数アニール (DCA) も導入した。
VDMとDCAを活用することで、3D表現としてガウススプラッティングを使用し、テキストから3D生成フレームワークを構築する。
大規模な実験と評価は、最適化効率で高忠実で現実的な資産を生成するためのVDMとDCAの能力を示す。
Score Distillation Sampling (SDS) has emerged as a prevalent technique for text-to-3D generation, enabling 3D content creation by distilling view-dependent information from text-to-2D guidance. However, they frequently exhibit shortcomings such as over-saturated color and excess smoothness. In this paper, we conduct a thorough analysis of SDS and refine its formulation, finding that the core design is to model the distribution of rendered images. Following this insight, we introduce a novel strategy called Variational Distribution Mapping (VDM), which expedites the distribution modeling process by regarding the rendered images as instances of degradation from diffusion-based generation. This special design enables the efficient training of variational distribution by skipping the calculations of the Jacobians in the diffusion U-Net. We also introduce timestep-dependent Distribution Coefficient Annealing (DCA) to further improve distilling precision. Leveraging VDM and DCA, we use Gaussian Splatting as the 3D representation and build a text-to-3D generation framework. Extensive experiments and evaluations demonstrate the capability of VDM and DCA to generate high-fidelity and realistic assets with optimization efficiency. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# 先行マップで運転する: 自動走行車マッピングのための統一ベクトル事前符号化
Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping ( http://arxiv.org/abs/2409.05352v2 ) ライセンス: Link先を確認 | Shuang Zeng, Xinyuan Chang, Xinran Liu, Zheng Pan, Xing Wei, | (参考訳) ハイディフィニションマップ(HDマップ)は、自動運転車の正確なナビゲーションと意思決定に不可欠である。
オンボードセンサーを用いたHDマップのオンライン構築は有望な解決策として現れてきたが、これらの手法は閉塞や悪天候による不完全なデータによって妨げられる。
本稿では,これらの制約に対応するために,事前マップのパワーを活用し,オンラインHDマップ構築のロバスト性と精度を大幅に向上させることにより,これらの制約に対処するPriorDriveフレームワークを提案する。
当社のアプローチでは,OpenStreetMapの標準定義マップ(SDマップ)やベンダの古いHDマップ,過去の車両データからローカルに構築されたマップなど,さまざまな事前マップを統合している。
この事前情報をオンラインマッピングモデルに効果的にエンコードするために,多様な地図要素の表現を標準化するHybrid Prior Representation (HPQuery)を導入する。
PriorDriveのコアとなるUnified Vector Encoder (UVE)は、ベクトルデータを処理するためにデュアルエンコーディング機構を使用している。
ベクトル内エンコーダはきめ細かなローカル特徴をキャプチャし、ベクトル間エンコーダはグローバルコンテキストを統合する。
さらに,UVEがベクトルデータの事前分布を学習し,エンコーダの一般化性と性能を向上させるためのセグメントレベルおよびポイントレベルの事前学習戦略を提案する。
nuScenesデータセットの広範なテストを通じて、PrediorDriveは様々なオンラインマッピングモデルと高い互換性を持ち、マップ予測機能を大幅に改善することを示した。
PriorDriveフレームワークによる事前マップの統合は、シングルパーセプションデータの課題に対する堅牢なソリューションを提供し、より信頼性の高い自動運転車ナビゲーションを実現する。
High-Definition Maps (HD maps) are essential for the precise navigation and decision-making of autonomous vehicles, yet their creation and upkeep present significant cost and timeliness challenges. The online construction of HD maps using on-board sensors has emerged as a promising solution; however, these methods can be impeded by incomplete data due to occlusions and inclement weather. This paper proposes the PriorDrive framework to addresses these limitations by harnessing the power of prior maps, significantly enhancing the robustness and accuracy of online HD map construction. Our approach integrates a variety of prior maps, such as OpenStreetMap's Standard Definition Maps (SD maps), outdated HD maps from vendors, and locally constructed maps from historical vehicle data. To effectively encode this prior information into online mapping models, we introduce a Hybrid Prior Representation (HPQuery) that standardizes the representation of diverse map elements. At the core of PriorDrive is the Unified Vector Encoder (UVE), which employs a dual encoding mechanism to process vector data. The intra-vector encoder captures fine-grained local features, while the inter-vector encoder integrates global context. Furthermore, we propose a segment-level and point-level pre-training strategy that enables the UVE to learn the prior distribution of vector data, thereby improving the encoder's generalizability and performance. Through extensive testing on the nuScenes dataset, we demonstrate that PriorDrive is highly compatible with various online mapping models and substantially improves map prediction capabilities. The integration of prior maps through the PriorDrive framework offers a robust solution to the challenges of single-perception data, paving the way for more reliable autonomous vehicle navigation. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# マルチモーダル複合編集と検索に関する調査
A Survey of Multimodal Composite Editing and Retrieval ( http://arxiv.org/abs/2409.05405v2 ) ライセンス: Link先を確認 | Suyan Li, Fuxiang Huang, Lei Zhang, | (参考訳) 情報が多様で多様である実世界では、検索システムを改善するために様々なデータ型を理解し、活用することが研究の焦点となっている。
マルチモーダル合成検索は、テキスト、画像、オーディオなどの様々なモダリティを統合し、より正確でパーソナライズされ、文脈に関連のある結果を提供する。
本研究は, 画像テキスト合成編集, 画像テキスト合成検索, その他のマルチモーダル合成検索を網羅し, 多モーダル合成編集と深度検索について深く理解することを目的としている。
本調査では,アプリケーションシナリオ,メソッド,ベンチマーク,実験,今後の方向性を体系的に整理する。
マルチモーダル学習は大規模モデル時代においてホットな話題であり、PAMIジャーナルに発表されたトランスフォーマーを用いたマルチモーダル学習および視覚言語モデルに関するいくつかの調査も見てきた。
我々の知る限り、本調査は、既存のレビューに対するマルチモーダル融合をタイムリーに補完する、マルチモーダル複合検索に関する文献の総合的なレビューである。
この調査はhttps://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrievalで見ることができる。
In the real world, where information is abundant and diverse across different modalities, understanding and utilizing various data types to improve retrieval systems is a key focus of research. Multimodal composite retrieval integrates diverse modalities such as text, image and audio, etc. to provide more accurate, personalized, and contextually relevant results. To facilitate a deeper understanding of this promising direction, this survey explores multimodal composite editing and retrieval in depth, covering image-text composite editing, image-text composite retrieval, and other multimodal composite retrieval. In this survey, we systematically organize the application scenarios, methods, benchmarks, experiments, and future directions. Multimodal learning is a hot topic in large model era, and have also witnessed some surveys in multimodal learning and vision-language models with transformers published in the PAMI journal. To the best of our knowledge, this survey is the first comprehensive review of the literature on multimodal composite retrieval, which is a timely complement of multimodal fusion to existing reviews. To help readers' quickly track this field, we build the project page for this survey, which can be found at https://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# 能動3次元物体検出のための分布の相違と特徴の不均一性
Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection ( http://arxiv.org/abs/2409.05425v2 ) ライセンス: Link先を確認 | Huang-Yu Chen, Jia-Fong Yeh, Jia-Wei Liao, Pin-Hsuan Peng, Winston H. Hsu, | (参考訳) LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
しかし、データアノテーションの高コストは、その進歩を制限する。
本稿では,空間的特徴とモデル埋め込みを同時に考慮し,インスタンスレベルとフレームレベルの両方の観点から情報を評価する,分散離散性と特徴ヘテロジニティ(DDFH)という,新しい効果的なアクティブラーニング手法を提案する。
分散離散性は、ラベル付きおよびラベル付き分布内のインスタンスの違いと新規性を評価し、限られたデータで効率的に学習することを可能にする。
機能の均一性は、フレーム内のインスタンス機能の均一性を保証し、冗長なインスタンスや類似のインスタンスを避けながら機能の多様性を維持し、アノテーションのコストを最小限にする。
最後に、複数のインジケータをQuantile Transformを使って効率的に集約し、情報を統一した尺度を提供する。
DDFHは、KITTIとWaymoのデータセットにおける現在の最先端(SOTA)メソッドよりも優れており、バウンディングボックスアノテーションのコストを56.3%削減し、ワンステージモデルと2ステージモデルの両方で作業する場合の堅牢性を示している。
LiDAR-based 3D object detection is a critical technology for the development of autonomous driving and robotics. However, the high cost of data annotation limits its advancement. We propose a novel and effective active learning (AL) method called Distribution Discrepancy and Feature Heterogeneity (DDFH), which simultaneously considers geometric features and model embeddings, assessing information from both the instance-level and frame-level perspectives. Distribution Discrepancy evaluates the difference and novelty of instances within the unlabeled and labeled distributions, enabling the model to learn efficiently with limited data. Feature Heterogeneity ensures the heterogeneity of intra-frame instance features, maintaining feature diversity while avoiding redundant or similar instances, thus minimizing annotation costs. Finally, multiple indicators are efficiently aggregated using Quantile Transform, providing a unified measure of informativeness. Extensive experiments demonstrate that DDFH outperforms the current state-of-the-art (SOTA) methods on the KITTI and Waymo datasets, effectively reducing the bounding box annotation cost by 56.3% and showing robustness when working with both one-stage and two-stage models. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# CF-KAN:Kolmogorov-Arnoldネットワークを用いた協調フィルタリングによるレコメンダシステムにおける破滅的フォーミングの軽減
CF-KAN: Kolmogorov-Arnold Network-based Collaborative Filtering to Mitigate Catastrophic Forgetting in Recommender Systems ( http://arxiv.org/abs/2409.05878v2 ) ライセンス: Link先を確認 | Jin-Duk Park, Kyung-Min Kim, Won-Yong Shin, | (参考訳) 協調フィルタリング(CF)はレコメンデーションシステムにおいて不可欠であり、パーソナライズされたレコメンデーションを提供するためにユーザとイテムのインタラクションを活用する。
一方、CF技術は多層パーセプトロン(MLP)に基づく洗練されたモデルアーキテクチャへと進化してきた。
しかし、MLPは破滅的な忘れ込みに悩まされることが多く、特に継続的な学習を必要とする動的環境において、新しい情報が学習されると、それまでに取得されていた知識が失われる。
そこで本研究では,コルモゴロフ・アルノルドネットワーク(KAN)を用いた新しいCF手法CF-KANを提案する。
エッジレベルで非線形関数を学習することにより、KansはMLPよりも破滅的な忘れ問題に対してより堅牢である。
KanベースのオートエンコーダをベースとしたCF-KANは、疎密なユーザインタラクションの複雑さを効果的に捉え、以前のデータインスタンスからの情報を保持するという意味で設計されている。
その単純さにもかかわらず、我々の広範な実験は、
1)CF-KANの推奨精度における最先端手法に対する優位性
2)CF-KANの破滅的忘れに対するレジリエンスは,静的および動的レコメンデーションシナリオにおける有効性を裏付けるものである。
3)CF-KANのエッジレベルの解釈はレコメンデーションの説明可能性を促進する。
Collaborative filtering (CF) remains essential in recommender systems, leveraging user--item interactions to provide personalized recommendations. Meanwhile, a number of CF techniques have evolved into sophisticated model architectures based on multi-layer perceptrons (MLPs). However, MLPs often suffer from catastrophic forgetting, and thus lose previously acquired knowledge when new information is learned, particularly in dynamic environments requiring continual learning. To tackle this problem, we propose CF-KAN, a new CF method utilizing Kolmogorov-Arnold networks (KANs). By learning nonlinear functions on the edge level, KANs are more robust to the catastrophic forgetting problem than MLPs. Built upon a KAN-based autoencoder, CF-KAN is designed in the sense of effectively capturing the intricacies of sparse user--item interactions and retaining information from previous data instances. Despite its simplicity, our extensive experiments demonstrate 1) CF-KAN's superiority over state-of-the-art methods in recommendation accuracy, 2) CF-KAN's resilience to catastrophic forgetting, underscoring its effectiveness in both static and dynamic recommendation scenarios, and 3) CF-KAN's edge-level interpretation facilitating the explainability of recommendations. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# MA-CDMR:マルチドメインSDWNにおけるマルチエージェント深層強化学習に基づくインテリジェントクロスドメインマルチキャストルーティング手法
MA-CDMR: An Intelligent Cross-domain Multicast Routing Method based on Multiagent Deep Reinforcement Learning in Multi-domain SDWN ( http://arxiv.org/abs/2409.05888v2 ) ライセンス: Link先を確認 | Miao Ye, Hongwen Hu, Xiaoli Wang, Yuping Wang, Yong Wang, Wen Peng, Jihao Zheng, | (参考訳) 複数のコントローラを持つソフトウェア定義無線ネットワークにおけるクロスドメインマルチキャストルーティング問題は、古典的なNPハード最適化問題である。
ネットワークサイズが大きくなるにつれて、ネットワーク内のクロスドメインマルチキャストルーティングパスの設計と実装は、最適なクロスドメインマルチキャストツリーを得るための効率的なソリューションアルゴリズムを設計するだけでなく、グローバルなネットワーク状態情報のタイムリーかつ柔軟な取得と保守を確保する必要がある。
しかし、既存のソリューションはネットワークトラフィックの状態を感知する能力が限られており、マルチキャストサービスの品質に影響を及ぼす。
さらに、これらの手法は、高度に動的に変化するネットワーク状態への適応が困難であり、収束速度が遅い。
本研究の目的は,マルチコントローラドメインを用いたSDWNのためのマルチエージェント深層強化学習に基づくクロスドメインマルチキャストルーティング手法の設計と実装である。
まず、SDWNの異なる制御領域間でネットワーク情報を転送・同期するマルチコントローラ通信機構とマルチキャストグループ管理モジュールを設計し、クロスドメインマルチキャストグループのメンバの結合と分類を効果的に管理する。
第2に、理論解析と証明により、最適なクロスドメインマルチキャストツリーは、ドメイン間マルチキャストツリーとドメイン内マルチキャストツリーを含むことを示す。
各コントローラにエージェントを設定し、複数のエージェント間の協調機構を設計し、クロスドメインマルチキャストルーティングを効果的に最適化し、クロスドメインマルチキャストルーティング決定のためのネットワーク状態情報の表現における一貫性と妥当性を確保する。
第3に、オンラインとオフラインのトレーニングを組み合わせたマルチエージェント強化学習法は、リアルタイム環境への依存を減らし、複数のエージェントの収束速度を高めるように設計されている。
The cross-domain multicast routing problem in a software-defined wireless network with multiple controllers is a classic NP-hard optimization problem. As the network size increases, designing and implementing cross-domain multicast routing paths in the network requires not only designing efficient solution algorithms to obtain the optimal cross-domain multicast tree but also ensuring the timely and flexible acquisition and maintenance of global network state information. However, existing solutions have a limited ability to sense the network traffic state, affecting the quality of service of multicast services. In addition, these methods have difficulty adapting to the highly dynamically changing network states and have slow convergence speeds. To this end, this paper aims to design and implement a multiagent deep reinforcement learning based cross-domain multicast routing method for SDWN with multicontroller domains. First, a multicontroller communication mechanism and a multicast group management module are designed to transfer and synchronize network information between different control domains of the SDWN, thus effectively managing the joining and classification of members in the cross-domain multicast group. Second, a theoretical analysis and proof show that the optimal cross-domain multicast tree includes an interdomain multicast tree and an intradomain multicast tree. An agent is established for each controller, and a cooperation mechanism between multiple agents is designed to effectively optimize cross-domain multicast routing and ensure consistency and validity in the representation of network state information for cross-domain multicast routing decisions. Third, a multiagent reinforcement learning-based method that combines online and offline training is designed to reduce the dependence on the real-time environment and increase the convergence speed of multiple agents. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-11 |
# 量子ハミルトニアンシミュレーションの性能ベンチマークのための総合的クロスモデルフレームワーク
A Comprehensive Cross-Model Framework for Benchmarking the Performance of Quantum Hamiltonian Simulations ( http://arxiv.org/abs/2409.06919v1 ) ライセンス: Link先を確認 | Avimita Chatterjee, Sonny Rappaport, Anish Giri, Sonika Johri, Timothy Proctor, David E. Bernal Neira, Pratik Sathe, Thomas Lubinski, | (参考訳) 量子ハミルトニアンシミュレーションは量子コンピューティングの最も有望な応用の1つであり、多くの量子アルゴリズムの基礎を形成する。
それらをベンチマークすることは、量子コンピューティング技術の進歩の重要な指標である。
本稿では,Trotterized quantum Hamiltonian 進化におけるゲートベース量子コンピュータの性能の様々な側面を評価するための方法論とソフトウェアフレームワークを提案する。
ベンチマークには3つの異なるモードを提案する。
一 実機におけるシミュレーションとノイズのない古典シミュレータによるシミュレーションを比較すること。
二 実機上でのシミュレーションと正確な対角化結果を比較して、
三 スケーラブルミラー回路技術を用いて、古典的シミュレーション以上のシナリオにおけるハードウェア性能を評価すること。
このフレームワークは、HamLibライブラリの5つのハミルトンモデル(FermiとBose-Hubbardモデル、横フィールドイジングモデル、Heisenbergモデル、Max3SAT問題)について実証する。
QiskitのAerシミュレータ、BlueQubitのCPUクラスタとGPUシミュレータ、IBMの量子ハードウェアを使用して実験が行われた。
我々のフレームワークは、他のハミルトンに拡張可能で、ハードウェアとアルゴリズムの制限を明らかにし、忠実度と実行時間の両方を測定し、量子ハードウェアがCPU/GPUシミュレータを上回るクロスオーバーポイントを特定する、包括的なパフォーマンスプロファイルを提供します。
Quantum Hamiltonian simulation is one of the most promising applications of quantum computing and forms the basis for many quantum algorithms. Benchmarking them is an important gauge of progress in quantum computing technology. We present a methodology and software framework to evaluate various facets of the performance of gate-based quantum computers on Trotterized quantum Hamiltonian evolution. We propose three distinct modes for benchmarking: (i) comparing simulation on a real device to that on a noiseless classical simulator, (ii) comparing simulation on a real device with exact diagonalization results, and (iii) using scalable mirror circuit techniques to assess hardware performance in scenarios beyond classical simulation methods. We demonstrate this framework on five Hamiltonian models from the HamLib library: the Fermi and Bose-Hubbard models, the transverse field Ising model, the Heisenberg model, and the Max3SAT problem. Experiments were conducted using Qiskit's Aer simulator, BlueQubit's CPU cluster and GPU simulators, and IBM's quantum hardware. Our framework, extendable to other Hamiltonians, provides comprehensive performance profiles that reveal hardware and algorithmic limitations and measure both fidelity and execution times, identifying crossover points where quantum hardware outperforms CPU/GPU simulators. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# ニューラルインシシデント表面再構成における方向パラメータ化の再考
Rethinking Directional Parameterization in Neural Implicit Surface Reconstruction ( http://arxiv.org/abs/2409.06923v1 ) ライセンス: Link先を確認 | Zijie Jiang, Tianhan Xu, Hiroharu Kato, | (参考訳) ニューラルな暗示表現を用いた多視点3次元表面再構成は、統合されたフレームワーク内の幾何およびビュー依存放射場をモデル化することによって顕著な進歩を遂げた。
しかしながら、鏡面や複雑な表面を持つ物体の再構成におけるそれらの効果は、一般的に、ビュー依存放射ネットワークで使用される方向パラメータ化によってバイアスを受ける。
{\it Viewing direction} と {\it Reflect direction} は、最も一般的に使用される2つの方向パラメータ化であるが、それぞれに制限がある。
通常、観察方向の利用は通常、高度に特異な表面を持つ物体の形状と外観を正しく分離するのに苦労するが、反射方向の使用は凹凸や複雑な構造物の過度に滑らかな再構成をもたらす傾向にある。
本稿では,それらの障害事例を詳細に分析し,それらの制約を統一形式で対処する新しいハイブリッド指向パラメータ化を提案する。
大規模実験では, 対象物を多種多様な材料, 形状, 外観で再構成する上で, 提案したハイブリッド指向パラメータ化は, 一定の対象を再構成する際の課題に直面している。
さらに、提案したハイブリッド指向性パラメータ化は、ほぼパラメータフリーであり、既存のニューラルサーフェス再構成法に懸命に適用することができる。
Multi-view 3D surface reconstruction using neural implicit representations has made notable progress by modeling the geometry and view-dependent radiance fields within a unified framework. However, their effectiveness in reconstructing objects with specular or complex surfaces is typically biased by the directional parameterization used in their view-dependent radiance network. {\it Viewing direction} and {\it reflection direction} are the two most commonly used directional parameterizations but have their own limitations. Typically, utilizing the viewing direction usually struggles to correctly decouple the geometry and appearance of objects with highly specular surfaces, while using the reflection direction tends to yield overly smooth reconstructions for concave or complex structures. In this paper, we analyze their failed cases in detail and propose a novel hybrid directional parameterization to address their limitations in a unified form. Extensive experiments demonstrate the proposed hybrid directional parameterization consistently delivered satisfactory results in reconstructing objects with a wide variety of materials, geometry and appearance, whereas using other directional parameterizations faces challenges in reconstructing certain objects. Moreover, the proposed hybrid directional parameterization is nearly parameter-free and can be effortlessly applied in any existing neural surface reconstruction method. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# 最小限の生存倫理 - 産業AIガバナンスの制度化から製品への影響まで
Minimum Viable Ethics: From Institutionalizing Industry AI Governance to Product Impact ( http://arxiv.org/abs/2409.06926v1 ) ライセンス: Link先を確認 | Archana Ahlawat, Amy Winecoff, Jonathan Mayer, | (参考訳) テクノロジー業界全体で、多くの企業がAI倫理へのコミットメントを表明し、ハイレベルな倫理原則を製品に翻訳する責任を負う専門的な役割を創り出している。
しかし、これがどれほど有意義な製品変更に繋がったかは不明だ。
産業におけるAI倫理に携わる26人の専門家との半構造化されたインタビューを通じて、我々は倫理業務を組織化し、製品への影響に翻訳するという課題と戦略を明らかにする。
最終的に、AI倫理の専門家は、従来の力のほとんどない企業環境で標準化され再利用可能なプロセスやツールを作成しようとしているため、非常に機敏で機会に恵まれていることに気付きます。
製品チームとの交渉では、製品に対する権限と所有権の欠如に根ざした課題に直面しますが、規制対応の物語と倫理を製品品質保証として活用することで、倫理的作業を進めることができます。
しかし、この戦略は、コンプライアンスや製品品質とは別の規範的な問題に対処する能力に制限される、狭い範囲の業界AI倫理である、最小限の実行可能な倫理を私たちに残します。
将来の規制は、このギャップを埋めるのに役立つかもしれない。
Across the technology industry, many companies have expressed their commitments to AI ethics and created dedicated roles responsible for translating high-level ethics principles into product. Yet it is unclear how effective this has been in leading to meaningful product changes. Through semi-structured interviews with 26 professionals working on AI ethics in industry, we uncover challenges and strategies of institutionalizing ethics work along with translation into product impact. We ultimately find that AI ethics professionals are highly agile and opportunistic, as they attempt to create standardized and reusable processes and tools in a corporate environment in which they have little traditional power. In negotiations with product teams, they face challenges rooted in their lack of authority and ownership over product, but can push forward ethics work by leveraging narratives of regulatory response and ethics as product quality assurance. However, this strategy leaves us with a minimum viable ethics, a narrowly scoped industry AI ethics that is limited in its capacity to address normative issues separate from compliance or product quality. Potential future regulation may help bridge this gap. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# 表現チューニング
Representation Tuning ( http://arxiv.org/abs/2409.06927v1 ) ライセンス: Link先を確認 | Christopher M. Ackerman, | (参考訳) 大規模言語モデル(LLM)のオンライン制御手段として,アクティベーションエンジニアリングがますます普及している。
本研究は,これらのベクトルを直接モデルにチューニングし,オンライン制御の必要性を回避し,関心の行動方向を表すベクトルを用いたアクティブステアリングの考え方を拡張した。
まず、オープンソースのLCM(Llama-2-13b-chat)において、正直性に関連するアクティベーションベクトルを同定する。
次に、生成中の残ストリームアクティベーションにこれらのベクトルの正あるいは負の倍数を加えることで、モデル出力を多かれ少なかれ正直にすることができることを示す。
次に,残差ストリームアクティベーションと標準トークンベースのロス(表現チューニング)を組み合わせたベクトルとのコサイン類似性に基づく二重損失関数を用いて,ベクトルを直接モデルに微調整することで,同様の効果が得られることを示す。
最後に、私は、結果のモデルから得られた正直なプロンプトに反応した世代と、トークンベースの損失だけで微調整されたモデルと、オンラインステアリングを受けた未調整モデルの世代を比較します。
全体として、コサイン類似度とトークン損失を用いたモデルへのベクトルの微調整は、オンラインステアリングよりも強い効果を示し、標準損失よりも良く一般化された。
コードとデータはhttps://github.com/cma1114/representation_tuningで、チューニングされたモデルはhttps://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9fで入手できる。
Activation engineering is becoming increasingly popular as a means of online control of large language models (LLMs). In this work, I extend the idea of active steering with vectors that represent a behavioral direction of interest to tuning those vectors directly into the model, obviating the need for online control. First, I identify activation vectors related to honesty in an open-source LLM (Llama- 2-13b-chat). Next, I demonstrate that model output can be made more or less honest by adding positive or negative multiples of these vectors to residual stream activations during generation. Then, I show that a similar effect can be achieved by fine-tuning the vectors directly into the model, by use of a dual loss function based on the cosine similarity of residual stream activations to the vectors combined with a standard token-based loss ("representation tuning"). Finally, I compare the generations in response to honesty-probing prompts from the resulting models to those from models fine-tuned with a token-based loss alone, and to those from the untuned model subjected to online steering. Overall, fine-tuning the vectors into the models using the cosine similarity plus token loss showed a stronger effect than online steering, and generalized better than using the standard loss, suggesting the potential utility of this approach as a safety measure. Code and data are available at https://github.com/cma1114/representation_tuning; tuned models are available at https://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9f. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# CNN-ViT協調学習を用いた2元学習者による公衆衛生・胎児頭部の超音波画像分割
Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning ( http://arxiv.org/abs/2409.06928v1 ) ライセンス: Link先を確認 | Jianmei Jiang, Huijin Wang, Jieyun Bai, Shun Long, Shuangping Chen, Victor M. Campello, Karim Lekadir, | (参考訳) pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。
深層学習の進歩にもかかわらず、注釈付き医療画像の欠如はセグメンテーションの訓練を妨げる。
従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統一ネットワークモデルを使用して、広範囲な注釈付きデータへの依存を軽減するために一貫性の正則化を適用している。
しかし、これらの手法は、ラベルのないデータの識別的特徴を捉えたり、超音波画像中のPSFHの不明瞭な境界に固有の長距離依存性を記述したりする際には、しばしば不足する。
これらの制約に対処するため,CNNとTransformerを相乗的に統合するDSTCT(Dual-Student and Teacher Combining CNN and Transformer)という新しいフレームワークを導入する。
我々のフレームワークは、教師としてビジョントランスフォーマー(ViT)と、2人の学生が1つのViTと1つのCNNを持つ。
このデュアルスチューデントセットアップは、ハードとソフトの両方の擬似ラベルの生成による相互監督を可能にし、それらの予測の整合性は、分類器の行列性差を最小化することによって改善される。
教師モデルは、一貫性の規則化制約を付与することにより、このアーキテクチャ内の学習をさらに強化する。
提案手法の一般化能力を高めるために,データとモデル摂動のブレンドを用いる。
MICCAI 2023におけるPSFHセグメンテーショングランドチャレンジのベンチマークデータセットに関する総合的な評価は、我々のDSTCTフレームワークが現代の10の半教師付きセグメンテーション手法より優れていることを示した。
コードはhttps://github.com/jjm1589/DSTCTで公開されている。
The segmentation of the pubic symphysis and fetal head (PSFH) constitutes a pivotal step in monitoring labor progression and identifying potential delivery complications. Despite the advances in deep learning, the lack of annotated medical images hinders the training of segmentation. Traditional semi-supervised learning approaches primarily utilize a unified network model based on Convolutional Neural Networks (CNNs) and apply consistency regularization to mitigate the reliance on extensive annotated data. However, these methods often fall short in capturing the discriminative features of unlabeled data and in delineating the long-range dependencies inherent in the ambiguous boundaries of PSFH within ultrasound images. To address these limitations, we introduce a novel framework, the Dual-Student and Teacher Combining CNN and Transformer (DSTCT), which synergistically integrates the capabilities of CNNs and Transformers. Our framework comprises a Vision Transformer (ViT) as the teacher and two student mod ls one ViT and one CNN. This dual-student setup enables mutual supervision through the generation of both hard and soft pseudo-labels, with the consistency in their predictions being refined by minimizing the classifier determinacy discrepancy. The teacher model further reinforces learning within this architecture through the imposition of consistency regularization constraints. To augment the generalization abilities of our approach, we employ a blend of data and model perturbation techniques. Comprehensive evaluations on the benchmark dataset of the PSFH Segmentation Grand Challenge at MICCAI 2023 demonstrate our DSTCT framework outperformed ten contemporary semi-supervised segmentation methods. Code available at https://github.com/jjm1589/DSTCT. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# k-MLE, k-Bregman, k-VARs:理論,収束,計算
k-MLE, k-Bregman, k-VARs: Theory, Convergence, Computation ( http://arxiv.org/abs/2409.06938v1 ) ライセンス: Link先を確認 | Zuogong Yue, Victor Solo, | (参考訳) 我々は、距離よりも可能性に基づいてハードクラスタリングを開発し、収束を証明する。
シミュレーションや実データ例も提供しています。
We develop hard clustering based on likelihood rather than distance and prove convergence. We also provide simulations and real data examples. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# FreeRide:パイプライン並列処理におけるバブルのハーベスティング
FreeRide: Harvesting Bubbles in Pipeline Parallelism ( http://arxiv.org/abs/2409.06941v1 ) ライセンス: Link先を確認 | Jiashu Zhang, Zihan Pan, Molly, Xu, Khuzaima Daudjee, Sihang Liu, | (参考訳) パイプライン並列化におけるバブルの発生は,大規模言語モデル(LLM)のトレーニング時間の40%以上を占める,固有の制限であり,LLMトレーニングにおけるGPUリソースの未使用の理由の1つである。
GPUサイドタスクにこれらのバブルを埋め込むことは、リソース使用量を増やし、トレーニングコストを削減できますが、課題があります。
まず、バブルは様々な形状で不連続であるため、過剰なエンジニアリング作業を必要としながらプログラミングサイドタスクは難しくなります。
第二に、サイドタスクはGPUリソースのパイプライントレーニングと競合し、大きなオーバーヘッドを発生させることができる。
これらの課題に対処するために,サイドタスクのためのパイプライン並列処理でバブルを回収するシステムであるFreeRideを提案する。
FreeRideは、サイドタスクを簡単に実装するためのインターフェースを提供し、パイプライントレーニング中にバブルとサイドタスクを管理し、サイドタスクによるGPUリソースへのアクセスを制御し、オーバーヘッドを低減する。
我々は、モデルトレーニング、グラフ分析、画像処理サイドタスクを提供しながら、LLMのトレーニングにおいて、約1%のオーバーヘッドを無視できるオーバーヘッドで、FreeRideが平均で7.8%のコスト削減を達成することを実証した。
The occurrence of bubbles in pipeline parallelism is an inherent limitation that can account for more than 40% of the large language model (LLM) training time and is one of the main reasons for the underutilization of GPU resources in LLM training. Harvesting these bubbles for GPU side tasks can increase resource utilization and reduce training costs but comes with challenges. First, because bubbles are discontinuous with various shapes, programming side tasks becomes difficult while requiring excessive engineering effort. Second, a side task can compete with pipeline training for GPU resources and incur significant overhead. To address these challenges, we propose FreeRide, a system designed to harvest bubbles in pipeline parallelism for side tasks. FreeRide provides programmers with interfaces to implement side tasks easily, manages bubbles and side tasks during pipeline training, and controls access to GPU resources by side tasks to reduce overhead. We demonstrate that FreeRide achieves 7.8% average cost savings with a negligible overhead of about 1% in training LLMs while serving model training, graph analytics, and image processing side tasks. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# L3脳レベルでの2次元MRIスライス上でのDAFSエクスプレスを用いた体組成自動解析
Automated Body Composition Analysis Using DAFS Express on 2D MRI Slices at L3 Vertebral Level ( http://arxiv.org/abs/2409.06942v1 ) ライセンス: Link先を確認 | Varun Akella, Razeyeh Bagherinasab, Jia Ming Li, Long Nguyen, Vincent Tze Yang Chow, Hyunwoo Lee, Karteek Popuri, Mirza Faisal Beg, | (参考訳) 体組成分析は肥満、サルコニア、メタボリックシンドロームなどの健康状態を評価する上で不可欠である。
MRIは、骨格筋(SKM)、内臓脂肪組織(VAT)、皮下脂肪組織(SAT)の詳細な画像を提供するが、手動分割は労働集約的で臨床応用性に制限がある。
本研究では,MRIを用いた2次元ボディコンポジション分析のための自動ツールであるDAFS(Data Analysis Facilitation Suite) Expressの検証を行い,その自動測定と英国バイオバンクのデータを用いた手動セグメンテーションの比較を行った。
UK Biobankデータセットから399人の参加者からなるコホートが選択され、分析のために423個のL3スライスを得た。
DAFS ExpressはSKM、VAT、SATの自動セグメンテーションを実行し、検証のために専門家による手作業で修正した。
評価指標は,ジャカード係数,Diceスコア,クラス内相関係数(ICC),Bland-Altman Plotsで,セグメンテーション合意と信頼性を評価した。
SKM 99.03%、VAT 95.25%、SAT 99.57%、Dice 99.51%、VAT 97.41%、SAT 99.78%である。
断面積の比較では、SKMとSATのマニュアル測定と密に一致した自動測定方法と一致しており、VAT(SKM: Auto 132.51 cm^2, Manual 132.36 cm^2; VAT: Auto 137.07 cm^2, Manual 134.46 cm^2; SAT: Auto 203.39 cm^2, Manual 202.85 cm^2; VAT: Auto 137.07 cm^2, Manual 134.46 cm^2; SAT: Auto 203.39 cm^2, Manual 202.85 cm^2)の値はわずかに高い。
ICCは強い信頼性(SKM:0.998、VAT:0.994、SAT:0.994)を確認した。
Bland-Altmanプロットは最小バイアスを示し、ボックスプロットはSKM, VAT, SAT領域の分布類似性を示した。
DAFS ExpressはDICOMあたり平均18秒を要した。
このことは、研究と臨床における画像解析プロセスの合理化の可能性を強調し、診断精度と効率を向上させる。
Body composition analysis is vital in assessing health conditions such as obesity, sarcopenia, and metabolic syndromes. MRI provides detailed images of skeletal muscle (SKM), visceral adipose tissue (VAT), and subcutaneous adipose tissue (SAT), but their manual segmentation is labor-intensive and limits clinical applicability. This study validates an automated tool for MRI-based 2D body composition analysis- (Data Analysis Facilitation Suite (DAFS) Express), comparing its automated measurements with expert manual segmentations using UK Biobank data. A cohort of 399 participants from the UK Biobank dataset was selected, yielding 423 single L3 slices for analysis. DAFS Express performed automated segmentations of SKM, VAT, and SAT, which were then manually corrected by expert raters for validation. Evaluation metrics included Jaccard coefficients, Dice scores, Intraclass Correlation Coefficients (ICCs), and Bland-Altman Plots to assess segmentation agreement and reliability. High agreements were observed between automated and manual segmentations with mean Jaccard scores: SKM 99.03%, VAT 95.25%, and SAT 99.57%; and mean Dice scores: SKM 99.51%, VAT 97.41%, and SAT 99.78%. Cross-sectional area comparisons showed consistent measurements with automated methods closely matching manual measurements for SKM and SAT, and slightly higher values for VAT (SKM: Auto 132.51 cm^2, Manual 132.36 cm^2; VAT: Auto 137.07 cm^2, Manual 134.46 cm^2; SAT: Auto 203.39 cm^2, Manual 202.85 cm^2). ICCs confirmed strong reliability (SKM: 0.998, VAT: 0.994, SAT: 0.994). Bland-Altman plots revealed minimal biases, and boxplots illustrated distribution similarities across SKM, VAT, and SAT areas. On average DAFS Express took 18 seconds per DICOM. This underscores its potential to streamline image analysis processes in research and clinical settings, enhancing diagnostic accuracy and efficiency. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# FSMDet:完全スパース3D検出器のための視覚誘導型特徴拡散
FSMDet: Vision-guided feature diffusion for fully sparse 3D detector ( http://arxiv.org/abs/2409.06945v1 ) ライセンス: Link先を確認 | Tianran Liu, Morteza Mousa Pasandi, Robert Laganiere, | (参考訳) 完全にスパースな3D検出は、近年ますます関心を集めている。
しかし、これらのフレームワークにおける機能の範囲は、拡散プロセスが限られているため、提案の生成に挑戦する。
さらに、効率性の追求により、視覚支援完全スパースモデルの研究はほとんど行われていない。
本稿では, FSMDet(Fully Sparse Multi-modal Detection)を提案し, パイプラインの効率を保ちながら, 視覚情報を用いてLiDAR特徴拡散過程を導出する。
特に、完全にスパースな研究のほとんどは、複雑なカスタマイズされた中心核融合拡散/回帰演算子に焦点を当てている。
しかし、適切な対象完了が実行されれば、最も単純な補間演算子でさえ満足な結果をもたらすことが観察された。
この観察に触発されて、視覚誘導拡散過程を、形状回復層(SRLayer)と自己拡散層(SDLayer)の2つのモジュールに分割した。
前者はRGB情報を使用して、オブジェクトの可視部分の形状を復元し、後者は、その特徴を中心領域にさらに広げるために、視覚的事前を使用する。
実験により,LiDARのみを使用し,マルチモーダルモデルにおけるSOTA性能に到達する従来の完全スパースモデルの性能向上が得られた。
同時に、スパースアーキテクチャにより、我々の手法は推論プロセスにおける従来のSOTA法よりも最大5倍効率が良い。
Fully sparse 3D detection has attracted an increasing interest in the recent years. However, the sparsity of the features in these frameworks challenges the generation of proposals because of the limited diffusion process. In addition, the quest for efficiency has led to only few work on vision-assisted fully sparse models. In this paper, we propose FSMDet (Fully Sparse Multi-modal Detection), which use visual information to guide the LiDAR feature diffusion process while still maintaining the efficiency of the pipeline. Specifically, most of fully sparse works focus on complex customized center fusion diffusion/regression operators. However, we observed that if the adequate object completion is performed, even the simplest interpolation operator leads to satisfactory results. Inspired by this observation, we split the vision-guided diffusion process into two modules: a Shape Recover Layer (SRLayer) and a Self Diffusion Layer (SDLayer). The former uses RGB information to recover the shape of the visible part of an object, and the latter uses a visual prior to further spread the features to the center region. Experiments demonstrate that our approach successfully improves the performance of previous fully sparse models that use LiDAR only and reaches SOTA performance in multimodal models. At the same time, thanks to the sparse architecture, our method can be up to 5 times more efficient than previous SOTA methods in the inference process. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# ラビリンスを解くための13時間 - 関数呼び出しによるAIゲームマスタの強化
You Have Thirteen Hours in Which to Solve the Labyrinth: Enhancing AI Game Masters with Function Calling ( http://arxiv.org/abs/2409.06949v1 ) ライセンス: Link先を確認 | Jaewoo Song, Andrew Zhu, Chris Callison-Burch, | (参考訳) テキストベースのゲームのための一貫性があり信頼性の高いAIゲームマスタの開発は、大きな言語モデル(LLM)の制限とゲームマスタの役割の複雑さのために難しい課題である。
本稿では,テーブルトップロールプレイングゲーム "Jim Henson's Labyrinth: The Adventure Game" のコンテキストにおいて,関数呼び出しを活用することで,AIゲームマスタを強化する新たなアプローチを提案する。
本手法は,AIゲームマスタの物語的品質と状態更新の整合性の向上を示す関数を通じてゲーム固有の制御を統合することを含む。
実験結果は,人間の評価と単体テストに基づいて,ゲームプレイ体験の向上とゲーム状態とのコヒーレンス維持におけるアプローチの有効性を実証した。
この研究は、ゲームAIとインタラクティブなストーリーテリングの進歩に貢献し、より魅力的で一貫性のあるAI駆動型ゲームマスターの設計に関する洞察を提供する。
Developing a consistent and reliable AI game master for text-based games is a challenging task due to the limitations of large language models (LLMs) and the complexity of the game master's role. This paper presents a novel approach to enhance AI game masters by leveraging function calling in the context of the table-top role-playing game "Jim Henson's Labyrinth: The Adventure Game." Our methodology involves integrating game-specific controls through functions, which we show improves the narrative quality and state update consistency of the AI game master. The experimental results, based on human evaluations and unit tests, demonstrate the effectiveness of our approach in enhancing gameplay experience and maintaining coherence with the game state. This work contributes to the advancement of game AI and interactive storytelling, offering insights into the design of more engaging and consistent AI-driven game masters. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# 複数の正解を用いたニューラルアルゴリズム推論
Neural Algorithmic Reasoning with Multiple Correct Solutions ( http://arxiv.org/abs/2409.06953v1 ) ライセンス: Link先を確認 | Zeno Kujawa, John Poole, Dobrik Georgiev, Danilo Numeroso, Pietro Liò, | (参考訳) Neural Algorithmic Reasoning (NAR)は、古典的なアルゴリズムを最適化することを目的としている。
しかし、NARの標準的な実装は、単一ソースの最短経路のような問題に対する複数の正しい解決策がある場合でも、単一のソリューションのみを返すようにニューラルネットワークを訓練する。
一部のアプリケーションでは、複数の正しい解を回復することが望ましい。
そのために,複数のソリューションを用いた最初のNAR法を提案する。
本稿では,Bellman-Ford (BF) とDepth-First Search (DFS) の2つのアルゴリズムについて,より広範なアルゴリズム調査よりも2つのアルゴリズムについてより深い知見を求める。
この方法は、モデル出力からソリューションをサンプリングし、検証するだけでなく、適切なトレーニングデータを生成することを含む。
提案手法の各ステップは,本論文で提示されたタスクを超えて,ニューラルネットワーク推論の枠組みとして機能する。
Neural Algorithmic Reasoning (NAR) aims to optimize classical algorithms. However, canonical implementations of NAR train neural networks to return only a single solution, even when there are multiple correct solutions to a problem, such as single-source shortest paths. For some applications, it is desirable to recover more than one correct solution. To that end, we give the first method for NAR with multiple solutions. We demonstrate our method on two classical algorithms: Bellman-Ford (BF) and Depth-First Search (DFS), favouring deeper insight into two algorithms over a broader survey of algorithms. This method involves generating appropriate training data as well as sampling and validating solutions from model output. Each step of our method, which can serve as a framework for neural algorithmic reasoning beyond the tasks presented in this paper, might be of independent interest to the field and our results represent the first attempt at this task in the NAR literature. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# 条件付き発電機を用いた知識蒸留による整合性を考慮したプライバシ保護フェデレーション学習
Privacy-Preserving Federated Learning with Consistency via Knowledge Distillation Using Conditional Generator ( http://arxiv.org/abs/2409.06955v1 ) ライセンス: Link先を確認 | Kangyang Luo, Shuai Wang, Xiang Li, Yunshi Lan, Ming Gao, Jinlong Shu, | (参考訳) フェデレートラーニング(FL)は、モデルパラメータや勾配の更新のみを共有し、プライベートデータをローカルに保持する分散学習フレームワークとして人気を集めています。
しかし、FLはプライバシ推論攻撃によるプライバシー漏洩のリスクがある。
そして、FLの既存のプライバシ保護機構は、高いパフォーマンスと効率を達成するのと矛盾する。
そこで我々は,各クライアントのローカルモデルを特徴抽出器と分類器に分離し,特徴抽出器の代わりに条件生成器を用いてサーバ側モデルアグリゲーションを行う,高い競争性能と高レベルのプライバシ保護を備えた新しいFL手法であるFedMD-CGを提案する。
ローカルジェネレータと分類器の整合性を確保するため、FedMD-CGは知識蒸留を活用し、潜在特徴レベルとロジットレベルの両方でローカルモデルとジェネレータを訓練する。
また、クライアント側トレーニングを強化するために、新たな分類損失を構築し、新しい多様性損失を設計する。
FedMD-CGはデータの不均一性に対して堅牢であり、(cGANのような)追加の識別器の訓練を必要としない。
我々は、FedMD-CGの優位性を検証するために、様々な画像分類タスクについて広範な実験を行った。
Federated Learning (FL) is gaining popularity as a distributed learning framework that only shares model parameters or gradient updates and keeps private data locally. However, FL is at risk of privacy leakage caused by privacy inference attacks. And most existing privacy-preserving mechanisms in FL conflict with achieving high performance and efficiency. Therefore, we propose FedMD-CG, a novel FL method with highly competitive performance and high-level privacy preservation, which decouples each client's local model into a feature extractor and a classifier, and utilizes a conditional generator instead of the feature extractor to perform server-side model aggregation. To ensure the consistency of local generators and classifiers, FedMD-CG leverages knowledge distillation to train local models and generators at both the latent feature level and the logit level. Also, we construct additional classification losses and design new diversity losses to enhance client-side training. FedMD-CG is robust to data heterogeneity and does not require training extra discriminators (like cGAN). We conduct extensive experiments on various image classification tasks to validate the superiority of FedMD-CG. | 翻訳日:2024-09-12 15:57:17 公開日:2024-09-11 |
# 自己監督型幾何拡張による点雲表現のブリッジ領域ギャップ
Bridging Domain Gap of Point Cloud Representations via Self-Supervised Geometric Augmentation ( http://arxiv.org/abs/2409.06956v1 ) ライセンス: Link先を確認 | Li Yu, Hongchao Zhong, Longkun Zou, Ke Chen, Pan Gao, | (参考訳) セマンティック・ポイント・クラウド分析の最近の進歩は、主に合成データ(例えば、ModelNetとShapeNet)によって駆動される。
したがって、これらの理想的な合成点雲の表現は幾何学的視点において限られたバリエーションを持ち、点雲分類のような多くの3次元視覚課題において優れた性能を得ることができる。
教師なし領域適応(UDA)の文脈では、合成点雲のために設計された表現学習は、不完全でノイズの多い点雲から領域不変な幾何学的パターンを捉えることはほとんどできない。
このような問題に対処するために,2つの自己教師付き幾何拡張タスクによる表現学習を正規化することにより,ドメイン間の点雲表現の幾何学的不変性を誘導する新しいスキームを導入する。
一方、拡張サンプルの翻訳距離を予測するための新しい前提課題として、閉塞や雑音による点雲の遠心移動を緩和する手法を提案する。
一方,我々は,幾何学的拡張点雲に対する関係性自己教師型学習をカスケード的に統合し,拡張変種や他のサンプルの内在的関係をクロスドメイン幾何学的特徴の余分な制約として利用した。
PointDA-10データセットを用いた実験は,提案手法の有効性を実証し,最先端の性能を実現する。
Recent progress of semantic point clouds analysis is largely driven by synthetic data (e.g., the ModelNet and the ShapeNet), which are typically complete, well-aligned and noisy free. Therefore, representations of those ideal synthetic point clouds have limited variations in the geometric perspective and can gain good performance on a number of 3D vision tasks such as point cloud classification. In the context of unsupervised domain adaptation (UDA), representation learning designed for synthetic point clouds can hardly capture domain invariant geometric patterns from incomplete and noisy point clouds. To address such a problem, we introduce a novel scheme for induced geometric invariance of point cloud representations across domains, via regularizing representation learning with two self-supervised geometric augmentation tasks. On one hand, a novel pretext task of predicting translation distances of augmented samples is proposed to alleviate centroid shift of point clouds due to occlusion and noises. On the other hand, we pioneer an integration of the relational self-supervised learning on geometrically-augmented point clouds in a cascade manner, utilizing the intrinsic relationship of augmented variants and other samples as extra constraints of cross-domain geometric features. Experiments on the PointDA-10 dataset demonstrate the effectiveness of the proposed method, achieving the state-of-the-art performance. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# コード生成のためのRLHFとファインチューンLDMのポリシーろ過
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation ( http://arxiv.org/abs/2409.06957v1 ) ライセンス: Link先を確認 | Wei Shen, Chuheng Zhang, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大型言語モデル(LLM)が指示に従うのを手助けし、有益な無害な応答を提供するための重要な手法の1つである。
直接的なポリシー最適化手法は存在するが、最先端のLCMはRLベースの手法(通常はPPO)をRLHFに導入し、優先データから学習した報酬モデルによって導かれる良い応答を生成するようにポリシーを訓練する。
これらの手法の主な課題は、特に応答を得るために長く複雑な推論を必要とするコード生成タスクにおいて、中間報酬モデルの不正確さである。
報酬モデルの信頼性は、異なる報酬が割り当てられた応答によって異なることがわかった。
これにより、報酬が信頼できないサンプルをフィルタリングして、政策学習中の信号と雑音の比率を改善することができ、その結果、PF-PPO(Policy Filtration for Proximal Policy Optimization)が生まれる。
与えられた報酬モデルに対する適切なポリシーフィルタリング戦略を選択するには、報酬とフィルタされたサンプルの実際のスコアの間の決定係数(R^2$)が良い指標となり、いくつかの有望な戦略を見つけるのに役立ちます。
我々は、コード生成タスクにおけるPF-PPOの有効性を検証するための広範な実験を行い、PF-PPOのいくつかの変種は、HumanEval, MBPP, および新しいより挑戦的なLeetCode Contestベンチマーク上で、7ビリオンパラメータモデルにまたがる新しい最先端性能を実現する。
Reinforcement learning from human feedback (RLHF) is one of the key techniques that helps large language models (LLMs) to follow instructions and provide helpful and harmless responses. While direct policy optimization methods exist, state-of-the-art LLMs adopt RL-based methods (usually PPO) in RLHF to train the policy to generate good responses guided by a reward model learned from preference data. The main challenge of these methods is the inaccuracy of the intermediate reward model, especially in code generation tasks that require long and complex reasoning to score a response. We find that the reliability of the reward model varies across responses assigned with different rewards. This motivates us to filter the samples whose rewards may be unreliable to improve signal-to-noise ratio during policy learning, resulting in Policy Filtration for Proximal Policy Optimization (PF-PPO). To choose a proper policy filtration strategy for a given reward model, the coefficient of determination ($R^2$) between rewards and actual scores on filtered samples serves as a good metrics and helps us find several promising strategies. We provide extensive experiments to validate the effectiveness of PF-PPO in code generation tasks, and find that some variants of PF-PPO are highly effective and achieve new state-of-the-art performance across 7-billion-parameter models on HumanEval, MBPP, and a new and more challenging LeetCode Contest benchmark. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# データ駆動信号領域を用いた新しい物理のモデル非依存検出に向けて
Toward Model-Agnostic Detection of New Physics Using Data-Driven Signal Regions ( http://arxiv.org/abs/2409.06960v1 ) ライセンス: Link先を確認 | Soheun Yi, John Alison, Mikael Kuusela, | (参考訳) 高エネルギー物理学における新しい粒子の探索において、信号領域(SR)を選択することが重要である。
既存の探索手法の多くは、領域を事前のドメイン知識に依存しているが、現在の理解範囲から外れた全く新しい粒子では利用できないかもしれない。
本稿では,特徴空間の特定の領域に集中している信号事象の局所的トポロジについて,モデルに依存しないがしばしば現実的な仮定に基づいて構築された手法を提案する。
信号成分を局所化高周波特性として考慮し,低域通過フィルタの概念を用いる。
我々は、SRを、観測された事象に付加的なランダムノイズが加えられた場合に最も影響を受ける領域として定義する。
高次元特徴空間における密度推定の課題は、対象事象によく似ているが任意の信号が存在しない事象の相補的な観測の信号を含む可能性のある事象の密度比を学習することで克服する。
本手法を$\mathrm{HH} \rightarrow 4b$イベントのシミュレートに応用することにより,信号イベントの高部分に集中する高次元特徴空間において,データ駆動SRを効率的に同定できることを実証する。
In the search for new particles in high-energy physics, it is crucial to select the Signal Region (SR) in such a way that it is enriched with signal events if they are present. While most existing search methods set the region relying on prior domain knowledge, it may be unavailable for a completely novel particle that falls outside the current scope of understanding. We address this issue by proposing a method built upon a model-agnostic but often realistic assumption about the localized topology of the signal events, in which they are concentrated in a certain area of the feature space. Considering the signal component as a localized high-frequency feature, our approach employs the notion of a low-pass filter. We define the SR as an area which is most affected when the observed events are smeared with additive random noise. We overcome challenges in density estimation in the high-dimensional feature space by learning the density ratio of events that potentially include a signal to the complementary observation of events that closely resemble the target events but are free of any signals. By applying our method to simulated $\mathrm{HH} \rightarrow 4b$ events, we demonstrate that the method can efficiently identify a data-driven SR in a high-dimensional feature space in which a high portion of signal events concentrate. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 脳にインスパイアされた視覚変換器のステップワイド・パッチ・マージ
Brain-Inspired Stepwise Patch Merging for Vision Transformers ( http://arxiv.org/abs/2409.06963v1 ) ライセンス: Link先を確認 | Yonghao Yu, Dongcheng Zhao, Guobin Shen, Yiting Dong, Yi Zeng, | (参考訳) 階層型アーキテクチャはビジョントランスフォーマー(ViT)の主流設計パラダイムとなり、Patch Mergingは列型アーキテクチャを階層型アーキテクチャに変換する重要なコンポーネントとして機能している。
本研究では,脳の全体的・局所的な情報を総合的な視覚的理解のために統合する能力からインスピレーションを得て,ステップワイド・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
SPMは、Multi-Scale Aggregation (MSA) と Guided Local Enhancement (GLE) の2つの重要なモジュールから構成されている。
MSAモジュールはマルチスケール機能を統合して特徴表現を強化し、GLEモジュールは局所的詳細抽出の精細化に重点を置いており、長距離依存性モデリングと局所的特徴拡張の最適バランスを実現する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験により、SPMは、特にオブジェクト検出やセマンティックセグメンテーションのような密集した予測タスクにおいて、様々なモデルの性能を著しく改善することが示された。
これらの結果は、幅広いコンピュータビジョンタスクにおけるモデル精度とロバスト性の向上におけるSPMの有効性を裏付けるものである。
The hierarchical architecture has become a mainstream design paradigm for Vision Transformers (ViTs), with Patch Merging serving as the pivotal component that transforms a columnar architecture into a hierarchical one. Drawing inspiration from the brain's ability to integrate global and local information for comprehensive visual understanding, we propose a novel technique called Stepwise Patch Merging (SPM), which enhances the subsequent attention mechanism's ability to 'see' better. SPM comprises two critical modules: Multi-Scale Aggregation (MSA) and Guided Local Enhancement (GLE). The MSA module integrates multi-scale features to enrich feature representation, while the GLE module focuses on refining local detail extraction, thus achieving an optimal balance between long-range dependency modeling and local feature enhancement. Extensive experiments conducted on benchmark datasets, including ImageNet-1K, COCO, and ADE20K, demonstrate that SPM significantly improves the performance of various models, particularly in dense prediction tasks such as object detection and semantic segmentation. These results underscore the efficacy of SPM in enhancing model accuracy and robustness across a wide range of computer vision tasks. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 大規模言語モデルと拡張教会教育論
Large Language Models and the Extended Church-Turing Thesis ( http://arxiv.org/abs/2409.06978v1 ) ライセンス: Link先を確認 | Jiří Wiedermann, Jan van Leeuwen, | (参考訳) Extended Church-Turing Thesis (ECTT) は、非有界および非一様対話型計算を含む全ての効果的な情報処理が、アドバイス付き対話型チューリングマシンの用語で記述可能であることを示唆している。
この主張は、現代の大規模言語モデル(LLM)の能力にも当てはまるだろうか?
より広い視点から見ると、この問題は計算可能性と計算複雑性理論の古典的な手段、特にオートマトンの理論によるLLMの計算能力の調査を要求する。
これらの線に沿って、私たちはいくつかの基本的な結果を確立します。
まず、固定的な(非適応的な) LLM は、計算量的に a, probably large, deterministic finite-state transducer と等価であると主張する。
これはLLMの基底レベルを特徴づける。
我々はこれを LLM による空間有界チューリングマシンのシミュレーションに関する重要な結果に拡張する。
第2に,LLMの進化系は,対話型チューリングマシンと計算機的に等価であることを示す。
後者はLCMの系統に対するECTTの有効性を確認した。
計算可能性の観点からは、LLMの系統が超チューリング計算能力を持っていることも示唆される。
したがって、我々の計算モデルにおける知識生成は一般に、LLMの系統によって実現される非アルゴリズム的プロセスである。
最後に、いくつかの関連する分野や哲学のより広い文脈において、我々の発見のメリットについて論じる。
The Extended Church-Turing Thesis (ECTT) posits that all effective information processing, including unbounded and non-uniform interactive computations, can be described in terms of interactive Turing machines with advice. Does this assertion also apply to the abilities of contemporary large language models (LLMs)? From a broader perspective, this question calls for an investigation of the computational power of LLMs by the classical means of computability and computational complexity theory, especially the theory of automata. Along these lines, we establish a number of fundamental results. Firstly, we argue that any fixed (non-adaptive) LLM is computationally equivalent to a, possibly very large, deterministic finite-state transducer. This characterizes the base level of LLMs. We extend this to a key result concerning the simulation of space-bounded Turing machines by LLMs. Secondly, we show that lineages of evolving LLMs are computationally equivalent to interactive Turing machines with advice. The latter finding confirms the validity of the ECTT for lineages of LLMs. From a computability viewpoint, it also suggests that lineages of LLMs possess super-Turing computational power. Consequently, in our computational model knowledge generation is in general a non-algorithmic process realized by lineages of LLMs. Finally, we discuss the merits of our findings in the broader context of several related disciplines and philosophies. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 誤認識を伴う表面符号の高速リスト復号アルゴリズム
A High-Performance List Decoding Algorithm for Surface Codes with Erroneous Syndrome ( http://arxiv.org/abs/2409.06979v1 ) ライセンス: Link先を確認 | Jifan Liang, Qianfan Wang, Lvzhou Li, Xiao Ma, | (参考訳) フォールトトレラント量子計算にはQECC(Quantum error-correcting code)が必要である。
表面符号はトポロジカルQECCのクラスであり、例外的な誤り訂正機能と簡単な実装のために大きな注目を集めている。
表面符号の復号過程において、このシンドロームは必ずしも正確に測定されるわけではないが、誤り訂正には不可欠である。
サーフェスコードの既存の復号アルゴリズムのほとんどは、誤ったシンドローム情報を処理したり、エラーのあるシンドロームを補正するための追加の測定を必要としないため、推論の複雑さと復号遅延が潜在的に増加する可能性がある。
本稿では,誤動作を伴う表面符号に対する高性能なリスト復号法を提案する。
より具体的には、誤症候群情報に対処するために、症候群ソフト情報を組み込んで、症候群をリストアップする。
リスト復号アルゴリズムの効率を向上させるため,従来の順序付き統計復号法(OSD)と比較して,古典的誤り訂正における平均リストサイズを大幅に削減できるLCOSDを用いる。
数値計算により,提案アルゴリズムは最小値完全マッチング (MWPM) やBPデコーダと比較して,誤動作を伴う表面符号の復号性能を著しく向上することを示した。
Quantum error-correcting codes (QECCs) are necessary for fault-tolerant quantum computation. Surface codes are a class of topological QECCs that have attracted significant attention due to their exceptional error-correcting capabilities and easy implementation. In the decoding process of surface codes, the syndromes are crucial for error correction, though they are not always correctly measured. Most of the existing decoding algorithms for surface codes are not equipped to handle erroneous syndrome information or need additional measurements to correct syndromes with errors, which implies a potential increase in inference complexity and decoding latency. In this paper, we propose a high-performance list decoding algorithm for surface codes with erroneous syndromes. More specifically, to cope with erroneous syndrome information, we incorporate syndrome soft information, allowing the syndrome to be listed as well. To enhance the efficiency of the list decoding algorithm, we use LCOSD, which can significantly reduce the average list size in classical error correction compared with the conventional ordered statistics decoding (OSD). Numerical results demonstrate that our proposed algorithm significantly improves the decoding performance of surface codes with erroneous syndromes compared to minimum-weight perfect matching (MWPM) and BP decoders. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# PanAdapter:2段階ファインチューニングと空間スペクトルプリミティブのパンハーペン注入
PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for Pansharpening ( http://arxiv.org/abs/2409.06980v1 ) ライセンス: Link先を確認 | RuoCheng Wu, ZiEn Zhang, ShangQi Deng, YuLe Duan, LiangJian Deng, | (参考訳) Pansharpeningは、低分解能マルチスペクトル画像(LRMS)と高分解能パンクロマチック画像(PAN)の2つの異なるモードを用いて画像を復元する、困難な画像融合タスクである。
ディープラーニング(DL)に基づくエンド・ツー・エンドの特化モデルが数多く提案されているが、これらのモデルのスケールと性能はデータセットのサイズによって制限されている。
事前訓練されたモデルの優れたパラメータスケールと特徴表現を考えると、小さなデータセットで下流タスクに転送された場合、優れたパフォーマンスを示す。
そこで本研究では,パンシャーピングタスクにおける小規模データセットの問題を軽減するために,事前学習したモデルからの高度なセマンティック情報を活用する,効率的な微調整手法であるPanAdapterを提案する。
具体的には、イメージ復元とパンシャーピングタスクの間の大きなドメインの相違をターゲットとして、PanAdapterでは、下流タスクに段階的に適応する2段階のトレーニング戦略を採用している。
第1段階では、事前学習したCNNモデルを微調整し、提案したLPEモジュールを用いてタスク固有の事前情報を2つのスケールで抽出する。
第2段階では,抽出した2種類の前駆体をそれぞれカスケードアダプタの2つの枝に供給する。
各アダプタでは,2つの分岐を相互作用させ,凍結したViTブロックに注入するためのパラメータ効率のよい2つのモジュールを設計する。
提案するLPEモジュールとアダプタを少数のパラメータでのみトレーニングすることにより,事前学習した画像復元モデルの利点を生かし,いくつかのベンチマークパンシャーピングデータセットで最先端のパフォーマンスを実現することができることを示す。
コードはまもなく利用可能になる。
Pansharpening is a challenging image fusion task that involves restoring images using two different modalities: low-resolution multispectral images (LRMS) and high-resolution panchromatic (PAN). Many end-to-end specialized models based on deep learning (DL) have been proposed, yet the scale and performance of these models are limited by the size of dataset. Given the superior parameter scales and feature representations of pre-trained models, they exhibit outstanding performance when transferred to downstream tasks with small datasets. Therefore, we propose an efficient fine-tuning method, namely PanAdapter, which utilizes additional advanced semantic information from pre-trained models to alleviate the issue of small-scale datasets in pansharpening tasks. Specifically, targeting the large domain discrepancy between image restoration and pansharpening tasks, the PanAdapter adopts a two-stage training strategy for progressively adapting to the downstream task. In the first stage, we fine-tune the pre-trained CNN model and extract task-specific priors at two scales by proposed Local Prior Extraction (LPE) module. In the second stage, we feed the extracted two-scale priors into two branches of cascaded adapters respectively. At each adapter, we design two parameter-efficient modules for allowing the two branches to interact and be injected into the frozen pre-trained VisionTransformer (ViT) blocks. We demonstrate that by only training the proposed LPE modules and adapters with a small number of parameters, our approach can benefit from pre-trained image restoration models and achieve state-of-the-art performance in several benchmark pansharpening datasets. The code will be available soon. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# GANデコーダによる忠実度最適化量子表面符号と量子テレポーテーションへの応用
Fidelity-optimized quantum surface code via GAN decoder and application to quantum teleportation ( http://arxiv.org/abs/2409.06984v1 ) ライセンス: Link先を確認 | Jiaxin Li, Zhimin Wang, Alberto Ferrara, Yongjian Gu, Rosario Lo Franco, | (参考訳) GAN(Generative Adversarial Network)は、画像処理やデータ拡張といった実践的な応用において、その価値を示す強力なディープラーニングモデルである。
本稿では,GANに基づく量子トポロジカルコードデコーダを提案する。
我々は、GANのジェネレータと識別器ネットワークを構築し、トポロジカルコードの固有値データセットを用いてネットワークを訓練し、高い復号しきい値を持つ最適化デコーダを得る。
符号距離$d=3$と$d=5$の復号実験は、このモデルの誤り訂正成功率は99.895\%に達することを示している。
実験では、このGANデコーダの忠実度閾値は約$P=0.2108$であり、古典的復号モデルのしきい値である$P=0.1099$よりも大幅に改善されている。
さらに、$d=3$の位相コードの下での耐雑音性に最適化された量子テレポーテーションシステムは、P<0.06503$の非偏極ノイズしきい値範囲内で顕著なフィリティ改善を示す一方、$d=5$の位相コード最適化では、P<0.07512$の非偏極ノイズしきい値範囲内では顕著なフィリティ改善がある。
提案したGANモデルは、トポロジカルコードデコーダに新しいアプローチを提供し、その原理を様々な種類のノイズ処理に適用することができる。
Generative adversarial network (GAN) is a strong deep learning model that has shown its value in practical applications such as image processing and data enhancement. Here, we propose a quantum topological code decoder based on GAN and we apply it to optimize the fault-tolerant quantum teleportation system. We construct the generator and discriminator networks of GAN, train the network using the eigenvalue dataset of the topological code, and obtain an optimized decoder with high decoding threshold. The decoding experiments at code distances $d=3$ and $d=5$ show that the error correction success rate of this model reaches 99.895\%. In the experiment, the fidelity threshold of this GAN decoder is about $P=0.2108$, which is significantly improved compared with the threshold $P=0.1099$ of the classical decoding model. In addition, the quantum teleportation system, optimized for noise resistance under $d=3$ topological code, shows a noticeable fidelity improvement within the non-polarized noise threshold range of $P<0.06503$, while under $d=5$ topological code optimization, there is a significant fidelity improvement within the non-polarized noise threshold range of $P<0.07512$. The proposed GAN model supplies a novel approach for topological code decoders and its principles can be applied to different kinds of noise processing. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 適応的注意を伴うクロスドメイン事前学習決定変換器の強化
Enhancing Cross-domain Pre-Trained Decision Transformers with Adaptive Attention ( http://arxiv.org/abs/2409.06985v1 ) ライセンス: Link先を確認 | Wenhao Zhao, Qiushui Xu, Linjie Xu, Lei Song, Jinyu Wang, Chunlai Zhou, Jiang Bian, | (参考訳) 近年,自然言語テキストなどの異なる領域を用いた意思決定変換器(DT)の事前学習は,オフライン強化学習(Offline RL)において大きな注目を集めている。
このクロスドメイン事前学習アプローチは、短期計画能力を必要とする環境において、スクラッチからトレーニングするよりも優れた性能を実現するが、事前学習が微調整フェーズに恩恵をもたらすメカニズムはいまだ不明である。
さらに、クロスドメイン事前学習アプローチは、長期計画能力を必要とするPointMazeのような環境での遠隔情報抽出を妨げ、DTをスクラッチからトレーニングするよりもはるかに悪いパフォーマンスをもたらすことを指摘した。
この研究はまずこれらの問題を解析し、事前学習された注意ヘッドに存在するコンポーネントであるMarkov Matrixが、異なる計画能力における事前学習されたモデルの顕著なパフォーマンス格差を説明する鍵であることを発見した。
そこで本研究では,事前学習したDTとMixture of Attention (MoA)を併用したGPT-DTMAを提案する。
GPT-DTMAの有効性は、ベースラインよりも短期環境の方が優れており、長期環境ではマルコフマトリックスによる負の影響を軽減し、スクラッチからトレーニングしたDTに匹敵する結果が得られる。
Recently, the pre-training of decision transformers (DT) using a different domain, such as natural language text, has generated significant attention in offline reinforcement learning (Offline RL). Although this cross-domain pre-training approach achieves superior performance compared to training from scratch in environments required short-term planning ability, the mechanisms by which pre-training benefits the fine-tuning phase remain unclear. Furthermore, we point out that the cross-domain pre-training approach hinders the extraction of distant information in environments like PointMaze that require long-term planning ability, leading to performance that is much worse than training DT from scratch. This work first analyzes these issues and found that Markov Matrix, a component that exists in pre-trained attention heads, is the key to explain the significant performance disparity of pre-trained models in different planning abilities. Inspired by our analysis, we propose a general method GPT-DTMA, which equips a pre-trained DT with Mixture of Attention (MoA), to enable adaptive learning and accommodating diverse attention requirements during fine-tuning. Extensive experiments demonstrate that the effectiveness of GPT-DTMA: it achieves superior performance in short-term environments compared to baselines, and in long-term environments, it mitigates the negative impact caused by Markov Matrix, achieving results comparable to those of DT trained from scratch. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 超電導量子プロセッサ上でのリアルタイムフィードフォワードによる一定深さファンアウトの実現
Realization of Constant-Depth Fan-Out with Real-Time Feedforward on a Superconducting Quantum Processor ( http://arxiv.org/abs/2409.06989v1 ) ライセンス: Link先を確認 | Yongxin Song, Liberto Beltrán, Ilya Besedin, Michael Kerschbaum, Marek Pechal, François Swiadek, Christoph Hellings, Dante Colao Zanuz, Alexander Flasby, Jean-Claude Besse, Andreas Wallraff, | (参考訳) 単位ゲート列を使用する場合、出力サイズを持つ多くの量子回路の深さの増大は、実用的な量子計算に重大な障害をもたらす。
量子フーリエ変換やショアのアルゴリズムのような量子アルゴリズムの回路深さを減少させる量子ファンアウト演算は、出力サイズに依存しない一定の深さで実現できる例である。
ここでは、超伝導量子プロセッサを用いて、最大4つの出力量子ビットをリアルタイムにフィードフォワードする量子ファンアウトゲートを実演する。
出力状態の量子状態トモグラフィーにより、Bloch球全体にわたる入力状態でゲートをベンチマークする。
出力状態エラーを独立に特徴付けられたエラーコントリビューションの集合に分解する。
フィードフォワード制御を施した25個の出力量子ビットを超えるユニタリファンアウトシーケンスや、古典的なフィードフォワード遅延が無視できる17個の出力量子ビットを超える出力量子ビットに対して、我々の定数深さ回路を外挿し、スケーリング上の優位性を提供する。
我々の研究は、複雑な量子アルゴリズムの効率を向上させるために、実時間条件演算と組み合わされた中間回路計測の可能性を強調した。
When using unitary gate sequences, the growth in depth of many quantum circuits with output size poses significant obstacles to practical quantum computation. The quantum fan-out operation, which reduces the circuit depth of quantum algorithms such as the quantum Fourier transform and Shor's algorithm, is an example that can be realized in constant depth independent of the output size. Here, we demonstrate a quantum fan-out gate with real-time feedforward on up to four output qubits using a superconducting quantum processor. By performing quantum state tomography on the output states, we benchmark our gate with input states spanning the entire Bloch sphere. We decompose the output-state error into a set of independently characterized error contributions. We extrapolate our constant-depth circuit to offer a scaling advantage compared to the unitary fan-out sequence beyond 25 output qubits with feedforward control, or beyond 17 output qubits if the classical feedforward latency is negligible. Our work highlights the potential of mid-circuit measurements combined with real-time conditional operations to improve the efficiency of complex quantum algorithms. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 1Mディープフェイク検出チャレンジ
1M-Deepfakes Detection Challenge ( http://arxiv.org/abs/2409.06991v1 ) ライセンス: Link先を確認 | Zhixi Cai, Abhinav Dhall, Shreya Ghosh, Munawar Hayat, Dimitrios Kollias, Kalin Stefanov, Usman Tariq, | (参考訳) ディープフェイクコンテンツの検出とローカライゼーションは、特に小さなフェイクセグメントが実際のビデオとシームレスに混ざり合っている場合、デジタルメディアのセキュリティ分野において重要な課題である。
最近リリースされたAV-Deepfake1Mデータセットに基づいて、2000人以上の被験者に100万以上の操作されたビデオが含まれている。
この課題は、大規模で現実的なオーディオ視覚データセット内のディープフェイク操作を検出し、ローカライズする高度な手法の開発に、研究コミュニティを巻き込むことを目的としている。
参加者はAV-Deepfake1Mデータセットにアクセスでき、検出やローカライゼーションタスクのメトリクス間で評価のために推論結果を提出する必要がある。
この課題を通じて開発された方法論は、次世代のディープフェイク検出およびローカライゼーションシステムの開発に寄与する。
評価スクリプト、ベースラインモデル、および付随するコードはhttps://github.com/ControlNet/AV-Deepfake1Mで入手できる。
The detection and localization of deepfake content, particularly when small fake segments are seamlessly mixed with real videos, remains a significant challenge in the field of digital media security. Based on the recently released AV-Deepfake1M dataset, which contains more than 1 million manipulated videos across more than 2,000 subjects, we introduce the 1M-Deepfakes Detection Challenge. This challenge is designed to engage the research community in developing advanced methods for detecting and localizing deepfake manipulations within the large-scale high-realistic audio-visual dataset. The participants can access the AV-Deepfake1M dataset and are required to submit their inference results for evaluation across the metrics for detection or localization tasks. The methodologies developed through the challenge will contribute to the development of next-generation deepfake detection and localization systems. Evaluation scripts, baseline models, and accompanying code will be available on https://github.com/ControlNet/AV-Deepfake1M. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# テンソルネットワークマッピングモデルと分散回路アンサッツを用いた量子トレイン
Quantum-Train with Tensor Network Mapping Model and Distributed Circuit Ansatz ( http://arxiv.org/abs/2409.06992v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, Chu-Hsuan Abraham Lin, Kuan-Cheng Chen, | (参考訳) 量子トレイン(QT)フレームワークでは、量子状態の測定を古典的なニューラルネットワークの重みにマッピングすることは、ハイブリッド量子古典モデルのスケーラビリティと効率に影響を与える重要な課題である。
従来のQTフレームワークでは、このタスクにマルチレイヤパーセプトロン(MLP)を採用しているが、スケーラビリティと解釈可能性に苦慮している。
これらの問題に対処するため、MLPをテンソルネットワークベースモデルに置き換え、複数の小さな量子処理ユニットノードで大規模量子機械学習用に設計された分散回路アンサッツを提案する。
このアプローチはスケーラビリティを高め、高次元データを効率的に表現し、コンパクトなモデル構造を維持する。
我々の拡張QTフレームワークは、推論中にパラメータカウントを減らし、量子リソースから独立する利点を保っている。
ベンチマークデータセットの実験結果は、テンソルネットワークベースのQTフレームワークが効率と一般化を改善して競争性能を達成し、スケーラブルなハイブリッド量子古典機械学習のための実用的なソリューションを提供することを示した。
In the Quantum-Train (QT) framework, mapping quantum state measurements to classical neural network weights is a critical challenge that affects the scalability and efficiency of hybrid quantum-classical models. The traditional QT framework employs a multi-layer perceptron (MLP) for this task, but it struggles with scalability and interpretability. To address these issues, we propose replacing the MLP with a tensor network-based model and introducing a distributed circuit ansatz designed for large-scale quantum machine learning with multiple small quantum processing unit nodes. This approach enhances scalability, efficiently represents high-dimensional data, and maintains a compact model structure. Our enhanced QT framework retains the benefits of reduced parameter count and independence from quantum resources during inference. Experimental results on benchmark datasets demonstrate that the tensor network-based QT framework achieves competitive performance with improved efficiency and generalization, offering a practical solution for scalable hybrid quantum-classical machine learning. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# RICAU-Net: 心筋CTにおける小・小カルシウム病変の分画のための残差ブロック誘発協調注意U-Net
RICAU-Net: Residual-block Inspired Coordinate Attention U-Net for Segmentation of Small and Sparse Calcium Lesions in Cardiac CT ( http://arxiv.org/abs/2409.06993v1 ) ライセンス: Link先を確認 | Doyoung Park, Jinsoo Kim, Qi Chang, Shuang Leng, Liang Zhong, Lohendran Baskaran, | (参考訳) 4大冠動脈の石灰化の総和であるAgatstonスコアは,冠動脈疾患(CAD)の診断に広く用いられている。
しかし、特定の血管の石灰化が冠状心疾患(CHD)の発生と著しく相関していることから、血管特異的なAgatstonスコアの重要性が多くの研究で強調されている。
本稿では,2つの異なる方法で座標注意を組み込んだResidual-block Inspired Coordinate Attention U-Net(RICAU-Net)と,病変特異的冠状動脈カルシウム(CAC)セグメンテーションのためのコンボ損失関数を提案する。
本手法は,特に左冠状動脈 (LM) のCACは, 左冠状動脈 (LM) の解剖学的構造に起因し, データセットの欠如に対処することを目的としている。
提案手法は,Diceスコア,精度,リコールを用いた6種類の手法と比較した。
アプローチは4病変すべてに対して最も高いDiceスコアを達成し,特にLMでは他の方法と比較してCACが有効であった。
Ablation study showed the importance of positional information from the coordinate attention and the customd loss function in segmenting small and sparse lesions with a high class-imbalance problem。
The Agatston score, which is the sum of the calcification in the four main coronary arteries, has been widely used in the diagnosis of coronary artery disease (CAD). However, many studies have emphasized the importance of the vessel-specific Agatston score, as calcification in a specific vessel is significantly correlated with the occurrence of coronary heart disease (CHD). In this paper, we propose the Residual-block Inspired Coordinate Attention U-Net (RICAU-Net), which incorporates coordinate attention in two distinct manners and a customized combo loss function for lesion-specific coronary artery calcium (CAC) segmentation. This approach aims to tackle the high class-imbalance issue associated with small and sparse lesions, particularly for CAC in the left main coronary artery (LM) which is generally small and the scarcest in the dataset due to its anatomical structure. The proposed method was compared with six different methods using Dice score, precision, and recall. Our approach achieved the highest per-lesion Dice scores for all four lesions, especially for CAC in LM compared to other methods. The ablation studies demonstrated the significance of positional information from the coordinate attention and the customized loss function in segmenting small and sparse lesions with a high class-imbalance problem. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# 予測時最適タスク間の距離の正しい表記は何か?
What is the Right Notion of Distance between Predict-then-Optimize Tasks? ( http://arxiv.org/abs/2409.06997v1 ) ライセンス: Link先を確認 | Paula Rodriguez-Diaz, Lingkai Kong, Kai Wang, David Alvarez-Melis, Milind Tambe, | (参考訳) データセットの比較は、モデル一般化のためのトレーニングデータセットとテストデータセットの評価から、データドリフトの検出にデータセット類似性を使用するまで、さまざまな学習パラダイムに不可欠な機械学習の基本的なタスクである。
従来のデータセット距離の概念は類似性の原則的尺度を提供するが、その実用性は予測誤差の最小化によって評価されてきた。
しかし、下流最適化タスクの入力として予測が機能するPredict-then-Optimize (PtO)フレームワークでは、モデル性能は予測エラーの最小化ではなく、決定後悔の最小化によって測定される。
この作品では、
i) 特徴量やラベル次元のみに依存する従来のデータセット距離は、PtOコンテキストにおいて情報性が欠如していることを示し、
(II)下流決定の影響を組み込んだ新しいデータセット距離を提案する。
以上の結果から,この決定対応データセット距離は,PtOコンテキストにおける適応成功を効果的に捉え,データセット距離の点でPtO適応性を実現することが示唆された。
実験により,提案手法は文献から3つの異なるPtOタスク間での伝達可能性を正確に予測する。
Comparing datasets is a fundamental task in machine learning, essential for various learning paradigms; from evaluating train and test datasets for model generalization to using dataset similarity for detecting data drift. While traditional notions of dataset distances offer principled measures of similarity, their utility has largely been assessed through prediction error minimization. However, in Predict-then-Optimize (PtO) frameworks, where predictions serve as inputs for downstream optimization tasks, model performance is measured through decision regret minimization rather than prediction error minimization. In this work, we (i) show that traditional dataset distances, which rely solely on feature and label dimensions, lack informativeness in the PtO context, and (ii) propose a new dataset distance that incorporates the impacts of downstream decisions. Our results show that this decision-aware dataset distance effectively captures adaptation success in PtO contexts, providing a PtO adaptation bound in terms of dataset distance. Empirically, we show that our proposed distance measure accurately predicts transferability across three different PtO tasks from the literature. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# ヘテロフォリーなグラフニューラルネットワークのためのパーソナライズされたスコーピングの学習
Learning Personalized Scoping for Graph Neural Networks under Heterophily ( http://arxiv.org/abs/2409.06998v1 ) ライセンス: Link先を確認 | Gangda Deng, Hongkuan Zhou, Rajgopal Kannan, Viktor Prasanna, | (参考訳) 異種ノードが接続するヘテロ親和性グラフは、グラフニューラルネットワーク(GNN)において、その優れた性能が相同性情報の集約から得られるため、課題となる。
GNN深度の増加は、スコープ(すなわち受容場)を拡大し、高次近傍からホモフィリーを見つける可能性がある。
しかし、実世界のグラフはしばしばノード間のホモフィラリティを示すため、スコープを均一に拡張するとサブパーのパフォーマンスが低下する。
理想的な方法はパーソナライズされたスコープであり、ノードはさまざまなスコープサイズを持つことができる。
既存のメソッドは通常、ホップ毎にノード適応重みを追加します。
表現力はあるものの、必然的に過度なオーバーフィッティングに悩まされる。
この問題に対処するため、我々は、ノード分類におけるGNN過剰適合を克服する、個別のスコープ分類問題としてパーソナライズされたスコーピングを形式化する。
具体的には,各ノードの最適GNN深さを予測する。
我々の理論的および実証的な分析は、正確な深さ予測が一般化を著しく促進できることを示唆している。
さらに、GNN推論にのみ参加する軽量MLPベースのアプローチであるAdaptive Scope (AS)を提案する。
ASは構造パターンを符号化し、各ノードの予測に最適なモデルを選択する深さを予測する。
実験の結果,ASは広範囲のデータセットにまたがる様々なGNNアーキテクチャで高い柔軟性を示し,精度は著しく向上した。
Heterophilous graphs, where dissimilar nodes tend to connect, pose a challenge for graph neural networks (GNNs) as their superior performance typically comes from aggregating homophilous information. Increasing the GNN depth can expand the scope (i.e., receptive field), potentially finding homophily from the higher-order neighborhoods. However, uniformly expanding the scope results in subpar performance since real-world graphs often exhibit homophily disparity between nodes. An ideal way is personalized scopes, allowing nodes to have varying scope sizes. Existing methods typically add node-adaptive weights for each hop. Although expressive, they inevitably suffer from severe overfitting. To address this issue, we formalize personalized scoping as a separate scope classification problem that overcomes GNN overfitting in node classification. Specifically, we predict the optimal GNN depth for each node. Our theoretical and empirical analysis suggests that accurately predicting the depth can significantly enhance generalization. We further propose Adaptive Scope (AS), a lightweight MLP-based approach that only participates in GNN inference. AS encodes structural patterns and predicts the depth to select the best model for each node's prediction. Experimental results show that AS is highly flexible with various GNN architectures across a wide range of datasets while significantly improving accuracy. | 翻訳日:2024-09-12 15:47:11 公開日:2024-09-11 |
# UNIQuEの紹介 : 非従来型ノイズレス中間量子エミュレータ
Introducing UNIQuE: The Unconventional Noiseless Intermediate Quantum Emulator ( http://arxiv.org/abs/2409.07000v1 ) ライセンス: Link先を確認 | Reece Robertson, Dan Ventura, | (参考訳) 我々は、算術演算、量子フーリエ変換、量子位相推定を含む最初のオープンソースの量子コンピューティングエミュレータを実装した。
エミュレータは、シミュレーションと比較して時間的・空間的なリソースの節約に大きく貢献し、これらの計算上の利点はIntel Quantum Simulatorと比較して検証される。
また、このエミュレータを用いてShorのアルゴリズムを実装し、非自明なファクタリング問題を解く方法を示す。
このことは、エミュレーションが、研究者がノイズレス環境における大きな問題におけるアルゴリズムの挙動を研究できるようにすることで、シミュレーションやノイズの多いハードウェアよりも量子コンピューティングを利用可能にすることを示している。
We implement the first open-source quantum computing emulator that includes arithmetic operations, the quantum Fourier transform, and quantum phase estimation. The emulator provides significant savings in both temporal and spatial resources compared to simulation, and these computational advantages are verified through comparison to the Intel Quantum Simulator. We also demonstrate how to use the emulator to implement Shor's algorithm and use it to solve a nontrivial factoring problem. This demonstrates that emulation can make quantum computing more accessible than simulation or noisy hardware by allowing researchers to study the behavior of algorithms on large problems in a noiseless environment. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# AdvLogo:拡散モデルに基づくオブジェクト検出器に対する逆パッチ攻撃
AdvLogo: Adversarial Patch Attack against Object Detectors based on Diffusion Models ( http://arxiv.org/abs/2409.07002v1 ) ライセンス: Link先を確認 | Boming Miao, Chunxiao Li, Yao Zhu, Weixiang Sun, Zizhe Wang, Xiaoyi Wang, Chuanlong Xie, | (参考訳) ディープラーニングの急速な発展に伴い、オブジェクト検出器は印象的な性能を示したが、特定のシナリオにはまだ脆弱性が存在する。
敵のパッチを使って脆弱性を調査する現在の研究は、攻撃の有効性と視覚的品質の間のトレードオフのバランスをとるのに苦労することが多い。
この問題に対処するため,我々は意味論的観点からパッチアタックの新たな枠組みを提案し,これをAdvLogoと呼ぶ。
各セマンティック空間は、画像が物体の認識に失敗する可能性がある対向部分空間を含むという仮説に基づいて、拡散復調過程のセマンティック理解を活用し、最終段階において潜伏および非条件埋め込みを摂動させることにより、対向部分空間へとプロセスを進める。
画像品質に悪影響を及ぼす分布シフトを緩和するため、フーリエ変換を用いた周波数領域の潜伏者に摂動を適用する。
実験により、AdvLogoは高い視覚的品質を維持しながら強力な攻撃性能を発揮することが示された。
With the rapid development of deep learning, object detectors have demonstrated impressive performance; however, vulnerabilities still exist in certain scenarios. Current research exploring the vulnerabilities using adversarial patches often struggles to balance the trade-off between attack effectiveness and visual quality. To address this problem, we propose a novel framework of patch attack from semantic perspective, which we refer to as AdvLogo. Based on the hypothesis that every semantic space contains an adversarial subspace where images can cause detectors to fail in recognizing objects, we leverage the semantic understanding of the diffusion denoising process and drive the process to adversarial subareas by perturbing the latent and unconditional embeddings at the last timestep. To mitigate the distribution shift that exposes a negative impact on image quality, we apply perturbation to the latent in frequency domain with the Fourier Transform. Experimental results demonstrate that AdvLogo achieves strong attack performance while maintaining high visual quality. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# ODYSSEE:エッジエレクトロニクスのセンサシステムによるオイスター検出
ODYSSEE: Oyster Detection Yielded by Sensor Systems on Edge Electronics ( http://arxiv.org/abs/2409.07003v1 ) ライセンス: Link先を確認 | Xiaomin Lin, Vivek Mange, Arjun Suresh, Bernhard Neuberger, Aadi Palnitkar, Brendan Campbell, Alan Williams, Kleio Baxevani, Jeremy Mallette, Alhim Vera, Markus Vincze, Ioannis Rekleitis, Herbert G. Tanner, Yiannis Aloimonos, | (参考訳) オイスターは沿岸生態系において重要な種であり、経済的、環境的、文化的な利益を提供している。
しかし、現在の監視システムは、しばしば破壊的であり、通常、カキを物理的に収集し数えるために干ばつを伴っている。
非破壊的な代替手段は、ダイバーが収集したビデオ映像から手動で識別することである。
人間の監視の代替として、訓練されたオブジェクト検出モデルによるシステムのデプロイが、フィールド内のエッジカキ検出にリアルタイムで実行される。
そのようなプラットフォームのひとつがAqua2ロボットだ。
これらのモデルの効果的な訓練には広範囲な高品質なデータが必要であるが、海洋環境下では入手が困難である。
これらの問題に対処するために, 安定拡散を利用して, 海洋ドメインの高品質な合成データを生成する新しい手法を提案する。
我々は拡散モデルを利用して光リアルな海洋画像を作成し、制御ネット入力を用いて、セグメンテーション・グラウンド・トゥルースマスク、シーンの幾何学、カキの実際の水中画像のターゲット領域との整合性を確保する。
その結果得られたデータセットは、YOLOv10ベースのビジョンモデルをトレーニングするために使用され、Aqua2プラットフォーム上でカキを検出するための最先端の0.657 mAP@50を達成する。
本システムでは, カキの生息環境モニタリングを改善するだけでなく, 海洋環境における各種タスクの自律的な監視, 養殖と保全の取り組みも改善する。
Oysters are a keystone species in coastal ecosystems, offering significant economic, environmental, and cultural benefits. However, current monitoring systems are often destructive, typically involving dredging to physically collect and count oysters. A nondestructive alternative is manual identification from video footage collected by divers, which is time-consuming and labor-intensive with expert input. An alternative to human monitoring is the deployment of a system with trained object detection models that performs real-time, on edge oyster detection in the field. One such platform is the Aqua2 robot. Effective training of these models requires extensive high-quality data, which is difficult to obtain in marine settings. To address these complications, we introduce a novel method that leverages stable diffusion to generate high-quality synthetic data for the marine domain. We exploit diffusion models to create photorealistic marine imagery, using ControlNet inputs to ensure consistency with the segmentation ground-truth mask, the geometry of the scene, and the target domain of real underwater images for oysters. The resulting dataset is used to train a YOLOv10-based vision model, achieving a state-of-the-art 0.657 mAP@50 for oyster detection on the Aqua2 platform. The system we introduce not only improves oyster habitat monitoring, but also paves the way to autonomous surveillance for various tasks in marine contexts, improving aquaculture and conservation efforts. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 2次元FSソナー画像の特徴検出手法の性能評価
Performance Assessment of Feature Detection Methods for 2-D FS Sonar Imagery ( http://arxiv.org/abs/2409.07004v1 ) ライセンス: Link先を確認 | Hitesh Kyatham, Shahriar Negahdaripour, Michael Xu, Xiaomin Lin, Miao Yu, Yiannis Aloimonos, | (参考訳) 水中ロボットの認識は、科学的な海底探査と商業活動において重要である。
主な課題は、一様でない照明と、濁った環境での視界の低下である。
高周波フォワードフォアソナーカメラは、高レベルのスペックルノイズと色とテクスチャの欠如によって生じる複雑さにもかかわらず、最大数メートルの範囲で高解像度の画像を提供することによって、これらの問題に対処する。
特に、ロバストな特徴検出は、自動オブジェクト認識、ローカライゼーション、ナビゲーション、三次元マッピングのための重要な初期ステップである。
RGB画像のために開発された様々な局所特徴検出器はソナーデータには適していない。
その性能を評価するために,5種類のソナー装置の実際のソナー画像を用いて多数の特徴検出器の評価を行った。
実験結果の分析には,検出精度,偽陽性,目標特性の変動に対するロバスト性などの性能指標を適用した。
この研究は、ソナーデータの特徴検出のボトルネックについてより深い洞察を与え、より効果的な方法を開発するだろう。
Underwater robot perception is crucial in scientific subsea exploration and commercial operations. The key challenges include non-uniform lighting and poor visibility in turbid environments. High-frequency forward-look sonar cameras address these issues, by providing high-resolution imagery at maximum range of tens of meters, despite complexities posed by high degree of speckle noise, and lack of color and texture. In particular, robust feature detection is an essential initial step for automated object recognition, localization, navigation, and 3-D mapping. Various local feature detectors developed for RGB images are not well-suited for sonar data. To assess their performances, we evaluate a number of feature detectors using real sonar images from five different sonar devices. Performance metrics such as detection accuracy, false positives, and robustness to variations in target characteristics and sonar devices are applied to analyze the experimental results. The study would provide a deeper insight into the bottlenecks of feature detection for sonar data, and developing more effective methods | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 電子健康記録に基づく胸部X線画像の経時的変化予測に向けて
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records ( http://arxiv.org/abs/2409.07012v1 ) ライセンス: Link先を確認 | Daeun Kyung, Junu Kim, Tackeun Kim, Edward Choi, | (参考訳) 胸部X線画像(CXR)は、患者の状態を評価し、経時変化を監視するために病院で使用される重要な診断ツールである。
生成モデル、特に拡散モデルは、現実的な合成X線を生成することを約束している。
しかしながら、これらのモデルは、主に単一時間点データ(典型的には、対応する報告で特定のタイミングで取られるCXR)を使用して条件生成に焦点を当て、臨床効果を制限し、特に時間的変化を捉えている。
この制限に対処するため,従来のCXRとその後の医療イベント,例えば処方、検査などを統合することで,将来のCXR画像を予測する新しいフレームワークであるEHRXDiffを提案する。
本フレームワークは, これまでのCXR画像と医療イベントの履歴に基づいて, 潜伏拡散モデルに基づいて, 疾患の進行を動的に追跡・予測する。
我々は,臨床の整合性,人口動態の整合性,視覚リアリズムの3つの重要な側面を網羅的に評価した。
本研究は, 時間的変化を捉えた高品質で現実的な将来像を創出し, 臨床シミュレーションツールとしてのさらなる発展の可能性を示すものである。
これは、医療分野における患者のモニタリングと治療計画に有用な洞察を与える可能性がある。
Chest X-ray imaging (CXR) is an important diagnostic tool used in hospitals to assess patient conditions and monitor changes over time. Generative models, specifically diffusion-based models, have shown promise in generating realistic synthetic X-rays. However, these models mainly focus on conditional generation using single-time-point data, i.e., typically CXRs taken at a specific time with their corresponding reports, limiting their clinical utility, particularly for capturing temporal changes. To address this limitation, we propose a novel framework, EHRXDiff, which predicts future CXR images by integrating previous CXRs with subsequent medical events, e.g., prescriptions, lab measures, etc. Our framework dynamically tracks and predicts disease progression based on a latent diffusion model, conditioned on the previous CXR image and a history of medical events. We comprehensively evaluate the performance of our framework across three key aspects, including clinical consistency, demographic consistency, and visual realism. We demonstrate that our framework generates high-quality, realistic future images that capture potential temporal changes, suggesting its potential for further development as a clinical simulation tool. This could offer valuable insights for patient monitoring and treatment planning in the medical field. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 選択性学習における一般化の実践的理論
A Practical Theory of Generalization in Selectivity Learning ( http://arxiv.org/abs/2409.07014v1 ) ライセンス: Link先を確認 | Peizhi Wu, Haoshu Xu, Ryan Marcus, Zachary G. Ives, | (参考訳) クエリ駆動機械学習モデルは、クエリ選択のための有望な推定手法として登場した。
しかし、理論的な観点からこれらの手法の有効性について驚くほど知られていないのは、実用的な解法と、確率的近似(PAC)学習フレームワークに基づく最先端(SOTA)理論の間にはかなりのギャップがあるからである。
本稿では,理論と実践のギャップを埋めることを目的としている。
まず、符号付き測度によって誘導される選択性予測器が学習可能であることを示し、SOTA理論における確率測度への依存を緩和する。
さらに重要なことは、PAC学習フレームワーク(トレーニングとテストの両方のワークロードが同じディストリビューションから引き出される場合にのみ、モデルがどのように振る舞うかを特徴付けることができる)を超えて、穏やかな仮定の下で、このクラスの選択性予測器が好ましいアウト・オブ・ディストリビューション(OOD)の一般化エラー境界を示すことを確立します。
これらの理論的な進歩により、クエリ駆動選択性学習の分散化とOOD一般化機能の両方をよりよく理解することができ、既存のクエリ駆動選択性モデルに対するOOD一般化を改善するための2つの一般的な戦略の設計が容易になる。
我々は,提案手法がクエリ駆動選択性モデルにおいて,予測精度とクエリ遅延性能の両方の観点から,OODクエリに対してはるかに優れた一般化を実現するのに役立つことを実証的に検証した。
Query-driven machine learning models have emerged as a promising estimation technique for query selectivities. Yet, surprisingly little is known about the efficacy of these techniques from a theoretical perspective, as there exist substantial gaps between practical solutions and state-of-the-art (SOTA) theory based on the Probably Approximately Correct (PAC) learning framework. In this paper, we aim to bridge the gaps between theory and practice. First, we demonstrate that selectivity predictors induced by signed measures are learnable, which relaxes the reliance on probability measures in SOTA theory. More importantly, beyond the PAC learning framework (which only allows us to characterize how the model behaves when both training and test workloads are drawn from the same distribution), we establish, under mild assumptions, that selectivity predictors from this class exhibit favorable out-of-distribution (OOD) generalization error bounds. These theoretical advances provide us with a better understanding of both the in-distribution and OOD generalization capabilities of query-driven selectivity learning, and facilitate the design of two general strategies to improve OOD generalization for existing query-driven selectivity models. We empirically verify that our techniques help query-driven selectivity models generalize significantly better to OOD queries both in terms of prediction accuracy and query latency performance, while maintaining their superior in-distribution generalization performance. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 事前学習音声モデルの低域適応微調整による異常音検出の改善
Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models ( http://arxiv.org/abs/2409.07016v1 ) ライセンス: Link先を確認 | Xinhu Zheng, Anbai Jiang, Bing Han, Yanmin Qian, Pingyi Fan, Jia Liu, Wei-Qiang Zhang, | (参考訳) 異常音検出(ASD)は、産業環境における様々な人工知能(AI)技術の適用を通じて大きな関心を集めている。
大きな可能性を秘めているが,データ収集の難しさや環境要因の複雑さが主な原因である一般化問題により,実際の生産現場にASDシステムを簡単に展開することは困難である。
本稿では,オーディオ事前学習モデルを活用した頑健なASDモデルを提案する。
具体的には,これらのモデルをマシン操作データを用いて微調整し,データ拡張戦略としてSpecAugを用いる。
さらに,Low-Rank Adaptation (LoRA) チューニングをフル微調整の代わりに活用することによる,微調整のための限られたデータの問題に対処する効果について検討する。
従来型の畳み込みネットワークや音声事前学習モデルなど,従来のSOTAモデルと比較して6.48%の大幅な改善を実現し,LoRAチューニングによる音声事前学習モデルの有効性を実証した。
また,提案手法の有効性を示すためのアブレーション研究も行った。
Anomalous Sound Detection (ASD) has gained significant interest through the application of various Artificial Intelligence (AI) technologies in industrial settings. Though possessing great potential, ASD systems can hardly be readily deployed in real production sites due to the generalization problem, which is primarily caused by the difficulty of data collection and the complexity of environmental factors. This paper introduces a robust ASD model that leverages audio pre-trained models. Specifically, we fine-tune these models using machine operation data, employing SpecAug as a data augmentation strategy. Additionally, we investigate the impact of utilizing Low-Rank Adaptation (LoRA) tuning instead of full fine-tuning to address the problem of limited data for fine-tuning. Our experiments on the DCASE2023 Task 2 dataset establish a new benchmark of 77.75% on the evaluation set, with a significant improvement of 6.48% compared with previous state-of-the-art (SOTA) models, including top-tier traditional convolutional networks and speech pre-trained models, which demonstrates the effectiveness of audio pre-trained models with LoRA tuning. Ablation studies are also conducted to showcase the efficacy of the proposed scheme. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# EVENet: 拡散MRIを用いた不確かさ認識脳のパーセレーションのためのエビデンスに基づくアンサンブル学習
EVENet: Evidence-based Ensemble Learning for Uncertainty-aware Brain Parcellation Using Diffusion MRI ( http://arxiv.org/abs/2409.07020v1 ) ライセンス: Link先を確認 | Chenjun Li, Dian Yang, Shun Yao, Shuyue Wang, Ye Wu, Le Zhang, Qiannuo Li, Kang Ik Kevin Cho, Johanna Seitz-Holland, Lipeng Ning, Jon Haitz Legarreta, Yogesh Rathi, Carl-Fredrik Westin, Lauren J. O'Donnell, Nir A. Sochen, Ofer Pasternak, Fan Zhang, | (参考訳) 本研究では, 拡散MRIを用いた解剖学的脳解析のためのEvidence-based Ensemble Neural Network, EVENetを開発した。
EVENetの重要な革新は、ひとつの推論中に各ボクセルにおける予測の不確実性を定量化する、明らかなディープラーニングフレームワークの設計である。
EVENetを用いて, 健常者, 臨床者, 画像取得者間での正確なパーセレーションと不確実性の推定値を得た。
ネットワーク全体には5つの並列サブネットワークが含まれており、それぞれが特定の拡散MRIパラメータのFreeSurferパーセレーションの学習に専念している。
その後、個々の出力を融合させるエビデンスに基づくアンサンブル手法が提案される。
各種脳疾患(統合失調症,双極性障害,注意欠陥・高活動障害,パーキンソン病,脳小血管疾患,脳腫瘍を有する神経外科患者)の高次拡散MRIデータと臨床拡散MRIデータを含む,複数の画像ソースからの大規模データセットを実験的に評価した。
実験の結果,dMRIの取得プロトコルや健康状態の違いにもかかわらず,複数のテストデータセット間でのパーセレーション精度が向上した。
さらに, この不確実性評価により, EVENet法は病変の異常な脳領域を検出でき, セグメンテーション結果の解釈可能性や信頼性を高めることができる。
In this study, we developed an Evidence-based Ensemble Neural Network, namely EVENet, for anatomical brain parcellation using diffusion MRI. The key innovation of EVENet is the design of an evidential deep learning framework to quantify predictive uncertainty at each voxel during a single inference. Using EVENet, we obtained accurate parcellation and uncertainty estimates across different datasets from healthy and clinical populations and with different imaging acquisitions. The overall network includes five parallel subnetworks, where each is dedicated to learning the FreeSurfer parcellation for a certain diffusion MRI parameter. An evidence-based ensemble methodology is then proposed to fuse the individual outputs. We perform experimental evaluations on large-scale datasets from multiple imaging sources, including high-quality diffusion MRI data from healthy adults and clinically diffusion MRI data from participants with various brain diseases (schizophrenia, bipolar disorder, attention-deficit/hyperactivity disorder, Parkinson's disease, cerebral small vessel disease, and neurosurgical patients with brain tumors). Compared to several state-of-the-art methods, our experimental results demonstrate highly improved parcellation accuracy across the multiple testing datasets despite the differences in dMRI acquisition protocols and health conditions. Furthermore, thanks to the uncertainty estimation, our EVENet approach demonstrates a good ability to detect abnormal brain regions in patients with lesions, enhancing the interpretability and reliability of the segmentation results. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# Insight Any Instance: リモートセンシング画像のためのプロンプト可能なインスタンスセグメンテーション
Insight Any Instance: Promptable Instance Segmentation for Remote Sensing Images ( http://arxiv.org/abs/2409.07022v1 ) ライセンス: Link先を確認 | Xuexue Li, | (参考訳) リモートセンシング画像(RSI)のインスタンスセグメンテーションは、土地計画やインテリジェントトランスポートといった幅広い用途に欠かせない課題である。
RSIのインスタンスセグメンテーションは、フォアグラウンドとバックグラウンドのバランスの取れない比率と限られたインスタンスサイズによって常に悩まされます。
そして、ほとんどのインスタンスセグメンテーションモデルは、深い機能学習に基づいており、複数のダウンサンプリングのような操作を含んでいる。
近年,視覚課題における即時学習の優れた性能に触発されて,上記の課題に対処する新たなプロンプトパラダイムを提案する。
既存のインスタンスセグメンテーションモデルに基づいて、まず、ローカルプロンプトモジュールが、元のローカルトークンから特定のインスタンスのローカルプロンプト情報をマイニングするように設計されている。
最後に、提案の領域損失関数は、上記の2つのプロンプトモジュールのポテンシャルをよりよく活用するために、提案のスケール上のデカップリング次元を追加するように設計されている。
提案したアプローチでは、インスタンスを特定のボックスプロンプトでセグメント化するために、インスタンスセグメンテーションモデルをプロンプト可能なインスタンスセグメンテーションモデルに拡張できることに注意する必要がある。
本稿では, RSIの4つのインスタンスセグメンテーションデータセットにおける既存モデルに基づく提案手法の有効性を評価するとともに, 提案手法が上記の問題に対処する上で有効であることを示すとともに, RSIのインスタンスセグメンテーションの競争モデルであることを示す。
Instance segmentation of remote sensing images (RSIs) is an essential task for a wide range of applications such as land planning and intelligent transport. Instance segmentation of RSIs is constantly plagued by the unbalanced ratio of foreground and background and limited instance size. And most of the instance segmentation models are based on deep feature learning and contain operations such as multiple downsampling, which is harmful to instance segmentation of RSIs, and thus the performance is still limited. Inspired by the recent superior performance of prompt learning in visual tasks, we propose a new prompt paradigm to address the above issues. Based on the existing instance segmentation model, firstly, a local prompt module is designed to mine local prompt information from original local tokens for specific instances; secondly, a global-to-local prompt module is designed to model the contextual information from the global tokens to the local tokens where the instances are located for specific instances. Finally, a proposal's area loss function is designed to add a decoupling dimension for proposals on the scale to better exploit the potential of the above two prompt modules. It is worth mentioning that our proposed approach can extend the instance segmentation model to a promptable instance segmentation model, i.e., to segment the instances with the specific boxes prompt. The time consumption for each promptable instance segmentation process is only 40 ms. The paper evaluates the effectiveness of our proposed approach based on several existing models in four instance segmentation datasets of RSIs, and thorough experiments prove that our proposed approach is effective for addressing the above issues and is a competitive model for instance segmentation of RSIs. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# SCLNet:UAV画像におけるオブジェクト検出のためのスケールロバスト補完学習ネットワーク
SCLNet: A Scale-Robust Complementary Learning Network for Object Detection in UAV Images ( http://arxiv.org/abs/2409.07024v1 ) ライセンス: Link先を確認 | Xuexue Li, | (参考訳) 最近の無人航空機(Unmanned Aerial Vehicle)検出器は、主に不均一分布や閉塞といった一般的な課題に焦点を当てている。
しかし、スケールの変動や小さな物体を含むスケールの課題の無視は、UAV画像における物体検出を妨げ続けている。
既存の研究はソリューションを提案しているが、それらは暗黙的にモデル化されており、冗長なステップを持っているため、検出性能は依然として限られている。
そして、上記の課題に対処する特定の作業は、UAV画像検出器の性能向上に役立つ。
自然界と比較して、UAV画像におけるスケールの課題は、包括的スケールでの認識が限定的であり、小さな物体に対するロバスト性が低いという問題によって生じる。
相補的な学習は、検出モデルがスケールの課題に対処する上で有益であることがわかった。
そこで本論文では,オブジェクト検出モデルと協調して,スケールロバストな補完学習ネットワーク(SCLNet)を構築した。
SCLNetは2つの実装と協調方法で構成されている。
具体的には,提案した大規模補完的デコーダと大規模補完的損失関数に基づいて,補完的情報を補的情報として抽出し,包括的補完的学習(CSCL)と呼ぶ。
別の実装は、提案したコントラスト補完ネットワークとコントラスト補完損失関数に基づいて、大規模コントラスト補完学習(ICCL)と呼ばれる、大規模オブジェクトのテクスチャ詳細情報により、小さなオブジェクトの学習を明示的にガイドする。
さらに,2つの実装と検出モデル間のエンドツーエンド協調(ECoop)を提案する。
Most recent UAV (Unmanned Aerial Vehicle) detectors focus primarily on general challenge such as uneven distribution and occlusion. However, the neglect of scale challenges, which encompass scale variation and small objects, continues to hinder object detection in UAV images. Although existing works propose solutions, they are implicitly modeled and have redundant steps, so detection performance remains limited. And one specific work addressing the above scale challenges can help improve the performance of UAV image detectors. Compared to natural scenes, scale challenges in UAV images happen with problems of limited perception in comprehensive scales and poor robustness to small objects. We found that complementary learning is beneficial for the detection model to address the scale challenges. Therefore, the paper introduces it to form our scale-robust complementary learning network (SCLNet) in conjunction with the object detection model. The SCLNet consists of two implementations and a cooperation method. In detail, one implementation is based on our proposed scale-complementary decoder and scale-complementary loss function to explicitly extract complementary information as complement, named comprehensive-scale complementary learning (CSCL). Another implementation is based on our proposed contrastive complement network and contrastive complement loss function to explicitly guide the learning of small objects with the rich texture detail information of the large objects, named inter-scale contrastive complementary learning (ICCL). In addition, an end-to-end cooperation (ECoop) between two implementations and with the detection model is proposed to exploit each potential. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# CPSample: 拡散時のトレーニングデータ保護のための分類器保護サンプリング
CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion ( http://arxiv.org/abs/2409.07025v1 ) ライセンス: Link先を確認 | Joshua Kazdan, Hao Sun, Jiaqi Han, Felix Petersen, Stefano Ermon, | (参考訳) 拡散モデルはトレーニングデータを正確に再現する傾向がある。
これまでのほとんどの研究は、差分プライバシー制約を課したり、トレーニングデータの一部を隠蔽することでこの問題を緩和しようとしており、画像の品質は著しく低下している。
CPSampleは,画像品質を保ちながら,トレーニングデータの複製を防止するためにサンプリングプロセスを変更する手法である。
CPSampleはトレーニングデータに付加されたランダムなバイナリラベルに過度に適合するように訓練された分類器を利用する。
CPSampleは次に分類器のガイダンスを使用して、トレーニングデータを含む高い確実性で分類できる点の集合から生成プロセスを分離する。
CPSample は CIFAR-10 と CelebA-64 でそれぞれ 4.97 と 2.97 の FID スコアを達成している。
トレーニングイメージを保護するために意図された従来の方法とは異なり、CPSampleは拡散モデルを再訓練するよりも分類器を訓練する必要がある。
さらに,本手法は,モデルのトレーニングデータセットにどの画像が存在するのかを,相手が識別しようとするような,メンバシップ推論攻撃に対してより堅牢な拡散モデルを提供する。
我々は,CPSampleが組込みリジェクションサンプリング器のように振る舞うことを示し,安定拡散におけるモード崩壊を防止する能力を示す。
Diffusion models have a tendency to exactly replicate their training data, especially when trained on small datasets. Most prior work has sought to mitigate this problem by imposing differential privacy constraints or masking parts of the training data, resulting in a notable substantial decrease in image quality. We present CPSample, a method that modifies the sampling process to prevent training data replication while preserving image quality. CPSample utilizes a classifier that is trained to overfit on random binary labels attached to the training data. CPSample then uses classifier guidance to steer the generation process away from the set of points that can be classified with high certainty, a set that includes the training data. CPSample achieves FID scores of 4.97 and 2.97 on CIFAR-10 and CelebA-64, respectively, without producing exact replicates of the training data. Unlike prior methods intended to guard the training images, CPSample only requires training a classifier rather than retraining a diffusion model, which is computationally cheaper. Moreover, our technique provides diffusion models with greater robustness against membership inference attacks, wherein an adversary attempts to discern which images were in the model's training dataset. We show that CPSample behaves like a built-in rejection sampler, and we demonstrate its capabilities to prevent mode collapse in Stable Diffusion. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# ニューラルネットワーク圧縮における動的誤差境界階層行列
Dynamic Error-Bounded Hierarchical Matrices in Neural Network Compression ( http://arxiv.org/abs/2409.07028v1 ) ライセンス: Link先を確認 | John Mango, Ronald Katende, | (参考訳) 本稿では,階層行列(H-行列)圧縮技術を物理情報ニューラルネットワーク(PINN)の構造と訓練に組み込む,革新的なフレームワークを提案する。
提案手法は,行列サブブロックの低ランク特性を活用することにより,計算複雑性とストレージ要求を,精度を損なうことなく大幅に低減する。
このアプローチは、SVD(Singular Value Decomposition)やプルーニング(pruning)、量子化(quantization)といった従来の圧縮技術と比較して、特にニューラルネットワークの安定性と収束に不可欠なニューラルタンジェントカーネル(NTK)特性を維持する上で、優れたパフォーマンスを示す。
その結果,H行列圧縮はトレーニング効率を高めるだけでなく,物理学に基づくモデリングにおける複雑で大規模な応用のためのPINNのスケーラビリティと堅牢性も確保できることがわかった。
この研究はディープラーニングモデルの最適化に大きく貢献し、現実世界のシナリオにおけるPINNのより効率的で実践的な実装の道を開いた。
This paper presents an innovative framework that integrates hierarchical matrix (H-matrix) compression techniques into the structure and training of Physics-Informed Neural Networks (PINNs). By leveraging the low-rank properties of matrix sub-blocks, the proposed dynamic, error-bounded H-matrix compression method significantly reduces computational complexity and storage requirements without compromising accuracy. This approach is rigorously compared to traditional compression techniques, such as Singular Value Decomposition (SVD), pruning, and quantization, demonstrating superior performance, particularly in maintaining the Neural Tangent Kernel (NTK) properties critical for the stability and convergence of neural networks. The findings reveal that H-matrix compression not only enhances training efficiency but also ensures the scalability and robustness of PINNs for complex, large-scale applications in physics-based modeling. This work offers a substantial contribution to the optimization of deep learning models, paving the way for more efficient and practical implementations of PINNs in real-world scenarios. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 弱測定による動的構造因子
Dynamical Structure Factor from Weak Measurements ( http://arxiv.org/abs/2409.07030v1 ) ライセンス: Link先を確認 | E. Altuntas, R. G. Lena, S. Flannigan, A. J. Daley, I. B. Spielman, | (参考訳) 量子系の知識の多くは、平均射影測定によって実験的に得られたエルミート作用素の期待値にカプセル化されている。
しかし、動的性質は、しばしば異なる時間で評価された作用素の積によって記述される。
例えば、動的構造因子はフォノンのような密度励起の伝播を記述し、異なる時間で評価された空間密度演算子から導かれる。
従来、これはシステムを特定の波動ベクトルと周波数で刺激し、次に応答を測定することで測定されていた。
本稿では,時間分離弱測定を用いて,その相互相関関数が動的構造因子を直接回復することを示す。
位相コントラストイメージングにより弱測定された1次元Bose-Hubbardモデルの行列積状態シミュレーションにより,この手法の数値的な確認を行う。
本手法の限界について検討し, 限界画像分解能を用いた実実験への適用性を実証する。
Much of our knowledge of quantum systems is encapsulated in the expectation value of Hermitian operators, experimentally obtained by averaging projective measurements. However, dynamical properties are often described by products of operators evaluated at different times; such observables cannot be measured by individual projective measurements, which occur at a single time. For example, the dynamical structure factor describes the propagation of density excitations, such as phonons, and is derived from the spatial density operator evaluated at different times. Conventionally, this is measured by first exciting the system at a specific wavevector and frequency, then measuring the response. Here, we describe an alternative approach using a pair of time-separated weak measurements, and analytically show that their cross-correlation function directly recovers the dynamical structure factor. We provide numerical confirmation of this technique with a matrix product states simulation of the one-dimensional Bose-Hubbard model, weakly measured by phase contrast imaging. We explore the limits of the method and demonstrate its applicability to real experiments with limited imaging resolution. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# 最適スコアマッチングから最適サンプリングへ
From optimal score matching to optimal sampling ( http://arxiv.org/abs/2409.07032v1 ) ライセンス: Link先を確認 | Zehao Dou, Subhodh Kotekal, Zhehao Xu, Harrison H. Zhou, | (参考訳) 近年の高忠実度画像、オーディオ、ビデオのアルゴリズム生成における顕著な進歩は、スコアベースの拡散モデルにおいて大きな成功を収めているためである。
重要な実装ステップは、トレーニングデータから前方拡散過程のスコア関数を推定するスコアマッチングである。
前述したように、トレーニング拡散モデルから生成されたサンプルの法則と基底真理分布との総変動距離は、スコアマッチングリスクによって制御できる。
スコアベース拡散モデルの普及にもかかわらず、スコア推定のための正確な最適統計率に関する基本的な理論的問題とその密度推定への応用は未解決のままである。
我々は,滑らかでコンパクトに支持された密度に対して,スコア推定の急激な最小値速度を確立する。
正式には、ある未知の \(\alpha\)-H\"{o}lder density \(f\) が \([-1, 1]\) 上で支持された場合、微分分布 \(f * \mathcal{N}(0, t)\) のスコアマッチング損失に対するスコア関数を推定する最小値が、すべての \(\alpha > 0\) と \(t\ge 0\) に対して \(\frac{1}{nt^2} \wedge \frac{1}{nt^{3/2}} \wedge (t^{\alpha-1} + n^{-2(\alpha-1)/(2\alpha+1)} であることを示す。
その結果、拡散モデルから生成されたサンプルの法則 \(\hat{f}\) は、すべての \(\alpha > 0\) に対するシャープなミニマックスレート \(\bE(\dTV(\hat{f}, f)^2) \lesssim n^{-2\alpha/(2\alpha+1)}\) を達成する。
The recent, impressive advances in algorithmic generation of high-fidelity image, audio, and video are largely due to great successes in score-based diffusion models. A key implementing step is score matching, that is, the estimation of the score function of the forward diffusion process from training data. As shown in earlier literature, the total variation distance between the law of a sample generated from the trained diffusion model and the ground truth distribution can be controlled by the score matching risk. Despite the widespread use of score-based diffusion models, basic theoretical questions concerning exact optimal statistical rates for score estimation and its application to density estimation remain open. We establish the sharp minimax rate of score estimation for smooth, compactly supported densities. Formally, given \(n\) i.i.d. samples from an unknown \(\alpha\)-H\"{o}lder density \(f\) supported on \([-1, 1]\), we prove the minimax rate of estimating the score function of the diffused distribution \(f * \mathcal{N}(0, t)\) with respect to the score matching loss is \(\frac{1}{nt^2} \wedge \frac{1}{nt^{3/2}} \wedge (t^{\alpha-1} + n^{-2(\alpha-1)/(2\alpha+1)})\) for all \(\alpha > 0\) and \(t \ge 0\). As a consequence, it is shown the law \(\hat{f}\) of a sample generated from the diffusion model achieves the sharp minimax rate \(\bE(\dTV(\hat{f}, f)^2) \lesssim n^{-2\alpha/(2\alpha+1)}\) for all \(\alpha > 0\) without any extraneous logarithmic terms which are prevalent in the literature, and without the need for early stopping which has been required for all existing procedures to the best of our knowledge. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# セマンティックマイニングとニューラルネットワークに基づくeコマースWebページ推薦スキーム
E-commerce Webpage Recommendation Scheme Base on Semantic Mining and Neural Networks ( http://arxiv.org/abs/2409.07033v1 ) ライセンス: Link先を確認 | Wenchao Zhao, Xiaoyi Liu, Ruilin Xu, Lingxi Xiao, Muqing Li, | (参考訳) eコマースウェブサイトでは、WebマイニングWebページレコメンデーション技術が広く使われている。
しかし、レコメンデーションソリューションは、オンラインショッピングユーザーの実際のアプリケーションニーズを満たすことができないことが多い。
そこで本研究では,セマンティックWebマイニングとBPニューラルネットワークを組み合わせたeコマースWebページレコメンデーションソリューションを提案する。
まず、ユーザ検索のWebログを処理し、コンテンツ優先、時間消費優先、オンラインショッピングユーザのWebサイトへの明示的/単純フィードバック、レコメンデーションセマンティクス、入力逸脱量という5つの特徴を抽出する。
次に、これらの特徴をBPニューラルネットワークの入力特徴として使用して、最終的な出力Webページの優先度を分類し、識別する。
最後に、Webページは優先順位に応じてソートされ、ユーザに推奨される。
本プロジェクトは,本販売Webページを実験用サンプルとして利用する。
その結果,ユーザが必要とするWebページを迅速かつ正確に識別できることがわかった。
In e-commerce websites, web mining web page recommendation technology has been widely used. However, recommendation solutions often cannot meet the actual application needs of online shopping users. To address this problem, this paper proposes an e-commerce web page recommendation solution that combines semantic web mining and BP neural networks. First, the web logs of user searches are processed, and 5 features are extracted: content priority, time consumption priority, online shopping users' explicit/implicit feedback on the website, recommendation semantics and input deviation amount. Then, these features are used as input features of the BP neural network to classify and identify the priority of the final output web page. Finally, the web pages are sorted according to priority and recommended to users. This project uses book sales webpages as samples for experiments. The results show that this solution can quickly and accurately identify the webpages required by users. | 翻訳日:2024-09-12 15:36:35 公開日:2024-09-11 |
# Retinex-RAWMamba:低照度RAW画像強調のためのブリジングデモサイジングとデノナイジング
Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement ( http://arxiv.org/abs/2409.07040v1 ) ライセンス: Link先を確認 | Xianmin Chen, Peiliang Huang, Xiaoxu Feng, Dingwen Zhang, Longfei Han, Junwei Han, | (参考訳) 低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
この問題に対処するために多くのディープラーニングベースの手法が開発され、近年は有望な成果を上げている。
しかし、両方のドメインにまたがる複雑なマッピングを統一しようとするシングルステージメソッドは、性能の低下を招いた。
対照的に、2段階のアプローチは通常、ニューラルネットワークに入力する前に、カラーフィルタアレイ(CFA)で生画像を4チャンネルのRGGBフォーマットに分解する。
しかしながら、この戦略は、画像信号処理(ISP)パイプライン内での分解の重要な役割を見落とし、特に低照度シナリオにおいて、様々な照明条件下での色歪みを引き起こす。
これらの問題に対処するため、我々はRAWMambaと呼ばれる新しいMambaスキャン機構を設計し、異なるCFAで生画像を効果的に処理する。
さらに,Retinex に基礎を置くRetinex Decomposition Module (RDM) を提案する。
バリケーションとデノナイジングをブリッジすることにより、より優れた生画像強調を実現する。
パブリックデータセットSIDとMCRを用いた実験により,提案したRAWMambaがクロスドメインマッピングにおける最先端性能を実現することを示す。
Low-light image enhancement, particularly in cross-domain tasks such as mapping from the raw domain to the sRGB domain, remains a significant challenge. Many deep learning-based methods have been developed to address this issue and have shown promising results in recent years. However, single-stage methods, which attempt to unify the complex mapping across both domains, leading to limited denoising performance. In contrast, two-stage approaches typically decompose a raw image with color filter arrays (CFA) into a four-channel RGGB format before feeding it into a neural network. However, this strategy overlooks the critical role of demosaicing within the Image Signal Processing (ISP) pipeline, leading to color distortions under varying lighting conditions, especially in low-light scenarios. To address these issues, we design a novel Mamba scanning mechanism, called RAWMamba, to effectively handle raw images with different CFAs. Furthermore, we present a Retinex Decomposition Module (RDM) grounded in Retinex prior, which decouples illumination from reflectance to facilitate more effective denoising and automatic non-linear exposure correction. By bridging demosaicing and denoising, better raw image enhancement is achieved. Experimental evaluations conducted on public datasets SID and MCR demonstrate that our proposed RAWMamba achieves state-of-the-art performance on cross-domain mapping. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# SoftShadow: シャドウ除去のためにペナブラ対応のソフトマスクを活用
SoftShadow: Leveraging Penumbra-Aware Soft Masks for Shadow Removal ( http://arxiv.org/abs/2409.07041v1 ) ライセンス: Link先を確認 | Xinrui Wang, Lanqing Guo, Xiyu Wang, Siyu Huang, Bihan Wen, | (参考訳) 近年のディープラーニングの進歩は、画像影除去タスクに有望な結果をもたらしている。
しかし、既存のほとんどの方法はバイナリ生成前のシャドウマスクに依存している。
このようなマスクのバイナリの性質は、影と非影の領域の境界付近の人工物につながる可能性がある。
影形成の物理モデルに触発されて,影の除去に特化して設計された,新しい柔らかい影マスクを導入する。
このようなソフトマスクを実現するために,事前学習されたSAMの事前知識を活用し,物理的な制約を統合することにより,‘textit{SoftShadow} フレームワークを提案する。
具体的には、ペナムブラ生成制約損失とシャドウ除去損失を用いてSAMとその後のシャドウ除去ネットワークを協調的に調整する。
このフレームワークは、端から端までのシャドウ除去を同時に容易にしながら、ペナムブラ(部分日陰領域)とウンブラ(完全に日陰領域)の正確な予測を可能にする。
一般的なデータセットに関する広範な実験を通じて、ソフトマスクを生成するSoftShadowフレームワークは、境界アーチファクトをよりよく復元し、最先端のパフォーマンスを実現し、より優れた一般化性を示すことができることがわかった。
Recent advancements in deep learning have yielded promising results for the image shadow removal task. However, most existing methods rely on binary pre-generated shadow masks. The binary nature of such masks could potentially lead to artifacts near the boundary between shadow and non-shadow areas. In view of this, inspired by the physical model of shadow formation, we introduce novel soft shadow masks specifically designed for shadow removal. To achieve such soft masks, we propose a \textit{SoftShadow} framework by leveraging the prior knowledge of pretrained SAM and integrating physical constraints. Specifically, we jointly tune the SAM and the subsequent shadow removal network using penumbra formation constraint loss and shadow removal loss. This framework enables accurate predictions of penumbra (partially shaded regions) and umbra (fully shaded regions) areas while simultaneously facilitating end-to-end shadow removal. Through extensive experiments on popular datasets, we found that our SoftShadow framework, which generates soft masks, can better restore boundary artifacts, achieve state-of-the-art performance, and demonstrate superior generalizability. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# Sachdev-Ye-Kitaev模型の固有状態に対する最大エンタングルメントからの偏差
Deviations from maximal entanglement for eigenstates of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2409.07043v1 ) ライセンス: Link先を確認 | Yichen Huang, Yi Tan, Norman Y. Yao, | (参考訳) 我々は、Sachdev-Ye-Kiteav(SYK)モデルの中間スペクトル固有状態を考える。
システムサイズの定数分数である部分系に対して、エントロピーは少なくとも正の定数で最大エントロピーから逸脱することを証明する。
この結果は、SYKモデルの中間スペクトル固有状態のエンタングルメントエントロピーとランダム状態のエントロピーの違いを強調する。
We consider mid-spectrum eigenstates of the Sachdev-Ye-Kiteav (SYK) model. We prove that for subsystems whose size is a constant fraction of the system size, the entanglement entropy deviates from the maximum entropy by at least a positive constant. This result highlights the difference between the entanglement entropy of mid-spectrum eigenstates of the SYK model and that of random states. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# Beyond IID: インストラクションインタラクションと依存性の観点からのインストラクション学習の最適化
Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency ( http://arxiv.org/abs/2409.07045v1 ) ライセンス: Link先を確認 | Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan, | (参考訳) さまざまな命令データセットが利用可能になったことで、これらの命令を効果的に選択し、統合して、大規模言語モデル(LLM)を微調整する方法が重要な課題となった。
従来の研究は主に、個々の高品質な指示を選択することに焦点を当てていた。
しかし、これらの研究は、異なるカテゴリーの命令間の共同相互作用と依存関係を見落とし、最適以下の選択戦略へと繋がった。
さらに、これらの相互作用パターンの性質はほとんど解明されていないままであり、それらに関して命令セットを最適化することは言うまでもない。
これらのギャップを埋めるために,(1) 命令の異なるカテゴリ間の相互作用パターンと依存性パターンを体系的に調査し,(2) 線形計画法を用いて相互作用パターンに関する命令セットを最適化し,(2) 命令依存分類法を指導したカリキュラム学習を用いてSFTの学習スキーマを最適化する。
異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
With the availability of various instruction datasets, a pivotal challenge is how to effectively select and integrate these instructions to fine-tune large language models (LLMs). Previous research mainly focuses on selecting individual high-quality instructions. However, these works overlooked the joint interactions and dependencies between different categories of instructions, leading to suboptimal selection strategies. Moreover, the nature of these interaction patterns remains largely unexplored, let alone optimize the instruction set with regard to them. To fill these gaps, in this paper, we: (1) systemically investigate interaction and dependency patterns between different categories of instructions, (2) manage to optimize the instruction set concerning the interaction patterns using a linear programming-based method, and optimize the learning schema of SFT using an instruction dependency taxonomy guided curriculum learning. Experimental results across different LLMs demonstrate improved performance over strong baselines on widely adopted benchmarks. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# シュレーディンガー猫の個体群動態
Population Dynamics of Schrödinger Cats ( http://arxiv.org/abs/2409.07047v1 ) ライセンス: Link先を確認 | Foster Thompson, Alex Kamenev, | (参考訳) 古典的人口動態とリンドブラディアン進化の間には、暗黒状態を認め、特定の局所対称性の集合に従う正確な同値性を示す。
次に、この局所対称性条件が緩和されるモデルとして {\em quantum population dynamics を導入する。
これにより、動物がシュリンガーの猫のように振る舞う非古典的な過程ができ、生きた状態と死んだ状態の重ね合わせに入ることができ、その結果、個体数が異なる一貫性のある重ね合わせとなる。
我々は、ケディシュと第3の量子化技法の合成として量子人口モデルの場の理論処理を開発し、古典的な人口モデルの確率論的ドイ・ペリティ場理論記述と比較する。
この定式化を応用して、d$次元格子上でのプロトタイプ ``Schr\'odigner cat''' の個体群モデルについて検討し、安定な量子集団を支える暗死相と活性相の相転移を示す。
摂動的再正規化群アプローチを用いて、古典的な人口動態と通常の量子相転移の両方で観察されるものと異なるシュリンガー猫集団の臨界スケーリングを求める。
We demonstrate an exact equivalence between classical population dynamics and Lindbladian evolution admitting a dark state and obeying a set of certain local symmetries. We then introduce {\em quantum population dynamics} as models in which this local symmetry condition is relaxed. This allows for non-classical processes in which animals behave like Schr\"odinger's cat and enter superpositions of live and dead states, thus resulting in coherent superpositions of different population numbers. We develop a field theory treatment of quantum population models as a synthesis of Keldysh and third quantization techniques and draw comparisons to the stochastic Doi-Peliti field theory description of classical population models. We apply this formalism to study a prototypical ``Schr\"odigner cat'' population model on a $d$-dimensional lattice, which exhibits a phase transition between a dark extinct phase and an active phase that supports a stable quantum population. Using a perturbative renormalization group approach, we find a critical scaling of the Schr\"odinger cat population distinct from that observed in both classical population dynamics and usual quantum phase transitions. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 人間アノテーションを伴わないリモートセンシングにおける視覚言語モデルの限界を押し上げる
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations ( http://arxiv.org/abs/2409.07048v1 ) ライセンス: Link先を確認 | Keumgang Cha, Donggeun Yu, Junghoon Seo, | (参考訳) 視覚言語統合における一般化された基礎モデルの優位性は、その多義的な応用を考えると、急激な増加を目撃している。
自然領域内では、これらの基盤モデルを構築するためのビジョン言語データセットの調達が、その豊富な可用性とWebクローリングの容易さによって促進される。
逆に、リモートセンシング領域では、視覚言語データセットが存在するが、そのボリュームは堅牢な基礎モデルを構築するのに最適である。
本研究では、画像復号化機械学習モデルを用いて、人間の注釈付きラベルの必要性を否定し、視覚言語データセットをキュレートするアプローチを提案する。
この手法を用いて、約960万の視覚言語対のデータセットをVHR画像で収集した。
結果として得られたモデルでは、特にゼロショット分類、セマンティックローカライゼーション、画像テキスト検索といった下流タスクにおいて、公開可能なビジョン言語データセットを活用できなかったものよりも優れていた。
さらに,線形探索やk-NN分類などの視覚エンコーダを専用に用いたタスクでは,ドメイン固有の視覚言語データセットに依存するタスクよりも優れた有効性を示した。
The prominence of generalized foundation models in vision-language integration has witnessed a surge, given their multifarious applications. Within the natural domain, the procurement of vision-language datasets to construct these foundation models is facilitated by their abundant availability and the ease of web crawling. Conversely, in the remote sensing domain, although vision-language datasets exist, their volume is suboptimal for constructing robust foundation models. This study introduces an approach to curate vision-language datasets by employing an image decoding machine learning model, negating the need for human-annotated labels. Utilizing this methodology, we amassed approximately 9.6 million vision-language paired datasets in VHR imagery. The resultant model outperformed counterparts that did not leverage publicly available vision-language datasets, particularly in downstream tasks such as zero-shot classification, semantic localization, and image-text retrieval. Moreover, in tasks exclusively employing vision encoders, such as linear probing and k-NN classification, our model demonstrated superior efficacy compared to those relying on domain-specific vision-language datasets. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# ネイティブ対非ネイティブ言語プロンプト:比較分析
Native vs Non-Native Language Prompting: A Comparative Analysis ( http://arxiv.org/abs/2409.07054v1 ) ライセンス: Link先を確認 | Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra Bendou, Maram Hasanain, Firoj Alam, | (参考訳) 大規模言語モデル(LLM)は、標準自然言語処理(NLP)タスクなど、さまざまな分野において顕著な能力を示している。
LLMから知識を引き出すために、プロンプトは自然言語命令からなる重要な役割を果たす。
ほとんどのオープンソースでクローズドなLCMは、テキスト、画像、オーディオ、ビデオなどのデジタルコンテンツというラベル付きおよびラベルなしのリソースで訓練されている。
したがって、これらのモデルは高リソースの言語に対してより良い知識を持っているが、低リソースの言語では苦労している。
プロンプトは能力を理解する上で重要な役割を果たすため、プロンプトに使われる言語は依然として重要な研究課題である。
この領域では重要な研究がなされているが、まだ限られており、中級言語から低級言語への探索は少ない。
本研究では、12のアラビアデータセット(9.7Kデータポイント)に関連する11の異なるNLPタスクにおける異なるプロンプト戦略(ネイティブ対非ネイティブ)について検討する。
合計で3つのLSM、12のデータセット、および3つのプロンプト戦略を含む197の実験を行った。
以上の結果から,非ネイティブプロンプトは平均して最善であり,その後に混合プロンプトとネイティブプロンプトが続くことが示唆された。
Large language models (LLMs) have shown remarkable abilities in different fields, including standard Natural Language Processing (NLP) tasks. To elicit knowledge from LLMs, prompts play a key role, consisting of natural language instructions. Most open and closed source LLMs are trained on available labeled and unlabeled resources--digital content such as text, images, audio, and videos. Hence, these models have better knowledge for high-resourced languages but struggle with low-resourced languages. Since prompts play a crucial role in understanding their capabilities, the language used for prompts remains an important research question. Although there has been significant research in this area, it is still limited, and less has been explored for medium to low-resourced languages. In this study, we investigate different prompting strategies (native vs. non-native) on 11 different NLP tasks associated with 12 different Arabic datasets (9.7K data points). In total, we conducted 197 experiments involving 3 LLMs, 12 datasets, and 3 prompting strategies. Our findings suggest that, on average, the non-native prompt performs the best, followed by mixed and native prompts. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 法的契約予測:タスク定義とデータセット構築
Legal Fact Prediction: Task Definition and Dataset Construction ( http://arxiv.org/abs/2409.07055v1 ) ライセンス: Link先を確認 | Junkai Liu, Yujie Tong, Hui Huang, Shuyuan Zheng, Muyun Yang, Peicheng Wu, Makoto Onizuka, Chuan Xiao, | (参考訳) 法的事実は、裁判で認められた証拠によって証明できる事実を指す。
裁判所判決の決定の基礎となる。
本稿では,新たなNLP課題として,証拠リストに基づく法的事実の予測を目的とした法的事実予測について紹介する。
予測された事実は、裁判に関わった当事者とその弁護士に、提出の強化と裁判中の戦略の最適化を指示することができる。
さらに、最終判断の前には、実際の法的事実を入手することが困難であるため、予測された事実は、法的判断の予測の重要な基盤としても機能する。
LFPLoan, LFPLoanのエビデンスリストと真正な法的事実からなるベンチマークデータセットを構築した。
このデータセットを用いた実験により,この課題は非自明であり,さらなる研究努力が必要であることが示された。
Legal facts refer to the facts that can be proven by acknowledged evidence in a trial. They form the basis for the determination of court judgments. This paper introduces a novel NLP task: legal fact prediction, which aims to predict the legal fact based on a list of evidence. The predicted facts can instruct the parties and their lawyers involved in a trial to strengthen their submissions and optimize their strategies during the trial. Moreover, since real legal facts are difficult to obtain before the final judgment, the predicted facts also serve as an important basis for legal judgment prediction. We construct a benchmark dataset consisting of evidence lists and ground-truth legal facts for real civil loan cases, LFPLoan. Our experiments on this dataset show that this task is non-trivial and requires further considerable research efforts. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 音声応答コヒーレンスに基づく新しいグラフベースモデリングによる会話テストの自動評価
Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence ( http://arxiv.org/abs/2409.07064v1 ) ライセンス: Link先を確認 | Jiun-Ting Li, Bi-Cheng Yan, Tien-Hong Lo, Yi-Cheng Wang, Yung-Chang Hsu, Berlin Chen, | (参考訳) 会話テスト(ASAC)における発話自動評価は,L2話者が1人以上の候補者と対話する場面において,話者の発話能力を評価することを目的としている。
以前のASACアプローチは、それぞれのデータセットで有望なパフォーマンスを示しているが、会話に論理フローの一貫性をグレーディングモデルに組み込むことに特に焦点を絞った研究は、まだ続いている。
この重要な課題に対処するため、我々は、広範囲な応答間相互作用(例えば、談話関係)とニュアンス付き意味情報(例えば、意味語、話者意図)を適切に組み込んだ階層グラフモデルを提案し、最終的な予測のために文脈情報と融合する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法は様々な評価指標に対する予測精度を大幅に向上させる可能性が示唆された。
このことは、ASACにおける音声応答のコヒーレンスに関連する側面を調べることの重要性にも光を当てている。
Automated speaking assessment in conversation tests (ASAC) aims to evaluate the overall speaking proficiency of an L2 (second-language) speaker in a setting where an interlocutor interacts with one or more candidates. Although prior ASAC approaches have shown promising performance on their respective datasets, there is still a dearth of research specifically focused on incorporating the coherence of the logical flow within a conversation into the grading model. To address this critical challenge, we propose a hierarchical graph model that aptly incorporates both broad inter-response interactions (e.g., discourse relations) and nuanced semantic information (e.g., semantic words and speaker intents), which is subsequently fused with contextual information for the final prediction. Extensive experimental results on the NICT-JLE benchmark dataset suggest that our proposed modeling approach can yield considerable improvements in prediction accuracy with respect to various assessment metrics, as compared to some strong baselines. This also sheds light on the importance of investigating coherence-related facets of spoken responses in ASAC. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 宇宙用画像復調のためのエッジモデリングアクティベーションフリーフーリエネットワーク
Edge Modeling Activation Free Fourier Network for Spacecraft Image Denoising ( http://arxiv.org/abs/2409.07067v1 ) ライセンス: Link先を確認 | Jingfan Yang, Hu Gao, Ying Zhang, Bowen Ma, Depeng Dang, | (参考訳) 宇宙画像のデノイングは、航空宇宙研究と密接に関連する重要な基礎技術である。
しかし、既存の深層学習に基づく画像復号法では、宇宙船画像の特徴を深く考慮していない。
上記の欠点に対処するため、宇宙船のノイズ画像を分析し、2つの主な特徴を同定する。
ひとつは、得られた宇宙船のノイズ画像データセットには、多数の低照度画像が存在することだ。
もう一つの例は、宇宙船の画像には多くの繰り返し周期的な特徴があるということだ。
上記の特徴から、エッジモデリングブロック(EMB)やアクティベーションフリーフーリエブロック(AFFB)を含む効率的な宇宙船画像復号法であるエッジモデリングアクティベーションフリーフーリエネットワーク(EAFFN)を提案する。
本研究では, エッジを効果的にモデル化し, 構造情報を抽出し, 宇宙船騒音画像中の暗黒領域から宇宙船成分をよりよく同定する。
我々は、AFFBを提示し、改良された高速フーリエブロックを用いて、ノイズの多い宇宙船画像において繰り返し周期的特徴と長距離情報を抽出する。
さらに、Simple Gateは計算複雑性を低減するためにAFFBで設計されています。
大規模な実験により、EAFFNは宇宙船のノイズ画像データセットの最先端に競争力を発揮した。
Spacecraft image denoising is a crucial basic technology closely related to aerospace research. However, the existing deep learning-based image denoising methods lack deep consideration of the characteristics of spacecraft image. To address the aforementioned shortcomings, we analyses spacecraft noise image and identifies two main characteristics. One is that there are a large number of low-light images in the obtained spacecraft noise image dataset. Another is there are a lot of repetitive periodic features in spacecraft image. According to the above mentioned characteristics, we propose a Edge modeling Activation Free Fourier Network (EAFFN), which is an efficient spacecraft image denoising method including Edge Modeling Block (EMB) and Activation Free Fourier Block (AFFB). We present EMB to effectively model edge and extract structural information and better identify the spacecraft components from dark regions in spacecraft noise image. We present AFFB and utilize an improved fast fourier block to extract repetitive periodic features and long-range information in noisy spacecraft image. In addition, Simple Gate is designed in our AFFB to reduce the computational complexity. Extensive experimental results demonstrate our EAFFN performs competitively to the state-of-the-art on spacecraft noise image datasets. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 完全最適化量子メトロロジー:フレームワーク、ツール、アプリケーション
Fully-Optimized Quantum Metrology: Framework, Tools, and Applications ( http://arxiv.org/abs/2409.07068v1 ) ライセンス: Link先を確認 | Qiushi Liu, Zihao Hu, Haidong Yuan, Yuxiang Yang, | (参考訳) このチュートリアルでは、量子力学の重要な問題に対処する体系的なアプローチを紹介している。 未知のパラメータを検知する一般的なタスクに対して、許容可能な戦略の制約セットが与えられた場合、最終的な精度は何か。
この手法は、半定値プログラムとして最大到達精度(量子フィッシャー情報の最大値)と、その実現可能な解として最適戦略を出力する。
注目すべきことに、このアプローチは、並列、シーケンシャル、量子SWITCH強化、因果重畳、不確定因数順序戦略を含む、異なる戦略セットの最適精度を特定することができる。
このチュートリアルは、最適量子量論の背景と数学的ツールの教育的紹介、主なアプローチの詳細な導出、および様々な具体例で構成されている。
チュートリアルで示されているように、このアプローチの応用には、ノイズの多い量子メートル法における戦略の厳密な階層、非マルコフ的メートル法におけるメモリ効果、最適戦略の設計が含まれる。
従来の手法と比較すると、この手法は最適な精度の正確な値をもたらし、実験や実用化のためのより正確な基準を提供する。
これはまた、従来の戦略と最近発見された因果不確定戦略の比較を可能にし、この新しい量子力学領域を探索するための強力なツールとなる。
This tutorial introduces a systematic approach for addressing the key question of quantum metrology: For a generic task of sensing an unknown parameter, what is the ultimate precision given a constrained set of admissible strategies. The approach outputs the maximal attainable precision (in terms of the maximum of quantum Fisher information) as a semidefinite program and optimal strategies as feasible solutions thereof. Remarkably, the approach can identify the optimal precision for different sets of strategies, including parallel, sequential, quantum SWITCH-enhanced, causally superposed, and generic indefinite-causal-order strategies. The tutorial consists of a pedagogic introduction to the background and mathematical tools of optimal quantum metrology, a detailed derivation of the main approach, and various concrete examples. As shown in the tutorial, applications of the approach include, but are not limited to, strict hierarchy of strategies in noisy quantum metrology, memory effect in non-Markovian metrology, and designing optimal strategies. Compared with traditional approaches, the approach here yields the exact value of the optimal precision, offering more accurate criteria for experiments and practical applications. It also allows for the comparison between conventional strategies and the recently discovered causally-indefinite strategies, serving as a powerful tool for exploring this new area of quantum metrology. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 量子想像時間進化の系列展開をサンプリングした有限温度系の量子多体シミュレーション
Quantum many-body simulation of finite-temperature systems with sampling a series expansion of a quantum imaginary-time evolution ( http://arxiv.org/abs/2409.07070v1 ) ライセンス: Link先を確認 | Norifumi Matsumoto, Shoichiro Tsutsui, Yuya O. Nakagawa, Yuichiro Hidaka, Shota Kanasugi, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato, | (参考訳) 有限温度における熱平衡特性のシミュレーションは、量子多体系の性質を研究する上で重要な役割を果たす。
特に、量子コンピュータに有限温度シミュレーションを実装することは、量子モンテカルロ法が一般に符号問題に悩む大規模システムのシミュレーションの難しさを克服することが期待されている。
フォールトトレラント量子コンピューティング(FTQC)デバイスに適したいくつかの手法は、大規模な量子多体システムの研究に有用であると期待されているが、これまでに提案されているものには、多数のアンシラ量子ビットと多くの基本ゲートを持つディープ量子回路が含まれており、FTQC時代初期、すなわち、限られた数の量子ビットと量子ゲートしか利用できないFTQC時代の初期には不適当である。
本稿では、この初期段階の量子デバイスに適した手法を提案し、有限温度で観測可能な天体の熱平衡期待値を算出する。
提案手法は, 単純な量子回路をサンプリングし, 対応する統計的アンサンブルを生成し, アンシラ量子ビットにおける測定結果のポストセレクションに伴う資源要求の難しさと確率の減衰を克服する。
本稿では,MCMC-SPUアルゴリズムを1次元横フィールドイジングモデル上で数値シミュレーションすることにより,提案手法の有効性を示す。
Simulating thermal-equilibrium properties at finite temperature plays a crucial role in studying the nature of quantum many-body systems. In particular, implementing a finite-temperature simulation on a quantum computer is expected to overcome the difficulty in simulating large-sized systems, for which the quantum Monte-Carlo technique on a classical computer suffers from the sign problem in general. While several methods suitable for fault-tolerant quantum computing (FTQC) devices are expected to be useful in studying large-scale quantum many-body systems, those proposed so far involve a large number of ancilla qubits and a deep quantum circuit with many basic gates, making them unsuitable for the early-FTQC era, i.e., the early stage of the FTQC era, at which only a limited number of qubits and quantum gates are available. In this paper, we propose a method suitable for quantum devices in this early stage to calculate the thermal-equilibrium expectation value of an observable at finite temperature. Our proposal, named the Markov-chain Monte Carlo with sampled-pairs of unitaries (MCMC-SPU) algorithm, is based on sampling simple quantum circuits and generating the corresponding statistical ensembles, and overcomes the difficulties in the resource requirements and the decay in probability associated with postselection of measurement outcomes on ancilla qubits. We demonstrate the validity of our proposal by performing a numerical simulation of the MCMC-SPU algorithm on the one-dimensional transverse-field Ising model as an illustrative example. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# スタリスティック解析と説明可能なオーサシップ属性のための潜時空間解釈
Latent Space Interpretation for Stylistic Analysis and Explainable Authorship Attribution ( http://arxiv.org/abs/2409.07072v1 ) ライセンス: Link先を確認 | Milad Alshomary, Narutatsu Ri, Marianna Apidianaki, Ajay Patel, Smaranda Muresan, Kathleen McKeown, | (参考訳) 近年の最先端の著者帰属法は、潜在的で非解釈可能な空間におけるテキストの著者表現を学習し、現実のアプリケーションにおけるそれらの使用性を妨げている。
本研究は,LLMを用いて各点の代表点を同定し,各点の書き方に関する情報的自然言語記述を生成することによって,これらの学習された埋め込みを解釈する手法を提案する。
我々は,解釈可能な空間と潜在空間とのアライメントを評価し,他のベースラインと比較して最高の予測合意を達成できることを見出した。
さらに、これらのスタイル記述の質を評価するために人間による評価を行い、潜在空間の説明としてそれらの有用性を検証した。
最後に,課題であるAAタスクにおける人的パフォーマンスが,システムの説明に助けられ,平均精度が約20%向上するかどうかを検討する。
Recent state-of-the-art authorship attribution methods learn authorship representations of texts in a latent, non-interpretable space, hindering their usability in real-world applications. Our work proposes a novel approach to interpreting these learned embeddings by identifying representative points in the latent space and utilizing LLMs to generate informative natural language descriptions of the writing style of each point. We evaluate the alignment of our interpretable space with the latent one and find that it achieves the best prediction agreement compared to other baselines. Additionally, we conduct a human evaluation to assess the quality of these style descriptions, validating their utility as explanations for the latent space. Finally, we investigate whether human performance on the challenging AA task improves when aided by our system's explanations, finding an average improvement of around +20% in accuracy. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 視覚言語プロンプトとモーダリティ・ドロップアウトを用いたマルチモーダル感情認識
Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout ( http://arxiv.org/abs/2409.07078v1 ) ライセンス: Link先を確認 | Anbin QI, Zhongliang Liu, Xinyong Zhou, Jinba Xiao, Fengrun Zhang, Qi Gan, Ming Tao, Gaozheng Zhang, Lu Zhang, | (参考訳) 本稿では,第2回マルチモーダル感情認識チャレンジトラック1(MER2024-SEMI)について述べる。
感情認識の精度と一般化性能を向上させるために,マルチモーダル感情認識のためのいくつかの手法を提案する。
まず、映像ベースの感情認識タスク用に設計された視覚言語プロンプト学習を用いて、CLIPに基づいて微調整されたモデルであるEmoVCLIPを紹介する。
CLIPの迅速な学習を活用することで、情緒的ビデオにおける事前学習されたCLIPのパフォーマンスが向上する。
さらに,マルチモーダル核融合におけるモダリティ依存性の問題に対処するため,ロバスト情報融合にモダリティ・ドロップアウトを用いる。
さらに, バイチュアンが感情情報をよりよく抽出するのを助けるために, GPT-4をバイチュアンのプロンプトとして用いることを提案する。
最後に、ラベルのないビデオを活用するために、自己学習戦略を利用する。
このプロセスでは,モデルが生成した高信頼度擬似ラベル付きラベル付きラベル付きビデオを使用し,それらをトレーニングセットに組み込む。
実験の結果,MER2024-SEMIトラックで1位となり,90.15%の精度が得られた。
In this paper, we present our solution for the Second Multimodal Emotion Recognition Challenge Track 1(MER2024-SEMI). To enhance the accuracy and generalization performance of emotion recognition, we propose several methods for Multimodal Emotion Recognition. Firstly, we introduce EmoVCLIP, a model fine-tuned based on CLIP using vision-language prompt learning, designed for video-based emotion recognition tasks. By leveraging prompt learning on CLIP, EmoVCLIP improves the performance of pre-trained CLIP on emotional videos. Additionally, to address the issue of modality dependence in multimodal fusion, we employ modality dropout for robust information fusion. Furthermore, to aid Baichuan in better extracting emotional information, we suggest using GPT-4 as the prompt for Baichuan. Lastly, we utilize a self-training strategy to leverage unlabeled videos. In this process, we use unlabeled videos with high-confidence pseudo-labels generated by our model and incorporate them into the training set. Experimental results demonstrate that our model ranks 1st in the MER2024-SEMI track, achieving an accuracy of 90.15% on the test set. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 誤情報によるLLMにおける知識ドリフトの理解
Understanding Knowledge Drift in LLMs through Misinformation ( http://arxiv.org/abs/2409.07085v1 ) ライセンス: Link先を確認 | Alina Fastowski, Gjergji Kasneci, | (参考訳) 大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
しかし、これらのモデルが誤情報にさらされると、信頼性が重要になる。
QnAシナリオでは,「知識ドリフト*」と呼ばれる現象を生じさせる可能性のある問題であり,これらのモデルの信頼性を著しく損なうような,現状のLLMの事実的不正確性に対する感受性を主に分析する。
本研究では,Entropy,Perplexity,Token Probabilityの指標によるモデル応答の実態と不確実性を評価する。
実験の結果,誤情報の暴露により誤答が生じた場合,LLMの不確実性は56.6%まで増大することがわかった。
同時に、同じ偽情報に対する繰り返しの暴露は、モデルの不確実性を再び減少させ(-52.8% w.r.t.)、基礎となるモデルの信念を操り、元の知識から逸脱する可能性がある。
これらの発見は、LLMの堅牢性と、敵の入力に対する脆弱性に関する洞察を与え、様々な領域にわたってより信頼性の高いLLMアプリケーションを開発するための道を開いた。
コードはhttps://github.com/afastowski/knowledge_drift.comで公開されている。
Large Language Models (LLMs) have revolutionized numerous applications, making them an integral part of our digital ecosystem. However, their reliability becomes critical, especially when these models are exposed to misinformation. We primarily analyze the susceptibility of state-of-the-art LLMs to factual inaccuracies when they encounter false information in a QnA scenario, an issue that can lead to a phenomenon we refer to as *knowledge drift*, which significantly undermines the trustworthiness of these models. We evaluate the factuality and the uncertainty of the models' responses relying on Entropy, Perplexity, and Token Probability metrics. Our experiments reveal that an LLM's uncertainty can increase up to 56.6% when the question is answered incorrectly due to the exposure to false information. At the same time, repeated exposure to the same false information can decrease the models uncertainty again (-52.8% w.r.t. the answers on the untainted prompts), potentially manipulating the underlying model's beliefs and introducing a drift from its original knowledge. These findings provide insights into LLMs' robustness and vulnerability to adversarial inputs, paving the way for developing more reliable LLM applications across various domains. The code is available at https://github.com/afastowski/knowledge_drift. | 翻訳日:2024-09-12 15:26:28 公開日:2024-09-11 |
# 大規模言語モデルを用いたオントロジーフリー汎用知識グラフテキスト生成データセット合成
Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model ( http://arxiv.org/abs/2409.07088v1 ) ライセンス: Link先を確認 | Daehee Kim, Deokhyung Kang, Sangwon Ryu, Gary Geunbae Lee, | (参考訳) 知識グラフからテキストへ(G2T)生成するには、構造化知識グラフを自然言語テキストに言語化する必要がある。
プレトレーニング言語モデル(PLM)の最近の進歩はG2Tの性能を改善しているが、その有効性は正確なグラフテキストアライメントを持つデータセットに依存する。
しかし、高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
この問題に対処するため、ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。これは、LLM(Large Language Model)とData-QuestEvalを利用した新しい手法を用いて生成された、新しい大規模G2Tデータセットである。
新しいデータセットは5.85万の一般ドメイングラフテキストペアを含み、外部オントロジーに頼ることなく高いグラフテキスト一貫性を提供する。
実験の結果、WikiOFGraphで微調整されたPLMは、様々な評価指標で訓練されたデータセットよりも優れていた。
提案手法は,高品質なG2Tデータを生成するためのスケーラブルで効率的なソリューションであることが証明され,G2T生成の分野は大幅に進歩した。
Knowledge Graph-to-Text (G2T) generation involves verbalizing structured knowledge graphs into natural language text. Recent advancements in Pretrained Language Models (PLMs) have improved G2T performance, but their effectiveness depends on datasets with precise graph-text alignment. However, the scarcity of high-quality, general-domain G2T generation datasets restricts progress in the general-domain G2T generation research. To address this issue, we introduce Wikipedia Ontology-Free Graph-text dataset (WikiOFGraph), a new large-scale G2T dataset generated using a novel method that leverages Large Language Model (LLM) and Data-QuestEval. Our new dataset, which contains 5.85M general-domain graph-text pairs, offers high graph-text consistency without relying on external ontologies. Experimental results demonstrate that PLM fine-tuned on WikiOFGraph outperforms those trained on other datasets across various evaluation metrics. Our method proves to be a scalable and effective solution for generating high-quality G2T data, significantly advancing the field of G2T generation. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# TrialSynth:Synthetic Sequential Clinical Trial Dataの作成
TrialSynth: Generation of Synthetic Sequential Clinical Trial Data ( http://arxiv.org/abs/2409.07089v1 ) ライセンス: Link先を確認 | Chufan Gao, Mandis Beigi, Afrah Shafquat, Jacob Aptekar, Jimeng Sun, | (参考訳) 過去の臨床試験のデータ分析は、新しい臨床試験の設計、実施、実行を最適化し、より効率的に省力化の介入を市場にもたらすために、現在進行中の取り組みの一部である。
近年,静的な文脈による臨床試験データの生成が進んでいるが,患者のプライバシ要求による制約や,患者のプライバシ要求による制約が限定されているため,詳細な総合的な臨床試験データの生成は困難である。
臨床治験全体に対する患者軌跡が、有害な有害事象を防止するための治験設計と努力の最適化に極めて重要であることを考えると、高忠実度時系列臨床治験データの生成には大きなニーズがある。
本稿では,TrialSynthについて紹介する。TrialSynthは,合成時系列臨床試験データの生成に関する具体的な課題に対処するために設計された変分オートエンコーダ(VAE)である。
本手法のコアとなるのがHawkes Processes (HP) であり, 連続的な臨床試験データの構造を捉えるのに必要なイベントタイプおよび時間ギャップ予測のモデル化に特に適している。
以上の結果から,TrialSynth は,複数の実世界連続イベントデータセットに対して,最小限の外部情報を使用する場合に,精度の高いイベントシーケンスを生成できることを実証した。
特に,TrialSynthが既存の臨床シーケンス生成法より優れているだけでなく,患者のプライバシを経験的に保存しながら,優れたユーティリティでデータを生成するという経験的知見が浮かび上がっている。
Analyzing data from past clinical trials is part of the ongoing effort to optimize the design, implementation, and execution of new clinical trials and more efficiently bring life-saving interventions to market. While there have been recent advances in the generation of static context synthetic clinical trial data, due to both limited patient availability and constraints imposed by patient privacy needs, the generation of fine-grained synthetic time-sequential clinical trial data has been challenging. Given that patient trajectories over an entire clinical trial are of high importance for optimizing trial design and efforts to prevent harmful adverse events, there is a significant need for the generation of high-fidelity time-sequence clinical trial data. Here we introduce TrialSynth, a Variational Autoencoder (VAE) designed to address the specific challenges of generating synthetic time-sequence clinical trial data. Distinct from related clinical data VAE methods, the core of our method leverages Hawkes Processes (HP), which are particularly well-suited for modeling event-type and time gap prediction needed to capture the structure of sequential clinical trial data. Our experiments demonstrate that TrialSynth surpasses the performance of other comparable methods that can generate sequential clinical trial data, in terms of both fidelity and in enabling the generation of highly accurate event sequences across multiple real-world sequential event datasets with small patient source populations when using minimal external information. Notably, our empirical findings highlight that TrialSynth not only outperforms existing clinical sequence-generating methods but also produces data with superior utility while empirically preserving patient privacy. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# CWT-Net: クロススケールウェーブレット変換器を用いた病理像の超解像
CWT-Net: Super-resolution of Histopathology Images Using a Cross-scale Wavelet-based Transformer ( http://arxiv.org/abs/2409.07092v1 ) ライセンス: Link先を確認 | Feiyang Jia, Zhineng Chen, Ziying Song, Lin Liu, Caiyan Jia, | (参考訳) 超解像(SR)は低解像度画像の品質を高めることを目的としており、医用画像に広く応用されている。
その結果,既存の手法の設計原理は実世界の画像に基づくSRタスクの影響を受けており,客観的な客観的な評価を達成できたとしても,病理画像における多段階構造の重要性を考慮しないことがわかった。
本研究では,2つの超高解像度ワーキングパラダイムを探索し,画像ウェーブレット変換とトランスフォーマーアーキテクチャを利用したCWT-Netという新しいネットワークを提案する。
我々のネットワークは2つのブランチで構成されている。1つは超解像学習のためのもので、もう1つは高周波ウェーブレットの特徴である。
高解像度の病理像を生成するため、Transformerモジュールは様々な段階で両方の枝から特徴を共有し、融合する。
特に、ウェーブレット領域の特徴を効果的に拡張し、異なるモードでネットワークを動作させることができる専用ウェーブレット再構築モジュールを設計し、クロススケール画像からの付加的な関連情報の導入を可能にした。
実験結果から,本モデルは性能評価と可視化評価において最先端の手法よりも優れており,画像診断ネットワークの精度を大幅に向上させることができることがわかった。
Super-resolution (SR) aims to enhance the quality of low-resolution images and has been widely applied in medical imaging. We found that the design principles of most existing methods are influenced by SR tasks based on real-world images and do not take into account the significance of the multi-level structure in pathological images, even if they can achieve respectable objective metric evaluations. In this work, we delve into two super-resolution working paradigms and propose a novel network called CWT-Net, which leverages cross-scale image wavelet transform and Transformer architecture. Our network consists of two branches: one dedicated to learning super-resolution and the other to high-frequency wavelet features. To generate high-resolution histopathology images, the Transformer module shares and fuses features from both branches at various stages. Notably, we have designed a specialized wavelet reconstruction module to effectively enhance the wavelet domain features and enable the network to operate in different modes, allowing for the introduction of additional relevant information from cross-scale images. Our experimental results demonstrate that our model significantly outperforms state-of-the-art methods in both performance and visualization evaluations and can substantially boost the accuracy of image diagnostic networks. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# ハイパースペクトルカメラの深い術中照明校正
Deep intra-operative illumination calibration of hyperspectral cameras ( http://arxiv.org/abs/2409.07094v1 ) ライセンス: Link先を確認 | Alexander Baumann, Leonardo Ayala, Alexander Studier-Fischer, Jan Sellner, Berkin Özdemir, Karl-Friedrich Kowalewski, Slobodan Ilic, Silvia Seidlitz, Lena Maier-Hein, | (参考訳) ハイパースペクトルイメージング (HSI) は, 様々な手術応用に期待できる新しい画像モダリティとして出現している。
しかし、現在利用可能なカメラは、照明をオフにするか、照明条件が変わったら手動で再調整する必要があるため、臨床ワークフローへの統合が不十分である。
1)手術室の照明条件を動的に変化させることが,生理的パラメータ推定や手術シーンのセグメンテーションといったHSIアプリケーションの性能に劇的な影響を及ぼすことを示す。
2) 手術中におけるハイパースペクトル画像の自動補正のための新しい学習ベースアプローチを提案し, 白基準補正の面倒なプロセスを置き換えるのに十分正確であることを示す。
(3) ファントム, ブタモデル, およびラットの合計722個のHSI立方体に基づいて, 我々の再校正法は, 従来提案されていた方法に勝るだけでなく, 種, 照明条件, 画像処理タスクにも応用できることを示した。
簡便なワークフロー統合と高い精度,速度,一般化能力により,本法は外科的HSIの中心的構成要素として発展する可能性がある。
Hyperspectral imaging (HSI) is emerging as a promising novel imaging modality with various potential surgical applications. Currently available cameras, however, suffer from poor integration into the clinical workflow because they require the lights to be switched off, or the camera to be manually recalibrated as soon as lighting conditions change. Given this critical bottleneck, the contribution of this paper is threefold: (1) We demonstrate that dynamically changing lighting conditions in the operating room dramatically affect the performance of HSI applications, namely physiological parameter estimation, and surgical scene segmentation. (2) We propose a novel learning-based approach to automatically recalibrating hyperspectral images during surgery and show that it is sufficiently accurate to replace the tedious process of white reference-based recalibration. (3) Based on a total of 742 HSI cubes from a phantom, porcine models, and rats we show that our recalibration method not only outperforms previously proposed methods, but also generalizes across species, lighting conditions, and image processing tasks. Due to its simple workflow integration as well as high accuracy, speed, and generalization capabilities, our method could evolve as a central component in clinical surgical HSI. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# 室内シーンニューラルレンダリングのための冗長性を考慮したカメラ選択
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering ( http://arxiv.org/abs/2409.07098v1 ) ライセンス: Link先を確認 | Zehao Wang, Han Zhou, Matthew B. Blaschko, Tinne Tuytelaars, Minye Wu, | (参考訳) 室内シーンの新たなビュー合成は、環境の単眼ビデオシーケンスをキャプチャすることで実現できる。
しかし、入力ビデオデータ中の人工的な動きによって生じる冗長な情報は、シーンモデリングの効率を低下させる。
本研究では,カメラ選択の観点から,この課題に取り組む。
まず、カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築する。
この行列に基づいて、カメラの冗長性を評価するためにILD(Intra-List Diversity)メトリクスを使用し、カメラ選択タスクを最適化問題として定式化する。
次に、多様性に基づくサンプリングアルゴリズムを適用し、カメラ選択を最適化する。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが、現実世界のシナリオを忠実に模倣しています。
実験の結果、我々の戦略は時間とメモリの制約下で他のアプローチよりも優れていることが示された。
注目すべきことに,本手法は全データセットでトレーニングしたモデルに匹敵する性能を達成し,フレームの平均15%と割り当て時間の75%しか使用していない。
Novel view synthesis of indoor scenes can be achieved by capturing a monocular video sequence of the environment. However, redundant information caused by artificial movements in the input video data reduces the efficiency of scene modeling. In this work, we tackle this challenge from the perspective of camera selection. We begin by constructing a similarity matrix that incorporates both the spatial diversity of the cameras and the semantic variation of the images. Based on this matrix, we use the Intra-List Diversity (ILD) metric to assess camera redundancy, formulating the camera selection task as an optimization problem. Then we apply a diversity-based sampling algorithm to optimize the camera selection. We also develop a new dataset, IndoorTraj, which includes long and complex camera movements captured by humans in virtual indoor environments, closely mimicking real-world scenarios. Experimental results demonstrate that our strategy outperforms other approaches under time and memory constraints. Remarkably, our method achieves performance comparable to models trained on the full dataset, while using only an average of 15% of the frames and 75% of the allotted time. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# Meta-learned Implicit Neural Representationによる高速な医用形状再構成
Fast Medical Shape Reconstruction via Meta-learned Implicit Neural Representations ( http://arxiv.org/abs/2409.07100v1 ) ライセンス: Link先を確認 | Gaia Romana De Paolis, Dimitrios Lenis, Johannes Novotny, Maria Wimmer, Astrid Berg, Theresa Neubauer, Philip Matthias Winter, David Major, Ariharasudhan Muthusami, Gerald Schröcker, Martin Mienkina, Katja Bühler, | (参考訳) 解剖学的構造の効率的かつ迅速な再構築は臨床実践において重要な役割を担っている。
検索と処理時間の最小化は、重要なシナリオにおける迅速な応答と意思決定を促進するだけでなく、インタラクティブな手術計画とナビゲーションもサポートする。
近年の手法は暗黙的神経機能を利用して医療形状再構築の課題を解決しようとするものである。
しかし、それらの性能は、リアルタイムアプリケーションにとって重要な指標である一般化と計算時間に悩まされている。
これらの課題に対処するために,メタ学習を活用してネットワークパラメータの初期化を改善することを提案する。
解剖学的形状と形態,すなわちCTとMRIを対象とする3つの公開データセットに対するアプローチについて検討した。
実験結果から,スライスやスパンス,スパンス,スパンス,スパンスなど,様々な入力構成を扱えることがわかった。
さらに,本手法は,トレーニング時に観測されない領域を一般化する上で,強い伝達能力を示すことを示す。
Efficient and fast reconstruction of anatomical structures plays a crucial role in clinical practice. Minimizing retrieval and processing times not only potentially enhances swift response and decision-making in critical scenarios but also supports interactive surgical planning and navigation. Recent methods attempt to solve the medical shape reconstruction problem by utilizing implicit neural functions. However, their performance suffers in terms of generalization and computation time, a critical metric for real-time applications. To address these challenges, we propose to leverage meta-learning to improve the network parameters initialization, reducing inference time by an order of magnitude while maintaining high accuracy. We evaluate our approach on three public datasets covering different anatomical shapes and modalities, namely CT and MRI. Our experimental results show that our model can handle various input configurations, such as sparse slices with different orientations and spacings. Additionally, we demonstrate that our method exhibits strong transferable capabilities in generalizing to shape domains unobserved at training time. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# 量子アルゴリズムによる2+1$DのSO(3)$非アベリア格子ゲージ理論における自発対称性の破れ
Spontaneous symmetry breaking in a $SO(3)$ non-Abelian lattice gauge theory in $2+1$D with quantum algorithms ( http://arxiv.org/abs/2409.07108v1 ) ライセンス: Link先を確認 | Sandip Maiti, Debasish Banerjee, Bipasha Chakraborty, Emilie Huffman, | (参考訳) 量子場理論の様々な性質のシミュレーションは、量子アルゴリズムの進歩を示すための試験場として急速になってきている。
例えば、基底状態の調製、散乱現象に関連する様々な単純な波のパケットの調査などがある。
本研究では,大域電荷共役対称性が自発的に破壊される位相において,非アベリア系$SO(3)$格子ゲージ理論において,量子アルゴリズムによる基底状態の生成能力について検討する。
これは、量子スピンモデルと比較してゲージ理論に対する大きなヒルベルト空間を扱う必要性と、体積の関数として指数関数的に小さい2つの基底状態の間のギャップを閉じることである。
ゲージ場のヒルベルト空間を扱うために、量子リンク作用素のリドン表現における非アベリアガウス法則の正確な仮定が、自由度を著しく減少させることを示す。
さらに、このギャップを解決するために、2つの最低エネルギー状態を作成する量子アルゴリズムの出発点として、ガウス・ロー解法に基づく実験状態の対称性誘導 ans\"{a}tze を導入する。
2次元のシステムサイズに関するシミュレーション結果に加えて、4つの量子リンクを持つシステムの研究において、捕捉されたイオンベースの量子ハードウェアIonQの実験結果も提供する。
理論的発展から得られた実験・シミュレーションの結果は, エネルギーや不確実性など, 測定値の役割を示すものである。
The simulation of various properties of quantum field theories is rapidly becoming a testing ground for demonstrating the prowess of quantum algorithms. Some examples include the preparation of ground states, as well as the investigation of various simple wave packets relevant for scattering phenomena. In this work, we study the ability of quantum algorithms to prepare ground states in a matter-free non-Abelian $SO(3)$ lattice gauge theory in $2+1$D in a phase where the global charge conjugation symmetry is spontaneously broken. This is challenging for two reasons: the necessity of dealing with a large Hilbert space for gauge theories compared to that of quantum spin models, and the closing of the gap between the two ground states which becomes exponentially small as a function of the volume. To deal with the large Hilbert space of gauge fields, we demonstrate how the exact imposition of the non-Abelian Gauss Law in the rishon representation of the quantum link operator significantly reduces the degrees of freedom. Further, to resolve the gap, we introduce symmetry-guided ans\"{a}tze in the Gauss-Law-resolved basis for trial states as the starting point for the quantum algorithms to prepare the two lowest energy states. In addition to simulation results for a range of two-dimensional system sizes, we also provide experimental results from the trapped-ion-based quantum hardware, IonQ, when working on systems with four quantum links. The experimental/simulation results derived from our theoretical developments indicate the role of metrics--such as the energy and the infidelity--to assess the obtained results. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# TinyPropv2によるオンデバイスニューラルネットワークトレーニングの強化:動的,スパース,効率的なバックプロパゲーション
Advancing On-Device Neural Network Training with TinyPropv2: Dynamic, Sparse, and Efficient Backpropagation ( http://arxiv.org/abs/2409.07109v1 ) ライセンス: Link先を確認 | Marcus Rüb, Axel Sikora, Daniel Mueller-Gritschneder, | (参考訳) この研究は、ディープニューラルネットワークのデバイス上での学習に最適化された革新的なアルゴリズムであるTinyPropv2を紹介した。
TinyPropv2は、トレーニングステップを選択的にスキップする機能を含む、スパースバックプロパゲーションを動的に調整することで洗練する。
この機能は、精度を著しく損なうことなく、計算労力を大幅に削減する。
CIFAR 10, CIFAR100, Flower, Food, Speech Command, MNIST, HAR, DCASE 2020 のさまざまなデータセットを総合的に評価した結果, TinyPropv2 が完全なトレーニング手法でほぼ不完全であり,ほとんどのケースでは平均精度が1%程度低下していることがわかった。
例えば、完全なトレーニングに対して、TinyPropv2の精度低下は最小限であり、例えば、CIFAR 10では0.82パーセント、CIFAR100では1.07%である。
計算労力の面では、TinyPropv2は顕著な削減を示し、いくつかのシナリオでの完全なトレーニングに必要な計算労力の10%しか必要とせず、他のスパーストレーニング手法を一貫して上回っている。
これらの発見は、高い精度を維持しながら計算リソースを効率的に管理するTinyPropv2の能力を強調し、IoTエコシステムにおける高度な組み込みデバイスアプリケーションのための有利なソリューションとして位置付けている。
This study introduces TinyPropv2, an innovative algorithm optimized for on-device learning in deep neural networks, specifically designed for low-power microcontroller units. TinyPropv2 refines sparse backpropagation by dynamically adjusting the level of sparsity, including the ability to selectively skip training steps. This feature significantly lowers computational effort without substantially compromising accuracy. Our comprehensive evaluation across diverse datasets CIFAR 10, CIFAR100, Flower, Food, Speech Command, MNIST, HAR, and DCASE2020 reveals that TinyPropv2 achieves near-parity with full training methods, with an average accuracy drop of only around 1 percent in most cases. For instance, against full training, TinyPropv2's accuracy drop is minimal, for example, only 0.82 percent on CIFAR 10 and 1.07 percent on CIFAR100. In terms of computational effort, TinyPropv2 shows a marked reduction, requiring as little as 10 percent of the computational effort needed for full training in some scenarios, and consistently outperforms other sparse training methodologies. These findings underscore TinyPropv2's capacity to efficiently manage computational resources while maintaining high accuracy, positioning it as an advantageous solution for advanced embedded device applications in the IoT ecosystem. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# データセット蒸留とモデルサイズ適応を用いたTinyMLオンデバイストレーニングの連続的・漸進的学習手法
A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption ( http://arxiv.org/abs/2409.07114v1 ) ライセンス: Link先を確認 | Marcus Rüb, Philipp Tuchel, Axel Sikora, Daniel Mueller-Gritschneder, | (参考訳) Tiny Machine Learning(TinyML)のコンテキストにおけるインクリメンタル学習のための新しいアルゴリズムが提示され、低性能で省エネな組み込みデバイスに最適化されている。
TinyMLは、マイクロコントローラのようなリソース制約のあるデバイスに機械学習モデルをデプロイする新興分野であり、従来の機械学習モデルが実現不可能な環境で、音声認識、異常検出、予測保守、センサデータ処理といったインテリジェントなアプリケーションを可能にする。
このアルゴリズムは、知識蒸留を用いて破滅的な忘れをし、小さな蒸留データセットを作成するという課題を解決する。
この手法の新規性は、モデルのサイズを動的に調整し、モデルの複雑さをタスクの要求に適応させることができることである。
これは、モデルのサイズと計算効率の両方が重要な要素であるリソース制約のある環境での漸進的な学習のソリューションを提供する。
提案アルゴリズムは,組込みデバイス上でのTinyMLインクリメンタル学習に有望なアプローチを提供することを示す。
このアルゴリズムは、CIFAR10、MNIST、CORE50、HAR、Speech Commandsの5つのデータセットでテストされた。
その結果, 浮動小数点演算(FLOP)の43%しか使用していないにもかかわらず, アルゴリズムの精度は1%に過ぎなかった。
また,提案手法はメモリ効率がよい。
最先端の漸進的な学習は通常、非常にメモリ集約的であるが、この方法は元のデータセットの1%しか必要としない。
A new algorithm for incremental learning in the context of Tiny Machine learning (TinyML) is presented, which is optimized for low-performance and energy efficient embedded devices. TinyML is an emerging field that deploys machine learning models on resource-constrained devices such as microcontrollers, enabling intelligent applications like voice recognition, anomaly detection, predictive maintenance, and sensor data processing in environments where traditional machine learning models are not feasible. The algorithm solve the challenge of catastrophic forgetting through the use of knowledge distillation to create a small, distilled dataset. The novelty of the method is that the size of the model can be adjusted dynamically, so that the complexity of the model can be adapted to the requirements of the task. This offers a solution for incremental learning in resource-constrained environments, where both model size and computational efficiency are critical factors. Results show that the proposed algorithm offers a promising approach for TinyML incremental learning on embedded devices. The algorithm was tested on five datasets including: CIFAR10, MNIST, CORE50, HAR, Speech Commands. The findings indicated that, despite using only 43% of Floating Point Operations (FLOPs) compared to a larger fixed model, the algorithm experienced a negligible accuracy loss of just 1%. In addition, the presented method is memory efficient. While state-of-the-art incremental learning is usually very memory intensive, the method requires only 1% of the original data set. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# ブラインド画像品質評価のための注意ダウンサンプリング変換器、相対ランク付けおよび自己整合性
Attention Down-Sampling Transformer, Relative Ranking and Self-Consistency for Blind Image Quality Assessment ( http://arxiv.org/abs/2409.07115v1 ) ライセンス: Link先を確認 | Mohammed Alsaafin, Musab Alsheikh, Saeed Anwar, Muhammad Usman, | (参考訳) 非参照画像品質評価は、元の参照なしで画像品質を推定する難しい領域である。
変換器エンコーダとCNNを用いて,画像から局所的および非局所的情報を抽出する機構を改良した。
Transformerエンコーダの利用は、局所性バイアスを緩和し、局所的な視覚構造を本質的にキャプチャするCNN機能を逐次処理することで非局所表現を生成することを目的としている。
相対的距離情報に基づいて画像のバッチ内をソートすることで、主観的評価と客観的評価のより強い関係を確立する。
非参照画像品質評価(NR-IQA)モデルの同変変換による劣化に対処し,自己超越に対する自己整合性アプローチを提案する。
提案手法は,画像と水平方向に反転した等価値との整合性を維持することにより,モデルロバスト性を確保する。
5つの画像品質評価データセットの実証評価を通じて、提案モデルは、特に小さなデータセットにおいて、非参照画像品質評価データセットの文脈において、代替アルゴリズムよりも優れている。
コードは \href{https://github.com/mas94/ADTRS}{https://github.com/mas94/ADTRS} で入手できる。
The no-reference image quality assessment is a challenging domain that addresses estimating image quality without the original reference. We introduce an improved mechanism to extract local and non-local information from images via different transformer encoders and CNNs. The utilization of Transformer encoders aims to mitigate locality bias and generate a non-local representation by sequentially processing CNN features, which inherently capture local visual structures. Establishing a stronger connection between subjective and objective assessments is achieved through sorting within batches of images based on relative distance information. A self-consistency approach to self-supervision is presented, explicitly addressing the degradation of no-reference image quality assessment (NR-IQA) models under equivariant transformations. Our approach ensures model robustness by maintaining consistency between an image and its horizontally flipped equivalent. Through empirical evaluation of five popular image quality assessment datasets, the proposed model outperforms alternative algorithms in the context of no-reference image quality assessment datasets, especially on smaller datasets. Codes are available at \href{https://github.com/mas94/ADTRS}{https://github.com/mas94/ADTRS} | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# 審美空間の信頼性に制限のある改訂
Credibility-Limited Revision for Epistemic Spaces ( http://arxiv.org/abs/2409.07119v1 ) ライセンス: Link先を確認 | Kai Sauerwald, | (参考訳) 我々は、認識空間における信念変化の枠組みにおける信頼性に制限のある改訂を検討し、一貫性のない信念セットと一貫性のない信念を許容する。
この制限のない設定では、信頼性に制限のあるリビジョン演算子のクラスには、AGMリビジョン演算子が含まれない。
信頼性制限リビジョン演算子のクラスを、信頼性制限リビジョンの本来の精神を維持しつつ、すべてのAGMリビジョン演算子を含めるように拡張する。
拡張信頼性制限リビジョン演算子は公理的に定義される。
可能世界に対する全事前注文を利用する拡張信頼度制限リビジョン演算子のセマンティックキャラクタリゼーションについて述べる。
We consider credibility-limited revision in the framework of belief change for epistemic spaces, permitting inconsistent belief sets and inconsistent beliefs. In this unrestricted setting, the class of credibility-limited revision operators does not include any AGM revision operators. We extend the class of credibility-limited revision operators in a way that all AGM revision operators are included while keeping the original spirit of credibility-limited revision. Extended credibility-limited revision operators are defined axiomatically. A semantic characterization of extended credibility-limited revision operators that employ total preorders on possible worlds is presented. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# クロスリファイン:タンデムにおける学習による自然言語説明生成の改善
Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem ( http://arxiv.org/abs/2409.07123v1 ) ライセンス: Link先を確認 | Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller, Vera Schmitt, | (参考訳) 自然言語の説明(NLEs)は、大きな言語モデル(LLM)決定の背後にある理由を解明するために不可欠である。
LLMを用いてNLEを生成するために多くの技術が開発されている。
しかし、人間と同様、LSMは最初の試みで常に最適なNLEを生成するわけではない。
人間の学習プロセスにインスパイアされたクロスリファイン(Cross-Refine)を導入し、2つのLLMをジェネレータとして配置し、それぞれを批評する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
Cross-Refineは、教師付きトレーニングデータや追加トレーニングを必要としない。
我々は3つのNLPタスクにまたがってCross-Refineを検証する。
我々は自給自給自足(Madaan et al , 2023)をベースラインとして選択する。
自動評価とユーザによる調査の結果,クロスリファインの方が自己リファインを上回っていることがわかった。
一方、Cross-Refineは低消費電力のLDMで効果的に機能するが、Self-RefineはChatGPTでのみ強力な結果が得られる。
さらに,フィードバックと提案の重要性を評価するためのアブレーション調査を実施している。
両者は、説明の精査において重要な役割を担っている。
さらに英語とドイツ語のバイリンガルデータセット上でCross-Refineを評価する。
Natural language explanations (NLEs) are vital for elucidating the reasoning behind large language model (LLM) decisions. Many techniques have been developed to generate NLEs using LLMs. However, like humans, LLMs might not always produce optimal NLEs on first attempt. Inspired by human learning processes, we introduce Cross-Refine, which employs role modeling by deploying two LLMs as generator and critic, respectively. The generator outputs a first NLE and then refines this initial explanation using feedback and suggestions provided by the critic. Cross-Refine does not require any supervised training data or additional training. We validate Cross-Refine across three NLP tasks using three state-of-the-art open-source LLMs through automatic and human evaluation. We select Self-Refine (Madaan et al., 2023) as the baseline, which only utilizes self-feedback to refine the explanations. Our findings from automatic evaluation and a user study indicate that Cross-Refine outperforms Self-Refine. Meanwhile, Cross-Refine can perform effectively with less powerful LLMs, whereas Self-Refine only yields strong results with ChatGPT. Additionally, we conduct an ablation study to assess the importance of feedback and suggestions. Both of them play an important role in refining explanations. We further evaluate Cross-Refine on a bilingual dataset in English and German. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# DCMAC: 上界トレーニングによる需要対応型マルチエージェント通信
DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training ( http://arxiv.org/abs/2409.07127v1 ) ライセンス: Link先を確認 | Dongkun Huo, Huateng Zhang, Yixue Hao, Yuanlin Ye, Long Hu, Rui Wang, Min Chen, | (参考訳) 効率的なコミュニケーションは、協調型マルチエージェント強化学習の全体的な性能を高めることができる。
一般的なアプローチは、完全なコミュニケーションを通じて観察を共有することである。
既存の作業は、ローカル情報に基づいてチームメイトモデルを実行することで、グローバルな状態を知覚しようとする。
しかし、予測によって生じる不確実性が訓練を困難にすることを無視している。
この問題に対処するため,要求対応のカスタマイズマルチエージェント通信(DCMAC)プロトコルを提案する。
要求解析モジュールを利用することで、エージェントはチームメイトにローカルメッセージを送信するメリットを解釈し、クロスアテンション機構を使用して要求とローカル観察の相関を計算することで、カスタマイズされたメッセージを生成することができる。
さらに,本手法はエージェントの通信資源に適応し,共同観測で訓練した理想的な方針を推定することにより,訓練の進行を加速することができる。
実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
Efficient communication can enhance the overall performance of collaborative multi-agent reinforcement learning. A common approach is to share observations through full communication, leading to significant communication overhead. Existing work attempts to perceive the global state by conducting teammate model based on local information. However, they ignore that the uncertainty generated by prediction may lead to difficult training. To address this problem, we propose a Demand-aware Customized Multi-Agent Communication (DCMAC) protocol, which use an upper bound training to obtain the ideal policy. By utilizing the demand parsing module, agent can interpret the gain of sending local message on teammate, and generate customized messages via compute the correlation between demands and local observation using cross-attention mechanism. Moreover, our method can adapt to the communication resources of agents and accelerate the training progress by appropriating the ideal policy which is trained with joint observation. Experimental results reveal that DCMAC significantly outperforms the baseline algorithms in both unconstrained and communication constrained scenarios. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# 手の静脈バイオメトリックスのためのDeep Learning Techniques:包括的レビュー
Deep Learning Techniques for Hand Vein Biometrics: A Comprehensive Review ( http://arxiv.org/abs/2409.07128v1 ) ライセンス: Link先を確認 | Mustapha Hemis, Hamza Kheddar, Sami Bourouis, Nasir Saleem, | (参考訳) バイオメトリック認証は、安全かつ効率的な認証方法として注目されている。
様々なモダリティの中で、指静脈、掌静脈、背側手静脈の認識などの手静脈バイオメトリックスは、高い精度、偽造に対する感受性の低いこと、非侵入性など、独特な利点がある。
手の静脈パターンは非常に複雑で、個々の個体ごとに異なるため、理想的な生体認証である。
さらに、手脈の認識は接触がなく、指紋や虹彩の認識などの他のモダリティと比較して、利用者の利便性と衛生性を高める。
さらに静脈は内部に位置しており、損傷や変化の影響を受けにくいため、生体認証システムの安全性と信頼性が向上する。
これらの要因を組み合わせることで、手静脈バイオメトリックスは、身元認証の極めて効果的で安全な方法となる。
本報告では, 指静脈, 掌静脈, 背側手静脈の認識に応用された深部学習技術の最新の進歩について述べる。
手静脈バイオメトリックスの本質的な基礎をすべて包含し、公開されているデータセットを要約し、3つのモードを評価するのに使用される最先端のメトリクスについて議論する。
さらに、指、手のひら、背、マルチモーダル静脈のテクニックに対する提案されたアプローチの概要を提供し、最高のパフォーマンス、データ拡張技術、効果的な伝達学習方法、関連する事前訓練されたディープラーニングモデルに関する洞察を提供する。
さらに、このレビューは、直面する研究課題に対処し、今後の方向性と展望を概説し、研究者に既存の手法の強化と革新的な技術の提案を奨励する。
Biometric authentication has garnered significant attention as a secure and efficient method of identity verification. Among the various modalities, hand vein biometrics, including finger vein, palm vein, and dorsal hand vein recognition, offer unique advantages due to their high accuracy, low susceptibility to forgery, and non-intrusiveness. The vein patterns within the hand are highly complex and distinct for each individual, making them an ideal biometric identifier. Additionally, hand vein recognition is contactless, enhancing user convenience and hygiene compared to other modalities such as fingerprint or iris recognition. Furthermore, the veins are internally located, rendering them less susceptible to damage or alteration, thus enhancing the security and reliability of the biometric system. The combination of these factors makes hand vein biometrics a highly effective and secure method for identity verification. This review paper delves into the latest advancements in deep learning techniques applied to finger vein, palm vein, and dorsal hand vein recognition. It encompasses all essential fundamentals of hand vein biometrics, summarizes publicly available datasets, and discusses state-of-the-art metrics used for evaluating the three modes. Moreover, it provides a comprehensive overview of suggested approaches for finger, palm, dorsal, and multimodal vein techniques, offering insights into the best performance achieved, data augmentation techniques, and effective transfer learning methods, along with associated pretrained deep learning models. Additionally, the review addresses research challenges faced and outlines future directions and perspectives, encouraging researchers to enhance existing methods and propose innovative techniques. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# MVLLaVA:一貫したフレキシブルな新規ビュー合成のためのインテリジェントエージェント
MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis ( http://arxiv.org/abs/2409.07129v1 ) ライセンス: Link先を確認 | Hanyu Jiang, Jian Xue, Xing Lan, Guohong Hu, Ke Lu, | (参考訳) 本稿では、新しいビュー合成タスク用に設計されたインテリジェントエージェントMVLLaVAを紹介する。
MVLLaVAは、複数のマルチビュー拡散モデルと大きなマルチモーダルモデルであるLLaVAを統合し、幅広いタスクを効率的に処理できるようにする。
MVLLaVAは、単一のイメージ、記述的なキャプション、あるいは、視点生成のための言語命令によってガイドされる方位の特定の変化を含む、多様な入力タイプに対応する、汎用的で統一されたプラットフォームである。
タスク固有の命令テンプレートを慎重に作成し、LLaVAを微調整する。
その結果、MVLLaVAはユーザ指示に基づいて新しいビュー画像を生成する能力を獲得し、多様なタスクにまたがる柔軟性を示す。
MVLLaVAの有効性を検証する実験を行い、多様な新しいビュー合成課題に対処する上で、その頑健な性能と汎用性を実証した。
This paper introduces MVLLaVA, an intelligent agent designed for novel view synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a large multimodal model, LLaVA, enabling it to handle a wide range of tasks efficiently. MVLLaVA represents a versatile and unified platform that adapts to diverse input types, including a single image, a descriptive caption, or a specific change in viewing azimuth, guided by language instructions for viewpoint generation. We carefully craft task-specific instruction templates, which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires the capability to generate novel view images based on user instructions, demonstrating its flexibility across diverse tasks. Experiments are conducted to validate the effectiveness of MVLLaVA, demonstrating its robust performance and versatility in tackling diverse novel view synthesis challenges. | 翻訳日:2024-09-12 15:14:01 公開日:2024-09-11 |
# 言語生成に関する法則の再検討:コミュニケーション理論の視点から
Reranking Laws for Language Generation: A Communication-Theoretic Perspective ( http://arxiv.org/abs/2409.07131v1 ) ライセンス: Link先を確認 | António Farinhas, Haau-Sing Li, André F. T. Martins, | (参考訳) 大きな言語モデル(LLM)を安全に使用するためには、幻覚や受け入れがたい答えを生じさせる確率を減らさなければならない。
単純で頻繁に使われる戦略は、まずLLMが複数の仮説を生成させ、次に最適な仮説を選択するために再帰的手法を採用することである。
本稿では,この戦略と冗長性を利用して雑音の多い通信路における誤り率を減少させる手法について述べる。
我々は、並列ノイズチャネルを通じてメッセージの複数の記述を送信する送信機としてジェネレータを概念化する。
受信機は、(潜在的に破損した)記述をランク付けし、最も信頼できるものを選択することで、メッセージを復号する。
我々は、このプロトコルが漸近的にエラーのない(つまり、リランカーが不完全(マローズモデルやZipf-Mandelbrotモデルに支配されている)であり、チャネル分布が統計的に依存している場合であっても、ほぼ確実に許容できる解が得られる)条件を提供する。
我々は,DeepSeek-Coder 7B によるテキスト・コード生成と TowerInstruct 13B による医療データの機械翻訳という,LLM を用いた実世界の2つのタスクを実証的に検証する法則の更新を行う。
To ensure large language models (LLMs) are used safely, one must reduce their propensity to hallucinate or to generate unacceptable answers. A simple and often used strategy is to first let the LLM generate multiple hypotheses and then employ a reranker to choose the best one. In this paper, we draw a parallel between this strategy and the use of redundancy to decrease the error rate in noisy communication channels. We conceptualize the generator as a sender transmitting multiple descriptions of a message through parallel noisy channels. The receiver decodes the message by ranking the (potentially corrupted) descriptions and selecting the one found to be most reliable. We provide conditions under which this protocol is asymptotically error-free (i.e., yields an acceptable answer almost surely) even in scenarios where the reranker is imperfect (governed by Mallows or Zipf-Mandelbrot models) and the channel distributions are statistically dependent. We use our framework to obtain reranking laws which we validate empirically on two real-world tasks using LLMs: text-to-code generation with DeepSeek-Coder 7B and machine translation of medical data with TowerInstruct 13B. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 解釈可能な機械学習のためのテキストからのLLM機能生成
LLM-based feature generation from text for interpretable machine learning ( http://arxiv.org/abs/2409.07132v1 ) ライセンス: Link先を確認 | Vojtěch Balek, Lukáš Sýkora, Vilém Sklenák, Tomáš Kliegr, | (参考訳) 埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
このプロセスは、複数の分野から数千の科学論文と、研究効果のプロキシとなるターゲットを含む2つのデータセット(CORD-19とM17+)上で実証する。
統計的に有意な相関関係の検証に基づく評価の結果,LLama 2 の生成する特徴が意味論的に意味があることが示唆された。
その結果,これらの特徴をテキスト分類に用いて,CORD-19データセットの引用率を表すバイナリターゲット変数と,M17+データセットのエキスパート・アワードグレードを表す順序5クラスターゲットを予測した。
LLMで訓練された機械学習モデルは、科学テキストのための最先端の埋め込みモデルSciBERTに類似した予測性能を提供した。
LLM は SciBERT 埋め込みの 768 特徴と比較して 62 特徴しか使用せず、これらの特徴は、記事の方法論的厳密性、新規性、文法的正しさといった概念に対応して直接解釈可能である。
最後のステップとして、我々は少数のよく解釈可能なアクションルールを抽出する。
双方の主題的に多様なデータセットにまたがって設定された同じLLM機能で得られた競争力のある結果から、このアプローチがドメインをまたいで一般化されることが分かる。
Existing text representations such as embeddings and bag-of-words are not suitable for rule learning due to their high dimensionality and absent or questionable feature-level interpretability. This article explores whether large language models (LLMs) could address this by extracting a small number of interpretable features from text. We demonstrate this process on two datasets (CORD-19 and M17+) containing several thousand scientific articles from multiple disciplines and a target being a proxy for research impact. An evaluation based on testing for the statistically significant correlation with research impact has shown that LLama 2-generated features are semantically meaningful. We consequently used these generated features in text classification to predict the binary target variable representing the citation rate for the CORD-19 dataset and the ordinal 5-class target representing an expert-awarded grade in the M17+ dataset. Machine-learning models trained on the LLM-generated features provided similar predictive performance to the state-of-the-art embedding model SciBERT for scientific text. The LLM used only 62 features compared to 768 features in SciBERT embeddings, and these features were directly interpretable, corresponding to notions such as article methodological rigor, novelty, or grammatical correctness. As the final step, we extract a small number of well-interpretable action rules. Consistently competitive results obtained with the same LLM feature set across both thematically diverse datasets show that this approach generalizes across domains. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# ウェーブレット分解による非教師なしノベルティ検出法
Unsupervised Novelty Detection Methods Benchmarking with Wavelet Decomposition ( http://arxiv.org/abs/2409.07135v1 ) ライセンス: Link先を確認 | Ariel Priarone, Umberto Albertin, Carlo Cena, Mauro Martini, Marcello Chiaberge, | (参考訳) 新規性検出は様々な工学分野において重要な課題である。
ノベルティ検出に対する多くのアプローチは、トレーニングにラベル付きデータセットを必要とする教師付きまたは半教師付き学習に依存している。
しかし、ラベル付きデータを取得することは、実現可能であれば、高価で時間を要する可能性がある。
これらの理由から、教師なし学習はラベル付きサンプルを必要とせずに新規性検出を行う強力な代替手段である。
本研究では, ノベルティ検出のための多数の教師なし機械学習アルゴリズムを比較し, 振動検出の文脈におけるその強みと弱点を強調した。
提案するフレームワークは、異常の度合いを定量化せずに、単に異常なサンプルをフラグする従来の手法とは異なり、連続的な計量を使用する。
さらに、特定の周波数で振動するアクチュエータから新しいデータセットを収集し、アルゴリズムをベンチマークし、フレームワークを評価する。
入力波信号を変更することで新しい条件を導入する。
本研究は,実世界の新規性検出アプリケーションにおける教師なし学習技術の適応性と堅牢性に関する貴重な知見を提供する。
Novelty detection is a critical task in various engineering fields. Numerous approaches to novelty detection rely on supervised or semi-supervised learning, which requires labelled datasets for training. However, acquiring labelled data, when feasible, can be expensive and time-consuming. For these reasons, unsupervised learning is a powerful alternative that allows performing novelty detection without needing labelled samples. In this study, numerous unsupervised machine learning algorithms for novelty detection are compared, highlighting their strengths and weaknesses in the context of vibration sensing. The proposed framework uses a continuous metric, unlike most traditional methods that merely flag anomalous samples without quantifying the degree of anomaly. Moreover, a new dataset is gathered from an actuator vibrating at specific frequencies to benchmark the algorithms and evaluate the framework. Novel conditions are introduced by altering the input wave signal. Our findings offer valuable insights into the adaptability and robustness of unsupervised learning techniques for real-world novelty detection applications. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 大規模言語モデルのフェデレーション・インストラクション・チューニングのための非構造化テキストデータの活用
Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models ( http://arxiv.org/abs/2409.07136v1 ) ライセンス: Link先を確認 | Rui Ye, Rui Ge, Yuchi Fengting, Jingyi Chai, Yanfeng Wang, Siheng Chen, | (参考訳) フェデレートされた命令チューニングにより、複数のクライアントは、生データを直接共有することなく、人間の指示に従うことができる共有大言語モデル(LLM)を協調的に微調整できる。
しかし、既存の文献では、すべてのクライアントが命令調整データ(すなわち、構造化された命令応答ペア)を簡単に保持する必要がある。
そこで本研究では,非構造化コーパスをフェデレートした命令チューニングのための構造化データに変換する,新しいフレキシブルなフレームワークであるFedIT-U2Sを提案する。
FedIT-U2Sは以下の2つの重要なステップから構成される: (1) 少数ショットの命令調整データ生成。
さらにその柔軟性を高めるために,クライアントのデータ片とサンプルプールの関連性に基づいてサンプルを自動的に選択する検索ベースのサンプル選択手法を提案する。
2) 生成したデータに基づく典型的なフェデレーション・インストラクション・チューニング・プロセス。
全体として、クライアントが貴重なテキストコーパスを保持する限り、FedIT-U2Sは多様なシナリオに適用でき、フェデレートされた命令チューニングのアプリケーション範囲を広げる。
我々は3つの領域(医学、知識、数学)で一連の実験を行い、提案したFedIT-U2SがベースLSMよりも一貫して大幅に改善できることを示す。
Federated instruction tuning enables multiple clients to collaboratively fine-tune a shared large language model (LLM) that can follow humans' instructions without directly sharing raw data. However, existing literature impractically requires that all the clients readily hold instruction-tuning data (i.e., structured instruction-response pairs), which necessitates massive human annotations since clients' data is usually unstructured text instead. Addressing this, we propose a novel and flexible framework FedIT-U2S, which can automatically transform unstructured corpus into structured data for federated instruction tuning. FedIT-U2S consists two key steps: (1) few-shot instruction-tuning data generation, where each unstructured data piece together with several examples is combined to prompt an LLM in generating an instruction-response pair. To further enhance the flexibility, a retrieval-based example selection technique is proposed, where the examples are automatically selected based on the relatedness between the client's data piece and example pool, bypassing the need of determining examples in advance. (2) A typical federated instruction tuning process based on the generated data. Overall, FedIT-U2S can be applied to diverse scenarios as long as the client holds valuable text corpus, broadening the application scope of federated instruction tuning. We conduct a series of experiments on three domains (medicine, knowledge, and math), showing that our proposed FedIT-U2S can consistently and significantly brings improvement over the base LLM. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# スパース観測における動的・同化とエンド・ツー・エンド学習の併用最適化
Combined Optimization of Dynamics and Assimilation with End-to-End Learning on Sparse Observations ( http://arxiv.org/abs/2409.07137v1 ) ライセンス: Link先を確認 | Vadim Zinchenko, David S. Greenberg, | (参考訳) 非線形力学モデルをスパースでノイズの多い観測に適合させることは、基本的に困難である。
力学を同定するには、システム状態を推定するためにデータ同化(DA)が必要であるが、DAは正確な力学モデルを必要とする。
このデッドロックを破るために、我々は、疎度でノイズの多い観測から、ダイナミックスとDAを直接学習するエンドツーエンドの最適化スキームであるCODAを提示する。
ニューラルネットワークは、データの正確性、効率、並列時間DAの実行をトレーニングし、動的システムの自由パラメータを同時に最適化する。
観測データにエンドツーエンドの学習を直接適用し、未学習の自己回帰力学と弱制約4Dvar DAの自己整合項を組み合わせた新たな学習目標を導入する。
複数の時間ステップで新しいシミュレーションコンポーネントと既存のシミュレーションコンポーネント間の相互作用を考慮することで、CODAは初期条件を回復し、未知の動的パラメータに適合し、ニューラルネットワークベースのPDE用語を学習して、利用可能な観測と自己整合性の制約の両方に適合させることができる。
CODAは、ダイナミクスのエンドツーエンドの学習を容易にし、高速で、償却され、非シークエンシャルなDAを提供するだけでなく、従来のDAアプローチよりも、ミスセグメンテーションをモデル化するための堅牢性も提供します。
Fitting nonlinear dynamical models to sparse and noisy observations is fundamentally challenging. Identifying dynamics requires data assimilation (DA) to estimate system states, but DA requires an accurate dynamical model. To break this deadlock we present CODA, an end-to-end optimization scheme for jointly learning dynamics and DA directly from sparse and noisy observations. A neural network is trained to carry out data accurate, efficient and parallel-in-time DA, while free parameters of the dynamical system are simultaneously optimized. We carry out end-to-end learning directly on observation data, introducing a novel learning objective that combines unrolled auto-regressive dynamics with the data- and self-consistency terms of weak-constraint 4Dvar DA. By taking into account interactions between new and existing simulation components over multiple time steps, CODA can recover initial conditions, fit unknown dynamical parameters and learn neural network-based PDE terms to match both available observations and self-consistency constraints. In addition to facilitating end-to-end learning of dynamics and providing fast, amortized, non-sequential DA, CODA provides greater robustness to model misspecification than classical DA approaches. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 暗号化トランスポートプロトコル設計の改善 - QUICケースのディープディーブ
Improving Encrypted Transport Protocol Designs: Deep Dive on the QUIC Case ( http://arxiv.org/abs/2409.07138v1 ) ライセンス: Link先を確認 | Florentin Rochet, | (参考訳) 本稿では,既存の暗号化トランスポートプロトコルの設計を再検討し,その効率を向上させることを提案する。
我々は、プロトコル仕様内のフィールド要素の順序を逆転することから、この方法論を"Reverso"と呼んでいる。
このような仕様の変更によって、暗号化プロトコルの実装最適化がアンロックされる可能性について詳述する。
本稿では,QUIC V1規格(RFC9000)の拡張であるQUIC VReversoのQUIC実装であるquicehをリリースする。
QUICプロトコルに適用した手法では,QUIC V1のセキュリティ保証を緩和することなく,送信側で追加コストでパケット処理を行う場合のCPU効率の改善の約30%を報告している。
また、quicehを使ってCloudflareのHTTP/3モジュールとクライアント/サーバデモレータのフォークを実装し、HTTP/3に直接転送する最適化も示しています。
Reversoはあらゆる現代的な暗号化プロトコルとその実装に適用され、それらが動作するレイヤとは独立して、同様の効率改善をアンロックすることもできる、と我々は主張する。
We propose in this paper to revisit the design of existing encrypted transport protocols to improve their efficiency. We call the methodology "Reverso" from reversing the order of field elements within a protocol specification. We detail how such a benign-looking change within the specifications may unlock implementation optimizations for encrypted protocols. To demonstrate our findings, we release quiceh, a QUIC implementation of QUIC VReverso, an extension of the QUIC V1 standard (RFC9000). Our methodology applied to the QUIC protocol reports ~30% of CPU efficiency improvement for processing packets at no added cost on the sender side and without relaxing any security guarantee from QUIC V1. We also implement a fork of Cloudflare's HTTP/3 module and client/server demonstrator using quiceh and show our optimizations to directly transfer to HTTP/3 as well, resulting in our new HTTP/3 to be ~ 38% more efficient than the baseline implementation using QUIC V1. We argue that Reverso applies to any modern encrypted protocol and its implementations and that similar efficiency improvement can also be unlocked for them, independently of the layer in which they operate. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 効率的な線形時間列モデリングのためのGated Slot Attention
Gated Slot Attention for Efficient Linear-Time Sequence Modeling ( http://arxiv.org/abs/2409.07146v1 ) ライセンス: Link先を確認 | Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu, | (参考訳) 並列トレーニングと効率的なリカレント推論を可能にすることで知られる線形アテンショントランスフォーマーとそのゲート変種は、従来のトランスフォーマーと比較してリコール集約タスクでは依然として不足しており、スクラッチからトレーニングするための重要なリソースを必要としている。
本稿では, Gated Linear Attention (GLA) にインスパイアされたゲーティング機構を組み込むことで, 境界メモリ-Control (ABC) による注意を高めた Gated Slot Attention (GSA) を提案する。
基本的に、GSAは、ソフトマックスを介してリンクされた2層GLAを備え、コンテクスト対応メモリ読み取りと適応記憶を利用して、コンパクトなリカレント状態サイズを維持しながら、メモリ容量を改善する。
この設計により、GLAのハードウェア効率のトレーニングアルゴリズムによるトレーニングと推論の効率が大幅に向上し、状態サイズが削減される。
さらに、ソフトマックス操作を維持することは、特に「訓練済みのトランスフォーマーをRNNに微調整する」(T2R)設定で有益であり、スクラッチから広範囲のトレーニングを行う必要がなくなる。
大規模な実験により、コンテキスト内リコールとT2R設定を必要とするシナリオにおいて、GSAの優れたパフォーマンスが確認された。
Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via softmax, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA's hardware-efficient training algorithm and reduced state size. Additionally, retaining the softmax operation is particularly beneficial in "finetuning pretrained Transformers to RNNs" (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA's superior performance in scenarios requiring in-context recall and in T2R settings. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# Intel SGXによる暗号文ポリシー属性に基づく暗号化
Ciphertext Policy Attribute Based Encryption with Intel SGX ( http://arxiv.org/abs/2409.07149v1 ) ライセンス: Link先を確認 | Vivek Suryawanshi, Shamik Sural, | (参考訳) 現代のコンピューティング環境は、機密データやリソースを保護するための堅牢なセキュリティ対策を必要としている。
CP-ABE(Ciphertext-Policy Attribute-Based Encryption)は、その微細なアクセス制御機能で知られる暗号化技術である。
しかし、デジタルランドスケープが発展するにつれて、CP-ABEオペレーションのセキュリティを強化する必要性が高まっている。
CP-ABEをIntel SGXと併用する手法を提案する。
これにより、SGXエンクレーブ内で、認証されたユーザだけがアクセスすることを保証することで、ポリシーのルールに基づいて、データをセキュアに暗号化および復号化することができる。
我々は,ルール数,属性数,ファイルサイズなどの重要なパラメータに着目し,異なる実験によってその性能を評価する。
以上の結果から,SGXとCP-ABEの統合によるデータセキュリティの向上は,オーバヘッドの増大による実行時間の増加を最小限に抑えることができた。
Modern computing environments demand robust security measures to protect sensitive data and resources. Ciphertext-Policy Attribute-Based Encryption (CP-ABE) is a well-established encryption technique known for its fine-grained access control capabilities. However, as the digital landscape evolves, there is a growing need to enhance the security of CP-ABE operations. We propose an approach that utilizes CP-ABE with Intel SGX. It allows data to be encrypted and decrypted securely within the SGX enclave based on the rules in policy by ensuring that only authorized users gain access. We evaluate its performance through different experiments by focusing on key parameters such as the number of rules, attributes and file size. Our results demonstrate the performance and scalability of integrating SGX with CP-ABE in enhancing data security with only minimal increase in execution time due to enclave overhead. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# ゴールデン・スピーチ・ジェネレータとしてのゼロショットテキスト・音声:システム・フレームワークとその自動発音評価への適用性
Zero-Shot Text-to-Speech as Golden Speech Generator: A Systematic Framework and its Applicability in Automatic Pronunciation Assessment ( http://arxiv.org/abs/2409.07151v1 ) ライセンス: Link先を確認 | Tien-Hong Lo, Meng-Ting Tsai, Berlin Chen, | (参考訳) 第二言語(L2)学習者は、黄金の音声を模倣することで発音を改善することができる。
本研究では,ゼロショット音声合成(ZS-TTS)技術を用いて学習者固有のゴールデンスピーチを,L2学習者の発音習熟度を測定するための有効な指標として活用できるという仮説を考察した。
この調査に基づいて、この研究の貢献は少なくとも2倍である。
1)黄金音生成のための合成モデルの能力を評価するための体系的枠組みの設計と開発
2) 自動発音評価(APA)における黄金音の使用の有効性について, 詳細な調査を行った。
L2-ARCTICおよびSpeechocean762ベンチマークデータセットで実施した総合的な実験から,提案手法は,いくつかの先行技術に関する様々な評価指標に対して,大幅な性能向上をもたらす可能性が示唆された。
本研究は,ZS-TTSとAPAにおけるゴールデンスピーチの役割を初めて探求し,コンピュータ支援発音訓練(CAPT)に期待できる体制を提供する。
Second language (L2) learners can improve their pronunciation by imitating golden speech, especially when the speech that aligns with their respective speech characteristics. This study explores the hypothesis that learner-specific golden speech generated with zero-shot text-to-speech (ZS-TTS) techniques can be harnessed as an effective metric for measuring the pronunciation proficiency of L2 learners. Building on this exploration, the contributions of this study are at least two-fold: 1) design and development of a systematic framework for assessing the ability of a synthesis model to generate golden speech, and 2) in-depth investigations of the effectiveness of using golden speech in automatic pronunciation assessment (APA). Comprehensive experiments conducted on the L2-ARCTIC and Speechocean762 benchmark datasets suggest that our proposed modeling can yield significant performance improvements with respect to various assessment metrics in relation to some prior arts. To our knowledge, this study is the first to explore the role of golden speech in both ZS-TTS and APA, offering a promising regime for computer-assisted pronunciation training (CAPT). | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# ニューラルアルゴリズム推論における繰り返しアグリゲータ
Recurrent Aggregators in Neural Algorithmic Reasoning ( http://arxiv.org/abs/2409.07154v1 ) ライセンス: Link先を確認 | Kaijia Xu, Petar Veličković, | (参考訳) ニューラルネットワーク推論(英: Neural Algorithmic reasoning, NAR)は、古典的なアルゴリズム計算を模倣するニューラルネットワークを設計しようとする新興分野である。
今日では、グラフニューラルネットワーク(GNN)は、メッセージパッシングフレームワークと置換等価性のため、ニューラルネットワークの推論に広く使われている。
この拡張抽象化では、この設計選択に挑戦し、同変アグリゲーション関数をリカレントニューラルネットワークで置き換える。
一見直感に反するように見えるが、このアプローチはノードが自然に順序付けされている場合に適切な根拠を与える -- CLRS-30のような確立した推論ベンチマークでは、これが頻繁に発生する。
実際、我々のリカレントNAR(RNAR)モデルは、他の多くのタスクを優雅に処理しながら、そのようなタスクに対して非常に強く機能します。
RNARの顕著な成果は、HeapsortとQuickselectタスクにおける最先端の成果であり、どちらも現代のアルゴリズム推論者にとって重要な課題だと考えられている。
Neural algorithmic reasoning (NAR) is an emerging field that seeks to design neural networks that mimic classical algorithmic computations. Today, graph neural networks (GNNs) are widely used in neural algorithmic reasoners due to their message passing framework and permutation equivariance. In this extended abstract, we challenge this design choice, and replace the equivariant aggregation function with a recurrent neural network. While seemingly counter-intuitive, this approach has appropriate grounding when nodes have a natural ordering -- and this is the case frequently in established reasoning benchmarks like CLRS-30. Indeed, our recurrent NAR (RNAR) model performs very strongly on such tasks, while handling many others gracefully. A notable achievement of RNAR is its decisive state-of-the-art result on the Heapsort and Quickselect tasks, both deemed as a significant challenge for contemporary neural algorithmic reasoners -- especially the latter, where RNAR achieves a mean micro-F1 score of 87%. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 大規模言語モデルを用いたアプリレビューの微粒化知覚分析:評価研究
A Fine-grained Sentiment Analysis of App Reviews using Large Language Models: An Evaluation Study ( http://arxiv.org/abs/2409.07162v1 ) ライセンス: Link先を確認 | Faiz Ali Shah, Ahmed Sabir, Rajesh Sharma, | (参考訳) アプリ機能に対する感情に対するユーザレビューの分析は、アプリの機能に対するユーザの認識と、その進化するニーズに対する貴重な洞察を提供することができる。
毎日のユーザレビューの量を考えると、ユーザーレビューの特徴レベルの感情を要約する自動メカニズムが必要である。
ChatGPTのようなLarge Language Models(LLM)の最近の進歩は、モデルのパラメータを更新せずにいくつかの新しいタスク、すなわちゼロまたはいくつかのラベル付き例を使って、印象的なパフォーマンスを示している。
これらの進歩にもかかわらず、LLMがユーザレビューの特徴特異的感情分析を行う能力は未解明のままである。
本研究は,GPT-4,ChatGPT,LLama-2-chatなど最先端のLCMの性能を比較し,0ショット,1ショット,5ショットのシナリオでアプリの特徴や関連する感情を抽出する。
その結果、最も優れたGPT-4モデルは、0ショット特徴抽出でf1スコアで23.6%向上し、5ショットによりさらに6%向上した。
GPT-4は、正しく予測されたアプリ機能に対する肯定的な感情を予測するための74%のf1スコアを達成し、5ショットで7%向上した。
本研究は,LLMモデルがユーザレビューの特徴特異的感情要約を生成することを約束していることを示唆している。
Analyzing user reviews for sentiment towards app features can provide valuable insights into users' perceptions of app functionality and their evolving needs. Given the volume of user reviews received daily, an automated mechanism to generate feature-level sentiment summaries of user reviews is needed. Recent advances in Large Language Models (LLMs) such as ChatGPT have shown impressive performance on several new tasks without updating the model's parameters i.e. using zero or a few labeled examples. Despite these advancements, LLMs' capabilities to perform feature-specific sentiment analysis of user reviews remain unexplored. This study compares the performance of state-of-the-art LLMs, including GPT-4, ChatGPT, and LLama-2-chat variants, for extracting app features and associated sentiments under 0-shot, 1-shot, and 5-shot scenarios. Results indicate the best-performing GPT-4 model outperforms rule-based approaches by 23.6% in f1-score with zero-shot feature extraction; 5-shot further improving it by 6%. GPT-4 achieves a 74% f1-score for predicting positive sentiment towards correctly predicted app features, with 5-shot enhancing it by 7%. Our study suggests that LLM models are promising for generating feature-specific sentiment summaries of user reviews. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# マンバ政策:ハイブリッド選択状態モデルによる効率的な3次元拡散政策を目指して
Mamba Policy: Towards Efficient 3D Diffusion Policy with Hybrid Selective State Models ( http://arxiv.org/abs/2409.07163v1 ) ライセンス: Link先を確認 | Jiahang Cao, Qiang Zhang, Jingkai Sun, Jiaxu Wang, Hao Cheng, Yulin Li, Jun Ma, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu, | (参考訳) 拡散モデルは、分布を学習し、行動軌跡の正確な予測を可能にするために、3次元操作の分野で広く利用されている。
しかし、拡散モデルは一般的に、リソース制約のあるデバイスにデプロイすることが難しいポリシーネットワークとして、大きなパラメータUNetバックボーンに依存している。
近年、Mambaモデルが効率的なモデリングのための有望なソリューションとして登場し、計算複雑性が低く、シーケンスモデリングの性能も高い。
本研究は,従来の政策ネットワークと比較してパラメータ数を80%以上削減し,優れた性能を保ちつつ,より軽量かつ強力な政策であるマンバ政策を提案する。
具体的には,入力情報と条件付き特徴を効果的に統合するXMamba Blockを導入し,深い特徴抽出にMambaとAtentionの機構を組み合わせる。
大規模な実験では、Mamba PolicyがAdroit、Dexart、MetaWorldのデータセットに優れており、計算リソースが大幅に少ないことが示されている。
さらに,マンバ政策の長期シナリオにおける強靭性の向上を基本手法と比較して強調し,マンバ政策フレームワーク内の様々なマンバ変種の性能について検討する。
私たちのプロジェクトページはhttps://andycao1125.github.io/mamba_policy/にあります。
Diffusion models have been widely employed in the field of 3D manipulation due to their efficient capability to learn distributions, allowing for precise prediction of action trajectories. However, diffusion models typically rely on large parameter UNet backbones as policy networks, which can be challenging to deploy on resource-constrained devices. Recently, the Mamba model has emerged as a promising solution for efficient modeling, offering low computational complexity and strong performance in sequence modeling. In this work, we propose the Mamba Policy, a lighter but stronger policy that reduces the parameter count by over 80% compared to the original policy network while achieving superior performance. Specifically, we introduce the XMamba Block, which effectively integrates input information with conditional features and leverages a combination of Mamba and Attention mechanisms for deep feature extraction. Extensive experiments demonstrate that the Mamba Policy excels on the Adroit, Dexart, and MetaWorld datasets, requiring significantly fewer computational resources. Additionally, we highlight the Mamba Policy's enhanced robustness in long-horizon scenarios compared to baseline methods and explore the performance of various Mamba variants within the Mamba Policy framework. Our project page is in https://andycao1125.github.io/mamba_policy/. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# ストリーム音声認識のための要約ミキシングを用いた線形時間複雑コンバータ
Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition ( http://arxiv.org/abs/2409.07165v1 ) ライセンス: Link先を確認 | Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Batthacharya, | (参考訳) 自動音声認識(ASR)は、音声発話の長さにおいて、ストリーミングか非ストリーミングかを問わない、自己アテンションを備えたエンコーダを備える。
これにより、トレーニングとデコードが遅くなり、コストが増加し、制約されたデバイスへのASRのデプロイが制限される。
SummaryMixingは、非ストリーミング音声認識のための自己認識に代わる有望な線形時間複雑性であり、初めて自己認識モデルの精度を保存または上回る。
残念ながら、SlideMixingの本来の定義は、ストリーミング音声認識には適していない。
したがって、この作業はSlideMixingをストリーミングとオフラインモードの両方で動作するConformer Transducerに拡張する。
この新たな線形時間複雑性音声エンコーダは、トレーニングと復号中に計算とメモリを少なくしながら、両方のシナリオで自己アテンションを上回っている。
Automatic speech recognition (ASR) with an encoder equipped with self-attention, whether streaming or non-streaming, takes quadratic time in the length of the speech utterance. This slows down training and decoding, increase their cost, and limit the deployment of the ASR in constrained devices. SummaryMixing is a promising linear-time complexity alternative to self-attention for non-streaming speech recognition that, for the first time, preserves or outperforms the accuracy of self-attention models. Unfortunately, the original definition of SummaryMixing is not suited to streaming speech recognition. Hence, this work extends SummaryMixing to a Conformer Transducer that works in both a streaming and an offline mode. It shows that this new linear-time complexity speech encoder outperforms self-attention in both scenarios while requiring less compute and memory during training and decoding. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# 強化学習による再帰的数体系の学習
Learning Efficient Recursive Numeral Systems via Reinforcement Learning ( http://arxiv.org/abs/2409.07170v1 ) ライセンス: Link先を確認 | Jonathan D. Thomas, Andrea Silvi, Devdatt Dubhashi, Emil Carlsson, Moa Johansson, | (参考訳) 数体系のような数学的概念の出現は、数学と推論のためのAIの未研究領域である。
カールソンら (2021) は、強化学習 (RL) を用いて、エージェントは単純な近似的および正確に制限された数系を導出できることを示した。
しかし、より複雑な再帰的数値体系が、英語で使われているものと同様、RLのような単純な学習機構によってどのように生じるかを示すことは大きな課題である。
本稿では, 与えられたメタ文法の下でレキシコンを直接最適化するRLエージェントを考慮し, 再帰的数体系の出現を機械論的に説明するためのアプローチを提案する。
Hurford (1975) のセミナルメタ文法をわずかに修正したバージョンを用いて、我々のRLエージェントは、人間の数系内で観測されるものと同等のパレート最適構成に対して、レキシコンを効果的に修正できることを実証した。
The emergence of mathematical concepts, such as number systems, is an understudied area in AI for mathematics and reasoning. It has previously been shown Carlsson et al. (2021) that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems. However, it is a major challenge to show how more complex recursive numeral systems, similar to the one utilised in English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of recursive number systems where we consider an RL agent which directly optimizes a lexicon under a given meta-grammar. Utilising a slightly modified version of the seminal meta-grammar of Hurford (1975), we demonstrate that our RL agent can effectively modify the lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# AC-IND:減衰係数推定と暗黙的神経分布に基づくスパースCT再構成
AC-IND: Sparse CT reconstruction based on attenuation coefficient estimation and implicit neural distribution ( http://arxiv.org/abs/2409.07171v1 ) ライセンス: Link先を確認 | Wangduo Xie, Richard Schoonhoven, Tristan van Leeuwen, Matthew B. Blaschko, | (参考訳) CTは産業用非破壊検査や診断において重要な役割を担っている。
スパースビューCT再構成は,少数のプロジェクションのみを用いて高品質なCT像を再構成することを目的としており,工業用組立ラインの検出速度の向上に寄与し,医療現場での放射線の低減にも有用である。
暗黙的ニューラル表現(INR)に基づくスパースCT再構成法は,最近,有望な性能を示したが,有用な事前情報を得るのが困難であったため,まだ人工物を生産している。
本研究では, 対象の物質カテゴリーの総数という, 強力な先入観を取り入れた。
そこで我々は, 減衰係数推定と入射ニューラル分布に基づく自己教師型手法であるAC-INDを設計した。
具体的には,まず従来のINRをスカラーマッピングから確率分布マッピングに変換する。
そして、粗い再構成と高速セグメンテーションの値から初期化された小型減衰係数推定器を設計する。
最後に,提案アルゴリズムは,推定器と生成された分布を協調的に最適化することにより,CT再構成を終了する。
実験により, 本手法は, スパースCT再構成における比較手法より優れているだけでなく, セマンティックセグメンテーションマップを自動生成できることがわかった。
Computed tomography (CT) reconstruction plays a crucial role in industrial nondestructive testing and medical diagnosis. Sparse view CT reconstruction aims to reconstruct high-quality CT images while only using a small number of projections, which helps to improve the detection speed of industrial assembly lines and is also meaningful for reducing radiation in medical scenarios. Sparse CT reconstruction methods based on implicit neural representations (INRs) have recently shown promising performance, but still produce artifacts because of the difficulty of obtaining useful prior information. In this work, we incorporate a powerful prior: the total number of material categories of objects. To utilize the prior, we design AC-IND, a self-supervised method based on Attenuation Coefficient Estimation and Implicit Neural Distribution. Specifically, our method first transforms the traditional INR from scalar mapping to probability distribution mapping. Then we design a compact attenuation coefficient estimator initialized with values from a rough reconstruction and fast segmentation. Finally, our algorithm finishes the CT reconstruction by jointly optimizing the estimator and the generated distribution. Through experiments, we find that our method not only outperforms the comparative methods in sparse CT reconstruction but also can automatically generate semantic segmentation maps. | 翻訳日:2024-09-12 15:02:58 公開日:2024-09-11 |
# Swin-LiteMedSAM:大規模医用画像データセットのための軽量ボックスベースセグメンテーションモデル
Swin-LiteMedSAM: A Lightweight Box-Based Segment Anything Model for Large-Scale Medical Image Datasets ( http://arxiv.org/abs/2409.07172v1 ) ライセンス: Link先を確認 | Ruochen Gao, Donghang Lyu, Marius Staring, | (参考訳) 医療画像は疾患の診断と治療に不可欠であり、医療画像のセグメンテーションは注目を浴びるサブタスクである。
しかしながら、自動的な医用画像分割モデルは一般にタスク固有であり、異なる画像のモダリティや関心領域など、複数のシナリオを扱うのに苦労する。
SAM(Segment Anything Model)の導入により,様々な臨床シナリオに対するユニバーサルモデルのトレーニングが実現可能になった。
近年、MedSAM法がいくつか提案されているが、これらのモデルは高性能を実現するために重画像エンコーダに頼っていることが多い。
この問題に対処するため、軽量バージョンのMedSAM(LiteMedSAM)は、少ないリソースと少ない時間で高いパフォーマンスを実現し、実行可能なソリューションを提供することができる。
本稿では,LiteMedSAMの新たな変種であるSwin-LiteMedSAMを紹介する。
このモデルは、小さなSwin Transformerをイメージエンコーダとして統合し、与えられたバウンディングボックスから生成されたボックスベースのポイントやスクリブルを含む複数の種類のプロンプトを組み込み、イメージエンコーダとマスクデコーダの間のスキップ接続を確立する。
The \textit{Segment Anything in Medical Images on Laptop} Challenge (CVPR 2024)では,課題オーガナイザが提供したLiteMedSAMベースラインと比較して,セグメンテーション性能と速度のバランスが良好である。
提案モデルでは,DSC スコアが \textbf{0.8678} で,NSD スコアが \textbf{0.8844} であった。
最終テストセットでは、DSCスコアは \textbf{0.8193} 、NSDスコアは \textbf{0.8461} となり、挑戦では4位となった。
Medical imaging is essential for the diagnosis and treatment of diseases, with medical image segmentation as a subtask receiving high attention. However, automatic medical image segmentation models are typically task-specific and struggle to handle multiple scenarios, such as different imaging modalities and regions of interest. With the introduction of the Segment Anything Model (SAM), training a universal model for various clinical scenarios has become feasible. Recently, several Medical SAM (MedSAM) methods have been proposed, but these models often rely on heavy image encoders to achieve high performance, which may not be practical for real-world applications due to their high computational demands and slow inference speed. To address this issue, a lightweight version of the MedSAM (LiteMedSAM) can provide a viable solution, achieving high performance while requiring fewer resources and less time. In this work, we introduce Swin-LiteMedSAM, a new variant of LiteMedSAM. This model integrates the tiny Swin Transformer as the image encoder, incorporates multiple types of prompts, including box-based points and scribble generated from a given bounding box, and establishes skip connections between the image encoder and the mask decoder. In the \textit{Segment Anything in Medical Images on Laptop} challenge (CVPR 2024), our approach strikes a good balance between segmentation performance and speed, demonstrating significantly improved overall results across multiple modalities compared to the LiteMedSAM baseline provided by the challenge organizers. Our proposed model achieved a DSC score of \textbf{0.8678} and an NSD score of \textbf{0.8844} on the validation set. On the final test set, it attained a DSC score of \textbf{0.8193} and an NSD score of \textbf{0.8461}, securing fourth place in the challenge. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 過渡的浮動小数点シミュレーションを高速化する計算流体力学解を用いた機械学習局所予測の結合
Coupling Machine Learning Local Predictions with a Computational Fluid Dynamics Solver to Accelerate Transient Buoyant Plume Simulations ( http://arxiv.org/abs/2409.07175v1 ) ライセンス: Link先を確認 | Clément Caron, Philippe Lauret, Alain Bastide, | (参考訳) データ駆動法は、本質的に高価な計算流体力学(CFD)の解法を加速させる大きな可能性を示している。
それでも、純粋な機械学習サロゲートモデルは、物理的な一貫性を確保し、現実世界の問題に対処するためにスケールアップするという課題に直面している。
本研究では,CFDと機械学習を組み合わせた多目的かつスケーラブルなハイブリッド手法を提案する。
ニューラルネットワークは、様々な2次元過渡噴流のシミュレーションデータを用いてオフラインで訓練された。
目的は、局所的な特徴を活用して、比較可能なシナリオにおける圧力場の時間的変化を予測することである。
細胞レベルでの予測のため、この手法は追加の訓練を受けずに様々な測地に適用された。
圧力-速度結合過程を加速するために初期値として圧力推定を用いた。
結果,ポアソン方程式の解法における初期推定値の平均改善率は94%であった。
第1圧力補正器加速度は, 繰り返し解法により平均3に到達した。
本研究は, セルレベルでの機械学習推定により, 精度を維持しつつ, CFD反復線形解法の効率を向上できることを明らかにする。
より複雑なケースに対する方法論のスケーラビリティはまだ実証されていないが、本研究はCFDのためのドメイン固有ハイブリッド・ソルバの今後の価値を裏付けるものである。
Data-driven methods demonstrate considerable potential for accelerating the inherently expensive computational fluid dynamics (CFD) solvers. Nevertheless, pure machine-learning surrogate models face challenges in ensuring physical consistency and scaling up to address real-world problems. This study presents a versatile and scalable hybrid methodology, combining CFD and machine learning, to accelerate long-term incompressible fluid flow simulations without compromising accuracy. A neural network was trained offline using simulated data of various two-dimensional transient buoyant plume flows. The objective was to leverage local features to predict the temporal changes in the pressure field in comparable scenarios. Due to cell-level predictions, the methodology was successfully applied to diverse geometries without additional training. Pressure estimates were employed as initial values to accelerate the pressure-velocity coupling procedure. The results demonstrated an average improvement of 94% in the initial guess for solving the Poisson equation. The first pressure corrector acceleration reached a mean factor of 3, depending on the iterative solver employed. Our work reveals that machine learning estimates at the cell level can enhance the efficiency of CFD iterative linear solvers while maintaining accuracy. Although the scalability of the methodology to more complex cases has yet to be demonstrated, this study underscores the prospective value of domain-specific hybrid solvers for CFD. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# Phy124: 単一画像からの高速物理駆動4Dコンテンツ生成
Phy124: Fast Physics-Driven 4D Content Generation from a Single Image ( http://arxiv.org/abs/2409.07179v1 ) ライセンス: Link先を確認 | Jiajing Lin, Zhenzhong Wang, Yongjie Hou, Yuzhou Tang, Min Jiang, | (参考訳) 4Dコンテンツ生成は、時間とともに変化する動的な3Dオブジェクトの作成に焦点を当てている。
既存の方法は、主にサンプリングプロセスや参照ビデオを利用して、トレーニング済みのビデオ拡散モデルに依存している。
しかし、これらのアプローチは重大な課題に直面している。
第一に、生成した4Dコンテンツは、ビデオ拡散モデルに物理の先入観が組み込まれていないため、現実世界の物理に従わないことが多い。
第二に、拡散モデルにおける広範囲なサンプリングプロセスと多数のパラメータは、非常に時間を要する生成プロセスをもたらす。
これらの問題に対処するために、単一画像から4Dコンテンツを生成する新しい高速物理駆動方式であるPhy124を紹介する。
Phy124は物理シミュレーションを直接4D生成プロセスに統合し、結果の4Dコンテンツが自然の物理法則に従うことを保証する。
Phy124はまた、4Dダイナミックス生成フェーズにおける拡散モデルの使用を排除し、プロセスを大幅に高速化する。
Phy124は、外力を操作することで、移動速度や方向を含む4Dダイナミックスの制御を可能にする。
広汎な実験により,Phy124は推論時間を大幅に短縮した高忠実度4Dコンテンツを生成し,最先端の性能を実現した。
コードと生成された4Dコンテンツは、 https://anonymous.4open.science/r/BBF2/.com/で公開されている。
4D content generation focuses on creating dynamic 3D objects that change over time. Existing methods primarily rely on pre-trained video diffusion models, utilizing sampling processes or reference videos. However, these approaches face significant challenges. Firstly, the generated 4D content often fails to adhere to real-world physics since video diffusion models do not incorporate physical priors. Secondly, the extensive sampling process and the large number of parameters in diffusion models result in exceedingly time-consuming generation processes. To address these issues, we introduce Phy124, a novel, fast, and physics-driven method for controllable 4D content generation from a single image. Phy124 integrates physical simulation directly into the 4D generation process, ensuring that the resulting 4D content adheres to natural physical laws. Phy124 also eliminates the use of diffusion models during the 4D dynamics generation phase, significantly speeding up the process. Phy124 allows for the control of 4D dynamics, including movement speed and direction, by manipulating external forces. Extensive experiments demonstrate that Phy124 generates high-fidelity 4D content with significantly reduced inference times, achieving stateof-the-art performance. The code and generated 4D content are available at the provided link: https://anonymous.4open.science/r/BBF2/. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 複数の信頼できないサプライヤを用いたニューズベンダー問題の量子モンテカルロ法
Quantum Monte Carlo methods for Newsvendor problem with Multiple Unreliable Suppliers ( http://arxiv.org/abs/2409.07183v1 ) ライセンス: Link先を確認 | Monit Sharma, Hoong Chuin Lau, | (参考訳) ポストパンデミックの世界では、製造業は、特に世界的なサプライチェーンの脆弱性によって、不確実性が高まっている。
サプライチェーン管理は広く研究されているが、これらのシステムにおける意思決定者(DM)の重大な影響は未解明のままである。
本研究では,DMのリスク選好を取り入れたニューズベンダーモデルを用いて,リスク下での在庫管理問題について検討する。
量子モンテカルロ(QMC)と量子振幅推定(QAE)アルゴリズムを組み合わせることで、確率や期待値の推定をより効率的に行うことができる。
これは古典的モンテカルロ法に比べてクアッドレートに近いスピードアップを提供する。
リスク対応意思決定と在庫管理の複雑な関係を解明し、不確実な条件下でのサプライチェーンのレジリエンスと適応性を高めるための重要な洞察を提供する。
In the post-pandemic world, manufacturing enterprises face increasing uncertainties, especially with vulnerabilities in global supply chains. Although supply chain management has been extensively studied, the critical influence of decision-makers (DMs) in these systems remains underexplored. This study studies the inventory management problem under risk using the newsvendor model by incorporating DMs risk preferences. By employing the Quantum Monte Carlo (QMC) combined with Quantum Amplitude Estimation (QAE) algorithm, the estimation of probabilities or expectation values can be done more efficiently. This offers near-quadratic speedup compared to classical Monte Carlo methods. Our findings illuminate the intricate relationship between risk-aware decision-making and inventory management, providing essential insights for enhancing supply chain resilience and adaptability in uncertain conditions | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 脳拡散テンソルイメージングにおける方向性エンコーディングと幾何学的制約による角分解能の増強
Enhancing Angular Resolution via Directionality Encoding and Geometric Constraints in Brain Diffusion Tensor Imaging ( http://arxiv.org/abs/2409.07186v1 ) ライセンス: Link先を確認 | Sheng Chen, Zihao Tang, Mariano Cabezas, Xinyi Wang, Arkiev D'Souza, Michael Barnett, Fernando Calamante, Weidong Cai, Chenyu Wang, | (参考訳) 拡散強調画像(DWI)は、水分子の拡散率に敏感な磁気共鳴イメージング(MRI)技術の一種であり、組織微細構造を検査する能力を提供し、非侵襲的に白質繊維の管を再構築する唯一の生体内方法である。
DWI信号は拡散テンソルイメージング(DTI)モデルで解析でき、ボクセル内の水拡散の方向を推定できる。
軸方向拡散率(AD)、平均拡散率(MD)、放射差拡散率(RD)、分画異方性(FA)などのスカラー指標は、DTIからさらに導出され、脳組織の微細構造的整合性を定量的に要約することができる。
これらのスカラー測定は、臨床研究において、脳組織の組織と健康を顕微鏡レベルで理解する上で重要な役割を担っている。
しかし、信頼性の高いDTIメトリクスは、一般的に使用される臨床プロトコルを超えて、高い勾配方向のDWI取得に依存している。
そこで本研究ではDirGeo-DTIを提案する。DirGeo-DTIは,DTIの信頼性を推定する深層学習手法である。DirGeo-DTIは,最小理論的数(6)の勾配方向で取得したDWIからでも,信頼性の高いDTIメトリクスを推定する手法である。
DirGeo-DTIは、トレーニングプロセスを容易にするために方向エンコーディングと幾何学的制約を利用する。
2つの公開DWIデータセットを用いて評価を行い,提案手法の有効性を実証した。
以上の結果から,本手法は既存のDTI拡張法と比較して最高の成績を示し,定期的な臨床的DWIスキャンによりさらなる臨床所見が明らかになる可能性が示唆された。
Diffusion-weighted imaging (DWI) is a type of Magnetic Resonance Imaging (MRI) technique sensitised to the diffusivity of water molecules, offering the capability to inspect tissue microstructures and is the only in-vivo method to reconstruct white matter fiber tracts non-invasively. The DWI signal can be analysed with the diffusion tensor imaging (DTI) model to estimate the directionality of water diffusion within voxels. Several scalar metrics, including axial diffusivity (AD), mean diffusivity (MD), radial diffusivity (RD), and fractional anisotropy (FA), can be further derived from DTI to quantitatively summarise the microstructural integrity of brain tissue. These scalar metrics have played an important role in understanding the organisation and health of brain tissue at a microscopic level in clinical studies. However, reliable DTI metrics rely on DWI acquisitions with high gradient directions, which often go beyond the commonly used clinical protocols. To enhance the utility of clinically acquired DWI and save scanning time for robust DTI analysis, this work proposes DirGeo-DTI, a deep learning-based method to estimate reliable DTI metrics even from a set of DWIs acquired with the minimum theoretical number (6) of gradient directions. DirGeo-DTI leverages directional encoding and geometric constraints to facilitate the training process. Two public DWI datasets were used for evaluation, demonstrating the effectiveness of the proposed method. Extensive experimental results show that the proposed method achieves the best performance compared to existing DTI enhancement methods and potentially reveals further clinical insights with routine clinical DWI scans. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# FuXi-2.0:実践的応用のための機械学習天気予報モデルの改善
FuXi-2.0: Advancing machine learning weather forecasting model for practical applications ( http://arxiv.org/abs/2409.07188v1 ) ライセンス: Link先を確認 | Xiaohui Zhong, Lei Chen, Xu Fan, Wenxu Qian, Jun Liu, Hao Li, | (参考訳) 機械学習(ML)モデルは、計算コストを下げるだけでなく、従来の数値天気予報(NWP)モデルの精度にマッチまたは超える予測を提供するため、天気予報においてますます価値が高まっている。
その可能性にもかかわらず、MLモデルは一般的に粗い時間分解能(典型的には6時間)や気象変数の限定といった限界に悩まされ、実用性は制限される。
これらの課題を克服するために,風力や太陽エネルギー,航空,海運など,さまざまな分野に応用範囲を広げる,一時間の世界的な天気予報を提供する高度MLモデルであるFuXi-2.0を紹介した。
本研究では,MLに基づく1時間予測と欧州中距離気象予報センター(ECMWF)の高分解能予測(HRES)との比較分析を行った。
その結果,FuXi-2.0はECMWF HRESを常に上回り,これらのセクターに関連する重要な気象変数を予測することができた。
特に、FuXi-2.0はECMWF HRESと比較して風力発電予測の性能が優れており、正確な天気予報を必要とするシナリオの信頼性の高いツールとしての有効性が検証されている。
さらに、FuXi-2.0は大気と海洋の両方のコンポーネントを統合しており、大気と海洋を結合したモデルの開発において大きな前進を示している。
さらに比較分析した結果、FuXi-2.0は前任のFuXi-1.0よりも熱帯性サイクロンの強度の正確な予測を提供しており、大気のみのモデルよりも大気-海洋結合モデルの利点があることが示唆された。
Machine learning (ML) models have become increasingly valuable in weather forecasting, providing forecasts that not only lower computational costs but often match or exceed the accuracy of traditional numerical weather prediction (NWP) models. Despite their potential, ML models typically suffer from limitations such as coarse temporal resolution, typically 6 hours, and a limited set of meteorological variables, limiting their practical applicability. To overcome these challenges, we introduce FuXi-2.0, an advanced ML model that delivers 1-hourly global weather forecasts and includes a comprehensive set of essential meteorological variables, thereby expanding its utility across various sectors like wind and solar energy, aviation, and marine shipping. Our study conducts comparative analyses between ML-based 1-hourly forecasts and those from the high-resolution forecast (HRES) of the European Centre for Medium-Range Weather Forecasts (ECMWF) for various practical scenarios. The results demonstrate that FuXi-2.0 consistently outperforms ECMWF HRES in forecasting key meteorological variables relevant to these sectors. In particular, FuXi-2.0 shows superior performance in wind power forecasting compared to ECMWF HRES, further validating its efficacy as a reliable tool for scenarios demanding precise weather forecasts. Additionally, FuXi-2.0 also integrates both atmospheric and oceanic components, representing a significant step forward in the development of coupled atmospheric-ocean models. Further comparative analyses reveal that FuXi-2.0 provides more accurate forecasts of tropical cyclone intensity than its predecessor, FuXi-1.0, suggesting that there are benefits of an atmosphere-ocean coupled model over atmosphere-only models. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# VRにおけるAI誘導分子シミュレーションの展望:超次元分子システムにおける模倣学習の戦略を探る
A Perspective on AI-Guided Molecular Simulations in VR: Exploring Strategies for Imitation Learning in Hyperdimensional Molecular Systems ( http://arxiv.org/abs/2409.07189v1 ) ライセンス: Link先を確認 | Mohamed Dhouioui, Jonathan Barnoud, Rhoslyn Roebuck Williams, Harry J. Stroud, Phil Bates, David R. Glowacki, | (参考訳) 分子動力学シミュレーションは、研究者が薬物発見、タンパク質工学、材料設計などの分野で分子構造と機能を理解し、設計する上で重要な計算ツールである。
その実用性にもかかわらず、MDシミュレーションは分子系の高次元性のため高価である。
バーチャルリアリティー(iMD-VR)におけるインタラクティブ分子動力学は、ハイパフォーマンスコンピューティングを活用して超次元サンプリング問題の解法を加速する「ヒューマン・イン・ザ・ループ」戦略として開発されている。
IMD-VRは、リアルタイム分子運動の可視化と操作を可能にする没入型3D環境を提供することで、研究者や学生がこれらの複雑な高次元システムを効率的に、直感的に探索し、ナビゲートすることができる。
iMD-VRプラットフォームは、ヒトの専門家による分子構造と機能に関する空間的な洞察を素早く生成するユニークな機会を提供する。
本稿では、ユーザ生成したiMD-VRデータセットを用いて、模倣学習(IL)を用いてAIエージェントを訓練する可能性について検討する。
ILはロボット工学において重要な技術であり、エージェントは専門家によるデモンストレーションから複雑な振る舞いを模倣することができ、明示的なプログラミングや複雑な報酬設計の必要性を回避することができる。
ロボット工学における操作タスクにおけるILの利用を概観し、特定の分子「タスク」を解決するためのILモデルのトレーニングにIMD-VR記録をどのように使用できるかについて議論した。
次に,iMD-VR記録から得られたデータに対して,このような手法を適用する方法について検討した。
最後に、AIエージェントを人間の専門知識を強化してコンフォーメーション空間を効率的にナビゲートする研究の方向性と潜在的な課題を概説し、このアプローチが材料科学、タンパク質工学、コンピュータ支援薬物設計といった分野にまたがってどのように価値ある洞察を提供するかを強調した。
Molecular dynamics simulations are a crucial computational tool for researchers to understand and engineer molecular structure and function in areas such as drug discovery, protein engineering, and material design. Despite their utility, MD simulations are expensive, owing to the high dimensionality of molecular systems. Interactive molecular dynamics in virtual reality (iMD-VR) has recently been developed as a 'human-in-the-loop' strategy, which leverages high-performance computing to accelerate the researcher's ability to solve the hyperdimensional sampling problem. By providing an immersive 3D environment that enables visualization and manipulation of real-time molecular motion, iMD-VR enables researchers and students to efficiently and intuitively explore and navigate these complex, high-dimensional systems. iMD-VR platforms offer a unique opportunity to quickly generate rich datasets that capture human experts' spatial insight regarding molecular structure and function. This paper explores the possibility of employing user-generated iMD-VR datasets to train AI agents via imitation learning (IL). IL is an important technique in robotics that enables agents to mimic complex behaviors from expert demonstrations, thus circumventing the need for explicit programming or intricate reward design. We review the utilization of IL for manipulation tasks in robotics and discuss how iMD-VR recordings could be used to train IL models for solving specific molecular 'tasks'. We then investigate how such approaches could be applied to the data captured from iMD-VR recordings. Finally, we outline the future research directions and potential challenges of using AI agents to augment human expertise to efficiently navigate conformational spaces, highlighting how this approach could provide valuable insight across domains such as materials science, protein engineering, and computer-aided drug design. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 化学におけるマルチフィデリティベイズ最適化の適用:オープンチャレンジと主な考察
Applying Multi-Fidelity Bayesian Optimization in Chemistry: Open Challenges and Major Considerations ( http://arxiv.org/abs/2409.07190v1 ) ライセンス: Link先を確認 | Edmund Judge, Mohammed Azzouzi, Austin M. Mroz, Antonio del Rio Chanona, Kim E. Jelfs, | (参考訳) MFBO(Multifidelity Bayesian Optimization)は、所望の最大コストに最適化するために、様々な品質とリソースコストの実験的あるいは計算的なデータを活用する。
このアプローチは、様々なデータソースを統合するMFBOの能力のため、特に化学発見にとって魅力的である。
本稿では,MFBOの分子や物質の同定を高速化するための応用について検討する。
本研究では,低忠実度データが単一忠実度問題の定式化よりも性能を向上させる条件を具体的に分析する。
本稿では,最適取得関数の選択,コストの影響の理解,データの忠実度相関という2つの課題に対処する。
次に,化学発見におけるMFBOの有効性について検討する。
Multi fidelity Bayesian optimization (MFBO) leverages experimental and or computational data of varying quality and resource cost to optimize towards desired maxima cost effectively. This approach is particularly attractive for chemical discovery due to MFBO's ability to integrate diverse data sources. Here, we investigate the application of MFBO to accelerate the identification of promising molecules or materials. We specifically analyze the conditions under which lower fidelity data can enhance performance compared to single-fidelity problem formulations. We address two key challenges, selecting the optimal acquisition function, understanding the impact of cost, and data fidelity correlation. We then discuss how to assess the effectiveness of MFBO for chemical discovery. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# AIベースのシステムに必要な技術はいかに成熟しているか? : システムマッピングによる実践・課題・研究の方向性に関する研究
How Mature is Requirements Engineering for AI-based Systems? A Systematic Mapping Study on Practices, Challenges, and Future Research Directions ( http://arxiv.org/abs/2409.07192v1 ) ライセンス: Link先を確認 | Umm-e- Habiba, Markus Haug, Justus Bogner, Stefan Wagner, | (参考訳) 人工知能(AI)は、生命のあらゆる分野に浸透し、人工知能(RE4AI)の要求工学(Requireed Engineering)における新たな課題、例えば、AIの要件を特定し検証することの難しさや、倫理的意味の出現による新たな品質要件の考察などを生み出した。
既存のREメソッドが十分かどうか、あるいはこれらの課題に対処するために新しいメソッドが必要なのか、現時点では不明である。
そこで本研究の目的は,RE4AIの総合的な概要を研究者や実践者に提供することである。
これまでのところ、どのようなプラクティスが利用可能で、どんな研究ギャップと課題に対処する必要があるか?
そこで我々は,問合せ文字列探索と広範囲な雪玉抽出を組み合わせた系統地図調査を行った。
抽出したデータを集計し, テーマ解析を用いて結果を合成した。
私たちの選択プロセスは、126の初等的な研究を取り入れました。
既存のRE4AI研究は主に要件分析と導入に重点を置いており、ほとんどの実践はこれらの分野に適用されている。
さらに、要件仕様、説明可能性、マシンラーニングエンジニアとエンドユーザのギャップを最も一般的な課題として挙げました。
さらに,これらの課題に対処するための7つの研究指針を提案した。
実践者は、私たちの結果を使ってAIベースのシステムで作業するための適切なREメソッドを特定し、選択することができます。
Artificial intelligence (AI) permeates all fields of life, which resulted in new challenges in requirements engineering for artificial intelligence (RE4AI), e.g., the difficulty in specifying and validating requirements for AI or considering new quality requirements due to emerging ethical implications. It is currently unclear if existing RE methods are sufficient or if new ones are needed to address these challenges. Therefore, our goal is to provide a comprehensive overview of RE4AI to researchers and practitioners. What has been achieved so far, i.e., what practices are available, and what research gaps and challenges still need to be addressed? To achieve this, we conducted a systematic mapping study combining query string search and extensive snowballing. The extracted data was aggregated, and results were synthesized using thematic analysis. Our selection process led to the inclusion of 126 primary studies. Existing RE4AI research focuses mainly on requirements analysis and elicitation, with most practices applied in these areas. Furthermore, we identified requirements specification, explainability, and the gap between machine learning engineers and end-users as the most prevalent challenges, along with a few others. Additionally, we proposed seven potential research directions to address these challenges. Practitioners can use our results to identify and select suitable RE methods for working on their AI-based systems, while researchers can build on the identified gaps and research directions to push the field forward. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# サイバー詐欺:最先端技術、トレンド、オープンな課題
Cyber Deception: State of the art, Trends and Open challenges ( http://arxiv.org/abs/2409.07194v1 ) ライセンス: Link先を確認 | Pedro Beltrán López, Manuel Gil Pérez, Pantaleone Nespoli, | (参考訳) サイバーセキュリティに対する関心の高まりは、様々なサイバー詐欺(CYDEC)機構を設計し実装する記事を著しく増加させている。
この傾向は、サイバー脅威を効果的に対処する新しい戦略の必要性を反映している。
その出現以来、CYDECは攻撃者に対する革新的な防御として確立してきた。
CYDECに関する膨大な研究にもかかわらず、文学は依然として大きなギャップを呈している。
特に、存在していない。
i)CYDECを特徴付ける主成分の包括的分析
二 あらゆる種類の解を包含する総称分類
(三)諸文脈における文学の現状の調査。
本稿では,これらのギャップを,CYDECを構成する主要な特徴の詳細なレビューを通じて埋めることを目的として,包括的分類分類を開発する。
さらに、CYDECを生成するために使用されるさまざまなフレームワークについてレビューし、より包括的なものを提示している。
CYDECを用いた文献における既存のソリューションは、人工知能(AI)もAIも使わずに研究され、比較される。
最後に、現在の最先端の最も健全な傾向について論じ、今後の研究の課題のリストを提供する。
The growing interest in cybersecurity has significantly increased articles designing and implementing various Cyber Deception (CYDEC) mechanisms. This trend reflects the urgent need for new strategies to address cyber threats effectively. Since its emergence, CYDEC has established itself as an innovative defense against attackers, thanks to its proactive and reactive capabilities, finding applications in numerous real-life scenarios. Despite the considerable work devoted to CYDEC, the literature still presents significant gaps. In particular, there has not been (i) a comprehensive analysis of the main components characterizing CYDEC, (ii) a generic classification covering all types of solutions, nor (iii) a survey of the current state of the literature in various contexts. This article aims to fill these gaps through a detailed review of the main features that comprise CYDEC, developing a comprehensive classification taxonomy. In addition, the different frameworks used to generate CYDEC are reviewed, presenting a more comprehensive one. Existing solutions in the literature using CYDEC, both without Artificial Intelligence (AI) and with AI, are studied and compared. Finally, the most salient trends of the current state of the art are discussed, offering a list of pending challenges for future research. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# サーマルガウシアン:3Dガウシアンスプレイティング
ThermalGaussian: Thermal 3D Gaussian Splatting ( http://arxiv.org/abs/2409.07200v1 ) ライセンス: Link先を確認 | Rongfeng Lu, Hangyu Chen, Zunjie Zhu, Yuhang Qin, Ming Lu, Le Zhang, Chenggang Yan, Anke Xue, | (参考訳) サーモグラフィーは軍事や監視カメラの利用者にとって特に有用である。
ニューラルラジアンス場(NeRF)に基づく最近の手法により, 熱画像とRGB画像の集合から3次元のサーマルシーンを再構成する手法が提案されている。
しかし、NeRFとは異なり、3Dガウススプラッティング(3DGS)は高速なトレーニングとリアルタイムレンダリングのために一般的である。
本研究では,RGBで高画質画像をレンダリングできる最初の熱3DGS手法であるMaterialGaussianを提案する。
まずRGBカメラとサーマルカメラを校正し、両方のモダリティが正確に一致していることを確認する。
その後、登録画像を用いてマルチモーダルな3Dガウシアンを学習する。
単一モダリティの過度な適合を防止するため、複数の多重モーダル正規化制約を導入する。
また,熱モダリティの物理的特性に合わせたスムースな制約も展開する。
さらに,手持ち熱赤外線カメラで捉えたRGBT-Scenesという実世界のデータセットをコントリビュートし,今後の熱シーンの再構築について研究する。
本研究では,熱画像のフォトリアリスティックレンダリングを実現し,RGB画像のレンダリング品質を向上させるための総合的な実験を行った。
提案したマルチモーダル正規化制約により,モデルのストレージコストも90%削減した。
コードとデータセットがリリースされる。
Thermography is especially valuable for the military and other users of surveillance cameras. Some recent methods based on Neural Radiance Fields (NeRF) are proposed to reconstruct the thermal scenes in 3D from a set of thermal and RGB images. However, unlike NeRF, 3D Gaussian splatting (3DGS) prevails due to its rapid training and real-time rendering. In this work, we propose ThermalGaussian, the first thermal 3DGS approach capable of rendering high-quality images in RGB and thermal modalities. We first calibrate the RGB camera and the thermal camera to ensure that both modalities are accurately aligned. Subsequently, we use the registered images to learn the multimodal 3D Gaussians. To prevent the overfitting of any single modality, we introduce several multimodal regularization constraints. We also develop smoothing constraints tailored to the physical characteristics of the thermal modality. Besides, we contribute a real-world dataset named RGBT-Scenes, captured by a hand-hold thermal-infrared camera, facilitating future research on thermal scene reconstruction. We conduct comprehensive experiments to show that ThermalGaussian achieves photorealistic rendering of thermal images and improves the rendering quality of RGB images. With the proposed multimodal regularization constraints, we also reduced the model's storage cost by 90\%. The code and dataset will be released. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 不均一性を考慮した事前学習ブロックによるフェデレーション学習のコーディネーション
Heterogeneity-Aware Coordination for Federated Learning via Stitching Pre-trained blocks ( http://arxiv.org/abs/2409.07202v1 ) ライセンス: Link先を確認 | Shichen Zhan, Yebo Wu, Chunlin Tian, Yan Zhao, Li Li, | (参考訳) フェデレートラーニング(FL)は複数のデバイスをコーディネートして、データのプライバシを保持しながら共有モデルを協調的にトレーニングする。
しかし、トレーニングプロセス中の大きなメモリフットプリントと高エネルギー消費は、ローエンドデバイスが自身のデータでグローバルモデルに寄与することを排除し、実際のシナリオにおけるモデル性能を著しく低下させる。
本稿では,事前学習ブロックを用いた異種フェデレーション学習のための階層的協調フレームワークであるFedStitchを提案する。
グローバルモデルをゼロからトレーニングする従来のアプローチとは異なり、新しいタスクでは、FedStitchはトレーニング済みのブロックを縫合することでグローバルモデルを構成する。
具体的には、各クライアントは、事前訓練されたモデルのブロックからなる候補プールから、それぞれのローカルデータに基づいて、最も適切なブロックを選択する。
その後、サーバは、縫合のための最適なブロックを集約する。
この処理は、新しい縫合ネットワークが生成されるまで反復する。
新しいトレーニングパラダイムを除いて、FedStitchは以下の3つのコアコンポーネントで構成されている。
1)RL重み付けアグリゲータ
2)サーバ側に配置された検索スペースオプティマイザ
3)各参加クライアントに展開するローカルエネルギオプティマイザ。
RL重み付けアグリゲータは、非IIDシナリオで正しいブロックを選択するのに役立ち、探索空間オプティマイザは、縫合中の候補ブロックプールのサイズを連続的に減少させる。
一方、ローカルエネルギーオプティマイザは、訓練全体の進捗を保証しつつ、各クライアントのエネルギー消費を最小限に抑えるように設計されている。
その結果、既存のアプローチと比較して、FedStitchはモデルの精度を最大20.93%改善した。
同時に、最大8.12%のスピードアップを実現し、メモリフットプリントを79.5%まで削減し、学習手順中に89.41%の省エネを達成する。
Federated learning (FL) coordinates multiple devices to collaboratively train a shared model while preserving data privacy. However, large memory footprint and high energy consumption during the training process excludes the low-end devices from contributing to the global model with their own data, which severely deteriorates the model performance in real-world scenarios. In this paper, we propose FedStitch, a hierarchical coordination framework for heterogeneous federated learning with pre-trained blocks. Unlike the traditional approaches that train the global model from scratch, for a new task, FedStitch composes the global model via stitching pre-trained blocks. Specifically, each participating client selects the most suitable block based on their local data from the candidate pool composed of blocks from pre-trained models. The server then aggregates the optimal block for stitching. This process iterates until a new stitched network is generated. Except for the new training paradigm, FedStitch consists of the following three core components: 1) an RL-weighted aggregator, 2) a search space optimizer deployed on the server side, and 3) a local energy optimizer deployed on each participating client. The RL-weighted aggregator helps to select the right block in the non-IID scenario, while the search space optimizer continuously reduces the size of the candidate block pool during stitching. Meanwhile, the local energy optimizer is designed to minimize energy consumption of each client while guaranteeing the overall training progress. The results demonstrate that compared to existing approaches, FedStitch improves the model accuracy up to 20.93%. At the same time, it achieves up to 8.12% speedup, reduces the memory footprint up to 79.5%, and achieves 89.41% energy saving at most during the learning procedure. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 拡張グラフによるオンライングラフフィルタリング
Online Graph Filtering Over Expanding Graphs ( http://arxiv.org/abs/2409.07204v1 ) ライセンス: Link先を確認 | Bishwadeep Das, Elvin Isufi, | (参考訳) グラフフィルタは、下流のタスクでグラフ上の信号を処理するための基本的なツールである。
しかし、現実のネットワークは通常、時間とともに成長するにもかかわらず、ノード数が一定であるグラフのために設計されている。
このトポロジ的進化はしばしば確率的モデルによって知られており、従来のグラフフィルタはそのようなトポロジ的変化、不確実性、および入ってくるデータの動的性質に不適合である。
これらの課題に対処するために,オンライン学習の原則に依存するオンライングラフフィルタリングフレームワークを提案する。
このような進化に適応した学習者を含む、トポロジが知られ、未知のシナリオのためのフィルタを設計する。
我々は,オンラインアルゴリズムやフィルタ順序,成長するグラフモデルなど,さまざまなコンポーネントが果たす役割を強調するために,後悔の意を表す分析を行う。
合成および実データを用いた数値実験は、グラフ信号推論タスクの提案した手法を相関させ、競争性能w.r.t.ベースラインと最先端の代替技術を示す。
Graph filters are a staple tool for processing signals over graphs in a multitude of downstream tasks. However, they are commonly designed for graphs with a fixed number of nodes, despite real-world networks typically grow over time. This topological evolution is often known up to a stochastic model, thus, making conventional graph filters ill-equipped to withstand such topological changes, their uncertainty, as well as the dynamic nature of the incoming data. To tackle these issues, we propose an online graph filtering framework by relying on online learning principles. We design filters for scenarios where the topology is both known and unknown, including a learner adaptive to such evolution. We conduct a regret analysis to highlight the role played by the different components such as the online algorithm, the filter order, and the growing graph model. Numerical experiments with synthetic and real data corroborate the proposed approach for graph signal inference tasks and show a competitive performance w.r.t. baselines and state-of-the-art alternatives. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# CTCに基づく視覚音声認識の強化
Enhancing CTC-Based Visual Speech Recognition ( http://arxiv.org/abs/2409.07210v1 ) ライセンス: Link先を確認 | Hendrik Laux, Anke Schmeink, | (参考訳) 本稿では、これまで導入してきた視覚音声認識(VSR)に対する効率的なアプローチの強化版であるLiteVSR2を提案する。
事前訓練された自動音声認識(ASR)モデルから知識蒸留の枠組みを構築し, 安定したビデオ前処理技術と, 蒸留プロセスにおける特徴正規化という2つの重要な改良点を紹介した。
これらの改善により、LSS2とLSS3ベンチマークのパフォーマンスは大幅に向上し、LiteVSR2はトレーニングデータや計算資源を増大させることなく、現在の最高のCTCベースのVSRモデルとして位置づけられた。
さらに、様々なモデル複雑度にまたがるパフォーマンス指標を調べ、データボリュームをトレーニングすることで、我々のアプローチのスケーラビリティについて検討する。
LiteVSR2は前者の効率を維持しながら精度を大幅に向上させ、これによりVSR技術の資源効率向上の可能性を示す。
This paper presents LiteVSR2, an enhanced version of our previously introduced efficient approach to Visual Speech Recognition (VSR). Building upon our knowledge distillation framework from a pre-trained Automatic Speech Recognition (ASR) model, we introduce two key improvements: a stabilized video preprocessing technique and feature normalization in the distillation process. These improvements yield substantial performance gains on the LRS2 and LRS3 benchmarks, positioning LiteVSR2 as the current best CTC-based VSR model without increasing the volume of training data or computational resources utilized. Furthermore, we explore the scalability of our approach by examining performance metrics across varying model complexities and training data volumes. LiteVSR2 maintains the efficiency of its predecessor while significantly enhancing accuracy, thereby demonstrating the potential for resource-efficient advancements in VSR technology. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 合併の価値はあるか? 因果的データセット獲得のための情報収集を安全に評価する
Is merging worth it? Securely evaluating the information gain for causal dataset acquisition ( http://arxiv.org/abs/2409.07215v1 ) ライセンス: Link先を確認 | Jake Fawkes, Lucile Ter-Minassian, Desi Ivanova, Uri Shalit, Chris Holmes, | (参考訳) 機関間でデータセットをマージすることは、特に個人情報を含む場合、長くてコストのかかる手続きである。
したがって、データホストは、機密情報を明らかにすることなく、どのデータセットがマージするのに最も有益であるかを前向きに測定したいかもしれない。
因果推定では、マージの価値は、てんかんの不確実性の低下だけでなく、重なり合いの改善にも依存するため、特に困難である。
この課題に対処するために、不均一な処理効果推定の文脈でマージの価値を定量化するための、最初の暗号的にセキュアな情報理論アプローチを導入する。
我々は、期待情報ゲイン(EIG)を評価し、生データを公開せずに安全に計算できることを保証するために、マルチパーティ計算を利用する。
以下に示すように、これは差分プライバシ(DP)を用いて、DP単独よりも正確な計算を保ちながら、プライバシ要件を保証するために使用できる。
我々の知る限り、この研究は因果推定に適したデータセット取得のための最初のプライバシ保護方法を示す。
本手法の有効性と信頼性をシミュレーションおよび現実的なベンチマークで示す。
コードは匿名で入手できる。
Merging datasets across institutions is a lengthy and costly procedure, especially when it involves private information. Data hosts may therefore want to prospectively gauge which datasets are most beneficial to merge with, without revealing sensitive information. For causal estimation this is particularly challenging as the value of a merge will depend not only on the reduction in epistemic uncertainty but also the improvement in overlap. To address this challenge, we introduce the first cryptographically secure information-theoretic approach for quantifying the value of a merge in the context of heterogeneous treatment effect estimation. We do this by evaluating the Expected Information Gain (EIG) and utilising multi-party computation to ensure it can be securely computed without revealing any raw data. As we demonstrate, this can be used with differential privacy (DP) to ensure privacy requirements whilst preserving more accurate computation than naive DP alone. To the best of our knowledge, this work presents the first privacy-preserving method for dataset acquisition tailored to causal estimation. We demonstrate the effectiveness and reliability of our method on a range of simulated and realistic benchmarks. The code is available anonymously. | 翻訳日:2024-09-12 14:49:40 公開日:2024-09-11 |
# 自律運転のための行動クローンモデル現実チェック
Behavioral Cloning Models Reality Check for Autonomous Driving ( http://arxiv.org/abs/2409.07218v1 ) ライセンス: Link先を確認 | Mustafa Yildirim, Barkin Dagda, Vinal Asodia, Saber Fallah, | (参考訳) 現実の自動運転車制御に適用した場合、近年の自動運転車認識システムの進歩はどの程度有効か?
多くの視覚に基づく自動運転車システムは、シミュレーション環境で訓練され、評価されているが、これらのシステムに対する現実的な検証の欠如は顕著である。
本稿では, 横方向制御にビヘイビア・クローン(BC)を用い, 生画像データを処理し, 操舵命令の予測を行う, 最先端の認識システムの現実的検証を行うことにより, このギャップを解消する。
データセットは、スケールした研究車両を使用して収集され、さまざまなトラック設定でテストされた。
実験により,これらの手法はリアルタイムに低誤差の操舵角度を予測し,実世界の応用に期待できる可能性を示唆している。
How effective are recent advancements in autonomous vehicle perception systems when applied to real-world autonomous vehicle control? While numerous vision-based autonomous vehicle systems have been trained and evaluated in simulated environments, there is a notable lack of real-world validation for these systems. This paper addresses this gap by presenting the real-world validation of state-of-the-art perception systems that utilize Behavior Cloning (BC) for lateral control, processing raw image data to predict steering commands. The dataset was collected using a scaled research vehicle and tested on various track setups. Experimental results demonstrate that these methods predict steering angles with low error margins in real-time, indicating promising potential for real-world applications. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# リストの挑戦:第3のオープンセット顔検出と識別
Watchlist Challenge: 3rd Open-set Face Detection and Identification ( http://arxiv.org/abs/2409.07220v1 ) ライセンス: Link先を確認 | Furkan Kasım, Terrance E. Boult, Rensso Mora, Bernardo Biesseck, Rafael Ribeiro, Jan Schlueter, Tomáš Repák, Rafael Henrique Vareto, David Menotti, William Robson Schwartz, Manuel Günther, | (参考訳) バイオメトリックスと監視の現在の状況では、制御されていない設定で顔を正確に認識する能力が最重要である。
Watchlist Challengeは、現実世界の監視シナリオにおける顔の検出とオープンセットの識別に焦点を当てることで、この重要なニーズに対処する。
本稿では,UnConstrained College Students (UCCS) データセットと新たな評価プロトコルを用いて,参加型アルゴリズムの包括的評価を行う。
4人の被験者が4つの顔検出システムと9つのオープンセット顔認識システムを提出した。
評価の結果,検出能力は概して堅牢であるが,クローズド・セットの識別性能は,大規模データセット上で事前訓練されたモデルにより大きく異なることがわかった。
しかし、オープンセットシナリオは、特に高い真の正の識別率、すなわち低い閾値において、さらなる改善を必要とする。
In the current landscape of biometrics and surveillance, the ability to accurately recognize faces in uncontrolled settings is paramount. The Watchlist Challenge addresses this critical need by focusing on face detection and open-set identification in real-world surveillance scenarios. This paper presents a comprehensive evaluation of participating algorithms, using the enhanced UnConstrained College Students (UCCS) dataset with new evaluation protocols. In total, four participants submitted four face detection and nine open-set face recognition systems. The evaluation demonstrates that while detection capabilities are generally robust, closed-set identification performance varies significantly, with models pre-trained on large-scale datasets showing superior performance. However, open-set scenarios require further improvement, especially at higher true positive identification rates, i.e., lower thresholds. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# Riemannian Federated Learning by A averageaging Gradient Stream
Riemannian Federated Learning via Averaging Gradient Stream ( http://arxiv.org/abs/2409.07223v1 ) ライセンス: Link先を確認 | Zhenwei Huang, Wen Huang, Pratik Jawanpuria, Bamdev Mishra, | (参考訳) 近年、フェデレーション学習は、効率的でプライバシーを保護した分散学習パラダイムとして大きな注目を集めている。
ユークリッド設定では、フェデレート平均化(FedAvg)とその変種は期待される(経験的)リスク最小化のための効率的なアルゴリズムのクラスである。
本稿では,FedAvgの一般化であるRiemannian Federated Averaging Gradient Stream (RFedAGS)アルゴリズムを,リーマン多様体上で定義された問題に対して開発・解析する。
標準的な仮定では、RFedAGS の固定ステップサイズでの収束速度は、近似定常解のサブ線形であることが証明されている。
崩壊するステップサイズを使用すると、大域収束が確立される。
さらに、目的がリーマンのPolyak-{\L}ojasiewicz性質に従うと仮定すると、RFedAGSが一定のステップサイズで生成する最適ギャップは、小さく上界まで線形に減少し、一方、減衰するステップサイズを使用すると、ギャップは下線的に消滅する。
合成および実世界のデータを用いて数値シミュレーションを行い,提案したRFedAGSの性能を実証した。
In recent years, federated learning has garnered significant attention as an efficient and privacy-preserving distributed learning paradigm. In the Euclidean setting, Federated Averaging (FedAvg) and its variants are a class of efficient algorithms for expected (empirical) risk minimization. This paper develops and analyzes a Riemannian Federated Averaging Gradient Stream (RFedAGS) algorithm, which is a generalization of FedAvg, to problems defined on a Riemannian manifold. Under standard assumptions, the convergence rate of RFedAGS with fixed step sizes is proven to be sublinear for an approximate stationary solution. If decaying step sizes are used, the global convergence is established. Furthermore, assuming that the objective obeys the Riemannian Polyak-{\L}ojasiewicz property, the optimal gaps generated by RFedAGS with fixed step size are linearly decreasing up to a tiny upper bound, meanwhile, if decaying step sizes are used, then the gaps sublinearly vanish. Numerical simulations conducted on synthetic and real-world data demonstrate the performance of the proposed RFedAGS. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# TiN/AlN系超伝導量子ビット部品の開発
Development of TiN/AlN-based superconducting qubit components ( http://arxiv.org/abs/2409.07227v1 ) ライセンス: Link先を確認 | Benedikt Schoof, Moritz Singer, Simon Lang, Harsh Gupta, Daniela Zahn, Johannes Weber, Marc Tornow, | (参考訳) 本稿では, 窒化チタン (TiN) および窒化アルミニウム (AlN) 層からの超伝導量子ビット部品の作製と特性評価を行い, 全窒化物アーキテクチャにおけるジョセフソン接合と超伝導共振器の創製について述べる。
本手法は,TiN/AlN/TiN接合の完全なプロセスフローからなり,走査電子顕微鏡(SEM),原子間力顕微鏡(AFM),エリプソメトリー,直流電気測定が特徴である。
種々の条件下でのAlNのスパッタリング速度, 異なるスパッタリング環境におけるTiN薄膜の臨界温度, およびこれらの薄膜から作製した数GHz帯のTiN共振器の内部品質係数について検討した。
全体として、これは量子ビット性能に不可欠な材料特性に関する洞察を提供する。
TiN/AlN/TiN接合の臨界電流依存性の測定値は150${\mu}$Aから2${\mu}$Aの範囲で測定された。
5nmであった。
本研究は, 窒化物系超伝導量子ビット部品の製作の進展を示すものである。
This paper presents the fabrication and characterization of superconducting qubit components from titanium nitride (TiN) and aluminum nitride (AlN) layers to create Josephson junctions and superconducting resonators in an all-nitride architecture. Our methodology comprises a complete process flow for the fabrication of TiN/AlN/TiN junctions, characterized by scanning electron microscopy (SEM), atomic force microscopy (AFM), ellipsometry and DC electrical measurements. We evaluated the sputtering rates of AlN under varied conditions, the critical temperatures of TiN thin films for different sputtering environments, and the internal quality factors of TiN resonators in the few-GHz regime, fabricated from these films. Overall, this offered insights into the material properties critical to qubit performance. Measurements of the dependence of the critical current of the TiN / AlN / TiN junctions yielded values ranging from 150 ${\mu}$A to 2 ${\mu}$A, for AlN barrier thicknesses up to ca. 5 nm, respectively. Our findings demonstrate advances in the fabrication of nitride-based superconducting qubit components, which may find applications in quantum computing technologies based on novel materials. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# ロボットソフトウェアの再利用性と移動性(拡張版)
Reusability and Modifiability in Robotics Software (Extended Version) ( http://arxiv.org/abs/2409.07228v1 ) ライセンス: Link先を確認 | Laura Pomponio, Maximiliano Cristiá, Estanislao Ruiz Sorazábal, Maximiliano García, | (参考訳) 本稿では,プロセス制御アーキテクチャと設計パターンに基づく雑草ロボットのマイクロコントローラユニットの設計について述べる。
設計は、合計30の問題に対して8つのデザインパターンを使用した133のモジュールで構成されている。
その結果、より再利用可能なコンポーネントと容易に変更可能で拡張可能なプログラムが得られる。
設計資料も紹介されている。
最後に、実装(C++コードの12KLOC)を経験的に評価し、設計が非効率な実装を生成していないことを証明する。
We show the design of the software of the microcontroller unit of a weeding robot based on the Process Control architectural style and design patterns. The design consists of 133 modules resulting from using 8 design patterns for a total of 30 problems. As a result the design yields more reusable components and an easily modifiable and extensible program. Design documentation is also presented. Finally, the implementation (12 KLOC of C++ code) is empirically evaluated to prove that the design does not produce an inefficient implementation. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# 均一空間上の量子参照フレーム
Quantum Reference Frames on Homogeneous Spaces ( http://arxiv.org/abs/2409.07231v1 ) ライセンス: Link先を確認 | Jan Głowacki, | (参考訳) 本稿では、演算子値関数の正の測度に対する積分として生じる演算子を体系的に研究し、これらのツールを用いて一般の同次空間上で定義された量子参照フレーム(QRF)の相対化写像(Yen)を提供する。
作用素値積分の特性は、まず研究され、次に一般相対化写像を定義し、それらの性質を示すために用いられる。
ここで示される相対化写像は、局所コンパクトな第二可算位相群の任意の同次空間に基づいて QRF に対して定義され、量子チャネルを収縮させ、局所化可能な(ノルム-1の性質)フレームを射影し、鋭い(PVM)を乗算し、既存の結果を拡張している。
This paper initiates a systematic study of operators arising as integrals of operator-valued functions with respect to positive operator-valued measures and utilizes these tools to provide relativization maps (Yen) for quantum reference frames (QRFs) defined on general homogeneous spaces. Properties of operator-valued integration are first studied and then employed to define general relativization maps and show their properties. The relativization maps presented here are defined for QRFs (systems of covariance) based on arbitrary homogeneous spaces of locally compact second countable topological groups and are shown to be contracting quantum channels, injective for localizable (norm-1 property) frames and multiplicative for the sharp ones (PVMs), extending the existing results. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# 3DGCQA: 3D AI生成コンテンツの品質評価データベース
3DGCQA: A Quality Assessment Database for 3D AI-Generated Contents ( http://arxiv.org/abs/2409.07236v1 ) ライセンス: Link先を確認 | Yingjie Zhou, Zicheng Zhang, Farong Wen, Jun Jia, Yanwei Jiang, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai, | (参考訳) 3D生成コンテンツ(3DGC)は、生産コストの削減と設計タイムラインの高速化にメリットがあるが、プロの3D生成コンテンツと比較すると、品質は低下することが多い。
一般的な品質問題はしばしば3DGCに影響を与え、タイムリーで効果的な品質評価の重要性を強調している。
このような評価は、エンドユーザーに対して高い3DGCを保証するだけでなく、生成技術の進歩に重要な洞察を与える。
そこで本研究では,テキスト・ツー・3D生成手法を用いて構築した3DGC品質評価データセットである3DGCQAを提案する。
データセットの構築中に、50の固定プロンプトを使用して、すべてのメソッドにまたがるコンテンツを生成し、3DGCQAデータセットを構成する313のテクスチャ化されたメッシュを生成する。
可視化によって、生成された3DGCに6つの共通の歪みカテゴリが存在することが直感的に明らかになる。
3DGCの品質をさらに調査するため、評価者によって主観的品質評価が行われ、その評価は、異なる生成方法における品質の有意な変動を示す。
さらに、3DGCQAデータセット上で、いくつかの客観的品質評価アルゴリズムがテストされている。
その結果、既存のアルゴリズムの性能の限界を明らかにし、より専門的な品質評価手法を開発する必要性を浮き彫りにした。
3Dコンテンツ生成および品質評価における将来の研究開発のための貴重なリソースを提供するため、データセットはhttps://github.com/zyj-2000/3DGCQAでオープンソース化された。
Although 3D generated content (3DGC) offers advantages in reducing production costs and accelerating design timelines, its quality often falls short when compared to 3D professionally generated content. Common quality issues frequently affect 3DGC, highlighting the importance of timely and effective quality assessment. Such evaluations not only ensure a higher standard of 3DGCs for end-users but also provide critical insights for advancing generative technologies. To address existing gaps in this domain, this paper introduces a novel 3DGC quality assessment dataset, 3DGCQA, built using 7 representative Text-to-3D generation methods. During the dataset's construction, 50 fixed prompts are utilized to generate contents across all methods, resulting in the creation of 313 textured meshes that constitute the 3DGCQA dataset. The visualization intuitively reveals the presence of 6 common distortion categories in the generated 3DGCs. To further explore the quality of the 3DGCs, subjective quality assessment is conducted by evaluators, whose ratings reveal significant variation in quality across different generation methods. Additionally, several objective quality assessment algorithms are tested on the 3DGCQA dataset. The results expose limitations in the performance of existing algorithms and underscore the need for developing more specialized quality assessment methods. To provide a valuable resource for future research and development in 3D content generation and quality assessment, the dataset has been open-sourced in https://github.com/zyj-2000/3DGCQA. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# Diff-VPS: 対向時間共振を用いたマルチタスク拡散ネットワークによるビデオポリプセグメンテーション
Diff-VPS: Video Polyp Segmentation via a Multi-task Diffusion Network with Adversarial Temporal Reasoning ( http://arxiv.org/abs/2409.07238v1 ) ライセンス: Link先を確認 | Yingling Lu, Yijun Yang, Zhaohu Xing, Qiong Wang, Lei Zhu, | (参考訳) 拡散確率モデル(Diffusion Probabilistic Models)はその卓越した性能のため、近年、コンピュータビジョンのコミュニティにおいて大きな注目を集めている。
しかし, ビデオにおけるポリプセグメンテーションの結果を前進させる拡散モデルの導入は, ポリプの高カモフラージュと冗長な時間的手がかりによってしばしば議論されているが, ビデオポリプセグメンテーションタスクのための新しい拡散ベースネットワークであるDiff-VPSを提案する。
マルチタスクの監視を拡散モデルに組み込んで,画素ごとのセグメンテーションにおける拡散モデルの識別を促進する。
これは、共同分類および検出タスクによって達成される文脈上の高レベル情報を統合する。
時間的依存を探索するため、TRM(Temporal Reasoning Module)は、以前のフレームからターゲットフレームを推論および再構成することで考案される。
さらに、より現実的なフレームを生成し、よりダイナミックなキューをキャプチャするために、TRMに生成的対向的自己監督戦略を装備する。
SUN-SEGを用いた大規模実験を行い,提案したDiff-VPSが最先端性能を著しく向上することを示す。
コードはhttps://github.com/lydia-yllu/Diff-VPS.comで入手できる。
Diffusion Probabilistic Models have recently attracted significant attention in the community of computer vision due to their outstanding performance. However, while a substantial amount of diffusion-based research has focused on generative tasks, no work introduces diffusion models to advance the results of polyp segmentation in videos, which is frequently challenged by polyps' high camouflage and redundant temporal cues.In this paper, we present a novel diffusion-based network for video polyp segmentation task, dubbed as Diff-VPS. We incorporate multi-task supervision into diffusion models to promote the discrimination of diffusion models on pixel-by-pixel segmentation. This integrates the contextual high-level information achieved by the joint classification and detection tasks. To explore the temporal dependency, Temporal Reasoning Module (TRM) is devised via reasoning and reconstructing the target frame from the previous frames. We further equip TRM with a generative adversarial self-supervised strategy to produce more realistic frames and thus capture better dynamic cues. Extensive experiments are conducted on SUN-SEG, and the results indicate that our proposed Diff-VPS significantly achieves state-of-the-art performance. Code is available at https://github.com/lydia-yllu/Diff-VPS. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# PiTe:大規模ビデオ言語モデルのための画素時間アライメント
PiTe: Pixel-Temporal Alignment for Large Video-Language Model ( http://arxiv.org/abs/2409.07239v1 ) ライセンス: Link先を確認 | Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang, | (参考訳) LLM(Large Language Models)波によって実現されたLVLM(Large Visual-Language Models)は、画像とテキストのギャップを埋める重要な進歩として現れている。
しかし、言語と時空間データ構造の関係が複雑化するため、LVLMが適切に機能することは困難である。
近年のLVidLM(Large Video-Language Models)は,LLMの能力を十分に活用するための汎用マルチモーダルタスクによって,画像のような静的な視覚データを言語特徴の潜在空間に整合させる。
本稿では,空間次元と時間次元の両方の異なるモードに対する物体軌道による微粒化アライメント手法を同時に検討する。
そこで我々は,PiTeと呼ばれる軌跡誘導Pixel-Temporal Alignmentを用いたLVidLMを提案する。
ビデオ言語アライメントを実現するために,自動アノテーションパイプラインを用いて,ビデオとキャプションの両方に現れる個々のオブジェクトの軌跡をピクセル単位で移動させるデータセットである,マルチモーダル事前学習データセットPiTe-143kをキュレートした。
一方、PiTeは、無数のビデオ関連マルチモーダルタスクに対して、最先端の手法を大きなマージンで打ち負かすことによって、驚くべき能力を示す。
Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# SO(2)-Equivariant Gaussian Sculpting Networksによる一視点3D再構成
Single-View 3D Reconstruction via SO(2)-Equivariant Gaussian Sculpting Networks ( http://arxiv.org/abs/2409.07245v1 ) ライセンス: Link先を確認 | Ruihan Xu, Anthony Opipari, Joshua Mah, Stanley Lewis, Haoran Zhang, Hanzhe Guo, Odest Chadwicke Jenkins, | (参考訳) 本稿では,SO(2)-Equivariant Gaussian Sculpting Networks (GSNs) について,一視点画像観測によるSO(2)-Equivariant 3Dオブジェクト再構成のアプローチとして紹介する。
GSNは入力として単一の観測を行い、観測対象の幾何学とテクスチャを記述するガウススプラット表現を生成する。
ガウス色、共分散、位置、不透明度を復号する前に共有特徴抽出器を使用することで、GSNは極めて高いスループット(>150FPS)を達成する。
実験により、GSNは多視点レンダリング損失を用いて効率的に訓練でき、高い拡散に基づく再構成アルゴリズムを用いて、高品質で競争力があることが示された。
GSNモデルは、複数のベンチマーク実験で検証される。
さらに,物体中心の把握のために,ロボット操作パイプライン内でGSNを使用する可能性を示す。
This paper introduces SO(2)-Equivariant Gaussian Sculpting Networks (GSNs) as an approach for SO(2)-Equivariant 3D object reconstruction from single-view image observations. GSNs take a single observation as input to generate a Gaussian splat representation describing the observed object's geometry and texture. By using a shared feature extractor before decoding Gaussian colors, covariances, positions, and opacities, GSNs achieve extremely high throughput (>150FPS). Experiments demonstrate that GSNs can be trained efficiently using a multi-view rendering loss and are competitive, in quality, with expensive diffusion-based reconstruction algorithms. The GSN model is validated on multiple benchmark experiments. Moreover, we demonstrate the potential for GSNs to be used within a robotic manipulation pipeline for object-centric grasping. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# Propaganda to Hate:マルチエージェントLDMを用いたアラビアミームのマルチモーダル分析
Propaganda to Hate: A Multimodal Analysis of Arabic Memes with Multi-Agent LLMs ( http://arxiv.org/abs/2409.07246v1 ) ライセンス: Link先を確認 | Firoj Alam, Md. Rafiul Biswas, Uzair Shah, Wajdi Zaghouani, Georgios Mikros, | (参考訳) 過去10年間、ソーシャルメディアプラットフォームは情報発信と消費に使われてきた。
コンテンツの大部分は市民ジャーナリズムと大衆の認知を促進するために投稿されるが、一部のコンテンツは誤解を招くユーザーへ投稿される。
テキスト、画像、ビデオなどの様々なコンテンツタイプの中で、ミーム(画像上のテキストオーバーレイド)は特に一般的であり、プロパガンダ、憎悪、ユーモアの強力な乗り物として機能する。
現在の文献では、ミーム内の個々の内容を検出する努力がなされている。
しかし、それらの交叉の研究は非常に限られている。
本研究では,マルチエージェントLPMを用いた手法を用いて,ミームにおけるプロパガンダと憎悪の交点を探索する。
我々は、粗い、きめ細かい憎悪ラベルでプロパガンダ的なミームデータセットを拡張した。
我々の発見は、ミームにプロパガンダと憎悪の関連があることを示唆している。
今後の研究のベースラインとなるための詳細な実験結果を提供する。
実験的なリソースをコミュニティに公開します。
In the past decade, social media platforms have been used for information dissemination and consumption. While a major portion of the content is posted to promote citizen journalism and public awareness, some content is posted to mislead users. Among different content types such as text, images, and videos, memes (text overlaid on images) are particularly prevalent and can serve as powerful vehicles for propaganda, hate, and humor. In the current literature, there have been efforts to individually detect such content in memes. However, the study of their intersection is very limited. In this study, we explore the intersection between propaganda and hate in memes using a multi-agent LLM-based approach. We extend the propagandistic meme dataset with coarse and fine-grained hate labels. Our finding suggests that there is an association between propaganda and hate in memes. We provide detailed experimental results that can serve as a baseline for future studies. We will make the experimental resources publicly available to the community. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# フレキシブルパーソナライゼーションを備えたFederated $\mathcal{X}$-armed Bandit
Federated $\mathcal{X}$-armed Bandit with Flexible Personalisation ( http://arxiv.org/abs/2409.07251v1 ) ライセンス: Link先を確認 | Ali Arabzadeh, James A. Grant, David S. Leslie, | (参考訳) 本稿では,高度に異質な環境下での局所的目的とグローバル的目的の両方を最適化するという課題に対処するため,$\mathcal{X}$-armed banditフレームワーク内での個人化フェデレーション学習への新たなアプローチを提案する。
本手法では,個別のクライアント選好と集約されたグローバル知識を組み合わせた代理目的関数を用いて,個人化と集団学習の柔軟なトレードオフを実現する。
本稿では,対数的通信オーバヘッドによるサブ線形後悔を解消し,フェデレーション設定に適した位相ベースの除去アルゴリズムを提案する。
理論的解析と経験的評価は,既存手法と比較して提案手法の有効性を実証するものである。
この仕事の潜在的な応用は、医療、スマートホームデバイス、eコマースなど、さまざまな分野に及び、パーソナライゼーションとグローバルな洞察のバランスをとることが重要である。
This paper introduces a novel approach to personalised federated learning within the $\mathcal{X}$-armed bandit framework, addressing the challenge of optimising both local and global objectives in a highly heterogeneous environment. Our method employs a surrogate objective function that combines individual client preferences with aggregated global knowledge, allowing for a flexible trade-off between personalisation and collective learning. We propose a phase-based elimination algorithm that achieves sublinear regret with logarithmic communication overhead, making it well-suited for federated settings. Theoretical analysis and empirical evaluations demonstrate the effectiveness of our approach compared to existing methods. Potential applications of this work span various domains, including healthcare, smart home devices, and e-commerce, where balancing personalisation with global insights is crucial. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# 拡散モデルのアライメント:基礎・課題・将来
Alignment of Diffusion Models: Fundamentals, Challenges, and Future ( http://arxiv.org/abs/2409.07253v1 ) ライセンス: Link先を確認 | Buhua Liu, Shitong Shao, Bao Li, Lichen Bai, Haoyi Xiong, James Kwok, Sumi Helal, Zeke Xie, | (参考訳) 拡散モデルは生成モデルの主要なパラダイムとして登場し、様々な応用に優れています。
彼らの成功にもかかわらず、これらのモデルは、しばしば人間の意図に反し、テキストのプロンプトと一致しない、あるいは望ましい特性を持たない出力を生成する。
大規模言語モデルの調整におけるアライメントの成功に触発された最近の研究は、人間の期待や嗜好と拡散モデルの整合性について研究している。
この研究は、主に拡散モデルのアライメント、アライメントの基礎の進歩、拡散モデルのアライメント技術、選好ベンチマーク、拡散モデルの評価についてレビューする。
さらに,現在の課題に対する重要な視点と,拡散モデルのアライメントにおける残りの課題の解決に向けた今後の方向性について論じる。
我々の知識を最大限に活用するために、我々の研究は、拡散モデルの理解、実践、研究のアライメントを研究者やエンジニアが理解するための、初めての総合的なレビュー論文である。
Diffusion models have emerged as the leading paradigm in generative modeling, excelling in various applications. Despite their success, these models often misalign with human intentions, generating outputs that may not match text prompts or possess desired properties. Inspired by the success of alignment in tuning large language models, recent studies have investigated aligning diffusion models with human expectations and preferences. This work mainly reviews alignment of diffusion models, covering advancements in fundamentals of alignment, alignment techniques of diffusion models, preference benchmarks, and evaluation for diffusion models. Moreover, we discuss key perspectives on current challenges and promising future directions on solving the remaining challenges in alignment of diffusion models. To the best of our knowledge, our work is the first comprehensive review paper for researchers and engineers to comprehend, practice, and research alignment of diffusion models. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# EMOdiffhead:拡散による発話頭部生成における連続的感情制御
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion ( http://arxiv.org/abs/2409.07255v1 ) ライセンス: Link先を確認 | Jian Zhang, Weijian Mai, Zhijun Zhang, | (参考訳) 音声駆動のポートレートアニメーションの課題は、アイデンティティ画像と音声トラックを用いた音声ヘッドビデオを生成することである。
既存の多くのアプローチは、唇の同期とビデオの品質に重点を置いているが、感情駆動型トーキングヘッドビデオを生成するという課題に取り組むものはほとんどない。
感情をコントロールし、編集する能力は、表現的でリアルなアニメーションを作るのに不可欠である。
この課題に対応するために,感情のカテゴリや強度のきめ細かい制御を可能にするだけでなく,ワンショット生成も可能とする感情的頭部映像生成の新しい手法であるEMOdiffheadを提案する。
FLAME 3Dモデルの表現モデルにおける線形性を考えると、DEC法を用いて表現ベクトルを抽出し、音声と組み合わせることで、正確な唇同期とリッチな感情表現性を持つビデオを生成する拡散モデルを導出する。
このアプローチは、感情に無関係なデータから豊富な顔情報を学ぶだけでなく、感情的なビデオの生成を促進する。
これは、顔や背景情報の多様性の欠如のような感情データの限界を効果的に克服し、感情に関係のないデータにおける感情の詳細の欠如に対処する。
広汎な実験とユーザスタディにより,本手法が他の感情像アニメーション法と比較して最先端のパフォーマンスを実現することを示す。
The task of audio-driven portrait animation involves generating a talking head video using an identity image and an audio track of speech. While many existing approaches focus on lip synchronization and video quality, few tackle the challenge of generating emotion-driven talking head videos. The ability to control and edit emotions is essential for producing expressive and realistic animations. In response to this challenge, we propose EMOdiffhead, a novel method for emotional talking head video generation that not only enables fine-grained control of emotion categories and intensities but also enables one-shot generation. Given the FLAME 3D model's linearity in expression modeling, we utilize the DECA method to extract expression vectors, that are combined with audio to guide a diffusion model in generating videos with precise lip synchronization and rich emotional expressiveness. This approach not only enables the learning of rich facial information from emotion-irrelevant data but also facilitates the generation of emotional videos. It effectively overcomes the limitations of emotional data, such as the lack of diversity in facial and background information, and addresses the absence of emotional details in emotion-irrelevant data. Extensive experiments and user studies demonstrate that our approach achieves state-of-the-art performance compared to other emotion portrait animation methods. | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# MRACトラック1: 2nd Workshop on Multimodal, Generative and Responsible Affective Computing
MRAC Track 1: 2nd Workshop on Multimodal, Generative and Responsible Affective Computing ( http://arxiv.org/abs/2409.07256v1 ) ライセンス: Link先を確認 | Shreya Ghosh, Zhixi Cai, Abhinav Dhall, Dimitrios Kollias, Roland Goecke, Tom Gedeon, | (参考訳) マルチモーダル生成技術の急速な進歩により、Affective Computing Researchは感情知性を備えたAIシステムの潜在的な影響について議論した。
Affective Computingは、人々の生活を改善することを目的とした感情AIとその関連技術の設計、評価、実装を含む。
感情コンピューティングにおける計算モデルの設計には、RGB画像、ビデオ、オーディオ、テキスト、生理的信号を含む膨大な量のマルチモーダルデータが必要である。
さらに、Affective Computing Researchは、大規模人間のデータを感情的に知的なモデルに訓練することから、これらのモデルを特定のアプリケーションにデプロイすることまで、様々な段階における倫理的考察に深く関わっている。
基本的に、あらゆるAIシステムの開発は、人間の能力を高めて強化することを目的として、人間の知性から安全で責任ある方法でインスピレーションを導きながら、人間への影響を優先しなければならない。
MRAC 2024 Track 1ワークショップは、これらの原則を制御された小規模のラボ環境から現実の大規模コンテキストへと拡張し、責任ある開発を強調している。
ワークショップは、生成技術がもたらす潜在的な影響と、その使用による倫理的影響を研究者や産業専門家に強調することも目指している。
私たちの知る限りでは、このワークショップは、責任あるAIの観点から、マルチモーダルで生成的な感情的コンピューティングの全スペクトルを包括的に扱う最初のワークショップシリーズです。
Webページ: https://react-ws.github.io/2024/
With the rapid advancements in multimodal generative technology, Affective Computing research has provoked discussion about the potential consequences of AI systems equipped with emotional intelligence. Affective Computing involves the design, evaluation, and implementation of Emotion AI and related technologies aimed at improving people's lives. Designing a computational model in affective computing requires vast amounts of multimodal data, including RGB images, video, audio, text, and physiological signals. Moreover, Affective Computing research is deeply engaged with ethical considerations at various stages-from training emotionally intelligent models on large-scale human data to deploying these models in specific applications. Fundamentally, the development of any AI system must prioritize its impact on humans, aiming to augment and enhance human abilities rather than replace them, while drawing inspiration from human intelligence in a safe and responsible manner. The MRAC 2024 Track 1 workshop seeks to extend these principles from controlled, small-scale lab environments to real-world, large-scale contexts, emphasizing responsible development. The workshop also aims to highlight the potential implications of generative technology, along with the ethical consequences of its use, to researchers and industry professionals. To the best of our knowledge, this is the first workshop series to comprehensively address the full spectrum of multimodal, generative affective computing from a responsible AI perspective, and this is the second iteration of this workshop. Webpage: https://react-ws.github.io/2024/ | 翻訳日:2024-09-12 14:35:46 公開日:2024-09-11 |
# TopoMap++: トポロジカル保証付きプロジェクションを高速かつより空間効率で計算するテクニック
TopoMap++: A faster and more space efficient technique to compute projections with topological guarantees ( http://arxiv.org/abs/2409.07257v1 ) ライセンス: Link先を確認 | Vitoria Guardieiro, Felipe Inagaki de Oliveira, Harish Doraiswamy, Luis Gustavo Nonato, Claudio Silva, | (参考訳) 多くの特徴を特徴とする高次元データは、効果的に視覚化することが困難である。
PCA、UMAP、t-SNEなどの次元減少技術は、データを低次元空間に投影し、重要な関係を保ちながらこの問題に対処する。
TopoMapは、データの基盤構造を保存するのに優れた別のテクニックで、解釈可能な視覚化につながります。
特に、TopoMapは高次元データを視覚空間にマッピングし、視覚空間のリプス濾過の0次元永続図が高次元データと一致することを保証している。
しかし、オリジナルのTopoMapアルゴリズムは遅く、レイアウトは大規模で複雑なデータセットでは小さすぎる可能性がある。
本稿では,TopoMapの3つの改良点を提案する。
1) より空間効率の良いレイアウト。
2) 大幅に高速な実装、そして
3) プロジェクションの探索を支援するためにトポロジ階層を利用する新しいツリーマップベースの表現。
これらの進歩により、TopoMap++と呼ばれるTopoMap++は、さまざまなユースケースシナリオで示すような、高次元データを視覚化するための、より強力なツールになります。
High-dimensional data, characterized by many features, can be difficult to visualize effectively. Dimensionality reduction techniques, such as PCA, UMAP, and t-SNE, address this challenge by projecting the data into a lower-dimensional space while preserving important relationships. TopoMap is another technique that excels at preserving the underlying structure of the data, leading to interpretable visualizations. In particular, TopoMap maps the high-dimensional data into a visual space, guaranteeing that the 0-dimensional persistence diagram of the Rips filtration of the visual space matches the one from the high-dimensional data. However, the original TopoMap algorithm can be slow and its layout can be too sparse for large and complex datasets. In this paper, we propose three improvements to TopoMap: 1) a more space-efficient layout, 2) a significantly faster implementation, and 3) a novel TreeMap-based representation that makes use of the topological hierarchy to aid the exploration of the projections. These advancements make TopoMap, now referred to as TopoMap++, a more powerful tool for visualizing high-dimensional data which we demonstrate through different use case scenarios. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# マルチディレクト音素レベルBERTを用いたピッチアクセント言語におけるクロスディレクトテキスト音声合成
Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT ( http://arxiv.org/abs/2409.07265v1 ) ライセンス: Link先を確認 | Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari, | (参考訳) 本研究では,非母語方言,特にピッチアクセント言語において,学習した話者の声を合成するクロスディレクトテキスト・トゥ・音声(CD-TTS)について検討する。
CD-TTSは、地域の人々と自然にコミュニケーションする音声エージェントを開発する上で重要である。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
まず,音素レベルのアクセント潜在変数(ALV)を基準エンコーダで抽出したテキストから方言音声を合成するために,バックボーンTSモデルを訓練する。
そして、新たな多言語音素レベルBERTを利用した入力テキストから、ターゲット方言に適したALVを予測するために、ALV予測器を訓練する。
我々は,従来の方言TS法から派生したベースラインと比較し,多言語TS実験を行い,その有効性を評価する。
その結果,CD-TTSにおける合成音声の弁証的自然性の向上が示唆された。
We explore cross-dialect text-to-speech (CD-TTS), a task to synthesize learned speakers' voices in non-native dialects, especially in pitch-accent languages. CD-TTS is important for developing voice agents that naturally communicate with people across regions. We present a novel TTS model comprising three sub-modules to perform competitively at this task. We first train a backbone TTS model to synthesize dialect speech from a text conditioned on phoneme-level accent latent variables (ALVs) extracted from speech by a reference encoder. Then, we train an ALV predictor to predict ALVs tailored to a target dialect from input text leveraging our novel multi-dialect phoneme-level BERT. We conduct multi-dialect TTS experiments and evaluate the effectiveness of our model by comparing it with a baseline derived from conventional dialect TTS methods. The results show that our model improves the dialectal naturalness of synthetic speech in CD-TTS. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# MiniDrive: 自動運転のためのテキストトークンとしてマルチレベル2D機能を備えた高効率ビジョンランゲージモデル
MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving ( http://arxiv.org/abs/2409.07267v1 ) ライセンス: Link先を確認 | Enming Zhang, Xingyuan Dai, Yisheng Lv, Qianghai Miao, | (参考訳) 視覚言語モデル(VLM)は、自律運転における汎用エンド・ツー・エンド・モデルとして機能し、質問と回答の相互作用を通じて予測、計画、知覚などのサブタスクを実行する。
しかし、既存のほとんどの手法は計算に高価なビジュアルエンコーダと大規模言語モデル(LLM)に依存しており、現実のシナリオやリアルタイムアプリケーションへのデプロイが困難である。
一方、既存のVLMには複数の画像を処理する能力がないため、自律運転におけるマルチカメラの認識に適応することが困難である。
これらの問題に対処するために,提案したFE-MoEモジュールと動的命令適応器(DI-Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
FE-MoEは、言語モデルに入力される前に、2D機能を視覚トークンの埋め込みに効果的にマッピングする。
DI-Adapterは、ビジュアルトークンの埋め込みを命令テキストの埋め込みで動的に変更することを可能にし、以前のアプローチで同じイメージに対する静的なビジュアルトークンの埋め込みの問題を解決する。
これまでの作業と比較すると、MiniDriveはパラメータサイズ、浮動小数点演算、レスポンス効率の点で最先端のパフォーマンスを実現しており、最小のバージョンは83Mパラメータのみである。
Vision-language models (VLMs) serve as general-purpose end-to-end models in autonomous driving, performing subtasks such as prediction, planning, and perception through question-and-answer interactions. However, most existing methods rely on computationally expensive visual encoders and large language models (LLMs), making them difficult to deploy in real-world scenarios and real-time applications. Meanwhile, most existing VLMs lack the ability to process multiple images, making it difficult to adapt to multi-camera perception in autonomous driving. To address these issues, we propose a novel framework called MiniDrive, which incorporates our proposed Feature Engineering Mixture of Experts (FE-MoE) module and Dynamic Instruction Adapter (DI-Adapter). The FE-MoE effectively maps 2D features into visual token embeddings before being input into the language model. The DI-Adapter enables the visual token embeddings to dynamically change with the instruction text embeddings, resolving the issue of static visual token embeddings for the same image in previous approaches. Compared to previous works, MiniDrive achieves state-of-the-art performance in terms of parameter size, floating point operations, and response efficiency, with the smallest version containing only 83M parameters. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# マルチタイプ選好学習:平等選好による選好に基づく強化学習の活用
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences ( http://arxiv.org/abs/2409.07268v1 ) ライセンス: Link先を確認 | Ziang Liu, Junjie Xu, Xingjiao Wu, Jing Yang, Liang He, | (参考訳) 嗜好に基づく強化学習(PBRL)は、厳密に設計された報酬関数を必要とせず、エージェント行動に関する人間の教師の嗜好から直接学習する。
しかし、既存のPBRL法は主に明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
この無視は、教師のタスクパースペクティブに対するエージェントの理解を妨げ、重要な情報が失われる可能性がある。
この問題に対処するために、ニューラルネットワークを最適化するEqual Preference Learning Taskを導入する。
そこで本研究では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
提案手法の有効性を検証するため,DeepMind Control Suiteの10の移動作業およびロボット操作作業において,MTPLを既存の4つのベースラインに適用する実験を設計した。
その結果,PBRL法は教師からのフィードバックをより包括的に理解し,フィードバック効率を向上させることができることがわかった。
Preference-Based reinforcement learning (PBRL) learns directly from the preferences of human teachers regarding agent behaviors without needing meticulously designed reward functions. However, existing PBRL methods often learn primarily from explicit preferences, neglecting the possibility that teachers may choose equal preferences. This neglect may hinder the understanding of the agent regarding the task perspective of the teacher, leading to the loss of important information. To address this issue, we introduce the Equal Preference Learning Task, which optimizes the neural network by promoting similar reward predictions when the behaviors of two agents are labeled as equal preferences. Building on this task, we propose a novel PBRL method, Multi-Type Preference Learning (MTPL), which allows simultaneous learning from equal preferences while leveraging existing methods for learning from explicit preferences. To validate our approach, we design experiments applying MTPL to four existing state-of-the-art baselines across ten locomotion and robotic manipulation tasks in the DeepMind Control Suite. The experimental results indicate that simultaneous learning from both equal and explicit preferences enables the PBRL method to more comprehensively understand the feedback from teachers, thereby enhancing feedback efficiency. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 現実的で効率的な顔スワッピング:拡散モデルを用いた統一アプローチ
Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models ( http://arxiv.org/abs/2409.07269v1 ) ライセンス: Link先を確認 | Sanoojan Baliah, Qinliang Lin, Shengcai Liao, Xiaodan Liang, Muhammad Haris Khan, | (参考訳) 顔のスワップ作業の有望な進歩にもかかわらず、現実的なスワップ画像は、しばしばアーティファクトによってマージされ、特に高いポーズの変化、色の違い、オクルージョンを含むシナリオにおいて、解明され続けている。
これらの課題に対処するため,本研究では,下記のコアコントリビューションを施すことにより,フェイススワッピングの拡散モデルを改善する新しいアプローチを提案する。
(a)フェース・スワッピング・タスクを自己監督型・列車時塗装問題として再編成し,対象画像とブレンドしながらアイデンティティ・トランスファーを向上させることを提案する。
(b)訓練中の多段階拡散インプリシットモデル(DDIM)のサンプリング,アイデンティティの強化,知覚的類似性について紹介する。
第三に,対象画像からポーズ,表情,照明情報を抽出し,忠実度を向上させるためにCLIP機能障害を導入する。
さらに,塗装訓練中にマスクシャッフル技術を導入し,ヘッドスワップの付加機能を備えた,いわゆるユニバーサルスワップモデルの構築を可能にする。
髪やアクセサリーも交換できるし、顔の交換もできる。
複数のオフ・ザ・シェルフモデルに依存した以前の作業とは異なり、我々の手法は比較的統一されたアプローチであり、他のオフ・ザ・シェルフモデルにおけるエラーに対して耐性がある。
FFHQとCelebAデータセットの大規模な実験は、我々のアプローチの有効性と堅牢性を検証し、最小の推論時間で、高忠実でリアルなフェイススワッピングを示す。
私たちのコードはhttps://github.com/Sanoojan/REFace.comで公開されています。
Despite promising progress in face swapping task, realistic swapped images remain elusive, often marred by artifacts, particularly in scenarios involving high pose variation, color differences, and occlusion. To address these issues, we propose a novel approach that better harnesses diffusion models for face-swapping by making following core contributions. (a) We propose to re-frame the face-swapping task as a self-supervised, train-time inpainting problem, enhancing the identity transfer while blending with the target image. (b) We introduce a multi-step Denoising Diffusion Implicit Model (DDIM) sampling during training, reinforcing identity and perceptual similarities. (c) Third, we introduce CLIP feature disentanglement to extract pose, expression, and lighting information from the target image, improving fidelity. (d) Further, we introduce a mask shuffling technique during inpainting training, which allows us to create a so-called universal model for swapping, with an additional feature of head swapping. Ours can swap hair and even accessories, beyond traditional face swapping. Unlike prior works reliant on multiple off-the-shelf models, ours is a relatively unified approach and so it is resilient to errors in other off-the-shelf models. Extensive experiments on FFHQ and CelebA datasets validate the efficacy and robustness of our approach, showcasing high-fidelity, realistic face-swapping with minimal inference time. Our code is available at https://github.com/Sanoojan/REFace. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 単一量子系における再スケーリング変換とグロタンディーク境界形式
Rescaling transformations and the Grothendieck bound formalism in a single quantum system ( http://arxiv.org/abs/2409.07270v1 ) ライセンス: Link先を確認 | A. Vourdas, | (参考訳) グロテディーク境界形式は、単一量子系の文脈において「再スケーリング変換」を用いて研究される。
再スケーリング変換はユニタリ変換の集合を拡大し(これは孤立系に適用される)、位相だけでなく波動関数の絶対値も変化し、可逆現象(量子トンネル、減衰、増幅など)と関連付けることができる。
再スケーリング変換の特別な例は、ヒルベルト空間の形式主義をスカラーの形式主義に写す等化変換である。
グロタンディーク形式主義は、「古典的」二次形式 ${\cal C}(\theta)$ は1ドル未満の値を取るものであり、対応する「量子的」二次形式 ${\cal Q}(\theta)$ は複素グロタンディーク定数 $k_G$ まで1ドル以上の値を取る。
これは、${\cal Q}(\theta)$ を 2 つの再スケーリング行列を持つ $\theta$ の積のトレースとして表現でき、${\cal C}(\theta)$ を 2 つのデクォート化行列を持つ $\theta$ の積のトレースとして表現できることを示している。
ultra-quantum'領域における${\cal Q}(\theta)$の値(1,k_G)$は非常に重要であり、この領域は古典的に禁じられている({\cal C}(\theta)$は値を取ることができない)。
例えば、${\cal Q}(\theta)\in (1,k_G)$ は、古典的に空間の高ポテンシャル領域によって孤立された現象と関連付けられ、量子トンネルを通して伝達される。
他の例では、グロタンディーク形式(英語版)({\cal Q}(\theta)\in (1,k_G)$)による 'ultra-quantumness' は他の基準(量子干渉や不確実性原理など)によって量子性とは異なることを示している。
The Grothedieck bound formalism is studied using `rescaling transformations', in the context of a single quantum system. The rescaling transformations enlarge the set of unitary transformations (which apply to isolated systems), with transformations that change not only the phase but also the absolute value of the wavefunction, and can be linked to irreversible phenomena (e.g., quantum tunnelling, damping and amplification, etc). A special case of rescaling transformations are the dequantisation transformations, which map a Hilbert space formalism into a formalism of scalars. The Grothendieck formalism considers a `classical' quadratic form ${\cal C}(\theta)$ which takes values less than $1$, and the corresponding `quantum' quadratic form ${\cal Q}(\theta)$ which takes values greater than $1$, up to the complex Grothendieck constant $k_G$. It is shown that ${\cal Q}(\theta)$ can be expressed as the trace of the product of $\theta$ with two rescaling matrices, and ${\cal C}(\theta)$ can be expressed as the trace of the product of $\theta$ with two dequantisation matrices. Values of ${\cal Q}(\theta)$ in the `ultra-quantum' region $(1,k_G)$ are very important, because this region is classically forbidden (${\cal C}(\theta)$ cannot take values in it). An example with ${\cal Q}(\theta)\in (1,k_G)$ is given, which is related to phenomena where classically isolated by high potentials regions of space, communicate through quantum tunnelling. Other examples show that `ultra-quantumness' according to the Grothendieck formalism (${\cal Q}(\theta)\in (1,k_G)$), is different from quantumness according to other criteria (like quantum interference or the uncertainty principle). | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# CCFExp: 顔面麻痺者に対する周期的クロスフュージョン拡散モデルを用いた顔面画像合成
CCFExp: Facial Image Synthesis with Cycle Cross-Fusion Diffusion Model for Facial Paralysis Individuals ( http://arxiv.org/abs/2409.07271v1 ) ライセンス: Link先を確認 | Weixiang Gao, Yifan Xia, | (参考訳) 顔面麻痺は顔面筋の運動に影響を及ぼす不安定な状態であり、表情が著しく低下する。
現在、顔面麻痺の診断は難しい課題であり、しばしば臨床医の主観的判断と経験に大きく依存しており、評価過程の多様性と不確実性をもたらす可能性がある。
現実の状況における有望な応用の1つは、顔面麻痺の自動推定である。
しかし、顔の麻痺データセットの不足は、自動診断と治療介入のための堅牢な機械学習モデルの開発を制限している。
本研究の目的は、このギャップに対処するために高品質な顔面麻痺データセットを合成し、より正確で効率的なアルゴリズムトレーニングを可能にすることである。
具体的には、拡散モデルに基づく新しいサイクルクロスフュージョン表現生成モデル(CCFExp)を提案し、顔情報の異なる特徴を組み合わせ、顔領域における顔の外観とテクスチャの視覚的詳細を強化する。
本手法の有効性を実証するために, 一般的に用いられている顔面麻痺の公立臨床データセットについて, 質的, 定量的に評価を行った。
実験結果から,提案手法は最先端の手法を超越し,よりリアルな顔画像を生成し,アイデンティティの整合性を維持することが示唆された。
Facial paralysis is a debilitating condition that affects the movement of facial muscles, leading to a significant loss of facial expressions. Currently, the diagnosis of facial paralysis remains a challenging task, often relying heavily on the subjective judgment and experience of clinicians, which can introduce variability and uncertainty in the assessment process. One promising application in real-life situations is the automatic estimation of facial paralysis. However, the scarcity of facial paralysis datasets limits the development of robust machine learning models for automated diagnosis and therapeutic interventions. To this end, this study aims to synthesize a high-quality facial paralysis dataset to address this gap, enabling more accurate and efficient algorithm training. Specifically, a novel Cycle Cross-Fusion Expression Generative Model (CCFExp) based on the diffusion model is proposed to combine different features of facial information and enhance the visual details of facial appearance and texture in facial regions, thus creating synthetic facial images that accurately represent various degrees and types of facial paralysis. We have qualitatively and quantitatively evaluated the proposed method on the commonly used public clinical datasets of facial paralysis to demonstrate its effectiveness. Experimental results indicate that the proposed method surpasses state-of-the-art methods, generating more realistic facial images and maintaining identity consistency. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# RePlay: 実験と生産のための推奨フレームワーク
RePlay: a Recommendation Framework for Experimentation and Production Use ( http://arxiv.org/abs/2409.07272v1 ) ライセンス: Link先を確認 | Alexey Vasilev, Anna Volodkevich, Denis Kulandin, Tatiana Bysheva, Anton Klenitskiy, | (参考訳) 推奨システムの構築と比較に1つのツールを使用すると、新しいモデルの市場投入までの時間が大幅に削減される。
さらに、このようなツールを使用する場合の比較結果は、より一貫性があるように見える。
そのため、リコメンデーション分野の研究者のための様々なツールやライブラリが最近登場した。
残念なことに、これらのフレームワークのほとんどは主に研究者を対象としており、大規模なデータセットや不適切なアーキテクチャで作業できないため、本番環境での使用のために修正が必要である。
このデモでは、オープンソースのツールキットであるRePlayを紹介します。
RePlayはまた、各ステージでパイプラインに適したスタック(Pandas、Polars、Spark)を使用することもできる。
これにより、ライブラリは計算をスケールし、クラスタにデプロイできる。
したがって、RePlayはデータサイエンティストが同じインターフェイスを使って簡単に研究モードからプロダクションモードに移行することを可能にする。
Using a single tool to build and compare recommender systems significantly reduces the time to market for new models. In addition, the comparison results when using such tools look more consistent. This is why many different tools and libraries for researchers in the field of recommendations have recently appeared. Unfortunately, most of these frameworks are aimed primarily at researchers and require modification for use in production due to the inability to work on large datasets or an inappropriate architecture. In this demo, we present our open-source toolkit RePlay - a framework containing an end-to-end pipeline for building recommender systems, which is ready for production use. RePlay also allows you to use a suitable stack for the pipeline on each stage: Pandas, Polars, or Spark. This allows the library to scale computations and deploy to a cluster. Thus, RePlay allows data scientists to easily move from research mode to production mode using the same interfaces. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 帰納規則化によるオンラインロバスト主成分分析のチューニング自由化
Tuning-Free Online Robust Principal Component Analysis through Implicit Regularization ( http://arxiv.org/abs/2409.07275v1 ) ライセンス: Link先を確認 | Lakshmi Jayalal, Gokularam Muthukrishnan, Sheetal Kalyani, | (参考訳) 標準オンラインロバスト主成分分析(OR-PCA)技術の性能は、明示的正規化器の最適チューニングに依存し、このチューニングはデータセットに敏感である。
暗黙の正規化を用いて、これらのチューニングパラメータへの依存を取り除くことを目指している。
本稿では,修正勾配降下の暗黙的正則化効果を利用して,OR-PCAチューニングを自由にすることを提案する。
本手法では,データ中の疎度と低ランク構造を自然に促進する修正勾配勾配勾配の3つの異なるバージョンを別々に導入する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、チューニングされたOR-PCAに匹敵するか、あるいは優れている。
チューニング不要なORPCAは、データセット依存のパラメータチューニングを必要としないため、大規模なデータセットに対してよりスケーラブルになります。
The performance of the standard Online Robust Principal Component Analysis (OR-PCA) technique depends on the optimum tuning of the explicit regularizers and this tuning is dataset sensitive. We aim to remove the dependency on these tuning parameters by using implicit regularization. We propose to use the implicit regularization effect of various modified gradient descents to make OR-PCA tuning free. Our method incorporates three different versions of modified gradient descent that separately but naturally encourage sparsity and low-rank structures in the data. The proposed method performs comparable or better than the tuned OR-PCA for both simulated and real-world datasets. Tuning-free ORPCA makes it more scalable for large datasets since we do not require dataset-dependent parameter tuning. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 周期境界を持つ系における非エルミタンバルク境界対応のプローブとしての絡み合いスペクトルダイナミクス
Entanglement Spectrum Dynamics as a Probe for Non-Hermitian Bulk-Boundary Correspondence in Systems with Periodic Boundaries ( http://arxiv.org/abs/2409.07279v1 ) ライセンス: Link先を確認 | Pablo Bayona-Pena, Ryo Hanai, Takashi Mori, Hisao Hayakawa, | (参考訳) 開放量子系は、非エルミティアス/リウヴィリアスキン効果(NHSE/LSE)として知られる境界条件に対して強いスペクトル感度を示し、系境界条件の位相的特性を敏感にすることが最近確立された。
開境界条件付き不変量によって捉えられた開量子系の位相的位相遷移は、NHSE/LSEの存在下であっても、周期境界条件下で系の力学で観測できるのか?
我々は、周期的オープン量子フェルミオン系における絡み合いスペクトルのクエンチダイナミクスを考慮し、この問題に肯定的に対応した。
交絡スペクトルは、LSEを含むシステムにおいても、開境界条件のスペクトルから定義される位相的に自明な位相から非自明な位相まで、この周期系が焼成される場合にのみゼロ交叉を示すことを示す。
この結果から、非エルミート位相はフェルミオン系のサブシステム内の非条件動力学に顕著なインプリントを残していることが明らかとなった。
It has recently been established that open quantum systems may exhibit a strong spectral sensitivity to boundary conditions, known as the non-Hermitian/Liouvillian skin effect (NHSE/LSE), making the topological properties of the system boundary-condition sensitive. In this Letter, we ask the query: Can topological phase transitions of open quantum systems, captured by open boundary conditioned invariants, be observed in the dynamics of a system in a periodic boundary condition, even in the presence of NHSE/LSE? We affirmatively respond to this question, by considering the quench dynamics of entanglement spectrum in a periodic open quantum fermionic system. We demonstrate that the entanglement spectrum exhibits zero-crossings only when this periodic system is quenched from a topologically trivial to non-trivial phase, defined from the spectrum in open boundary conditions, even in systems featuring LSE. Our results reveal that non-Hermitian topological phases leave a distinctive imprint on the unconditional dynamics within a subsystem of fermionic systems. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 長距離絡み合う状態に対する変分LOCC支援量子回路
Variational LOCC-assisted quantum circuits for long-range entangled states ( http://arxiv.org/abs/2409.07281v1 ) ライセンス: Link先を確認 | Yuxuan Yan, Muzhou Ma, You Zhou, Xiongfeng Ma, | (参考訳) 長距離の絡み合いは重要な量子資源であり、特にトポロジカルな順序と量子エラー補正のために重要である。
実際には、長距離の絡み合った状態を作るには深いユニタリ回路が必要である。
有望な道は、いくつかの量子資源を局所的な演算と古典的な通信(LOCC)に置き換えることによって提供される。
これらの古典的成分により、システムの遠隔部分における中間回路計測からの情報を伝えることができ、多くの重要なケースにおいて回路深さが大幅に減少する。
しかし、一般的な長距離絡み合う状態を作るために、LOCCによる短い深さの回路を見つけることは未解決の問題である。
ここでは、パラメータ化されたLOCCプロトコルに基づいて、与えられたハミルトンの基底状態を見つけるために量子古典ハイブリッドアルゴリズムを提案する。
パラメータ勾配を推定するための効率的なプロトコルを導入し、そのような勾配を変分最適化に利用する。
理論的には,バレン高原が存在しない場合の条件を確立し,大規模システムでのトレーニング性を確保する。
数値的には、このアルゴリズムは摂動GHZ状態や表面符号などの長距離絡み合ったモデルの基底状態を正確に解く。
本研究は,従来の一元変分回路よりも推定基底状態エネルギーを精度よく推定するアルゴリズムの実用的利点と,長距離絡み込みの理論的利点を明らかにした。
Long-range entanglement is an important quantum resource, especially for topological orders and quantum error correction. In reality, preparing long-range entangled states requires a deep unitary circuit, which poses significant experimental challenges. A promising avenue is offered by replacing some quantum resources with local operations and classical communication (LOCC). With these classical components, one can communicate information from mid-circuit measurements in distant parts of the system, which results in a substantial reduction of circuit depth in many important cases. However, to prepare general long-range entangled states, finding LOCC-assisted circuits of a short depth remains an open question. Here, we address such a challenge by proposing a quantum-classical hybrid algorithm to find ground states of given Hamiltonians based on parameterized LOCC protocols. We introduce an efficient protocol for estimating parameter gradients and use such gradients for variational optimization. Theoretically, we establish the conditions for the absence of barren plateaus, ensuring trainability at a large system size. Numerically, the algorithm accurately solves the ground state of long-range entangled models, such as the perturbed GHZ state and surface code. Our results clearly demonstrate the practical advantage of our algorithm in the accuracy of estimated ground state energy over conventional unitary variational circuits, as well as the theoretical advantage in creating long-range entanglement. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 110]および[100]シリコンナノワイヤにおける低温電子輸送:DFT-モンテカルロ法による研究
Low-Temperature Electron Transport in [110] and [100] Silicon Nanowires: A DFT - Monte Carlo study ( http://arxiv.org/abs/2409.07282v1 ) ライセンス: Link先を確認 | Daryoush Shiri, Reza Nekovei, Amit Verma, | (参考訳) 超低温が[110]および[100]軸配向シリコンナノワイヤ(SiNW)の電子輸送に及ぼす影響を調べた。
半経験的10軌道強結合法、密度汎関数理論(DFT)とエンサンブルモンテカルロ法(EMC)の組み合わせを用いる。
音響および光フォノンは、サブバンド内およびサブバンド間の両方の事象をカバーする電子-フォノン散乱率計算に含まれる。
室温(300K)特性と比較すると、両ナノワイヤの平均電子定常ドリフト速度は、比較的適度な電場と低い温度で少なくとも2倍増加する。
さらに, [110] ナノワイヤの平均ドリフト速度は, [100] ナノワイヤの50%以上であり, 導電サブバンド有効質量の違いによって説明できる。
過渡平均電子速度は、低温では電子-フォノン散乱速度の低下に起因する顕著なストリーミング電子運動が存在することを示唆している。
The effects of very low temperature on the electron transport in a [110] and [100] axially aligned unstrained silicon nanowires (SiNWs) are investigated. A combination of semi-empirical 10-orbital tight-binding method, density functional theory (DFT), and Ensemble Monte Carlo (EMC) methods are used. Both acoustic and optical phonons are included in the electron-phonon scattering rate calculations covering both intra-subband and inter-subband events. A comparison with room temperature (300 K) characteristics shows that for both nanowires, the average electron steady-state drift velocity increases at least 2 times at relatively moderate electric fields and lower temperatures. Furthermore, the average drift velocity in [110] nanowires is 50 percent more than that of [100] nanowires, explained by the difference in their conduction subband effective mass. Transient average electron velocity suggests that there is a pronounced streaming electron motion at low temperature which is attributed to the reduced electron-phonon scattering rates. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# TLD-READY: 交通光検出 -- 関連推定と展開分析
TLD-READY: Traffic Light Detection -- Relevance Estimation and Deployment Analysis ( http://arxiv.org/abs/2409.07284v1 ) ライセンス: Link先を確認 | Nikolai Polley, Svetlana Pavlitska, Yacin Boualili, Patrick Rohrbeck, Paul Stiller, Ashok Kumar Bangaru, J. Marius Zöllner, | (参考訳) 効率的な交通信号検出は、自動運転車における知覚スタックの重要な構成要素である。
本研究は,先行研究の課題に対処しつつ,新たなディープラーニング検出システムを導入する。
Bosch Small Traffic Lights Dataset、LISA、DriveU Traffic Light Dataset、Karlsruheのプロプライエタリなデータセットなど、包括的なデータセットの集約を利用して、さまざまなシナリオにわたって堅牢な評価を保証します。
さらに,道路上の矢印マークを革新的に利用し,事前地図作成の必要性を解消する関連性推定システムを提案する。
DriveUデータセットでは、このアプローチにより、関連性推定の精度が96%になる。
最後に、これらのモデルの展開と一般化能力を評価するために、実世界の評価を行う。
再現性とさらなる研究を促進するために、私たちはモデルウェイトとコードを提供しています。
Effective traffic light detection is a critical component of the perception stack in autonomous vehicles. This work introduces a novel deep-learning detection system while addressing the challenges of previous work. Utilizing a comprehensive dataset amalgamation, including the Bosch Small Traffic Lights Dataset, LISA, the DriveU Traffic Light Dataset, and a proprietary dataset from Karlsruhe, we ensure a robust evaluation across varied scenarios. Furthermore, we propose a relevance estimation system that innovatively uses directional arrow markings on the road, eliminating the need for prior map creation. On the DriveU dataset, this approach results in 96% accuracy in relevance estimation. Finally, a real-world evaluation is performed to evaluate the deployment and generalizing abilities of these models. For reproducibility and to facilitate further research, we provide the model weights and code: https://github.com/KASTEL-MobilityLab/traffic-light-detection. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# ジェネレーティブエージェントを用いた調査データレポーティングのためのチップシートの作成
Using Generative Agents to Create Tip Sheets for Investigative Data Reporting ( http://arxiv.org/abs/2409.07286v1 ) ライセンス: Link先を確認 | Joris Veerbeek, Nicholas Diakopoulos, | (参考訳) 本稿では、生成型AIエージェントを用いて、調査データレポートのためのチップシートを作成するシステムを提案する。
本システムでは,アナリスト,レポーター,編集者の3つの専門エージェントを用いて,データセットからヒントを共同で生成・精査する。
エージェントベースシステムでは,エージェントのないベースラインモデルと比較して,一般的にニュースに相応しい,正確な洞察が得られている。
我々の発見は、調査データレポートの手がかりを提供するための生成AIの可能性を強調した。
This paper introduces a system using generative AI agents to create tip sheets for investigative data reporting. Our system employs three specialized agents--an analyst, a reporter, and an editor--to collaboratively generate and refine tips from datasets. We validate this approach using real-world investigative stories, demonstrating that our agent-based system generally generates more newsworthy and accurate insights compared to a baseline model without agents, although some variability was noted between different stories. Our findings highlight the potential of generative AI to provide leads for investigative data reporting. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 拡散プリミティブによるユーザレベルのグラディエントインバージョンの検討
Exploring User-level Gradient Inversion with a Diffusion Prior ( http://arxiv.org/abs/2409.07291v1 ) ライセンス: Link先を確認 | Zhuohang Li, Andrew Lowy, Jing Liu, Toshiaki Koike-Akino, Bradley Malin, Kieran Parsons, Ye Wang, | (参考訳) 分散学習における新たなアタックサーフェスとして,ユーザレベルの勾配インバージョンを検討する。
まず、トレーニングデータ再構成以上のプライベート情報を推測する能力に対する既存の攻撃について検討する。
既存手法の再構築品質の低さを背景として,大規模なバッチ設定の回復性を高めるために,デノナイジング拡散モデルを強い画像として適用した新たな勾配逆転攻撃を提案する。
個々のサンプルを再構築し,大規模なバッチや画像サイズに苦しむ従来の攻撃とは違って,本手法では,ユーザに対応する機密性の高い共有セマンティック情報をキャプチャする代表画像の復元が目的である。
顔画像を用いた実験では,実際の顔画像と個人属性を再現する手法が実証された。
We explore user-level gradient inversion as a new attack surface in distributed learning. We first investigate existing attacks on their ability to make inferences about private information beyond training data reconstruction. Motivated by the low reconstruction quality of existing methods, we propose a novel gradient inversion attack that applies a denoising diffusion model as a strong image prior in order to enhance recovery in the large batch setting. Unlike traditional attacks, which aim to reconstruct individual samples and suffer at large batch and image sizes, our approach instead aims to recover a representative image that captures the sensitive shared semantic information corresponding to the underlying user. Our experiments with face images demonstrate the ability of our methods to recover realistic facial images along with private user attributes. | 翻訳日:2024-09-12 14:25:47 公開日:2024-09-11 |
# 自己学習のための一貫したコントラスト損失
A Unified Contrastive Loss for Self-Training ( http://arxiv.org/abs/2409.07292v1 ) ライセンス: Link先を確認 | Aurelien Gauffre, Julien Horvat, Massih-Reza Amini, | (参考訳) 自己学習法は、ラベル付きデータが不足している場合に、半教師付き学習において、豊富なラベル付きデータを利用するのに有効であることが証明されている。
これらの手法の多くはクロスエントロピー損失関数(CE)に依存しているが、近年の進歩により、教師付きコントラスト損失関数(SupCon)の方が効果的であることが示されている。
さらに、教師なしのコントラスト学習アプローチでは、教師なしの環境で高品質なデータ表現をキャプチャすることも示されている。
半教師付き環境でのこれらの利点を生かし、CE損失の全ての事例をユニークな対照的な損失に置き換える自己学習手法を強化するための一般的な枠組みを提案する。
クラスワイドトレーニング可能なパラメータの集合であるクラスプロトタイプを用いて、CE設定の確率分布を復元し、それと理論的等価性を示す。
我々のフレームワークは、一般的な自己学習手法に適用すると、ラベル付きデータに制限のある3つの異なるデータセット間で、大幅なパフォーマンス向上をもたらす。
さらに, 収束速度, 伝達能力, ハイパーパラメータ安定性のさらなる向上を示す。
コードは \url{https://github.com/AurelienGauffre/semisupcon/} で公開されている。
Self-training methods have proven to be effective in exploiting abundant unlabeled data in semi-supervised learning, particularly when labeled data is scarce. While many of these approaches rely on a cross-entropy loss function (CE), recent advances have shown that the supervised contrastive loss function (SupCon) can be more effective. Additionally, unsupervised contrastive learning approaches have also been shown to capture high quality data representations in the unsupervised setting. To benefit from these advantages in a semi-supervised setting, we propose a general framework to enhance self-training methods, which replaces all instances of CE losses with a unique contrastive loss. By using class prototypes, which are a set of class-wise trainable parameters, we recover the probability distributions of the CE setting and show a theoretical equivalence with it. Our framework, when applied to popular self-training methods, results in significant performance improvements across three different datasets with a limited number of labeled data. Additionally, we demonstrate further improvements in convergence speed, transfer ability, and hyperparameter stability. The code is available at \url{https://github.com/AurelienGauffre/semisupcon/}. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# PaveSAM Segment Anything for Pavement Distress
PaveSAM Segment Anything for Pavement Distress ( http://arxiv.org/abs/2409.07295v1 ) ライセンス: Link先を確認 | Neema Jakisa Owor, Yaw Adu-Gyamfi, Armstrong Aboah, Mark Amo-Boateng, | (参考訳) コンピュータビジョンを用いた自動舗装監視は、手動の手法よりも効率的に正確に舗装条件を解析することができる。
正確なセグメンテーションは、舗装欠陥の重症度と程度を定量化するために必要であり、その結果、リハビリテーションとメンテナンス活動の優先順位付けに使用される全体的な状態指標となる。
しかし、ディープラーニングベースのセグメンテーションモデルは、しばしば監督され、コストと時間を要するピクセルレベルのアノテーションを必要とする。
ゼロショットセグメンテーションモデルの最近の進化は、トレーニングデータのない未確認クラスのピクセルワイドラベルを生成することができるが、それらはひび割れやテクスチャ化された舗装の背景の不規則さに悩まされている。
本研究では,ゼロショット分割モデルPaveSAMを提案する。
SAMのマスクデコーダを180枚の画像で再トレーニングすることで、舗装救難セグメンテーションが革新され、現在のセグメンテーションモデルでは見られないバウンディングボックスプロンプトを使った効率的な救難セグメンテーションが可能になる。
これはラベル作成の労力とコストを大幅に削減するだけでなく、最小限の入力で我々のモデルの性能を示す。
さらに、研究者は、バウンディングボックスにアノテートされた既存のオープンソース舗装救難画像を使用して、セグメンテーションマスクを作成することで、セグメンテーション舗装救難データセットの可用性と多様性を高めることができる。
Automated pavement monitoring using computer vision can analyze pavement conditions more efficiently and accurately than manual methods. Accurate segmentation is essential for quantifying the severity and extent of pavement defects and consequently, the overall condition index used for prioritizing rehabilitation and maintenance activities. Deep learning-based segmentation models are however, often supervised and require pixel-level annotations, which can be costly and time-consuming. While the recent evolution of zero-shot segmentation models can generate pixel-wise labels for unseen classes without any training data, they struggle with irregularities of cracks and textured pavement backgrounds. This research proposes a zero-shot segmentation model, PaveSAM, that can segment pavement distresses using bounding box prompts. By retraining SAM's mask decoder with just 180 images, pavement distress segmentation is revolutionized, enabling efficient distress segmentation using bounding box prompts, a capability not found in current segmentation models. This not only drastically reduces labeling efforts and costs but also showcases our model's high performance with minimal input, establishing the pioneering use of SAM in pavement distress segmentation. Furthermore, researchers can use existing open-source pavement distress images annotated with bounding boxes to create segmentation masks, which increases the availability and diversity of segmentation pavement distress datasets. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 非ガウス量子状態のグラフ計算
Graphical Calculus for Non-Gaussian Quantum States ( http://arxiv.org/abs/2409.07300v1 ) ライセンス: Link先を確認 | Lina Vandré, Boxuan Jing, Yu Xiang, Otfried Gühne, Qiongyi He, | (参考訳) ハイパーグラフフレームワークを用いて非ガウス量子状態を記述・解析するグラフィカルな方法を提案する。
これらの状態は量子コンピューティング、通信、気象学において重要な資源であるが、それらの特徴はそれらの複雑な高次相関によって妨げられている。
形式主義はガウスのユニタリ演算と局所二次測定の変換規則をカプセル化し、実験的に実現可能な経路を通じてそのような状態を操作する視覚的に直感的なツールを提供する。
特に,ガウス演算のみによる単純な構造から高次あるいは高次ハイパーエッジを持つ複素ハイパーグラフ状態を生成する手法を開発した。
我々は、これらのグラフに基づく定式化に根ざした非ガウス状態の生成に関する実証的な例を示し、連続変数の一般量子コンピューティング能力を前進させる可能性を明らかにした。
We provide a graphical method to describe and analyze non-Gaussian quantum states using a hypergraph framework. These states are pivotal resources for quantum computing, communication, and metrology, but their characterization is hindered by their complex high-order correlations. The formalism encapsulates transformation rules for any Gaussian unitary operation and local quadrature measurement, offering a visually intuitive tool for manipulating such states through experimentally feasible pathways. Notably, we develop methods for the generation of complex hypergraph states with more or higher-order hyperedges from simple structures through Gaussian operations only, facilitated by our graphical rules. We present illustrative examples on the preparation of non-Gaussian states rooted in these graph-based formalisms, revealing their potential to advance continuous-variable general quantum computing capabilities. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# BLS-GAN : 従来のX線写真における骨オーバーラップ除去のための深層分離フレームワーク
BLS-GAN: A Deep Layer Separation Framework for Eliminating Bone Overlap in Conventional Radiographs ( http://arxiv.org/abs/2409.07304v1 ) ライセンス: Link先を確認 | Haolin Wang, Yafei Ou, Prasoon Ambalathankandy, Gen Ota, Pengyu Dai, Masayuki Ikebe, Kenji Suzuki, Tamotsu Kamishima, | (参考訳) 従来のX線撮影は、筋骨格疾患(MSK)の診断、モニタリング、予後診断に広く用いられている。
従来のX線写真では、骨の重なりが一般的であり、放射線技師やアルゴリズムによる骨特性の正確な評価を妨げ、従来の診断やコンピュータ支援の診断に重大な課題を生じさせる可能性がある。
本研究は, 従来のX線写真における骨層分離(骨層分離), 骨層分離(骨層分離), 骨層分離(骨層分離), 骨層分離(骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離, 骨層分離,
本研究は骨層分離GAN(BLS-GAN)フレームワークを提案する。
この枠組みは, 従来のX線撮影の原理に基づく再構成装置を導入し, 重なり合う領域の軟組織に起因する再帰的計算とトレーニング不安定性の問題の緩和を実現した。
さらに, 合成画像による事前トレーニングを実施し, トレーニングプロセスの安定性と結果の安定性を向上した。
生成された画像はビジュアルチューリングテストに合格し、下流タスクのパフォーマンスが向上した。
本研究は,MSK診断,モニタリング,予後に関するより包括的な分析研究を促進するために,骨層分離技術を活用することを約束する従来のX線写真から骨層像を抽出する可能性を確認するものである。
コードとデータセットが利用可能になる。
Conventional radiography is the widely used imaging technology in diagnosing, monitoring, and prognosticating musculoskeletal (MSK) diseases because of its easy availability, versatility, and cost-effectiveness. In conventional radiographs, bone overlaps are prevalent, and can impede the accurate assessment of bone characteristics by radiologists or algorithms, posing significant challenges to conventional and computer-aided diagnoses. This work initiated the study of a challenging scenario - bone layer separation in conventional radiographs, in which separate overlapped bone regions enable the independent assessment of the bone characteristics of each bone layer and lay the groundwork for MSK disease diagnosis and its automation. This work proposed a Bone Layer Separation GAN (BLS-GAN) framework that can produce high-quality bone layer images with reasonable bone characteristics and texture. This framework introduced a reconstructor based on conventional radiography imaging principles, which achieved efficient reconstruction and mitigates the recurrent calculations and training instability issues caused by soft tissue in the overlapped regions. Additionally, pre-training with synthetic images was implemented to enhance the stability of both the training process and the results. The generated images passed the visual Turing test, and improved performance in downstream tasks. This work affirms the feasibility of extracting bone layer images from conventional radiographs, which holds promise for leveraging bone layer separation technology to facilitate more comprehensive analytical research in MSK diagnosis, monitoring, and prognosis. Code and dataset will be made available. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 残差予測のための潜時拡散によるデータ増大
Data Augmentation via Latent Diffusion for Saliency Prediction ( http://arxiv.org/abs/2409.07307v1 ) ライセンス: Link先を確認 | Bahar Aydemir, Deblina Bhattacharjee, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk, | (参考訳) 残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
回転や刈り取りといった標準的なデータ増大技術は、塩分濃度に影響を及ぼす。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行う深層感予測のための新しいデータ拡張手法を提案する。
高レベルの特徴と低レベルの特徴に依存しているため、我々のアプローチは、色、コントラスト、明るさ、クラスといった、測光的属性と意味的属性の両方を取り入れることで学習する。
そこで本稿では,測光特性を目標とした編集が可能で,特定の画像領域における塩分濃度を向上する,塩分濃度誘導型クロスアテンション機構を提案する。
実験結果から,データ拡張手法は様々なサリエンシモデルの性能を継続的に向上することが示された。
さらに、拡張機能を唾液度予測に利用することで、公衆利用可能な唾液度ベンチマークよりも優れたパフォーマンスが得られる。
我々の予測は、編集された画像の人間の視覚的注意パターンと密接に一致している。
Saliency prediction models are constrained by the limited diversity and quantity of labeled data. Standard data augmentation techniques such as rotating and cropping alter scene composition, affecting saliency. We propose a novel data augmentation method for deep saliency prediction that edits natural images while preserving the complexity and variability of real-world scenes. Since saliency depends on high-level and low-level features, our approach involves learning both by incorporating photometric and semantic attributes such as color, contrast, brightness, and class. To that end, we introduce a saliency-guided cross-attention mechanism that enables targeted edits on the photometric properties, thereby enhancing saliency within specific image regions. Experimental results show that our data augmentation method consistently improves the performance of various saliency models. Moreover, leveraging the augmentation features for saliency prediction yields superior performance on publicly available saliency benchmarks. Our predictions align closely with human visual attention patterns in the edited images, as validated by a user study. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 混合線形モデルとメタモデルによる領域一般化のための非侵襲グルコース予測システム
Non-Invasive Glucose Prediction System Enhanced by Mixed Linear Models and Meta-Forests for Domain Generalization ( http://arxiv.org/abs/2409.07308v1 ) ライセンス: Link先を確認 | Yuyang Sun, Panagiotis Kosmas, | (参考訳) 本研究では,近赤外分光法とミリ波センシングを併用した非侵襲グルコース予測システムを提案する。
我々は、MixedLM(Mixed Linear Model)を用いて、不均一データセット内のミリ波周波数S_21パラメータと血糖値の関係を分析する。
MixedLM法は、オブジェクト間の変動を考慮し、複数の予測器を統合し、従来の相関解析よりもより包括的な分析を提供する。
さらに、ドメイン一般化(DG)モデルであるメタフォレスト(Meta-forests)を導入し、データセットのドメイン分散を効果的に処理し、個々の差に対するモデルの適応性を高める。
その結果, 平均絶対誤差が17.47 mg/dL, 根平均二乗誤差が31.83 mg/dL, 平均絶対誤差が10.88%, 臨床応用の可能性が示された。
この研究は、正確な、パーソナライズされた、非侵襲的なグルコースモニタリングシステムを開発するための重要なステップであり、糖尿病管理の改善に寄与する。
In this study, we present a non-invasive glucose prediction system that integrates Near-Infrared (NIR) spectroscopy and millimeter-wave (mm-wave) sensing. We employ a Mixed Linear Model (MixedLM) to analyze the association between mm-wave frequency S_21 parameters and blood glucose levels within a heterogeneous dataset. The MixedLM method considers inter-subject variability and integrates multiple predictors, offering a more comprehensive analysis than traditional correlation analysis. Additionally, we incorporate a Domain Generalization (DG) model, Meta-forests, to effectively handle domain variance in the dataset, enhancing the model's adaptability to individual differences. Our results demonstrate promising accuracy in glucose prediction for unseen subjects, with a mean absolute error (MAE) of 17.47 mg/dL, a root mean square error (RMSE) of 31.83 mg/dL, and a mean absolute percentage error (MAPE) of 10.88%, highlighting its potential for clinical application. This study marks a significant step towards developing accurate, personalized, and non-invasive glucose monitoring systems, contributing to improved diabetes management. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# ディオファンチン方程式符号化によるニューラルネットワーク性能の最適化と解釈可能性
Optimizing Neural Network Performance and Interpretability with Diophantine Equation Encoding ( http://arxiv.org/abs/2409.07310v1 ) ライセンス: Link先を確認 | Ronald Katende, | (参考訳) 本稿では、モデル解釈可能性、安定性、効率を改善するために、ディオファンタイン方程式をニューラルネットワーク(NN)アーキテクチャに統合することを検討する。
ニューラルネットワークパラメータをダイオファンタイン方程式の整数解として符号化および復号することにより、ディープラーニングモデルの精度と堅牢性の両方を高める新しいアプローチを導入する。
本手法は,トレーニング中にダイオファンチン制約を強制するカスタムロス関数を統合し,より一般化し,エラー境界を低減し,敵攻撃に対するレジリエンスを高める。
本稿では, 画像分類や自然言語処理などのタスクを通じて, 精度, 収束性, 頑健性の向上を観察し, このアプローチの有効性を実証する。
この研究は、数学的理論と機械学習を組み合わせることで、より解釈可能で効率的なモデルを作成するための新しい視点を提供する。
This paper explores the integration of Diophantine equations into neural network (NN) architectures to improve model interpretability, stability, and efficiency. By encoding and decoding neural network parameters as integer solutions to Diophantine equations, we introduce a novel approach that enhances both the precision and robustness of deep learning models. Our method integrates a custom loss function that enforces Diophantine constraints during training, leading to better generalization, reduced error bounds, and enhanced resilience against adversarial attacks. We demonstrate the efficacy of this approach through several tasks, including image classification and natural language processing, where improvements in accuracy, convergence, and robustness are observed. This study offers a new perspective on combining mathematical theory and machine learning to create more interpretable and efficient models. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 大企業における規制要件工学 : 欧州アクセシビリティ法に関するインタビュー研究
Regulatory Requirements Engineering in Large Enterprises: An Interview Study on the European Accessibility Act ( http://arxiv.org/abs/2409.07313v1 ) ライセンス: Link先を確認 | Oleksandr Kosenkov, Michael Unterkalmsteiner, Daniel Mendez, Jannik Fischbach, | (参考訳) コンテキスト: 欧州アクセシビリティ法(EAA)のような規制は、ソフトウェア製品やサービスのエンジニアリングに影響を与える。
開発チームに意味のあるインプットを提供しながら、その影響を管理することは、新たな要件エンジニアリング(RE)の課題のひとつです。
問題: 企業は、提供されたソフトウェア製品に対する規制の影響を考慮し、企業レベルで要求を定式化するために、規制的影響分析(RIA)を実施します。
その実践的関連性にもかかわらず、我々はこの大規模な規制REプロセスについていかなる研究も知らない。
方法】3大企業におけるRIAの探索的調査を行った。
RIAの実行方法、クロスファンクショナルなインタラクションの強調、EAAを例として使用することに注力した。
結果: RIAは、規制REプロセスとして、経営管理と中央機能のニーズに対応するために実施される。
それは、異なる機能とエンタープライズ階層のレベルの間の調整を含む。
企業はRIAの結果の解釈とコミュニケーションをサポートするためにアーティファクトを使用する。
RIAへの挑戦は、主にそのような調整の実行と関連する知識の管理に関連している。
結論: 大企業のRIAは、複数の利害関係者と役割の緊密な調整を要求する。
解釈とコンプライアンスアーティファクトを適用することは、そのような調整をサポートするためのアプローチのひとつです。
しかし、そのようなアーティファクトを作成・管理するための確立した慣行は存在しない。
Context: Regulations, such as the European Accessibility Act (EAA), impact the engineering of software products and services. Managing that impact while providing meaningful inputs to development teams is one of the emerging requirements engineering (RE) challenges. Problem: Enterprises conduct Regulatory Impact Analysis (RIA) to consider the effects of regulations on software products offered and formulate requirements at an enterprise level. Despite its practical relevance, we are unaware of any studies on this large-scale regulatory RE process. Methodology: We conducted an exploratory interview study of RIA in three large enterprises. We focused on how they conduct RIA, emphasizing cross-functional interactions, and using the EAA as an example. Results: RIA, as a regulatory RE process, is conducted to address the needs of executive management and central functions. It involves coordination between different functions and levels of enterprise hierarchy. Enterprises use artifacts to support interpretation and communication of the results of RIA. Challenges to RIA are mainly related to the execution of such coordination and managing the knowledge involved. Conclusion: RIA in large enterprises demands close coordination of multiple stakeholders and roles. Applying interpretation and compliance artifacts is one approach to support such coordination. However, there are no established practices for creating and managing such artifacts. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# MEDIC:臨床応用におけるLCMの総合的評価フレームワークを目指して
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications ( http://arxiv.org/abs/2409.07314v1 ) ライセンス: Link先を確認 | Praveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan, | (参考訳) 医療アプリケーション向けのLarge Language Models(LLMs)の急速な開発は、現実のパフォーマンスをより良く反映するために、USMLEのような頻繁に暗黙のベンチマークを超えて、全体的評価を求める声を呼んだ。
実世界のアセスメントは実用性を示す貴重な指標であるが、LLMの進化のペースを遅らせることが多い。
この時間的切り離しは、特定の臨床応用のためのモデル選択をガイドできる包括的な事前評価を必要とする。
MEDICは、医学的推論、倫理と偏見、データと言語理解、文脈内学習、臨床安全性の5つの重要な側面にまたがるLCMを評価するフレームワークである。
MEDICは、参照出力を必要とせず、カバレッジや幻覚検出などの領域でLLMのパフォーマンスを定量化する、新しい相互検査フレームワークを備えている。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
本研究の結果は, モデルサイズ, ベースライン, 医療用微調整モデル間の性能格差を示すとともに, 幻覚の低下や推論コストの低下など, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことを示した。
MEDICの多面的評価は、これらのパフォーマンストレードオフを明らかにし、理論能力と医療設定における実践的実装のギャップを埋め、最も有望なモデルが特定され、多様な医療アプリケーションに適用されることを保証する。
The rapid development of Large Language Models (LLMs) for healthcare applications has spurred calls for holistic evaluation beyond frequently-cited benchmarks like USMLE, to better reflect real-world performance. While real-world assessments are valuable indicators of utility, they often lag behind the pace of LLM evolution, likely rendering findings obsolete upon deployment. This temporal disconnect necessitates a comprehensive upfront evaluation that can guide model selection for specific clinical applications. We introduce MEDIC, a framework assessing LLMs across five critical dimensions of clinical competence: medical reasoning, ethics and bias, data and language understanding, in-context learning, and clinical safety. MEDIC features a novel cross-examination framework quantifying LLM performance across areas like coverage and hallucination detection, without requiring reference outputs. We apply MEDIC to evaluate LLMs on medical question-answering, safety, summarization, note generation, and other tasks. Our results show performance disparities across model sizes, baseline vs medically finetuned models, and have implications on model selection for applications requiring specific model strengths, such as low hallucination or lower cost of inference. MEDIC's multifaceted evaluation reveals these performance trade-offs, bridging the gap between theoretical capabilities and practical implementation in healthcare settings, ensuring that the most promising models are identified and adapted for diverse healthcare applications. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# モジュールワイド・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・トレーニングによるエンドツーエンド自動運転
Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving ( http://arxiv.org/abs/2409.07321v1 ) ライセンス: Link先を確認 | Tianyuan Zhang, Lu Wang, Jiaqi Kang, Xinwei Zhang, Siyuan Liang, Yuwei Chen, Aishan Liu, Xianglong Liu, | (参考訳) 近年のディープラーニングの進歩は、自律運転(AD)モデル、特に認識、予測、計画段階を統合し、最先端のパフォーマンスを達成するエンド・ツー・エンドシステムを大幅に改善している。
しかし、これらのモデルは、人間の知覚できない摂動が意思決定プロセスを破壊するような敵の攻撃に弱いままである。
逆行訓練はこのような攻撃に対するモデル堅牢性を高める効果的な方法であるが、エンド・ツー・エンドADモデルに適用することに焦点を当てた先行研究は行われていない。
本稿では,Adaptive Adversarial Training (MA2T)を提案する。
しかし、モデル内の異なる段階は異なる目的を持ち、強く相互に結びついているため、従来の逆行訓練をこの文脈に拡張するのは非常に簡単ではない。
これらの課題に対処するため、MA2Tはまず、異なるモジュールの入力の前にノイズを注入するモジュールワイドノイズインジェクションを導入した。
さらに,積算重み変化を取り入れた動的重み蓄積適応を導入し,各モジュールの損失重みを適応的に学習・調整する。
防衛効果を示すため,白箱攻撃と黒箱攻撃の双方において,広範囲に使用されているnuScenesデータセットについて広範囲にわたる実験を行い,本手法は,他のベースラインよりも大きなマージン(+5-10%)で優れていた。
さらに, CARLAシミュレーション環境における閉ループ評価による防御の堅牢性を検証するとともに, 自然破壊に対してもレジリエンスが改善された。
Recent advances in deep learning have markedly improved autonomous driving (AD) models, particularly end-to-end systems that integrate perception, prediction, and planning stages, achieving state-of-the-art performance. However, these models remain vulnerable to adversarial attacks, where human-imperceptible perturbations can disrupt decision-making processes. While adversarial training is an effective method for enhancing model robustness against such attacks, no prior studies have focused on its application to end-to-end AD models. In this paper, we take the first step in adversarial training for end-to-end AD models and present a novel Module-wise Adaptive Adversarial Training (MA2T). However, extending conventional adversarial training to this context is highly non-trivial, as different stages within the model have distinct objectives and are strongly interconnected. To address these challenges, MA2T first introduces Module-wise Noise Injection, which injects noise before the input of different modules, targeting training models with the guidance of overall objectives rather than each independent module loss. Additionally, we introduce Dynamic Weight Accumulation Adaptation, which incorporates accumulated weight changes to adaptively learn and adjust the loss weights of each module based on their contributions (accumulated reduction rates) for better balance and robust training. To demonstrate the efficacy of our defense, we conduct extensive experiments on the widely-used nuScenes dataset across several end-to-end AD models under both white-box and black-box attacks, where our method outperforms other baselines by large margins (+5-10%). Moreover, we validate the robustness of our defense through closed-loop evaluation in the CARLA simulation environment, showing improved resilience even against natural corruption. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 機械学習応用のための三次元マルチモーダル放射光データ
Three-Dimensional, Multimodal Synchrotron Data for Machine Learning Applications ( http://arxiv.org/abs/2409.07322v1 ) ライセンス: Link先を確認 | Calum Green, Sharif Ahmed, Shashidhara Marathe, Liam Perera, Alberto Leonardi, Killian Gmyrek, Daniele Dini, James Le Houx, | (参考訳) 機械学習技術は、様々な画像モダリティの医療や物理科学にますます応用されているが、これらのツールを開発する際の重要な問題は、高品質なトレーニングデータの提供である。
ここでは,亜鉛をドープしたゼオライト13Xサンプルの,高度な深層学習とデータ融合パイプラインの開発に使用できる,ユニークなマルチモーダルシンクロトロンデータセットを提案する。
亜鉛をドープしたゼオライト13Xフラグメント上で多分解能マイクロX線CTを行い, その細孔と特徴を特徴づけた上で, 空間分解X線回折CTを行い, ナトリウム相と亜鉛相の均一分布を解析した。
亜鉛の吸収は、単純で空間的に孤立した2相の物質を作るために制御された。
生データも処理データも、Zenodoの一連のエントリとして利用できる。
また、空間的に解決された3次元・マルチモーダル・マルチレゾリューション・データセットも提示し、機械学習技術の開発に利用することができる。
このような技術には、超解像、マルチモーダルデータ融合、および3次元再構成アルゴリズムの開発が含まれる。
Machine learning techniques are being increasingly applied in medical and physical sciences across a variety of imaging modalities; however, an important issue when developing these tools is the availability of good quality training data. Here we present a unique, multimodal synchrotron dataset of a bespoke zinc-doped Zeolite 13X sample that can be used to develop advanced deep learning and data fusion pipelines. Multi-resolution micro X-ray computed tomography was performed on a zinc-doped Zeolite 13X fragment to characterise its pores and features, before spatially resolved X-ray diffraction computed tomography was carried out to characterise the homogeneous distribution of sodium and zinc phases. Zinc absorption was controlled to create a simple, spatially isolated, two-phase material. Both raw and processed data is available as a series of Zenodo entries. Altogether we present a spatially resolved, three-dimensional, multimodal, multi-resolution dataset that can be used for the development of machine learning techniques. Such techniques include development of super-resolution, multimodal data fusion, and 3D reconstruction algorithm development. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 一貫性モデルによるボルツマン分布の効率的・不偏サンプリング
Efficient and Unbiased Sampling of Boltzmann Distributions via Consistency Models ( http://arxiv.org/abs/2409.07323v1 ) ライセンス: Link先を確認 | Fengzhe Zhang, Jiajun He, Laurence I. Midgley, Javier Antorán, José Miguel Hernández-Lobato, | (参考訳) 拡散モデルはボルツマン発電機を前進させる有望な可能性を示している。
しかし,(1)モデル不完全性に起因するサンプルの固有のエラー,(2)高品質なサンプルを実現するために数百の機能評価(NFE)が必要である,という2つの重要な課題が続いている。
重要サンプリングや蒸留のような既存のソリューションはこれらの問題を別々に扱うが、ほとんどの蒸留モデルは重要サンプリングに必要な密度情報を欠いているため、相容れないことが多い。
本稿では,一貫性モデル(CM)と重要サンプリングを効果的に組み合わせた新しいサンプリング手法を提案する。
我々は合成エネルギー関数と同変n体粒子系の両方に対するアプローチを評価する。
約100個のNFEを必要とする拡散確率モデル(DDPM)に匹敵する有効サンプルサイズ(ESS)を達成しつつ,6~25個のNFEを用いて非バイアスサンプルを生成する。
Diffusion models have shown promising potential for advancing Boltzmann Generators. However, two critical challenges persist: (1) inherent errors in samples due to model imperfections, and (2) the requirement of hundreds of functional evaluations (NFEs) to achieve high-quality samples. While existing solutions like importance sampling and distillation address these issues separately, they are often incompatible, as most distillation models lack the necessary density information for importance sampling. This paper introduces a novel sampling method that effectively combines Consistency Models (CMs) with importance sampling. We evaluate our approach on both synthetic energy functions and equivariant n-body particle systems. Our method produces unbiased samples using only 6-25 NFEs while achieving a comparable Effective Sample Size (ESS) to Denoising Diffusion Probabilistic Models (DDPMs) that require approximately 100 NFEs. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 多変量仮説テストによる統計的に妥当な情報ボトルネック
Statistically Valid Information Bottleneck via Multiple Hypothesis Testing ( http://arxiv.org/abs/2409.07325v1 ) ライセンス: Link先を確認 | Amirmohammad Farzaneh, Osvaldo Simeone, | (参考訳) 情報ボトルネック(IB)問題は、下流タスクに有用な圧縮された特徴を抽出する機械学習のフレームワークとして広く研究されている。
しかし、現在のIB問題に対するアプローチはハイパーパラメータのヒューリスティックなチューニングに依存しており、学習した特徴が情報理論上の制約を満たすという保証は提供されていない。
本研究では,複数の仮説テスト (IB-MHT) を用いて,この問題に対する統計的に有効な解を提案する。
提案手法はParetoテストとLearning-then-test(LTT)に基づいており、既存のIBソルバを包み込み、IB制約の統計的保証を提供する。
IB-MHT の古典的および決定論的 IB の定式化における性能を実証し,統計的堅牢性と信頼性の観点から従来の手法よりも優れた性能を示す。
The information bottleneck (IB) problem is a widely studied framework in machine learning for extracting compressed features that are informative for downstream tasks. However, current approaches to solving the IB problem rely on a heuristic tuning of hyperparameters, offering no guarantees that the learned features satisfy information-theoretic constraints. In this work, we introduce a statistically valid solution to this problem, referred to as IB via multiple hypothesis testing (IB-MHT), which ensures that the learned features meet the IB constraints with high probability, regardless of the size of the available dataset. The proposed methodology builds on Pareto testing and learn-then-test (LTT), and it wraps around existing IB solvers to provide statistical guarantees on the IB constraints. We demonstrate the performance of IB-MHT on classical and deterministic IB formulations, validating the effectiveness of IB-MHT in outperforming conventional methods in terms of statistical robustness and reliability. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# ART: ノイズのない多チャンネル脳波信号の再構成のための人工物除去変換器
ART: Artifact Removal Transformer for Reconstructing Noise-Free Multichannel Electroencephalographic Signals ( http://arxiv.org/abs/2409.07326v1 ) ライセンス: Link先を確認 | Chun-Hsiang Chuang, Kong-Yi Chang, Chih-Sheng Huang, Anne-Mei Bessas, | (参考訳) 脳波検査(EEG)におけるアーチファクト除去は、神経科学的な分析と脳-コンピュータインターフェース(BCI)のパフォーマンスに大きな影響を与える長年にわたる課題である。
この問題に対処するには、高度なアルゴリズム、広範なノイズクリーンなトレーニングデータ、徹底的な評価戦略が必要である。
本研究では,脳波信号の過渡ミリ秒スケールのダイナミックス特性を適応的に捉えるために,トランスフォーマアーキテクチャを用いた革新的な脳波復調モデルであるArtifact removal Transformer (ART)を提案する。
このアプローチは、多チャンネル脳波データにおける多様なアーティファクトタイプに対して、総合的でエンドツーエンドのデノゲーションソリューションを提供する。
独立成分分析を用いてノイズクリーンな脳波データペアの生成を強化し,効果的な教師付き学習に不可欠なトレーニングシナリオを固めた。
各種BCIアプリケーションからの幅広いオープンデータセットを用いて包括的検証を行い,平均二乗誤差や信号対雑音比などの指標,ソースローカライゼーションやEEGコンポーネント分類といった高度な手法を用いて検証を行った。
脳波信号処理においてARTが他の深層学習に基づくアーティファクト除去手法を上回ることが確認された。
この進歩は、アーティファクト除去の正確さと信頼性を高めるだけでなく、この分野のさらなる革新を触媒し、自然環境における脳のダイナミクスの研究を促進することを約束している。
Artifact removal in electroencephalography (EEG) is a longstanding challenge that significantly impacts neuroscientific analysis and brain-computer interface (BCI) performance. Tackling this problem demands advanced algorithms, extensive noisy-clean training data, and thorough evaluation strategies. This study presents the Artifact Removal Transformer (ART), an innovative EEG denoising model employing transformer architecture to adeptly capture the transient millisecond-scale dynamics characteristic of EEG signals. Our approach offers a holistic, end-to-end denoising solution for diverse artifact types in multichannel EEG data. We enhanced the generation of noisy-clean EEG data pairs using an independent component analysis, thus fortifying the training scenarios critical for effective supervised learning. We performed comprehensive validations using a wide range of open datasets from various BCI applications, employing metrics like mean squared error and signal-to-noise ratio, as well as sophisticated techniques such as source localization and EEG component classification. Our evaluations confirm that ART surpasses other deep-learning-based artifact removal methods, setting a new benchmark in EEG signal processing. This advancement not only boosts the accuracy and reliability of artifact removal but also promises to catalyze further innovations in the field, facilitating the study of brain dynamics in naturalistic environments. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 表現学習のための変分畳み込みフレームワークの現状
Current Symmetry Group Equivariant Convolution Frameworks for Representation Learning ( http://arxiv.org/abs/2409.07327v1 ) ライセンス: Link先を確認 | Ramzan Basheer, Deepak Mishra, | (参考訳) ユークリッドの深層学習はしばしば、表現空間が不規則で複雑な位相で湾曲した実世界の信号に対処するのに不十分である。
このような特徴空間の幾何学的性質の解釈は、バニラCNNが効果的に扱えない非自明な幾何学的変換の影響を受けない頑健でコンパクトな特徴表現を得る上で、最重要である。
回転、翻訳、置換、スケール対称性の認識は、学習された表現の同値性につながる可能性がある。
これにより、幾何学的深層学習の枠組みの下で、コンピュータビジョンや機械学習タスクが、不変のものと比較して顕著に進歩した。
本稿では,グループ理論と対称性を活用することで,対称性群同変深層学習モデルの重要性と,グラフ,3次元形状,非ユークリッド空間における畳み込みのような操作の実現を強調した。
我々はこれらを正規で、ステアブルで、PDEベースの畳み込みとして分類し、それらの入力空間の固有の対称性とそれに続く表現を徹底的に検討する。
また、グループ畳み込みやメッセージ集約操作と等式の概念の数学的関係についても概説する。
レポートはまた、さまざまなデータセット、その適用範囲、制限、将来の方向性に関する洞察に富んだ観察に注目し、価値ある参照として役立ち、この新興分野におけるさらなる研究を促進する。
Euclidean deep learning is often inadequate for addressing real-world signals where the representation space is irregular and curved with complex topologies. Interpreting the geometric properties of such feature spaces has become paramount in obtaining robust and compact feature representations that remain unaffected by nontrivial geometric transformations, which vanilla CNNs cannot effectively handle. Recognizing rotation, translation, permutation, or scale symmetries can lead to equivariance properties in the learned representations. This has led to notable advancements in computer vision and machine learning tasks under the framework of geometric deep learning, as compared to their invariant counterparts. In this report, we emphasize the importance of symmetry group equivariant deep learning models and their realization of convolution-like operations on graphs, 3D shapes, and non-Euclidean spaces by leveraging group theory and symmetry. We categorize them as regular, steerable, and PDE-based convolutions and thoroughly examine the inherent symmetries of their input spaces and ensuing representations. We also outline the mathematical link between group convolutions or message aggregation operations and the concept of equivariance. The report also highlights various datasets, their application scopes, limitations, and insightful observations on future directions to serve as a valuable reference and stimulate further research in this emerging discipline. | 翻訳日:2024-09-12 14:13:20 公開日:2024-09-11 |
# 効率的な知識に基づく視覚的質問応答のための文脈圧縮学習
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2409.07331v1 ) ライセンス: Link先を確認 | Weixi Weng, Jieming Zhu, Hao Zhang, Xiaojun Meng, Rui Zhang, Chun Yuan, | (参考訳) MLLM(Multimodal Large Language Models)は,視覚的質問応答(VQA)において,ゼロショットの優れた性能を示す。
しかしながら、知識に基づくVQA(KB-VQA)に関しては、MLLMはそのような質問に答えるために人間の常識や専門的なドメイン知識を欠いている可能性があり、外部の知識ソースから必要な情報を取得する必要がある。
Retrival-Augmented VQA-v2 (RAVQA-v2) のような以前の研究は、画像ベースのテキスト記述や検索された知識などの入力情報を可能な限り活用して性能を向上させることに重点を置いていたが、入力トークンの数が増加し、推論効率が大幅に低下し、実用的な応用の要求に反する問題を見落としている。
本稿では,Retrieval-Augmented MLLM with Compressed Contexts (RACC)を提案する。
RACCは取得したコンテキストの圧縮と集約を学習し、キーバリュー(KV)キャッシュの形式でコンパクトな変調を生成する。
この変調は、下流の凍ったMLLMに適応するために使用され、効果的で効率的な推論を実現する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
さらに、顕著なRAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
冗長な実験は、RACCの幅広い適用性を示している。
市販のMLLMと互換性があり、テキストやマルチモーダル文書など様々な知識ソースを扱える。
Multimodal Large Language Models (MLLMs) have demonstrated great zero-shot performance on visual question answering (VQA). However, when it comes to knowledge-based VQA (KB-VQA), MLLMs may lack human commonsense or specialized domain knowledge to answer such questions and require obtaining necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose Retrieval-Augmented MLLM with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved contexts, from which it generates a compact modulation in the form of Key-Value (KV) cache. This modulation is then used to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 62.9% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0%-59.7% compared to the prominent RAVQA-v2. Abundant experiments show RACC's broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# QSVTによる量子状態生成
Quantum state preparation via piecewise QSVT ( http://arxiv.org/abs/2409.07332v1 ) ライセンス: Link先を確認 | Oliver O'Brien, Christoph Sünderhauf, | (参考訳) 効率的な量子アルゴリズムを実装するためには、効率的な状態準備が不可欠である。
低コストな状態準備のためのいくつかの技術が存在するが、この研究は、振幅が断片多項式によってよく近似される状態のさらなるクラスを促進する。
本稿では,量子特異値変換と新しい線形対角ブロック符号化を用いて,そのような状態を効率的に作成する方法を示す。
これを、$\sqrt{x}|x\rangle$ と $\log x|x\rangle$ の明示的な例で説明する。
さらに,本手法は,Bスプラインウィンドウ状態の効率的な作成により,ウィンドウアップされた量子位相推定のコストを削減する。
このウィンドウ状態は、最先端のKaiserウィンドウ状態よりも100倍少ないTゲートが必要であることを実証し、BスプラインウィンドウがカイザーウィンドウのQPEのテール確率の指数的減少を再現することを示した。
Efficient state preparation is essential for implementing efficient quantum algorithms. Whilst several techniques for low-cost state preparation exist, this work facilitates further classes of states, whose amplitudes are well approximated by piecewise polynomials. We show how such states can be efficiently prepared using a piecewise Quantum Singular Value Transformation along with a new piecewise linear diagonal block encoding. We illustrate this with the explicit examples of $\sqrt{x}|x\rangle$ and $\log x|x\rangle$. Further, our technique reduces the cost of window boosted Quantum Phase Estimation by efficiently preparing the B-spline window state. We demonstrate this window state requires 100 times fewer T-gates to prepare than the state-of-the-art Kaiser window state, and we show that the B-spline window replicates the Kaiser window's exponential reduction in tail probability for QPE. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization
Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization ( http://arxiv.org/abs/2409.07335v1 ) ライセンス: Link先を確認 | Mehrdad Zakershahrak, Samira Ghodratnama, | (参考訳) 人工知能システムの急速な進歩は、特に複雑な意思決定とタスク実行において、研究の最前線にAIアライメントの課題をもたらした。
これらのシステムは、高度な問題における人間レベルのパフォーマンスを上回るため、人的価値、意図、倫理的ガイドラインとの整合性を確保することが重要である。
人-エージェントアライメントのための説明生成に関するこれまでの研究に基づいて、マルチエージェントシステムと人間-AIチームのより複雑なダイナミクスに対処する。
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
本稿では,弱いモデルの改善を促進し,説明生成とモデルアライメントのギャップを埋める枠組みを提案する。
ファシリテーション関数として形式化された本手法は,広範囲なトレーニングデータに直接アクセスすることなく,高度なモデルから低能力モデルへの機能移行を可能にする。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質や、AIシステムのスケーラブルな監視の可能性についての洞察も提供することを示唆している。
The rapid advancement of artificial intelligence systems has brought the challenge of AI alignment to the forefront of research, particularly in complex decision-making and task execution. As these systems surpass human-level performance in sophisticated problems, ensuring their alignment with human values, intentions, and ethical guidelines becomes crucial. Building on previous work in explanation generation for human-agent alignment, we address the more complex dynamics of multi-agent systems and human-AI teams. This paper introduces a novel approach to model alignment through weak-to-strong generalization in the context of language models. We present a framework where a strong model facilitates the improvement of a weaker model, bridging the gap between explanation generation and model alignment. Our method, formalized as a facilitation function, allows for the transfer of capabilities from advanced models to less capable ones without direct access to extensive training data. Our results suggest that this facilitation-based approach not only enhances model performance but also provides insights into the nature of model alignment and the potential for scalable oversight of AI systems. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 多変量モンテカルロシミュレーションのための効率的な状態準備
Efficient state preparation for multivariate Monte Carlo simulation ( http://arxiv.org/abs/2409.07336v1 ) ライセンス: Link先を確認 | Hitomi Mori, Kosuke Mitarai, Keisuke Fujii, | (参考訳) 量子状態準備(Quantum state prepared)は、多くの量子アルゴリズムにおいて必須のサブルーチンである振幅に符号化された特定の関数を持つ状態を作成するタスクである。
本稿では,多くの応用分野において重要な拡張である多変量状態の準備に焦点を当てる。
具体的には、リスク集約やマルチアセットデリバティブ価格といった重要な数値的なタスクに使用されるモンテカルロの多変量シミュレーションには、多変量状態の準備が必要である。
既存の方法では、多変量量子状態の準備は変数数$D$で指数関数的なゲートの数を必要とする。
そこで本研究では,D$で線形なゲート数のみを必要とする量子アルゴリズムを提案する。
本アルゴリズムは,行列要素の多変量多項式変換を行うための多変量量子信号処理(M-QSP)を用いる。
各変数に対応するブロックエンコーディングを簡単に作成し、M-QSPを用いて目的関数を構築する。
このようにして、本アルゴリズムは、M-QSPで達成可能な関数に対して、効率的にターゲット状態を作成する。
Quantum state preparation is a task to prepare a state with a specific function encoded in the amplitude, which is an essential subroutine in many quantum algorithms. In this paper, we focus on multivariate state preparation, as it is an important extension for many application areas. Specifically in finance, multivariate state preparation is required for multivariate Monte Carlo simulation, which is used for important numerical tasks such as risk aggregation and multi-asset derivative pricing. Using existing methods, multivariate quantum state preparation requires the number of gates exponential in the number of variables $D$. For this task, we propose a quantum algorithm that only requires the number of gates linear in $D$. Our algorithm utilizes multivariable quantum signal processing (M-QSP), a technique to perform the multivariate polynomial transformation of matrix elements. Using easily prepared block-encodings corresponding to each variable, we apply the M-QSP to construct the target function. In this way, our algorithm prepares the target state efficiently for functions achievable with M-QSP. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 2D Egocentric Hand Pose データセットのベンチマーク
Benchmarking 2D Egocentric Hand Pose Datasets ( http://arxiv.org/abs/2409.07337v1 ) ライセンス: Link先を確認 | Olga Taran, Damian M. Manzone, Jose Zariffa, | (参考訳) エゴセントリックビデオからのポーズ推定は、人間とコンピュータの相互作用、補助技術、活動認識、ロボット工学など、様々な領域に広範に影響を与えており、重要な研究対象となっている。
現代の機械学習モデルの有効性は、トレーニングに使用されるデータの質に依存する。
そこで本研究は,2次元ポーズ推定に適した最先端の自己中心型データセットの解析に焦点をあてる。
本稿では,提案するデータセットの特徴の分析とデータ品質の評価だけでなく,最先端手ポーズ推定モデルによるデータセットの欠点の同定を含む,データセット評価のための新しいプロトコルを提案する。
本研究は,2次元ポーズ推定を目的とした多数のエゴセントリックデータベースが利用可能であるにもかかわらず,その大部分は特定のユースケースに適したものであることを明らかにした。
理想的なベンチマークデータセットはまだ存在しないが、H2OとGANerated Handsのデータセットは、それぞれ最も有望な実データと合成データセットとして現れている。
Hand pose estimation from egocentric video has broad implications across various domains, including human-computer interaction, assistive technologies, activity recognition, and robotics, making it a topic of significant research interest. The efficacy of modern machine learning models depends on the quality of data used for their training. Thus, this work is devoted to the analysis of state-of-the-art egocentric datasets suitable for 2D hand pose estimation. We propose a novel protocol for dataset evaluation, which encompasses not only the analysis of stated dataset characteristics and assessment of data quality, but also the identification of dataset shortcomings through the evaluation of state-of-the-art hand pose estimation models. Our study reveals that despite the availability of numerous egocentric databases intended for 2D hand pose estimation, the majority are tailored for specific use cases. There is no ideal benchmark dataset yet; however, H2O and GANerated Hands datasets emerge as the most promising real and synthetic datasets, respectively. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# メタディスカバリによるゲームバランス変化の影響予測フレームワーク
A Framework for Predicting the Impact of Game Balance Changes through Meta Discovery ( http://arxiv.org/abs/2409.07340v1 ) ライセンス: Link先を確認 | Akash Saravanan, Matthew Guzdial, | (参考訳) メタゲームとは、ゲームのルールを超えた知識の集まりである。
Pok\'emonやLeague of Legendsのようなチームベースの競争ゲームでは、プレイヤーベース内の現在の支配的なキャラクターや戦略のセットを指す。
ゲームのバランスに対する開発者の変更は、これらのメタキャラクタセットに劇的かつ予期せぬ結果をもたらす可能性がある。
バランス変更の影響を予測するためのフレームワークは、開発者がより情報的なバランス決定を行うのに役立つだろう。
本稿では,バランス変化の自動テストに強化学習を活用するメタディスカバリフレームワークを提案する。
その結果,Pok\'emon Showdownは,競合するPok\'emonティアの集合体であり,高い精度でバランス変化を予測できることを示した。
A metagame is a collection of knowledge that goes beyond the rules of a game. In competitive, team-based games like Pok\'emon or League of Legends, it refers to the set of current dominant characters and/or strategies within the player base. Developer changes to the balance of the game can have drastic and unforeseen consequences on these sets of meta characters. A framework for predicting the impact of balance changes could aid developers in making more informed balance decisions. In this paper we present such a Meta Discovery framework, leveraging Reinforcement Learning for automated testing of balance changes. Our results demonstrate the ability to predict the outcome of balance changes in Pok\'emon Showdown, a collection of competitive Pok\'emon tiers, with high accuracy. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# Online Decision MetaMorphFormer: ユニバーサル・エンボディード・インテリジェンスのためのCasual Transformer-based Reinforcement Learning Framework
Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence ( http://arxiv.org/abs/2409.07341v1 ) ライセンス: Link先を確認 | Luo Ji, Runji Lin, | (参考訳) モーションコントロール分野における対話型人工知能は、特に普遍的な知識が複数のタスクや普遍的な環境に適応する場合に興味深いトピックである。
トランスフォーマーの助けを借りて強化学習(Reinforcement Learning, RL)分野への取り組みが増えているが、その多くは、探索と一般化の能力を制限するオフライントレーニングパイプラインによって制限されている。
この制限に対処するために,統合モデルアーキテクチャによる自己認識,環境認識,行動計画の実現を目的としたオンライン決定メタモデルフォーマー(ODM)のフレームワークを提案する。
認知心理学や行動心理学に動機づけられたODMエージェントは、他者から学び、世界を認識し、自身の経験に基づいて自分自身を実践することができる。
ODMはまた、異なる環境にある複数の結合体を持つ任意のエージェントにも適用でき、大規模な事前訓練データセットを使用して異なるタイプのタスクでトレーニングすることができる。
事前訓練されたデータセットを使用することで、ODMは素早くウォームアップし、望ましいタスクを実行するために必要な知識を学ぶことができる。
ODMの性能と一般化能力を検証するため、オンライン実験や、数発、ゼロショットの環境試験が広く行われている。
本研究は,具体的・認知的分野における汎用人工知能の研究に寄与する。
コード、結果、ビデオの例は、Webサイト \url{https://rlodm.github.io/odm/} で見ることができる。
Interactive artificial intelligence in the motion control field is an interesting topic, especially when universal knowledge is adaptive to multiple tasks and universal environments. Despite there being increasing efforts in the field of Reinforcement Learning (RL) with the aid of transformers, most of them might be limited by the offline training pipeline, which prohibits exploration and generalization abilities. To address this limitation, we propose the framework of Online Decision MetaMorphFormer (ODM) which aims to achieve self-awareness, environment recognition, and action planning through a unified model architecture. Motivated by cognitive and behavioral psychology, an ODM agent is able to learn from others, recognize the world, and practice itself based on its own experience. ODM can also be applied to any arbitrary agent with a multi-joint body, located in different environments, and trained with different types of tasks using large-scale pre-trained datasets. Through the use of pre-trained datasets, ODM can quickly warm up and learn the necessary knowledge to perform the desired task, while the target environment continues to reinforce the universal policy. Extensive online experiments as well as few-shot and zero-shot environmental tests are used to verify ODM's performance and generalization ability. The results of our study contribute to the study of general artificial intelligence in embodied and cognitive fields. Code, results, and video examples can be found on the website \url{https://rlodm.github.io/odm/}. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 人間の健康モニタリングにおける説明可能なAIの役割
The Role of Explainable AI in Revolutionizing Human Health Monitoring ( http://arxiv.org/abs/2409.07347v1 ) ライセンス: Link先を確認 | Abdullah Alharthi, Ahmed Alqurashi, Turki Alharbi, Mohammed Alammar, Nasser Aldosari, Houssem Bouchekara, Yusuf Shaaban, Mohammad Shoaib Shahriar, Abdulrahman Al Ayidh, | (参考訳) 疾患のメカニズムの複雑な性質と患者の症状の多様性は、効果的な診断ツールを開発する上で重要な障害となる。
機械学習は医学的診断においてかなりの進歩を遂げているが、その意思決定プロセスは透明性を欠くことが多く、患者の結果を危険にさらす可能性がある。
このことは、説明可能なAI(XAI)がより明確性を提供するだけでなく、患者のケアを大幅に改善する可能性を秘めている。
本稿では、パーキンソン病、脳卒中、うつ病、がん、心臓病、アルツハイマー病などの慢性疾患に焦点を当て、様々なデータベースをまたいだ検索によって同定されたXAI法を詳細に分析する。
文献検索では、医療分野における9つのトレンドXAIアルゴリズムの適用を明らかにし、それぞれの長所と短所を強調した。
そこで本論文は,ヒトの健康モニタリングにおけるXAIの課題と今後の研究機会について,批判的な評価で締めくくった。
The complex nature of disease mechanisms and the variability of patient symptoms present significant obstacles in developing effective diagnostic tools. Although machine learning has made considerable advances in medical diagnosis, its decision-making processes frequently lack transparency, which can jeopardize patient outcomes. This underscores the critical need for Explainable AI (XAI), which not only offers greater clarity but also has the potential to significantly improve patient care. In this literature review, we conduct a detailed analysis of analyzing XAI methods identified through searches across various databases, focusing on chronic conditions such as Parkinson's, stroke, depression, cancer, heart disease, and Alzheimer's disease. The literature search revealed the application of 9 trending XAI algorithms in the field of healthcare and highlighted the pros and cons of each of them. Thus, the article is concluded with a critical appraisal of the challenges and future research opportunities for XAI in human health monitoring. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 濾過された2モードスクイーズ状態の絡み合いと非局所性の熱化ダイナミクス
Thermalization Dynamics of Entanglement and non-Locality of Filtered Two-Mode Squeezed States ( http://arxiv.org/abs/2409.07349v1 ) ライセンス: Link先を確認 | Souvik Agasti, | (参考訳) 熱環境下での2モード圧縮状態の特定のスペクトル成分間の絡み合いと非局在性がどのように進化するかを考察する。
これらのスペクトル成分は、光学系で頻繁に使用されるフィルタを用いて出力モードから抽出される。
本研究は, 非線形結晶のスクイーズ前の真空状態と, フィルタや検出器を通過する前の2モード圧縮真空発生後の2つの異なる熱化シナリオを考察する。
エンタングルメントと非局所性は通常、同一のフィルタが適用されたときにそのピークに留まる。
最初のシナリオでは、初期スクイーズレベルが高くなると、絡み合いの散逸が遅くなり、時間が経つにつれて加速するが、非局所性の散逸率は一定である。
第2のシナリオでは、より大きなスクイーズにより、絡み合いと非局所性の両方がより速く失われる。
我々は、絡み合いと非局所性のための特定の境界の進化とその最適化条件を同定する。
最後に、すべてのケースにおいて、環境の熱人口の増加は消散率を高める一方、強い相互作用は正常化された無次元時間スケールでの消散を遅くする。
We explore how entanglement and non-locality evolve between specific spectral components of two-mode squeezed states in thermal environments. These spectral components are extracted from output modes using filters that are frequently utilized in optomechanical systems. We consider two distinct thermalization scenarios: one occurring in the vacuum state prior to entering the nonlinear crystal for squeezing, and another after the generation of the two-mode squeezed vacuum but before passing through filters and detectors. Entanglement and non-locality generally remain at their peak when identical filters are applied throughout. In the first scenario, higher initial squeezing levels cause the dissipation of entanglement to begin slower, then accelerate over time, while the dissipation rate of non-locality moreover stays consistent. In the second scenario, greater squeezing results in a more rapid loss of both entanglement and non-locality. We identify the evolution of specific boundaries for entanglement and non-locality and the conditions for their optimization. Finally, for all the cases, increasing the thermal population of the environment enhances the rate of dissipation, whereas stronger interaction slows dissipation in a normalized dimensionless time scale | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 分散不均一データを用いた学習のためのフェデレート印象
Federated Impression for Learning with Distributed Heterogeneous Data ( http://arxiv.org/abs/2409.07351v1 ) ライセンス: Link先を確認 | Sana Ayromlou, Atrin Arya, Armin Saadat, Purang Abolmaesumi, Xiaoxiao Li, | (参考訳) 標準的なディープラーニングに基づく分類アプローチは、すべてのサンプルの集中的な収集を必要とするため、実世界の臨床応用では必ずしも実用的ではないかもしれない。
フェデレートラーニング(FL)は、データ共有を必要とせずに、クライアント間で分散データセットから学習可能なパラダイムを提供する。
FLでは、データ収集プロトコルや患者人口の多様さにより、データの不均一性によって引き起こされる準最適収束が、異なる保健所のデータに共通している。
本研究では,データの不均一性が局所訓練中の破滅的忘れ込み現象を引き起こすことを示す。
我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。
これを実現するために,各通信ラウンドから得られた大域的モデルを蒸留する。
その後,局所学習の一般化を促進するために,局所データとともに合成データを用いる。
提案手法は,ラベルの不均衡とドメインシフトを含むBloodMNISTとRetinaデータセットの両方で最先端の性能を実現し,分類精度を最大20%向上することを示した。
Standard deep learning-based classification approaches may not always be practical in real-world clinical applications, as they require a centralized collection of all samples. Federated learning (FL) provides a paradigm that can learn from distributed datasets across clients without requiring them to share data, which can help mitigate privacy and data ownership issues. In FL, sub-optimal convergence caused by data heterogeneity is common among data from different health centers due to the variety in data collection protocols and patient demographics across centers. Through experimentation in this study, we show that data heterogeneity leads to the phenomenon of catastrophic forgetting during local training. We propose FedImpres which alleviates catastrophic forgetting by restoring synthetic data that represents the global information as federated impression. To achieve this, we distill the global model resulting from each communication round. Subsequently, we use the synthetic data alongside the local data to enhance the generalization of local training. Extensive experiments show that the proposed method achieves state-of-the-art performance on both the BloodMNIST and Retina datasets, which contain label imbalance and domain shift, with an improvement in classification accuracy of up to 20%. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 脱獄・敵攻撃に対するロバストエンコーダを用いた視覚言語モデルのセキュア化
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks ( http://arxiv.org/abs/2409.07353v1 ) ライセンス: Link先を確認 | Md Zarif Hossain, Ahmed Imteaj, | (参考訳) マルチモーダルなビッグデータに基づいてトレーニングされたLVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIを備えている。
しかし、これらのモデルは敵の攻撃、特にジェイルブレイク攻撃に弱いままであり、安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
この脆弱性は、LLMの固有の感受性と、視覚的モダリティによって導入された攻撃面の拡張の両方に起因している。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
このアプローチは、乱れたサンプルとクリーンなサンプルのコサイン類似性を最大化し、敵の操作に対するレジリエンスを促進する。
Sim-CLIP+はプラグイン・アンド・プレイのソリューションを提供し、堅牢な視覚エンコーダとして既存のLVLMアーキテクチャへのシームレスな統合を可能にする。
従来の防衛法とは異なり,LVLMの構造変更は不要であり,計算オーバーヘッドは最小限である。
Sim-CLIP+は、勾配に基づく敵攻撃と様々なジェイルブレイク技術の両方に対して効果を示す。
我々はSim-CLIP+を3つの異なるジェイルブレイク攻撃戦略に対して評価し、イメージキャプションのCOCOや視覚的質問応答のOKVQAを含む標準下流データセットを用いてクリーンな評価を行う。
大規模な実験により、Sim-CLIP+は高い清潔さを維持しつつ、勾配に基づく敵攻撃と脱獄技術の両方に対する堅牢性を大幅に向上することが示された。
私たちのコードと堅牢なビジョンエンコーダはhttps://github.com/speedlab-git/Robust-Encoder-against-Jailbreak- attack.gitで利用可能です。
Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to adversarial attacks, particularly jailbreak attacks, which bypass safety protocols and cause the model to generate misleading or harmful responses. This vulnerability stems from both the inherent susceptibilities of LLMs and the expanded attack surface introduced by the visual modality. We propose Sim-CLIP+, a novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture. This approach maximizes cosine similarity between perturbed and clean samples, facilitating resilience against adversarial manipulations. Sim-CLIP+ offers a plug-and-play solution, allowing seamless integration into existing LVLM architectures as a robust vision encoder. Unlike previous defenses, our method requires no structural modifications to the LVLM and incurs minimal computational overhead. Sim-CLIP+ demonstrates effectiveness against both gradient-based adversarial attacks and various jailbreak techniques. We evaluate Sim-CLIP+ against three distinct jailbreak attack strategies and perform clean evaluations using standard downstream datasets, including COCO for image captioning and OKVQA for visual question answering. Extensive experiments demonstrate that Sim-CLIP+ maintains high clean accuracy while substantially improving robustness against both gradient-based adversarial attacks and jailbreak techniques. Our code and robust vision encoders are available at https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 輪郭積分におけるエネルギーフィルタ励起状態とリアルタイムダイナミクス
Energy-filtered excited states and real-time dynamics served in a contour integral ( http://arxiv.org/abs/2409.07354v1 ) ライセンス: Link先を確認 | Ke Liao, | (参考訳) コーシー積分公式 (CIF) は、有限領域上の対角化可能作用素の正則函数を表現するために用いられる。
これは、輪郭積分の形で様々な作用素を状態に適用する理論の基礎を形成し、輪郭に含まれない固有成分をフィルタリングする。
特別な場合として、積分形式の恒等作用素、-リースプロジェクター--は、X線吸収分光(XAS)に関連する分子のコア励起状態を計算するために、運動連成クラスタ単体とダブルス(EOM-CCSD)フレームワークにおいて特定の値に近いエネルギーを持つ所定の数の固有ペアを求めるブラックボックスアルゴリズムを設計するために用いられる。
一般化として、指数時間進化演算子のCIF形式に基づく新しいリアルタイム電子力学(RT-EOM-CCSD)アルゴリズムを紹介し、正確なスペクトル情報を保持しながら非常に大きな時間ステップを許容する。
It is observed that the Cauchy integral formula (CIF) can be used to represent holomorphic functions of diagonalizable operators on a finite domain. This forms the theoretical foundation for applying various operators in the form of a contour integral to a state, while filtering away eigen-components that are not included by the contour. As a special case, the identity operator in the integral form--the Riesz projector--is used to design a black-box algorithm for finding a given number of eigen-pairs whose energies are close to a specified value in the equation-of-motion coupled cluster singles and doubles (EOM-CCSD) framework, with applications to calculate core excited states of molecules which is relevant for the X-ray absorption spectroscopy (XAS). As a generalization, I showcase a novel real-time electron dynamics (RT-EOM-CCSD) algorithm based on the CIF form of the exponential time-evolution operator, which admits extremely large time steps while preserving accurate spectral information. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 思考と作業の改善: 効果的なテキスト評価のための人間とLLMの思考音響結果の組み合わせ
Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation ( http://arxiv.org/abs/2409.07355v1 ) ライセンス: Link先を確認 | SeongYeub Chu, JongWoo Kim, MunYong Yi, | (参考訳) 本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークである‘textbf{InteractEval}をThink-Aloud(TA)法で導入し,チェックリストに基づくテキスト評価の属性を生成する。
人間の柔軟性と推論とLLMの一貫性を組み合わせることで、InteractEvalは従来のLLMベースのベースラインとLLMベースのベースラインを、Coherence、 Fluency、Consistency、Relevanceの4つの異なる次元で上回る。
また, TA法の有効性について検討し, ヒトとLDMの両方における散発的思考を促進することにより, より広い範囲の属性が生成され, テキスト評価性能が向上することを示した。
比較分析では、人間は内部品質(コヒーレンスとフルーレンシー)に関連する属性を識別する能力が優れているが、LCMは外部アライメント(一貫性と妥当性)に関連する属性を良く評価する。
したがって、人間とLLMを一緒に利用すれば、最高の評価結果が得られる。
言い換えれば、自動チェックリストに基づくテキスト評価フレームワークにおいて、人間とLLMを効果的に組み合わせることの必要性を強調している。
コードは \textbf{\url{https://github.com/BBeeChu/InteractEval.git}} で公開されている。
This study introduces \textbf{InteractEval}, a framework that integrates human expertise and Large Language Models (LLMs) using the Think-Aloud (TA) method to generate attributes for checklist-based text evaluation. By combining human flexibility and reasoning with LLM consistency, InteractEval outperforms traditional non-LLM-based and LLM-based baselines across four distinct dimensions, consisting of Coherence, Fluency, Consistency, and Relevance. The experiment also investigates the effectiveness of the TA method, showing that it promotes divergent thinking in both humans and LLMs, leading to the generation of a wider range of relevant attributes and enhance text evaluation performance. Comparative analysis reveals that humans excel at identifying attributes related to internal quality (Coherence and Fluency), but LLMs perform better at those attributes related to external alignment (Consistency and Relevance). Consequently, leveraging both humans and LLMs together produces the best evaluation outcomes. In other words, this study emphasizes the necessity of effectively combining humans and LLMs in an automated checklist-based text evaluation framework. The code is available at \textbf{\url{https://github.com/BBeeChu/InteractEval.git}}. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 分子生成のための離散拡散モデルのための学習自由誘導
Training-Free Guidance for Discrete Diffusion Models for Molecular Generation ( http://arxiv.org/abs/2409.07359v1 ) ライセンス: Link先を確認 | Thomas J. Kerby, Kevin R. Moon, | (参考訳) 連続データに対するトレーニングフリーガイダンス手法は,基礎拡散モデルと相互作用可能なガイダンスモデルとのペア化を可能にするため,関心が爆発的に高まっている。
現在、離散拡散モデルの等価ガイダンス法は不明である。
本稿では,DiGressの離散拡散モデルアーキテクチャを用いて,学習自由指導を離散データに適用し,分子グラフ生成タスクにその有用性を実証する枠組みを提案する。
このモデルには、特定の原子型である重原子の割合と重原子の分子量を返す誘導関数が組み合わされ、データ生成を誘導する手法の能力を実証する。
Training-free guidance methods for continuous data have seen an explosion of interest due to the fact that they enable foundation diffusion models to be paired with interchangable guidance models. Currently, equivalent guidance methods for discrete diffusion models are unknown. We present a framework for applying training-free guidance to discrete data and demonstrate its utility on molecular graph generation tasks using the discrete diffusion model architecture of DiGress. We pair this model with guidance functions that return the proportion of heavy atoms that are a specific atom type and the molecular weight of the heavy atoms and demonstrate our method's ability to guide the data generation. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# Webアプリケーションのための適切な通信プロトコルの選択
Choosing the Right Communication Protocol for your Web Application ( http://arxiv.org/abs/2409.07360v1 ) ライセンス: Link先を確認 | Mohamed Hassan, | (参考訳) 適切な通信プロトコルを選択することは、Webアプリケーションのパフォーマンス、スケーラビリティ、ユーザエクスペリエンスを最適化するために重要です。
Web技術の多様なエコシステムでは、RESTful API、gRPC、WebSocketsなどの様々なプロトコルが、異なる目的に役立ちます。
RESTfulなAPIは、シンプルでステートレスな性質で広く好まれており、標準CRUD操作には理想的です。
HTTP/1.1を介してリソースと対話する簡単なアプローチを提供し、異なるプラットフォーム間での互換性と統合の容易さを提供する。
しかし、アプリケーションが高効率でリアルタイム通信を必要とするシナリオでは、gRPCとWebSocketが強力な代替手段として現れます。
各プロトコルには、実装の容易さ、ロード時のパフォーマンス、複雑なデータ構造のサポートなど、その長所と制限が伴っている。
RESTful APIは使いやすく、広くサポートされているが、そのステートレスな性質と複数のHTTP/1.1リクエストへの依存によりオーバーヘッドをもたらす可能性がある。
対照的に、gRPCの高度な機能は強力だが、学習曲線の急激さとより高度なインフラストラクチャを必要としている。
同様に、WebSocketはリアルタイムアプリケーションには優れているが、永続的な接続とセキュリティ上の考慮を慎重に管理する必要がある。
本稿では,適切な通信プロトコルを選択する上で重要な考慮事項について考察し,アプリケーション要件やユーザ期待と技術的選択を一致させる必要性を強調した。
各プロトコルのユニークな属性を理解することで、開発者はWebアプリケーションの応答性と信頼性を高めるための情報的な決定をすることができる。
プロトコルの選択はアプリケーションのユーザエクスペリエンス、スケーラビリティ、保守性に大きな影響を与えます。
Selecting the appropriate communication protocol is crucial for optimizing the performance, scalability, and user experience of web applications. In the diverse ecosystem of web technologies, various protocols like RESTful APIs, gRPC, WebSockets, and others serve distinct purposes. RESTful APIs are widely favored for their simplicity and stateless nature, making them ideal for standard CRUD operations. They offer a straightforward approach to interacting with resources over HTTP/1.1, providing broad compatibility and ease of integration across different platforms. However, in scenarios where applications require high efficiency and real-time communication, gRPC and WebSockets emerge as powerful alternatives. Each protocol comes with its strengths and limitations, influencing factors such as ease of implementation, performance under load, and support for complex data structures. RESTful APIs, while easy to use and widely supported, may introduce overhead due to their stateless nature and reliance on multiple HTTP/1.1 requests. In contrast, gRPC advanced features, while powerful, require a steeper learning curve and more sophisticated infrastructure. Similarly, WebSockets, while excellent for real-time applications, require careful management of persistent connections and security considerations. This paper explores the key considerations in choosing the right communication protocol, emphasizing the need to align technical choices with application requirements and user expectations. By understanding the unique attributes of each protocol, developers can make informed decisions that enhance the responsiveness and reliability of their web applications. The choice of protocol can significantly impact the user experience, scalability, and maintainability of the application, making it a critical decision in the web development process. | 翻訳日:2024-09-12 14:03:35 公開日:2024-09-11 |
# 膝軟骨の形状と病変の定量化:画像から計量まで
Quantifying Knee Cartilage Shape and Lesion: From Image to Metrics ( http://arxiv.org/abs/2409.07361v1 ) ライセンス: Link先を確認 | Yongcheng Yao, Weitian Chen, | (参考訳) 膝関節軟骨の画像像は, 変形性膝関節症に対するバイオマーカーとして有用であることが示されている。
近年、画像分割、登録、ドメイン固有の画像処理アルゴリズムなどの画像解析技術が方法論的に進歩しているにもかかわらず、画像特徴抽出のための完全に自動化されたパイプラインの構築に注力する研究はほとんどない。
本研究では, 膝軟骨形態計測のための深層学習型医用画像解析アプリケーション CartiMorph Toolbox (CMT) を開発した。
そこで我々は,CMT-regという2段階共同テンプレート学習・登録ネットワークを提案した。
我々は,OAI-ZIBデータセットを用いてモデルを訓練し,テンプレート・ツー・イメージ登録の性能を評価した。
CMT-regは、他の最先端モデルと比較して、競争力のある結果を示した。
提案モデルを自動パイプラインに統合し,軟骨形状と病変の定量化を行った。
このツールボックスは、医療画像分析とデータ視覚化のための総合的でユーザフレンドリなソリューションを提供する。
ソフトウェアとモデルはhttps://github.com/YongchengYAO/CMT-AMAI24paperで入手できる。
Imaging features of knee articular cartilage have been shown to be potential imaging biomarkers for knee osteoarthritis. Despite recent methodological advancements in image analysis techniques like image segmentation, registration, and domain-specific image computing algorithms, only a few works focus on building fully automated pipelines for imaging feature extraction. In this study, we developed a deep-learning-based medical image analysis application for knee cartilage morphometrics, CartiMorph Toolbox (CMT). We proposed a 2-stage joint template learning and registration network, CMT-reg. We trained the model using the OAI-ZIB dataset and assessed its performance in template-to-image registration. The CMT-reg demonstrated competitive results compared to other state-of-the-art models. We integrated the proposed model into an automated pipeline for the quantification of cartilage shape and lesion (full-thickness cartilage loss, specifically). The toolbox provides a comprehensive, user-friendly solution for medical image analysis and data visualization. The software and models are available at https://github.com/YongchengYAO/CMT-AMAI24paper . | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# GitSEED - ソフトウェアエンジニアリングとプログラミング教育のためのGit支援の自動化アセスメントツール
GitSEED: A Git-backed Automated Assessment Tool for Software Engineering and Programming Education ( http://arxiv.org/abs/2409.07362v1 ) ライセンス: Link先を確認 | Pedro Orvalho, Mikoláš Janota, Vasco Manquinho, | (参考訳) プログラミングコースにかなりの数の登録があるため、学生にパーソナライズされたフィードバックを提供することが大きな課題である。
このフィードバックの性質は,被験者と選択した評価方法によって大きく異なる。
しかし、他のプログラム分析ツールを統合するために、現在のAAT(Automated Assessment Tools)を調整するのは簡単ではない。
さらに、AATは通常特定のプログラミング言語のみをサポートし、テストスイートに基づいた専用ウェブサイトを通じてのみフィードバックを提供する。
本稿では,GitLabが支援するプログラミング教育・ソフトウェア工学(SE)用に設計された言語に依存しない自動評価ツールであるGitSEEDを紹介する。
学生はGitLabを通じてGitSEEDと対話する。
GitSEEDを使用することで、コンピュータサイエンス(CS)とSEの学生は、プログラミングの課題やプロジェクトに関するパーソナライズされたフィードバックを受けながら、gitの基本をマスターすることができる。
さらに、教員は様々なコード評価ツール(メモリリーク検出、障害ローカライゼーション、プログラムの修正など)を統合することで、各CS/SEコースのニーズに合わせてパーソナライズされたフィードバックを提供することで、GitSEEDのパイプラインを簡単にカスタマイズできる。
本実験は,GitSEEDの有効性を総合的なユーザ評価を通じて評価し,フィードバックメカニズムや特徴が学生の学習結果に与える影響について検討した。
発見は、GitSEEDの使用と学生のエンゲージメントの間に肯定的な相関関係を示す。
Due to the substantial number of enrollments in programming courses, a key challenge is delivering personalized feedback to students. The nature of this feedback varies significantly, contingent on the subject and the chosen evaluation method. However, tailoring current Automated Assessment Tools (AATs) to integrate other program analysis tools is not straightforward. Moreover, AATs usually support only specific programming languages, providing feedback exclusively through dedicated websites based on test suites. This paper introduces GitSEED, a language-agnostic automated assessment tool designed for Programming Education and Software Engineering (SE) and backed by GitLab. The students interact with GitSEED through GitLab. Using GitSEED, students in Computer Science (CS) and SE can master the fundamentals of git while receiving personalized feedback on their programming assignments and projects. Furthermore, faculty members can easily tailor GitSEED's pipeline by integrating various code evaluation tools (e.g., memory leak detection, fault localization, program repair, etc.) to offer personalized feedback that aligns with the needs of each CS/SE course. Our experiments assess GitSEED's efficacy via comprehensive user evaluation, examining the impact of feedback mechanisms and features on student learning outcomes. Findings reveal positive correlations between GitSEED usage and student engagement. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# イベントベースのMosaicing Bundle Adjustment
Event-based Mosaicing Bundle Adjustment ( http://arxiv.org/abs/2409.07365v1 ) ライセンス: Link先を確認 | Shuang Guo, Guillermo Gallego, | (参考訳) 純粋に回転するイベントカメラにおけるモザイクバンドル調整(カメラ配向とシーンマップの同時改善)の問題に取り組む。
この問題を正規化された非線形最小二乗最適化として定式化する。
目的関数は、カメラ向きの線形化イベント生成モデルとシーンのパノラマ勾配マップを用いて定義される。
本研究では,このBA最適化はブロック対角方向の空間構造が有効であることを示し,この問題を効率的に解決できることを示した。
私たちの知る限りでは、イベントをイメージライクな表現に変換することなく、このような空間を利用して、イベントベースのカメラのコンテキストにおける最適化を高速化する最初の試みである。
本手法はEMBAとよばれる合成・実世界のデータセットを用いて評価し,その有効性(50%の光度誤差減少)を示し,前例のない品質の結果を得た。
さらに,高空間分解能イベントカメラを用いてEMBAを実演し,初期地図を使わずとも野生で微妙なパノラマを発生させることを示した。
プロジェクトページ:https://github.com/tub-rip/emba
We tackle the problem of mosaicing bundle adjustment (i.e., simultaneous refinement of camera orientations and scene map) for a purely rotating event camera. We formulate the problem as a regularized non-linear least squares optimization. The objective function is defined using the linearized event generation model in the camera orientations and the panoramic gradient map of the scene. We show that this BA optimization has an exploitable block-diagonal sparsity structure, so that the problem can be solved efficiently. To the best of our knowledge, this is the first work to leverage such sparsity to speed up the optimization in the context of event-based cameras, without the need to convert events into image-like representations. We evaluate our method, called EMBA, on both synthetic and real-world datasets to show its effectiveness (50% photometric error decrease), yielding results of unprecedented quality. In addition, we demonstrate EMBA using high spatial resolution event cameras, yielding delicate panoramas in the wild, even without an initial map. Project page: https://github.com/tub-rip/emba | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# デモ: SGCode: セキュアなコード生成のためのフレキシブルなプロンプト最適化システム
Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code ( http://arxiv.org/abs/2409.07368v1 ) ライセンス: Link先を確認 | Khiem Ton, Nhi Nguyen, Mahmoud Nazzal, Abdallah Khreishah, Cristian Borcea, NhatHai Phan, Ruoming Jin, Issa Khalil, Yelong Shen, | (参考訳) 本稿では,大規模言語モデル(LLM)でセキュアなコードを生成するための,フレキシブルなプロンプト最適化システムであるSGCodeを紹介する。
SGCodeは、最近のプロンプト最適化アプローチを、フロントエンドとバックエンドAPIを通じてアクセス可能な統一システムでLLMと統合し、ユーザが利用できるようにしている。
1) 脆弱性のないセキュアなコードを生成する。
2【セキュリティ分析の見直し及び共有】
3) モデルとシステムのパフォーマンスに関する洞察を提供しながら、迅速な最適化アプローチから別のアプローチに簡単に切り替えることができます。
これは、LLMとセキュリティツールを軽量な生成逆グラフニューラルネットワークと組み合わせて、生成されたコードのセキュリティ脆弱性を検出し、修正することで、プロンプトを最適化するアプローチです。
大規模な実験によると、SGCodeは、モデルユーティリティ、セキュアなコード生成、システムコストの間のトレードオフに関する洞察を得るために、公開ツールとして実用的である。
SGCode は LLM のプロンプトに比べて限界的なコストしかかからない。
SGCode は http://3.131.141.63:8501/ で利用可能である。
This paper introduces SGCode, a flexible prompt-optimizing system to generate secure code with large language models (LLMs). SGCode integrates recent prompt-optimization approaches with LLMs in a unified system accessible through front-end and back-end APIs, enabling users to 1) generate secure code, which is free of vulnerabilities, 2) review and share security analysis, and 3) easily switch from one prompt optimization approach to another, while providing insights on model and system performance. We populated SGCode on an AWS server with PromSec, an approach that optimizes prompts by combining an LLM and security tools with a lightweight generative adversarial graph neural network to detect and fix security vulnerabilities in the generated code. Extensive experiments show that SGCode is practical as a public tool to gain insights into the trade-offs between model utility, secure code generation, and system cost. SGCode has only a marginal cost compared with prompting LLMs. SGCode is available at: http://3.131.141.63:8501/. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# スライドの覚醒: 言語モデルコーディネーションによるチューニング不要で知識に制御されたAIチューニングシステム
Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination ( http://arxiv.org/abs/2409.07372v1 ) ライセンス: Link先を確認 | Daniel Zhang-Li, Zheyuan Zhang, Jifan Yu, Joy Lim Jia Yin, Shangqing Tu, Linlu Gong, Haohua Wang, Zhiyuan Liu, Huiqin Liu, Lei Hou, Juanzi Li, | (参考訳) 現存する広大なスライドは、講義知識を運ぶための豊富で重要な材料となっている。
しかし,スライド内容の多様性や不均一な授業行動により,授業スライドを効果的に活用することは困難である。
本研究では,スライドを対話型講義に変換する効果的なデザインの発見問題について検討する。
Slide2Lectureは、(1)入力された講義スライドを、一組の不均一な授業行動からなる構造化された教育課題に効果的に変換し、(2)学生の学習要求に応答する相互作用を生成するインタラクティブな講義を作成して管理し、授業行動に従うためのインタラクションを規制する、チューニング不要で知識に則った知的学習システムである。
Slide2Lectureには、学習者がスライドを学ぶためのインタラクティブな教室体験を得るための完全なパイプラインが含まれている。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
また,アノテータと学生による評価から,Slide2Lectureは,残りの実装よりも優れていることが示された。
Slide2Lectureのオンライン展開は、3Kの講義セッションで200万以上の学生と対話している。
私たちはSlide2Lectureの実装をhttps://anonymous.4open.science/r/slide2lecture-4210/でオープンソース化しました。
The vast pre-existing slides serve as rich and important materials to carry lecture knowledge. However, effectively leveraging lecture slides to serve students is difficult due to the multi-modal nature of slide content and the heterogeneous teaching actions. We study the problem of discovering effective designs that convert a slide into an interactive lecture. We develop Slide2Lecture, a tuning-free and knowledge-regulated intelligent tutoring system that can (1) effectively convert an input lecture slide into a structured teaching agenda consisting of a set of heterogeneous teaching actions; (2) create and manage an interactive lecture that generates responsive interactions catering to student learning demands while regulating the interactions to follow teaching actions. Slide2Lecture contains a complete pipeline for learners to obtain an interactive classroom experience to learn the slide. For teachers and developers, Slide2Lecture enables customization to cater to personalized demands. The evaluation rated by annotators and students shows that Slide2Lecture is effective in outperforming the remaining implementation. Slide2Lecture's online deployment has made more than 200K interaction with students in the 3K lecture sessions. We open source Slide2Lecture's implementation in https://anonymous.4open.science/r/slide2lecture-4210/. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# FIRAL: 多項ロジスティック回帰のためのアクティブラーニングアルゴリズム
FIRAL: An Active Learning Algorithm for Multinomial Logistic Regression ( http://arxiv.org/abs/2409.07379v1 ) ライセンス: Link先を確認 | Youguang Chen, George Biros, | (参考訳) 多項ロジスティック回帰を用いた多クラス分類のためのプール型アクティブラーニングの理論とアルゴリズムについて検討する。
有限サンプル分析を用いて,FIR(Fisher Information Ratio)が過大なリスクを負うことを証明した。
理論的解析に基づき,FIRの最小化のために,後悔の最小化を利用する能動的学習アルゴリズムを提案する。
得られた過剰なリスク境界を検証するために、我々は合成データセットの実験を行う。
MNIST, CIFAR-10, 50-class ImageNetで実証されたように, 多クラスロジスティック回帰設定において最小の分類誤差を連続的に生成する。
We investigate theory and algorithms for pool-based active learning for multiclass classification using multinomial logistic regression. Using finite sample analysis, we prove that the Fisher Information Ratio (FIR) lower and upper bounds the excess risk. Based on our theoretical analysis, we propose an active learning algorithm that employs regret minimization to minimize the FIR. To verify our derived excess risk bounds, we conduct experiments on synthetic datasets. Furthermore, we compare FIRAL with five other methods and found that our scheme outperforms them: it consistently produces the smallest classification error in the multiclass logistic regression setting, as demonstrated through experiments on MNIST, CIFAR-10, and 50-class ImageNet. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 量子代数フレームワークを用いたビリヤードのコヒーレント状態への直接的アプローチ
A direct approach to coherent states of billiards using a quantum algebra framework ( http://arxiv.org/abs/2409.07385v1 ) ライセンス: Link先を確認 | A. C. Maioli, E. M. F. Curado, | (参考訳) 量子ビリヤードは量子力学の重要な焦点であり、複雑な量子的特徴を研究するための単純だが強力なモデルを提供する。
量子系の代数の発展は、一次元可積分モデルから量子群や一般化ハイゼンベルク代数(GHA)まで遡る。
この研究の主な焦点は、GHAを量子ビリヤードに拡張し、分離可能で非分離可能ビリヤードへの応用を示すことである。
正方形ビリヤードに定式化を適用し、まず特定の量子数を持つ1次元のコヒーレント状態を生成し、その時間進化を探索し、その後、このアプローチを拡張して2次元ビリヤードのコヒーレント状態を開発する。
また、その適用性を非分離等角三角形ビリヤードで示し、それらの代数生成元と関連する一次元コヒーレント状態を記述する。
Quantum billiards are a key focus in quantum mechanics, offering a simple yet powerful model to study complex quantum features. While the development of algebras for quantum systems is traced from one-dimensional integrable models to quantum groups and the Generalized Heisenberg Algebra (GHA). The primary focus of this work is to extend the GHA to quantum billiards, showcasing its application to separable and non-separable billiards. We apply the formalism to a square billiard, first generating one-dimensional coherent states with specific quantum numbers and exploring their time evolution.Then, we extend this approach to develop two-dimensional coherent states for the square billiards. We also demonstrate its applicability in a non-separable equilateral triangle billiard, describing their algebra generators and associated one-dimensional coherent states. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 連続学習課題に対する比較対称フォワードアルゴリズム(SFFA)
A Contrastive Symmetric Forward-Forward Algorithm (SFFA) for Continual Learning Tasks ( http://arxiv.org/abs/2409.07387v1 ) ライセンス: Link先を確認 | Erik B. Terres-Escudero, Javier Del Ser, Pablo Garcia Bringas, | (参考訳) いわゆるフォワードフォワードアルゴリズム(FFA)は、ニューラルネットワーク学習の従来のバックプロパゲーションアルゴリズムの代替として、最近勢いを増し、様々なモデリングタスク間で競合するパフォーマンスを生み出している。
勾配の後方伝播の後方通過を2つの対照的な前方通過に置き換えることにより、FFAは、階層的なトレーニングヒューリスティックを可能にすることにより、前者(例えば、消滅/爆発勾配)によるいくつかの欠点を避けることができる。
分類タスクにおいて、このコントラスト法は、入力データの潜在スパース表現を効果的に生成することが証明され、最終的には識別可能性を好む。
しかし、FFAは、正と負のデータの間の不均衡な損失関数による固有の非対称な勾配挙動を示し、モデルの一般化能力に悪影響を及ぼし、精度を低下させる。
この問題に対処するため、本研究では、各層を正および負のニューロンに分割するオリジナルのFFAの新たな修正である、Symmetric Forward-Forward Algorithm (SFFA)を提案する。
これにより、局所的なフィットネス関数は、正のニューロンの活性化と全体の層活動の比として定義され、トレーニングフェーズ中に対称的な損失ランドスケープをもたらす。
本手法の収束性を評価するため,複数の画像分類ベンチマークを用いて,SFFAで訓練したモデルの精度とFFAで訓練したモデルの精度を比較した。
この改革の副産物として、連続学習(CL)タスクに階層的学習アルゴリズムを用いることの利点について検討する。
神経細胞の特殊化とレイヤーワイドトレーニングアルゴリズムによって誘導される活性化の空間性により、ニューラルネットワークに新しい知識(クラス)を組み込む効率的なCL戦略が実現される。
The so-called Forward-Forward Algorithm (FFA) has recently gained momentum as an alternative to the conventional back-propagation algorithm for neural network learning, yielding competitive performance across various modeling tasks. By replacing the backward pass of gradient back-propagation with two contrastive forward passes, the FFA avoids several shortcomings undergone by its predecessor (e.g., vanishing/exploding gradient) by enabling layer-wise training heuristics. In classification tasks, this contrastive method has been proven to effectively create a latent sparse representation of the input data, ultimately favoring discriminability. However, FFA exhibits an inherent asymmetric gradient behavior due to an imbalanced loss function between positive and negative data, adversely impacting on the model's generalization capabilities and leading to an accuracy degradation. To address this issue, this work proposes the Symmetric Forward-Forward Algorithm (SFFA), a novel modification of the original FFA which partitions each layer into positive and negative neurons. This allows the local fitness function to be defined as the ratio between the activation of positive neurons and the overall layer activity, resulting in a symmetric loss landscape during the training phase. To evaluate the enhanced convergence of our method, we conduct several experiments using multiple image classification benchmarks, comparing the accuracy of models trained with SFFA to those trained with its FFA counterpart. As a byproduct of this reformulation, we explore the advantages of using a layer-wise training algorithm for Continual Learning (CL) tasks. The specialization of neurons and the sparsity of their activations induced by layer-wise training algorithms enable efficient CL strategies that incorporate new knowledge (classes) into the neural network, while preventing catastrophic forgetting of previously... | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# マルチモーダル・アフェクティブ・コンピューティングの最新動向:NLPの視点から
Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective ( http://arxiv.org/abs/2409.07388v1 ) ライセンス: Link先を確認 | Guimin Hu, Yi Xin, Weimin Lyu, Haojian Huang, Chang Sun, Zhihong Zhu, Lin Gui, Ruichu Cai, | (参考訳) マルチモーダル感情コンピューティング(MAC)は、人間の行動や意図、特にテキストが支配するマルチモーダル感情コンピューティング分野において広く応用されているため、注目を集めている。
マルチモーダル感情分析,会話におけるマルチモーダル感情認識,マルチモーダル・アスペクトベース感情分析,マルチモーダル・マルチラベル感情認識という4つのホットタスクを通じて,NLPの観点からのマルチモーダル感情コンピューティングの最近の動向を示す。
本調査の目的は、マルチモーダル感情研究の現在の状況を探究し、開発動向を特定し、様々なタスクの類似点と相違点を明らかにすることであり、NLPの観点からのマルチモーダル感情コンピューティングの最近の進歩に関する総合的なレポートを提供する。
本調査では、タスクの形式化、関連する作業の概要、ベンチマークデータセットの説明、各タスクの評価基準の詳細について紹介する。
さらに、表情、音響信号、生理的信号、感情の原因を含むマルチモーダル感情コンピューティングの研究についても、簡潔に論じる。
さらに,マルチモーダル感情コンピューティングにおける技術的アプローチ,課題,今後の方向性についても論じる。
さらなる研究を支援するため、我々はマルチモーダルな感情コンピューティングにおける関連研究をコンパイルし、コミュニティに詳細なリソースと参照を提供するレポジトリをリリースした。
Multimodal affective computing (MAC) has garnered increasing attention due to its broad applications in analyzing human behaviors and intentions, especially in text-dominated multimodal affective computing field. This survey presents the recent trends of multimodal affective computing from NLP perspective through four hot tasks: multimodal sentiment analysis, multimodal emotion recognition in conversation, multimodal aspect-based sentiment analysis and multimodal multi-label emotion recognition. The goal of this survey is to explore the current landscape of multimodal affective research, identify development trends, and highlight the similarities and differences across various tasks, offering a comprehensive report on the recent progress in multimodal affective computing from an NLP perspective. This survey covers the formalization of tasks, provides an overview of relevant works, describes benchmark datasets, and details the evaluation metrics for each task. Additionally, it briefly discusses research in multimodal affective computing involving facial expressions, acoustic signals, physiological signals, and emotion causes. Additionally, we discuss the technical approaches, challenges, and future directions in multimodal affective computing. To support further research, we released a repository that compiles related works in multimodal affective computing, providing detailed resources and references for the community. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# D-CAPTCHA++:D-CAPTCHAの感染性障害に対する耐性の検討
D-CAPTCHA++: A Study of Resilience of Deepfake CAPTCHA under Transferable Imperceptible Adversarial Attack ( http://arxiv.org/abs/2409.07390v1 ) ライセンス: Link先を確認 | Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen, Nhien-An Le-Khac, | (参考訳) 生成AIの進歩により、音声合成モデルの改善が可能になった。
このことは、合成音声が自然の人間のスピーチと区別できないようになり、社会的操作や政治的干渉における潜在的な誤用に関する懸念を提起する。
いくつかの音声生成プログラムは悪意ある目的、特に電話を通じて個人を偽装する目的で利用される。
したがって,偽音声の検出は社会保障の維持と情報の整合性の確保に不可欠である。
近年の研究では、実際の通話と偽の通話を区別するチャレンジ応答プロトコルに基づくD-CAPTCHAシステムを提案する。
本研究では,このシステムのレジリエンスについて検討し,より堅牢なD-CAPTCHA++を導入し,フェイクコールに対する防御を行う。
具体的には、D-CAPTCHAシステムの脆弱性を、転送不能な逆境攻撃下で最初に明らかにする。
第2に,D-CAPTCHAディープフェイク検出器とタスク分類器の対向トレーニングを用いて,システムの堅牢性を向上させることにより,このような脆弱性を軽減する。
The advancements in generative AI have enabled the improvement of audio synthesis models, including text-to-speech and voice conversion. This raises concerns about its potential misuse in social manipulation and political interference, as synthetic speech has become indistinguishable from natural human speech. Several speech-generation programs are utilized for malicious purposes, especially impersonating individuals through phone calls. Therefore, detecting fake audio is crucial to maintain social security and safeguard the integrity of information. Recent research has proposed a D-CAPTCHA system based on the challenge-response protocol to differentiate fake phone calls from real ones. In this work, we study the resilience of this system and introduce a more robust version, D-CAPTCHA++, to defend against fake calls. Specifically, we first expose the vulnerability of the D-CAPTCHA system under transferable imperceptible adversarial attack. Secondly, we mitigate such vulnerability by improving the robustness of the system by using adversarial training in D-CAPTCHA deepfake detectors and task classifiers. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 能動学習のためのスケーラブルアルゴリズム
A Scalable Algorithm for Active Learning ( http://arxiv.org/abs/2409.07392v1 ) ライセンス: Link先を確認 | Youguang Chen, Zheyu Wen, George Biros, | (参考訳) FIRALは、ロジスティック回帰を用いた多クラス分類のための、最近提案された決定論的能動学習アルゴリズムである。
精度とロバスト性は最先端技術よりも優れており、理論的な性能保証が伴っている。
しかし、そのスケーラビリティは、大量の点を持つデータセットを扱う場合、$n$、$d$、$c$、$\mathcal{O}(c^2d^2+nc^2d)$ストレージと$\mathcal{O}(c^3(nd^2 + bd^3 + bn))$ストレージのため、$b$はアクティブラーニングで選択する点数である。
これらの課題に対処するため、ストレージ要求を$\mathcal{O}(n(d+c) + cd^2)$に減らし、計算複雑性を$\mathcal{O}(bncd^2)$とする近似アルゴリズムを提案する。
さらに,GPU上での並列実装を提案する。
MNIST, CIFAR-10, Caltech101, ImageNet を用いたアプローチの精度とスケーラビリティを実証した。
精度試験の結果,FIRALに比べ精度の劣化は認められなかった。
我々は、300万ポイントの合成データセットに対して、最大12GPUの強い、弱いスケーリングテストを報告します。
FIRAL is a recently proposed deterministic active learning algorithm for multiclass classification using logistic regression. It was shown to outperform the state-of-the-art in terms of accuracy and robustness and comes with theoretical performance guarantees. However, its scalability suffers when dealing with datasets featuring a large number of points $n$, dimensions $d$, and classes $c$, due to its $\mathcal{O}(c^2d^2+nc^2d)$ storage and $\mathcal{O}(c^3(nd^2 + bd^3 + bn))$ computational complexity where $b$ is the number of points to select in active learning. To address these challenges, we propose an approximate algorithm with storage requirements reduced to $\mathcal{O}(n(d+c) + cd^2)$ and a computational complexity of $\mathcal{O}(bncd^2)$. Additionally, we present a parallel implementation on GPUs. We demonstrate the accuracy and scalability of our approach using MNIST, CIFAR-10, Caltech101, and ImageNet. The accuracy tests reveal no deterioration in accuracy compared to FIRAL. We report strong and weak scaling tests on up to 12 GPUs, for three million point synthetic dataset. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# AdaCAD: 文脈知識とパラメトリック知識の衝突のバランスをとるための適応デコーディング
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge ( http://arxiv.org/abs/2409.07394v1 ) ライセンス: Link先を確認 | Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal, | (参考訳) 知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
これは標準的なデコードテクニックを使用する場合のパフォーマンスを損なう可能性があるため、コンテキストを無視する傾向がある。
既存のテスト時間コントラスト法では、LLMの出力分布を文脈と無条件で比較し、それらのコントラストに応じてモデルを調整することで、この問題に対処しようとしている。
しかし、これらの手法は競合の程度を誤解し、競合の量が異なるインスタンスを扱うのに苦労することが多く、競合が欠如している場合には静的メソッドが過度に調整される。
本稿では,文脈的知識とパラメトリック知識を表わす分布のJensen-Shannon分散によって測定されるように,コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度のインスタンスレベルのアプローチを提案する。
我々は,6つの多様な質問応答(QA)データセットと3つの要約タスクに関する4つのモデルにおいて,トレーニング不要適応法が静的なコントラストベースラインに対して平均14.21%(絶対)の精度でQA上の他の復号法を一貫して上回り,要約の事実性を5.59倍(AlignScore)改善することを示した。
さらに,コンフリクトが欠如している場合,コントラストベースラインによる復号化はパフォーマンスを損なうが,AdaCADはこれらの損失を軽減し,いくつかの例が矛盾している実世界のデータセットに適用しやすくする。
Knowledge conflict arises from discrepancies between information in the context of a large language model (LLM) and the knowledge stored in its parameters. This can hurt performance when using standard decoding techniques, which tend to ignore the context. Existing test-time contrastive methods seek to address this by comparing the LLM's output distribution with and without the context and adjust the model according to the contrast between them. However, we find that these methods frequently misjudge the degree of conflict and struggle to handle instances that vary in their amount of conflict, with static methods over-adjusting when conflict is absent. We propose a fine-grained, instance-level approach called AdaCAD, which dynamically infers the weight of adjustment based on the degree of conflict, as measured by the Jensen-Shannon divergence between distributions representing contextual and parametric knowledge. Our experiments across four models on six diverse question-answering (QA) datasets and three summarization tasks demonstrate that our training-free adaptive method consistently outperforms other decoding methods on QA, with average accuracy gains of 14.21% (absolute) over a static contrastive baseline, and improves the factuality of summaries by 5.59 (AlignScore). Furthermore, our analysis shows that while decoding with contrastive baselines hurts performance when conflict is absent, AdaCAD mitigates these losses, making it more applicable to real-world datasets in which some examples have conflict and others do not. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 新しいスピンフィルタ生成の理論開発
Theoretical development of a new spin filter generation ( http://arxiv.org/abs/2409.07396v1 ) ライセンス: Link先を確認 | Nicolas Faatz, Ralf Engels, Bernd Breitkreuz, Helmut Soltner, Chrysovalantis Kannis, | (参考訳) 量子力学の初期から、全ての原子の中で最も単純な水素は、新しい物理学の研究や研究に用いられてきた。
平行して、この知識は、例えば電子スピン m_s=1/2 を持つ単一超微粒子の準安定水素原子を分離するためのスピンフィルターなど、異なる応用をもたらす。
その後、この研究は、新しい世代のスピンフィルタを構築するために必要な理論と実験条件を提供し、4つの個々の準安定水素超微粒子状態と、対応するビームの同位体の分離を可能にする。
Since the early days of quantum mechanics hydrogen, as the simplest of all atoms, has been studied or used to investigate new physics. In parallel, this knowledge leads to different applications, e.g. a spin filter to separate metastable hydrogen atoms in single hyperfine substates with electron spin m_s=1/2. Subsequently, this work provides the necessary theory as well as experimental conditions to build a new generation of spin filter which permits the separation of all four individual metastable hydrogen hyperfine states as well as for its isotopes in a corresponding beam. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 静的特徴ベースAndroidマルウェア検出の再検討
Revisiting Static Feature-Based Android Malware Detection ( http://arxiv.org/abs/2409.07397v1 ) ライセンス: Link先を確認 | Md Tanvirul Alam, Dipkamal Bhusal, Nidhi Rastogi, | (参考訳) コンピュータセキュリティにおける機械学習(ML)への依存度の増加は、特にマルウェア分類において大きな進歩をもたらした。
しかし、これらの結果の再現性と再現性はしばしば見過ごされ、研究結果の検証に困難が生じる。
本稿では,Androidのマルウェア検出におけるML研究の妥当性を損なう致命的な落とし穴を,データセットと方法論の問題に焦点をあてる。
2つのデータセットを用いてAndroidのマルウェア検出を包括的に分析し、6つの広く使用されているMLモデルを用いてオフラインおよび連続的な学習設定を評価する。
我々の研究は、適切に調整された場合、より単純なベースライン法がより複雑なモデルより優れていることを明らかにしている。
再現性の問題に対処するため、より公平なモデル比較を可能にするため、データセットと方法論の実践を改善するためのソリューションを提案する。
さらに、マルウェア分析を容易にするためにコードをオープンソース化し、新しいモデルやデータセットに拡張できるようにしています。
本研究の目的は,Androidのマルウェア検出やその他のセキュリティ領域における今後の研究を支援することであり,その結果の信頼性と再現性を高めることである。
The increasing reliance on machine learning (ML) in computer security, particularly for malware classification, has driven significant advancements. However, the replicability and reproducibility of these results are often overlooked, leading to challenges in verifying research findings. This paper highlights critical pitfalls that undermine the validity of ML research in Android malware detection, focusing on dataset and methodological issues. We comprehensively analyze Android malware detection using two datasets and assess offline and continual learning settings with six widely used ML models. Our study reveals that when properly tuned, simpler baseline methods can often outperform more complex models. To address reproducibility challenges, we propose solutions for improving datasets and methodological practices, enabling fairer model comparisons. Additionally, we open-source our code to facilitate malware analysis, making it extensible for new models and datasets. Our paper aims to support future research in Android malware detection and other security domains, enhancing the reliability and reproducibility of published results. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# 連続時間確率勾配勾配の収束と線形ディープニューラルネットワークへの応用
Convergence of continuous-time stochastic gradient descent with applications to linear deep neural networks ( http://arxiv.org/abs/2409.07401v1 ) ライセンス: Link先を確認 | Gabor Lugosi, Eulalia Nualart, | (参考訳) 本研究では,確率勾配降下過程を連続的に近似し,学習問題の損失を最小化する手法を提案する。
主な結果は収束のための一般的な条件を確立し、(非確率的な)勾配降下のために確立されたChatterjee (2022) の結果を拡張した。
本稿では、過度にパラメータ化された線形ニューラルネットワークトレーニングの場合に、主要な結果がどのように適用できるかを示す。
We study a continuous-time approximation of the stochastic gradient descent process for minimizing the expected loss in learning problems. The main results establish general sufficient conditions for the convergence, extending the results of Chatterjee (2022) established for (nonstochastic) gradient descent. We show how the main result can be applied to the case of overparametrized linear neural network training. | 翻訳日:2024-09-12 13:53:24 公開日:2024-09-11 |
# マルチモーダルコントラスト学習における整合性について
What to align in multimodal contrastive learning? ( http://arxiv.org/abs/2409.07402v1 ) ライセンス: Link先を確認 | Benoit Dufumier, Javiera Castillo-Navarro, Devis Tuia, Jean-Philippe Thiran, | (参考訳) 人間は多感覚の統合を通じて世界を知覚し、様々なモダリティの情報をブレンドして行動に適応する。
コントラスト学習は、マルチモーダルな自己教師型学習に魅力的なソリューションを提供する。
実際、各モダリティを同じ実体の異なる視点として考えることで、共有表現空間における異なるモダリティの特徴を整列することを学ぶ。
しかし、このアプローチはモダリティ間の共有情報や冗長情報のみを学習するのに対して、マルチモーダル相互作用は別の方法で発生するため、本質的に制限されている。
本研究では,単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略であるCoMMを紹介する。
そこで本研究では,これらのマルチモーダル特徴の強化版間の相互情報を最大化することにより,多モーダル表現の整合性を高めることを提案する。
この定式化から,共有的,相乗的,独特な情報表現が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
前者では、CoMMがモダリティ間の冗長でユニークでシナジスティックな情報を効果的にキャプチャすることを示した。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
Humans perceive the world through multisensory integration, blending the information of different modalities to adapt their behavior. Contrastive learning offers an appealing solution for multimodal self-supervised learning. Indeed, by considering each modality as a different view of the same entity, it learns to align features of different modalities in a shared representation space. However, this approach is intrinsically limited as it only learns shared or redundant information between modalities, while multimodal interactions can arise in other ways. In this work, we introduce CoMM, a Contrastive MultiModal learning strategy that enables the communication between modalities in a single multimodal space. Instead of imposing cross- or intra- modality constraints, we propose to align multimodal representations by maximizing the mutual information between augmented versions of these multimodal features. Our theoretical analysis shows that shared, synergistic and unique terms of information naturally emerge from this formulation, allowing us to estimate multimodal interactions beyond redundancy. We test CoMM both in a controlled and in a series of real-world settings: in the former, we demonstrate that CoMM effectively captures redundant, unique and synergistic information between modalities. In the latter, CoMM learns complex multimodal interactions and achieves state-of-the-art results on the six multimodal benchmarks. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# 量子機械学習による量子多体スカーの発見
Uncovering Quantum Many-body Scars with Quantum Machine Learning ( http://arxiv.org/abs/2409.07405v1 ) ライセンス: Link先を確認 | Jiajin Feng, Bingzhi Zhang, Zhi-Cheng Yang, Quntao Zhuang, | (参考訳) 量子多体傷は多体系のカオススペクトルの中に隠れた稀な固有状態であり、固有状態熱化仮説(ETH)の弱い違反を示す。
複雑な量子系の他の非熱的状態と同様に、これらの傷跡を同定することは依然として重要な課題である。
正確な不足状態の他に、単純な解析的特徴を持たない他の非熱的状態の性質は未解決の問題である。
本研究では、量子機械学習(特に量子畳み込みニューラルネットワーク(QCNN))のツールを用いて、カオス多体システムにおける隠れた非熱的状態を探索する。
シミュレーションにより、QCNNは、既知の全ての傷を識別する際、99%以上の単発測定精度を達成できることが示された。
さらに,xorXモデル,PXPモデル,Su-Schrieffer-Heegerモデルなどのモデルにおける新しい非熱的状態の同定に成功した。
xorXモデルでは、これらの非熱的状態のいくつかは、特定の準粒子のスピン波モードとして概ね記述できる。
さらに、この多体固有状態の重要な特徴を捉えるために、準粒子部分空間内で効果的な強結合ハミルトニアンを開発する。
最後に,IBM量子デバイス上でのQCNNの性能を検証し,実環境のノイズや誤差下での単発計測精度を63%以上達成し,誤差低減技術を用いて検証した。
この結果から,量子多体系における隠れた非熱的状態を明らかにするQCNNの可能性が示唆された。
Quantum many-body scars are rare eigenstates hidden within the chaotic spectra of many-body systems, representing a weak violation of the eigenstate thermalization hypothesis (ETH). Identifying these scars, as well as other non-thermal states in complex quantum systems, remains a significant challenge. Besides exact scar states, the nature of other non-thermal states lacking simple analytical characterization remains an open question. In this study, we employ tools from quantum machine learning -- specifically, quantum convolutional neural networks (QCNNs), to explore hidden non-thermal states in chaotic many-body systems. Our simulations demonstrate that QCNNs achieve over 99% single-shot measurement accuracy in identifying all known scars. Furthermore, we successfully identify new non-thermal states in models such as the xorX model, the PXP model, and the far-coupling Su-Schrieffer-Heeger model. In the xorX model, some of these non-thermal states can be approximately described as spin-wave modes of specific quasiparticles. We further develop effective tight-binding Hamiltonians within the quasiparticle subspace to capture key features of these many-body eigenstates. Finally, we validate the performance of QCNNs on IBM quantum devices, achieving single-shot measurement accuracy exceeding 63% under real-world noise and errors, with the aid of error mitigation techniques. Our results underscore the potential of QCNNs to uncover hidden non-thermal states in quantum many-body systems. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# CLNX: C/C++の脆弱性検出のためのコードと自然言語のブリッジ
CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification ( http://arxiv.org/abs/2409.07407v1 ) ライセンス: Link先を確認 | Zeqing Qin, Yiwei Wu, Lansheng Han, | (参考訳) 大規模言語モデル(LLM)は脆弱性の識別に大きな可能性を示しています。
C/C++は過去10年間でオープンソースソフトウェア(OSS)の脆弱性の半分を占めており、OSSの更新は主にコミットを通じて行われる。
しかし、最近の研究は主に、リソース集約的で効率の課題を生じさせる巨大なコードデータセット上で、LLMをさらに事前訓練することに焦点を当てている。
本稿では,BERT をベースとした LLM による C/C++ VCC の軽量化について述べる。
C/C++ プログラムと LLM 間の通信を容易にするブリッジとして CodeLinguaNexus (CLNX) を提案する。
コミットに基づいて、CLNXはソースコードをより自然な表現に変換すると同時に、キーの詳細を保存する。
具体的には、CLNXはまず複雑なプログラムを分解するために構造レベルの自然化を適用し、続いてトークンレベルの自然化によって複雑なシンボルを解釈する。
CLNXを25,872のC/C++関数の公開データセットにコミットして評価した。
その結果,CLNX は C/C++ VCC の識別における LLM の性能を著しく向上させることがわかった。
さらに、CLNX搭載のCodeBERTは、新しい最先端を実現し、現実世界で38のOSS脆弱性を特定している。
Large Language Models (LLMs) have shown great promise in vulnerability identification. As C/C++ comprises half of the Open-Source Software (OSS) vulnerabilities over the past decade and updates in OSS mainly occur through commits, enhancing LLMs' ability to identify C/C++ Vulnerability-Contributing Commits (VCCs) is essential. However, current studies primarily focus on further pre-training LLMs on massive code datasets, which is resource-intensive and poses efficiency challenges. In this paper, we enhance the ability of BERT-based LLMs to identify C/C++ VCCs in a lightweight manner. We propose CodeLinguaNexus (CLNX) as a bridge facilitating communication between C/C++ programs and LLMs. Based on commits, CLNX efficiently converts the source code into a more natural representation while preserving key details. Specifically, CLNX first applies structure-level naturalization to decompose complex programs, followed by token-level naturalization to interpret complex symbols. We evaluate CLNX on public datasets of 25,872 C/C++ functions with their commits. The results show that CLNX significantly enhances the performance of LLMs on identifying C/C++ VCCs. Moreover, CLNX-equipped CodeBERT achieves new state-of-the-art and identifies 38 OSS vulnerabilities in the real world. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# Robust Robot Walker: アジャイルのロコモーションをTiny Trapsで学ぶ
Robust Robot Walker: Learning Agile Locomotion over Tiny Traps ( http://arxiv.org/abs/2409.07409v1 ) ライセンス: Link先を確認 | Shaoting Zhu, Runhan Huang, Linzhan Mou, Hang Zhao, | (参考訳) 四足歩行ロボットは、実用的な用途に頑丈な歩行能力を持たなければならない。
本研究では,四足歩行ロボットが様々な小さな障害物や「小さなトラップ」を通過できるようにする手法を提案する。
既存の方法は、しばしば外部受容センサーに依存しており、そのような小さなトラップを検出するには信頼性が低い。
この制限を克服するために、我々のアプローチは、受容性入力にのみ焦点をあてる。
本稿では,異なるトラップの暗黙的表現を学習するために,コンタクトエンコーダと分類ヘッドを組み込んだ2段階のトレーニングフレームワークを提案する。
さらに、トレーニングの安定性と目標追跡タスクの展開容易性の両方を改善するために、一連の報酬関数を設計する。
さらなる研究の恩恵を受けるため、我々は小さなトラップタスクのための新しいベンチマークを設計する。
本手法の有効性とロバスト性を示すため,シミュレーションと実世界の双方での大規模な実験を行った。
Project Page: https://robust-robot-walker.github.io/
Quadruped robots must exhibit robust walking capabilities in practical applications. In this work, we propose a novel approach that enables quadruped robots to pass various small obstacles, or "tiny traps". Existing methods often rely on exteroceptive sensors, which can be unreliable for detecting such tiny traps. To overcome this limitation, our approach focuses solely on proprioceptive inputs. We introduce a two-stage training framework incorporating a contact encoder and a classification head to learn implicit representations of different traps. Additionally, we design a set of tailored reward functions to improve both the stability of training and the ease of deployment for goal-tracking tasks. To benefit further research, we design a new benchmark for tiny trap task. Extensive experiments in both simulation and real-world settings demonstrate the effectiveness and robustness of our method. Project Page: https://robust-robot-walker.github.io/ | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# 剥離と知識伝達によるマニフォールド学習
Manifold Learning via Foliations and Knowledge Transfer ( http://arxiv.org/abs/2409.07412v1 ) ライセンス: Link先を確認 | E. Tron, E. Fioresi, | (参考訳) 実際のデータが高次元空間に分散されていることを理解することが、機械学習における多くのタスクの鍵となる。
我々は、分類器として訓練された深部ReLUニューラルネットワークを用いて、データ空間に自然な幾何学的構造を提供したいと思っています。
フィッシャー情報行列のバリエーションであるデータ情報行列(DIM)を通して、モデルはデータの空間上の特異な葉構造を識別する。
そのような葉の特異点が測度ゼロ集合に含まれており、局所正則葉は至る所に存在することを示す。
実験により、データは葉の葉と相関していることが示された。
さらに、DIMのスペクトルを分析し、データセット間の距離を測定することにより、知識伝達のためのアプローチの可能性を示す。
Understanding how real data is distributed in high dimensional spaces is the key to many tasks in machine learning. We want to provide a natural geometric structure on the space of data employing a deep ReLU neural network trained as a classifier. Through the data information matrix (DIM), a variation of the Fisher information matrix, the model will discern a singular foliation structure on the space of data. We show that the singular points of such foliation are contained in a measure zero set, and that a local regular foliation exists almost everywhere. Experiments show that the data is correlated with leaves of such foliation. Moreover we show the potential of our approach for knowledge transfer by analyzing the spectrum of the DIM to measure distances between datasets. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# NVRC: ニューラルビデオ表現圧縮
NVRC: Neural Video Representation Compression ( http://arxiv.org/abs/2409.07414v1 ) ライセンス: Link先を確認 | Ho Man Kwan, Ge Gao, Fan Zhang, Andrew Gower, David Bull, | (参考訳) 暗黙的ニューラル表現(INR)に基づくビデオ符号化の最近の進歩は、従来のものと他の学習に基づくアプローチの両方と競合する可能性を示している。
INR法では、ニューラルネットワークはビデオシーケンスに過度に適合するように訓練され、そのパラメータは圧縮され、ビデオコンテンツのコンパクトな表現が得られる。
しかし、有望な結果が得られたものの、最も優れたINRベースの手法は、VVC VTMのような最新の標準コーデックよりも性能が優れている。
本稿では、既存の多くの作品のように表現アーキテクチャに焦点をあてるのではなく、新しいINRベースのビデオ圧縮フレームワークであるNeural Video Representation Compression (NVRC)を提案する。
NVRCは、新しいエントロピー符号化と量子化モデルに基づいて、INRベースのビデオコーデックを完全にエンドツーエンドに最適化することができる。
エントロピーモデルによってもたらされる新たなビットレートオーバーヘッドを最小化するため,ネットワーク,量子化,エントロピーモデルパラメータを階層的に符号化する新しいモデル圧縮フレームワークも提案した。
実験の結果,PSNRで測定したVVC VTM(Random Access)よりも平均24%の速度で,従来のベンチマークコーデックと学習ベースのベンチマークコーデックを24%上回った。
私たちが知っている限りでは、INRベースのビデオコーデックがそのようなパフォーマンスを達成するのはこれが初めてです。
NVRCの実装はwww.github.comで公開される。
Recent advances in implicit neural representation (INR)-based video coding have demonstrated its potential to compete with both conventional and other learning-based approaches. With INR methods, a neural network is trained to overfit a video sequence, with its parameters compressed to obtain a compact representation of the video content. However, although promising results have been achieved, the best INR-based methods are still out-performed by the latest standard codecs, such as VVC VTM, partially due to the simple model compression techniques employed. In this paper, rather than focusing on representation architectures as in many existing works, we propose a novel INR-based video compression framework, Neural Video Representation Compression (NVRC), targeting compression of the representation. Based on the novel entropy coding and quantization models proposed, NVRC, for the first time, is able to optimize an INR-based video codec in a fully end-to-end manner. To further minimize the additional bitrate overhead introduced by the entropy models, we have also proposed a new model compression framework for coding all the network, quantization and entropy model parameters hierarchically. Our experiments show that NVRC outperforms many conventional and learning-based benchmark codecs, with a 24% average coding gain over VVC VTM (Random Access) on the UVG dataset, measured in PSNR. As far as we are aware, this is the first time an INR-based video codec achieving such performance. The implementation of NVRC will be released at www.github.com. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# SoK:医療AIのセキュリティとプライバシリスク
SoK: Security and Privacy Risks of Medical AI ( http://arxiv.org/abs/2409.07415v1 ) ライセンス: Link先を確認 | Yuanhaur Chang, Han Liu, Evin Jaff, Chenyang Lu, Ning Zhang, | (参考訳) テクノロジーと医療の統合は、人工知能と機械学習を利用したソフトウェアシステムが、医療製品やサービスの不可欠なコンポーネントとなった新しい時代に幕を閉じた。
これらの進歩は、患者のケアと医療提供の効率化に大きく貢献する一方で、機密性の高い医療データや、潜在的なサイバー攻撃に対するシステムの整合性も明らかにしている。
本稿では、医療におけるAI/MLアプリケーションによるセキュリティとプライバシの脅威について検討する。
医療分野における既存研究の徹底的な調査を通じて、医療AIシステムを対象とした敵攻撃の理解において、大きなギャップが見つかった。
医療設定のための特定の敵対的脅威モデルの概要と、脆弱なアプリケーションドメインを特定することによって、AI駆動型医療システムのセキュリティとレジリエンスを調査する将来の研究の基盤を築いた。
さまざまな脅威モデルの解析と、異なる医療領域における敵対的攻撃に関するフィージビリティスタディを通じて、急速に発展するAI医療技術分野におけるサイバーセキュリティ研究の必要性に対する説得力のある洞察を提供する。
The integration of technology and healthcare has ushered in a new era where software systems, powered by artificial intelligence and machine learning, have become essential components of medical products and services. While these advancements hold great promise for enhancing patient care and healthcare delivery efficiency, they also expose sensitive medical data and system integrity to potential cyberattacks. This paper explores the security and privacy threats posed by AI/ML applications in healthcare. Through a thorough examination of existing research across a range of medical domains, we have identified significant gaps in understanding the adversarial attacks targeting medical AI systems. By outlining specific adversarial threat models for medical settings and identifying vulnerable application domains, we lay the groundwork for future research that investigates the security and resilience of AI-driven medical systems. Through our analysis of different threat models and feasibility studies on adversarial attacks in different medical domains, we provide compelling insights into the pressing need for cybersecurity research in the rapidly evolving field of AI healthcare technology. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# リストワイズ・レコメンデーションの時間的抽象化のための階層的強化学習
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation ( http://arxiv.org/abs/2409.07416v1 ) ライセンス: Link先を確認 | Luo Ji, Gao Liu, Mingyang Yin, Hongxia Yang, Jingren Zhou, | (参考訳) 現代のリストワイズレコメンデーションシステムは、長期的なユーザ認識と短期的な関心の変化の両方を考慮する必要がある。
強化学習はそのような問題を研究するための推薦にも適用できるが、大きな検索スペース、少ないユーザフィードバック、長時間の対話的レイテンシにも適用できる。
近年の階層的強化学習の進展により,リストワイド・レコメンデーションにおいて時間的抽象化のレベルが異なる mccHRL という新しいフレームワークが提案されている。
階層的な枠組みの中では、ハイレベルエージェントはユーザの知覚の進化を研究し、低レベルエージェントは、プロセスをシーケンシャルな意思決定問題としてモデル化することでアイテム選択ポリシーを生成する。
このようなフレームワークは,高レベルエージェントと低レベルエージェントがそれぞれ符号化した,アウトラ・セッションコンテキストとイントラ・セッションコンテキストの明確に定義された分解を持っている,と我々は主張する。
この議論を検証するため、シミュレーターベース環境と産業用データセットベース実験の両方を実装した。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
データとコードは公開されています。
Modern listwise recommendation systems need to consider both long-term user perceptions and short-term interest shifts. Reinforcement learning can be applied on recommendation to study such a problem but is also subject to large search space, sparse user feedback and long interactive latency. Motivated by recent progress in hierarchical reinforcement learning, we propose a novel framework called mccHRL to provide different levels of temporal abstraction on listwise recommendation. Within the hierarchical framework, the high-level agent studies the evolution of user perception, while the low-level agent produces the item selection policy by modeling the process as a sequential decision-making problem. We argue that such framework has a well-defined decomposition of the outra-session context and the intra-session context, which are encoded by the high-level and low-level agents, respectively. To verify this argument, we implement both a simulator-based environment and an industrial dataset-based experiment. Results observe significant performance improvement by our method, compared with several well-known baselines. Data and codes have been made public. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# スナップショット圧縮画像の高効率1ステップ拡散微細化
Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging ( http://arxiv.org/abs/2409.07417v1 ) ライセンス: Link先を確認 | Yunzhen Wang, Haijin Zeng, Shaoguang Huang, Hongyu Chen, Hongyan Zhang, | (参考訳) Coded Aperture Snapshot Spectral Imaging (CASSI)は、符号化された2次元計測からこれらの画像を再構成する複雑な逆タスクを通じて3次元マルチスペクトル画像(MSI)をキャプチャする重要な技術である。
現在の最先端の手法は、主にエンドツーエンドであり、高周波の詳細を再構築する際の制限に直面しており、しばしばKAISTやCAVEのような制約付きデータセットに依存している。
これらの課題に対応するために,Snapshot Compressive Imaging (SCI) のための自己教師型適応フレームワークにおいて,新しい一段階拡散確率モデルを提案する。
提案手法は,事前学習したSCI再構成ネットワークを利用して,2次元計測から初期予測を生成する。
その後、一段階拡散モデルにより、これらの初期予測を強化するために高周波残留物を生成する。
さらに,MSIの収集に伴う高コスト化を認め,Equivariant Imaging (EI) フレームワークに基づく自己監督パラダイムを開発する。
実験により, 従来の手法と比較して, モデルの優越性を検証し, 簡便さと様々なエンドツーエンド・展開技術への適応性を示した。
Coded Aperture Snapshot Spectral Imaging (CASSI) is a crucial technique for capturing three-dimensional multispectral images (MSIs) through the complex inverse task of reconstructing these images from coded two-dimensional measurements. Current state-of-the-art methods, predominantly end-to-end, face limitations in reconstructing high-frequency details and often rely on constrained datasets like KAIST and CAVE, resulting in models with poor generalizability. In response to these challenges, this paper introduces a novel one-step Diffusion Probabilistic Model within a self-supervised adaptation framework for Snapshot Compressive Imaging (SCI). Our approach leverages a pretrained SCI reconstruction network to generate initial predictions from two-dimensional measurements. Subsequently, a one-step diffusion model produces high-frequency residuals to enhance these initial predictions. Additionally, acknowledging the high costs associated with collecting MSIs, we develop a self-supervised paradigm based on the Equivariant Imaging (EI) framework. Experimental results validate the superiority of our model compared to previous methods, showcasing its simplicity and adaptability to various end-to-end or unfolding techniques. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# XDC Stake and Tokenomics -- Improvement Proposal: Enhancing Sustainability and Decentralization on the Eve of XDC 2.0
XDC Staking and Tokenomics -- Improvement Proposal: Enhancing Sustainability and Decentralization on the Eve of XDC 2.0 ( http://arxiv.org/abs/2409.07420v1 ) ライセンス: Link先を確認 | Van Khanh Nguyen, | (参考訳) XDCネットワークは,5年間の安定メインネット運用を祝い,期待されているXDC 2.0のローンチに備えて,ネットワークのステークおよびトケノミクス機構の包括的な改善計画を提案する。
私たちの分析は、現在のモデルを最適化し、より持続可能な、分散化され、回復力のあるエコシステムを保証する機会を明らかにします。
我々は,バリデータノードの流動性を高め,テイク参加を促進するために,バリデータNFT,分散ガバナンス,ユーティリティベースのトケノミクスなどの新しい概念を導入する。
我々の提案はXDC 2.0の堅牢な基盤を確立することを目的としており、バリデータや利害関係者、ユーザ等に報いる、繁栄するエコシステムを育むことを目的としています。
この研究は、ステイキングとトケノミクスの複雑さに対処することで、長期的な成功と成長を狙った、主要な分散ネットワークとしてのXDCの地位を固める道を開く。
As the XDC network celebrates five years of stable mainnet operation and prepares for the highly anticipated launch of XDC 2.0, this research proposes a comprehensive improvement plan for the network's staking and tokenomics mechanisms. Our analysis reveals opportunities to optimize the current model, ensuring a more sustainable, decentralized, and resilient ecosystem. We introduce novel concepts, including validator NFTs, decentralized governance, and utility-based tokenomics, to increase validator node liquidity and promote staking participation. Our proposal aims to establish a robust foundation for XDC 2.0, fostering a thriving ecosystem that rewards validators, stakeholders, and users alike. By addressing the intricacies of staking and tokenomics, this research paves the way for XDC to solidify its position as a leading decentralized network, poised for long-term success and growth. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# ダイヤモンド中の1基IV色中心のレーザー活性化
Laser Activation of Single Group-IV Colour Centres in Diamond ( http://arxiv.org/abs/2409.07421v1 ) ライセンス: Link先を確認 | Xingrui Cheng, Andreas Thurn, Guangzhao Chen, Gareth S. Jones, Maddison Coke, Mason Adshead, Cathryn P. Michaels, Osman Balci, Andrea C. Ferrari, Mete Atatüre, Richard Curry, Jason M. Smith, Patrick S. Salter, Dorian A. Gangloff, | (参考訳) ダイヤモンド中のグループIV色中心に基づくスピン光子インターフェースは、量子ネットワークのための有望なプラットフォームを提供する。
この分野における重要な課題は、スケーラブルなデバイス製造に不可欠である、正確な単一欠陥位置決めとアクティベーションを実現することだ。
そこで本研究では, サイト制御イオン注入を用いたスズ空洞(SnV-)センターの2段階製造法と, その場スペクトルモニタリングによる局所フェムト秒レーザー熱処理を併用して, この問題に対処する。
イオン注入は50nm以下の分解能と、ポアソン統計によって制限された数百のイオンから1箇所に1つのイオンに制御された量で実行される。
提案手法を用いて,SnV-中心のサイト選択的生成と修正を成功させた。
この技術は、単一欠陥レベルにおける材料チューニングの窓を開き、アニーリングプロセス中の欠陥構造とダイナミクスに関する新たな洞察を提供する。
SnV中心で実証されているが、この多用途アプローチはダイヤモンドやワイドバンドギャップ材料に移植された他の色中心に容易に一般化できる。
Spin-photon interfaces based on group-IV colour centres in diamond offer a promising platform for quantum networks. A key challenge in the field is realizing precise single-defect positioning and activation, which is crucial for scalable device fabrication. Here we address this problem by demonstrating a two-step fabrication method for tin vacancy (SnV-) centres that uses site-controlled ion implantation followed by local femtosecond laser annealing with in-situ spectral monitoring. The ion implantation is performed with sub-50 nm resolution and a dosage that is controlled from hundreds of ions down to single ions per site, limited by Poissonian statistics. Using this approach, we successfully demonstrate site-selective creation and modification of single SnV- centres. The technique opens a window onto materials tuning at the single defect level, and provides new insight into defect structures and dynamics during the annealing process. While demonstrated for SnV- centres, this versatile approach can be readily generalised to other implanted colour centres in diamond and wide-bandgap materials. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# フェア・ヘルス・レコメンデーションに向けて : Word Sense Disambiguation による情報的未偏見サンプルの発見
Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation ( http://arxiv.org/abs/2409.07424v1 ) ライセンス: Link先を確認 | Gavin Butts, Pegah Emdad, Jethro Lee, Shannon Song, Chiman Salavati, Willmar Sosa Diaz, Shiri Dori-Hacohen, Fabricio Murai, | (参考訳) バイアス付きデータでトレーニングされたモデルに依存し、結果としてバイアス付き予測が生まれ、しばしば最も脆弱なアプリケーションにダメージを与えるという、ハイリスクなアプリケーションに関する懸念が高まっている。
特に、偏りのある医療データは、健康関連のアプリケーションやレコメンデーションシステムに、患者のケアを危険にさらすアウトプットを作成し、健康結果の格差を拡大させる可能性がある。
モデルバイアスを正そうとする代わりに、研究者はAIを使ってデータをデバイアスすることで根本原因に集中する必要がある、とFairness via AIという最近のフレームワークは主張している。
この枠組みに着想を得て, LLMを含むNLPモデルを用いた医療カリキュラムのバイアス検出に取り組み, 大規模コーパスからのバイアスに対して, 医療専門家が注釈した4,105点の抜粋を含む金標準データセットを用いて評価を行った。
共著者による以前の研究に基づいて、社会的識別子の項を含む注釈のないテキストで、負のサンプルの集合を増補する。
しかしながら、これらの用語のいくつか、特に人種や民族に関する用語は、異なる意味(例えば「脊髄の白い物質」)を持つことができる。
この問題に対処するために,無関係な文を取り除き,データセットの質を高めるためにWord Sense Disambiguationモデルを提案する。
次に、ゼロショットプロンプトと少数ショットプロンプトを持つGPTモデルとともに、BERTモデルの微調整されたバリエーションを評価する。
LLMは、多くのNLPタスクにおいてSOTAとみなすが、バイアス検出には適さない。
There have been growing concerns around high-stake applications that rely on models trained with biased data, which consequently produce biased predictions, often harming the most vulnerable. In particular, biased medical data could cause health-related applications and recommender systems to create outputs that jeopardize patient care and widen disparities in health outcomes. A recent framework titled Fairness via AI posits that, instead of attempting to correct model biases, researchers must focus on their root causes by using AI to debias data. Inspired by this framework, we tackle bias detection in medical curricula using NLP models, including LLMs, and evaluate them on a gold standard dataset containing 4,105 excerpts annotated by medical experts for bias from a large corpus. We build on previous work by coauthors which augments the set of negative samples with non-annotated text containing social identifier terms. However, some of these terms, especially those related to race and ethnicity, can carry different meanings (e.g., "white matter of spinal cord"). To address this issue, we propose the use of Word Sense Disambiguation models to refine dataset quality by removing irrelevant sentences. We then evaluate fine-tuned variations of BERT models as well as GPT models with zero- and few-shot prompting. We found LLMs, considered SOTA on many NLP tasks, unsuitable for bias detection, while fine-tuned BERT models generally perform well across all evaluated metrics. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# 合成継続事前訓練
Synthetic continued pretraining ( http://arxiv.org/abs/2409.07431v1 ) ライセンス: Link先を確認 | Zitong Yang, Neil Band, Shuangping Li, Emmanuel Candès, Tatsunori Hashimoto, | (参考訳) 大規模で非構造化のインターネットテキストを事前学習することで、言語モデルが膨大な量の世界の知識を獲得できるようになった。
しかし、この知識獲得はデータ非効率であり、与えられた事実を知るためには、モデルは数百から数千の多様な表現で訓練されなければならない。
これは、事前訓練されたモデルをドメイン固有文書の小さなコーパスに適用する場合、各事実が稀に、または一度だけ現れる場合の課題である。
そこで本研究では,このギャップを,小規模なドメイン固有コーパスを用いて,学習しやすい大きなコーパスを合成し,合成したコーパス上で継続事前学習を行うことを提案する。
この提案を、ソース文書から有能なエンティティを抽出し、サンプルエンティティ間の接続を描画することで、多様なテキストを生成する合成データ拡張アルゴリズムであるEntiGraphでインスタンス化する。
EntiGraphを使用した総合的な事前トレーニングにより、言語モデルは質問に回答し、ソースドキュメントに関連する一般的な命令に従うことができる。
その代わりに、ソースドキュメントが推論時に利用可能である場合、我々のアプローチによって得られた知識が、検索強化された生成に結びついていることが示される。
これらの結果をよりよく理解するために、EntiGraphの単純な数学的モデルを構築し、合成データ拡張が知識を"再配置"し、よりデータ効率のよい学習を可能にする方法を示す。
Pretraining on large-scale, unstructured internet text has enabled language models to acquire a significant amount of world knowledge. However, this knowledge acquisition is data-inefficient -- to learn a given fact, models must be trained on hundreds to thousands of diverse representations of it. This poses a challenge when adapting a pretrained model to a small corpus of domain-specific documents, where each fact may appear rarely or only once. We propose to bridge this gap with synthetic continued pretraining: using the small domain-specific corpus to synthesize a large corpus more amenable to learning, and then performing continued pretraining on the synthesized corpus. We instantiate this proposal with EntiGraph, a synthetic data augmentation algorithm that extracts salient entities from the source documents and then generates diverse text by drawing connections between the sampled entities. Synthetic continued pretraining using EntiGraph enables a language model to answer questions and follow generic instructions related to the source documents without access to them. If instead, the source documents are available at inference time, we show that the knowledge acquired through our approach compounds with retrieval-augmented generation. To better understand these results, we build a simple mathematical model of EntiGraph, and show how synthetic data augmentation can "rearrange" knowledge to enable more data-efficient learning. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# SuPER:リサーチリポジトリからのタスクの設定と実行に関するエージェントの評価
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories ( http://arxiv.org/abs/2409.07440v1 ) ライセンス: Link先を確認 | Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot, | (参考訳) LLM(Large Language Models)がコード記述に大きな進歩を遂げたことを考えると、研究リポジトリの成果を自律的に再現できるのだろうか?
このような能力は研究コミュニティにとって恩恵となり、研究者が事前の作業を検証し、理解し、拡張するのに役立ちます。
この目標に向けて,研究レポジトリからのタスクのセットアップと実行におけるLLMの能力を評価するために設計された最初のベンチマークであるSUPERを紹介する。
SuperPERaimは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
ベンチマークでは,注釈付きエキスパートソリューションによるエンドツーエンド問題45,特定の課題(例えば,トレーナーの設定)に焦点を絞ったエキスパートセットから導出した152,大規模開発のための602,の3つの問題セットで構成されている。
課題成功と進捗の両立を評価するための様々な評価尺度を導入し、利用可能な金の解や近似を利用。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
このことは、このタスクの課題を浮き彫りにして、SUPERがコミュニティが進捗を計測するための貴重なリソースとなることを示唆している。
Given that Large Language Models (LLMs) have made significant progress in writing code, can they now be used to autonomously reproduce results from research repositories? Such a capability would be a boon to the research community, helping researchers validate, understand, and extend prior work. To advance towards this goal, we introduce SUPER, the first benchmark designed to evaluate the capability of LLMs in setting up and executing tasks from research repositories. SUPERaims to capture the realistic challenges faced by researchers working with Machine Learning (ML) and Natural Language Processing (NLP) research repositories. Our benchmark comprises three distinct problem sets: 45 end-to-end problems with annotated expert solutions, 152 sub problems derived from the expert set that focus on specific challenges (e.g., configuring a trainer), and 602 automatically generated problems for larger-scale development. We introduce various evaluation measures to assess both task success and progress, utilizing gold solutions when available or approximations otherwise. We show that state-of-the-art approaches struggle to solve these problems with the best model (GPT-4o) solving only 16.3% of the end-to-end set, and 46.1% of the scenarios. This illustrates the challenge of this task, and suggests that SUPER can serve as a valuable resource for the community to make and measure progress. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# ML-NIDS攻撃に対するロバスト性を高めるパーターブビリティスコア(PS)の導入
Introducing Perturb-ability Score (PS) to Enhance Robustness Against Evasion Adversarial Attacks on ML-NIDS ( http://arxiv.org/abs/2409.07448v1 ) ライセンス: Link先を確認 | Mohamed elShehaby, Ashraf Matrawy, | (参考訳) 本稿では,ネットワーク侵入検知システム(NIDS)の特徴を識別し,問題空間の攻撃者が容易に操作できる新しいパーターブビリティスコア(PS)を提案する。
ML ベースの NIDS において,PS を用いて非摂動機能のみを選択することで,敵攻撃に対する堅牢性を高めつつ,検出性能を維持できることが実証された。
This paper proposes a novel Perturb-ability Score (PS) that can be used to identify Network Intrusion Detection Systems (NIDS) features that can be easily manipulated by attackers in the problem-space. We demonstrate that using PS to select only non-perturb-able features for ML-based NIDS maintains detection performance while enhancing robustness against adversarial attacks. | 翻訳日:2024-09-12 13:41:10 公開日:2024-09-11 |
# 糖尿病網膜症の診断とグレーディングにおける条件付きスタイルGANと潜時空間操作を用いた可制御性網膜画像合成
Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy ( http://arxiv.org/abs/2409.07422v1 ) ライセンス: Link先を確認 | Somayeh Pakdelmoez, Saba Omidikia, Seyyed Ali Seyyedsalehi, Seyyede Zohreh Seyyedsalehi, | (参考訳) 糖尿病網膜症(英: Diabetic retinopathy, DR)は、網膜組織内の血管障害を特徴とする糖尿病の結果である。
視力喪失のリスクを軽減するため、タイムリーな検出が最重要である。
しかしながら、ロバストグレーディングモデルのトレーニングは、特に重篤なケースにおいて、注釈付きデータの不足によって妨げられる。
本稿では,高忠実度かつ多彩なDRファウンダス画像を制御可能とし,DRグレーディングと検出における分類器性能を向上させるフレームワークを提案する。
DR重大度と視覚的特徴(光ディスク,血管構造,病変領域)を条件付きスタイルGANのみで総合的に制御し,特徴マスクや補助ネットワークの必要性を排除した。
具体的には、SeFaアルゴリズムを利用して潜在空間内の意味的意味を識別し、条件付きで生成されたDR画像を操作し、データセットの多様性をさらに向上する。
さらに, 冗長な特徴を無視しつつ, 識別領域に注目する上で有効なSeFaベースのデータ拡張戦略を提案する。
このアプローチを用いることで、DR検出のために訓練されたResNet50モデルは98.09%の精度、99.44%の特異性、99.45%の精度、F1スコア98.09%を達成する。
さらに、条件付きスタイルGANによって生成された合成画像をResNet50トレーニングに組み込むことで、83.33%の精度、87.64%の二次カッパスコア、95.67%の特異性、72.24%の精度が得られる。
APTOS 2019データセットで行った大規模な実験は、生成した画像の例外的リアリズムと分類器の性能を最近の研究と比較した。
Diabetic retinopathy (DR) is a consequence of diabetes mellitus characterized by vascular damage within the retinal tissue. Timely detection is paramount to mitigate the risk of vision loss. However, training robust grading models is hindered by a shortage of annotated data, particularly for severe cases. This paper proposes a framework for controllably generating high-fidelity and diverse DR fundus images, thereby improving classifier performance in DR grading and detection. We achieve comprehensive control over DR severity and visual features (optic disc, vessel structure, lesion areas) within generated images solely through a conditional StyleGAN, eliminating the need for feature masks or auxiliary networks. Specifically, leveraging the SeFa algorithm to identify meaningful semantics within the latent space, we manipulate the DR images generated conditionally on grades, further enhancing the dataset diversity. Additionally, we propose a novel, effective SeFa-based data augmentation strategy, helping the classifier focus on discriminative regions while ignoring redundant features. Using this approach, a ResNet50 model trained for DR detection achieves 98.09% accuracy, 99.44% specificity, 99.45% precision, and an F1-score of 98.09%. Moreover, incorporating synthetic images generated by conditional StyleGAN into ResNet50 training for DR grading yields 83.33% accuracy, a quadratic kappa score of 87.64%, 95.67% specificity, and 72.24% precision. Extensive experiments conducted on the APTOS 2019 dataset demonstrate the exceptional realism of the generated images and the superior performance of our classifier compared to recent studies. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 自然言語推論における説明を用いた敵対的ロバスト性の向上
Enhancing adversarial robustness in Natural Language Inference using explanations ( http://arxiv.org/abs/2409.07423v1 ) ライセンス: Link先を確認 | Alexandros Koulakos, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, | (参考訳) 最先端のTransformerベースのモデルの急増は、間違いなくNLPモデルのパフォーマンスの限界を押し上げ、様々なタスクに優れています。
我々は,自然言語推論 (NLI) の課題に注目を当てた。なぜなら,よく適合したデータセットで訓練されたモデルは,敵対的攻撃の影響を受けやすいため,微妙な入力介入によってモデルを誤解させることができるからだ。
本研究は, 前提仮説入力ではなく, 説明文の分類器を微調整することによって, 説明自由ベースラインと比較して, 種々の敵攻撃下での堅牢性を実現することによる, 広範囲な実験を通じて, モデルに依存しない防衛戦略としての自然言語説明の利用を検証するものである。
また、生成した説明のセマンティックな妥当性をテストするための標準的な戦略が存在しないため、広範に使われている言語生成指標と人間の知覚との相関について検討し、それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
我々の手法は資源効率が良く再現可能であり、計算量に大きな制限はない。
The surge of state-of-the-art Transformer-based models has undoubtedly pushed the limits of NLP model performance, excelling in a variety of tasks. We cast the spotlight on the underexplored task of Natural Language Inference (NLI), since models trained on popular well-suited datasets are susceptible to adversarial attacks, allowing subtle input interventions to mislead the model. In this work, we validate the usage of natural language explanation as a model-agnostic defence strategy through extensive experimentation: only by fine-tuning a classifier on the explanation rather than premise-hypothesis inputs, robustness under various adversarial attacks is achieved in comparison to explanation-free baselines. Moreover, since there is no standard strategy of testing the semantic validity of the generated explanations, we research the correlation of widely used language generation metrics with human perception, in order for them to serve as a proxy towards robust NLI models. Our approach is resource-efficient and reproducible without significant computational limitations. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# ディープニューラルネットワークに基づく手話認識:説明可能性を持つ伝達学習を用いた包括的アプローチ
Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability ( http://arxiv.org/abs/2409.07426v1 ) ライセンス: Link先を確認 | A. E. M Ridwan, Mushfiqul Islam Chowdhury, Mekhala Mariam Mary, Md Tahmid Chowdhury Abir, | (参考訳) 主要なコミュニケーション形態として手話に依存する人々への包摂と効果的なコミュニケーションを促進するためには,手話認識(SLR)が不可欠である。
サイン言語認識(SLR)は多様な技術とシームレスに組み込まれ、デジタルプラットフォーム、ビデオ通話、通信機器の使用を容易にすることで、聴覚障害者コミュニティのアクセシビリティを高める。
この問題を効果的に解決するために、ディープニューラルネットワークを用いて手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
アーキテクチャのresnet、inception、xception、vggは手話の画像を選択的に分類するために利用される。
我々はDNNアーキテクチャを作成し、それを前処理アーキテクチャとマージした。
後処理フェーズでは、協調ゲーム理論に基づくSHAPディープ説明器を用いて、特定の特徴が機械学習モデルの出力に与える影響を定量化した。
BSL(Bhutanese-Sign-Language)データセットは、提案したテクニックのトレーニングとテストに使用された。
BSL(Bhutanese-Sign-Language)データセットのトレーニング中、DNNモデルによるResNet50全体の精度は98.90%向上した。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
その相当な堅牢性と信頼性のために,手話認識のための完全に自動化されたシステムを開発するために提案手法を用いることができる。
To promote inclusion and ensuring effective communication for those who rely on sign language as their main form of communication, sign language recognition (SLR) is crucial. Sign language recognition (SLR) seamlessly incorporates with diverse technology, enhancing accessibility for the deaf community by facilitating their use of digital platforms, video calls, and communication devices. To effectively solve this problem, we suggest a novel solution that uses a deep neural network to fully automate sign language recognition. This methodology integrates sophisticated preprocessing methodologies to optimise the overall performance. The architectures resnet, inception, xception, and vgg are utilised to selectively categorise images of sign language. We prepared a DNN architecture and merged it with the pre-processing architectures. In the post-processing phase, we utilised the SHAP deep explainer, which is based on cooperative game theory, to quantify the influence of specific features on the output of a machine learning model. Bhutanese-Sign-Language (BSL) dataset was used for training and testing the suggested technique. While training on Bhutanese-Sign-Language (BSL) dataset, overall ResNet50 with the DNN model performed better accuracy which is 98.90%. Our model's ability to provide informational clarity was assessed using the SHAP (SHapley Additive exPlanations) method. In part to its considerable robustness and reliability, the proposed methodological approach can be used to develop a fully automated system for sign language recognition. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 2光子入力場の量子軌道と出力場特性
Quantum trajectories and output field properties for two-photon input field ( http://arxiv.org/abs/2409.07428v1 ) ライセンス: Link先を確認 | Anita Dabrowska, Gniewomir Sarbicki, | (参考訳) 連続モード2光子状態の光と相互作用する量子系の確率論的進化について述べる。
出力場の測定結果に依存する量子系の条件進化の問題は、繰り返し相互作用のモデルを用いて定式化され、解決される。
我々は、量子系とその環境の間の離散的なインタイム相互作用を、調和振動子の連鎖によって近似された電磁場として定義する。
本研究では, 1次元および2次元の計数過程に関連する量子軌跡の解析式を, 2光子状態に生成した一方向または双方向の入力場に対応付けて決定する。
さらに、出力フィールドの光子統計を完全に特徴づけることのできる光子カウントの排他的確率密度の公式を決定する。
最後に,3レベル原子の2光子吸収の確率式を得るために量子軌道を適用する方法を示す。
この論文は、2光子吸収確率を最大化する最適2光子状態についても論じている。
We describe a stochastic evolution of a quantum system interacting with a light prepared in a continuous-mode two-photon state. The problem of a conditional evolution of the quantum system, depending on the results of the measurement of the output field, is formulated and solved making use of the model of repeated interactions. We define the discrete in-time interaction between the quantum system and its environment being the electromagnetic field approximated by a chain of harmonic oscillators. We determine analytical formulae for quantum trajectories associated with one-dimensional and two-dimensional counting processes, corresponding respectively to unidirectional or bidirectional input field prepared in the two-photon state. Moreover, we determine the formulae for the exclusive probability densities of photon counts that allow us to completely characterize the photon statistics of the output field. Finally, we show how to apply the quantum trajectories to obtain the formula for the probability of the two-photon absorption for a three-level atom in a ladder configuration. The paper also includes a discussion on the optimal two-photon state that maximizes the two-photon absorption probability. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# エージェントワークフローメモリ
Agent Workflow Memory ( http://arxiv.org/abs/2409.07429v1 ) ライセンス: Link先を確認 | Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig, | (参考訳) 言語モデルに基づくエージェントがWebナビゲーションのような現実世界のタスクを解く可能性にもかかわらず、現在の手法は複雑な行動軌跡を持つ長い水平タスクに苦戦している。
対照的に、人間は過去の経験から再利用可能なタスクワークフローを学び、それらを将来の行動を導くことで、複雑なタスクを柔軟に解決することができる。
このプロセスのメリットを享受できるエージェントを構築するために、AWM(Agent Workflow Memory)を紹介します。
AWMはオフラインとオンラインの両方のシナリオに柔軟に適用され、エージェントは事前にトレーニング例やテストクエリからワークフローを誘導する。
私たちはMind2WebとWebArenaという2つの主要なWebナビゲーションベンチマークを実験しました。
AWMは、Mind2WebとWebArenaの相対的な成功率を24.6%、51.1%向上させ、WebArenaのタスクをうまく解くためのステップの数を削減した。
さらに、オンラインのAWMはクロスタスク、Webサイト、ドメイン評価を強力に一般化し、8.9から14.0の絶対点を超えた。
Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 線形モデルにおける解離規則化を伴う確率勾配の漸近
Asymptotics of Stochastic Gradient Descent with Dropout Regularization in Linear Models ( http://arxiv.org/abs/2409.07434v1 ) ライセンス: Link先を確認 | Jiaqi Li, Johannes Schmidt-Hieber, Wei Biao Wu, | (参考訳) 本稿では,確率勾配勾配(SGD)のオンライン推論における漸近的理論を線形回帰におけるドロップアウト正規化と反復的に提案する。
具体的には、一定のステップサイズSGDドロップアウトを反復する幾何学的モーメント収縮(GMC)を確立し、ドロップアウト再帰関数の特異な定常分布の存在を示す。
GMC特性により、初期化によらず、ドロップアウトと$\ell^2$-regularized iteratesの差分に対する焼き入れ中央極限定理(CLT)を提供する。
The CLT for the difference for the Ruppert-Polyak averaged SGD with dropout and $\ell^2$-regularized iterates。
これらの漸近的正規性結果に基づいて,ASGDドロップアウトの長時間共分散行列に対するオンライン推定器を導入し,計算時間とメモリの効率性で再帰的に推論を容易にする。
数値実験により,ASGDが投棄された場合の信頼区間は,十分に大きな試料の場合,名目カバレッジの確率をほぼ達成できることが示されている。
This paper proposes an asymptotic theory for online inference of the stochastic gradient descent (SGD) iterates with dropout regularization in linear regression. Specifically, we establish the geometric-moment contraction (GMC) for constant step-size SGD dropout iterates to show the existence of a unique stationary distribution of the dropout recursive function. By the GMC property, we provide quenched central limit theorems (CLT) for the difference between dropout and $\ell^2$-regularized iterates, regardless of initialization. The CLT for the difference between the Ruppert-Polyak averaged SGD (ASGD) with dropout and $\ell^2$-regularized iterates is also presented. Based on these asymptotic normality results, we further introduce an online estimator for the long-run covariance matrix of ASGD dropout to facilitate inference in a recursive manner with efficiency in computational time and memory. The numerical experiments demonstrate that for sufficiently large samples, the proposed confidence intervals for ASGD with dropout nearly achieve the nominal coverage probability. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 音響言語モデル評価用スイート
A Suite for Acoustic Language Model Evaluation ( http://arxiv.org/abs/2409.07437v1 ) ライセンス: Link先を確認 | Gallil Maimon, Amit Roth, Yossi Adi, | (参考訳) 近年,言語モデルが普遍的な音声処理システムとして大きな可能性を証明している。
このようなモデルは、感情や背景雑音などの音声コンテンツを超えて、音声信号に存在する豊富な音響情報をモデル化することができる。
それにもかかわらず、幅広い音響的側面に対する認識を評価する評価ベンチマークは欠落している。
このギャップを埋めるために、バックグラウンドノイズ、感情、話者のアイデンティティ、部屋のインパルス応答を含む新しい評価スイートであるSALMonを紹介する。
提案したベンチマークは、検査された要素の一貫性と、それが音声テキストとどの程度一致しているかを評価する。
我々は、モデルが正しいサンプルのスコアを正しく与えているかどうかを測定する、モデリングに基づくアプローチに従う。
このアプローチにより、ベンチマークは大規模モデルでも高速に計算できる。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
コードとデータはhttps://pages.cs.huji.ac.il/adiyoss-lab/salmon/で公開されている。
Speech language models have recently demonstrated great potential as universal speech processing systems. Such models have the ability to model the rich acoustic information existing in audio signals, beyond spoken content, such as emotion, background noise, etc. Despite this, evaluation benchmarks which evaluate awareness to a wide range of acoustic aspects, are lacking. To help bridge this gap, we introduce SALMon, a novel evaluation suite encompassing background noise, emotion, speaker identity and room impulse response. The proposed benchmarks both evaluate the consistency of the inspected element and how much it matches the spoken text. We follow a modelling based approach, measuring whether a model gives correct samples higher scores than incorrect ones. This approach makes the benchmark fast to compute even for large models. We evaluated several speech language models on SALMon, thus highlighting the strengths and weaknesses of each evaluated method. Code and data are publicly available at https://pages.cs.huji.ac.il/adiyoss-lab/salmon/ . | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 長期学習における適応型適応型アダプタルーティング
Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning ( http://arxiv.org/abs/2409.07446v1 ) ライセンス: Link先を確認 | Zhi-Hong Qi, Da-Wei Zhou, Yiran Yao, Han-Jia Ye, De-Chuan Zhan, | (参考訳) 進化を続ける世界において、新しいデータは、Eコマースプラットフォームレビューのような、長い目で見た分布を示します。
これは、長い尾を持つクラスインクリメンタルラーニング(LTCIL)の課題に対処するため、忘れずにデータの不均衡を連続モデルで学習する必要がある。
既存の手法はしばしば、実世界の設定では実用的でない旧データによる線形分類器の再訓練に依存している。
本稿では,事前学習したモデルの強力な表現能力を活用し,LTCILの非正規解としてAdaPtive Adapter Routing(APART)を導入する。
忘れを抑えるために、我々は、より深く適応するための凍結した重み付き挿入アダプタを訓練し、シーケンシャルモデル更新時に選択するアダプタのプールを維持する。
さらに,特にマイノリティクラスにおいて,効果的な一般化を目的とした補助アダプタプールを提案する。
これらのプールにまたがる適応的なインスタンスルーティングは重要な相関関係を捉え、すべてのクラスを包括的に表現するのに役立つ。
その結果、APARTは、統一されたフレームワークにおける破滅的な忘れ事と同様に、不均衡問題に取り組む。
大規模なベンチマーク実験によりAPARTの有効性が検証された。
コードは、https://github.com/vita-qzh/APARTで入手できる。
In our ever-evolving world, new data exhibits a long-tailed distribution, such as e-commerce platform reviews. This necessitates continuous model learning imbalanced data without forgetting, addressing the challenge of long-tailed class-incremental learning (LTCIL). Existing methods often rely on retraining linear classifiers with former data, which is impractical in real-world settings. In this paper, we harness the potent representation capabilities of pre-trained models and introduce AdaPtive Adapter RouTing (APART) as an exemplar-free solution for LTCIL. To counteract forgetting, we train inserted adapters with frozen pre-trained weights for deeper adaptation and maintain a pool of adapters for selection during sequential model updates. Additionally, we present an auxiliary adapter pool designed for effective generalization, especially on minority classes. Adaptive instance routing across these pools captures crucial correlations, facilitating a comprehensive representation of all classes. Consequently, APART tackles the imbalance problem as well as catastrophic forgetting in a unified framework. Extensive benchmark experiments validate the effectiveness of APART. Code is available at: https://github.com/vita-qzh/APART | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# StereoCrafter: 単眼ビデオからの長距離高忠実立体視3Dの拡散に基づく生成
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos ( http://arxiv.org/abs/2409.07447v1 ) ライセンス: Link先を確認 | Sijie Zhao, Wenbo Hu, Xiaodong Cun, Yong Zhang, Xiaoyu Li, Zhe Kong, Xiangjun Gao, Muyao Niu, Ying Shan, | (参考訳) 本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
基礎モデルを先行として活用することで,従来の手法の限界を克服し,ディスプレイ装置が必要とする高忠実度生成を実現するために性能を向上させる。
提案システムは2つの主要なステップから構成される。奥行きに基づくオクルージョンマスクのワープと抽出のためのビデオスプラッティングとステレオビデオインペイントである。
トレーニング済みの安定なビデオ拡散をバックボーンとして利用し、ステレオビデオの塗装作業のための微調整プロトコルを導入する。
様々な長さと解像度の入力ビデオを扱うために,自動回帰戦略とタイル処理について検討する。
最後に,大規模かつ高品質なデータセットを再構築し,トレーニングを支援するための高度なデータ処理パイプラインを開発した。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
要約すると、この研究は、モノクル入力から高品質な立体映像を生成する効果的な方法を示し、デジタルメディアの体験方法を変える可能性がある。
This paper presents a novel framework for converting 2D videos to immersive stereoscopic 3D, addressing the growing demand for 3D content in immersive experience. Leveraging foundation models as priors, our approach overcomes the limitations of traditional methods and boosts the performance to ensure the high-fidelity generation required by the display devices. The proposed system consists of two main steps: depth-based video splatting for warping and extracting occlusion mask, and stereo video inpainting. We utilize pre-trained stable video diffusion as the backbone and introduce a fine-tuning protocol for the stereo video inpainting task. To handle input video with varying lengths and resolutions, we explore auto-regressive strategies and tiled processing. Finally, a sophisticated data processing pipeline has been developed to reconstruct a large-scale and high-quality dataset to support our training. Our framework demonstrates significant improvements in 2D-to-3D video conversion, offering a practical solution for creating immersive content for 3D devices like Apple Vision Pro and 3D displays. In summary, this work contributes to the field by presenting an effective method for generating high-quality stereoscopic videos from monocular input, potentially transforming how we experience digital media. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# VMAS:ウェブ・ミュージック・ビデオにおけるセマンティック・アライメントによるビデオ・ツー・ミュージック・ジェネレーション
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos ( http://arxiv.org/abs/2409.07450v1 ) ライセンス: Link先を確認 | Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang, | (参考訳) ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
量や多様性に制限がある記号的音楽アノテーションを頼りにしている既存の作品とは異なり,本手法はバックグラウンド音楽を伴う大規模ウェブビデオを活用する。
これにより、我々のモデルは現実的で多様な音楽を生み出すことができる。
この目的を達成するために,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマを開発した。
本モデルでは,高レベルの映像コンテンツに適合した音楽の生成を促進するために,自己回帰学習とコントラスト学習を併用する。
また、生成された音楽のビートと低レベルの動画の動きとを一致させる新しいビデオビートアライメント方式も導入する。
最後に,現実的な背景音楽生成に必要な映像中の微細な視覚的手がかりを捉えるために,多数の高密度サンプリングフレームからなる映像を効率的に処理できる,新しいテンポラルビデオエンコーダアーキテクチャを導入する。
我々は、ビデオ音楽生成に使用される以前のデータセットよりも桁違いに大きい2.2Mのビデオ音楽サンプルからなる、新たにキュレートされたdisCO-MVデータセットに基づいて、我々のフレームワークをトレーニングする。
提案手法は,DEC-MV と MusicCaps のデータセットに対する既存のアプローチを,人的評価を含む様々な音楽生成評価指標により上回っている。
結果はhttps://genjib.github.io/project_page/VMAs/index.htmlで確認できる。
We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish this goal, we develop a generative video-music Transformer with a novel semantic video-music alignment scheme. Our model uses a joint autoregressive and contrastive learning objective, which encourages the generation of music aligned with high-level video content. We also introduce a novel video-beat alignment scheme to match the generated music beats with the low-level motions in the video. Lastly, to capture fine-grained visual cues in a video needed for realistic background music generation, we introduce a new temporal video encoder architecture, allowing us to efficiently process videos consisting of many densely sampled frames. We train our framework on our newly curated DISCO-MV dataset, consisting of 2.2M video-music samples, which is orders of magnitude larger than any prior datasets used for video music generation. Our method outperforms existing approaches on the DISCO-MV and MusicCaps datasets according to various music generation evaluation metrics, including human evaluation. Results are available at https://genjib.github.io/project_page/VMAs/index.html | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# FreeEnhance: コンテンツ一貫性のあるノイズ・アンド・デノーミングプロセスによるチューニング不要な画像強調
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process ( http://arxiv.org/abs/2409.07451v1 ) ライセンス: Link先を確認 | Yang Luo, Yiheng Zhang, Zhaofan Qiu, Ting Yao, Zhineng Chen, Yu-Gang Jiang, Tao Mei, | (参考訳) テキスト・ツー・イメージ生成モデルの出現により、後処理として実行される画像強調は、生成した画像の視覚的品質を大幅に向上させると認識されるようになった。
それでも、生成した画像を強化するために拡散モデルを探索することは簡単ではなく、元の画像のキー内容の視覚的外観を保ちながら、繊細な詳細を繊細に富む必要がある。
本稿では,市販画像拡散モデルを用いたコンテンツ一貫性画像強調のための新しいフレームワーク,FreeEnhanceを提案する。
技術的には、FreeEnhanceは、まず入力画像にランダムノイズを付加し、事前訓練された画像拡散モデル(すなわち遅延拡散モデル)を利用して、画像の詳細を識別し、拡張する2段階のプロセスである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターン(例えば、エッジ、コーナー)を保存するために、高周波数の領域により軽いノイズを加えるように設計されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
HPDv2データセットで実施された大規模な実験により、FreeEnhanceは定量的な測定値と人間の嗜好の観点から最先端の画像強調モデルより優れていたことが証明された。
さらに驚くべきことに、FreeEnhanceは、Magnific AIの商用画像強調ソリューションと比較して、人間の好みも高い。
The emergence of text-to-image generation models has led to the recognition that image enhancement, performed as post-processing, would significantly improve the visual quality of the generated images. Exploring diffusion models to enhance the generated images nevertheless is not trivial and necessitates to delicately enrich plentiful details while preserving the visual appearance of key content in the original image. In this paper, we propose a novel framework, namely FreeEnhance, for content-consistent image enhancement using the off-the-shelf image diffusion models. Technically, FreeEnhance is a two-stage process that firstly adds random noise to the input image and then capitalizes on a pre-trained image diffusion model (i.e., Latent Diffusion Models) to denoise and enhance the image details. In the noising stage, FreeEnhance is devised to add lighter noise to the region with higher frequency to preserve the high-frequent patterns (e.g., edge, corner) in the original image. In the denoising stage, we present three target properties as constraints to regularize the predicted noise, enhancing images with high acutance and high visual quality. Extensive experiments conducted on the HPDv2 dataset demonstrate that our FreeEnhance outperforms the state-of-the-art image enhancement models in terms of quantitative metrics and human preference. More remarkably, FreeEnhance also shows higher human preference compared to the commercial image enhancement solution of Magnific AI. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# Hi3D:ビデオ拡散モデルによる高分解能画像-3D生成
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models ( http://arxiv.org/abs/2409.07452v1 ) ライセンス: Link先を確認 | Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei, | (参考訳) イメージ・ツー・3D生成の進歩にもかかわらず、既存の手法は高解像度のテクスチャを持つ多視点一貫したイメージを細部まで作り出すのに苦慮している。
本研究では,ハイレゾリューション・イメージ・ツー・3Dモデル(Hi3D)を提案する。
この方法論は,映像拡散モデルにおける時間的整合性に関する基礎的知識を,三次元生成における複数の視点にわたる幾何的整合性によく一般化するものである。
技術的には、Hi3Dは事前に訓練された3D対応ビデオ拡散モデル(カメラポーズ条件)を最初に強化し、低解像度テクスチャディテールのマルチビュー画像を生成する。
高精細なテクスチャでマルチビュー画像をさらにスケールアップするために、3D対応ビデオ・ツー・ビデオ精細機を学習する。
このような高解像度のマルチビュー画像は、3Dガウススプラッティングによって新しいビューでさらに拡張され、最終的に3D再構成によって高忠実度メッシュを得るために活用される。
新規なビュー合成と単一ビュー再構成の両方に関する大規模な実験により、高精細なテクスチャで優れたマルチビュー整合性画像を生成することができた。
ソースコードとデータは \url{https://github.com/yanghb22-fdu/Hi3D-Official} で公開されている。
Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at \url{https://github.com/yanghb22-fdu/Hi3D-Official}. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# 学生評価における対話的フィードバックのためのコンテスト可能なAIフレームワーク「My Grade is Wrong!」
"My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays ( http://arxiv.org/abs/2409.07453v1 ) ライセンス: Link先を確認 | Shengxin Hong, Chang Cai, Sixuan Du, Haiyue Feng, Siyuan Liu, Xiuyi Fan, | (参考訳) 教師と生徒の双方の方向にフィードバックが流れる対話的フィードバックは、従来の一方的なフィードバックよりも効果的である。
しかし、教育実践において広く使われるには時間がかかりすぎることが多い。
大きな言語モデル(LLM)はフィードバックを自動化する可能性があるが、対話的な環境では推論や相互作用に苦労する。
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。
CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。
評価はまず複数の教官エージェント(TAエージェント)によって評価され、次に教師エージェントが正式な推論を通じて評価を集約し、フィードバックと成績を生成する。
学生は理解を深めるためにフィードバックにさらに関与することができる。
ユーザ研究による500の批判的思考エッセイのケーススタディでは、CAELFは対話的フィードバックを著しく改善し、LCMの推論と相互作用能力を向上することを示した。
このアプローチは、教育環境におけるインタラクティブなフィードバックの採用を制限した時間とリソースの障壁を克服する、有望なソリューションを提供する。
Interactive feedback, where feedback flows in both directions between teacher and student, is more effective than traditional one-way feedback. However, it is often too time-consuming for widespread use in educational practice. While Large Language Models (LLMs) have potential for automating feedback, they struggle with reasoning and interaction in an interactive setting. This paper introduces CAELF, a Contestable AI Empowered LLM Framework for automating interactive feedback. CAELF allows students to query, challenge, and clarify their feedback by integrating a multi-agent system with computational argumentation. Essays are first assessed by multiple Teaching-Assistant Agents (TA Agents), and then a Teacher Agent aggregates the evaluations through formal reasoning to generate feedback and grades. Students can further engage with the feedback to refine their understanding. A case study on 500 critical thinking essays with user studies demonstrates that CAELF significantly improves interactive feedback, enhancing the reasoning and interaction capabilities of LLMs. This approach offers a promising solution to overcoming the time and resource barriers that have limited the adoption of interactive feedback in educational settings. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# DreamMesh: テキストから3D生成のための共同操作およびテクスチャトライアングルメッシュ
DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation ( http://arxiv.org/abs/2409.07454v1 ) ライセンス: Link先を確認 | Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Zuxuan Wu, Yu-Gang Jiang, Tao Mei, | (参考訳) 強力な2次元拡散モデルを持つ学習放射場(NeRF)は,テキストから3次元生成に人気がある。
それでも、NeRFの暗黙的な3D表現は表面上のメッシュやテクスチャの明示的なモデリングを欠いているため、表面的未定義な方法では、曖昧なテクスチャの詳細や横断的な不整合を持つノイズの多い表面といった問題に悩まされる可能性がある。
これを緩和するためにDreamMeshを提案する。DreamMeshは、よく定義された表面(三角形メッシュ)をピボットして高忠実な明示的な3Dモデルを生成する、新しいテキストから3Dアーキテクチャである。
技術的には、DreamMeshは独特な粗い細かなスキームに乗じている。
粗い段階では、メッシュはまずテキスト誘導ジャコビアンによって変形し、次にDreamMeshはメッシュを複数の視点から自由にチューニングできる2次元拡散モデルを用いてテクスチャ化する。
細かい段階では、DreamMeshはメッシュを共同で操作し、テクスチャマップを洗練し、高品質なトライアングルメッシュを高忠実なテクスチャ素材で実現する。
大規模な実験により、DreamMeshは、よりリッチなテキストの詳細と拡張された幾何学で忠実に3Dコンテンツを生成できる最先端のテキスト・ツー・3D手法を著しく上回っていることが示された。
私たちのプロジェクトページはhttps://dreammesh.github.io.comで公開されている。
Learning radiance fields (NeRF) with powerful 2D diffusion models has garnered popularity for text-to-3D generation. Nevertheless, the implicit 3D representations of NeRF lack explicit modeling of meshes and textures over surfaces, and such surface-undefined way may suffer from the issues, e.g., noisy surfaces with ambiguous texture details or cross-view inconsistency. To alleviate this, we present DreamMesh, a novel text-to-3D architecture that pivots on well-defined surfaces (triangle meshes) to generate high-fidelity explicit 3D model. Technically, DreamMesh capitalizes on a distinctive coarse-to-fine scheme. In the coarse stage, the mesh is first deformed by text-guided Jacobians and then DreamMesh textures the mesh with an interlaced use of 2D diffusion models in a tuning free manner from multiple viewpoints. In the fine stage, DreamMesh jointly manipulates the mesh and refines the texture map, leading to high-quality triangle meshes with high-fidelity textured materials. Extensive experiments demonstrate that DreamMesh significantly outperforms state-of-the-art text-to-3D methods in faithfully generating 3D content with richer textual details and enhanced geometry. Our project page is available at https://dreammesh.github.io. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# レンダリングステレオペアによる自己進化深度3次元ガウススプレイティング
Self-Evolving Depth-Supervised 3D Gaussian Splatting from Rendered Stereo Pairs ( http://arxiv.org/abs/2409.07456v1 ) ライセンス: Link先を確認 | Sadra Safadoust, Fabio Tosi, Fatma Güney, Matteo Poggi, | (参考訳) 3D Gaussian Splatting (GS) は、基礎となる3Dシーンの形状を正確に表現するのにかなり苦労している。
本稿では,この制限に対処し,ガウス原始体の最適化プロセスを通じて奥行き先の統合を包括的に分析し,新しい戦略を提示する。
この後者は、容易に利用できるステレオネットワークからの奥行きを動的に利用し、トレーニング中にGSモデル自身がレンダリングした仮想ステレオペアを処理し、シーン表現の一貫性のある自己改善を実現する。
3つの一般的なデータセットの実験結果から,これらのモデルの深度精度を初めて評価し,その結果を検証した。
3D Gaussian Splatting (GS) significantly struggles to accurately represent the underlying 3D scene geometry, resulting in inaccuracies and floating artifacts when rendering depth maps. In this paper, we address this limitation, undertaking a comprehensive analysis of the integration of depth priors throughout the optimization process of Gaussian primitives, and present a novel strategy for this purpose. This latter dynamically exploits depth cues from a readily available stereo network, processing virtual stereo pairs rendered by the GS model itself during training and achieving consistent self-improvement of the scene representation. Experimental results on three popular datasets, breaking ground as the first to assess depth accuracy for these models, validate our findings. | 翻訳日:2024-09-12 13:26:57 公開日:2024-09-11 |
# EndoOmni: ノイズラベルからのロバスト自己学習による内視鏡におけるゼロショットクロスデータセット深さ推定
EndoOmni: Zero-Shot Cross-Dataset Depth Estimation in Endoscopy by Robust Self-Learning from Noisy Labels ( http://arxiv.org/abs/2409.05442v2 ) ライセンス: Link先を確認 | Qingyao Tian, Zhen Chen, Huai Liao, Xinyan Huang, Lujie Li, Sebastien Ourselin, Hongbin Liu, | (参考訳) 単一画像深度推定は、局所化、再構成、拡張現実といった内視鏡的タスクに不可欠である。
既存の手術シーンのほとんどの方法は、領域内深さの推定に焦点を合わせ、実際の応用性を制限する。
この制約は、トレーニング用の医療データの不足と低いラベル付け品質に起因している。
本研究では,ゼロショットクロスドメイン深度推定のための最初の基礎モデルであるEndoOmniについて述べる。
多様な学習データの可能性を活用するために,教師モデルを用いて擬似ラベルを生成する先進的な自己学習パラダイムを改良し,大規模ラベル付き・未ラベルデータに基づいて訓練された学生モデルを指導する。
深度ラベルの固有ノイズによる学習障害に対処するため,教師モデルからの信頼度と深度ラベルを併用し,学生モデルトレーニングを共同指導する頑健なトレーニングフレームワークを提案する。
さらに,ラベル信頼度に基づいて学習重みを適応的に調整する重み付きスケール・アンド・シフト不変損失を提案し,ノイズの多い画素の影響を低減しつつ,よりクリーンなラベル画素に学習バイアスを与える。
ゼロショット相対深度推定実験により,エンドオムニは医療画像における最先端の手法を41倍,既存の基礎モデルを25倍の精度で改善した。
さらに,本モデルは,ドメイン内シナリオとドメイン外シナリオの両方において優れた性能を維持しながら,微調整からメートル法までの距離推定を行うための強力な初期化を提供する。
ソースコードは公開されます。
Single-image depth estimation is essential for endoscopy tasks such as localization, reconstruction, and augmented reality. Most existing methods in surgical scenes focus on in-domain depth estimation, limiting their real-world applicability. This constraint stems from the scarcity and inferior labeling quality of medical data for training. In this work, we present EndoOmni, the first foundation model for zero-shot cross-domain depth estimation for endoscopy. To harness the potential of diverse training data, we refine the advanced self-learning paradigm that employs a teacher model to generate pseudo-labels, guiding a student model trained on large-scale labeled and unlabeled data. To address training disturbance caused by inherent noise in depth labels, we propose a robust training framework that leverages both depth labels and estimated confidence from the teacher model to jointly guide the student model training. Moreover, we propose a weighted scale-and-shift invariant loss to adaptively adjust learning weights based on label confidence, thus imposing learning bias towards cleaner label pixels while reducing the influence of highly noisy pixels. Experiments on zero-shot relative depth estimation show that our EndoOmni improves state-of-the-art methods in medical imaging for 41\% and existing foundation models for 25\% in terms of absolute relative error on specific dataset. Furthermore, our model provides strong initialization for fine-tuning to metric depth estimation, maintaining superior performance in both in-domain and out-of-domain scenarios. The source code will be publicly available. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation ( http://arxiv.org/abs/2409.05463v3 ) ライセンス: Link先を確認 | Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding, | (参考訳) 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。
しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。
本稿では,多視点3Dコンディション誘導ビデオ生成のためのエンドツーエンドフレームワークDriveScapeを提案する。
DriveScapeは、カメラデータを統合して、空間的時間的包摂性を確保するだけでなく、双方向変調トランスモジュールを導入し、3D道路構造情報を効果的に整合させる。
その結果,本手法は映像生成の正確な制御を可能にし,リアリズムを著しく向上させ,マルチビュー・ドライビング・ビデオを生成するための堅牢なソリューションを提供する。
FIDスコア8.34、FVDスコア76.39、および様々な知覚タスクにおける優れたパフォーマンスを示す。
これにより、自動運転におけるより正確な環境シミュレーションの道が開ける。
プロジェクトのホームページ: https://metadrivescape.github.io/papers_project/drivescapev1/index.html
Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. In this paper, we propose an end-to-end framework named DriveScape for multi-view, 3D condition-guided video generation. DriveScape not only streamlines the process by integrating camera data to ensure comprehensive spatial-temporal coverage, but also introduces a Bi-Directional Modulated Transformer module to effectively align 3D road structural information. As a result, our approach enables precise control over video generation, significantly enhancing realism and providing a robust solution for generating multi-view driving videos. Our framework achieves state-of-the-art results on the nuScenes dataset, demonstrating impressive generative quality metrics with an FID score of 8.34 and an FVD score of 76.39, as well as superior performance across various perception tasks. This paves the way for more accurate environmental simulations in autonomous driving. Our project homepage: https://metadrivescape.github.io/papers_project/drivescapev1/index.html | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# CustomContrast: 主観駆動型テキスト・画像のカスタマイズのためのマルチレベルコントラスト的視点
CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization ( http://arxiv.org/abs/2409.05606v2 ) ライセンス: Link先を確認 | Nan Chen, Mengqi Huang, Zhuowei Chen, Yang Zheng, Lei Zhang, Zhendong Mao, | (参考訳) 対象駆動型テキスト・ツー・イメージ(T2I)のカスタマイズは、学術と産業に大きな関心を寄せている。
このタスクにより、事前訓練されたモデルが、ユニークな主題に基づいて新しい画像を生成することができる。
既存の研究では、特定の画像の無関係な属性(例えば、ビュー、ポーズ、背景など)を本質的な属性として誤解させるような、単一の画像のすべての詳細を捉えることに焦点を当てた自己再構成的な視点が採用されている。
このミスコンストラクションは、対象の無関係な属性や本質的な属性の過度な適合または過度な適合、すなわち、これらの属性が同時に過剰に表現されるか、あるいは過度に表現され、類似性と可制御性の間のトレードオフを引き起こす。
本研究は,対象の内在属性を非関連属性からコントラスト学習を通じて切り離すことによって,対象の内在属性を非関連属性から切り離すことによって,理想的対象表現が達成できる,と論じる。
具体的には、MCL(Multilevel Contrastive Learning)パラダイムとMFI(Multimodal Feature Injection)エンコーダを含む新しいフレームワークであるCustomContrastを提案する。
MCLパラダイムは、クロスモーダルなセマンティック・コントラッシブ・ラーニングとマルチスケールなセマンティック・コントラッシブ・ラーニングを通じて、高レベルのセマンティクスから低レベルの外観に至るまで、被験者の本質的な特徴を抽出するために用いられる。
コントラスト学習を容易にするために,MFIエンコーダを導入する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
Subject-driven text-to-image (T2I) customization has drawn significant interest in academia and industry. This task enables pre-trained models to generate novel images based on unique subjects. Existing studies adopt a self-reconstructive perspective, focusing on capturing all details of a single image, which will misconstrue the specific image's irrelevant attributes (e.g., view, pose, and background) as the subject intrinsic attributes. This misconstruction leads to both overfitting or underfitting of irrelevant and intrinsic attributes of the subject, i.e., these attributes are over-represented or under-represented simultaneously, causing a trade-off between similarity and controllability. In this study, we argue an ideal subject representation can be achieved by a cross-differential perspective, i.e., decoupling subject intrinsic attributes from irrelevant attributes via contrastive learning, which allows the model to focus more on intrinsic attributes through intra-consistency (features of the same subject are spatially closer) and inter-distinctiveness (features of different subjects have distinguished differences). Specifically, we propose CustomContrast, a novel framework, which includes a Multilevel Contrastive Learning (MCL) paradigm and a Multimodal Feature Injection (MFI) Encoder. The MCL paradigm is used to extract intrinsic features of subjects from high-level semantics to low-level appearance through crossmodal semantic contrastive learning and multiscale appearance contrastive learning. To facilitate contrastive learning, we introduce the MFI encoder to capture cross-modal representations. Extensive experiments show the effectiveness of CustomContrast in subject similarity and text controllability. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# 組込みプラットフォーム上でのリアルタイム人間行動認識
Real-Time Human Action Recognition on Embedded Platforms ( http://arxiv.org/abs/2409.05662v2 ) ライセンス: Link先を確認 | Ruiqi Wang, Zichen Wang, Peiqi Gao, Mingzhen Li, Jaehwan Jeong, Yihang Xu, Yejin Lee, Carolyn M. Baum, Lisa Tabor Connor, Chenyang Lu, | (参考訳) コンピュータビジョンと深層学習の進歩により,映像に基づく人間行動認識(HAR)が実用化されている。
しかし、計算パイプラインの複雑さのため、ライブビデオストリーム上でHARを実行すると、組み込みプラットフォームでは過度な遅延が発生する。
この作業は、HARのリアルタイムパフォーマンス課題に4つのコントリビューションで取り組みます。
1) 最先端HARパイプラインにおける遅延ボトルネックとして標準光学フロー(OF)抽出手法を同定する実験的検討。
2) 新たな効率的な動作特徴抽出器の必要性を浮き彫りにした,標準手法と深層学習手法との遅延精度のトレードオフを探る。
3) 動作特徴抽出のための新しい単一ショットニューラルネットワークアーキテクチャであるIce(Integrated Motion Feature Extractor)の設計。
4)組み込みプラットフォームに適したリアルタイムHARシステムRT-HAREの開発。
Nvidia Jetson Xavier NXプラットフォームの実験結果によると、RT-HAREはリアルタイムHARを毎秒30フレームのフレームレートで実現し、高いレベルの認識精度を実現している。
With advancements in computer vision and deep learning, video-based human action recognition (HAR) has become practical. However, due to the complexity of the computation pipeline, running HAR on live video streams incurs excessive delays on embedded platforms. This work tackles the real-time performance challenges of HAR with four contributions: 1) an experimental study identifying a standard Optical Flow (OF) extraction technique as the latency bottleneck in a state-of-the-art HAR pipeline, 2) an exploration of the latency-accuracy tradeoff between the standard and deep learning approaches to OF extraction, which highlights the need for a novel, efficient motion feature extractor, 3) the design of Integrated Motion Feature Extractor (IMFE), a novel single-shot neural network architecture for motion feature extraction with drastic improvement in latency, 4) the development of RT-HARE, a real-time HAR system tailored for embedded platforms. Experimental results on an Nvidia Jetson Xavier NX platform demonstrated that RT-HARE realizes real-time HAR at a video frame rate of 30 frames per second while delivering high levels of recognition accuracy. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# エンドツーエンドASRモデルを用いたリアルタイム転写の評価
Evaluation of real-time transcriptions using end-to-end ASR models ( http://arxiv.org/abs/2409.05674v2 ) ライセンス: Link先を確認 | Carlos Arriaga, Alejandro Pozo, Javier Conde, Alvaro Alonso, | (参考訳) 音声認識(ASR)や音声テキスト(STT)はここ数年で大きく進歩している。
パイプラインに基づく従来のアーキテクチャは、モデルのトレーニングプロセスを簡素化し、合理化するための統合エンドツーエンド(E2E)アーキテクチャに置き換えられている。
さらに、弱教師付き学習のような新しいAIトレーニング手法は、モデルトレーニングのための高品質なオーディオデータセットの必要性を減らした。
しかし、これらの進歩にもかかわらず、リアルタイムの転写の研究はほとんど、あるいは全く行われていない。
リアルタイムのシナリオでは、音声は事前に記録されておらず、入力された音声は、ASRシステムによって処理されるように断片化されなければならない。
リアルタイムの要件を達成するためには、これらのフラグメントを可能な限り短くしてレイテンシを低減する必要がある。
しかし、音声は、発話を2つの別々の断片に分割すると誤った書き起こしが発生するため、いかなる時点でも分割することはできない。
また、短いフラグメントはASRモデルのコンテキストを減らします。
そのため、異なる分割アルゴリズムを設計し、テストし、結果の転写の質と遅延を最適化する必要がある。
本稿では、3つの音声分割アルゴリズムを異なるASRモデルで評価し、転写品質とエンドツーエンド遅延の両方に与える影響を判定する。
アルゴリズムは一定間隔での断片化、音声活動検出(VAD)、フィードバックによる断片化である。
その結果、音声の断片化なしに同じモデルの性能を比較して、この分割の効果を判定する。
その結果, VADフラグメンテーションは最高の品質を最高の遅延で提供するのに対し, 一定間隔でのフラグメンテーションは最低品質と最低遅延を与えることがわかった。
新たに提案されたフィードバックアルゴリズムは, 1.5-2s遅延の低減のためにWERの2-4%増加をVADスプリッティングと交換する。
Automatic Speech Recognition (ASR) or Speech-to-text (STT) has greatly evolved in the last few years. Traditional architectures based on pipelines have been replaced by joint end-to-end (E2E) architectures that simplify and streamline the model training process. In addition, new AI training methods, such as weak-supervised learning have reduced the need for high-quality audio datasets for model training. However, despite all these advancements, little to no research has been done on real-time transcription. In real-time scenarios, the audio is not pre-recorded, and the input audio must be fragmented to be processed by the ASR systems. To achieve real-time requirements, these fragments must be as short as possible to reduce latency. However, audio cannot be split at any point as dividing an utterance into two separate fragments will generate an incorrect transcription. Also, shorter fragments provide less context for the ASR model. For this reason, it is necessary to design and test different splitting algorithms to optimize the quality and delay of the resulting transcription. In this paper, three audio splitting algorithms are evaluated with different ASR models to determine their impact on both the quality of the transcription and the end-to-end delay. The algorithms are fragmentation at fixed intervals, voice activity detection (VAD), and fragmentation with feedback. The results are compared to the performance of the same model, without audio fragmentation, to determine the effects of this division. The results show that VAD fragmentation provides the best quality with the highest delay, whereas fragmentation at fixed intervals provides the lowest quality and the lowest delay. The newly proposed feedback algorithm exchanges a 2-4% increase in WER for a reduction of 1.5-2s delay, respectively, to the VAD splitting. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# 機械学習によるフィブリル接着剤の最適設計
Machine Learning Based Optimal Design of Fibrillar Adhesives ( http://arxiv.org/abs/2409.05928v2 ) ライセンス: Link先を確認 | Mohammad Shojaeifard, Matteo Ferraresso, Alessandro Lucantonio, Mattia Bacca, | (参考訳) 甲虫、クモ、ヤモリなどの動物で観察されるフィブリルの付着は、「接触分裂」によって表面の接着を強化するためにナノスコープや顕微鏡のフィブリルに依存している。
この概念は、ロボット工学、輸送学、医学における工学的応用に影響を与えた。
近年の研究では、フィブリル物性の官能的なグレーディングは接着性を向上させることが示唆されているが、これは簡易な測地でのみ検討された複雑な設計課題である。
機械学習(ML)は接着設計において注目を集めているが、これまでの試みではフィブリルアレイスケールの最適化を目標としていなかった。
本研究では,フィブリルコンプライアンスの分布を最適化し,接着強度を最大化するMLベースのツールを提案する。
2つのディープニューラルネットワーク(DNN)を特徴とする我々のツールは、単純なジオメトリのための以前の設計結果を復元し、複雑な構成のための新しいソリューションを導入する。
予測器DNNはランダムなコンプライアンス分布に基づいて接着強度を推定し、デザイナDNNは勾配に基づく最適化を用いて最大強度のコンプライアンスを最適化する。
本手法は, 試験誤差を大幅に低減し, 最適化プロセスの高速化を図り, 等荷重共有(ELS)を達成し, フィブリル接着剤と耐破壊性を目的としたマイクロ構造材料を設計するための高性能なソリューションを提供する。
Fibrillar adhesion, observed in animals like beetles, spiders, and geckos, relies on nanoscopic or microscopic fibrils to enhance surface adhesion via 'contact splitting.' This concept has inspired engineering applications across robotics, transportation, and medicine. Recent studies suggest that functional grading of fibril properties can improve adhesion, but this is a complex design challenge that has only been explored in simplified geometries. While machine learning (ML) has gained traction in adhesive design, no previous attempts have targeted fibril-array scale optimization. In this study, we propose an ML-based tool that optimizes the distribution of fibril compliance to maximize adhesive strength. Our tool, featuring two deep neural networks (DNNs), recovers previous design results for simple geometries and introduces novel solutions for complex configurations. The Predictor DNN estimates adhesive strength based on random compliance distributions, while the Designer DNN optimizes compliance for maximum strength using gradient-based optimization. Our method significantly reduces test error and accelerates the optimization process, offering a high-performance solution for designing fibrillar adhesives and micro-architected materials aimed at fracture resistance by achieving equal load sharing (ELS). | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# MyGo:カメラ制御による一貫性と制御可能なマルチビュー駆動ビデオ生成
MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control ( http://arxiv.org/abs/2409.06189v2 ) ライセンス: Link先を確認 | Yining Yao, Xi Guo, Chenjing Ding, Wei Wu, | (参考訳) 高品質な運転ビデオ生成は、自律運転モデルのためのトレーニングデータの提供に不可欠である。
しかし、現在の生成モデルは、ビデオ生成に不可欠なマルチビュータスク下でのカメラモーション制御の強化にはほとんど焦点を当てていない。
そこで我々は,カメラの制御性とマルチビューの整合性を向上させる条件として,搭載カメラの動作を導入し,映像生成のためのエンドツーエンドフレームワークであるMyGoを提案する。
MyGoは、カメラパラメータを事前訓練されたビデオ拡散モデルに注入するために追加のプラグインモジュールを使用している。
さらに、各ビューの生成過程において、エピポーラ制約と隣接ビュー情報を用いて、空間的時間的一貫性を高める。
実験結果から,MyGoは一般的なカメラ制御ビデオ生成タスクとマルチビュー駆動ビデオ生成タスクの両方において最先端の成果を上げており,自動運転におけるより正確な環境シミュレーションの基礎となっている。
プロジェクトページ: https://metadrivescape.github.io/papers_project/MyGo/page.html
High-quality driving video generation is crucial for providing training data for autonomous driving models. However, current generative models rarely focus on enhancing camera motion control under multi-view tasks, which is essential for driving video generation. Therefore, we propose MyGo, an end-to-end framework for video generation, introducing motion of onboard cameras as conditions to make progress in camera controllability and multi-view consistency. MyGo employs additional plug-in modules to inject camera parameters into the pre-trained video diffusion model, which retains the extensive knowledge of the pre-trained model as much as possible. Furthermore, we use epipolar constraints and neighbor view information during the generation process of each view to enhance spatial-temporal consistency. Experimental results show that MyGo has achieved state-of-the-art results in both general camera-controlled video generation and multi-view driving video generation tasks, which lays the foundation for more accurate environment simulation in autonomous driving. Project page: https://metadrivescape.github.io/papers_project/MyGo/page.html | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# MTDA-HSED:Multual-Assistance Tuning and Dual-Bnch Aggregating for Heterogeneous Sound Event Detection
MTDA-HSED: Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection ( http://arxiv.org/abs/2409.06196v2 ) ライセンス: Link先を確認 | Zehao Wang, Haobo Yue, Zhicheng Zhang, Da Mu, Jin Tang, Jianqin Yin, | (参考訳) 音響事象検出(SED)は音響シーンの理解と知覚において重要な役割を担っている。
以前の手法は印象的な能力を示してきた。
しかし、不均一なデータセットから複雑なシーンを学習するには不十分である。
本稿では,MTDA-HSED (Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection) と呼ばれる新しいデュアルブランチアーキテクチャを提案する。
MTDA-HSEDアーキテクチャは、M3A(Mutual-Assistance Audio Adapter)を用いて、マルチシナリオ問題に効果的に対処し、Dual-Branch Mid-Fusion (DBMF)モジュールを使ってマルチグラニュラリティ問題に対処する。
具体的には、M3AはBEATsブロックにアダプタとして統合され、マルチシナリオデータセットで微調整することでBEATsのパフォーマンスを改善する。
DBMFモジュールはBEATとCNNブランチを接続し、BEATとCNNブランチからの情報を深く融合させる。
実験の結果,提案手法はDESEDおよびMAESTRO Realデータセット上でのtextbf{$5\%$}によるmpAUCのベースラインを超えることがわかった。
コードはhttps://github.com/Visitor-W/MTDAで入手できる。
Sound Event Detection (SED) plays a vital role in comprehending and perceiving acoustic scenes. Previous methods have demonstrated impressive capabilities. However, they are deficient in learning features of complex scenes from heterogeneous dataset. In this paper, we introduce a novel dual-branch architecture named Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection (MTDA-HSED). The MTDA-HSED architecture employs the Mutual-Assistance Audio Adapter (M3A) to effectively tackle the multi-scenario problem and uses the Dual-Branch Mid-Fusion (DBMF) module to tackle the multi-granularity problem. Specifically, M3A is integrated into the BEATs block as an adapter to improve the BEATs' performance by fine-tuning it on the multi-scenario dataset. The DBMF module connects BEATs and CNN branches, which facilitates the deep fusion of information from the BEATs and the CNN branches. Experimental results show that the proposed methods exceed the baseline of mpAUC by \textbf{$5\%$} on the DESED and MAESTRO Real datasets. Code is available at https://github.com/Visitor-W/MTDA. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# Ferret: 大規模言語モデルのための大規模フルパラメータチューニング
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models ( http://arxiv.org/abs/2409.06277v2 ) ライセンス: Link先を確認 | Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu, | (参考訳) 大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
残念ながら、これらのモデルを大規模に微調整する、特にデータプライバシと通信効率が重要なフェデレーション環境では、大きな課題が浮かび上がっています。
既存の手法では、通信オーバーヘッドを軽減するためにパラメータ効率の良い微調整(PEFT)を用いることが多いが、これは典型的にはモデル精度のコストがかかる。
これらの制約に対処するため、分散データソース間のLLMのスケーラブルなフルパラメータチューニングを実現するために、LLM(Ferret)のスケールでのフェデレーションフルパラメータチューニング(Ferret)を提案する。
フェレットは,(1)効率的な局所的な更新のために広く応用された一階法,(2)コミュニケーションオーバーヘッドを著しく低減するためにこれらの更新を低次元空間に投影し,(3)この低次元空間からの局所的な更新を共有ランダム性で再構築し,効率的な全緯度グローバルアグリゲーションを促進し,迅速な収束と競争的な最終性能を確保する。
我々の厳密な理論的分析と知見は、フェレットが競争モデルの精度を維持しつつ、高い計算効率、通信オーバーヘッドの低減、高速収束を達成し、既存のフェデレーションフルパラメータチューニング手法のスケーラビリティを著しく向上させることを示した。
私たちの実装はhttps://github.com/allen4747/Ferret.comで公開されています。
Large Language Models (LLMs) have become indispensable in numerous real-world applications. Unfortunately, fine-tuning these models at scale, especially in federated settings where data privacy and communication efficiency are critical, presents significant challenges. Existing methods often resort to parameter-efficient fine-tuning (PEFT) to mitigate communication overhead, but this typically comes at the cost of model accuracy. To address these limitations, we propose federated full-parameter tuning at scale for LLMs (Ferret), the first first-order method with shared randomness to enable scalable full-parameter tuning of LLMs across decentralized data sources while maintaining competitive model accuracy. Ferret accomplishes this through three aspects: (1) it employs widely applied first-order methods for efficient local updates; (2) it projects these updates into a low-dimensional space to considerably reduce communication overhead; and (3) it reconstructs local updates from this low-dimensional space with shared randomness to facilitate effective full-parameter global aggregation, ensuring fast convergence and competitive final performance. Our rigorous theoretical analyses and insights along with extensive experiments, show that Ferret significantly enhances the scalability of existing federated full-parameter tuning approaches by achieving high computational efficiency, reduced communication overhead, and fast convergence, all while maintaining competitive model accuracy. Our implementation is available at https://github.com/allen4747/Ferret. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# 線形帯域に対する修正メタトンプソンサンプリングとそのベイズレギュレット解析
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis ( http://arxiv.org/abs/2409.06329v2 ) ライセンス: Link先を確認 | Hao Li, Dong Liang, Zheng Xie, | (参考訳) メタラーニングは、学習方法を学ぶ能力によって特徴付けられ、異なるタスクにまたがる学習戦略の適応を可能にする。
最近の研究はMeta-Thompson Smpling (Meta-TS)を導入し、メタプライアからサンプリングされた未知の事前分布をメタプライアから引き出されたバンディットインスタンスと相互作用させることでメタ学習する。
しかし、その分析はガウスの盗賊に限られていた。
文脈的マルチアーム・バンディット・フレームワークはガウス・バンディットの拡張であり、文脈ベクトルを用いて最も価値のある武器を予測し、時間の経過とともに後悔を最小限に抑えるために探索と搾取を最適にバランスさせることに挑戦する。
本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。
理論的にはMeta-TSLBを解析し、$O((m+\log)を導出する。
(m))\sqrt{n\log
(n)})$bound on its Bayes regret, which $m$ represent the number of bandit instance, and $n$ the number of Thompson Sampling。
さらに,線形文脈帯域に対するMeta-TSの解析を補完する。
Meta-TSLBの性能を異なる設定で実験的に評価し、Meta-TSLBの一般化能力を実験・解析し、未確認のインスタンスに適応する可能性を示す。
Meta-learning is characterized by its ability to learn how to learn, enabling the adaptation of learning strategies across different tasks. Recent research introduced the Meta-Thompson Sampling (Meta-TS), which meta-learns an unknown prior distribution sampled from a meta-prior by interacting with bandit instances drawn from it. However, its analysis was limited to Gaussian bandit. The contextual multi-armed bandit framework is an extension of the Gaussian Bandit, which challenges agent to utilize context vectors to predict the most valuable arms, optimally balancing exploration and exploitation to minimize regret over time. This paper introduces Meta-TSLB algorithm, a modified Meta-TS for linear contextual bandits. We theoretically analyze Meta-TSLB and derive an $ O((m+\log(m))\sqrt{n\log(n)})$ bound on its Bayes regret, in which $m$ represents the number of bandit instances, and $n$ the number of rounds of Thompson Sampling. Additionally, our work complements the analysis of Meta-TS for linear contextual bandits. The performance of Meta-TSLB is evaluated experimentally under different settings, and we experimente and analyze the generalization capability of Meta-TSLB, showcasing its potential to adapt to unseen instances. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# AMNS:テキスト・画像検索のための注意重み付き選択マスクとノイズラベル抑圧
AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval ( http://arxiv.org/abs/2409.06385v2 ) ライセンス: Link先を確認 | Runqing Zhang, Xue Zhou, | (参考訳) テキスト・トゥ・イメージ・パーソン検索は、与えられたテキスト記述を検索することを目的としており、ほとんどの手法では、トレーニング用画像・テキストペアが正しく一致していると暗黙的に仮定するが、実際には、画像品質と誤ラベルが原因で、画像・テキストペアに対して非相関性および偽相関性の問題が発生する。
一方、ランダムマスキング強化戦略は、画像の語彙要素とテキスト記述との間のノイズの多いペアリングを発生させる問題となる意味的コンテンツを誤って破棄する可能性がある。
これら2つの問題を解決するため、注意重み付き選択マスク戦略により、ランダムマスクが生み出す問題を緩和する新しいノイズラベル抑制手法を提案する。
ノイズラベル抑制法では、逆KL散乱損失と重み調整焦点損失を組み合わせた逆KL散乱損失を考慮してモデルが過信されることを防止し、より難しいサンプルに対するモデルの認識能力を向上することにより、ノイズラベルの効果を抑制する。
一方、Attention-Weighted Selective Maskは、画像エンコーダのEMAバージョンを介して生画像を処理する。
多くの実験でノイズ問題に対処する手法の有効性が検証されている。
コードは近々https://github.com/RunQing715/AMNS.git.comで公開される。
Text-to-image person retrieval aims to retrieve images of person given textual descriptions, and most methods implicitly assume that the training image-text pairs are correctly aligned, but in practice, under-correlated and false-correlated problems arise for image-text pairs due to poor image quality and mislabeling. Meanwhile, the random masking augmentation strategy may incorrectly discard semantic content resulting in the problem of generating noisy pairings between image lexical elements and text descriptions. To solve these two problems, we propose a new noise label suppression method and alleviate the problem generated by random mask through an attention-weighted selective mask strategy. In the proposed noise label suppression method, the effect of noise labels is suppressed by preventing the model from being overconfident by considering the inverse KL scatter loss, which is combined with the weight adjustment focus loss to further improve the model's recognition ability on difficult samples. On the other hand, Attention-Weighted Selective Mask processes the raw image through the EMA version of the image encoder, retaining some of the tokens with strong semantic associations with the corresponding text descriptions in order to extract better features. Numerous experiments validate the effectiveness of our approach in terms of dealing with noisy problems. The code will be available soon at https://github.com/RunQing715/AMNS.git. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# 土壌からの起爆細胞の統計的解析のための機械学習によるアプローチ
A Machine Learning Based Approach for Statistical Analysis of Detonation Cells from Soot Foils ( http://arxiv.org/abs/2409.06466v2 ) ライセンス: Link先を確認 | Vansh Sharma, Michael Ullman, Venkat Raman, | (参考訳) 本研究では, 現場で広く普及している手動・原始的エッジ検出手法の限界に対処するため, ソープフォイル画像からのデトネーションセルの精密セグメンテーションと測定のための機械学習(ML)に基づく新しいアルゴリズムを提案する。
細胞生物学的セグメンテーションモデルの進歩を利用して、提案アルゴリズムは、デトネーション研究において重要な課題である訓練手順やデータセットを使わずに、正確に細胞パターンを抽出するように設計されている。
このアルゴリズムの性能は、実験および数値デトネーション研究を模倣した一連のテストケースを用いて検証された。
その結果、複雑な場合であっても10%以内の誤差が残っており、一貫した精度が示された。
このアルゴリズムは、細胞面積やスパンなどのキーセルの指標を効果的に取得し、不規則な細胞構造を持つ様々なすすまのサンプルの傾向を明らかにした。
このモデルは頑丈に証明されているが、非常に複雑な細胞パターンや不規則な細胞パターンのセグメンテーションと解析に課題が残っている。
この研究は、デトネーション波動力学の理解を深めるためのアルゴリズムの幅広い適用性とポテンシャルを強調している。
This study presents a novel algorithm based on machine learning (ML) for the precise segmentation and measurement of detonation cells from soot foil images, addressing the limitations of manual and primitive edge detection methods prevalent in the field. Using advances in cellular biology segmentation models, the proposed algorithm is designed to accurately extract cellular patterns without a training procedure or dataset, which is a significant challenge in detonation research. The algorithm's performance was validated using a series of test cases that mimic experimental and numerical detonation studies. The results demonstrated consistent accuracy, with errors remaining within 10%, even in complex cases. The algorithm effectively captured key cell metrics such as cell area and span, revealing trends across different soot foil samples with uniform to highly irregular cellular structures. Although the model proved robust, challenges remain in segmenting and analyzing highly complex or irregular cellular patterns. This work highlights the broad applicability and potential of the algorithm to advance the understanding of detonation wave dynamics. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# 中性ストロンチウム88のサブmHz$^1$S$_0\,\rightarrow\,^3$P$_0$遷移における連続超放射光レーザーのモデリング
Modeling of a continuous superradiant laser on the sub-mHz $^1$S$_0\,\rightarrow\,^3$P$_0$ transition in neutral strontium-88 ( http://arxiv.org/abs/2409.06575v2 ) ライセンス: Link先を確認 | Swadheen Dubey, Georgy A. Kazakov, Benedikt Heizenreder, Sheng Zhou, Shayne Bennetts, Stefan Alaric Schäffer, Ananya Sitaram, Florian Schreck, | (参考訳) 狭めの光遷移を用いた連続超輝度は、最先端の光時計の短期安定性を向上させる可能性がある。
ミリ波線幅のクロック遷移におけるパルス超放射光の放出が示されているが、フーリエ制限のない真の連続動作は極めて困難であることが判明した。
脱コヒーレンス効果を最小化しながら高い原子フラックスを維持することのトレードオフは、大きな障害となる。
本稿では,超低温ストロンチウム原子の高流束連続ビームとボウティキャビティを併用して超ラジアントラジングを発生させることにより,この問題を克服できるマシンの設計について議論する。
本設計の有効性を評価するため, 連続した高効率冷却, ローディング, ポンプのシミュレーション結果について検討した。
次に、位置依存シフト、衝突脱コヒーレンス、光シフト、原子損失を考慮し、生成した超放射能場を刺激する2つの異なるモデルを示す。
最後に、原子番号の変動によって制限された100mHz未満のレーザー光線幅を推定し、数百fWの出力出力を得る。
Continuous superradiance using a narrow optical transition has the potential to improve the short-term stability of state-of-the-art optical clocks. Even though pulsed superradiant emission on a mHz linewidth clock transition has been shown, true continuous operation, without Fourier limitation, has turned out to be extremely challenging. The trade-off between maintaining a high atomic flux while minimizing decoherence effects presents a significant obstacle. Here, we discuss the design of a machine that could overcome this problem by combining a high-flux continuous beam of ultra cold strontium atoms with a bowtie cavity for the generation of superradiant lasing. To evaluate the feasibility of our design, we present simulation results for continuous high-efficiency cooling, loading, and pumping to the upper lasing state inside the bowtie cavity. We then present two different models for stimulating the generated superradiant field by taking into account position-dependent shifts, collisional decoherence, light shifts, and atom loss. Finally, we estimate a laser linewidth of less than 100 mHz, limited by atom number fluctuations, and resulting in an output power of hundreds of fW. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# EyeCLIP:マルチモーダル眼科画像解析のための視覚言語基礎モデル
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis ( http://arxiv.org/abs/2409.06644v2 ) ライセンス: Link先を確認 | Danli Shi, Weiyi Zhang, Jiancheng Yang, Siyu Huang, Xiaolan Chen, Mayinuer Yusufu, Kai Jin, Shan Lin, Shunming Liu, Qing Zhang, Mingguang He, | (参考訳) 緑内障、黄斑変性、糖尿病網膜症などの眼疾患の早期発見は、視力喪失の予防に不可欠である。
人工知能(AI)ファンデーションモデルはこれらの課題に対処する上で大きな可能性を秘めているが、既存の眼科ファンデーションモデルは、主に単一のモダリティに焦点をあてる一方で、眼疾患の診断には複数のモダリティが必要である。
批判的だが、しばしば見落とされがちな側面は、同一患者の様々なモダリティにまたがる多視点情報を活用することである。
さらに、眼疾患の長い尾部の性質のため、標準的な完全な教師なしまたは教師なしの学習アプローチは、しばしば苦労する。
したがって、より広い範囲の疾患を捉えるために臨床テキストを統合することが不可欠である。
部分テキストデータを用いた277万以上のマルチモーダル眼科画像を用いた視覚言語基盤モデルEyeCLIPを提案する。
大規模マルチモーダルなラベル付きラベル付きデータを完全に活用するために,自己教師付き再構成,マルチモーダル画像コントラスト学習,画像テキストコントラスト学習を組み合わせた事前学習戦略を導入し,複数のモーダルの共有表現を学習した。
14のベンチマークデータセットを用いて評価することにより、EyeCLIPは、眼疾患や全身疾患を含む幅広い下流タスクに移行し、疾患分類、視覚的質問応答、モーダル検索において最先端のパフォーマンスを達成することができる。
EyeCLIPは、従来の手法、特に現実世界のロングテールシナリオにおいて、数ショット、ゼロショットの能力を示す重要な進歩を示している。
Early detection of eye diseases like glaucoma, macular degeneration, and diabetic retinopathy is crucial for preventing vision loss. While artificial intelligence (AI) foundation models hold significant promise for addressing these challenges, existing ophthalmic foundation models primarily focus on a single modality, whereas diagnosing eye diseases requires multiple modalities. A critical yet often overlooked aspect is harnessing the multi-view information across various modalities for the same patient. Additionally, due to the long-tail nature of ophthalmic diseases, standard fully supervised or unsupervised learning approaches often struggle. Therefore, it is essential to integrate clinical text to capture a broader spectrum of diseases. We propose EyeCLIP, a visual-language foundation model developed using over 2.77 million multi-modal ophthalmology images with partial text data. To fully leverage the large multi-modal unlabeled and labeled data, we introduced a pretraining strategy that combines self-supervised reconstructions, multi-modal image contrastive learning, and image-text contrastive learning to learn a shared representation of multiple modalities. Through evaluation using 14 benchmark datasets, EyeCLIP can be transferred to a wide range of downstream tasks involving ocular and systemic diseases, achieving state-of-the-art performance in disease classification, visual question answering, and cross-modal retrieval. EyeCLIP represents a significant advancement over previous methods, especially showcasing few-shot, even zero-shot capabilities in real-world long-tail scenarios. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |
# Alignist: ハウジング形状と対応によるCADインフォームド配向分布推定
Alignist: CAD-Informed Orientation Distribution Estimation by Fusing Shape and Correspondences ( http://arxiv.org/abs/2409.06683v2 ) ライセンス: Link先を確認 | Shishir Reddy Vutukur, Rasmus Laurvig Haugaard, Junwen Huang, Benjamin Busam, Tolga Birdal, | (参考訳) オブジェクトのポーズ分布の推定は、ロボット工学において、対称オブジェクトのより良い経路計画とハンドリングのために不可欠である。
近年の分布推定手法は,CADモデルが存在しない場合の1ポーズ推定確率を最大化することにより,コントラスト学習に基づくアプローチを採用している。
CADモデルを用いて得られた対応分布と形状情報の対称性を利用したポーズ分布推定手法を提案する。
対照的な学習に基づくアプローチは、現実的なシナリオでは不可能な分布を適切に学習するために、異なる視点からの訓練画像の総量を必要とする。
その代わり、CADモデルから対応分布と形状情報を活用できるパイプラインを提案し、後にポーズ分布を学習する。
さらに、画像に条件付けされたポーズ分布を学習する前に、対応に基づくポーズ分布へのアクセスは、分布間の損失を公式化するのに役立ちます。
配信に関する以前の知識は、ネットワークがよりシャープなモードに焦点を合わせるのにも役立ちます。
CADに先行して,本手法はより高速に収束し,一つのモードに焦点を絞った対照的な手法とは異なり,有効な全てのモードの近辺の分布を学習することで,より正確な分布を学習する。
SYMSOL-IおよびT-Lessデータセットのベンチマーク結果を得た。
Object pose distribution estimation is crucial in robotics for better path planning and handling of symmetric objects. Recent distribution estimation approaches employ contrastive learning-based approaches by maximizing the likelihood of a single pose estimate in the absence of a CAD model. We propose a pose distribution estimation method leveraging symmetry respecting correspondence distributions and shape information obtained using a CAD model. Contrastive learning-based approaches require an exhaustive amount of training images from different viewpoints to learn the distribution properly, which is not possible in realistic scenarios. Instead, we propose a pipeline that can leverage correspondence distributions and shape information from the CAD model, which are later used to learn pose distributions. Besides, having access to pose distribution based on correspondences before learning pose distributions conditioned on images, can help formulate the loss between distributions. The prior knowledge of distribution also helps the network to focus on getting sharper modes instead. With the CAD prior, our approach converges much faster and learns distribution better by focusing on learning sharper distribution near all the valid modes, unlike contrastive approaches, which focus on a single mode at a time. We achieve benchmark results on SYMSOL-I and T-Less datasets. | 翻訳日:2024-09-12 13:13:20 公開日:2024-09-11 |