このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240906となっている論文です。

PDF登録状況(公開日: 20240906)

TitleAuthorsAbstract論文公表日・翻訳日
# データシステムのデコロン化--Jyutping や Pinyin をデータリンクのための中国語名の音節表現として使う

Decolonising Data Systems: Using Jyutping or Pinyin as tonal representations of Chinese names for data linkage ( http://arxiv.org/abs/2409.13706v1 )

ライセンス: Link先を確認
Joseph Lam, Mario Cortina-Borja, Robert Aldridge, Ruth Blackburn, Katie Harron, (参考訳) データリンクは、健康研究や政策作成にますます使われ、健康不平等の理解に頼っている。 しかし、リンクされたデータは、基礎となるデータ品質と同じくらいに有用であり、差分リンクレートは、リンクされたデータの選択バイアスを引き起こす可能性がある。 データ品質を選択的に妥協するメカニズムは、名前のロマン化である。 異なる文字体系のテキストをラテン語ベースの文字に変換することは、中国語、ベトナム語、スワヒリ語などの文字ベースの文字体系で名前を表現する標準的なプロセスである。 漢字の標準化されていないロマン化は、正しい名前の順序を保つという問題や、音節言語の適切な音声表現の欠如が原因で、中国人移民のリンク率の低下を招いた。 本論説は、漢名を持つ個人のリンク率や精度を向上させるため、広東語(Jyutping)や中国語(Pinyin)の標準化されたロマン化システムの使用を示唆するものである。 公開資料から抽出した中国語と英語の771名を用いて,中国名を表すためにJyutping,Pinyin,HKG-romanisation(Hong Kong Government Romanization system)の有用性を比較した。 我々は,Jyutping と Pinyin の両者が,HKG-romanization システムと比較して誤差が少ないことを示した。 従来の書記システムにおける人名収集・保存は倫理的・社会的に関係があることを示唆する。 これにより、言語固有の前処理とリンクのパラダイムが発達し、より包括的な研究データが得られる。

Data linkage is increasingly used in health research and policy making and is relied on for understanding health inequalities. However, linked data is only as useful as the underlying data quality, and differential linkage rates may induce selection bias in the linked data. A mechanism that selectively compromises data quality is name romanisation. Converting text of a different writing system into Latin based writing, or romanisation, has long been the standard process of representing names in character-based writing systems such as Chinese, Vietnamese, and other languages such as Swahili. Unstandardised romanisation of Chinese characters, due in part to problems of preserving the correct name orders the lack of proper phonetic representation of a tonal language, has resulted in poor linkage rates for Chinese immigrants. This opinion piece aims to suggests that the use of standardised romanisation systems for Cantonese (Jyutping) or Mandarin (Pinyin) Chinese, which incorporate tonal information, could improve linkage rates and accuracy for individuals with Chinese names. We used 771 Chinese and English names scraped from openly available sources, and compared the utility of Jyutping, Pinyin and the Hong Kong Government Romanisation system (HKG-romanisation) for representing Chinese names. We demonstrate that both Jyutping and Pinyin result in fewer errors compared with the HKG-romanisation system. We suggest that collecting and preserving people's names in their original writing systems is ethically and socially pertinent. This may inform development of language-specific pre-processing and linkage paradigms that result in more inclusive research data which better represents the targeted populations.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-06
# IT支援のための検索型世代別インシデント解決推薦システム

Retrieval Augmented Generation-Based Incident Resolution Recommendation System for IT Support ( http://arxiv.org/abs/2409.13707v1 )

ライセンス: Link先を確認
Paulina Toro Isaza, Michael Nidd, Noah Zheutlin, Jae-wook Ahn, Chidansh Amitkumar Bhatt, Yu Deng, Ruchi Mahindru, Martin Franz, Hans Florian, Salim Roukos, (参考訳) ITサポートとAIOpsの領域で生成AIを実装したいクライアントは、ドメインカバレッジとモデル選択制限によるモデルサイズ制約という、2つの重要な問題に直面します。 クライアントは、コストとプライバシの懸念から、GPT-4のようなより大きなプロプライエタリモデルを使用しないことを選択するかもしれない。 検索システムは、まず、より小さな生成モデルが生成のコンテキストとして利用する必要なドメイン知識を取得する。 本稿では,回答生成のための検索拡張生成(RAG)と,分類のためのエンコーダのみのモデルと,クエリ生成のための生成可能な大規模言語モデルを組み合わせた,サポートケースソリューションレコメンデーションのためのITサポートドメインのクライアント向けに開発されたシステムを提案する。 アーキテクチャの詳細、データ収集とアノテーション、開発ジャーニーと事前検証、最終的なデプロイメントプロセスと評価計画、最終的に学んだ教訓について取り上げます。

Clients wishing to implement generative AI in the domain of IT Support and AIOps face two critical issues: domain coverage and model size constraints due to model choice limitations. Clients might choose to not use larger proprietary models such as GPT-4 due to cost and privacy concerns and so are limited to smaller models with potentially less domain coverage that do not generalize to the client's domain. Retrieval augmented generation is a common solution that addresses both of these issues: a retrieval system first retrieves the necessary domain knowledge which a smaller generative model leverages as context for generation. We present a system developed for a client in the IT Support domain for support case solution recommendation that combines retrieval augmented generation (RAG) for answer generation with an encoder-only model for classification and a generative large language model for query generation. We cover architecture details, data collection and annotation, development journey and preliminary validations, expected final deployment process and evaluation plans, and finally lessons learned.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-06
# Column Vocabulary Association (CVA) : データレステーブルの意味論的解釈

Column Vocabulary Association (CVA): semantic interpretation of dataless tables ( http://arxiv.org/abs/2409.13709v1 )

ライセンス: Link先を確認
Margherita Martorana, Xueli Pan, Benno Kruit, Tobias Kuhn, Jacco van Ossenbruggen, (参考訳) 従来のセマンティックテーブル解釈(STI)メソッドは主にセマンティックアノテーションを作成するために基礎となるテーブルデータに依存している。 今年のSemTabチャレンジでは、‘Metadata to KG’トラックが導入された。これは、メタデータ情報のみを使用して、基盤となるデータにアクセスせずに、STIを実行することに焦点を当てている。 この新たな課題に対応するために、カラム語彙協会(CVA)という新しい用語を導入する。 この用語はメタデータ情報のみに基づく列ヘッダのセマンティックアノテーションのタスクを指す。 本研究では,Large Language Models (LLMs) やRetrieval Augmented Generation (RAG) など,CVAタスクの実行における様々な手法の性能評価を行った。 我々の手法はゼロショット設定を使用し、ドメイン固有の設定を避けることを目的としており、Large Language Models (LLM) に事前訓練や例を渡さない。 3種類の商用GPTモデル (gpt-3.5-turbo-0.125, gpt-4o, gpt-4-turbo) と4つのオープンソースモデル (llama3-80b, llama3-7b, gemma-7b, mixtral-8x7b) について検討した。 我々は、このモデルをRAGシステムと統合し、温度設定の変化がパフォーマンスに与える影響について検討する。 さらに,SemanticBERTを用いてCVAタスクを実行し,メタデータ情報がパフォーマンスに与える影響を分析する。 最初の発見は、LLMは一般的に1.0以下の温度で良好に動作し、特定のケースでは100\%の精度を達成していることを示している。 調査の結果,データの性質がCVAタスクの結果に大きく影響していることが判明した。 実際、入力データと用語集が関連している場合(例えば、同じ組織によって作成されている場合)、従来の手法はLLMのパフォーマンスを上回っているように見える。

Traditional Semantic Table Interpretation (STI) methods rely primarily on the underlying table data to create semantic annotations. This year's SemTab challenge introduced the ``Metadata to KG'' track, which focuses on performing STI by using only metadata information, without access to the underlying data. In response to this new challenge, we introduce a new term: Column Vocabulary Association (CVA). This term refers to the task of semantic annotation of column headers solely based on metadata information. In this study, we evaluate the performance of various methods in executing the CVA task, including a Large Language Models (LLMs) and Retrieval Augmented Generation (RAG) approach, as well as a more traditional similarity approach with SemanticBERT. Our methodology uses a zero-shot setting, with no pretraining or examples passed to the Large Language Models (LLMs), as we aim to avoid a domain-specific setting. We investigate a total of 7 different LLMs, of which three commercial GPT models (i.e. gpt-3.5-turbo-0.125, gpt-4o and gpt-4-turbo) and four open source models (i.e. llama3-80b, llama3-7b, gemma-7b and mixtral-8x7b). We integrate this models with RAG systems, and we explore how variations in temperature settings affect performances. Moreover, we continue our investigation by performing the CVA task utilizing SemanticBERT, analyzing how various metadata information influence its performance. Initial findings indicate that LLMs generally perform well at temperatures below 1.0, achieving an accuracy of 100\% in certain cases. Nevertheless, our investigation also reveal that the nature of the data significantly influences CVA task outcomes. In fact, in cases where the input data and glossary are related (for example by being created by the same organizations) traditional methods appear to surpass the performance of LLMs.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-06
# GPT2のLayerNormは微調整で削除できる

You can remove GPT2's LayerNorm by fine-tuning ( http://arxiv.org/abs/2409.13710v1 )

ライセンス: Link先を確認
Stefan Heimersheim, (参考訳) GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。 LNは大きな言語モデルのトレーニングを安定させるために必要な重要なコンポーネントであり、LNやRMSNormはトランスフォーマーアーキテクチャに基づいたほとんど全ての大きな言語モデルで使われてきた。 LN層の非線形性は、残留ストリームの解釈を妨げ、モデルを回路に分解することが困難になるため、機械論的解釈の妨げとなる。 いくつかの研究は「レアソンズ・解釈可能性研究者はレイヤー・ノルムを嫌っている」とまで名づけている。 本稿では,トレーニングデータの分数(500Mトークン)を微調整することにより,事前学習したGPT2小モデルからLN層を除去できることを示す。 このLNフリーモデルは,OpenWebTextデータセットやThePileデータセット(-0.05のクロスエントロピー損失)やHellaswagベンチマーク(-0.5%の精度)において,オリジナルのモデルと同じような性能を実現することを実証した。 細調整処理とHugging Faceレポジトリを,細調整したGPT2-Smallモデルで提供する。 我々の研究は、機械論的解釈可能性研究のための単純化されたモデルを提供するだけでなく、LN層が推論時にトランスフォーマーモデルにおいて重要な役割を果たさないという証拠も提供する。

The LayerNorm (LN) layer in GPT-style transformer models has long been a hindrance to mechanistic interpretability. LN is a crucial component required to stabilize the training of large language models, and LN or the similar RMSNorm have been used in practically all large language models based on the transformer architecture. The non-linear nature of the LN layers is a hindrance for mechanistic interpretability as it hinders interpretation of the residual stream, and makes it difficult to decompose the model into circuits. Some research have gone so far as to name "reasons interpretability researchers hate layer norm". In this paper we show that it is possible to remove the LN layers from a pre-trained GPT2-small model by fine-tuning on a fraction (500M tokens) of the training data. We demonstrate that this LN-free model achieves similar performance to the original model on the OpenWebText and ThePile datasets (-0.05 cross-entropy loss), and the Hellaswag benchmark (-0.5% accuracy). We provide the fine-tuning procedure and a Hugging Face repository with the fine-tuned GPT2-small models. Our work not only provides a simplified model for mechanistic interpretability research, but also provides evidence that the LN layers, at inference time, do not play a crucial role in transformer models.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-06
# 低リソース環境における医療概念正規化

Medical Concept Normalization in a Low-Resource Setting ( http://arxiv.org/abs/2409.14579v1 )

ライセンス: Link先を確認
Tim Patzelt, (参考訳) バイオメディカル自然言語処理の分野では、医療概念正規化は概念の言及を大きな知識ベースに正確にマッピングするための重要なタスクである。 しかし、このタスクは、限られたデータとリソースが利用可能な低リソース設定でさらに困難になる。 本稿では,低リソース環境における医療概念正規化の課題について考察する。 具体的には,ドイツ語テキストに適用されている医学概念正規化手法の問題点について検討する。 適切なデータセットが存在しないため、ドイツの医療オンラインフォーラムからの投稿からなるデータセットには、統一医療言語システムの概念が注釈付けされている。 実験により,多言語トランスフォーマーモデルが文字列類似性手法より優れていることが示された。 また, 文脈情報を用いた平文の正規化も検討したが, 結果が劣る結果となった。 最高の性能モデルの結果に基づいて,系統的なエラー解析を行い,頻繁なエラーを軽減するための潜在的な改善を提案する。

In the field of biomedical natural language processing, medical concept normalization is a crucial task for accurately mapping mentions of concepts to a large knowledge base. However, this task becomes even more challenging in low-resource settings, where limited data and resources are available. In this thesis, I explore the challenges of medical concept normalization in a low-resource setting. Specifically, I investigate the shortcomings of current medical concept normalization methods applied to German lay texts. Since there is no suitable dataset available, a dataset consisting of posts from a German medical online forum is annotated with concepts from the Unified Medical Language System. The experiments demonstrate that multilingual Transformer-based models are able to outperform string similarity methods. The use of contextual information to improve the normalization of lay mentions is also examined, but led to inferior results. Based on the results of the best performing model, I present a systematic error analysis and lay out potential improvements to mitigate frequent errors.
翻訳日:2024-11-06 22:08:18 公開日:2024-09-06
# ナノ粒子の毒性予測のためのAIと機械学習のアプローチ : 物理化学的特性の重要な役割

AI and Machine Learning Approaches for Predicting Nanoparticles Toxicity The Critical Role of Physiochemical Properties ( http://arxiv.org/abs/2409.15322v1 )

ライセンス: Link先を確認
Iqra Yousaf, (参考訳) 本研究は, ナノ粒子の毒性予測に人工知能と機械学習を用い, 様々な産業で広く利用されていること, 生物学的相互作用を評価する上で固有の課題について検討する。 決定木、ランダムフォレスト、XGBoostなどのモデルを用いて、サイズ、形状、表面電荷、化学組成などの物理化学的性質を分析し、毒性への影響を判定する。 本研究は, 酸素原子, 粒子径, 表面積, 投与量, 曝露期間が毒性に及ぼす影響を明らかにする。 機械学習を使用することで、これらの特性が生物学的文脈で形成する複雑なパターンの微妙な理解が可能になり、効率性と予測力において従来の分析手法を超越する。 これらの進歩は、計算化学によるより安全なナノマテリアルの開発に役立ち、コストと時間のかかる実験手法への依存を減らす。 このアプローチは、生体系におけるナノ粒子の挙動の理解を深めるだけでなく、安全性評価プロセスの合理化にも寄与し、ナノ毒性学における計算技術の統合に向けた重要な一歩となった。

This research investigates the use of artificial intelligence and machine learning techniques to predict the toxicity of nanoparticles, a pressing concern due to their pervasive use in various industries and the inherent challenges in assessing their biological interactions. Employing models such as Decision Trees, Random Forests, and XGBoost, the study focuses on analyzing physicochemical properties like size, shape, surface charge, and chemical composition to determine their influence on toxicity. Our findings highlight the significant role of oxygen atoms, particle size, surface area, dosage, and exposure duration in affecting toxicity levels. The use of machine learning allows for a nuanced understanding of the intricate patterns these properties form in biological contexts, surpassing traditional analysis methods in efficiency and predictive power. These advancements aid in developing safer nanomaterials through computational chemistry, reducing reliance on costly and time-consuming experimental methods. This approach not only enhances our understanding of nanoparticle behavior in biological systems but also streamlines the safety assessment process, marking a significant stride towards integrating computational techniques in nanotoxicology.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-06
# ELIPSの紹介 : LLMに基づく精神疾患の推論研究への倫理的アプローチ

Introducing ELLIPS: An Ethics-Centered Approach to Research on LLM-Based Inference of Psychiatric Conditions ( http://arxiv.org/abs/2409.15323v1 )

ライセンス: Link先を確認
Roberta Rocca, Giada Pistilli, Kritika Maheshwari, Riccardo Fusaroli, (参考訳) 世界中のメンタルヘルスシステムは需要を満たすのに苦戦しているため、言語モデルを用いて精神医学的な状態や言語生産の精神病理学的特徴を推測することに注力している。 しかし、これまでのところ、この研究は、可能なアプリケーションとモデル設計の相乗効果を確保するために不可欠な倫理的問題について十分に考慮されていないため、限定的な臨床応用性を備えたソリューションしか提供していない。 本論文は,臨床応用モデルへの進展を早めるために,言語に基づく精神病理学の考察の倫理的景観を図示し,研究者がそれをナビゲートするための実用的なツールを提供する。 我々は、この領域におけるモデル開発と展開を導く7つの中核的な倫理原則を特定し、これらの原則を運用する倫理的ツールキットであるELLIPSに翻訳し、データ選択、アーキテクチャ、評価、モデル展開に関して研究者の選択を導くことができる質問へと変換し、その使用を実証するケーススタディを提供する。 そこで本研究では,現実の応用可能性を示す具体的な可能性を持ったモデル技術の出現を促進することを目的とする。

As mental health care systems worldwide struggle to meet demand, there is increasing focus on using language models to infer neuropsychiatric conditions or psychopathological traits from language production. Yet, so far, this research has only delivered solutions with limited clinical applicability, due to insufficient consideration of ethical questions crucial to ensuring the synergy between possible applications and model design. To accelerate progress towards clinically applicable models, our paper charts the ethical landscape of research on language-based inference of psychopathology and provides a practical tool for researchers to navigate it. We identify seven core ethical principles that should guide model development and deployment in this domain, translate them into ELLIPS, an ethical toolkit operationalizing these principles into questions that can guide researchers' choices with respect to data selection, architectures, evaluation, and model deployment, and provide a case study exemplifying its use. With this, we aim to facilitate the emergence of model technology with concrete potential for real-world applicability.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-06
# 潜伏変数レンズによるLDMの認知幻覚

Cognitive phantoms in LLMs through the lens of latent variables ( http://arxiv.org/abs/2409.15324v1 )

ライセンス: Link先を確認
Sanne Peereboom, Inga Schwabe, Bennett Kleinberg, (参考訳) 大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。 その大きさと複雑さは従来の評価手法を複雑にし、心理学の分野に触発された代替アプローチの出現を引き起こした。 近年のLCMに対する心理測定調査では、LSMの人間的な特性が報告されており、LCMの行動に影響を及ぼす可能性がある。 しかし、このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。 典型的な手順は、平均的なLLMスコアを比較して解釈することで、LLMの妥当性をほとんど認めない。 本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。 また, 認知幻覚の追跡を避けるため, LLM応答の心理測定分析の必要性が指摘された。 キーワード:大規模言語モデル、心理測定、機械行動、潜在変数モデリング、妥当性

Large language models (LLMs) increasingly reach real-world applications, necessitating a better understanding of their behaviour. Their size and complexity complicate traditional assessment methods, causing the emergence of alternative approaches inspired by the field of psychology. Recent studies administering psychometric questionnaires to LLMs report human-like traits in LLMs, potentially influencing LLM behaviour. However, this approach suffers from a validity problem: it presupposes that these traits exist in LLMs and that they are measurable with tools designed for humans. Typical procedures rarely acknowledge the validity problem in LLMs, comparing and interpreting average LLM scores. This study investigates this problem by comparing latent structures of personality between humans and three LLMs using two validated personality questionnaires. Findings suggest that questionnaires designed for humans do not validly measure similar constructs in LLMs, and that these constructs may not exist in LLMs at all, highlighting the need for psychometric analyses of LLM responses to avoid chasing cognitive phantoms. Keywords: large language models, psychometrics, machine behaviour, latent variable modeling, validity
翻訳日:2024-11-06 19:54:40 公開日:2024-09-06
# Ask Avo と ChatGPT-4 の比較

Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 ( http://arxiv.org/abs/2409.15326v1 )

ライセンス: Link先を確認
Daniel Jung, Alex Butler, Joongheum Park, Yair Saperstein, (参考訳) 大規模言語モデル(LLM)による臨床意思決定支援システムの強化は、急速に関心が高まりつつあるトピックであるが、幻覚や明確な引用の欠如といった現在の欠点は、臨床環境での使用には信頼できない。 本研究では,AvoMD による LLM 由来のソフトウェアである Ask Avo を,独自の言語モデル拡張検索 (LMAR) システム,インビルドビジュアル・サイエントレーション・キュー,医師との対話用に設計された技術,そして,シミュレーションされた臨床シナリオ環境における医師のエンドユーザー体験における ChatGPT-4 に対して評価する。 各種専門分野の医療ガイドライン資料から得られた8つの臨床質問に対し, 信頼度, 行動性, 関連性, 包括性, 親和性に評価された62名の被験者が回答した。 信頼度(4.52 vs. 3.34, p<0.001),行動性(4.41 vs. 3.19, p<0.001),関連性(4.55 vs. 3.49, p<0.001),包括性(4.50 vs. 3.37, p<0.001),親和性(4.52 vs. 3.60, p<0.001)。 臨床医のニーズを念頭に設計した特殊LSMは,汎用LSMよりもユーザエクスペリエンスが大幅に向上する可能性が示唆された。 Avoのエビデンスに基づくアプローチは、臨床ニーズに合わせたもので、LSM強化臨床意思決定支援ソフトウェアの採用が約束されている。

The use of Large language models (LLMs) to augment clinical decision support systems is a topic with rapidly growing interest, but current shortcomings such as hallucinations and lack of clear source citations make them unreliable for use in the clinical environment. This study evaluates Ask Avo, an LLM-derived software by AvoMD that incorporates a proprietary Language Model Augmented Retrieval (LMAR) system, in-built visual citation cues, and prompt engineering designed for interactions with physicians, against ChatGPT-4 in end-user experience for physicians in a simulated clinical scenario environment. Eight clinical questions derived from medical guideline documents in various specialties were prompted to both models by 62 study participants, with each response rated on trustworthiness, actionability, relevancy, comprehensiveness, and friendly format from 1 to 5. Ask Avo significantly outperformed ChatGPT-4 in all criteria: trustworthiness (4.52 vs. 3.34, p<0.001), actionability (4.41 vs. 3.19, p<0.001), relevancy (4.55 vs. 3.49, p<0.001), comprehensiveness (4.50 vs. 3.37, p<0.001), and friendly format (4.52 vs. 3.60, p<0.001). Our findings suggest that specialized LLMs designed with the needs of clinicians in mind can offer substantial improvements in user experience over general-purpose LLMs. Ask Avo's evidence-based approach tailored to clinician needs shows promise in the adoption of LLM-augmented clinical decision support software.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-06
# ヒルベルト曲線経路に基づく情報量化器によるテクスチャー識別

Texture Discrimination via Hilbert Curve Path Based Information Quantifiers ( http://arxiv.org/abs/2409.15327v1 )

ライセンス: Link先を確認
Aurelio F. Bariviera, Roberta Hansen, Verónica E. Pastor, (参考訳) カラーの空間配置と図形の粗さ・滑らかさの分析は、その適用範囲が広いため重要である。 本稿では,Hilbert曲線を用いて画像からデータを抽出するテクスチャ分類手法を提案する。 その後、置換エントロピー、置換複雑性、フィッシャー情報測度という3つの情報理論量化器が計算される。 この提案はいくつかの重要な特性を示している。 一 相関関係の度合いに応じて数字を識別することができること(ハースト指数で表されるように) (ii)回転や対称性の変換には不変である。 (三)白黒画像又は色画像で用いることができる。 検証は合成画像だけでなく、よく知られたブロダッツ画像データベースを用いて行われている。

The analysis of the spatial arrangement of colors and roughness/smoothness of figures is relevant due to its wide range of applications. This paper proposes a texture classification method that extracts data from images using the Hilbert curve. Three information theory quantifiers are then computed: permutation entropy, permutation complexity, and Fisher information measure. The proposal exhibits some important properties: (i) it allows to discriminate figures according to varying degrees of correlations (as measured by the Hurst exponent), (ii) it is invariant to rotation and symmetry transformations, (iii) it can be used either in black and white or color images. Validations have been made not only using synthetic images but also using the well-known Brodatz image database.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-06
# 以下に示す: アクティブイニシアティブを計算創造性に混ぜる

Beyond Following: Mixing Active Initiative into Computational Creativity ( http://arxiv.org/abs/2409.16291v1 )

ライセンス: Link先を確認
Zhiyu Lin, Upol Ehsan, Rohan Agarwal, Samihan Dani, Vidushi Vashishth, Mark Riedl, (参考訳) 生成人工知能 (Generative Artificial Intelligence, AI) は、人間の創造者が生成過程に対してのみ責任を負うとき、手続き的コンテンツ生成(PCG)の領域内で効率性と公平性に制限される。 MI-CC(Mixed-Initiative Co-Creative)システムのような代替のセットアップは、彼らの約束を示した。 それでも、AIが後続以上の役割を果たすような、アクティブな混合イニシアチブの可能性は検討されていない。 本研究は,MI-CC設定におけるAIエージェントの適応能力がクリエーターの創造的責任の期待性に与える影響について検討する。 我々は、オンラインインタラクション中に人間の創造的責任選好を学習するための強化学習(RL)手法を用いたシステムを構築し、研究した。 ストーリーコクリエーションにおいて,人間から学習し,協調的な意思決定の信念を更新し,MI-CC体験中にその能力を切り替えるマルチアームバンドエージェントを開発した。 被験者39名を対象に,MI-CC経験による総合的満足度の増加に対応して,本システムにおける学習能力の認知度を非学習的アブレーションと比較した。 これらの結果は、効果的なMI-CC協調相互作用、特にプロアクティブAIイニシアチブの実装と、すべての参加者の理解を深めることの堅牢な関連性を示している。

Generative Artificial Intelligence (AI) encounters limitations in efficiency and fairness within the realm of Procedural Content Generation (PCG) when human creators solely drive and bear responsibility for the generative process. Alternative setups, such as Mixed-Initiative Co-Creative (MI-CC) systems, exhibited their promise. Still, the potential of an active mixed initiative, where AI takes a role beyond following, is understudied. This work investigates the influence of the adaptive ability of an active and learning AI agent on creators' expectancy of creative responsibilities in an MI-CC setting. We built and studied a system that employs reinforcement learning (RL) methods to learn the creative responsibility preferences of a human user during online interactions. Situated in story co-creation, we develop a Multi-armed-bandit agent that learns from the human creator, updates its collaborative decision-making belief, and switches between its capabilities during an MI-CC experience. With 39 participants joining a human subject study, Our developed system's learning capabilities are well recognized compared to the non-learning ablation, corresponding to a significant increase in overall satisfaction with the MI-CC experience. These findings indicate a robust association between effective MI-CC collaborative interactions, particularly the implementation of proactive AI initiatives, and deepened understanding among all participants.
翻訳日:2024-11-06 17:42:27 公開日:2024-09-06
# プログレッシブ・ラーニングによる大規模視覚モデルの効率的な訓練

Efficient Training of Large Vision Models via Advanced Automated Progressive Learning ( http://arxiv.org/abs/2410.00350v1 )

ライセンス: Link先を確認
Changlin Li, Jiawei Zhang, Sihao Lin, Zongxin Yang, Junwei Liang, Xiaodan Liang, Xiaojun Chang, (参考訳) ビジョントランスフォーマー (ViT) や拡散モデル (拡散モデル) のような大型ビジョンモデル (LVM) の急速な進歩により、計算資源の需要が増加し、経済的・環境的なコストが大きくなった。 この増大する課題は、LVMの効率的なトレーニング方法を開発する必要性を浮き彫りにする。 プログレッシブラーニング(Progressive Learning)は、トレーニング中にモデルキャパシティが徐々に増加するトレーニング戦略であり、これらの課題に対処する可能性を示している。 本稿では,LVMの効率的な学習のための高度自動プログレッシブラーニング(AutoProg)フレームワークを提案する。 まず,LVMの事前学習に着目し,ViTを事例として,モーメント成長(MoGrow)とワンショット成長スケジュール探索を特徴とするAutoProg-Oneを提案する。 事前トレーニングの他に、私たちは移行学習とLVMの微調整に取り組むためのアプローチを拡張しています。 拡散モデルを含む幅広いLVMをカバーするために、AutoProgの範囲を広げる。 まず、AutoProg-Zeroを導入し、新しいゼロショットアンフリーズスケジュールサーチによりAutoProgフレームワークを拡張し、ワンショットスーパーネットトレーニングの必要性を排除した。 第2に,ネットワーク成長時のギャップを埋めるために,新しいSID(Unique Stage Identifier)方式を導入する。 これらのイノベーションはAutoProgのコア原則と統合され、さまざまなLVMシナリオをまたいだ効率的なトレーニングのための包括的なソリューションを提供する。 大規模な実験により、AutoProgはImageNet上で最大1.85倍のViT事前トレーニングを加速し、最大2.86倍の拡散モデルの微調整を加速する。 この作業は、LVMの効率的なトレーニングに対する堅牢でスケーラブルなアプローチを提供する。 コード:https://github.com/changlin31/AutoProg-Zero

The rapid advancements in Large Vision Models (LVMs), such as Vision Transformers (ViTs) and diffusion models, have led to an increasing demand for computational resources, resulting in substantial financial and environmental costs. This growing challenge highlights the necessity of developing efficient training methods for LVMs. Progressive learning, a training strategy in which model capacity gradually increases during training, has shown potential in addressing these challenges. In this paper, we present an advanced automated progressive learning (AutoProg) framework for efficient training of LVMs. We begin by focusing on the pre-training of LVMs, using ViTs as a case study, and propose AutoProg-One, an AutoProg scheme featuring momentum growth (MoGrow) and a one-shot growth schedule search. Beyond pre-training, we extend our approach to tackle transfer learning and fine-tuning of LVMs. We expand the scope of AutoProg to cover a wider range of LVMs, including diffusion models. First, we introduce AutoProg-Zero, by enhancing the AutoProg framework with a novel zero-shot unfreezing schedule search, eliminating the need for one-shot supernet training. Second, we introduce a novel Unique Stage Identifier (SID) scheme to bridge the gap during network growth. These innovations, integrated with the core principles of AutoProg, offer a comprehensive solution for efficient training across various LVM scenarios. Extensive experiments show that AutoProg accelerates ViT pre-training by up to 1.85x on ImageNet and accelerates fine-tuning of diffusion models by up to 2.86x, with comparable or even higher performance. This work provides a robust and scalable approach to efficient training of LVMs, with potential applications in a wide range of vision tasks. Code: https://github.com/changlin31/AutoProg-Zero
翻訳日:2024-11-05 06:06:43 公開日:2024-09-06
# 量子コンピューティングの高速化におけるIllusory?:"Counting Function Evaluations"のFalse Coin

In Quantum Computing Speedup Illusory?: The False Coin of "Counting Function Evaluations" ( http://arxiv.org/abs/1407.4345v5 )

ライセンス: Link先を確認
David Ellerman, (参考訳) ブール関数を可逆ゲートでエンコードする新しい方法を用いることで、任意の m に対して 2^m レコードの中から指定されたレコードを探索するグロバーデータベース探索問題を解くのに、1つの関数評価のみを必要とする、Z_2 上の量子計算において(QC/2 を C 上の QC/2 で表すのとは対照的に)アルゴリズムを開発する。 C 上の量子コンピューティングにおける通常のグロバーアルゴリズムでは、古典的アルゴリズムで必要とされる (2^m)/2 関数の平均に対して、本質的に Sqrt(2^m) 関数の評価が必要である。 QC/2アルゴリズム (任意の m に対して) の 1 つの関数評価は、QC/C のグロバーアルゴリズムよりも超高速である。 実際、Z_2上でのブール関数の透過的な計算は、古典的アルゴリズムがQC/2アルゴリズムの単一関数評価においてかなり明白な方法で再パッケージされていることを示しているが、計算はCを用いてGrover QC/Cアルゴリズムに隠蔽され、非透明である。

By using a new way to encode Boolean functions in a reversible gate, an algorithm is developed in quantum computing over Z_2, symbolized QC/2, (as opposed to QC over C) that needs only one function evaluation to solve the Grover Database Search Problem of finding a designated record among 2^m records for any m. In the usual Grover algorithm in quantum computing over C, one needs essentially Sqrt(2^m) function evaluations as opposed to the average of (2^m)/2 functions evaluations needed in the classical algorithm. The one function evaluation of the QC/2 algorithm (for any m) represents such a super speedup, even over the Grover algorithm in QC/C, that one feels something has gone awry. Indeed, our analysis of the transparent calculations of Boolean functions over Z_2 shows that the classical algorithm is just repackaged in a rather obvious way in the single function evaluation of the QC/2 algorithm--whereas the calculations are hidden and non-transparent in the Grover QC/C algorithm using C. The conclusion in both cases (which is rather obvious in the QC/2 case) is that "counting function evaluations" is a false coin to measure speedup in the comparison between quantum and classical computing.
翻訳日:2024-09-22 21:50:24 公開日:2024-09-06
# SLiCK:長さ制限されたキーワードスポッティングのための爆発的なサブシーケンス

SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting ( http://arxiv.org/abs/2409.09067v1 )

ライセンス: Link先を確認
Kumari Nishu, Minsik Cho, Devang Naik, (参考訳) リソース制約のあるエッジデバイス上でのユーザ定義のキーワードスポッティングは難しい。 しかし、キーワードはしばしば最大キーワード長でバウンドされ、これは以前の作品ではほとんど過小評価されている。 キーワード長分布の解析は,ユーザ定義のキーワードスポッティングを長さ制約問題として扱えることを示す。 提案手法は,キーワードスポッティングを効率よく行うSLiCK(Longth-Constrained Keywordスポッティング用サブシーケンスの探索)である。 さらに、より粒度の細かい音声テキスト関係を学習するサブシーケンスレベルのマッチング方式を導入し、拡張された文脈を通して類似した音声キーワードをより効果的に識別する。 SLiCKでは、モデルはMatcher(音声レベルのマッチングタスク、新しいサブシーケンスレベルのマッチングタスク)とEncoder(音素認識タスク)の2つのモジュールを使ってマルチタスク学習アプローチで訓練される。 提案手法は、Libriphraseハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。

User-defined keyword spotting on a resource-constrained edge device is challenging. However, keywords are often bounded by a maximum keyword length, which has been largely under-leveraged in prior works. Our analysis of keyword-length distribution shows that user-defined keyword spotting can be treated as a length-constrained problem, eliminating the need for aggregation over variable text length. This leads to our proposed method for efficient keyword spotting, SLiCK (exploiting Subsequences for Length-Constrained Keyword spotting). We further introduce a subsequence-level matching scheme to learn audio-text relations at a finer granularity, thus distinguishing similar-sounding keywords more effectively through enhanced context. In SLiCK, the model is trained with a multi-task learning approach using two modules: Matcher (utterance-level matching task, novel subsequence-level matching task) and Encoder (phoneme recognition task). The proposed method improves the baseline results on Libriphrase hard dataset, increasing AUC from $88.52$ to $94.9$ and reducing EER from $18.82$ to $11.1$.
翻訳日:2024-09-22 21:42:00 公開日:2024-09-06
# 時間的多値条件論理:予備報告

Temporal Many-valued Conditional Logics: a Preliminary Report ( http://arxiv.org/abs/2409.09069v1 )

ライセンス: Link先を確認
Mario Alviano, Laura Giordano, Daniele Theseider Dupré, (参考訳) 本稿では,多値な時間条件論理を提案する。 典型性を持った多値論理から始まり、線形時間時間時論理(LTL)の時間演算子で拡張し、厳密な時間的特性を保ちながらシステムのダイナミクスを捉えることができる形式主義を提供する。 また、段階的議論のための形式主義のインスタンス化についても検討する。

In this paper we propose a many-valued temporal conditional logic. We start from a many-valued logic with typicality, and extend it with the temporal operators of the Linear Time Temporal Logic (LTL), thus providing a formalism which is able to capture the dynamics of a system, trough strict and defeasible temporal properties. We also consider an instantiation of the formalism for gradual argumentation.
翻訳日:2024-09-22 21:42:00 公開日:2024-09-06
# スマートテキスタイル上の限られたデータを用いたコントラスト学習に基づくユーザ識別

Contrastive Learning-based User Identification with Limited Data on Smart Textiles ( http://arxiv.org/abs/2409.07488v1 )

ライセンス: Link先を確認
Yunkang Zhang, Ziyu Wu, Zhen Liang, Fangting Xie, Quan Wan, Mingjie Zhao, Xiaohui Cai, (参考訳) 圧力に敏感なスマートテキスタイルは、医療、スポーツ監視、インテリジェントホームの分野で広く応用されている。 圧力センサアレイを内蔵したデバイスの統合により、総合的なシーンカバレッジとマルチデバイス統合が可能になることが期待されている。 しかし、この文脈における基本的な機能であるアイデンティティ認識の実装は、異なるデバイスにまたがる圧力分布の変化により、デバイス固有の広範なデータセットに依存している。 この課題に対処するために,コントラスト学習に基づく新しいユーザ識別手法を提案する。 我々は,機能空間における教師付きコントラスト学習を用いて,新しいデバイスと既存デバイスの両方のユーザ識別を容易にする2つの並列ブランチを設計する。 新しいデバイスに遭遇する際には、広範囲なデータ収集の努力は不要である。 BedPressureとChrPressureの2つの8オブジェクトの圧力データセットを用いて実験を行い、本手法は2つの姿勢を含むデータセットのみを用いて、12の座ったシナリオでユーザ識別を実現する能力を示す。 我々の平均認識精度は79.05%に達し、最高のベースラインモデルよりも2.62%向上した。

Pressure-sensitive smart textiles are widely applied in the fields of healthcare, sports monitoring, and intelligent homes. The integration of devices embedded with pressure sensing arrays is expected to enable comprehensive scene coverage and multi-device integration. However, the implementation of identity recognition, a fundamental function in this context, relies on extensive device-specific datasets due to variations in pressure distribution across different devices. To address this challenge, we propose a novel user identification method based on contrastive learning. We design two parallel branches to facilitate user identification on both new and existing devices respectively, employing supervised contrastive learning in the feature space to promote domain unification. When encountering new devices, extensive data collection efforts are not required; instead, user identification can be achieved using limited data consisting of only a few simple postures. Through experimentation with two 8-subject pressure datasets (BedPressure and ChrPressure), our proposed method demonstrates the capability to achieve user identification across 12 sitting scenarios using only a dataset containing 2 postures. Our average recognition accuracy reaches 79.05%, representing an improvement of 2.62% over the best baseline model.
翻訳日:2024-09-13 20:50:00 公開日:2024-09-06
# STAA:短期降水予測のための時空間アライメントアテンションアテンション

STAA: Spatio-Temporal Alignment Attention for Short-Term Precipitation Forecasting ( http://arxiv.org/abs/2409.06732v1 )

ライセンス: Link先を確認
Min Chen, Hao Yang, Shaohan Li, Xiaolin Qin, (参考訳) 農業や防災などの社会経済的効果を有する短期降水量を予測するには, 正確な予測が必要である。 近年,予測モデルではマルチソースデータをマルチモーダリティ入力として採用しており,予測精度が向上している。 しかし、一般的な手法は、多ソース変数の非同期化、時空間依存を捉える能力の不足、極端な降水現象の予測における不満足な性能に悩まされる。 これらの問題を解決するために,SATAを時空間アライメントモジュールとし,STAUを時空間特徴抽出器として,時空間アライメントアライメントアテンションアライメントアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアライメントアテンションアテンションアテンションアテンションアテンションアテンションアライメントアテンションアテンションアテンションアテンションアテンションアテンションアテンションアライズメントを併用した短期降水予測モデルを提案する。 中国南西部の衛星データとERA5データに基づいて,本モデルでは,最先端の手法と比較してRMSEの12.61倍の精度向上を実現している。

There is a great need to accurately predict short-term precipitation, which has socioeconomic effects such as agriculture and disaster prevention. Recently, the forecasting models have employed multi-source data as the multi-modality input, thus improving the prediction accuracy. However, the prevailing methods usually suffer from the desynchronization of multi-source variables, the insufficient capability of capturing spatio-temporal dependency, and unsatisfactory performance in predicting extreme precipitation events. To fix these problems, we propose a short-term precipitation forecasting model based on spatio-temporal alignment attention, with SATA as the temporal alignment module and STAU as the spatio-temporal feature extractor to filter high-pass features from precipitation signals and capture multi-term temporal dependencies. Based on satellite and ERA5 data from the southwestern region of China, our model achieves improvements of 12.61\% in terms of RMSE, in comparison with the state-of-the-art methods.
翻訳日:2024-09-12 17:44:43 公開日:2024-09-06
# アウト・オブ・ディストリビューションの一般化の失敗モードを理解する

Understanding the Failure Modes of Out-of-Distribution Generalization ( http://arxiv.org/abs/2010.15775v3 )

ライセンス: Link先を確認
Vaishnavh Nagarajan, Anders Andreassen, Behnam Neyshabur, (参考訳) 経験的な研究によると、機械学習モデルは、背景のような特徴に依存しており、トレーニング時間にのみラベルと急激な相関関係があり、テスト時間中に精度が低下する可能性がある。 本研究では、これらのモデルが成功することを期待する簡単なタスクにおいて、なぜモデルがこのように失敗するのかを説明することによって、この振る舞いを引き起こす基本的な要因を特定する。 特に、グラデーション・ディフレッシュ・トレーニングされた線形分類器のいくつかの簡単な学習課題に関する理論的研究により、2つの相補的故障モードが明らかになった。 これらのモードは、スプリアス相関がデータの中で2種類のスキューを誘発する方法から生じる。 最後に、画像分類データセットの自然な修正を行い、これらの障害モードが実際にいつ発生するかを理解する。 また、これらのデータセット上でモダンニューラルネットワークをトレーニングする際の2つの障害モードを分離する実験も設計する。

Empirical studies suggest that machine learning models often rely on features, such as the background, that may be spuriously correlated with the label only during training time, resulting in poor accuracy during test-time. In this work, we identify the fundamental factors that give rise to this behavior, by explaining why models fail this way {\em even} in easy-to-learn tasks where one would expect these models to succeed. In particular, through a theoretical study of gradient-descent-trained linear classifiers on some easy-to-learn tasks, we uncover two complementary failure modes. These modes arise from how spurious correlations induce two kinds of skews in the data: one geometric in nature, and another, statistical in nature. Finally, we construct natural modifications of image classification datasets to understand when these failure modes can arise in practice. We also design experiments to isolate the two failure modes when training modern neural networks on these datasets.
翻訳日:2024-09-12 00:23:12 公開日:2024-09-06
# OPAL: 生成型大規模言語モデルのための外部保存型マイクロスケーリング量子化加速器

OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models ( http://arxiv.org/abs/2409.05902v1 )

ライセンス: Link先を確認
Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung, (参考訳) 大規模言語モデル(LLM)の長期化によるメモリサイズと帯域幅の負担を克服するため,アクティベーションの定量化に関する研究が欠如している。 本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。 まず,マイクロスケーリングデータ形式を利用したアクティベーション量子化手法を提案する。 第二に、出力を3ビットに抑えつつ、LCMのデコーダブロック内の機密層への入力を5ビットに設定する混合精度を利用する。 最後に、外乱処理のためのFPユニットと、支配的な非外乱処理のためのベクトル化INT乗算器からなるOPALハードウェアアーキテクチャを提案する。 さらにOPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。 その結果、エネルギー効率を1.6~2.2x向上させ、その面積を2.4~3.1x削減できる。

To overcome the burden on the memory size and bandwidth due to ever-increasing size of large language models (LLMs), aggressive weight quantization has been recently studied, while lacking research on quantizing activations. In this paper, we present a hardware-software co-design method that results in an energy-efficient LLM accelerator, named OPAL, for generation tasks. First of all, a novel activation quantization method that leverages the microscaling data format while preserving several outliers per sub-tensor block (e.g., four out of 128 elements) is proposed. Second, on top of preserving outliers, mixed precision is utilized that sets 5-bit for inputs to sensitive layers in the decoder block of an LLM, while keeping inputs to less sensitive layers to 3-bit. Finally, we present the OPAL hardware architecture that consists of FP units for handling outliers and vectorized INT multipliers for dominant non-outlier related operations. In addition, OPAL uses log2-based approximation on softmax operations that only requires shift and subtraction to maximize power efficiency. As a result, we are able to improve the energy efficiency by 1.6~2.2x, and reduce the area by 2.4~3.1x with negligible accuracy loss, i.e., <1 perplexity increase.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-06
# 深いブールネットワークにおける一般化ギャップの狭化に向けて

Towards Narrowing the Generalization Gap in Deep Boolean Networks ( http://arxiv.org/abs/2409.05905v1 )

ライセンス: Link先を確認
Youngsung Kim, (参考訳) ディープニューラルネットワークにおけるサイズと複雑さの急速な成長は、計算要求を急激に増加させ、現実のシナリオにおける効率的なデプロイメントに挑戦した。 論理ゲートで構築されたブールネットワークは、より効率的な実装を可能にするハードウェアフレンドリーな代替手段を提供する。 しかし、従来のネットワークの性能に合致する能力はいまだに不明である。 本稿では,従来のブリアンネットワークを越えつつ,ブリアンネットワークの深層化を図る戦略について検討する。 本稿では,論理的スキップ接続と空間性保存サンプリングを含む新しい手法を提案する。 本稿では,1ビット論理演算による計算コストを最小化しながら,深いBooleanネットワークがハイパフォーマンスを維持する方法を示す。 これらの結果は、Booleanネットワークが効率的で高性能なディープラーニングモデルにとって有望な方向であり、ハードウェアアクセラレーションされたAIアプリケーションを前進させる大きな可能性を示唆している。

The rapid growth of the size and complexity in deep neural networks has sharply increased computational demands, challenging their efficient deployment in real-world scenarios. Boolean networks, constructed with logic gates, offer a hardware-friendly alternative that could enable more efficient implementation. However, their ability to match the performance of traditional networks has remained uncertain. This paper explores strategies to enhance deep Boolean networks with the aim of surpassing their traditional counterparts. We propose novel methods, including logical skip connections and spatiality preserving sampling, and validate them on vision tasks using widely adopted datasets, demonstrating significant improvement over existing approaches. Our analysis shows how deep Boolean networks can maintain high performance while minimizing computational costs through 1-bit logic operations. These findings suggest that Boolean networks are a promising direction for efficient, high-performance deep learning models, with significant potential for advancing hardware-accelerated AI applications.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-06
# 条件付きアクティベーションステアリングによるプログラミングの拒絶

Programming Refusal with Conditional Activation Steering ( http://arxiv.org/abs/2409.05907v1 )

ライセンス: Link先を確認
Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar, (参考訳) LLMは目覚ましい能力を示したが、その反応の挙動を正確に制御することは依然として困難である。 既存のアクティベーションステアリング手法は、コンテンツモデレーションやドメイン固有のアシスタントなど、選択的な応答が不可欠である設定において、LCMの動作を非差別的に変更する。 本稿では,LLMの動作パターンを推論中に解析し,入力コンテキストに基づいてアクティベーションステアリングを選択的に適用または保留する条件付きアクティベーションステアリング(CAST)を提案する。 本手法は,モデルの隠蔽状態において,異なるカテゴリのプロンプトが異なるパターンを活性化することを示す。 CASTを使用することで、「もし入力がヘイトスピーチやアダルトコンテンツに関するものであるなら、拒否する」、あるいは「もし入力が法的助言に関するものではないなら、拒否する」といったルールで、LCMの動作を体系的に制御することができる。 これにより、重量最適化を必要とせず、他のコンテンツに対する通常の応答を維持しながら、特定のコンテンツに対する応答を選択的に修正することができる。 当社はフレームワークのオープンソース実装をリリースしています。

LLMs have shown remarkable capabilities, but precisely controlling their response behavior remains challenging. Existing activation steering methods alter LLM behavior indiscriminately, limiting their practical applicability in settings where selective responses are essential, such as content moderation or domain-specific assistants. In this paper, we propose Conditional Activation Steering (CAST), which analyzes LLM activation patterns during inference to selectively apply or withhold activation steering based on the input context. Our method is based on the observation that different categories of prompts activate distinct patterns in the model's hidden states. Using CAST, one can systematically control LLM behavior with rules like "if input is about hate speech or adult content, then refuse" or "if input is not about legal advice, then refuse." This allows for selective modification of responses to specific content while maintaining normal responses to other content, all without requiring weight optimization. We release an open-source implementation of our framework.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-06
# レストレスバンドのためのQ-Learningアルゴリズムの高速化

Faster Q-Learning Algorithms for Restless Bandits ( http://arxiv.org/abs/2409.05908v1 )

ライセンス: Link先を確認
Parvish Kakarapalli, Devendra Kayande, Rahul Meshram, (参考訳) レスレスマルチアームバンド(RMAB)のためのWhittleインデックス学習アルゴリズムについて検討した。 まず、高速Q学習(SQL)、一般化高速Q学習(GSQL)、位相Q学習(PhaseQL)など、Q学習アルゴリズムとその変種について述べる。 調査方針も議論している -- $\epsilon$-greedy と upper confidence bound (UCB)。 我々は、Q-ラーニングとその変種の研究を UCB ポリシーで拡張する。 UCB探索ポリシによるQ-ラーニングがより高速収束し, UCBによるPhaseQLが最速収束率を持つという数値例を用いて説明する。 次に、インデックス学習のためのQ-ラーニング変種の研究をRMABに拡張する。 インデックス学習のアルゴリズムは確率近似の2時間スケール変種であり、より遅い時間スケールではインデックス学習スキームを更新し、より速い時間スケールでは固定インデックス値を仮定したQ-ラーニングを更新する。 本研究では,2つの時間スケール確率近似アルゴリズムについて検討する。 本稿では,数値例を用いてアルゴリズムの性能について述べる。 UCBによるQ学習による索引学習は、$\epsilon$ greedyというより高速な収束を持つことを示している。 さらに、フェーズQL(UCBと$\epsilon$greedy)は、他のQ学習アルゴリズムよりも収束性が高い。

We study the Whittle index learning algorithm for restless multi-armed bandits (RMAB). We first present Q-learning algorithm and its variants -- speedy Q-learning (SQL), generalized speedy Q-learning (GSQL) and phase Q-learning (PhaseQL). We also discuss exploration policies -- $\epsilon$-greedy and Upper confidence bound (UCB). We extend the study of Q-learning and its variants with UCB policy. We illustrate using numerical example that Q-learning with UCB exploration policy has faster convergence and PhaseQL with UCB have fastest convergence rate. We next extend the study of Q-learning variants for index learning to RMAB. The algorithm of index learning is two-timescale variant of stochastic approximation, on slower timescale we update index learning scheme and on faster timescale we update Q-learning assuming fixed index value. We study constant stepsizes two timescale stochastic approximation algorithm. We describe the performance of our algorithms using numerical example. It illustrate that index learning with Q learning with UCB has faster convergence that $\epsilon$ greedy. Further, PhaseQL (with UCB and $\epsilon$ greedy) has the best convergence than other Q-learning algorithms.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-06
# FiNER-ORD:ファイナンシャルネーム付きエンティティ認識オープンリサーチデータセット

FiNER-ORD: Financial Named Entity Recognition Open Research Dataset ( http://arxiv.org/abs/2302.11157v2 )

ライセンス: Link先を確認
Agam Shah, Abhinav Gullapalli, Ruchit Vithani, Michael Galarnyk, Sudheer Chava, (参考訳) 過去20年間で、CoNLL-2003という名前のエンティティ認識(NER)データセットが開発され、ディープラーニングと自然言語処理(NLP)の能力が向上した。 金融ドメインは、同一エンティティのユニークな意味的および語彙的バリエーションを特徴とし、NERタスクに固有の課題を提示する。 本研究は、イギリス初の高品質な金融NERオープンリサーチデータセット(FiNER-ORD)を開発する。 我々は、FiNER-ORD上で、複数の事前学習言語モデル(PLM)と大規模言語モデル(LLM)をベンチマークする。 提案したFiNER-ORDデータセットは、金融ドメイン固有のNERおよびNLPタスクのベンチマークとしてFiNER-ORDを使用する将来の機会を開くだろう。 データセット、モデル、コードはGitHubとHugging FaceでCC BY-NC 4.0ライセンス下で公開されている。

Over the last two decades, the development of the CoNLL-2003 named entity recognition (NER) dataset has helped enhance the capabilities of deep learning and natural language processing (NLP). The finance domain, characterized by its unique semantic and lexical variations for the same entities, presents specific challenges to the NER task; thus, a domain-specific customized dataset is crucial for advancing research in this field. In our work, we develop the first high-quality English Financial NER Open Research Dataset (FiNER-ORD). We benchmark multiple pre-trained language models (PLMs) and large-language models (LLMs) on FiNER-ORD. We believe our proposed FiNER-ORD dataset will open future opportunities to use FiNER-ORD as a benchmark for financial domain-specific NER and NLP tasks. Our dataset, models, and code are publicly available on GitHub and Hugging Face under CC BY-NC 4.0 license.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-06
# LTM: 言語モデルに基づく拡張性とブラックボックス類似性に基づくテストスイートの最小化

LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models ( http://arxiv.org/abs/2304.01397v4 )

ライセンス: Link先を確認
Rongqi Pan, Taher A. Ghaleb, Lionel Briand, (参考訳) テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、特に大規模なソフトウェアシステムにおいて、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。 テストスイートの最小化(TSM)は、冗長なテストケースを取り除き、テスト時間とリソースを削減し、テストスイートの障害検出能力を維持しながら、ソフトウェアテストの効率を向上させるために使用される。 既存のTSMアプローチのほとんどはコードカバレッジ(ホワイトボックス)やモデルベースの機能に依存している。 ATMやFAST-Rのようなテストコード(ブラックボックス)のみに依存する最近のTSMアプローチが提案されている。 このスケーラビリティに対処するため,大規模言語モデル(LLM)に基づく新しい,スケーラブルかつブラックボックス類似性に基づくTSMアプローチであるLTM(Language Model-based Test Suite Minimization)を提案する。 テストコード埋め込みにおける類似度測定を支援するため,CodeBERT,GraphCodeBERT,Unixcoder,StarEncoder,CodeLlamaの5つの事前学習言語モデルについて検討した。 我々のゴールは、計算効率が向上するだけでなく、遺伝的アルゴリズム(GA)により最適な最小化テストスイートを探索し、全体の探索時間を短縮できる類似性尺度を見つけることである。 実験結果から, LTM (UniXcoder/Cosine) の最適構成は, 3つの点でATMより優れていることがわかった。 (a)試験時間の短縮率(平均41.02%に対して41.72%)をわずかに向上させる。 (b)断層検出率(平均0.84対0.81)が著しく高く、そして最も重要な点 (c) テストスイートを平均で5倍近い速度で最小化する。

Test suites tend to grow when software evolves, making it often infeasible to execute all test cases with the allocated testing budgets, especially for large software systems. Test suite minimization (TSM) is employed to improve the efficiency of software testing by removing redundant test cases, thus reducing testing time and resources, while maintaining the fault detection capability of the test suite. Most existing TSM approaches rely on code coverage (white-box) or model-based features, which are not always available to test engineers. Recent TSM approaches that rely only on test code (black-box) have been proposed, such as ATM and FAST-R. To address the scalability, we propose LTM (Language model-based Test suite Minimization), a novel, scalable, and black-box similarity-based TSM approach based on large language models (LLMs), which is the first application of LLMs in the context of TSM. To support similarity measurement for test code embeddings, we investigate five pre-trained language models: CodeBERT, GraphCodeBERT, UniXcoder, StarEncoder, and CodeLlama, on which we compute two similarity measures: Cosine Similarity and Euclidean Distance. Our goal is to find similarity measures that are not only computationally more efficient but can also better guide a Genetic Algorithm (GA) to search for optimal minimized test suites, thus reducing the overall search time. Experimental results show that the best configuration of LTM (UniXcoder/Cosine) outperforms ATM in three aspects: (a) achieving a slightly greater saving rate of testing time (41.72% versus 41.02%, on average); (b) attaining a significantly higher fault detection rate (0.84 versus 0.81, on average); and, most importantly, (c) minimizing test suites nearly five times faster on average, with higher gains for larger test suites and systems, thus achieving much higher scalability.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-06
# 量子サブルーチンのためのデバイスレベル命令のワンタイムコンパイル

One-Time Compilation of Device-Level Instructions for Quantum Subroutines ( http://arxiv.org/abs/2308.10787v2 )

ライセンス: Link先を確認
Aniket S. Dalvi, Jacob Whitlow, Marissa D'Onofrio, Leon Riesebos, Tianyi Chen, Samuel Phiri, Kenneth R. Brown, Jonathan M. Baker, (参考訳) 現在の量子デバイス時代における多くの問題には、量子システムと古典システムの間のインターフェイスが関係している。 キャリブレーション手順、キャラクタリゼーションルーチン、変分アルゴリズムなどがある。 これらのルーチンの制御は、古典的コンピュータと量子コンピュータを反復的に切り替える。 これにより、量子システム上で実行されるプログラムの繰り返しコンパイルが行われ、回路数やイテレーション数と直接的にスケーリングされる。 繰り返しコンパイルすると、ルーチンを通してかなりのオーバーヘッドが発生する。 実際には、プログラムの全実行(古典的なコンパイルと量子実行)は、回路数に比例する追加のコストを持つ。 実際のスケールでは、量子実行時間の割合に応じて、5%から80%のラウンドトリップCPU-QPU時間を支配できる。 繰り返しデバイスレベルのコンパイルを避けるため,実行中に動的に調整可能なパルス/ゲートパラメータに対応して,マシンコードをパラメータ化することができる。 そこで我々は,QPU制御ソフトウェアからCPUへの安価なリモートプロシージャコール(RPC)を用いることで,コンパイルオーバーヘッドをほぼ一定に抑えるデバイスレベル部分コンパイル(DLPC)技術を開発した。 次に、最適なパルスキャリブレーション、ランダム化ベンチマーク(RB)を用いたシステム特性評価、変分アルゴリズムによる性能向上を示す。 我々は、この修正パイプラインを実際の捕捉イオン量子コンピュータ上で実行し、小さなVQE問題に対して2.7倍の速度でコンパイル時間を大幅に短縮する。

A large class of problems in the current era of quantum devices involve interfacing between the quantum and classical system. These include calibration procedures, characterization routines, and variational algorithms. The control in these routines iteratively switches between the classical and the quantum computer. This results in the repeated compilation of the program that runs on the quantum system, scaling directly with the number of circuits and iterations. The repeated compilation results in a significant overhead throughout the routine. In practice, the total runtime of the program (classical compilation plus quantum execution) has an additional cost proportional to the circuit count. At practical scales, this can dominate the round-trip CPU-QPU time, between 5% and 80%, depending on the proportion of quantum execution time. To avoid repeated device-level compilation, we identify that machine code can be parametrized corresponding to pulse/gate parameters which can be dynamically adjusted during execution. Therefore, we develop a device-level partial-compilation (DLPC) technique that reduces compilation overhead to nearly constant, by using cheap remote procedure calls (RPC) from the QPU control software to the CPU. We then demonstrate the performance speedup of this on optimal pulse calibration, system characterization using randomized benchmarking (RB), and variational algorithms. We execute this modified pipeline on real trapped-ion quantum computers and observe significant reductions in compilation time, as much as 2.7x speedup for small-scale VQE problems.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-06
# PointLLM: ポイントクラウドの理解に大規模な言語モデルを活用する

PointLLM: Empowering Large Language Models to Understand Point Clouds ( http://arxiv.org/abs/2308.16911v3 )

ライセンス: Link先を確認
Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin, (参考訳) 大規模言語モデル(LLM)における前例のない進歩は、自然言語処理に大きな影響を与えたが、3D理解の領域を完全には受け入れていない。 本稿では,このギャップを埋めるための予備的な取り組みであるPointLLMを紹介する。 PointLLMは、人間の指示で色付きのオブジェクトポイントクラウドを理解し、コンテキスト的に適切な応答を生成し、ポイントクラウドと常識の把握を図示する。 具体的には、ポイントクラウドエンコーダと強力なLCMを利用して、幾何学、外観、言語情報を効果的に融合する。 660Kの単純および70Kの複雑な点文命令ペアからなる新しいデータセットを収集し、2段階のトレーニング戦略を実現する。 PointLLMの知覚と一般化の能力を厳格に評価するために、人的評価、GPT-4/ChatGPT評価、従来のメトリクスを含む3つの異なる手法を用いて評価された3次元オブジェクトの分類と3次元オブジェクトのキャプションの2つのベンチマークを構築した。 実験の結果,PointLLMは既存の2Dおよび3Dベースラインよりも優れた性能を示し,50%以上のサンプルにおいてヒトのアノテータを超越した評価対象キャプションタスクにおいて顕著な成果を示した。 コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/PointLLM で公開されている。

The unprecedented advancements in Large Language Models (LLMs) have shown a profound impact on natural language processing but are yet to fully embrace the realm of 3D understanding. This paper introduces PointLLM, a preliminary effort to fill this gap, enabling LLMs to understand point clouds and offering a new avenue beyond 2D visual data. PointLLM understands colored object point clouds with human instructions and generates contextually appropriate responses, illustrating its grasp of point clouds and common sense. Specifically, it leverages a point cloud encoder with a powerful LLM to effectively fuse geometric, appearance, and linguistic information. We collect a novel dataset comprising 660K simple and 70K complex point-text instruction pairs to enable a two-stage training strategy: aligning latent spaces and subsequently instruction-tuning the unified model. To rigorously evaluate the perceptual and generalization capabilities of PointLLM, we establish two benchmarks: Generative 3D Object Classification and 3D Object Captioning, assessed through three different methods, including human evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experimental results reveal PointLLM's superior performance over existing 2D and 3D baselines, with a notable achievement in human-evaluated object captioning tasks where it surpasses human annotators in over 50% of the samples. Codes, datasets, and benchmarks are available at https://github.com/OpenRobotLab/PointLLM .
翻訳日:2024-09-11 04:13:49 公開日:2024-09-06
# 軌道生成による汎用ツールスキルの学習

Learning Generalizable Tool-use Skills through Trajectory Generation ( http://arxiv.org/abs/2310.00156v5 )

ライセンス: Link先を確認
Carl Qi, Yilin Wu, Lifan Yu, Haoyue Liu, Bowen Jiang, Xingyu Lin, David Held, (参考訳) ツールを効果的に活用する自律システムは、調理やクリーニングといった多くの一般的なタスクを完了させるのを助けることができる。 しかし、現在のシステムは、新しいツールに適応するという意味では、人間のレベルの知性に合わない。 余裕に基づく先行研究は、しばしば環境について強い仮定をし、より複雑で接触に富んだタスクにスケールできない。 本研究では、この課題に取り組み、以前は目に見えないツールを使って変形可能なオブジェクトを操作する方法を学ぶ。 本稿では,ツールポイント雲の列としてツール利用軌跡の生成モデルを学習し,様々なツール形状に一般化することを提案する。 どのような新しいツールであっても、最初にツール使用軌跡を生成し、生成した軌跡に合わせるために、ツールポーズのシーケンスを最適化する。 私たちは、タスクごとに1つのツールからのみデモデータを使用して、4つの異なる難解な変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。 モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。 トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。 追加資料はプロジェクトのWebサイト(https://sites.google.com/view/toolgen.com)で参照できます。

Autonomous systems that efficiently utilize tools can assist humans in completing many common tasks such as cooking and cleaning. However, current systems fall short of matching human-level of intelligence in terms of adapting to novel tools. Prior works based on affordance often make strong assumptions about the environments and cannot scale to more complex, contact-rich tasks. In this work, we tackle this challenge and explore how agents can learn to use previously unseen tools to manipulate deformable objects. We propose to learn a generative model of the tool-use trajectories as a sequence of tool point clouds, which generalizes to different tool shapes. Given any novel tool, we first generate a tool-use trajectory and then optimize the sequence of tool poses to align with the generated trajectory. We train a single model on four different challenging deformable object manipulation tasks, using demonstration data from only one tool per task. The model generalizes to various novel tools, significantly outperforming baselines. We further test our trained policy in the real world with unseen tools, where it achieves the performance comparable to human. Additional materials can be found on our project website: https://sites.google.com/view/toolgen.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-06
# グラフニューラルネットワークにおける協調的最小化

Cooperative Minibatching in Graph Neural Networks ( http://arxiv.org/abs/2310.12403v3 )

ライセンス: Link先を確認
Muhammed Fatih Balin, Dominique LaSalle, Ümit V. Çatalyürek, (参考訳) 大規模グラフニューラルネットワーク(GNN)のトレーニングには,膨大な計算資源が必要であり,そのプロセスはデータ集約性が高い。 リソース要求を減らす最も効果的な方法の1つは、グラフサンプリングと組み合わせたミニバッチトレーニングである。 GNNはミニバッチ内のアイテムが重複するデータを持つというユニークな特性を持っている。 しかし、一般的に実装されているIndependent Minibatchingアプローチでは、各処理要素(PE、すなわちコアとGPU)をそれぞれ独自のミニバッチ処理に割り当て、PE間の重複計算と入力データアクセスに繋がる。 これは近隣爆発現象(NEP)を増幅するものであり、これはスケーリングを制限している主要なボトルネックである。 複数PE設定におけるNEPの効果を低減するため,協調最小化という新しい手法を提案する。 提案手法は, サンプル部分グラフのサイズがバッチサイズの凹関数であることから, バッチサイズの増加に伴い, 作業量を大幅に削減できることを示す。 したがって、グローバルバッチサイズが同一であっても、より小さなミニバッチを別々に扱うのではなく、単一の大きなプロセッサとして、大きなミニバッチを一緒に扱うための高速なインターコネクトを備えたプロセッサが好まれる。 また, 連続したミニバッチを生成することで, 連続実行において同じ現象を利用する方法を示す。 実験により, モデル収束を損なうことなく, この依存性を増大させることにより, 頂点埋め込みをフェッチするための帯域幅を最大4倍に抑えることができた。 提案手法を組み合わせることで,同一リソースを用いて,単一ノードマルチGPUシステム上でのIndependent Minibatchよりも最大64%の高速化を実現した。

Training large scale Graph Neural Networks (GNNs) requires significant computational resources, and the process is highly data-intensive. One of the most effective ways to reduce resource requirements is minibatch training coupled with graph sampling. GNNs have the unique property that items in a minibatch have overlapping data. However, the commonly implemented Independent Minibatching approach assigns each Processing Element (PE, i.e., cores and/or GPUs) its own minibatch to process, leading to duplicated computations and input data access across PEs. This amplifies the Neighborhood Explosion Phenomenon (NEP), which is the main bottleneck limiting scaling. To reduce the effects of NEP in the multi-PE setting, we propose a new approach called Cooperative Minibatching. Our approach capitalizes on the fact that the size of the sampled subgraph is a concave function of the batch size, leading to significant reductions in the amount of work as batch sizes increase. Hence, it is favorable for processors equipped with a fast interconnect to work on a large minibatch together as a single larger processor, instead of working on separate smaller minibatches, even though global batch size is identical. We also show how to take advantage of the same phenomenon in serial execution by generating dependent consecutive minibatches. Our experimental evaluations show up to 4x bandwidth savings for fetching vertex embeddings, by simply increasing this dependency without harming model convergence. Combining our proposed approaches, we achieve up to 64% speedup over Independent Minibatching on single-node multi-GPU systems, using same resources.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-06
# 非線形量子軌道平均による異なる解離を区別する

Telling different unravelings apart via nonlinear quantum-trajectory averages ( http://arxiv.org/abs/2312.03452v4 )

ライセンス: Link先を確認
Eloy Piñol, Th. K. Mavrogordatos, Dustin Keys, Romain Veyron, Piotr Sierant, Miguel Angel García-March, Samuele Grandi, Morgan W. Mitchell, Jan Wehr, Maciej Lewenstein, (参考訳) ゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式 (ME) は開量子系(OQS)の密度行列を支配している。 OQSが弱い連続測定を受けると、その状態は確率的量子軌道として発展し、その統計平均はMEを解く。 そのような軌道のアンサンブルは、MEのアンサンブル(unraveling)と呼ばれる。 軌道上の可観測物の非線形平均を用いて,同一のMEが生成する未発見物を異なる測定シナリオで操作的に識別する手法を提案する。 本手法を2レベル原子における共鳴蛍光のパラダイム的量子非線形系に適用する。 本研究では,2レベルエミッタから散乱した光子の直接検出によって引き起こされるポアソン型アンラベリングと,放射された磁場の位相感度検出によって引き起こされるウィーナー型アンラベリングを比較した。 量子軌道平均分散は,これらの測定シナリオを識別できることを示す。 我々は,より複雑なOQSに容易に拡張できる手法の性能を,現実的な実験条件下で評価する。

The Gorini-Kossakowski-Sudarshan-Lindblad master equation (ME) governs the density matrix of open quantum systems (OQSs). When an OQS is subjected to weak continuous measurement, its state evolves as a stochastic quantum trajectory, whose statistical average solves the ME. The ensemble of such trajectories is termed an unraveling of the ME. We propose a method to operationally distinguish unravelings produced by the same ME in different measurement scenarios, using nonlinear averages of observables over trajectories. We apply the method to the paradigmatic quantum nonlinear system of resonance fluorescence in a two-level atom. We compare the Poisson-type unraveling, induced by direct detection of photons scattered from the two-level emitter, and the Wiener-type unraveling, induced by phase-sensitive detection of the emitted field. We show that a quantum-trajectory-averaged variance is able to distinguish these measurement scenarios. We evaluate the performance of the method, which can be readily extended to more complex OQSs, under a range of realistic experimental conditions.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-06
# 膜インザミドル光学系と構造周波数

Membrane-in-the-middle optomechanical system and structural frequencies ( http://arxiv.org/abs/2312.09127v2 )

ライセンス: Link先を確認
Luis Pedro Lara, Ricardo Weder, Luis Octavio Castaños-Cervantes, (参考訳) 2つの固定された完璧な鏡と、その間に一定の電気感受性を持つ移動誘電体膜からなるキャビティの1次元膜インザミドルモデルを考える。 我々は、構造角周波数と呼ばれる正確な空洞角周波数の列を示し、空洞内の膜の位置から独立しているという顕著な特性を持つ。 さらに、薄膜の場合を考慮し、角周波数とキャビティのモードの近似式を得る。 最後に、空洞電磁ポテンシャルを数値計算し、その電位を多重スケール溶液で正確に記述する。

We consider a one-dimensional membrane-in-the-middle model for a cavity that consists of two fixed, perfect mirrors and a mobile dielectric membrane between them that has a constant electric susceptibility. We present a sequence of exact cavity angular frequencies that we call structural angular frequencies and that have the remarkable property that they are independent of the position of the membrane inside the cavity. Furthermore, the case of a thin membrane is considered and simple, approximate formulae for the angular frequencies and for the modes of the cavity are obtained. Finally, the cavity electromagnetic potential is numerically calculated and it is found that the potential is accurately described by a multiple scales solution.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-06
# マルチステップの逆は必要なだけではない

Multistep Inverse Is Not All You Need ( http://arxiv.org/abs/2403.11940v2 )

ライセンス: Link先を確認
Alexander Levine, Peter Stone, Amy Zhang, (参考訳) 実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。 しかし、制御可能なシステムの力学は、しばしば生の観測の力学よりもはるかに単純である。 したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。 本研究では,Efroni et al (2022) が最初に提案したEx-BMDPモデルについて考察する。 Lamb et al (2022) は、エンコーダを学習し、そのような問題の観測から完全な行動依存潜在状態表現を抽出する「AC状態」法を提案する。 AC-Stateは、パス内の最初のアクションを予測するために、パス内の最初の状態と最後の状態のエンコーディングを使用する、多段階逆法である。 しかし、AC-Stateがエージェント制御可能因子の正しい潜在表現を学習できないケースを特定する。 そこで我々は,多段階逆予測と潜在前方モデルを組み合わせた新しいアルゴリズムACDFを提案する。 ACDFは、多数のEx-BMDPモデルに対して、アクション依存の潜在状態エンコーダを正しく推論することが保証されている。 ニューラルネットワークを用いたエンコーダを用いた高次元環境だけでなく, 数値シミュレーションによる表計算元BMDPに対するACDFの有効性を実証する。 コードはhttps://github.com/midi-lab/acdf.comで入手できる。

In real-world control settings, the observation space is often unnecessarily high-dimensional and subject to time-correlated noise. However, the controllable dynamics of the system are often far simpler than the dynamics of the raw observations. It is therefore desirable to learn an encoder to map the observation space to a simpler space of control-relevant variables. In this work, we consider the Ex-BMDP model, first proposed by Efroni et al. (2022), which formalizes control problems where observations can be factorized into an action-dependent latent state which evolves deterministically, and action-independent time-correlated noise. Lamb et al. (2022) proposes the "AC-State" method for learning an encoder to extract a complete action-dependent latent state representation from the observations in such problems. AC-State is a multistep-inverse method, in that it uses the encoding of the the first and last state in a path to predict the first action in the path. However, we identify cases where AC-State will fail to learn a correct latent representation of the agent-controllable factor of the state. We therefore propose a new algorithm, ACDF, which combines multistep-inverse prediction with a latent forward model. ACDF is guaranteed to correctly infer an action-dependent latent state encoder for a large class of Ex-BMDP models. We demonstrate the effectiveness of ACDF on tabular Ex-BMDPs through numerical simulations; as well as high-dimensional environments using neural-network-based encoders. Code is available at https://github.com/midi-lab/acdf.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-06
# 相関雑音を伴う個人用オンラインフェデレーション学習

Differentially Private Online Federated Learning with Correlated Noise ( http://arxiv.org/abs/2403.16542v2 )

ライセンス: Link先を確認
Jiaojiao Zhang, Linglingzhi Zhu, Mikael Johansson, (参考訳) 本稿では,時間的相関雑音を用いたオンラインフェデレーション学習のための新しい微分プライベートアルゴリズムを提案する。 DPノイズと非IDデータストリーミングによるローカル更新による課題に対処するため,DPノイズがユーティリティに与える影響を制御するための摂動反復解析を開発した。 さらに,局所更新によるドリフト誤差を準強凸条件下で効果的に管理できることを示す。 $(\epsilon, \delta)$-DP予算の下では、時間的地平線全体に束縛された動的後悔を確立し、キーパラメータの影響と動的環境の変化の強度を定量化する。 数値実験により提案アルゴリズムの有効性が確認された。

We introduce a novel differentially private algorithm for online federated learning that employs temporally correlated noise to enhance utility while ensuring privacy of continuously released models. To address challenges posed by DP noise and local updates with streaming non-iid data, we develop a perturbed iterate analysis to control the impact of the DP noise on the utility. Moreover, we demonstrate how the drift errors from local updates can be effectively managed under a quasi-strong convexity condition. Subject to an $(\epsilon, \delta)$-DP budget, we establish a dynamic regret bound over the entire time horizon, quantifying the impact of key parameters and the intensity of changes in dynamic environments. Numerical experiments confirm the efficacy of the proposed algorithm.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-06
# 画像と視覚の拡散モデルに関するチュートリアル

Tutorial on Diffusion Models for Imaging and Vision ( http://arxiv.org/abs/2403.18103v2 )

ライセンス: Link先を確認
Stanley H. Chan, (参考訳) 近年のジェネレーティブツールの驚くべき成長は、テキスト・ツー・イメージ・ジェネレーションやテキスト・ツー・ビデオ・ジェネレーションに多くのエキサイティングな応用をもたらした。 これらの生成ツールの根底にある原理は拡散の概念であり、これは以前のアプローチでは困難と考えられていたいくつかの欠点を克服した特別なサンプリングメカニズムである。 このチュートリアルの目的は拡散モデルの基礎となる基本的なアイデアについて議論することである。 本チュートリアルの対象者には,拡散モデルの研究や,他の問題を解決するためにこれらのモデルを適用することに関心がある大学生や大学院生が含まれる。

The astonishing growth of generative tools in recent years has empowered many exciting applications in text-to-image generation and text-to-video generation. The underlying principle behind these generative tools is the concept of diffusion, a particular sampling mechanism that has overcome some shortcomings that were deemed difficult in the previous approaches. The goal of this tutorial is to discuss the essential ideas underlying the diffusion models. The target audience of this tutorial includes undergraduate and graduate students who are interested in doing research on diffusion models or applying these models to solve other problems.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-06
# GQuESTによる時空間変動検出のための光子計数干渉法

Photon Counting Interferometry to Detect Geontropic Space-Time Fluctuations with GQuEST ( http://arxiv.org/abs/2404.07524v2 )

ライセンス: Link先を確認
Sander M. Vermeulen, Torrey Cullen, Daniel Grass, Ian A. O. MacMillan, Alexander J. Ramirez, Jeffrey Wack, Boris Korzh, Vincent S. H. Lee, Kathryn M. Zurek, Chris Stoughton, Lee McCuller, (参考訳) GQuEST (Gravity from the Quantum Entanglement of Space-Time) 実験では、テーブルトップスケールのMichelsonレーザー干渉計を用いて、時空の変動を観測している。 本稿では、干渉計標準量子限界に従わないため、前例のない感度を提供する新しい光子計数読出し方式を特徴とする実用可能な干渉計の設計を提案する。 我々はこの設計の可能性を評価し、最近の「地対流」量子重力モデルによって動機付けられた時空変動を測定する。 光子計の読み出しによって提供されるフィッシャー情報の高速化により、GQuESTは測定時間内の予測された量子重力現象を、同等の従来の干渉計の少なくとも100倍の速さで検出することができる。 GQuESTの設計により、実験室規模の実験で量子重力のシグネチャを高速かつ敏感に探索することができる。

The GQuEST (Gravity from the Quantum Entanglement of Space-Time) experiment uses tabletop-scale Michelson laser interferometers to probe for fluctuations in space-time. We present a practicable interferometer design featuring a novel photon counting readout method that provides unprecedented sensitivity, as it is not subject to the interferometric standard quantum limit. We evaluate the potential of this design to measure space-time fluctuations motivated by recent `geontropic' quantum gravity models. The accelerated accrual of Fisher information offered by the photon counting readout enables GQuEST to detect the predicted quantum gravity phenomena within measurement times at least 100 times shorter than equivalent conventional interferometers. The GQuEST design thus enables a fast and sensitive search for signatures of quantum gravity in a laboratory-scale experiment.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-06
# 大規模言語モデルを用いたAIによる科学オントロジー構築による次世代都市意思決定支援システムの実現に向けて -モーダル貨物輸送の最適化を事例として-

Towards Next-Generation Urban Decision Support Systems through AI-Powered Construction of Scientific Ontology using Large Language Models -- A Case in Optimizing Intermodal Freight Transportation ( http://arxiv.org/abs/2405.19255v3 )

ライセンス: Link先を確認
Jose Tupayachi, Haowen Xu, Olufemi A. Omitaomu, Mustafa Can Camur, Aliza Sharmin, Xueping Li, (参考訳) 人工知能(AI)モデルの様々な最適化システムへの組み入れが増加している。 しかし、複雑な都市と環境管理の問題に対処するには、通常、詳細なドメイン科学と情報学の専門知識が必要である。 この専門知識は、情報決定支援のためのデータとシミュレーション駆動の導出に不可欠である。 本稿では,事前学習されたLarge Language Models (LLMs) を活用する可能性について検討する。 推論コアとしてChatGPT APIを採用することで、自然言語処理、メソノロジーベースのプロンプトチューニング、トランスフォーマーを含む統合ワークフローを概説する。 このワークフローは、既存の研究論文と都市データセットとシミュレーションの技術マニュアルを使用してシナリオベースのオントロジーの作成を自動化する。 我々の方法論の成果は、広く採用されているオントロジー言語(例えば、OWL、RDF、SPARQL)の知識グラフである。 これらは、データとメタデータモデリングの強化、複雑なデータセットの統合、マルチドメインシミュレーションモデルの結合、意思決定メトリクスとワークフローの定式化による都市意思決定支援システムの開発を促進する。 提案手法の有効性は,一般的なオントロジーソフトウェア(例: prot\'eg\'e)のチュートリアルでよく使われているピザオントロジーと,AI生成したオントロジーを並置する比較分析によって評価される。 我々は,様々なドメインデータのアンソロジーを生成し,情報意思決定を支援することで,マルチモーダル貨物輸送の複雑な都市システムを最適化する実世界のケーススタディに近づいた。

The incorporation of Artificial Intelligence (AI) models into various optimization systems is on the rise. Yet, addressing complex urban and environmental management problems normally requires in-depth domain science and informatics expertise. This expertise is essential for deriving data and simulation-driven for informed decision support. In this context, we investigate the potential of leveraging the pre-trained Large Language Models (LLMs). By adopting ChatGPT API as the reasoning core, we outline an integrated workflow that encompasses natural language processing, methontology-based prompt tuning, and transformers. This workflow automates the creation of scenario-based ontology using existing research articles and technical manuals of urban datasets and simulations. The outcomes of our methodology are knowledge graphs in widely adopted ontology languages (e.g., OWL, RDF, SPARQL). These facilitate the development of urban decision support systems by enhancing the data and metadata modeling, the integration of complex datasets, the coupling of multi-domain simulation models, and the formulation of decision-making metrics and workflow. The feasibility of our methodology is evaluated through a comparative analysis that juxtaposes our AI-generated ontology with the well-known Pizza Ontology employed in tutorials for popular ontology software (e.g., prot\'eg\'e). We close with a real-world case study of optimizing the complex urban system of multi-modal freight transportation by generating anthologies of various domain data and simulations to support informed decision-making.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-06
# 分散安定状態のキャラクタリゼーションと温度測定

Characterization and thermometry of dissapatively stabilized steady states ( http://arxiv.org/abs/2406.00911v2 )

ライセンス: Link先を確認
George Grattan, Alek M. Liguori-Schremp, David. Rodríguez Pérez, Peter Graf, Wes Jones, Eliot Kapit, (参考訳) 本研究では,ノイズ量子アルゴリズムにおける基底状態と平衡誤差の発見を目的としたアルゴリズムのファミリーの一つであるRelaxational Quantum Eigensolver (RQE) と呼ばれるアルゴリズムについて検討し,その特性について検討する。 RQEでは、二次量子ビットの2番目のレジスタをトロタライズド進化において一次系に弱結合し、アルゴリズムの実行中に補助量子ビットを周期的にリセットすることで、近似ゼロ温度バスを設計する。 ランダムゲート誤差の無限温度浴のバランスをとると、RQEは基底状態の定数分に相当する平均エネルギーで状態を返す。 熱的挙動からTと偏差を推定するためのいくつかの手法を用いて, このアルゴリズムの定常状態について検討する。 特に, これらの系の定常状態は熱分布によってよく近似されることが確認され, 冷却に使用する同じ資源を熱測定に利用でき, 温度の信頼性の高い測定値が得られることを示す。 これらの手法は、短期量子ハードウェアで容易に実装することができ、古典的なコンピュータでは近似熱状態のシミュレーションが困難であるハミルトニアンの安定化と探索が可能である。

In this work we study the properties of dissipatively stabilized steady states of noisy quantum algorithms, exploring the extent to which they can be well approximated as thermal distributions, and proposing methods to extract the effective temperature T. We study an algorithm called the Relaxational Quantum Eigensolver (RQE), which is one of a family of algorithms that attempt to find ground states and balance error in noisy quantum devices. In RQE, we weakly couple a second register of auxiliary "shadow" qubits to the primary system in Trotterized evolution, thus engineering an approximate zero-temperature bath by periodically resetting the auxiliary qubits during the algorithm's runtime. Balancing the infinite temperature bath of random gate error, RQE returns states with an average energy equal to a constant fraction of the ground state. We probe the steady states of this algorithm for a range of base error rates, using several methods for estimating both T and deviations from thermal behavior. In particular, we both confirm that the steady states of these systems are often well-approximated by thermal distributions, and show that the same resources used for cooling can be adopted for thermometry, yielding a fairly reliable measure of the temperature. These methods could be readily implemented in near-term quantum hardware, and for stabilizing and probing Hamiltonians where simulating approximate thermal states is hard for classical computers.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-06
# 言葉を超えて: ミッションクリティカルリスク分析における大規模言語モデルでの行動可能性

Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis ( http://arxiv.org/abs/2406.10273v5 )

ライセンス: Link先を確認
Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi, (参考訳) コンテキスト。 リスク分析は特定のシナリオにおける潜在的なリスクを評価する。 リスク分析の原則は、コンテキストレスであり、同じ方法論を、健康や情報技術のセキュリティに関連するリスクに適用することができる。 リスク分析には、国内外の規制や基準に関する膨大な知識が必要であり、時間と努力が集中している。 大きな言語モデルは、人間よりも少ない時間で情報を素早く要約することができ、特定のタスクに微調整することができる。 エイム。 本研究は,リスク分析における検索・拡張世代と微調整LDMの有効性を検討することを目的とした実証研究である。 我々の知る限り、リスク分析の能力について事前の研究は行われていない。 方法。 過去5年間に産業状況チームによってアーカイブされた50以上のミッションクリティカルな分析から、1283のサンプルに導かれる193のシナリオを手作業でキュレートしました。 基本モデルであるGPT-3.5とGPT-4とRetrieval-Augmented Generationおよび微調整モデルを比較した。 我々は、モデルと以前の人間の専門家の分析をレビューするために、モデルの競合相手として2人の人間専門家と、他の3人の人間専門家を雇います。 審査員は5000のシナリオ分析を行った。 結果と結論。 人間の専門家は高い精度を示したが、LSMはより速く、より実用的なものである。 さらに,RAG支援LSMが最も低い幻覚率を示し,隠れたリスクを効果的に発見し,人間の専門知識を補完することを示した。 したがって、モデルの選択は、正確性のためのFTM、隠れたリスク発見のためのRAG、包括性と行動可能性のためのベースモデルなど、特定のニーズに依存する。 したがって、専門家は、凝縮した時間枠内でのリスク分析において、LSMを効果的な補完コンパニオンとして活用することができる。 また、不当な対策の実施に伴う不要な費用を回避することでコストを削減できる。

Context. Risk analysis assesses potential risks in specific scenarios. Risk analysis principles are context-less; the same methodology can be applied to a risk connected to health and information technology security. Risk analysis requires a vast knowledge of national and international regulations and standards and is time and effort-intensive. A large language model can quickly summarize information in less time than a human and can be fine-tuned to specific tasks. Aim. Our empirical study aims to investigate the effectiveness of Retrieval-Augmented Generation and fine-tuned LLM in risk analysis. To our knowledge, no prior study has explored its capabilities in risk analysis. Method. We manually curated 193 unique scenarios leading to 1283 representative samples from over 50 mission-critical analyses archived by the industrial context team in the last five years. We compared the base GPT-3.5 and GPT-4 models versus their Retrieval-Augmented Generation and fine-tuned counterparts. We employ two human experts as competitors of the models and three other human experts to review the models and the former human experts' analysis. The reviewers analyzed 5,000 scenario analyses. Results and Conclusions. Human experts demonstrated higher accuracy, but LLMs are quicker and more actionable. Moreover, our findings show that RAG-assisted LLMs have the lowest hallucination rates, effectively uncovering hidden risks and complementing human expertise. Thus, the choice of model depends on specific needs, with FTMs for accuracy, RAG for hidden risks discovery, and base models for comprehensiveness and actionability. Therefore, experts can leverage LLMs as an effective complementing companion in risk analysis within a condensed timeframe. They can also save costs by averting unnecessary expenses associated with implementing unwarranted countermeasures.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-06
# ZMapの10年

Ten Years of ZMap ( http://arxiv.org/abs/2406.15585v2 )

ライセンス: Link先を確認
Zakir Durumeric, David Adrian, Phillip Stephens, Eric Wustrow, J. Alex Halderman, (参考訳) 2013年にZMapがデビューして以来、ネットワークとセキュリティの研究者は、このオープンソースのスキャナを使って、インターネットの振る舞いを研究する何百もの研究論文を書いた。 さらに、ZMapは攻撃面の管理とセキュリティ評価の業界の多くを支えており、ZMap上には10以上のセキュリティ企業が製品を作っている。 裏では、ZMapの動作の大部分(擬似ランダムIP生成からパケット構成まで)が、インターネットのスキャン方法についてより深く学ぶにつれ、静かに進化しています。 本研究では、ZMapのリリースから10年にわたってのZMapの採用状況を定量化し、その現代的な振る舞い(およびそれらの変更を動機づけた測定値)を説明し、ZMapのリリースとメンテナンスから教訓を提供する。

Since ZMap's debut in 2013, networking and security researchers have used the open-source scanner to write hundreds of research papers that study Internet behavior. In addition, ZMap powers much of the attack-surface management and security ratings industries, and more than a dozen security companies have built products on top of ZMap. Behind the scenes, much of ZMap's behavior - ranging from its pseudorandom IP generation to its packet construction - has quietly evolved as we have learned more about how to scan the Internet. In this work, we quantify ZMap's adoption over the ten years since its release, describe its modern behavior (and the measurements that motivated those changes), and offer lessons from releasing and maintaining ZMap.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-06
# ソフトプロンプトは難しい - 隠れたメタ命令でビジュアル言語モデルをステアリングする

Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions ( http://arxiv.org/abs/2407.08970v2 )

ライセンス: Link先を確認
Tingwei Zhang, Collin Zhang, John X. Morris, Eugene Bagdasarian, Vitaly Shmatikov, (参考訳) 隠れた「メタインストラクション」は、モデルがどのようにイメージを解釈し、モデルの出力を逆長線スタイル、感情、視点を表現するかに影響を与える。 ソフトプロンプトとして機能する画像を生成することによってメタ命令を生成する方法について説明する。 ジェイルブレイク攻撃や敵の例とは対照的に、これらの画像に反応して生成された出力は、画像の視覚的内容に基づいているが、敵の(メタ)目的も満たしている。 複数の視覚的言語モデルと対向的メタオブジェクトに対するメタインストラクションの有効性を評価し、明示的なテキスト命令で利用できない基礎言語モデルの「アンロック」機能について実証する。 スパム、誤情報、スピンを含む悪意のある自己解釈コンテンツの作成を可能にすることによって、メタインストラクション攻撃が害を引き起こす可能性について説明する。 最後に、防衛について論じる。

We introduce a new type of indirect injection attacks against language models that operate on images: hidden ''meta-instructions'' that influence how the model interprets the image and steer the model's outputs to express an adversary-chosen style, sentiment, or point of view. We explain how to create meta-instructions by generating images that act as soft prompts. In contrast to jailbreaking attacks and adversarial examples, outputs produced in response to these images are plausible and based on the visual content of the image, yet also satisfy the adversary's (meta-)objective. We evaluate the efficacy of meta-instructions for multiple visual language models and adversarial meta-objectives, and demonstrate how they can ''unlock'' capabilities of the underlying language models that are unavailable via explicit text instructions. We describe how meta-instruction attacks could cause harm by enabling creation of malicious, self-interpreting content that carries spam, misinformation, and spin. Finally, we discuss defenses.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-06
# 信頼されたサーバのないプライベートな不均一なフェデレーション学習:凸損失に対する誤り最適かつコミュニケーション効率のアルゴリズム

Private Heterogeneous Federated Learning Without a Trusted Server Revisited: Error-Optimal and Communication-Efficient Algorithms for Convex Losses ( http://arxiv.org/abs/2407.09690v3 )

ライセンス: Link先を確認
Changyu Gao, Andrew Lowy, Xingyu Zhou, Stephen J. Wright, (参考訳) 我々は,サーバやサイロ/クライアントを信頼していない人たちの個人データを用いて,連邦学習(FL)の問題を再考する。 この文脈では、すべてのサイロ(例えば病院)は、複数の人(例えば患者)からのデータを持ち、サーバーや他のサイロがデータを発見しようとする場合でも、各人のデータ(例えば健康記録)のプライバシーを保護する必要がある。 Inter-Silo Record-Level Differential Privacy (ISRL-DP) は、各サイロのデータ漏洩を防止し、サイロ i の通信がアイテムレベルの差分プライバシーを満たすように要求する。 以前の研究 arXiv:2106.09779 では、同種(d.d.)のサイロデータと凸損失関数を持つ ISRL-DP アルゴリズムの最適超過リスク境界が特徴づけられた。 しかし、(1)同じ過剰なリスク境界を不均一な(非i.d.)サイロデータで達成できるのか? 2)コミュニケーションラウンドを減らして最適なリスク境界を達成できるのか? 本稿では,両質問に対して肯定的な回答を与える。 異種サイロデータの存在下で最適な過大なリスク境界を実現する新しいISRL-DP FLアルゴリズムを提案する。 さらに、我々のアルゴリズムは従来の最先端技術よりも通信効率が高い。 スムーズな損失関数に対して、我々のアルゴリズムは最適余剰リスクバウンドを達成し、非プライベートな下位バウンドと一致する通信複雑性を持つ。 さらに、我々のアルゴリズムは以前の最先端技術よりも計算効率が良い。

We revisit the problem of federated learning (FL) with private data from people who do not trust the server or other silos/clients. In this context, every silo (e.g. hospital) has data from several people (e.g. patients) and needs to protect the privacy of each person's data (e.g. health records), even if the server and/or other silos try to uncover this data. Inter-Silo Record-Level Differential Privacy (ISRL-DP) prevents each silo's data from being leaked, by requiring that silo i's communications satisfy item-level differential privacy. Prior work arXiv:2106.09779 characterized the optimal excess risk bounds for ISRL-DP algorithms with homogeneous (i.i.d.) silo data and convex loss functions. However, two important questions were left open: (1) Can the same excess risk bounds be achieved with heterogeneous (non-i.i.d.) silo data? (2) Can the optimal risk bounds be achieved with fewer communication rounds? In this paper, we give positive answers to both questions. We provide novel ISRL-DP FL algorithms that achieve the optimal excess risk bounds in the presence of heterogeneous silo data. Moreover, our algorithms are more communication-efficient than the prior state-of-the-art. For smooth loss functions, our algorithm achieves the optimal excess risk bound and has communication complexity that matches the non-private lower bound. Additionally, our algorithms are more computationally efficient than the previous state-of-the-art.
翻訳日:2024-09-11 01:41:10 公開日:2024-09-06
# Rusty Linux: Linuxカーネル開発のためのRustの進歩

Rusty Linux: Advances in Rust for Linux Kernel Development ( http://arxiv.org/abs/2407.18431v2 )

ライセンス: Link先を確認
Shane K. Panter, Nasir U. Eisty, (参考訳) コンテキスト: Rustのカーネル開発への統合は、Rustの強力なメモリ安全性保証を活用することで、システムのセキュリティと信頼性を高めることを目的とした、変革的な取り組みである。 目的: Kernel開発でRustを使用することで、すべてのモダンなアプリケーションを支える最も重要なソフトウェアのうちの1つにおいて、メモリ安全性の脆弱性の数を減らすことを目指しています。 メソッド: 幅広い研究を分析して、Rustがもたらすメリットを特定し、直面する課題を強調し、Rustの採用に関してコミュニティのコンセンサスの必要性を強調します。 結果: カーネルの初期実装であるRustは,安全性と安定性の面で有望な結果を示しているが,大きな課題は残る。 これらの課題には、既存のカーネルコンポーネントとのシームレスな相互運用性の実現、パフォーマンスの維持、開発者に対する適切なサポートとツーリングの確保などが含まれる。 結論: この研究は、Rustのメリットを完全に実現するための継続的な研究と実践的な実装の必要性を強調します。 これらの課題に対処することによって、Rustの統合は、オペレーティングシステム開発がより安全で信頼性の高いシステムへと進化する上で、大きな一歩となる可能性がある。

Context: The integration of Rust into kernel development is a transformative endeavor aimed at enhancing system security and reliability by leveraging Rust's strong memory safety guarantees. Objective: We aim to find the current advances in using Rust in Kernel development to reduce the number of memory safety vulnerabilities in one of the most critical pieces of software that underpins all modern applications. Method: By analyzing a broad spectrum of studies, we identify the advantages Rust offers, highlight the challenges faced, and emphasize the need for community consensus on Rust's adoption. Results: Our findings suggest that while the initial implementations of Rust in the kernel show promising results in terms of safety and stability, significant challenges remain. These challenges include achieving seamless interoperability with existing kernel components, maintaining performance, and ensuring adequate support and tooling for developers. Conclusions: This study underscores the need for continued research and practical implementation efforts to fully realize the benefits of Rust. By addressing these challenges, the integration of Rust could mark a significant step forward in the evolution of operating system development towards safer and more reliable systems
翻訳日:2024-09-11 01:25:35 公開日:2024-09-06
# CYBERSECEVAL 3:大規模言語モデルにおけるサイバーセキュリティリスクと能力の評価の改善

CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models ( http://arxiv.org/abs/2408.01605v2 )

ライセンス: Link先を確認
Shengye Wan, Cyrus Nikolaidis, Daniel Song, David Molnar, James Crnkovich, Jayson Grace, Manish Bhatt, Sahana Chennabasappa, Spencer Whitman, Stephanie Ding, Vlad Ionescu, Yue Li, Joshua Saxe, (参考訳) LLMのための新しいセキュリティベンチマークであるCYBERSECEVAL 3をリリースし、LLMのサイバーセキュリティのリスクと能力を実証的に測定する議論を継続する。 CYBERSECEVAL 3は、サードパーティに対するリスクと、アプリケーション開発者とエンドユーザに対するリスクという、2つの幅広いカテゴリの8つの異なるリスクを評価します。 これまでの研究と比較して、攻撃的セキュリティ機能に焦点を当てた新たな分野として、ソーシャルエンジニアリングの自動化、手動攻撃型サイバーオペレーションのスケーリング、自動攻撃型サイバーオペレーションがあります。 本稿では,これらのベンチマークをLlama 3モデルと同時期LLMのスイートに適用し,リスクを軽減・回避できる可能性について論じる。

We are releasing a new suite of security benchmarks for LLMs, CYBERSECEVAL 3, to continue the conversation on empirically measuring LLM cybersecurity risks and capabilities. CYBERSECEVAL 3 assesses 8 different risks across two broad categories: risk to third parties, and risk to application developers and end users. Compared to previous work, we add new areas focused on offensive security capabilities: automated social engineering, scaling manual offensive cyber operations, and autonomous offensive cyber operations. In this paper we discuss applying these benchmarks to the Llama 3 models and a suite of contemporaneous state-of-the-art LLMs, enabling us to contextualize risks both with and without mitigations in place.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-06
# 高速でスローな思考者としてのビジュアルエージェント

Visual Agents as Fast and Slow Thinkers ( http://arxiv.org/abs/2408.08862v2 )

ライセンス: Link先を確認
Guangyan Sun, Mingyu Jin, Zhenting Wang, Cheng-Long Wang, Siqi Ma, Qifan Wang, Ying Nian Wu, Yongfeng Zhang, Dongfang Liu, (参考訳) 人間のレベルの知性を達成するには、システム1とシステム2の認知的区別を洗練する必要がある。 大規模な言語モデルによって駆動される現代のAIは、人間のような特性を示すが、真の認知には欠ける。 構造化ベンチマークから実世界のシナリオへの移行は、視覚エージェントの課題を示し、しばしば不正確で過度に自信を持った応答をもたらす。 この課題に対処するために,Fast and Slow Thinking 機構を視覚エージェントに組み込んだ FaST を導入する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。 この斬新なデザインでは、フレキシブルなシステム、階層的推論能力、透明な意思決定パイプラインを提唱します。 実験の結果、FaSTは様々な既知のベースラインより優れており、視覚的質問応答のVQA^{v2}よりも80.8%、推論セグメンテーションのReasonSegより48.7%のGIoUスコアを達成し、FaSTの優れた性能を示している。 広範囲なテストは、AIシステムにおける認知視覚エージェントの開発を前進させる可能性を示し、FaSTのコアコンポーネントの有効性と堅牢性を検証する。 コードはttps://github.com/GuangyanS/Sys2-LLaVAで入手できる。

Achieving human-level intelligence requires refining cognitive distinctions between System 1 and System 2 thinking. While contemporary AI, driven by large language models, demonstrates human-like traits, it falls short of genuine cognition. Transitioning from structured benchmarks to real-world scenarios presents challenges for visual agents, often leading to inaccurate and overly confident responses. To address the challenge, we introduce FaST, which incorporates the Fast and Slow Thinking mechanism into visual agents. FaST employs a switch adapter to dynamically select between System 1/2 modes, tailoring the problem-solving approach to different task complexity. It tackles uncertain and unseen objects by adjusting model confidence and integrating new contextual data. With this novel design, we advocate a flexible system, hierarchical reasoning capabilities, and a transparent decision-making pipeline, all of which contribute to its ability to emulate human-like cognitive processes in visual intelligence. Empirical results demonstrate that FaST outperforms various well-known baselines, achieving 80.8% accuracy over VQA^{v2} for visual question answering and 48.7% GIoU score over ReasonSeg for reasoning segmentation, demonstrate FaST's superior performance. Extensive testing validates the efficacy and robustness of FaST's core components, showcasing its potential to advance the development of cognitive visual agents in AI systems. The code is available at ttps://github.com/GuangyanS/Sys2-LLaVA.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-06
# 原子干渉計用キャリア抑制シングルサイドバンド(CS-SSB)モードにおけるIQ変調器のディジタル安定化

Digital stabilization of an IQ modulator in the carrier suppressed single side-band (CS-SSB) mode for atom interferometry ( http://arxiv.org/abs/2408.16678v2 )

ライセンス: Link先を確認
Arif Ullah, Samuel Legge, John D. Close, Simon A. Haine, Ryan J. Thomas, (参考訳) キャリア抑制シングルサイドバンド変調のための電気光学I/Q変調器における位相バイアスを安定化する全ディジタル方式を提案する。 S. Wald \ea, Appl で提示された手法に基づく構築 Opt テキストbf{62}, 1-7 (2023) では、赤ピタヤSTEMlab 125-14 プラットフォームを用いて、光キャリアとのビートがI/Q変調器の位相不均衡をプローブする補助電波周波数トーンをデジタル的に生成・復調する。 我々は、位相バイアスの回避不能なクロスカップリングを考慮に入れ、光パワー変動が位相安定性に影響を与えないような誤差信号を正確にゼロにロックするマルチインプット・マルチ出力積分フィードバックコントローラを実装した。 所望のサイドバンドに対する光キャリアの$>23\,\rm dB$の抑制効果を,15ドル時間および20^\circ\rm C$の温度変化に対して,+3.4\,\rm GHz$で示す。

We present an all-digital method for stabilising the phase biases in an electro-optic I/Q modulator for carrier-suppressed single-sideband modulation. Building on the method presented in S. Wald \ea, Appl. Opt. \textbf{62}, 1-7 (2023), we use the Red Pitaya STEMlab 125-14 platform to digitally generate and demodulate an auxiliary radio-frequency tone whose beat with the optical carrier probes the I/Q modulator's phase imbalances. We implement a multiple-input, multiple-output integral feedback controller which accounts for unavoidable cross-couplings in the phase biases to lock the error signals at exactly zero where optical power fluctuations have no impact on phase stability. We demonstrate $>23\,\rm dB$ suppression of the optical carrier relative to the desired sideband at $+3.4\,\rm GHz$ over a period of $15$ hours and over temperature variations of $20^\circ\rm C$.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-06
# 絶対ランク付け:ベンチマーク最適化アルゴリズムの基本正規化

Absolute Ranking: An Essential Normalization for Benchmarking Optimization Algorithms ( http://arxiv.org/abs/2409.04479v1 )

ライセンス: Link先を確認
Yunpeng Jinng, Qunfeng Liu, (参考訳) 多くの問題において最適化アルゴリズムの性能を評価することは、関連する数値スケールの多様性のために複雑な課題となる。 仮説テストやベイズ推定のような従来のデータ処理手法では、様々なスケールで性能値の正規化にランキングベースの手法を用いることが多い。 しかし、このランク付けベースのアプローチで大きな問題が発生する。新しいアルゴリズムの導入は、オリジナルのランク付けを妨害する可能性がある。 本稿では,この問題を広範囲に検討し,根本原因の根本原因を徹底的に解析する上で説得力のある事例を提示する。 これらの取り組みは、潜在的な解決策を包括的に検討する道を開く。 本研究では,「絶対ランク付け」と呼ばれる新しい数学的モデルとサンプリングに基づく計算手法を提案する。 これらのコントリビューションには,複数のアルゴリズムや問題に対するパフォーマンス評価において,数値スケールのばらつきに対処するための,より堅牢なフレームワークの提供を目的とした,実践的な実装推奨が含まれている。

Evaluating performance across optimization algorithms on many problems presents a complex challenge due to the diversity of numerical scales involved. Traditional data processing methods, such as hypothesis testing and Bayesian inference, often employ ranking-based methods to normalize performance values across these varying scales. However, a significant issue emerges with this ranking-based approach: the introduction of new algorithms can potentially disrupt the original rankings. This paper extensively explores the problem, making a compelling case to underscore the issue and conducting a thorough analysis of its root causes. These efforts pave the way for a comprehensive examination of potential solutions. Building on this research, this paper introduces a new mathematical model called "absolute ranking" and a sampling-based computational method. These contributions come with practical implementation recommendations, aimed at providing a more robust framework for addressing the challenge of numerical scale variation in the assessment of performance across multiple algorithms and problems.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-06
# 非対称双方向量子テレポーテーション:任意バイモーダル情報状態

Asymmetric Bidirectional Quantum Teleportation: Arbitrary bi-modal Information State ( http://arxiv.org/abs/2409.04480v1 )

ライセンス: Link先を確認
Ankita Pathak, Madan Singh Chauhan, Ravi S. Singh, (参考訳) 光コヒーレント状態(英: optical coherent state)は、レーザーによる準備と線形光学ガジェットによる操作と監視が十分に確立されている実験的に実現可能な連続可変量子状態である。 本研究では,2成分の2成分の共役コヒーレント状態の3つの重ね合わせからなるクラスタを量子チャネルとして利用し,線形光学ガジェットを活用して,未知のシュロディンガー猫コヒーレント状態を送信者に送信しようとする4成分の共役コヒーレント状態の任意の重ね合わせを送信者から受信者に送信する戦略を提案する。 送信機と受信機の実験室での光子の発見と、偶数と奇数の光子の古典的な通信、および局所的なユニタリ演算は、必然的に、成功の確率の8分の1で、同時に忠実な非対称な双方向量子テレポーテーションを達成する。 すべての検出イベントがプロトコルを実装しているわけではないため、ローカルに変位演算子を適用する必要がある。 ほぼ忠実な部分非対称な双方向量子テレポーテーションとそれに伴う成功の確率を解析する。 我々は、強コヒーレント光学場に対して、忠実度がユニティに近づくことを示した。

Optical coherent states are experimentally realizable continuous variable quantum states of which preparation by lasers, as well as its manipulation and monitoring by linear optical gadgets are well established. We propose a strategy to send an arbitrary superposition of four-component bimodal entangled coherent states from a sender to a receiver who, simultaneously, tries to transmit an unknown Schrodinger Cat coherent state to sender via employing a cluster consisting of three superposition of two component bimodal entangled coherent states as the quantum channel and utilizing linear optical gadgets. Heralded detection of photons in laboratories of sender and receiver followed by classical communications of even and odd number of photons and local unitary operations, impeccably, accomplishes simultaneous faithful asymmetric bidirectional quantum teleportation with one eighth of probability of success. It is seen that not all detection events implement the protocol and, therefore, one has to locally apply displacement operator, a necessary evil. We analyze near faithful partial asymmetric bidirectional quantum teleportation and associated probability of success therein. We demonstrated that, for an intense coherent optical field, fidelity approach unity.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-06
# 薬物発見・開発における言語モデル : 疾患のメカニズムから臨床試験まで

Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials ( http://arxiv.org/abs/2409.04481v1 )

ライセンス: Link先を確認
Yizhen Zheng, Huan Yee Koh, Maddie Yang, Li Li, Lauren T. May, Geoffrey I. Webb, Shirui Pan, George Church, (参考訳) LLM(Large Language Models)の薬物発見・開発分野への統合は、疾患のメカニズムを理解し、薬物発見を容易にし、臨床試験プロセスを最適化するための新しい方法論を提供する、重要なパラダイムシフトである。 本総説では, 薬物開発パイプラインの様々な段階に革命を起こす上で, LLMが果たす役割について述べる。 これらの先進的な計算モデルが、ターゲット・ディスリーズ・リンクを明らかにし、複雑なバイオメディカルデータを解釈し、薬物分子設計を強化し、薬物の有効性と安全性を予測し、臨床治験プロセスを促進する方法について検討する。 本稿では,LSMの薬物発見・開発に対する変革的影響についての洞察を提供することにより,計算生物学,薬理学,AI4Scienceの研究者や実践者に包括的概要を提供する。

The integration of Large Language Models (LLMs) into the drug discovery and development field marks a significant paradigm shift, offering novel methodologies for understanding disease mechanisms, facilitating drug discovery, and optimizing clinical trial processes. This review highlights the expanding role of LLMs in revolutionizing various stages of the drug development pipeline. We investigate how these advanced computational models can uncover target-disease linkage, interpret complex biomedical data, enhance drug molecule design, predict drug efficacy and safety profiles, and facilitate clinical trial processes. Our paper aims to provide a comprehensive overview for researchers and practitioners in computational biology, pharmacology, and AI4Science by offering insights into the potential transformative impact of LLMs on drug discovery and development.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-06
# SCARF: メモリ効率・マルチニューラルラジアンスフィールドのためのスケーラブル連続学習フレームワーク

SCARF: Scalable Continual Learning Framework for Memory-efficient Multiple Neural Radiance Fields ( http://arxiv.org/abs/2409.04482v1 )

ライセンス: Link先を確認
Yuze Wang, Junyi Wang, Chen Wang, Wantong Duan, Yongtang Bao, Yue Qi, (参考訳) 本稿では,複数シーンの新たなビューを合成し,複数の3Dシーンを段階的に学習し,新たなシーンのトレーニングデータのみを用いてネットワークパラメータを更新する,新たな連続学習フレームワークを提案する。 我々は,多層パーセプトロンを用いてシーンの密度と放射場を暗黙の関数としてモデル化するニューラルレージアンス場(NeRF)を構築した。 NeRFとその拡張は、単一の3Dシーンで写真リアリスティックな新しいビューをレンダリングする強力な能力を示しているが、これらの成長する3D NeRF資産を効率的に管理することは、新しい科学的問題である。 複数のシーンの効率的な表現や継続的な学習能力に注目する研究はほとんどないが、これはNeRFの実践的応用に不可欠である。 これらの目的を達成するために、我々は、グローバルパラメータ生成器から生成されるシーン固有の重み行列と、クロスシーンの重み行列の線形結合として、複数のシーンを表現することを目的としている。 さらに,前景の放射界知識を新しいモデルに伝達する,不確実な表面知識蒸留戦略を提案する。 このような重み行列で複数の3Dシーンを表現することは、メモリ要求を大幅に減少させる。 同時に、不確実な表面蒸留戦略は破滅的な忘れ問題を大幅に克服し、以前のシーンの写実的なレンダリング品質を維持している。 実験により,NeRF-Synthetic, LLFF, TanksAndTemplesデータセット上での連続学習NeRFの最先端レンダリング品質を実現するとともに,余分な低ストレージコストを保ちながら,提案手法の有効性が示された。

This paper introduces a novel continual learning framework for synthesising novel views of multiple scenes, learning multiple 3D scenes incrementally, and updating the network parameters only with the training data of the upcoming new scene. We build on Neural Radiance Fields (NeRF), which uses multi-layer perceptron to model the density and radiance field of a scene as the implicit function. While NeRF and its extensions have shown a powerful capability of rendering photo-realistic novel views in a single 3D scene, managing these growing 3D NeRF assets efficiently is a new scientific problem. Very few works focus on the efficient representation or continuous learning capability of multiple scenes, which is crucial for the practical applications of NeRF. To achieve these goals, our key idea is to represent multiple scenes as the linear combination of a cross-scene weight matrix and a set of scene-specific weight matrices generated from a global parameter generator. Furthermore, we propose an uncertain surface knowledge distillation strategy to transfer the radiance field knowledge of previous scenes to the new model. Representing multiple 3D scenes with such weight matrices significantly reduces memory requirements. At the same time, the uncertain surface distillation strategy greatly overcomes the catastrophic forgetting problem and maintains the photo-realistic rendering quality of previous scenes. Experiments show that the proposed approach achieves state-of-the-art rendering quality of continual learning NeRF on NeRF-Synthetic, LLFF, and TanksAndTemples datasets while preserving extra low storage cost.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-06
# HitchHiker's Guide to High-Assurance System Observability Protection with Efficient Permission Switches

The HitchHiker's Guide to High-Assurance System Observability Protection with Efficient Permission Switches ( http://arxiv.org/abs/2409.04484v1 )

ライセンス: Link先を確認
Chuqi Zhang, Jun Zeng, Yiming Zhang, Adil Ahmad, Fengwei Zhang, Hai Jin, Zhenkai Liang, (参考訳) システムオブザーバビリティレコード(logs)を侵害されたOSから保護することは近年,注目すべきアプローチがいくつか提案されている。 残念なことに、提案されたアプローチはいずれも、ログ保護の小さな遅延を伴うハイパフォーマンスを実現していない。 また、保護のために危険環境を利用する(多くの場合、TrustZoneは大きなTBとアタックサーフェスを持つ汎用ハイパーバイザを使用する)。 HitchHikerはこの問題を正そうとしている。 システムは確実に設計されています (a)効率的なハードウェアパーミッション切替による短時間かつ構成可能なリアルタイム期限内におけるバッチログのメモリ内保護、及び b) ハードウェア保護プリミティブ上に構築された,セキュアなログ保護,永続化,管理のためのデ肥大化戦略を備えた,エンドツーエンドの高保証環境。 セキュリティ評価と検証の結果、HitchHikerは最新技術と比較してログ保護遅延を93.3--99.3%削減し、TCBを9.4--26.9X削減した。 性能評価の結果、ヒッチハイカーは様々な実世界のプログラムで6%未満のオーバーヘッドで幾何学的平均を発生させ、最先端のアプローチを61.9-77.5%改善した。

Protecting system observability records (logs) from compromised OSs has gained significant traction in recent times, with several note-worthy approaches proposed. Unfortunately, none of the proposed approaches achieve high performance with tiny log protection delays. They also leverage risky environments for protection (\eg many use general-purpose hypervisors or TrustZone, which have large TCB and attack surfaces). HitchHiker is an attempt to rectify this problem. The system is designed to ensure (a) in-memory protection of batched logs within a short and configurable real-time deadline by efficient hardware permission switching, and (b) an end-to-end high-assurance environment built upon hardware protection primitives with debloating strategies for secure log protection, persistence, and management. Security evaluations and validations show that HitchHiker reduces log protection delay by 93.3--99.3% compared to the state-of-the-art, while reducing TCB by 9.4--26.9X. Performance evaluations show HitchHiker incurs a geometric mean of less than 6% overhead on diverse real-world programs, improving on the state-of-the-art approach by 61.9--77.5%.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-06
# 糖尿病治療における酸化亜鉛ナノ粒子の現状と将来展望

The Current and Future Perspectives of Zinc Oxide Nanoparticles in the Treatment of Diabetes Mellitus ( http://arxiv.org/abs/2409.04486v1 )

ライセンス: Link先を確認
Iqra Yousaf, (参考訳) 本稿では,酸化亜鉛ナノ粒子(ZnO NPs)の糖尿病治療への応用について概説する。 この研究は、化学合成法と緑の合成法の両方を掘り下げ、ナノ粒子の性質への影響を比較した。 XRD、FTIR、UV-Vis分光法、SEMなどの鍵となる特性解析技術は、ナノ粒子の結晶構造、光学特性、形態を確認する。 ZnO NPは、抗菌、抗炎症、抗糖尿病作用を含む重要な生物学的活性を示す。 これらのナノ粒子は、グルコースの調節を改善し、インスリン感受性を高め、細胞内でグルコースの取り込みを促進することを約束している。 これらの利点にもかかわらず、ZnO NPsの潜在的毒性と長期効果はさらなる研究を保証している。 今後の研究は、糖尿病管理やその他のバイオメディカル応用におけるZnO NPsの可能性を完全に活用するために、合成法の最適化と包括的な研究に焦点をあてるべきである。

This review explores the synthesis, characterization, and therapeutic applications of zinc oxide nanoparticles (ZnO NPs) in the treatment of diabetes mellitus. The study delves into both chemical and green synthesis methods, comparing their impacts on nanoparticle properties. Key characterization techniques such as XRD, FTIR, UV-Vis spectroscopy, and SEM confirm the crystalline structure, optical properties, and morphology of the nanoparticles. ZnO NPs demonstrate significant biological activities, including antibacterial, anti-inflammatory, and antidiabetic effects. These nanoparticles show promise in improving glucose regulation, enhancing insulin sensitivity, and boosting glucose uptake in cells. Despite these benefits, the potential toxicity and long-term effects of ZnO NPs warrant further investigation. Future research should focus on optimizing synthesis methods and conducting comprehensive studies to fully exploit ZnO NPs' potential in diabetes management and other biomedical applications.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 自然言語処理技術を用いたタンパク質配列分類

Protein sequence classification using natural language processing techniques ( http://arxiv.org/abs/2409.04491v1 )

ライセンス: Link先を確認
Huma Perveen, Julie Weeds, (参考訳) タンパク質は多くの生物学的機能に必須であり、その配列は生物の中での役割を決定する。 タンパク質の機能を決定する伝統的な方法は、時間と労働集約である。 本研究では,75の標的タンパク質クラスからなるデータセットに対して,自然言語処理(NLP)技術を用いることにより,精度が高く,効果的で,自動的なタンパク質配列分類手法の需要を増大させる。 我々は,K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking Classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), Transformer Model (BertForSequence Classification, DistilBERT, ProtBert)など,機械学習およびディープラーニングモデルについて検討した。 機械学習モデルでは1-4グラムのアミノ酸範囲と,CNNモデルとLSTMモデルでは配列長の異なるアミノ酸範囲を用いて実験を行った。 KNNアルゴリズムは, 精度70.0%, マクロF1スコア63.0%のトリグラムデータに対して, 最善を尽くした。 投票分類器は74.0%の精度でF1スコアは65.0%、スタッキング分類器は75.0%の精度でF1スコアは64.0%で最高の成績を収めた。 ProtBertは変圧器モデルの中で最も高い性能を示し、精度は76.0%、F1スコアは61.0%であり、3つの変圧器モデルで同じである。 高度なNLP技術、特にアンサンブル法とトランスフォーマーモデルは、タンパク質の分類に大きな可能性を示している。 以上の結果から,アンサンブル手法,特にVoting Soft分類器は,十分なトレーニングデータの重要性と,異なるクラスにまたがるシーケンス類似性に注目し,優れた結果を得た。

Proteins are essential to numerous biological functions, with their sequences determining their roles within organisms. Traditional methods for determining protein function are time-consuming and labor-intensive. This study addresses the increasing demand for precise, effective, and automated protein sequence classification methods by employing natural language processing (NLP) techniques on a dataset comprising 75 target protein classes. We explored various machine learning and deep learning models, including K-Nearest Neighbors (KNN), Multinomial Na\"ive Bayes, Logistic Regression, Multi-Layer Perceptron (MLP), Decision Tree, Random Forest, XGBoost, Voting and Stacking classifiers, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and transformer models (BertForSequenceClassification, DistilBERT, and ProtBert). Experiments were conducted using amino acid ranges of 1-4 grams for machine learning models and different sequence lengths for CNN and LSTM models. The KNN algorithm performed best on tri-gram data with 70.0% accuracy and a macro F1 score of 63.0%. The Voting classifier achieved best performance with 74.0% accuracy and an F1 score of 65.0%, while the Stacking classifier reached 75.0% accuracy and an F1 score of 64.0%. ProtBert demonstrated the highest performance among transformer models, with a accuracy 76.0% and F1 score 61.0% which is same for all three transformer models. Advanced NLP techniques, particularly ensemble methods and transformer models, show great potential in protein classification. Our results demonstrate that ensemble methods, particularly Voting Soft classifiers, achieved superior results, highlighting the importance of sufficient training data and addressing sequence similarity across different classes.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# Diff-INR:電気インピーダンストモグラフィのための生成規則化

Diff-INR: Generative Regularization for Electrical Impedance Tomography ( http://arxiv.org/abs/2409.04494v1 )

ライセンス: Link先を確認
Bowen Tong, Junwu Wang, Dong Liu, (参考訳) 電気インピーダンストモグラフィ(EIT)は、境界測定から体内の伝導率分布を再構成する非侵襲イメージング技術である。 しかし、EIT再構成は、正確な結果が複雑である不測の非線形逆問題によって妨げられている。 そこで本研究では,拡散モデルを用いて生成正則化とインプリシットニューラル表現(INR)を組み合わせた新しい手法であるDiff-INRを提案する。 Diff-INRは、従来の正規化手法の欠点を効果的に解決するために、再構成のガイドとなる幾何学的先行を導入している。 事前学習した拡散正則化器をINRに統合することにより,シミュレーションと実験データの両方で最先端の再現精度を実現する。 この方法は、様々なメッシュ密度とハイパーパラメータ設定にまたがる堅牢なパフォーマンスを示し、その柔軟性と効率を強調している。 この進歩は、EITの不正な性質を管理する上で大きな改善となる。 さらに、この手法の原理は、不適切な逆問題と同じような課題に直面している他の画像モダリティにも適用できる。

Electrical Impedance Tomography (EIT) is a non-invasive imaging technique that reconstructs conductivity distributions within a body from boundary measurements. However, EIT reconstruction is hindered by its ill-posed nonlinear inverse problem, which complicates accurate results. To tackle this, we propose Diff-INR, a novel method that combines generative regularization with Implicit Neural Representations (INR) through a diffusion model. Diff-INR introduces geometric priors to guide the reconstruction, effectively addressing the shortcomings of traditional regularization methods. By integrating a pre-trained diffusion regularizer with INR, our approach achieves state-of-the-art reconstruction accuracy in both simulation and experimental data. The method demonstrates robust performance across various mesh densities and hyperparameter settings, highlighting its flexibility and efficiency. This advancement represents a significant improvement in managing the ill-posed nature of EIT. Furthermore, the method's principles are applicable to other imaging modalities facing similar challenges with ill-posed inverse problems.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 非自己回帰型ニューラルネットワークによる正線形制約下での組合せ最適化の学習

Learning to Solve Combinatorial Optimization under Positive Linear Constraints via Non-Autoregressive Neural Networks ( http://arxiv.org/abs/2409.04495v1 )

ライセンス: Link先を確認
Runzhong Wang, Yang Li, Junchi Yan, Xiaokang Yang, (参考訳) 組合せ最適化(英: Combinatorial Optimization、CO)は、計算機科学、応用数学などにおける基本的な問題である。 CO問題の固有の硬さは、COを正確に解くことの難しさを生じさせ、ディープ・ニューラル・ネットワークベースの解法を研究フロンティアにする。 本稿では,CO問題の正の線形制約下での解法として,非自己回帰ニューラルネットワーク群を設計する。 第一に、正線形制約はCOの幅広い問題をカバーしており、我々のアプローチが既存の非自己回帰的ネットワークの一般性ボトルネックを突破することを示している。 第二に、既存の自己回帰型ニューラルネットワークソルバと比較して、我々の非自己回帰型ネットワークは高い効率と置換不変性を保存するという利点がある。 第三に、オフラインの教師なし学習は高品質なラベルに対する需要を減らし、教師なし学習における最適なラベルの需要をなくした。 第4に、我々のオンライン微分可能探索法は、ニューラルネットワークソルバの一般化可能性を大幅に改善し、未確認の問題に対処する。 本研究では,施設位置,最大被覆率,旅行セールスマン問題を含む代表的CO問題の解決における,この枠組みの有効性を検証する。 我々の非自己回帰型ニューラルソルバは競争力があり、特に効率性と有効性を考慮した場合、SCIPやGurobiのような最先端のニューラルソルバよりも優れている。 コードはhttps://github.com/Thinklab-SJTU/NAR-CO-Solverで入手できる。

Combinatorial optimization (CO) is the fundamental problem at the intersection of computer science, applied mathematics, etc. The inherent hardness in CO problems brings up challenge for solving CO exactly, making deep-neural-network-based solvers a research frontier. In this paper, we design a family of non-autoregressive neural networks to solve CO problems under positive linear constraints with the following merits. First, the positive linear constraint covers a wide range of CO problems, indicating that our approach breaks the generality bottleneck of existing non-autoregressive networks. Second, compared to existing autoregressive neural network solvers, our non-autoregressive networks have the advantages of higher efficiency and preserving permutation invariance. Third, our offline unsupervised learning has lower demand on high-quality labels, getting rid of the demand of optimal labels in supervised learning. Fourth, our online differentiable search method significantly improves the generalizability of our neural network solver to unseen problems. We validate the effectiveness of this framework in solving representative CO problems including facility location, max-set covering, and traveling salesman problem. Our non-autoregressive neural solvers are competitive to and can be even superior to state-of-the-art solvers such as SCIP and Gurobi, especially when both efficiency and efficacy are considered. Code is available at https://github.com/Thinklab-SJTU/NAR-CO-Solver
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 自然実験のためのベンチマーク推定器:新しいデータセットと2倍ロバストアルゴリズム

Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm ( http://arxiv.org/abs/2409.04500v1 )

ライセンス: Link先を確認
R. Teal Witter, Christopher Musco, (参考訳) 治療が事前に割り当てられた自然実験から治療の効果を推定することは、重要かつよく研究された問題である。 幼少期のリテラシー非営利団体から得られた,新たな自然実験データセットについて紹介する。 驚くべきことに、データセットに20以上の確立された推定値を適用すると、非営利団体の有効性を評価するのに矛盾する結果が得られます。 これを解決するために、我々は、ドメインの専門家が設計した合成結果を用いて推定器の精度を評価するベンチマークを作成する。 このベンチマークは、サンプルサイズ、治療相関、確率スコアの正確さなど、実世界の条件でのパフォーマンスを広範囲に調査している。 本ベンチマークから, 単純かつ直感的な回帰調整に基づく2重頑健な処理効果推定器のクラスは, 一般に, より複雑な推定器を桁違いに上回っていることが明らかとなった。 二重頑健な推定器の理論的理解をより良く支援するために、データセット分割を用いて不偏推定値を得るような推定器の分散に対する閉形式式を導出する。 この式は、回帰調整に適合する関数に新しい損失関数を用いる2倍頑健な新しい推定器の設計を動機付けている。 我々は、データセットとベンチマークをPythonパッケージでリリースしました。

Estimating the effect of treatments from natural experiments, where treatments are pre-assigned, is an important and well-studied problem. We introduce a novel natural experiment dataset obtained from an early childhood literacy nonprofit. Surprisingly, applying over 20 established estimators to the dataset produces inconsistent results in evaluating the nonprofit's efficacy. To address this, we create a benchmark to evaluate estimator accuracy using synthetic outcomes, whose design was guided by domain experts. The benchmark extensively explores performance as real world conditions like sample size, treatment correlation, and propensity score accuracy vary. Based on our benchmark, we observe that the class of doubly robust treatment effect estimators, which are based on simple and intuitive regression adjustment, generally outperform other more complicated estimators by orders of magnitude. To better support our theoretical understanding of doubly robust estimators, we derive a closed form expression for the variance of any such estimator that uses dataset splitting to obtain an unbiased estimate. This expression motivates the design of a new doubly robust estimator that uses a novel loss function when fitting functions for regression adjustment. We release the dataset and benchmark in a Python package; the package is built in a modular way to facilitate new datasets and estimators.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# ファジィングのためのニューラルプログラム平滑化の再検討

Comment on Revisiting Neural Program Smoothing for Fuzzing ( http://arxiv.org/abs/2409.04504v1 )

ライセンス: Link先を確認
Dongdong She, Kexin Pei, Junfeng Yang, Baishakhi Ray, Suman Jana, (参考訳) ACM FSE 2023で受け入れられたMLFuzzは、機械学習ベースのファザーであるNEUZZのパフォーマンスを再考する。 実装におけるいくつかの致命的なバグと、永続モードの初期化バグ、プログラムクラッシュ、トレーニングデータセットコレクションのエラー、ファジリング結果コレクションの誤りなど、その主な結論が完全に間違っていることを実証する。 さらにMLFuzzは、十分なデータクリーニングと前処理を行わず、ノイズの多いトレーニングデータセットを使用しており、NEUZの大幅なパフォーマンス低下に貢献している。 我々はこれらの問題に対処し、実装と評価の正しさを検証し、NEUZZがFuzzBenchデータセット上のAFLに対して一貫して良好に動作することを示す。 最後に,MLFuzzにおける評価手法を考察し,公正かつ科学的ファズリング評価の実践的アドバイスを行う。

MLFuzz, a work accepted at ACM FSE 2023, revisits the performance of a machine learning-based fuzzer, NEUZZ. We demonstrate that its main conclusion is entirely wrong due to several fatal bugs in the implementation and wrong evaluation setups, including an initialization bug in persistent mode, a program crash, an error in training dataset collection, and a mistake in fuzzing result collection. Additionally, MLFuzz uses noisy training datasets without sufficient data cleaning and preprocessing, which contributes to a drastic performance drop in NEUZZ. We address these issues and provide a corrected implementation and evaluation setup, showing that NEUZZ consistently performs well over AFL on the FuzzBench dataset. Finally, we reflect on the evaluation methods used in MLFuzz and offer practical advice on fair and scientific fuzzing evaluations.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 超強結合系におけるキャビティによる超熱的フォノン相関

Cavity-mediated superthermal phonon correlations in the ultrastrong coupling regime ( http://arxiv.org/abs/2409.04505v1 )

ライセンス: Link先を確認
Dasom Kim, Jin Hou, Geon Lee, Ayush Agrawal, Sunghwan Kim, Hao Zhang, Di Bao, Andrey Baydin, Wenjing Wu, Fuyang Tay, Shengxi Huang, Elbert E. M. Chia, Dai-Sik Kim, Minah Seo, Aditya D. Mohite, David Hagenmüller, Junichiro Kono, (参考訳) フォノン(英: Phonons)または振動量子は、超伝導、ラマン過程、破壊対称性相を含む固体の最も基本的な物理現象の背後にある。 したがって、これらの現象を制御し、新しい量子技術を開発するためにフォノンを利用する方法を見つけることは根本的な重要性である。 しかしながら、現在のフォノン制御技術の大半は、強烈な外部駆動場や強い無調和性の使用に依存しており、その適用範囲を制限している。 本稿では,マルチモード超弦光-物質結合に基づく室温でのフォノン放出の強度変動を制御する手法を提案する。 ハロゲン化鉛ペロブスカイト中の2つの光フォノンモードを単一モードキャビティとして動作するナノスロットの配列に結合することにより、多モード超強結合機構を実現する。 ナノスロットの非常に小さなモード体積は、キャビティフォノン-ポラリトン系において前例のない結合強度を実現する。 その結果,ナノスロット共振器はフォノンモード間の有効結合を媒介し,同じモード内と異なるモード間の熱平衡で超熱的フォノン束を形成することがわかった。 実験結果は多モードホップフィールドモデルとよく一致している。 我々の研究は、ペロブスカイト材料の電荷とエネルギー輸送を調整するためのフォノンの調整の道を開いた。

Phonons, or vibrational quanta, are behind some of the most fundamental physical phenomena in solids, including superconductivity, Raman processes, and broken-symmetry phases. It is therefore of fundamental importance to find ways to harness phonons for controlling these phenomena and developing novel quantum technologies. However, the majority of current phonon control techniques rely on the use of intense external driving fields or strong anharmonicities, which restricts their range of applications. Here, we present a scheme for controlling the intensity fluctuations in phonon emission at room temperature based on multimode ultrastrong light--matter coupling. The multimode ultrastrong coupling regime is achieved by coupling two optical phonon modes in lead halide perovskites to an array of nanoslots, which operates as a single-mode cavity. The extremely small mode volume of the nanoslots enables unprecedented coupling strengths in a cavity phonon-polariton system. In the far-detuned, low-cavity-frequency regime, we demonstrate that the nanoslot resonator mediates an effective coupling between the phonon modes, resulting in superthermal phonon bunching in thermal equilibrium, both within the same mode and between different modes. Experimental results are in good agreement with a multimode Hopfield model. Our work paves the way for the tailoring of phonons to modify charge and energy transport in perovskite materials, with potential applications in light-collecting or emitting devices.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 文化遺産における3次元データ長期保存

3D Data Long-Term Preservation in Cultural Heritage ( http://arxiv.org/abs/2409.04507v1 )

ライセンス: Link先を確認
Nicola Amico, Achille Felicetti, (参考訳) 本報告では,文化遺産における3Dデジタルデータ保存の課題と戦略について考察する。 技術難読化の問題について議論し、持続可能なストレージソリューションと進行中のデータ管理戦略の必要性を強調した。 主なトピックは、技術的な陳腐化、デジタルコンテンツのライフサイクル、デジタル連続性、データ管理計画(DMP)、FAIR原則、パブリックリポジトリの使用などである。 このレポートは、メタデータのタイプや価値あるメタデータを構築するための戦略を含む、長期的なデジタル保存におけるメタデータの重要性についても取り上げている。 3Dフォーマット保存における標準と相互運用性の進化と、メタデータとメタデータの管理の重要性について検討する。 この文書は、長期にわたって3D文化遺産データを保存するための課題と解決策を包括的に概説している。

The report explores the challenges and strategies for preserving 3D digital data in cultural heritage. It discusses the issue of technological obsolescence, emphasising the need for ustainable storage solutions and ongoing data management strategies. Key topics include understanding technological obsolescence, the lifecycle of digital content, digital continuity, data management plans (DMP), FAIR principles, and the use of public repositories. The report also covers the importance of metadata in long-term digital preservation, including types of metadata and strategies for building valuable metadata. It examines the evolving standards and interoperability in 3D format preservation and the importance of managing metadata and paradata. The document provides a comprehensive overview of the challenges and solutions for preserving 3D cultural heritage data in the long term.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# エントロピー駆動型エンタングルメント鍛造

Entropy-driven entanglement forging ( http://arxiv.org/abs/2409.04510v1 )

ライセンス: Link先を確認
Axel Pérez-Obiol, Sergi Masot-Llima, Antonio M. Romero, Javier Menéndez, Arnau Rios, Artur García-Sáez, Bruno Juliá-Díaz, (参考訳) 物理システムを変動量子アルゴリズムでシミュレーションすることは、よく研究されているアプローチであるが、量子ビット数と回路深さの要求により、現在のデバイスで実装することは困難である。 提案手法は,システム,すなわちサブシステムのエントロピーや絡み合い構造といった限られた知識が,絡み合い鍛造によるアルゴリズムのコスト削減にどの程度役立つかを示す。 そのため、核シェルモデルで原子核${}^{28}$Neおよび${}^{60}$Tiと同様に、パラメトリズドホッピング項を持つフェルミ・ハッバード一次元鎖をシミュレートする。 適応型変分量子固有解法を用いて、量子回路に必要な量子ビットの最大数(最大4分の1)と2量子ビットゲートの量(桁数以上)の両方において、大幅な減少が認められる。 提案手法は, エントロピー駆動型エンタングルメント鍛造法を用いて, 現在の雑音型中間スケール量子デバイスの限界に量子シミュレーションを適応できることを示す。

Simulating a physical system with variational quantum algorithms is a well-studied approach but challenging to implement in current devices due to demands in qubit number and circuit depth. We show how limited knowledge of the system, namely the entropy of its subsystems or its entanglement structure, can be used to reduce the cost of these algorithms with entanglement forging. To do so, we simulate a Fermi-Hubbard one-dimensional chain with a parametrized hopping term, as well as atomic nuclei ${}^{28}$Ne and ${}^{60}$Ti with the nuclear shell model. Using an adaptive variational quantum eigensolver we find significant reductions in both the maximum number of qubits (up to one fourth) and the amount of two-qubit gates (over an order of magnitude) required in the quantum circuits. Our findings indicate that our method, entropy-driven entanglement forging, can be used to adjust quantum simulations to the limitations of current noisy intermediate-scale quantum devices.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# オープンソースソフトウェアにおけるオープンネスとトランスエクスペリエンスのパラドックス

Paradoxes of Openness and Trans Experiences in Open Source Software ( http://arxiv.org/abs/2409.04511v1 )

ライセンス: Link先を確認
Hana Frluckaj, James Howison, Laura Dabbish, Nikki Stevens, (参考訳) 近年,オープンソースソフトウェア(OSS)におけるコントリビュータの多様性の欠如に対する懸念が高まっている。 OSSはデジタルインフラストラクチャの重要な形態であり、多くの開発者にとってキャリアパスの一部です。 OSSにおけるシスジェンダー女性の下層表現に関する文献は増え続けているが、他の疎外化グループからの貢献者の経験は比較的文献から欠落している。 OSSでは歴史的に影響力のある団体であるトランスコントリビュータがそうである。 本研究では,21人のトランス参加者を対象に,OSS文学における経験を理解,表現するためにインタビューを行った。 彼らの経験から、OSSにおけるオープンネスの2つの関連するパラドックス、すなわちオープンネスとディスプレイのパラドックスとオープンネスとガバナンスのパラドックスを理論化した。 トランスジェンダーにとってますます暴力的な世界では、コントリビュータのためのより包括的で安全なOSSプロジェクトのためのレコメンデーションを構築することを、私たちは理論化しています。

In recent years, concerns have increased over the lack of contributor diversity in open source software (OSS), despite its status as a paragon of open collaboration. OSS is an important form of digital infrastructure and part of a career path for many developers. While there exists a growing body of literature on cisgender women's under-representation in OSS, the experiences of contributors from other marginalized groups are comparatively absent from the literature. Such is the case for trans contributors, a historically influential group in OSS. In this study, we interviewed 21 trans participants to understand and represent their experiences in the OSS literature. From their experiences, we theorize two related paradoxes of openness in OSS: the paradox of openness and display and the paradox of openness and governance. In an increasingly violent world for trans people, we draw on our theorizing to build recommendations for more inclusive and safer OSS projects for contributors.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 翻訳プロンプト(CoTR: Chain-of-Translation Prompting):低リソース言語のための新しいプロンプト手法

Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages ( http://arxiv.org/abs/2409.04512v1 )

ライセンス: Link先を確認
Tejas Deshpande, Nidhi Kowtal, Raviraj Joshi, (参考訳) 本稿では,低リソース言語における言語モデルの性能向上を目的とした新しい手法であるChain of Translation Prompting(CoTR)を紹介する。 CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。 生成、分類、その他のNLP関数のような指定されたタスクは、変換されたテキスト上で実行され、必要に応じて出力を元の言語に変換するオプションがある。 これらのステップはすべて、1つのプロンプトで指定されます。 本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。 感情分析、ヘイトスピーチ分類、主題分類、テキスト生成など、様々なタスクにCoTR戦略を適用し、通常のプロンプト手法と比較することにより、その効果を示す。 この結果から,低リソース言語における多言語LLM性能を大幅に向上させる翻訳支援戦略の可能性を明らかにし,今後の研究や応用に有用な知見を提供する。 ヘイトスピーチ検出タスクでは,特に高い精度向上が期待できる。 この技術は、LLMを用いた表現不足言語における合成データ生成の品質を向上させる可能性も持っている。

This paper introduces Chain of Translation Prompting (CoTR), a novel strategy designed to enhance the performance of language models in low-resource languages. CoTR restructures prompts to first translate the input context from a low-resource language into a higher-resource language, such as English. The specified task like generation, classification, or any other NLP function is then performed on the translated text, with the option to translate the output back to the original language if needed. All these steps are specified in a single prompt. We demonstrate the effectiveness of this method through a case study on the low-resource Indic language Marathi. The CoTR strategy is applied to various tasks, including sentiment analysis, hate speech classification, subject classification and text generation, and its efficacy is showcased by comparing it with regular prompting methods. Our results underscore the potential of translation-based prompting strategies to significantly improve multilingual LLM performance in low-resource languages, offering valuable insights for future research and applications. We specifically see the highest accuracy improvements with the hate speech detection task. The technique also has the potential to enhance the quality of synthetic data generation for underrepresented languages using LLMs.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# トポロジカル・クビットのキャビティ制御:核融合規則、アニオン・ブレイディングおよびマヨアナ・シュレーディンガー猫状態

Cavity Control of Topological Qubits: Fusion Rule, Anyon Braiding and Majorana-Schrödinger Cat States ( http://arxiv.org/abs/2409.04515v1 )

ライセンス: Link先を確認
Luis Quiroga, Fernando J. Gómez-Ruiz, Ivan A. Bocanegra-Garay, Ferney J. Rodríguez, Carlos Tejedor, (参考訳) トポロジカルチェインの中心に局所空洞を導入することの影響について検討し、系の量子状態に大きな影響を及ぼすことを示した。 特に、空洞は鎖を二分するハサミのような効果を誘発し、マヨラナゼロモード(MZM)をバルク内で解放する。 この設定により、空洞光子場の空間選択的超強結合により、非アベリア・エノンのキーシグネチャである非自明な核融合規則やブレイディングの観測が可能であることが実証された。 これらのMZM特性は、それぞれフェルミオンパリティの読み出しと光子ベリー相を通して直接探査することができる。 さらに, 2-サイトキャビティ内でのフェルミオンモードの対称性を利用して, MZM-ポラリトンSchr\odinger cat状態を生成する新しい手法を提案する。 我々の研究は、トポロジカル量子システムの制御において大きな進歩を示し、基礎研究と潜在的な量子コンピューティングアプリケーションの両方に新たな道のりを提供する。

We investigate the impact of introducing a local cavity within the center of a topological chain, revealing profound effects on the system's quantum states. Notably, the cavity induces a scissor-like effect that bisects the chain, liberating Majorana zero modes (MZMs) within the bulk. Our results demonstrate that this setup enables the observation of non-trivial fusion rules and braiding -- key signatures of non-Abelian anyons -- facilitated by the spatially selective ultra-strong coupling of the cavity photon field. These MZM characteristics can be directly probed through fermionic parity readouts and photon Berry phases, respectively. Furthermore, by leveraging the symmetry properties of fermion modes within a two-site cavity, we propose a novel method for generating MZM-polariton Schr\"odinger cat states. Our findings present a significant advancement in the control of topological quantum systems, offering new avenues for both fundamental research and potential quantum computing applications.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# 量子オートエンコーダの異常検出におけるデータ埋め込みの役割

The role of data embedding in quantum autoencoders for improved anomaly detection ( http://arxiv.org/abs/2409.04519v1 )

ライセンス: Link先を確認
Jack Y. Araz, Michael Spannowsky, (参考訳) 異常検出タスクにおける量子オートエンコーダ(QAE)の性能は、データ埋め込みとアンザッツ設計の選択に大きく依存する。 本研究では,3つのデータ埋め込み技術,データ再ロード,並列埋め込み,代替埋め込みが異常検出におけるQAEの表現性および有効性に与える影響について検討した。 その結果, 比較的単純な変動回路であっても, 拡張されたデータ埋め込み戦略は, 異常検出精度と, 基礎となるデータの異なるデータセット間での表現性を大幅に向上させることができることがわかった。 低次元データを含む玩具の例から始め、異なる埋め込み技術がモデルの表現可能性に与える影響を視覚的に示す。 そして、分析結果を複雑な高次元データセットに拡張し、埋め込み手法がQAEの性能に与える影響を強調します。

The performance of Quantum Autoencoders (QAEs) in anomaly detection tasks is critically dependent on the choice of data embedding and ansatz design. This study explores the effects of three data embedding techniques, data re-uploading, parallel embedding, and alternate embedding, on the representability and effectiveness of QAEs in detecting anomalies. Our findings reveal that even with relatively simple variational circuits, enhanced data embedding strategies can substantially improve anomaly detection accuracy and the representability of underlying data across different datasets. Starting with toy examples featuring low-dimensional data, we visually demonstrate the effect of different embedding techniques on the representability of the model. We then extend our analysis to complex, higher-dimensional datasets, highlighting the significant impact of embedding methods on QAE performance.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# ボールウェア状態におけるスカラー場に対する再正規化応力エネルギーテンソルと極端ブラックホールへの応用

The renormalized stress-energy tensor for scalar fields in the Boulware state with applications to extremal black holes ( http://arxiv.org/abs/2409.04528v1 )

ライセンス: Link先を確認
Julio Arrechea, Cormac Breen, Adrian Ottewill, Lorenzo Pisani, Peter Taylor, (参考訳) ブールウェア真空中のスカラー場に対する再正規化応力エネルギーテンソル(RSET)を直接計算するためのモデム処方を提供する。 この方法は、ハートル・ホーキング状態にのみ適用可能な最近開発された拡張座標法を一般化する。 準極端および極端のReissner-Nordstr\'om時空におけるRSETを計算し,その精度と効率を示す。 RSETの極端地平線における正則性に関する数値的な証拠は,磁場の質量とその結合によらず見いだされる。 我々は、RSETの数値結果を用いて半古典的アインシュタイン方程式を導出し、RSETを静的摂動と見なす場合、ブラックホールを非過渡化するか、あるいは地平線のない物体に変換するかを示す。

We provide a mode-sum prescription to directly compute the renormalized stress-energy tensor (RSET) for scalar fields in the Boulware vacuum. The method generalizes the recently developed extended coordinate method which was previously only applicable to Hartle-Hawking states. We exhibit the accuracy and efficiency of the method by calculating the RSET in sub-extremal and extremal Reissner-Nordstr\"om spacetimes. We find numerical evidence for the regularity of the RSET at the extremal horizon regardless of the field mass and its coupling. We employ our numerical results of the RSET to source the semi-classical Einstein equations, demonstrating that if the RSET is considered as a static perturbation, it will either de-extremalize the black hole, or convert it into a horizonless object.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# ガウス過程を用いた演算子学習

Operator Learning with Gaussian Processes ( http://arxiv.org/abs/2409.04538v1 )

ライセンス: Link先を確認
Carlos Mora, Amin Yousefpour, Shirin Hosseinmardi, Houman Owhadi, Ramin Bostanabad, (参考訳) 演算子学習は近似写像 $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\mathcal{V}$ と $u: \Omega_u\rightarrow\mathbb{R}$ と $v: \Omega_v\rightarrow\mathbb{R}$ のような関数の無限次元空間の間の写像にフォーカスする。 これはパラメトリック非線形偏微分方程式(PDE)を解くのに特に適している。 演算子学習のためのほとんどの機械学習手法は、ディープニューラルネットワーク(NN)の変種に依存しているが、近年の研究により、ガウス過程(GP)もまた、解釈可能性と理論的保証を提供しながら競争力があることが示されている。 本稿では,両手法の強みを生かした演算子学習のためのGP/NNベースのハイブリッドフレームワークを提案する。 関数値作用素 $\mathcal{G}^\dagger$ を近似する代わりに、GP を用いて関連する実値双線型形式 $\widetilde{\mathcal{G}}^\dagger: \mathcal{U}\times\mathcal{V}^*\rightarrow\mathbb{R} を近似する。 この双線型形式は $\widetilde{\mathcal{G}}^\dagger(u,\varphi) := [\varphi,\mathcal{G}^\dagger(u)],$で定義され、演算子 $\mathcal{G}^\dagger$ through $\mathcal{G}^\dagger(u)(y)=\widetilde{\mathcal{G}}^\dagger(u,\delta_y) を復元することができる。 GP平均関数は、神経演算子によってゼロあるいはパラメータ化することができ、各設定に対して、任意の物理を利用可能な最大推定(MLE)に基づいた堅牢なトレーニングメカニズムを開発する。 数値ベンチマークにより,(1)GPの平均関数として用いることにより,ベースニューラル演算子の性能が向上し,(2)事前トレーニングなしで正確に予測できるゼロショットデータ駆動モデルが実現された。 我々のフレームワークは、$\mathcal{G}^\dagger:\mathcal{U} \rightarrow\prod_{s=1}^S\mathcal{V}^s$といったマルチ出力演算子も扱う。

Operator learning focuses on approximating mappings $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\mathcal{V}$ between infinite-dimensional spaces of functions, such as $u: \Omega_u\rightarrow\mathbb{R}$ and $v: \Omega_v\rightarrow\mathbb{R}$. This makes it particularly suitable for solving parametric nonlinear partial differential equations (PDEs). While most machine learning methods for operator learning rely on variants of deep neural networks (NNs), recent studies have shown that Gaussian Processes (GPs) are also competitive while offering interpretability and theoretical guarantees. In this paper, we introduce a hybrid GP/NN-based framework for operator learning that leverages the strengths of both methods. Instead of approximating the function-valued operator $\mathcal{G}^\dagger$, we use a GP to approximate its associated real-valued bilinear form $\widetilde{\mathcal{G}}^\dagger: \mathcal{U}\times\mathcal{V}^*\rightarrow\mathbb{R}.$ This bilinear form is defined by $\widetilde{\mathcal{G}}^\dagger(u,\varphi) := [\varphi,\mathcal{G}^\dagger(u)],$ which allows us to recover the operator $\mathcal{G}^\dagger$ through $\mathcal{G}^\dagger(u)(y)=\widetilde{\mathcal{G}}^\dagger(u,\delta_y).$ The GP mean function can be zero or parameterized by a neural operator and for each setting we develop a robust training mechanism based on maximum likelihood estimation (MLE) that can optionally leverage the physics involved. Numerical benchmarks show that (1) it improves the performance of a base neural operator by using it as the mean function of a GP, and (2) it enables zero-shot data-driven models for accurate predictions without prior training. Our framework also handles multi-output operators where $\mathcal{G}^\dagger:\mathcal{U} \rightarrow\prod_{s=1}^S\mathcal{V}^s$, and benefits from computational speed-ups via product kernel structures and Kronecker product matrix representations.
翻訳日:2024-09-10 22:31:08 公開日:2024-09-06
# Slim-TSFを用いたハイブリッド組込み特徴選択と分類手法

Towards Hybrid Embedded Feature Selection and Classification Approach with Slim-TSF ( http://arxiv.org/abs/2409.04542v1 )

ライセンス: Link先を確認
Anli Ji, Chetraj Pandey, Berkay Aydin, (参考訳) 従来の太陽フレア予測手法は、主に太陽磁気グラムを用いた物理モデルやデータ駆動モデルに依存しており、フレア予測をポイント・イン・タイムの分類問題として扱う。 このアプローチには制限があり、特に太陽活動の進化する性質を捉えている。 本研究は,従来のフレア予測手法の限界を認識し,太陽フレアとその起源領域の隠れた関係と進化的特性を明らかにすることを目的とする。 これまで提案したスライディングウィンドウ多変量時系列フォレスト(Slim-TSF)は,多変量時系列データに適用可能な利用可能性を示した。 この研究の重要な側面は、Slim-TSFフレームワークのオリジナルのモデル結果に対する比較分析である。 また,True Skill Statistic (TSS) とHeidke Skill Score (HSS) のいずれにおいても平均56%の増加が認められた。 この拡張は、改良された手法の有効性を裏付けるだけでなく、我々の系統評価と特徴選択アプローチが太陽フレア予測モデルの予測精度を大幅に向上させることができることを示唆している。

Traditional solar flare forecasting approaches have mostly relied on physics-based or data-driven models using solar magnetograms, treating flare predictions as a point-in-time classification problem. This approach has limitations, particularly in capturing the evolving nature of solar activity. Recognizing the limitations of traditional flare forecasting approaches, our research aims to uncover hidden relationships and the evolutionary characteristics of solar flares and their source regions. Our previously proposed Sliding Window Multivariate Time Series Forest (Slim-TSF) has shown the feasibility of usage applied on multivariate time series data. A significant aspect of this study is the comparative analysis of our updated Slim-TSF framework against the original model outcomes. Preliminary findings indicate a notable improvement, with an average increase of 5\% in both the True Skill Statistic (TSS) and Heidke Skill Score (HSS). This enhancement not only underscores the effectiveness of our refined methodology but also suggests that our systematic evaluation and feature selection approach can significantly advance the predictive accuracy of solar flare forecasting models.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 量子可観測体の一般化幾何速度限界

Generalized geometric speed limits for quantum observables ( http://arxiv.org/abs/2409.04544v1 )

ライセンス: Link先を確認
Jacob Bringewatt, Zach Steffen, Martin A. Ritter, Adam Ehrenberg, Haozhi Wang, B. S. Palmer, Alicia J. Kollár, Alexey V. Gorshkov, Luis Pedro García-Pintos, (参考訳) 量子情報幾何を利用すると、観測可能量の期待値の変化率に関する一般化された量子速度制限を導出する。 これらの境界は部分集合であり、ヒルベルト空間次元 $\geq 3$ に対して、既存の境界を(ある場合において)任意に大きい乗法定数で締め付ける。 一般化された境界は、量子アニール、最適制御、変分量子アルゴリズム、量子センシングといった潜在的な応用で観測可能な観測値の期待値の高速な駆動を可能にする「高速」ハミルトニアンを設計するために用いられる。 我々の理論的結果は、実証的な例と超伝導クエットを用いた実験的な実証によって裏付けられている。 おそらく、我々の境界の1つへの道に沿って、関連するハミルトニアンの分散と密度行列の条件数の観点からのユニタリダイナミクスの時間(標準対称対数微分量子フィッシャー情報を含む)に関する一般化された量子フィッシャー情報上の新しい上限を導出する。

Leveraging quantum information geometry, we derive generalized quantum speed limits on the rate of change of the expectation values of observables. These bounds subsume and, for Hilbert space dimension $\geq 3$, tighten existing bounds -- in some cases by an arbitrarily large multiplicative constant. The generalized bounds can be used to design "fast" Hamiltonians that enable the rapid driving of the expectation values of observables with potential applications e.g.~to quantum annealing, optimal control, variational quantum algorithms, and quantum sensing. Our theoretical results are supported by illustrative examples and an experimental demonstration using a superconducting qutrit. Possibly of independent interest, along the way to one of our bounds we derive a novel upper bound on the generalized quantum Fisher information with respect to time (including the standard symmetric logarithmic derivative quantum Fisher information) for unitary dynamics in terms of the variance of the associated Hamiltonian and the condition number of the density matrix.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 量子コンピュータにおける自由フェルミオン問題の解法

Solving Free Fermion Problems on a Quantum Computer ( http://arxiv.org/abs/2409.04550v1 )

ライセンス: Link先を確認
Maarten Stroeks, Daan Lenterman, Barbara Terhal, Yaroslav Herasymenko, (参考訳) N = 2^n モード上の自由フェルミオンの時間力学と熱状態のシミュレーションは、ポリ(2^n) 計算古典的な資源を必要とすることが知られている。 指数関数的に改善されたポリ(n)コストで量子アルゴリズムによって解くことができるような自由フェルミオン問題をいくつか提示する。 鍵となるテクニックは、相関行列をユニタリにブロックエンコーディングすることである。 強結合ハミルトニアンの力学と熱状態の文脈において、そのようなユニタリを量子回路として効率的に実現できることを実証する。 自由フェルミオン時間力学の問題はBQP完全であることを証明する。

The simulation of time-dynamics and thermal states of free fermions on N = 2^n modes are known to require poly(2^n) computational classical resources. We present several such free fermion problems that can be solved by a quantum algorithm with exponentially-improved, poly(n) cost. The key technique is the block-encoding of the correlation matrix into a unitary. We demonstrate how such a unitary can be efficiently realized as a quantum circuit, in the context of dynamics and thermal states of tight-binding Hamiltonians. We prove that the problem of free fermion time-dynamics is BQP-complete, thus ensuring a general exponential speedup of our approach.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# A^{2}$項が存在するラビモデルにおける量子エンタングルメント

Quantum Entanglement in the Rabi Model with the Presence of the $A^{2}$ Term ( http://arxiv.org/abs/2409.04555v1 )

ライセンス: Link先を確認
Zakaria Boutakka, Zoubida Sakhi, Mohamed Bennai, (参考訳) 量子ラビモデル(QRM)は、Cavity Quantum Electrodynamics (Cavity QED)における量子レベルでの光-物質相互作用を記述するために用いられる。 これは、単一モードの量子場に結合された2段階のシステム(原子または量子ビット)で構成され、空洞に原子を導入することで、内部の電磁モードの構成を変化させる。 Cavity QEDの領域では、この変化の顕著な結果として、ゲージ依存の反磁性項が出現し、これは$A^{2}$コントリビューションと呼ばれる。 本研究では,QRMの挙動と光物質量子ハミルトニアンにおける$A^{2}$項の影響を,強結合系におけるエネルギースペクトル特性を調べることによって比較検討する。 次に、Fock空間における光子数分布の異なるウィグナー分布関数を用いて、その非古典的性質を計測し、システムの基底状態について検討する。 最後に、フォン・ノイマンエントロピー上の基底状態における量子絡み合いを計算する。 A^{2}$項とキャビティフォックの数は、量子絡み合いの量に大きな影響を与え、それらの重要な役割を浮き彫りにする。

The quantum Rabi model (QRM) is used to describe the light-matter interaction at the quantum level in Cavity Quantum Electrodynamics (Cavity QED). It consists of a two-level system (atom or qubit) coupled to a single-mode quantum field, and by introducing an atom into a cavity alters the electromagnetic mode configuration within it. In the realm of Cavity QED, a notable consequence of this alteration is the emergence of a gauge-dependent diamagnetic term referred to as the $A^{2}$ contribution. In this study, we comparatively analyze the behaviors of the QRM and the influence of the $A^{2}$ term in the light-matter quantum Hamiltonian by examining the energy spectrum properties in the strong-coupling regime. We then investigate the ground state of the system, measuring its nonclassical properties via the Wigner distribution function for different photon number distribution in Fock space. Finally, we calculate the quantum entanglement in the ground state over the Von Neumann entropy. Our findings reveal that the $A^{2}$ term and the number of cavity Fock states $N$ significantly impact the amount of the quantum entanglement, highlighting their pivotal role.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 言語モデルタスクのパフォーマンスにどのような影響があるのか?

How Does Code Pretraining Affect Language Model Task Performance? ( http://arxiv.org/abs/2409.04556v1 )

ライセンス: Link先を確認
Jackson Petty, Sjoerd van Steenkiste, Tal Linzen, (参考訳) 大規模な言語モデルは、ソースコードのような自然言語と非言語データの両方を含むコーパスで、ますます訓練されている。 プログラミング関連のタスクを支援すること以外は、事前学習コーパスに含まれるコードを含めると、他の無関係なタスクのパフォーマンスが向上する可能性があるが、言語とコードデータ間の制御によって因果関係を確立できないという逸話的な証拠がある。 ここでは、まさにこれを行う。 我々は、自然言語とコードをインターリーブするデータセット上で、事前学習中に見られるデータの総量を一定に保った添加物と、言語データの体積を一定に保った競合物とを2つの異なる設定で事前訓練する。 プレトレーニング混合物がパフォーマンスに与える影響について検討する。 (a)BigBenchベンチマークに含まれるさまざまなタスクのコレクション。 b) 意味解析と構文変換の一般化精度によって測定された構成性。 高い比率のコードに対する事前学習は、構造化された出力(セマンティックパーシングなど)と数学を含む構成的タスクのパフォーマンスを向上させる。 逆に、コードミックスの増加は、構文や形態学などの言語構造に敏感なタスクや、現実世界の知識を測定するタスクなど、他のタスクのパフォーマンスを損なう可能性がある。

Large language models are increasingly trained on corpora containing both natural language and non-linguistic data like source code. Aside from aiding programming-related tasks, anecdotal evidence suggests that including code in pretraining corpora may improve performance on other, unrelated tasks, yet to date no work has been able to establish a causal connection by controlling between language and code data. Here we do just this. We pretrain language models on datasets which interleave natural language and code in two different settings: additive, in which the total volume of data seen during pretraining is held constant; and competitive, in which the volume of language data is held constant. We study how the pretraining mixture affects performance on (a) a diverse collection of tasks included in the BigBench benchmark, and (b) compositionality, measured by generalization accuracy on semantic parsing and syntactic transformations. We find that pretraining on higher proportions of code improves performance on compositional tasks involving structured output (like semantic parsing), and mathematics. Conversely, increase code mixture can harm performance on other tasks, including on tasks that requires sensitivity to linguistic structure such as syntax or morphology, and tasks measuring real-world knowledge.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# DeepTTV: トランジット時間変動による隠れた太陽系外惑星の深層学習予測

DeepTTV: Deep Learning Prediction of Hidden Exoplanet From Transit Timing Variations ( http://arxiv.org/abs/2409.04557v1 )

ライセンス: Link先を確認
Chen Chen, Lingkai Kong, Gongjie Li, Molei Tao, (参考訳) トランジットタイミング変動(TTV)は、しばしばマルコフ・チェイン・モンテカルロ(MCMC)による逆問題の解法によって得られる太陽系外惑星の質量と軌道の性質に関する豊富な情報を提供する。 本稿では,惑星が1つしか通過しない場合など,従来のMCMC法では難しい問題に適用可能な,新しいデータ駆動型アプローチを設計する。 具体的には,トランジット情報(TTV,トランジット時間変化(TDV))を入力とする単一トランジットシステムにおいて,非トランジットコンパニオンのパラメータを予測するために,ディープラーニングアプローチを用いる。 TTVシーケンシャルデータから長距離インタラクションを抽出できる、新たに構築された \textit{Transformer} ベースのアーキテクチャのおかげで、この従来難しかったタスクは、質量と偏心度に対して$\sim$2\%の差分誤差で、高い精度で達成できるようになった。

Transit timing variation (TTV) provides rich information about the mass and orbital properties of exoplanets, which are often obtained by solving an inverse problem via Markov Chain Monte Carlo (MCMC). In this paper, we design a new data-driven approach, which potentially can be applied to problems that are hard to traditional MCMC methods, such as the case with only one planet transiting. Specifically, we use a deep learning approach to predict the parameters of non-transit companion for the single transit system with transit information (i.e., TTV, and Transit Duration Variation (TDV)) as input. Thanks to a newly constructed \textit{Transformer}-based architecture that can extract long-range interactions from TTV sequential data, this previously difficult task can now be accomplished with high accuracy, with an overall fractional error of $\sim$2\% on mass and eccentricity.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# BBoxの外で考える - 制約のない生成オブジェクトコンポジション

Thinking Outside the BBox: Unconstrained Generative Object Compositing ( http://arxiv.org/abs/2409.04559v1 )

ライセンス: Link先を確認
Gemma Canet Tarrés, Zhe Lin, Zhifei Zhang, Jianming Zhang, Yizhi Song, Dan Ruta, Andrew Gilbert, John Collomosse, Soo Ye Kim, (参考訳) オブジェクトをイメージに組み込むには、オブジェクトの配置やスケーリング、色/光の調和、視点/幾何学の調整、影/反射生成など、複数の非自明なサブタスクが含まれる。 最近の生成画像合成法は拡散モデルを利用して複数のサブタスクを同時に処理する。 しかし、既存のモデルは、トレーニング中に元のオブジェクトをマスクすることに依存するため、その生成を入力マスクに制限する制限に直面している。 さらに、新しい画像における物体の位置とスケールを指定する正確な入力マスクを得るのは非常に困難である。 このような制約を克服するために、我々は、制約のない生成オブジェクト合成という新しい問題、すなわち、生成がマスクによって束縛されていないことを定義し、合成されたペアデータセット上で拡散ベースモデルを訓練する。 私たちの第一種モデルは、マスクの向こう側にある影や反射などの物体効果を発生させ、画像リアリズムを高めます。 さらに,空のマスクが提供されると,オブジェクトを様々な自然の場所やスケールに自動的に配置し,合成ワークフローを高速化する。 我々のモデルは、様々な品質指標やユーザスタディにおいて、既存のオブジェクト配置や合成モデルよりも優れています。

Compositing an object into an image involves multiple non-trivial sub-tasks such as object placement and scaling, color/lighting harmonization, viewpoint/geometry adjustment, and shadow/reflection generation. Recent generative image compositing methods leverage diffusion models to handle multiple sub-tasks at once. However, existing models face limitations due to their reliance on masking the original object during training, which constrains their generation to the input mask. Furthermore, obtaining an accurate input mask specifying the location and scale of the object in a new image can be highly challenging. To overcome such limitations, we define a novel problem of unconstrained generative object compositing, i.e., the generation is not bounded by the mask, and train a diffusion-based model on a synthesized paired dataset. Our first-of-its-kind model is able to generate object effects such as shadows and reflections that go beyond the mask, enhancing image realism. Additionally, if an empty mask is provided, our model automatically places the object in diverse natural locations and scales, accelerating the compositing workflow. Our model outperforms existing object placement and compositing models in various quality metrics and user studies.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# ハンドオブジェクトグラフ生成のための多モード拡散

Multi-Modal Diffusion for Hand-Object Grasp Generation ( http://arxiv.org/abs/2409.04560v1 )

ライセンス: Link先を確認
Jinkun Cao, Jingyuan Liu, Kris Kitani, Yi Zhou, (参考訳) 本研究では,物体の握手に焦点をあてる。 対象物を用いてポーズを生成する従来の手法と比較して,手と物体の形状を1つのモデルで一般化することを目指している。 提案手法は,多モードグラフ拡散法(MGD)を用いて,不均一なデータソースから両モードの事前および条件付き後部分布を学習する。 そのため、大規模な3Dオブジェクトデータセットを活用することにより、手動物体把握データセットの制限を緩和する。 定性的・定量的な両実験により,手つかみの条件的・非条件的生成は良好な視覚的妥当性と多様性が得られる。 提案手法は、見えない物体の形状をよく一般化する。 コードとウェイトは \url{https://github.com/noahcao/mgd} で入手できる。

In this work, we focus on generating hand grasp over objects. Compared to previous works of generating hand poses with a given object, we aim to allow the generalization of both hand and object shapes by a single model. Our proposed method Multi-modal Grasp Diffusion (MGD) learns the prior and conditional posterior distribution of both modalities from heterogeneous data sources. Therefore it relieves the limitation of hand-object grasp datasets by leveraging the large-scale 3D object datasets. According to both qualitative and quantitative experiments, both conditional and unconditional generation of hand grasp achieve good visual plausibility and diversity. The proposed method also generalizes well to unseen object shapes. The code and weights will be available at \url{https://github.com/noahcao/mgd}.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# デュアルレベルクロスモーダルコントラストクラスタリング

Dual-Level Cross-Modal Contrastive Clustering ( http://arxiv.org/abs/2409.04561v1 )

ライセンス: Link先を確認
Haixin Zhang, Yongjun Li, Dong Huang, (参考訳) ラベルなしで異なるクラスタにイメージをグループ化するイメージクラスタリングは、教師なし学習において重要なタスクである。 過去のディープクラスタリング手法は目覚ましい結果を得たが、画像自体の本質的な情報のみを探索するだけでなく、画像の意味的理解を改善するために外部の監督知識を見落としている。 近年,大規模データセットを用いた視覚言語事前学習モデルが下流の様々なタスクで使われ,大きな成果を上げている。 しかし、視覚表現学習とテキスト意味学習の間にはギャップがあり、クラスタリングに2つの異なるモダリティの表現を適切に活用する方法は依然として大きな課題である。 そこで本研究では,DXMC (Dual-level Cross-Modal Contrastive Clustering) という画像クラスタリングフラムワークを提案する。 まず、画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報を導入する。 次に、予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。 第3に、異なるモダリティと異なるレベルの識別的表現の間で、二重レベルのクロスモーダルコントラスト学習を行う。 5つのベンチマークデータセットの大規模な実験結果から,提案手法の優位性を示した。

Image clustering, which involves grouping images into different clusters without labels, is a key task in unsupervised learning. Although previous deep clustering methods have achieved remarkable results, they only explore the intrinsic information of the image itself but overlook external supervision knowledge to improve the semantic understanding of images. Recently, visual-language pre-trained model on large-scale datasets have been used in various downstream tasks and have achieved great results. However, there is a gap between visual representation learning and textual semantic learning, and how to properly utilize the representation of two different modalities for clustering is still a big challenge. To tackle the challenges, we propose a novel image clustering framwork, named Dual-level Cross-Modal Contrastive Clustering (DXMC). Firstly, external textual information is introduced for constructing a semantic space which is adopted to generate image-text pairs. Secondly, the image-text pairs are respectively sent to pre-trained image and text encoder to obtain image and text embeddings which subsquently are fed into four well-designed networks. Thirdly, dual-level cross-modal contrastive learning is conducted between discriminative representations of different modalities and distinct level. Extensive experimental results on five benchmark datasets demonstrate the superiority of our proposed method.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 未登録マルチモーダルMRIからの膵分画に対する早期-後期核融合の影響

Influence of Early through Late Fusion on Pancreas Segmentation from Imperfectly Registered Multimodal MRI ( http://arxiv.org/abs/2409.04563v1 )

ライセンス: Link先を確認
Lucas W. Remedios, Han Liu, Samuel W. Remedios, Lianrui Zuo, Adam M. Saunders, Shunxing Bao, Yuankai Huo, Alvin C. Powers, John Virostko, Bennett A. Landman, (参考訳) マルチモーダル融合は膵セグメンテーションの改善を約束する。 しかし、モデルでの融合をどこで行うかはまだ未解決の問題である。 不完全な整列画像のペアを分析する際に、情報を融合する最善の場所があるかどうかは不明である。 この膵分節研究における2つの主要なアライメント課題 1)膵臓は変形し,変形する 2)呼吸は腹部を変形させる。 画像登録後も、関連する変形は修正されないことが多い。 早期から後期の融合が膵セグメンテーションに与える影響について検討した。 膵癌に合併した163例のT2強調画像(T2w)とT1強調画像(T1w)を353対使用した。 画像のペアを調整するために、画像登録 (deeds) を使いました。 我々は,融合点の異なる基本単位の集合を早期から後期に分けて訓練し,不完全整列画像上での分割性能が早期から後期の融合性能に与える影響を評価する。 我々は nnUNet 上での核融合点の一般化を評価した。 基本的なUNetモデルを用いた単一モードのT2wベースラインはDiceスコアが0.73であり、nnUNetモデルと同じベースラインは0.80である。 基本UNetでは、エンコーダ(初期/中核融合)の中央で最良の融合アプローチが行われ、ベースラインに比べてDiceスコアが0.0125に統計的に顕著に向上した。 nnUNetにとって最も良い融合アプローチは、モデル(初期核融合)よりも前の「生きた画像結合」であり、その結果、ベースラインに比べて統計的に有意なDiceスコアが0.0021増加した。 特定のブロックの融合は性能を向上させるが、融合のための最良のブロックはモデル固有であり、ゲインは小さい。 不完全な登録データセットでは、融合は微妙な問題であり、潜在的な洞察を明らかにするためには設計技術が不可欠である。 腹腔イメージペアの不完全なアライメントの場合, 核融合に対処するためには, 今後のイノベーションが必要である。

Multimodal fusion promises better pancreas segmentation. However, where to perform fusion in models is still an open question. It is unclear if there is a best location to fuse information when analyzing pairs of imperfectly aligned images. Two main alignment challenges in this pancreas segmentation study are 1) the pancreas is deformable and 2) breathing deforms the abdomen. Even after image registration, relevant deformations are often not corrected. We examine how early through late fusion impacts pancreas segmentation. We used 353 pairs of T2-weighted (T2w) and T1-weighted (T1w) abdominal MR images from 163 subjects with accompanying pancreas labels. We used image registration (deeds) to align the image pairs. We trained a collection of basic UNets with different fusion points, spanning from early to late, to assess how early through late fusion influenced segmentation performance on imperfectly aligned images. We assessed generalization of fusion points on nnUNet. The single-modality T2w baseline using a basic UNet model had a Dice score of 0.73, while the same baseline on the nnUNet model achieved 0.80. For the basic UNet, the best fusion approach occurred in the middle of the encoder (early/mid fusion), which led to a statistically significant improvement of 0.0125 on Dice score compared to the baseline. For the nnUNet, the best fusion approach was na\"ive image concatenation before the model (early fusion), which resulted in a statistically significant Dice score increase of 0.0021 compared to baseline. Fusion in specific blocks can improve performance, but the best blocks for fusion are model specific, and the gains are small. In imperfectly registered datasets, fusion is a nuanced problem, with the art of design remaining vital for uncovering potential insights. Future innovation is needed to better address fusion in cases of imperfect alignment of abdominal image pairs.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# マルチパーティの絡み合い

Multipartite entanglement ( http://arxiv.org/abs/2409.04566v1 )

ライセンス: Link先を確認
Pawel Horodecki, Łukasz Rudnicki, Karol Życzkowski, (参考訳) このコントリビューションでは、多部系における量子絡み合いの簡潔な導入について述べる。 両部類システムと三部類を含む最も単純な非自明な多部類シナリオの簡単な比較を行った後、いくつかのサブシステム間の分離性と絡み合いの数学的に厳密な定義と、それらの変換と測度についてレビューする。

In this contribution we present a concise introduction to quantum entanglement in multipartite systems. After a brief comparison between bipartite systems and the simplest non-trivial multipartite scenario involving three parties, we review mathematically rigorous definitions of separability and entanglement between several subsystems, as well as their transformations and measures.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 混合光子偏光と純光子偏光を混合した非線形準曲面における量子ペア生成

Quantum Pair Generation in Nonlinear Metasurfaces with Mixed and Pure Photon Polarizations ( http://arxiv.org/abs/2409.04569v1 )

ライセンス: Link先を確認
Jiho Noh, Tomás Santiago-Cruz, Vitaliy Sultanov, Chloe F. Doiron, Sylvain D. Gennaro, Maria V. Chekhova, Igal Brener, (参考訳) しかし, 非線形共振形地表面から発生する非古典的な光の偏光を効果的に制御することは困難である。 そこで本研究では, GaAsメタ曲面における自然パラメトリックダウンコンバージョン(SPDC)により放出される周波数非退化二光子の偏光工学を達成し, 連続体(qBIC)共鳴における準バウンド状態を用いてバイフォトン生成を促進させる方法を提案する。 包括的偏光トモグラフィーにより、放射された光子の偏光がqBICモードの遠距離場特性を直接反映することを示した。 さらに、qBICモードのタイプとメタ原子の対称性の両方を、各単光子偏光状態を制御するように調整することができ、その後の2光子偏光状態はほぼ分離可能であることを示し、調整可能な偏光を持つ単光子生成に潜在的な応用を提供する。 この研究は、量子光を生成するだけでなく、将来の量子技術にとって重要な側面である偏光を設計するために、準曲面を利用するための重要なステップを提供する。

Metasurfaces are highly effective at manipulating classical light in the linear regime; however, effectively controlling the polarization of non-classical light generated from nonlinear resonant metasurfaces remains a challenge. Here, we present a solution by achieving polarization engineering of frequency-nondegenerate biphotons emitted via spontaneous parametric down-conversion (SPDC) in GaAs metasurfaces, where quasi-bound states in the continuum (qBIC) resonances were utilized for boosting the biphoton generation. By performing a comprehensive polarization tomography, we demonstrate that the polarization of the emitted photons directly reflects the qBIC mode's far-field properties. Furthermore, we show that both the type of qBIC mode and the symmetry of the meta-atoms can be tailored to control each single-photon polarization state, and that the subsequent two-photon polarization states are nearly separable, offering potential applications in the heralded generation of single photons with adjustable polarization. This work provides a significant step towards utilizing metasurfaces to not only generate quantum light but also engineer their polarization, a critical aspect for future quantum technologies.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# 動的知識グラフのためのニューロシンボリック手法

Neurosymbolic Methods for Dynamic Knowledge Graphs ( http://arxiv.org/abs/2409.04572v1 )

ライセンス: Link先を確認
Mehwish Alam, Genet Asefa Gesese, Pierre-Henri Paris, (参考訳) 知識グラフ(KG)は、最近多くのツールやアプリケーションに使われており、構造化されたフォーマットで豊富なリソースとなっている。 しかし、現実の世界では、KGは実体と関係の形で新しい知識が加わったために成長し、これらのKGは動的になる。 この章は、いくつかの動的KGを正式に定義し、これらのKGをどのように表現できるかを要約する。 さらに、静的KG上の表現を学習するための多くのニューロシンボリック手法が提案されている。 本章は、時間的情報の有無にかかわらず、動的KGの神経象徴的手法をさらに焦点をあてる。 具体的には、動的(時間的または非時間的な)KG完了とエンティティアライメントタスクのための神経象徴的手法に関する洞察を提供する。 また、現在のアプローチの課題についても論じ、今後の方向性を示す。

Knowledge graphs (KGs) have recently been used for many tools and applications, making them rich resources in structured format. However, in the real world, KGs grow due to the additions of new knowledge in the form of entities and relations, making these KGs dynamic. This chapter formally defines several types of dynamic KGs and summarizes how these KGs can be represented. Additionally, many neurosymbolic methods have been proposed for learning representations over static KGs for several tasks such as KG completion and entity alignment. This chapter further focuses on neurosymbolic methods for dynamic KGs with or without temporal information. More specifically, it provides an insight into neurosymbolic methods for dynamic (temporal or non-temporal) KG completion and entity alignment tasks. It further discusses the challenges of current approaches and provides some future directions.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# パラメータ効率の良いファインタニングを用いた大規模言語モデル生成スタイルのカスタマイズ

Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning ( http://arxiv.org/abs/2409.04574v1 )

ライセンス: Link先を確認
Xinyue Liu, Harshita Diddee, Daphne Ippolito, (参考訳) ワンサイズフィットのすべての大規模言語モデル(LLM)は、人々が書くのを助けるためにますます使われています。 しかし、これらのモデルが書くように訓練されているスタイルは、すべてのユーザーやユースケースに合わないかもしれない。 LLMは、各ユーザーに合わせてイディオレクトをカスタマイズできれば、アシスタントを書くのに役立ちます。 本稿では,Low-Rank Adaptationを用いたパラメータ効率ファインタニング(PEFT)がLLM世代を効果的に導くことができるかどうかを考察する。 この手法を用いて、LLaMA-2を10の異なる著者にカスタマイズし、生成されたテキストがターゲットの著者と語彙的、構文的、表面的アライメントを持つが、内容記憶に苦慮していることを示す。 本研究は,LPMの効率的なユーザレベルのカスタマイズを支援するPEFTの可能性を明らかにするものである。

One-size-fits-all large language models (LLMs) are increasingly being used to help people with their writing. However, the style these models are trained to write in may not suit all users or use cases. LLMs would be more useful as writing assistants if their idiolect could be customized to match each user. In this paper, we explore whether parameter-efficient finetuning (PEFT) with Low-Rank Adaptation can effectively guide the style of LLM generations. We use this method to customize LLaMA-2 to ten different authors and show that the generated text has lexical, syntactic, and surface alignment with the target author but struggles with content memorization. Our findings highlight the potential of PEFT to support efficient, user-level customization of LLMs.
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# ActionFlow: 空間的に対称なフローマッチングを伴う同変量, 精度, 効率的ポリシ

ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching ( http://arxiv.org/abs/2409.04576v1 )

ライセンス: Link先を確認
Niklas Funk, Julen Urain, Joao Carvalho, Vignesh Prasad, Georgia Chalvatzaki, Jan Peters, (参考訳) 空間的理解は、特に一般化が重要である場合、ほとんどのロボット作業において重要な側面である。 複雑な操作タスクにおける深い生成モデルによる印象的な結果にもかかわらず、観察と行動の間の複雑な空間的関係を符号化する表現がないことは、しばしば空間的一般化を制限し、大量のデモンストレーションを必要とする。 この問題に対処するために、新しいポリシークラスであるActionFlowを紹介します。 ActionFlowは、表現力のあるアクションシーケンスを生成しながら、空間対称性誘導バイアスを統合する。 表現レベルでは、ActionFlowはSE(3)不変トランスフォーマーアーキテクチャを導入している。 ActionFlowは、高速な推論で高品質なサンプルを生成することで知られている最先端の深層生成モデルであるFlow Matchingを活用する。 ActionFlowポリシーは、強い空間的および局所性バイアスとSE(3)等価なアクション生成を示す。 実験では,ActionFlowとその2つの主要コンポーネントが実世界のロボット操作のシミュレーション作業に有効であることを実証し,空間対称なフローマッチングによる同変,正確,効率的なポリシを実現できることを確認した。 プロジェクトウェブサイト:https://flowbasedpolicies.github.io/

Spatial understanding is a critical aspect of most robotic tasks, particularly when generalization is important. Despite the impressive results of deep generative models in complex manipulation tasks, the absence of a representation that encodes intricate spatial relationships between observations and actions often limits spatial generalization, necessitating large amounts of demonstrations. To tackle this problem, we introduce a novel policy class, ActionFlow. ActionFlow integrates spatial symmetry inductive biases while generating expressive action sequences. On the representation level, ActionFlow introduces an SE(3) Invariant Transformer architecture, which enables informed spatial reasoning based on the relative SE(3) poses between observations and actions. For action generation, ActionFlow leverages Flow Matching, a state-of-the-art deep generative model known for generating high-quality samples with fast inference - an essential property for feedback control. In combination, ActionFlow policies exhibit strong spatial and locality biases and SE(3)-equivariant action generation. Our experiments demonstrate the effectiveness of ActionFlow and its two main components on several simulated and real-world robotic manipulation tasks and confirm that we can obtain equivariant, accurate, and efficient policies with spatially symmetric flow matching. Project website: https://flowbasedpolicies.github.io/
翻訳日:2024-09-10 22:10:46 公開日:2024-09-06
# Parallax: ハードウェア制約下での中性原子量子コンピュータ用コンパイラ

Parallax: A Compiler for Neutral Atom Quantum Computers under Hardware Constraints ( http://arxiv.org/abs/2409.04578v1 )

ライセンス: Link先を確認
Jason Ludmir, Tirthak Patel, (参考訳) 様々な量子コンピューティング技術の中で、中性原子量子コンピュータには、マルチキュービットゲート、アプリケーション固有のトポロジー、可動量子ビット、均質量子ビット、長距離相互作用など、いくつかの利点がある。 しかし、中性原子に対する既存のコンパイル技術は、実用的でスケーラブルな方法でこれらの利点を活用できない。 本稿では,非SWAPでスケーラブルで並列化可能なコンパイルおよび原子移動スケジューリング手法であるParallaxについて紹介する。

Among different quantum computing technologies, neutral atom quantum computers have several advantageous features, such as multi-qubit gates, application-specific topologies, movable qubits, homogenous qubits, and long-range interactions. However, existing compilation techniques for neutral atoms fall short of leveraging these advantages in a practical and scalable manner. This paper introduces Parallax, a zero-SWAP, scalable, and parallelizable compilation and atom movement scheduling method tailored for neutral atom systems, which reduces high-error operations by 25% and increases the success rate by 28% on average compared to the state-of-the-art technique.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# CubicML: 分散MLシステムのための自動MLとMLによるパフォーマンス予測

CubicML: Automated ML for Distributed ML Systems Co-design with ML Prediction of Performance ( http://arxiv.org/abs/2409.04585v1 )

ライセンス: Link先を確認
Wei Wen, Quanyu Zhu, Weiwei Chu, Wen-Yen Chen, Jiyan Yang, (参考訳) ディープラーニングモデルのスケールアップは、特に産業レコメンデーションモデルや大規模言語モデルにおいて、マシンラーニング(ML)モデルのインテリジェンスを改善するために有効であることが証明されている。 分散MLシステムとアルゴリズム(トレーニング性能を最大化する)の共同設計は、その成功に重要な役割を果たす。 スケールするにつれて、共同設計のハイパーパラメータの数が急速に増加し、システムパフォーマンスの最大化に最適な設定を見つけることが困難になる。 本稿では,分散MLシステムのトレーニング性能を自動最適化するキュービックMLを提案する。 CubicMLでは、機械学習モデルをプロキシとして使用し、探索効率と性能モデリングの柔軟性のトレーニング性能を予測する。 我々は,CubicMLがMetaの社内広告推薦モデルと大規模言語モデルのトレーニング速度を効果的に最適化できることを実証した。

Scaling up deep learning models has been proven effective to improve intelligence of machine learning (ML) models, especially for industry recommendation models and large language models. The co-design of distributed ML systems and algorithms (to maximize training performance) plays a pivotal role for its success. As it scales, the number of co-design hyper-parameters grows rapidly which brings challenges to feasibly find the optimal setup for system performance maximization. In this paper, we propose CubicML which uses ML to automatically optimize training performance of distributed ML systems. In CubicML, we use a ML model as a proxy to predict the training performance for search efficiency and performance modeling flexibility. We proved that CubicML can effectively optimize training speed of in-house ads recommendation models and large language models at Meta.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 並列回路を用いた低深さOracle

Low Depth Phase Oracle Using a Parallel Piecewise Circuit ( http://arxiv.org/abs/2409.04587v1 )

ライセンス: Link先を確認
Zhu Sun, Gregory Boyd, Zhenyu Cai, Hamza Jnane, Balint Koczor, Richard Meister, Romy Minko, Benjamin Pring, Simon C. Benjamin, Nikitas Stamatopoulos, (参考訳) 位相 $exp(i f(x))$ を計算基底状態 $\left| x \right>$ に適用する重要なタスクについて検討する。 また、ターゲット qubit を$f(x)$ に依存する角度で回転させる密接な関連するタスクについても検討する。 このような演算は多くの量子サブルーチンにおいて鍵であり、しばしば関数 $f$ は断片的な線形合成によってうまく近似することができる。 例えば、グリッドベースの多体シミュレーションにおける対角的ハミルトン項(クーロン相互作用など)の応用から、微分価格アルゴリズムまで様々である。 ここでは,すべての基本回転を同時に行うために,片方向アプローチの並列化を利用して,全回転深度を1とする。 さらに, これらの基本回転を効率的に実装するために, 再帰触媒「塔」の使用について検討する。 実装戦略の選択により、$O(log n + log S)$のレジスタと$S$セクションの断片的な近似に対して、深さが$O(log n + log S)$と低いことが分かる。 オラクルの繰り返しの極限において、各インスタンスは$O(S \cdot n)$Tカウントを持つ。

We explore the important task of applying a phase $exp(i f(x))$ to a computational basis state $\left| x \right>$. The closely related task of rotating a target qubit by an angle depending on $f(x)$ is also studied. Such operations are key in many quantum subroutines, and often the function $f$ can be well-approximated by a piecewise linear composition. Examples range from the application of diagonal Hamiltonian terms (such as the Coulomb interaction) in grid-based many-body simulation, to derivative pricing algorithms. Here we exploit a parallelisation of the piecewise approach so that all constituent elementary rotations are performed simultaneously, that is, we achieve a total rotation depth of one. Moreover, we explore the use of recursive catalyst 'towers' to implement these elementary rotations efficiently. Depending on the choice of implementation strategy, we find a depth as low as $O(log n + log S)$ for a register of $n$ qubits and a piecewise approximation of $S$ sections. In the limit of multiple repetitions of the oracle, each instance has an $O(S \cdot n)$ T-count.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 不均一パッケージ管理システムにおける総合的システム健康評価のための開発活動評価のための体系的アプローチ

A Systematic Approach to Evaluating Development Activity in Heterogeneous Package Management Systems for Overall System Health Assessment ( http://arxiv.org/abs/2409.04588v1 )

ライセンス: Link先を確認
Shane K. Panter, Luke Hindman, Nasir U. Eisty, (参考訳) Context: 現代のオープンソースオペレーティングシステムは、世界中の無数の開発者が作成した多数の独立したパッケージで構成されています。 様々なエンティティから派生したこの多様なソフトウェアを効果的に管理するために、Linuxディストリビューションはプロセスを合理化するためのパッケージ管理ツールを考案した。 ソフトウェアインストールの利便性を提供するが、Ubuntuのaptのようなシステムは、上流プロジェクトと比較して構成パッケージの鮮度を曖昧にする可能性がある。 目的:本研究の目的は,Linuxディストリビューション内のパッケージを体系的に識別する手法を開発することである。 Linuxディストリビューション内のパッケージは、アップストリームプロジェクトのバージョニング戦略の異質な混合を利用しており、これらのバージョンはパッケージマネージャに渡される。 メソッド: 私たちは,Ubuntuディストリビューションの6000以上のパッケージに対して,エポックおよび上流プロジェクトのメジャー,マイナー,パッチバージョンを抽出するために,正規表現を使用します。 CHAOSプロジェクトのlibyearsメトリックを使用して、最新のアップストリームプロジェクトリリースに対するディストリビューション内のパッケージのサブセットの鮮度を算出する。 これにより、パッケージバージョンアクティビティ分類器(PVAC)が開発され、複数のディストリビューションリリースにおけるパッケージの安定性を体系的に評価する新しい手法が開発された。

Context: Modern open-source operating systems consist of numerous independent packages crafted by countless developers worldwide. To effectively manage this diverse array of software originating from various entities, Linux distributions have devised package management tools to streamline the process. Despite offering convenience in software installation, systems like Ubuntu's apt may obscure the freshness of its constituent packages when compared to the upstream projects. Objective: The focus of this research is to develop a method to systematically identify packages within a Linux distribution that show low development activity between versions of the OSS projects included in a release. The packages within a Linux distribution utilize a heterogeneous mix of versioning strategies in their upstream projects and these versions are passed through to the package manager, often with distribution specific version information appended, making this work both interesting and non-trivial. Method: We use regular expressions to extract the epoch and upstream project major, minor, and patch versions for more than 6000 packages in the Ubuntu distribution, documenting our process for assigning these values for projects that do not follow the semantic versioning standard. Using the libyears metric for the CHAOS project, we calculate the freshness of a subset of the packages within a distribution against the latest upstream project release. This led directly to the development of Package Version Activity Classifier (PVAC), a novel method for systematically assessing the staleness of packages across multiple distribution releases.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# Paper Copilot:パーソナライズされた学術支援のための自己進化的で効率的なLCMシステム

Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance ( http://arxiv.org/abs/2409.04593v1 )

ライセンス: Link先を確認
Guanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You, (参考訳) 科学研究が拡大するにつれ、研究者は膨大な量の文献をナビゲートし、読み取るという途方もない課題に直面している。 文書QAのような既存のソリューションでは、パーソナライズされた最新の情報を効率的に提供できない。 本稿では,自己進化型,効率的なLCMシステムであるPaper Copilotについて述べる。 具体的には、Paper Copilotはパーソナライズされたリサーチサービスを提供し、リアルタイムで更新されたデータベースを維持する。 定量的評価では、Paper Copilotは効率的な配備後に69.92 %の時間を節約している。 本稿では,Paper Copilotの設計と実装について詳述し,パーソナライズされた学術的支援への貢献と研究プロセスの合理化の可能性について述べる。

As scientific research proliferates, researchers face the daunting task of navigating and reading vast amounts of literature. Existing solutions, such as document QA, fail to provide personalized and up-to-date information efficiently. We present Paper Copilot, a self-evolving, efficient LLM system designed to assist researchers, based on thought-retrieval, user profile and high performance optimization. Specifically, Paper Copilot can offer personalized research services, maintaining a real-time updated database. Quantitative evaluation demonstrates that Paper Copilot saves 69.92\% of time after efficient deployment. This paper details the design and implementation of Paper Copilot, highlighting its contributions to personalized academic support and its potential to streamline the research process.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 三角形ポテンシャル井戸をもつディラック方程式の解について

On a Solution to the Dirac Equation with a Triangular Potential Well ( http://arxiv.org/abs/2409.04595v1 )

ライセンス: Link先を確認
Renebeth B. Payod, Vasil A. Saroka, (参考訳) 量子レベルでの古典対称性の破れから生じるキラルな異常は、量子場理論の基本であり、凝縮物質物理学におけるトポロジカルな物質の記述において、ますます重要になっている。 ここでは、無限のストライプに閉じ込められた3+1フェルミオンに対するディラック方程式の解析解を、ストライプの幅を横切る三角ポテンシャルを形成する背景ゲージ場に配置する。 このような有効な1+1系は、ゲージ場依存のカイラル異常構造をもたらすゼロエネルギーモードをホストする。 この問題は、平面上の外部電場に置かれる半ベレードグラフェンナノリボンと直接関係があり、エアリー関数と類似しているが再現不可能な新しい特殊関数の観点から、正確な解を提供する。

Chiral anomalies resulting from the breaking of classical symmetries at the quantum level are fundamental to quantum field theory and gaining ever-growing importance in the description of topological materials in condensed matter physics. Here we present analytical solutions of the Dirac equation for massless 3+1 fermions confined to an infinite stripe and placed into a background gauge field forming a triangular potential well across the width of the stripe. Such an effective 1+1 system hosts zero-energy modes resulting in the gauge field-dependent chiral anomaly structure. This problem has a direct relation to a half-bearded graphene nanoribbon placed into an in-plane external electric field and offers it an exact solution in terms of new special functions that are similar but not reducible to Airy functions.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# ニューラルインシシシット表現による2次元プロジェクションからの3次元冠状動脈再建術

NeCA: 3D Coronary Artery Tree Reconstruction from Two 2D Projections by Neural Implicit Representation ( http://arxiv.org/abs/2409.04596v1 )

ライセンス: Link先を確認
Yiying Wang, Abhirup Banerjee, Vicente Grau, (参考訳) 心臓血管疾患 (CVD) は世界中で最も一般的な健康上の脅威である。 CVDの診断において,2D x-ray invasive coronary angiography (ICA) が最も広く採用されている。 しかし、現在の臨床実践では、心臓科医が冠動脈の3次元形状を二次元平面に基づいて解釈することはしばしば困難である。 さらに, 照射限界のため, 血管形状の限られた情報と2つのICAプロジェクションのみに基づく3D冠状樹再建が必要となる2つの血管造影プロジェクションのみを取得する。 本稿では,2つのプロジェクションから3次元冠状動脈木再構築を実現するために,マルチレゾリューションハッシュエンコーダと異種コーンビーム前方プロジェクター層を用いた暗黙のニューラル表現に基づく,NeCAと呼ばれる自己教師型ディープラーニング手法を提案する。 右冠状動脈,左下行冠状動脈,左下行冠状動脈の6種類の冠動脈造影データを用いて,本法の有効性を検証した。 評価結果から,本手法は3次元地下の真理や訓練用データセットを伴わず,教師付き深層学習モデルと比較して,血管トポロジー保存と分岐接続性維持の両面で有望な性能を達成できることが示唆された。

Cardiovascular diseases (CVDs) are the most common health threats worldwide. 2D x-ray invasive coronary angiography (ICA) remains as the most widely adopted imaging modality for CVDs diagnosis. However, in current clinical practice, it is often difficult for the cardiologists to interpret the 3D geometry of coronary vessels based on 2D planes. Moreover, due to the radiation limit, in general only two angiographic projections are acquired, providing limited information of the vessel geometry and necessitating 3D coronary tree reconstruction based only on two ICA projections. In this paper, we propose a self-supervised deep learning method called NeCA, which is based on implicit neural representation using the multiresolution hash encoder and differentiable cone-beam forward projector layer in order to achieve 3D coronary artery tree reconstruction from two projections. We validate our method using six different metrics on coronary computed tomography angiography data in terms of right coronary artery and left anterior descending respectively. The evaluation results demonstrate that our NeCA method, without 3D ground truth for supervision and large datasets for training, achieves promising performance in both vessel topology preservation and branch-connectivity maintaining compared to the supervised deep learning model.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# スマートテストによるバギーコントラクトの検出

Detecting Buggy Contracts via Smart Testing ( http://arxiv.org/abs/2409.04597v1 )

ライセンス: Link先を確認
Sally Junsong Wang, Jianan Yao, Kexin Pei, Hidedaki Takahashi, Junfeng Yang, (参考訳) スマートコントラクトは、重大な脆弱性の影響を受けやすい。 近年,スマートコントラクトバグ検出のための高効率な試験手法として,ココリック実行支援ファジングやファンデーションモデル支援ファジングなどのハイブリッド動的解析が登場している。 このハイブリッドなアプローチは、現実世界のベンチマークで最初の約束を示しているが、複雑なコードパターンに埋もれた深いバグを見つけるためのスケーラビリティの低下に悩まされている。 我々は、既存の動的解析とモデル幻覚のパフォーマンスボトルネックが、このハイブリッドアプローチによる深いバグ発見のスケーラビリティを制限する2つの主要な要因であると考えている。 これらの課題を克服するために,SmartSysと呼ばれる対話型自己決定基盤モデルベースシステムを構築し,ハイブリッドスマートコントラクトの動的解析をサポートする。 鍵となる考え方は、異なる動的分析テクニックのパフォーマンスボトルネックについて基礎モデルに教えることであり、適切なテクニックを予測し、深い、隠れたバグに到達可能な効果的なファズターゲットを生成することができる。 幻覚的で不正なファズターゲットを掘り起こすために、SmartSysはコンパイル時と実行時に動的解析からフィードバックを得て基礎モデルをフィードする。 SmartSysの興味深い結果は以下のとおりである。 一 スマートコントラクトプロトコルの脆弱性で、11のツールを脱却し、複数回の監査を一年以上生き延びたこと。 ii) ベースラインと比較して、実世界のベンチマークで14.3\%までカバレッジを改善すること。

Smart contracts are susceptible to critical vulnerabilities. Hybrid dynamic analyses, such as concolic execution assisted fuzzing and foundation model assisted fuzzing, have emerged as highly effective testing techniques for smart contract bug detection recently. This hybrid approach has shown initial promise in real-world benchmarks, but it still suffers from low scalability to find deep bugs buried in complex code patterns. We observe that performance bottlenecks of existing dynamic analyses and model hallucination are two main factors limiting the scalability of this hybrid approach in finding deep bugs. To overcome the challenges, we design an interactive, self-deciding foundation model based system, called SmartSys, to support hybrid smart contract dynamic analyses. The key idea is to teach foundation models about performance bottlenecks of different dynamic analysis techniques, making it possible to forecast the right technique and generates effective fuzz targets that can reach deep, hidden bugs. To prune hallucinated, incorrect fuzz targets, SmartSys feeds foundation models with feedback from dynamic analysis during compilation and at runtime. The interesting results of SmartSys include: i) discovering a smart contract protocol vulnerability that has escaped eleven tools and survived multiple audits for over a year; ii) improving coverage by up to 14.3\% on real-world benchmarks compared to the baselines.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 刺激外行動を利用したビデオベース自閉症分類のための新しいデータセット

A Novel Dataset for Video-Based Autism Classification Leveraging Extra-Stimulatory Behavior ( http://arxiv.org/abs/2409.04598v1 )

ライセンス: Link先を確認
Manuel Serna-Aguilera, Xuan Bac Nguyen, Han-Seok Seo, Khoa Luu, (参考訳) 自閉症スペクトラム障害(ASD)は、健康、コミュニケーション、感覚処理の課題から、様々な強度の個人に影響を与える可能性がある。 そのため、小児のASDを正確に診断することは、医療専門家にとって極めて重要であるが、そうすることは困難である。 ディープラーニングは、このタスクに対処する際の生産性を向上させるために、責任を持って活用することができる。 しかし、データの入手は依然としてかなりの障害となっている。 そこで本研究では,ビデオフレームの畳み込みとアテンションマップの特徴的特徴を含むデータセットであるビデオASDデータセットを導入し,ASD分類の課題のさらなる進展を促す。 このデータセットには、2,467本のビデオにまたがるフレームの特徴が含まれており、合計で約140万フレームである。 また、頭部運動ノイズを考慮に入れた頭部ポーズ角や、刺激との相互作用の前、後、後、後、後、後の表情がどのように変化するかを記述する味覚・嗅覚ビデオのフルセンステキストラベルも含んでいる。 機能の提供に加えて、運動ノイズがパフォーマンスに与える影響と、より多くのデータとより複雑なラベルの必要性を示すために、このデータに関する基礎モデルもテストします。

Autism Spectrum Disorder (ASD) can affect individuals at varying degrees of intensity, from challenges in overall health, communication, and sensory processing, and this often begins at a young age. Thus, it is critical for medical professionals to be able to accurately diagnose ASD in young children, but doing so is difficult. Deep learning can be responsibly leveraged to improve productivity in addressing this task. The availability of data, however, remains a considerable obstacle. Hence, in this work, we introduce the Video ASD dataset--a dataset that contains video frame convolutional and attention map feature data--to foster further progress in the task of ASD classification. The original videos showcase children reacting to chemo-sensory stimuli, among auditory, touch, and vision This dataset contains the features of the frames spanning 2,467 videos, for a total of approximately 1.4 million frames. Additionally, head pose angles are included to account for head movement noise, as well as full-sentence text labels for the taste and smell videos that describe how the facial expression changes before, immediately after, and long after interaction with the stimuli. In addition to providing features, we also test foundation models on this data to showcase how movement noise affects performance and the need for more data and more complex labels.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# BPEがピカピカに: トケナイザー訓練中の語彙の効率的なリファインメント

BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training ( http://arxiv.org/abs/2409.04599v1 )

ライセンス: Link先を確認
Pavel Chizhov, Catherine Arnett, Elizaveta Korotkova, Ivan P. Yamshchikov, (参考訳) 言語モデルは、効率的なトークン化の恩恵を受けることができる。 しかし、それらは基本的には単純で信頼性の高い手法である古典的BPEアルゴリズムを利用している。 これは、ダウンストリームのパフォーマンスに影響を及ぼす可能性のある、未学習のトークンや準最適圧縮などの問題を引き起こすことが示されている。 トークン化学習中に語彙改善を行う改良型BPEアルゴリズムであるPicky BPEを紹介する。 本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。 実験の結果,ダウンストリーム性能は低下せず,いくつかのケースで改善していることがわかった。

Language models can largely benefit from efficient tokenization. However, they still mostly utilize the classical BPE algorithm, a simple and reliable method. This has been shown to cause such issues as under-trained tokens and sub-optimal compression that may affect the downstream performance. We introduce Picky BPE, a modified BPE algorithm that carries out vocabulary refinement during tokenizer training. Our method improves vocabulary efficiency, eliminates under-trained tokens, and does not compromise text compression. Our experiments show that our method does not reduce the downstream performance, and in several cases improves it.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 書評におけるツールとしてのLarge Language Models(LLM)の出現--LLM自動体系的レビュー

The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review ( http://arxiv.org/abs/2409.04600v1 )

ライセンス: Link先を確認
Dmitry Scherbakov, Nina Hubig, Vinita Jansari, Alexander Bakumenko, Leslie A. Lenert, (参考訳) 目的:本研究は,科学的レビューを作成する過程において,LLM(Large Language Models)の使用法を要約することを目的としている。 我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。 Materials and Methods: この検索は2024年6月にPubMed, Scopus, Dimensions, Google Scholarデータベースで人間レビュアーによって行われた。 スクリーニングと抽出は、OpenAI gpt-4oモデルを用いたLLMアドオンの助けを借りて、Covidenceで実施された。 ChatGPTは抽出されたデータをクリーンにし、この写本の数字のコードを生成するために用いられ、ChatGPTとScite.aiは、メソッドや議論セクションを除いて、原稿のすべてのコンポーネントのドラフトに使用された。 結果:3,788項目が検索され,最終審査対象となったのは172項目であった。 チャットGPTとGPTベースのLCMはレビュー自動化の最も支配的なアーキテクチャ(n=126, 73.2%)として登場した。 かなりの数のレビュー自動化プロジェクトが見つかったが、作成にLLMを使用した実際のレビューは、ごく少数の論文(n=26, 15.1%)しかなかった。 ほとんどの引用は、出版物の検索(n=60, 34.9%)やデータ抽出(n=54, 31.4%)など、レビューの特定の段階の自動化に焦点を当てた。 GPTベースのモデルとBERTベースのモデルのプール性能を比較する場合、前者は平均精度83.0% (SD=10.4) のデータ抽出と86.0% (SD=9.8) のリコールに優れ、タイトルと抽象スクリーニングの段階ではわずかに精度が低い(Maccuracy=77.3%、SD=13.0)。 考察・結論: LLMを用いたシステムレビューの結果,LLMを用いたレビュー自動化に関する研究プロジェクトが多数存在することが明らかとなった。 結果は期待できそうに見え、近い将来、LLMが科学的レビューの実施方法を変えていくと予測している。

Objective: This study aims to summarize the usage of Large Language Models (LLMs) in the process of creating a scientific review. We look at the range of stages in a review that can be automated and assess the current state-of-the-art research projects in the field. Materials and Methods: The search was conducted in June 2024 in PubMed, Scopus, Dimensions, and Google Scholar databases by human reviewers. Screening and extraction process took place in Covidence with the help of LLM add-on which uses OpenAI gpt-4o model. ChatGPT was used to clean extracted data and generate code for figures in this manuscript, ChatGPT and Scite.ai were used in drafting all components of the manuscript, except the methods and discussion sections. Results: 3,788 articles were retrieved, and 172 studies were deemed eligible for the final review. ChatGPT and GPT-based LLM emerged as the most dominant architecture for review automation (n=126, 73.2%). A significant number of review automation projects were found, but only a limited number of papers (n=26, 15.1%) were actual reviews that used LLM during their creation. Most citations focused on automation of a particular stage of review, such as Searching for publications (n=60, 34.9%), and Data extraction (n=54, 31.4%). When comparing pooled performance of GPT-based and BERT-based models, the former were better in data extraction with mean precision 83.0% (SD=10.4), and recall 86.0% (SD=9.8), while being slightly less accurate in title and abstract screening stage (Maccuracy=77.3%, SD=13.0). Discussion/Conclusion: Our LLM-assisted systematic review revealed a significant number of research projects related to review automation using LLMs. The results looked promising, and we anticipate that LLMs will change in the near future the way the scientific reviews are conducted.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 3次元物体検出のためのポイントピラミッドを用いたマルチスケール特徴融合

Multi-scale Feature Fusion with Point Pyramid for 3D Object Detection ( http://arxiv.org/abs/2409.04601v1 )

ライセンス: Link先を確認
Weihao Lu, Dezong Zhao, Cristiano Premebida, Li Zhang, Wenjing Zhao, Daxin Tian, (参考訳) 効率的なポイントクラウド処理は、LiDARベースの自動運転システムにとって不可欠である。 複数のスケールで機能を理解する能力は、道路利用者が異なる大きさで現れる可能性があるインテリジェントな車両の物体検出に必要である。 近年の手法では,エンコーダのバックボーンから異なる規模の特徴を収集し,興味のある点に割り当てる機能集約演算子の設計に焦点が当てられている。 集約モジュールに取り組みながら、これらのマルチスケール機能を融合する方法の重要性は見過ごされている。 これにより、スケールにわたる機能コミュニケーションが不十分になります。 そこで本研究では,POP-RCNN(Point Pyramid RCNN)を提案する。 POP-RCNNは、空間スケールと情報交換のセマンティックディープをまたいだ接続を確立するために、ポイントピラミッド特徴拡張(PPFE)モジュールで構成されている。 PPFEモジュールは、機能集約の複雑さを増大させることなく、リッチな情報のためのマルチスケール機能を効果的に融合する。 不整点密度の影響を緩和するため、点密度信頼モジュールを配置する。 この設計統合により、軽量な機能アグリゲータの使用が可能になり、浅いセマンティクスと深いセマンティクスの両方に重点を置いて、3Dオブジェクト検出のための検出フレームワークを実現する。 高い適応性により,提案手法は様々な既存フレームワークに適用可能であり,特に長距離検出において,特徴の豊かさを高めることができる。 KITTI と Waymo Open Dataset による実験結果から,提案手法は限られた計算ヘッドルームでも優れた性能を発揮することが示された。

Effective point cloud processing is crucial to LiDARbased autonomous driving systems. The capability to understand features at multiple scales is required for object detection of intelligent vehicles, where road users may appear in different sizes. Recent methods focus on the design of the feature aggregation operators, which collect features at different scales from the encoder backbone and assign them to the points of interest. While efforts are made into the aggregation modules, the importance of how to fuse these multi-scale features has been overlooked. This leads to insufficient feature communication across scales. To address this issue, this paper proposes the Point Pyramid RCNN (POP-RCNN), a feature pyramid-based framework for 3D object detection on point clouds. POP-RCNN consists of a Point Pyramid Feature Enhancement (PPFE) module to establish connections across spatial scales and semantic depths for information exchange. The PPFE module effectively fuses multi-scale features for rich information without the increased complexity in feature aggregation. To remedy the impact of inconsistent point densities, a point density confidence module is deployed. This design integration enables the use of a lightweight feature aggregator, and the emphasis on both shallow and deep semantics, realising a detection framework for 3D object detection. With great adaptability, the proposed method can be applied to a variety of existing frameworks to increase feature richness, especially for long-distance detection. By adopting the PPFE in the voxel-based and point-voxel-based baselines, experimental results on KITTI and Waymo Open Dataset show that the proposed method achieves remarkable performance even with limited computational headroom.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# データをアップロードせずにクラウド上で量子機械学習モデルを訓練する

Training quantum machine learning model on cloud without uploading the data ( http://arxiv.org/abs/2409.04602v1 )

ライセンス: Link先を確認
Guang Ping He, (参考訳) 量子ユニタリ演算の線形性に基づいて,入力データを符号化する前にパラメータ化量子回路を動作させる手法を提案する。 データセット所有者は、データの情報をリークするリスクなく、量子クラウド計算プラットフォーム上で機械学習モデルをトレーニングすることができる。 また、後に古典的な計算を用いて大量のデータを効率的にエンコードできるため、量子計算デバイス上でのランタイムの節約も可能である。 トレーニングされた量子機械学習モデルは、古典的なコンピュータで完全に実行できるため、データセットの所有者は量子ハードウェアも量子シミュレータも必要としない。 さらに、必要な回路深さを$O(2^{n})$から$n/2$に減らして、符号化下首を緩和することができる。 これらの結果は、既存の古典的ニューラルネットワークよりも量子と量子にインスパイアされた機械学習モデルのもう1つの利点を示し、データセキュリティに対するアプローチを広げている。

Based on the linearity of quantum unitary operations, we propose a method that runs the parameterized quantum circuits before encoding the input data. It enables a dataset owner to train machine learning models on quantum cloud computation platforms, without the risk of leaking the information of the data. It is also capable of encoding a huge number of data effectively at a later time using classical computations, thus saving the runtime on quantum computation devices. The trained quantum machine learning model can be run completely on classical computers, so that the dataset owner does not need to have any quantum hardware, nor even quantum simulators. Moreover, the method can mitigate the encoding bottom neck by reducing the required circuit depth from $O(2^{n})$ to $n/2$. These results manifest yet another advantage of quantum and quantum-inspired machine learning models over existing classical neural networks, and broaden the approaches for data security.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 定常ステップサイズをもつレストバンドのためのウィトル指数学習アルゴリズム

Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes ( http://arxiv.org/abs/2409.04605v1 )

ライセンス: Link先を確認
Vishesh Mittal, Rahul Meshram, Surya Prakash, (参考訳) レスレスマルチアームバンディットのためのWhittleインデックス学習アルゴリズムについて検討する。 索引学習アルゴリズムとQ-ラーニングについて考察する。 まず,探索ポリシを持つQ-ラーニングアルゴリズム,すなわちepsilon-greedy, softmax, epsilon-softmaxを定常的なステップサイズで提案する。 単腕レスト・バンディットのための索引学習へのQ-ラーニングの研究を拡張した。 インデックス学習のアルゴリズムは確率近似の2時間スケール変種であり、より遅い時間スケールではインデックス学習スキームを更新し、より速い時間スケールでは固定インデックス値を仮定したQ-ラーニングを更新する。 Q-learningのアップデートは非同期である。 本研究では,2つの時間スケール確率近似アルゴリズムについて検討する。 定常的なステップサイズを持つ索引学習のための2段階確率近似の解析を行う。 さらに,DQN(Deep Q-network)学習を用いた索引学習と状態集約法による線形関数近似について検討する。 本稿では,数値例を用いてアルゴリズムの性能について述べる。 我々は,Q学習,DQN,関数近似を用いた索引学習がWhittleインデックスを学習することを示した。

We study the Whittle index learning algorithm for restless multi-armed bandits. We consider index learning algorithm with Q-learning. We first present Q-learning algorithm with exploration policies -- epsilon-greedy, softmax, epsilon-softmax with constant stepsizes. We extend the study of Q-learning to index learning for single-armed restless bandit. The algorithm of index learning is two-timescale variant of stochastic approximation, on slower timescale we update index learning scheme and on faster timescale we update Q-learning assuming fixed index value. In Q-learning updates are in asynchronous manner. We study constant stepsizes two timescale stochastic approximation algorithm. We provide analysis of two-timescale stochastic approximation for index learning with constant stepsizes. Further, we present study on index learning with deep Q-network (DQN) learning and linear function approximation with state-aggregation method. We describe the performance of our algorithms using numerical examples. We have shown that index learning with Q learning, DQN and function approximations learns the Whittle index.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# ローカルアライメントを用いたビデオの自己監督型コントラスト学習

Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment ( http://arxiv.org/abs/2409.04607v1 )

ライセンス: Link先を確認
Keyne Oei, Amr Gomaa, Anna Maria Feit, João Belo, (参考訳) ビデオ解析や理解作業には,ロバストなフレームワイド埋め込みが不可欠である。 時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。 我々のフレームワークは、トランスフォーマーベースのエンコーダを使用して、フレームレベルの特徴を抽出し、それらを利用して、ビデオシーケンス間の最適なアライメントパスを見つける。 局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・ ビデオアライメントに関する先行研究は、シーケンスペア間でのグローバルな時間的順序付けに重点を置いているが、我々の損失は、最良スコアのサブシーケンスアライメントを特定することを奨励している。 LACはSmith-Waterman (SW)アフィン法を用いており、トレーニングフェーズを通じて学習したフレキシブルパラメータ化を特徴とし、時間的ギャップペナルティ長を動的に調整することができる。 評価の結果,我々の学習表現は,行動認識タスクにおける既存の最先端手法よりも優れていた。

Robust frame-wise embeddings are essential to perform video analysis and understanding tasks. We present a self-supervised method for representation learning based on aligning temporal video sequences. Our framework uses a transformer-based encoder to extract frame-level features and leverages them to find the optimal alignment path between video sequences. We introduce the novel Local-Alignment Contrastive (LAC) loss, which combines a differentiable local alignment loss to capture local temporal dependencies with a contrastive loss to enhance discriminative learning. Prior works on video alignment have focused on using global temporal ordering across sequence pairs, whereas our loss encourages identifying the best-scoring subsequence alignment. LAC uses the differentiable Smith-Waterman (SW) affine method, which features a flexible parameterization learned through the training phase, enabling the model to adjust the temporal gap penalty length dynamically. Evaluations show that our learned representations outperform existing state-of-the-art approaches on action recognition tasks.
翻訳日:2024-09-10 21:42:30 公開日:2024-09-06
# 状態予測法を用いた電力系統における偽データ注入攻撃(FDIA)の検出

Detection of False Data Injection Attacks (FDIA) on Power Dynamical Systems With a State Prediction Method ( http://arxiv.org/abs/2409.04609v1 )

ライセンス: Link先を確認
Abhijeet Sahu, Truc Nguyen, Kejun Chen, Xiangyu Zhang, Malik Hassanaly, (参考訳) 電力システムにおけるインバータベースのリソースのより深い浸透により、偽データインジェクション攻撃(FDIA)はサイバーセキュリティの懸念が高まっている。 それらは、周波数安定性のようなシステムの安定性を破壊し、破滅的な失敗を引き起こす可能性がある。 したがって、電力系統を保護するためにFDIA検出法が有用であろう。 FDIAsは通常、電力系統力学の所望と有効挙動の相違を誘導する。 適切な検出方法は、電力力学予測を利用して、そのような誤差がFDIAによって引き起こされたかどうかを判別することができる。 本研究では,長期記憶(LSTM)やグラフニューラルネットワーク(GNN)とLSTMの組み合わせのような時空間および時空間状態予測モデルの有効性を検討した。 実演目的のために、揺動方程式でシミュレートされた IEEE 39 New England Kron-reduced model を考える。 提案した状態予測モデルは, 各種攻撃および展開設定において高い検出精度を維持できる効果的なFDIA検出法を開発するためのビルディングブロックとして利用できる。 また、FDIA検出は、不正確な検出に曝露を制限し、計算負担を軽減するためにどのように展開されるべきかを示す。

With the deeper penetration of inverter-based resources in power systems, false data injection attacks (FDIA) are a growing cyber-security concern. They have the potential to disrupt the system's stability like frequency stability, thereby leading to catastrophic failures. Therefore, an FDIA detection method would be valuable to protect power systems. FDIAs typically induce a discrepancy between the desired and the effective behavior of the power system dynamics. A suitable detection method can leverage power dynamics predictions to identify whether such a discrepancy was induced by an FDIA. This work investigates the efficacy of temporal and spatio-temporal state prediction models, such as Long Short-Term Memory (LSTM) and a combination of Graph Neural Networks (GNN) with LSTM, for predicting frequency dynamics in the absence of an FDIA but with noisy measurements, and thereby identify FDIA events. For demonstration purposes, the IEEE 39 New England Kron-reduced model simulated with a swing equation is considered. It is shown that the proposed state prediction models can be used as a building block for developing an effective FDIA detection method that can maintain high detection accuracy across various attack and deployment settings. It is also shown how the FDIA detection should be deployed to limit its exposure to detection inaccuracies and mitigate its computational burden.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 汎用マルコフゲームにおける分散学習

Decentralized Learning in General-sum Markov Games ( http://arxiv.org/abs/2409.04613v1 )

ライセンス: Link先を確認
Chinmay Maheshwari, Manxi Wu, Shankar Sastry, (参考訳) マルコフゲームフレームワークは、動的かつ不確実な社会スケールシステムにおいて、異種ユーティリティを持つエージェント間の相互作用をモデル化するために広く使用されている。 これらのシステムでは、エージェントは一般的に、プライバシとスケーラビリティの懸念により分散的に動作し、多くの場合、他のエージェントに関する情報なしで動作します。 合理的な結果に確実に収束する分散学習アルゴリズムの設計と解析は、特にマルコフゼロサムゲームやマルコフポテンシャルゲームを超えて、完全に競争的でも完全に協力的でもない多くの実世界の相互作用の性質を適切に捉えていない。 本稿では,一般的なマルコフゲームのための分散学習アルゴリズムの設計について検討する。 提案手法は, 正確なナッシュ平衡に収束する設計アルゴリズムの難易度に対処するため, MNPF (Markov Near-Potential Function) を構築した。 我々は,MNPFがナッシュ均衡を近似するためにアクター批判に基づく分散学習アルゴリズムの収束を保証する上で,中心的な役割を担っていることを実証する。 Q関数推定をポリシー更新よりも高速に更新する2時間スケールのアプローチを活用することで、システムは近似的なNash平衡のセット上でMNPFのレベルセットに収束することを示す。 この収束結果は、ナッシュ平衡の集合が有限であると仮定すればさらに強化される。 本研究は,マルチエージェントシステムにおける分散学習アルゴリズムの分析と設計に関する新たな視点を提供する。

The Markov game framework is widely used to model interactions among agents with heterogeneous utilities in dynamic and uncertain societal-scale systems. In these systems, agents typically operate in a decentralized manner due to privacy and scalability concerns, often acting without any information about other agents. The design and analysis of decentralized learning algorithms that provably converge to rational outcomes remain elusive, especially beyond Markov zero-sum games and Markov potential games, which do not adequately capture the nature of many real-world interactions that is neither fully competitive nor fully cooperative. This paper investigates the design of decentralized learning algorithms for general-sum Markov games, aiming to provide provable guarantees of convergence to approximate Nash equilibria in the long run. Our approach builds on constructing a Markov Near-Potential Function (MNPF) to address the intractability of designing algorithms that converge to exact Nash equilibria. We demonstrate that MNPFs play a central role in ensuring the convergence of an actor-critic-based decentralized learning algorithm to approximate Nash equilibria. By leveraging a two-timescale approach, where Q-function estimates are updated faster than policy updates, we show that the system converges to a level set of the MNPF over the set of approximate Nash equilibria. This convergence result is further strengthened if the set of Nash equilibria is assumed to be finite. Our findings provide a new perspective on the analysis and design of decentralized learning algorithms in multi-agent systems.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# デジタル病理における単一ベクトルWSI表現のためのセットベースアグリゲーション技術に関する短い調査

A Short Survey on Set-Based Aggregation Techniques for Single-Vector WSI Representation in Digital Pathology ( http://arxiv.org/abs/2409.04615v1 )

ライセンス: Link先を確認
S. Hemati, Krishna R. Kalari, H. R. Tizhoosh, (参考訳) デジタル病理学は、スライド画像全体(WSI)としての組織サンプルのデジタル化、保存、分析を可能にすることで、病理学の分野に革命をもたらしている。 WSIは、組織サンプルの複雑な詳細をキャプチャするギガピクセルファイルであり、診断と研究目的のための豊富な情報ソースを提供する。 しかし, 画像のサイズが巨大であるため, 探索や検索などの多くの計算病理学的タスクにおいて, 画像をコンパクトベクトルとして表現することは, 効率と拡張性を確保する上で不可欠である。 現在のほとんどのメソッドは"パッチ指向"であり、WSIを処理用の小さなパッチに分割することで、スライド全体の全体的な分析を妨げている。 さらに、コンパクト表現の必要性は、WSIに必要な高価な高性能ストレージによってもたらされます。 すべての病院がそのような広範なストレージソリューションにアクセスでき、医療の質とアクセシビリティの潜在的な相違につながるわけではない。 本稿では、単一ベクトルWSI表現に対する既存のセットベースアプローチの概要を述べるとともに、これらの複雑な画像をデジタル病理学においてより効率的かつ効果的に利用するためのイノベーションを強調し、計算上の課題とストレージ制限の両方に対処する。

Digital pathology is revolutionizing the field of pathology by enabling the digitization, storage, and analysis of tissue samples as whole slide images (WSIs). WSIs are gigapixel files that capture the intricate details of tissue samples, providing a rich source of information for diagnostic and research purposes. However, due to their enormous size, representing these images as one compact vector is essential for many computational pathology tasks, such as search and retrieval, to ensure efficiency and scalability. Most current methods are "patch-oriented," meaning they divide WSIs into smaller patches for processing, which prevents a holistic analysis of the entire slide. Additionally, the necessity for compact representation is driven by the expensive high-performance storage required for WSIs. Not all hospitals have access to such extensive storage solutions, leading to potential disparities in healthcare quality and accessibility. This paper provides an overview of existing set-based approaches to single-vector WSI representation, highlighting the innovations that allow for more efficient and effective use of these complex images in digital pathology, thus addressing both computational challenges and storage limitations.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# Sparse Rewardsは、セルフトレイン対話エージェントを可能にする

Sparse Rewards Can Self-Train Dialogue Agents ( http://arxiv.org/abs/2409.04617v1 )

ライセンス: Link先を確認
Barrett Martin Lattimer, Varun Gangal, Ryan McDonald, Yi Yang, (参考訳) 最先端(SOTA)大規模言語モデル(LLM)エージェントの最近の進歩は、特にマルチターン対話タスクにおいて、主に教師付き微調整と高品質な人間のフィードバックによって進められている。 しかし、基礎となるLLMモデルの改善が進むにつれ、有意義な人間のフィードバックの獲得はますます困難でコストがかかる。 特定の領域では、ベースLLMエージェントは最終的には人間の能力を超え、従来のフィードバック駆動の手法は実用的ではない。 本稿では,LLMエージェントに対して,外部からのフィードバックを伴わずに自律的に性能向上を図るための,新たな自己改善パラダイムを提案する。 提案手法であるJuxtaposed Outcomes for Simulation Harvesting (JOSH) は,スパース報酬シミュレーション環境を利用した自己調整アルゴリズムである。 我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。 JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。 コードとデータはGitHubで公開されています。

Recent advancements in state-of-the-art (SOTA) Large Language Model (LLM) agents, especially in multi-turn dialogue tasks, have been primarily driven by supervised fine-tuning and high-quality human feedback. However, as base LLM models continue to improve, acquiring meaningful human feedback has become increasingly challenging and costly. In certain domains, base LLM agents may eventually exceed human capabilities, making traditional feedback-driven methods impractical. In this paper, we introduce a novel self-improvement paradigm that empowers LLM agents to autonomously enhance their performance without external human feedback. Our method, Juxtaposed Outcomes for Simulation Harvesting (JOSH), is a self-alignment algorithm that leverages a sparse reward simulation environment to extract ideal behaviors and further train the LLM on its own outputs. We present ToolWOZ, a sparse reward tool-calling simulation environment derived from MultiWOZ. We demonstrate that models trained with JOSH, both small and frontier, significantly improve tool-based interactions while preserving general model capabilities across diverse benchmarks. Our code and data are publicly available on GitHub.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# テッセラクト符号による量子計算と誤り訂正の実証

Demonstration of quantum computation and error correction with a tesseract code ( http://arxiv.org/abs/2409.04628v1 )

ライセンス: Link先を確認
Ben W. Reichardt, David Aasen, Rui Chao, Alex Chernoguzov, Wim van Dam, John P. Gaebler, Dan Gresh, Dominic Lucchetti, Michael Mills, Steven A. Moses, Brian Neyenhuis, Adam Paetznick, Andres Paz, Peter E. Siegfried, Marcus P. da Silva, Krysta M. Svore, Zhenghan Wang, Matt Zanner, (参考訳) 量子コンピュータにとって重要なマイルストーンは、物理量子ビットでの計算よりも優れたフォールトトレラント計算を実証することである。 テッセラクトのサブシステムカラーコードは、16の物理量子ビットの4つの論理量子ビットを距離4まで保護する。 量子化量子コンピュータにおけるテッセラクト符号を用いて、最大12個の論理量子ビット上の高忠実な符号化グラフ状態を作成し、フォールトトレラントな誤り訂正と計算を初めて有益に組み合わせた。 また、最大5ラウンドの誤り訂正によって符号化された状態を保護します。 高性能量子ソフトウェアとハードウェアを併用することで、中程度の深さの論理量子回路は、等価な未符号化回路よりも桁違いに少ない誤差を持つことができる。

A critical milestone for quantum computers is to demonstrate fault-tolerant computation that outperforms computation on physical qubits. The tesseract subsystem color code protects four logical qubits in 16 physical qubits, to distance four. Using the tesseract code on Quantinuum's trapped-ion quantum computers, we prepare high-fidelity encoded graph states on up to 12 logical qubits, beneficially combining for the first time fault-tolerant error correction and computation. We also protect encoded states through up to five rounds of error correction. Using performant quantum software and hardware together allows moderate-depth logical quantum circuits to have an order of magnitude less error than the equivalent unencoded circuits.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 基礎モデルの埋め込みを用いた病理組織におけるゼロショット全スライド画像検索

Zero-Shot Whole Slide Image Retrieval in Histopathology Using Embeddings of Foundation Models ( http://arxiv.org/abs/2409.04631v1 )

ライセンス: Link先を確認
Saghir Alfasly, Peyman Nejat, Ghazal Alabtah, Sobhan Hemati, Krishna Rani Kalari, H. R. Tizhoosh, (参考訳) 我々は最近,画像検索のための病理組織学の基礎モデルを検証した。 本稿では,トップ1検索におけるF1スコアのマクロ平均,トップ3検索の多数,トップ5検索の多数について報告する。 ゼロショット検索、すなわち埋め込みを変更したり、分類器を訓練したりしない。 検査データとして,23の臓器と117の癌サブタイプからなるTGA,The Cancer Genome Atlasの診断スライドを用いた。 検索プラットフォームとして、パッチを使用してWSI検索を実行可能にするYottixelを使用しました。 達成されたF1スコアは,トップ5検索では27%+/-13%(Yottixel-DenseNet),42%+/-14%(Yottixel-UNI),40%+/-13%(Yottixel-Virchow),41%+/-13%(Yottixel-GigaPath)である。 GigaPath WSIの結果は処理に要する膨大な計算資源のために遅れる

We have tested recently published foundation models for histopathology for image retrieval. We report macro average of F1 score for top-1 retrieval, majority of top-3 retrievals, and majority of top-5 retrievals. We perform zero-shot retrievals, i.e., we do not alter embeddings and we do not train any classifier. As test data, we used diagnostic slides of TCGA, The Cancer Genome Atlas, consisting of 23 organs and 117 cancer subtypes. As a search platform we used Yottixel that enabled us to perform WSI search using patches. Achieved F1 scores show low performance, e.g., for top-5 retrievals, 27% +/- 13% (Yottixel-DenseNet), 42% +/- 14% (Yottixel-UNI), 40%+/-13% (Yottixel-Virchow), and 41%+/-13% (Yottixel-GigaPath). The results for GigaPath WSI will be delayed due to the significant computational resources required for processing
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 構造不変レンジ・ビジュアル・慣性オドメトリー

Structure-Invariant Range-Visual-Inertial Odometry ( http://arxiv.org/abs/2409.04633v1 )

ライセンス: Link先を確認
Ivan Alberico, Jeff Delaune, Giovanni Cioffi, Davide Scaramuzza, (参考訳) マーズ・サイエンス・ヘリコプター(MSH)ミッションは、火星に次世代の無人ヘリコプターを配備することを目的としており、最大8000メートルの高度差を持つ太陽系最大の峡谷であるヴァレス・マリネリス(Valles Marineris)のような非常に不規則な地形の着陸地点をターゲットにしている。 前作のマーズ2020ミッションとは異なり、MSHは着陸地点の複雑な地形のために新しいアプローチを必要とする。 本研究は、MSHミッションのユニークな課題に合わせて、新しいレンジ-ビジュアル-慣性オドメトリーシステムを導入する。 我々のシステムは、一貫した範囲情報を視覚的および慣性計測と融合させ、視覚的慣性励起(モノカメラと定速度降下)がない場合のメートルスケールドリフトを防止し、平面地形の仮定を必要とせず、任意の地形構造への着地を可能にすることにより、最先端のxVIOフレームワークを拡張した。 火星軌道上で収集された実際の地形構造とテクスチャを用いた画像ベースシミュレーションの広範なテストを通じて、我々のレンジVIOアプローチは、厳密なミッション要件を満たす地形相対速度を推定し、既存の手法よりも優れていることを実証した。

The Mars Science Helicopter (MSH) mission aims to deploy the next generation of unmanned helicopters on Mars, targeting landing sites in highly irregular terrain such as Valles Marineris, the largest canyons in the Solar system with elevation variances of up to 8000 meters. Unlike its predecessor, the Mars 2020 mission, which relied on a state estimation system assuming planar terrain, MSH requires a novel approach due to the complex topography of the landing site. This work introduces a novel range-visual-inertial odometry system tailored for the unique challenges of the MSH mission. Our system extends the state-of-the-art xVIO framework by fusing consistent range information with visual and inertial measurements, preventing metric scale drift in the absence of visual-inertial excitation (mono camera and constant velocity descent), and enabling landing on any terrain structure, without requiring any planar terrain assumption. Through extensive testing in image-based simulations using actual terrain structure and textures collected in Mars orbit, we demonstrate that our range-VIO approach estimates terrain-relative velocity meeting the stringent mission requirements, and outperforming existing methods.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# マイクロ波量子配線用メカニカル混合インジウム超伝導接続

Mechanically-intermixed indium superconducting connections for microwave quantum interconnects ( http://arxiv.org/abs/2409.04634v1 )

ライセンス: Link先を確認
Yves Martin, Neereja Sundaresan, Jae-woong Nah, Rachel Steiner, Marco Turchetti, Kevin Stawiasz, Chi Xiong, Jason S. Orcutt, (参考訳) 超伝導同軸ケーブルは超伝導量子プロセッサを相互接続するための重要な通信チャネルを表す。 ここでは、低損失量子配線用アルミニウム同軸ケーブルと機械的に混合したインジウム結合について報告する。 機械的に混合したインジウム結合に付随する総共振器内部品質係数(Q_i$)および接触(R_{cont}$)またはシャント抵抗(R_{shunt}$)を特徴付けるABCD行列形式について述べる。 典型周波数帯(3-5.5GHz)のインジウム結合法を20mK以下で適用した4つの共振器試験系を提案する。 我々は、内部導体を容量的に結合して反射測定を行う外部導体の押圧結合により、高内部品質率アルミニウムケーブル(Q_i = 1.55 \pm 0.37 x 10^6$)を測定する。 次に、ケーブル共振器のモードの総内部品質係数を中間点において、平均$Q_i = 1.40 x 10^6$ および$Q_i = 9.39 x 10^5$ とし、内部導体のインジウム結合に対して$R_{cont} = 6x10^{-4} \Omega$ を抽出するために、系のABCD行列モデルを用いて、内部導体のインジウム結合に対して平均$Q_i = 1.40 x 10^6$ と $Q_i = 9.39 x 10^5$ を抽出する。 最後に,ケーブル-チップ接続を電流ノードと電圧ノードに配置し,平均$Q_i = 1.24 x 10^6$と$Q_i = 1.07 x 10^6$を用いてそれぞれ$R_{cont} = 8.5x10^{-4} \Omega$と$R_{shunt} = 1.3x10^7 \Omega$を抽出した。 これらの手法により、将来の量子のために超伝導ケーブルを接合するための低損失の一連の手法を実証する。

Superconducting coaxial cables represent critical communication channels for interconnecting superconducting quantum processors. Here, we report mechanically-intermixed indium joins to aluminum coaxial cables for low loss quantum interconnects. We describe an ABCD matrix formalism to characterize the total resonator internal quality factor ($Q_i$) and any contact ($R_{cont}$) or shunt resistance ($R_{shunt}$) associated with the mechanically-intermixed indium joins. We present four resonator test systems incorporating three indium join methods over the typical frequency range of interest (3-5.5GHz) at temperatures below $20mK$. We measure high internal quality factor aluminum cables ($Q_i = 1.55 \pm 0.37 x 10^6$) through a push-to-connect indium join of the outer conductor that capacitively couples the inner conductor for reflection measurements. We then characterize the total internal quality factors of modes of a cable resonator with a push-to-connect superconducting cable-splice at the midpoint to find mean $Q_i = 1.40 x 10^6$ and $Q_i = 9.39 x 10^5$ for even and odd-modes respectively and use an ABCD matrix model of the system to extract $R_{cont} = 6x10^{-4} \Omega$ for the indium join of the inner conductor. Finally, we demonstrate indium press-mold cable-to-chip connections where the cable-to-chip join is placed at a current node and voltage node through varying on-chip waveguide lengths with mean $Q_i = 1.24 x 10^6$ and $Q_i = 1.07 x 10^6$ respectively to extract $R_{cont} = 8.5x10^{-4} \Omega$ and $R_{shunt} = 1.3x10^7 \Omega$ for the interface. With these techniques, we demonstrate a set of low-loss methods to join superconducting cables for future quantum
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# サンプルガウス機構に関する注記

Notes on Sampled Gaussian Mechanism ( http://arxiv.org/abs/2409.04636v1 )

ライセンス: Link先を確認
Nikita P. Kalinin, (参考訳) これらのノートでは、R\"ais\"a, O. et al[サブサンプリングはマジックではない:なぜ大きなバッチサイズが働くのか? 論文の定理 6.2 は、サンプリングされたガウス機構 - 部分サンプリングと加法的ガウス雑音の合成、有効ノイズレベル $\sigma_{\text{eff}} = \frac{\sigma(q)}{q}$ に対して、サブサンプリングレート$q$ の関数として減少すると主張している。 その結果、プライバシーとユーティリティのトレードオフを改善するために、より大きなサブサンプリングレートが好まれる。 本論文は,本論文で未解決のConjecture 6.3の厳密な証明を提供し,Theorem 6.2の証明を完了した。

In these notes, we prove a recent conjecture posed in the paper by R\"ais\"a, O. et al. [Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimization (2024)]. Theorem 6.2 of the paper asserts that for the Sampled Gaussian Mechanism - a composition of subsampling and additive Gaussian noise, the effective noise level, $\sigma_{\text{eff}} = \frac{\sigma(q)}{q}$, decreases as a function of the subsampling rate $q$. Consequently, larger subsampling rates are preferred for better privacy-utility trade-offs. Our notes provide a rigorous proof of Conjecture 6.3, which was left unresolved in the original paper, thereby completing the proof of Theorem 6.2.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# ポスト量子暗号によるフェデレーション学習による量子セキュリティの強化

Enhancing Quantum Security over Federated Learning via Post-Quantum Cryptography ( http://arxiv.org/abs/2409.04637v1 )

ライセンス: Link先を確認
Pingzhi Li, Tianlong Chen, Junyu Liu, (参考訳) フェデレートラーニング(FL)は、エッジデバイスに機械学習モデルをデプロイする標準的なアプローチのひとつであり、プライベートトレーニングデータがクライアントに分散され、各クライアントからローカルに計算された更新を集約することによって、共有モデルが学習される。 このパラダイムは、各トレーニングの終了時にのみ更新を要求することで通信効率を向上させるが、送信されたモデル更新は悪意のある改ざんに弱いままであり、グローバルモデルの完全性にリスクを及ぼす。 現在のデジタルシグネチャアルゴリズムは、これらの通信されたモデルの更新を保護することができるが、大規模な量子コンピューティングの時代には量子セキュリティを確保することができない。 幸いなことに、この脆弱性に対処するために様々なポスト量子暗号アルゴリズムが開発されており、特に3つのNIST標準化アルゴリズム(ディリシウム、FALCON、SPHINCS+)がある。 本研究では,これらの3つのNIST標準化PQCアルゴリズムがFLプロシージャ内のデジタル署名に与える影響を実験的に検討し,幅広いモデル,タスク,FL設定について述べる。 この結果から,Dilithiumは,フェデレート学習におけるディジタル署名のPQCアルゴリズムとして最も効率的であることが示唆された。 さらに,本研究の意義と今後の方向性についても詳細に検討する。

Federated learning (FL) has become one of the standard approaches for deploying machine learning models on edge devices, where private training data are distributed across clients, and a shared model is learned by aggregating locally computed updates from each client. While this paradigm enhances communication efficiency by only requiring updates at the end of each training epoch, the transmitted model updates remain vulnerable to malicious tampering, posing risks to the integrity of the global model. Although current digital signature algorithms can protect these communicated model updates, they fail to ensure quantum security in the era of large-scale quantum computing. Fortunately, various post-quantum cryptography algorithms have been developed to address this vulnerability, especially the three NIST-standardized algorithms - Dilithium, FALCON, and SPHINCS+. In this work, we empirically investigate the impact of these three NIST-standardized PQC algorithms for digital signatures within the FL procedure, covering a wide range of models, tasks, and FL settings. Our results indicate that Dilithium stands out as the most efficient PQC algorithm for digital signature in federated learning. Additionally, we offer an in-depth discussion of the implications of our findings and potential directions for future research.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 強化学習における安全のためのスタック型ユニバーサル継承機能近似器

Stacked Universal Successor Feature Approximators for Safety in Reinforcement Learning ( http://arxiv.org/abs/2409.04641v1 )

ライセンス: Link先を確認
Ian Cannon, Washington Garcia, Thomas Gresavage, Joseph Saurine, Ian Leong, Jared Culbertson, (参考訳) 現実世界の問題は、単一の目的を持った強化学習環境への蒸留に抵抗する複雑な客観的構造を伴うことが多い。 運用コストは多次元タスク性能とエンドステートが将来の可用性に与える影響とのバランスを保ちつつ、環境中の他のエージェントや強化学習エージェント自体の安全性を確保する必要がある。 二次バックアップコントローラによるシステム冗長性は,制約違反のリスクが極めて高い実世界のアプリケーションにおいて,安全性を確保するための有効な方法であることが証明されている。 本研究では,ソフトアクター・クリティック(SAC)に適応し,セカンダリ・セーフティ・コントローラ(SUSFAS)が組み合わさったユニバーサル・セカンダリ・フィーチャー近似(USFA)の積み重ね型連続制御式の有用性について検討する。 本手法は,実行時保証(RTA)コントローラなどのインターベンブリング二次制御器を用いて,SACベースラインと比較して二次目標の性能を向上させる。

Real-world problems often involve complex objective structures that resist distillation into reinforcement learning environments with a single objective. Operation costs must be balanced with multi-dimensional task performance and end-states' effects on future availability, all while ensuring safety for other agents in the environment and the reinforcement learning agent itself. System redundancy through secondary backup controllers has proven to be an effective method to ensure safety in real-world applications where the risk of violating constraints is extremely high. In this work, we investigate the utility of a stacked, continuous-control variation of universal successor feature approximation (USFA) adapted for soft actor-critic (SAC) and coupled with a suite of secondary safety controllers, which we call stacked USFA for safety (SUSFAS). Our method improves performance on secondary objectives compared to SAC baselines using an intervening secondary controller such as a runtime assurance (RTA) controller.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# Qualtranを用いた量子アルゴリズムの表現と解析

Expressing and Analyzing Quantum Algorithms with Qualtran ( http://arxiv.org/abs/2409.04643v1 )

ライセンス: Link先を確認
Matthew P. Harrigan, Tanuj Khattar, Charles Yuan, Anurudh Peduri, Noureldin Yosri, Fionn D. Malone, Ryan Babbush, Nicholas C. Rubin, (参考訳) 量子コンピューティングの理論から現実への遷移は、量子アルゴリズム開発における複雑さ、高度化、トーラス、およびフォールビリティの増大を管理する新しいソフトウェアツールの必要性を喚起した。 本稿では,量子アルゴリズムの表現と解析を行うオープンソースライブラリQualtranを紹介する。 適切な抽象化とデータ構造を用いて、アルゴリズムをシミュレートし、テストし、情報豊富な図を自動的に生成し、リソース要求を集計する。 Qualtranは、現代的なコスト最小化コンパイルに不可欠なアルゴリズム的なビルディングブロックの標準ライブラリを提供する。 その能力は、ハミルトンシミュレーション、化学、暗号における鍵アルゴリズムの再解析によって示される。 Qualtranが出力するアーキテクチャ非依存のリソースカウントは,壁面の時間や物理量子ビット数といった物理コストを表面コードアーキテクチャとして推定するコストモデルの実装に転送することができる。 Qualtranは明示的な構築と再現可能な分析の基礎を提供し、成長する量子アルゴリズム開発コミュニティ内でのコラボレーションを促進する。

Quantum computing's transition from theory to reality has spurred the need for novel software tools to manage the increasing complexity, sophistication, toil, and fallibility of quantum algorithm development. We present Qualtran, an open-source library for representing and analyzing quantum algorithms. Using appropriate abstractions and data structures, we can simulate and test algorithms, automatically generate information-rich diagrams, and tabulate resource requirements. Qualtran offers a standard library of algorithmic building blocks that are essential for modern cost-minimizing compilations. Its capabilities are showcased through the re-analysis of key algorithms in Hamiltonian simulation, chemistry, and cryptography. Architecture-independent resource counts output by Qualtran can be forwarded to our implementation of cost models to estimate physical costs like wall-clock time and number of physical qubits assuming a surface-code architecture. Qualtran provides a foundation for explicit constructions and reproducible analysis, fostering greater collaboration within the growing quantum algorithm development community.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# Kubernetesのセキュリティランドスケープ - 開発者の議論からAI駆動の視点

The Kubernetes Security Landscape: AI-Driven Insights from Developer Discussions ( http://arxiv.org/abs/2409.04647v1 )

ライセンス: Link先を確認
J. Alexander Curtis, Nasir U. Eisty, (参考訳) コンテナオーケストレーションソリューションのKubernetesは、プロダクション環境でコンテナを大規模に管理するための業界標準として、急速に普及している。 特に大規模組織で広く採用されていることで、そのプロファイルが向上し、セキュリティ上の問題の主要なターゲットとなっている。 この研究は、過去4年間にStack Overflow上に投稿されたすべてのKubernetesポストを分析して、Kubernetes実践者の間でどの程度のセキュリティ上の懸念があるのかを理解することを目的としている。 私たちはKubernetesの実践者からセキュリティの洞察を集め、クリーニングとトピッククラスタリングのための機械学習アルゴリズムを通じてデータを変換しました。 その後、高度なAIツールを使用してトピック記述を自動的に生成し、分析プロセスを短縮した。 この分析では、セキュリティ関連の投稿がこれらのフォーラムで第4位にランクされ、全体的な議論の12.3%を占めた。 さらに,セキュリティに関する議論の頻度は一定だが,その人気と影響力は著しく増大している。 Kubernetesユーザは一貫してセキュリティトピックを優先し、セキュリティポストの人気は、セキュアなKubernetesクラスタを維持することへの関心と関心の高まりを反映している。 この発見は、さらなる研究とそれを解決するための追加ツールの開発を保証する重要なセキュリティ問題を強調している。

Kubernetes, the go-to container orchestration solution, has swiftly become the industry standard for managing containers at scale in production environments. Its widespread adoption, particularly in large organizations, has elevated its profile and made it a prime target for security concerns. This study aims to understand how prevalent security concerns are among Kubernetes practitioners by analyzing all Kubernetes posts made on Stack Overflow over the past four years. We gathered security insights from Kubernetes practitioners and transformed the data through machine learning algorithms for cleaning and topic clustering. Subsequently, we used advanced AI tools to automatically generate topic descriptions, thereby reducing the analysis process. In our analysis, security-related posts ranked as the fourth most prevalent topic in these forums, comprising 12.3% of the overall discussions. Furthermore, the findings indicated that although the frequency of security discussions has remained constant, their popularity and influence have experienced significant growth. Kubernetes users consistently prioritize security topics, and the rising popularity of security posts reflects a growing interest and concern for maintaining secure Kubernetes clusters. The findings underscore key security issues that warrant further research and the development of additional tools to resolve them.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 学習ベーステストを用いた自動テストケース生成のためのエンサンブル機械学習アルゴリズムの導入

Introducing Ensemble Machine Learning Algorithms for Automatic Test Case Generation using Learning Based Testing ( http://arxiv.org/abs/2409.04651v1 )

ライセンス: Link先を確認
Sheikh Md. Mushfiqur Rahman, Nasir U. Eisty, (参考訳) Ensemble法は、複数のモデルを組み合わせて予測能力を向上し、一般化エラーを低減する強力な機械学習アルゴリズムである。 しかし, システムアンダーテスト(SUT)における障害検出に有効なテストケースを生成する可能性については, 広く調査されていない。 本研究では,学習ベーステスト(LBT)アルゴリズムにおけるモデル推論のためのアンサンブル手法とベース分類器の組み合わせを体系的に検討し,SUTの故障検出テストケースを概念実証として生成することを目的とする。 提案手法では,異なるアンサンブル法とモデル推論のための分類器の組み合わせを用いて,関数に関する一連の実験を行い,効率的なテストケースを生成する。 次に、それらの突然変異スコアに基づいてテストスイートを比較します。 提案手法は, 効率的なテストケースを生成する上で, 全体の性能が向上していることを示すとともに, 提案手法は, ランダム生成よりも優れた性能を示している。 この分析は様々な種類の関数に対して適切なアンサンブル法を決定するのに役立つ。 LBTにアンサンブル法を組み込むことにより,効率的なテストケース生成にアンサンブル法を活用する方法の理解に寄与する。

Ensemble methods are powerful machine learning algorithms that combine multiple models to enhance prediction capabilities and reduce generalization errors. However, their potential to generate effective test cases for fault detection in a System Under Test (SUT) has not been extensively explored. This study aims to systematically investigate the combination of ensemble methods and base classifiers for model inference in a Learning Based Testing (LBT) algorithm to generate fault-detecting test cases for SUTs as a proof of concept. We conduct a series of experiments on functions, generating effective test cases using different ensemble methods and classifier combinations for model inference in our proposed LBT method. We then compare the test suites based on their mutation score. The results indicate that Boosting ensemble methods show overall better performance in generating effective test cases, and the proposed method is performing better than random generation. This analysis helps determine the appropriate ensemble methods for various types of functions. By incorporating ensemble methods into the LBT, this research contributes to the understanding of how to leverage ensemble methods for effective test case generation.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# 米国におけるアルゴリズムバイアス計測のためのプライバシ保護レース/倫理性評価

Privacy-Preserving Race/Ethnicity Estimation for Algorithmic Bias Measurement in the U.S ( http://arxiv.org/abs/2409.04652v1 )

ライセンス: Link先を確認
Saikrishna Badrinarayanan, Osonde Osoba, Miao Cheng, Ryan Rogers, Sakshi Jain, Rahul Tandra, Natesh S. Pillai, (参考訳) 平等な治療のためのテストを含むAI公正度測定は、しばしばAIシステムの非集約的な評価の形を取る。 このような測定は、Responsible AIオペレーションの重要な部分です。 これらの測定は、人口集団やサブ人口集団のシステムパフォーマンスを比較し、通常、性別、人種、民族、位置といったメンバーレベルの人口統計信号を必要とする。 しかし、人種や民族のような繊細なメンバーレベルの人口特性は、プラットフォームの選択、法的制約、文化規範のために入手し、利用することは困難である。 本稿では,<emph{U.S. LinkedIn member}の人種・民族性に関するAI公正度測定を,プライバシ保護の方法で実現するタスクに焦点をあてる。 本稿では,プライバシ保存型確率的レース/倫理性推定(PPRE)手法を提案する。 PPREはBayesian Improved Surname Geocoding(BISG)モデルと、自己報告の少ないLinkedIn調査サンプルと、セキュアな2要素計算や差分プライバシーといったプライバシ強化技術を組み合わせて、メンバーのプライバシを維持しながら有意義な公正度測定を可能にする。 PPRE法とそのプライバシー保証の詳細について述べる。 次に、サンプル測定操作を例示する。 プライバシー保護のための公正度測定能力を拡大するためのオープンリサーチとエンジニアリングの課題をレビューして締めくくります。

AI fairness measurements, including tests for equal treatment, often take the form of disaggregated evaluations of AI systems. Such measurements are an important part of Responsible AI operations. These measurements compare system performance across demographic groups or sub-populations and typically require member-level demographic signals such as gender, race, ethnicity, and location. However, sensitive member-level demographic attributes like race and ethnicity can be challenging to obtain and use due to platform choices, legal constraints, and cultural norms. In this paper, we focus on the task of enabling AI fairness measurements on race/ethnicity for \emph{U.S. LinkedIn members} in a privacy-preserving manner. We present the Privacy-Preserving Probabilistic Race/Ethnicity Estimation (PPRE) method for performing this task. PPRE combines the Bayesian Improved Surname Geocoding (BISG) model, a sparse LinkedIn survey sample of self-reported demographics, and privacy-enhancing technologies like secure two-party computation and differential privacy to enable meaningful fairness measurements while preserving member privacy. We provide details of the PPRE method and its privacy guarantees. We then illustrate sample measurement operations. We conclude with a review of open research and engineering challenges for expanding our privacy-preserving fairness measurement capabilities.
翻訳日:2024-09-10 21:25:10 公開日:2024-09-06
# GNNを用いたモンテカルロ木探索による環境制約による確率的オリエンテーリング問題の解法

Solving Stochastic Orienteering Problems with Chance Constraints Using a GNN Powered Monte Carlo Tree Search ( http://arxiv.org/abs/2409.04653v1 )

ライセンス: Link先を確認
Marcos Abel Zuzuárregui, Stefano Carpin, (参考訳) メッセージパッシングによるグラフニューラルネットワーク(GNN)のパワーを活用したモンテカルロ木探索(MCTS)手法を提案する。 割り当てられた旅行予算を順守しながら、アルゴリズムは確率的な旅行コストを発生させながら収集された報酬を最大化する。 この文脈では、割り当てられた予算を超える許容確率をチャンス制約として表す。 我々のMCTSソリューションは、計画と実行を交互に変更するオンラインかついつでも利用できるアルゴリズムであり、残りの旅行予算を継続的に監視することで、訪問すべき次の頂点を決定する。 我々の研究の新規性は、MCTSフレームワークのロールアウトフェーズがメッセージパッシングGNNを使用して実装され、利用可能な各アクションの実用性と失敗の確率を予測することである。 これにより、検索プロセスが大幅に高速化される。 実験により,提案手法とアーキテクチャを用いることで,複雑な問題を効率よく解きながら,回収した報酬の点からある程度の損失を被ることができた。 さらに,本手法がトレーニングデータセットの特性を超えて一般化可能であることを示す。 論文のWebサイト、オープンソースコード、補足的なドキュメントはucmercedrobotics.github.io/gnn-sopで見ることができる。

Leveraging the power of a graph neural network (GNN) with message passing, we present a Monte Carlo Tree Search (MCTS) method to solve stochastic orienteering problems with chance constraints. While adhering to an assigned travel budget the algorithm seeks to maximize collected reward while incurring stochastic travel costs. In this context, the acceptable probability of exceeding the assigned budget is expressed as a chance constraint. Our MCTS solution is an online and anytime algorithm alternating planning and execution that determines the next vertex to visit by continuously monitoring the remaining travel budget. The novelty of our work is that the rollout phase in the MCTS framework is implemented using a message passing GNN, predicting both the utility and failure probability of each available action. This allows to enormously expedite the search process. Our experimental evaluation shows that with the proposed method and architecture we manage to efficiently solve complex problem instances while incurring in moderate losses in terms of collected reward. Moreover, we demonstrate how the approach is capable of generalizing beyond the characteristics of the training dataset. The paper's website, open-source code, and supplementary documentation can be found at ucmercedrobotics.github.io/gnn-sop.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-06
# 変圧器における統計的バイアスの有無の一般化と覚書化

Generalization vs. Memorization in the Presence of Statistical Biases in Transformers ( http://arxiv.org/abs/2409.04654v1 )

ライセンス: Link先を確認
John Mitros, Damien Teney, (参考訳) 本研究の目的は,統計バイアスがアルゴリズム上の分布内および分布外データを一般化するモデルの能力にどのように影響するかを理解することである。 以前の研究は、トランスフォーマーがこれらの急激な相関に依存することを不注意に学び、一般化能力の過大評価に繋がることを示している。 そこで本研究では,これらのバイアスの存在を体系的に導入し,変化させることにより,いくつかのアルゴリズムタスクにおけるトランスフォーマーモデルの評価を行う。 また、変換器モデルの異なるコンポーネントが一般化に与える影響を分析する。 その結果,統計バイアスは分布外データの性能を損なうことが示唆され,一般化能力を過大評価する結果となった。 これらのモデルは、これらのバイアスを含むタスクのパフォーマンスによって示されるように、推論のためにこれらの急激な相関に大きく依存する。

This study aims to understand how statistical biases affect the model's ability to generalize to in-distribution and out-of-distribution data on algorithmic tasks. Prior research indicates that transformers may inadvertently learn to rely on these spurious correlations, leading to an overestimation of their generalization capabilities. To investigate this, we evaluate transformer models on several synthetic algorithmic tasks, systematically introducing and varying the presence of these biases. We also analyze how different components of the transformer models impact their generalization. Our findings suggest that statistical biases impair the model's performance on out-of-distribution data, providing a overestimation of its generalization capabilities. The models rely heavily on these spurious correlations for inference, as indicated by their performance on tasks including such biases.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-06
# キャビティ制御による暗黒物質検出の量子化--レイリーの呪いを和らげる

Quantum-enhanced dark matter detection with in-cavity control: mitigating the Rayleigh curse ( http://arxiv.org/abs/2409.04656v1 )

ライセンス: Link先を確認
Haowei Shi, Anthony J. Brady, Wojciech Górecki, Lorenzo Maccone, Roberto Di Candia, Quntao Zhuang, (参考訳) ダークマターの性質は現代物理学の基本的なパズルである。 ダークマターを探索する主要なアプローチは、マイクロ波キャビティにおける静かなノイズを検出することである。 しかし、スクイーズのような一般的な量子資源の量子的利点は本質的にレイリーの呪いによって制限されている。 本稿では,レイリー限界を緩和するプロトコルを提案する。 このプロトコルは3つのステップで構成されている: キャビティ内量子状態の準備、調整可能な時間を含むアクシオン蓄積、測定である。 量子源として,単一モード圧縮状態 (SMSS) と2モード圧縮状態 (TMSS) における信号アンシラ対を用いた絡み合い支援ケースに着目した。 量子フィッシャー情報量評価から, キャビティ品質係数, サーマルノイズレベル, スクイージングゲインの要件を導出した。 スクイーズゲインが大きくなると、最適のアクシオン蓄積時間が減少し、損失を減らし、レイリーの呪いを和らげる。 全体として,TMSSは低温限界に敏感であることがわかった。 SMSSの場合、真空よりも大きな利得が要求されるため、ホモダインは最適性を達成するのに十分である。 TMSSでは、アンチスキーズと光子計数が最適である必要がある。 近年,光子計数のための磁場抵抗型インキャビティスクイーズと高速カップリングの進歩により,このプロトコルは軸方向検出のシナリオと互換性がある。

The nature of dark matter is a fundamental puzzle in modern physics. A major approach of searching for dark matter relies on detecting feeble noise in microwave cavities. However, the quantum advantages of common quantum resources such as squeezing are intrinsically limited by the Rayleigh curse -- a constant loss places a sensitivity upper bound on these quantum resources. In this paper, we propose an in-situ protocol to mitigate such Rayleigh limit. The protocol consists of three steps: in-cavity quantum state preparation, axion accumulation with tunable time duration, and measurement. For the quantum source, we focus on the single-mode squeezed state (SMSS), and the entanglement-assisted case using signal-ancilla pairs in two-mode squeezed state (TMSS), where the ancilla does not interact with the axion. From quantum Fisher information rate evaluation, we derive the requirement of cavity quality factor, thermal noise level and squeezing gain for quantum advantage. When the squeezing gain becomes larger, the optimal axion accumulation time decreases to reduce loss and mitigate the Rayleigh curse -- the quantum advantage keeps increasing with the squeezing gain. Overall, we find that TMSS is more sensitive in the low temperature limit. In the case of SMSS, as large gain is required for advantage over vacuum, homodyne is sufficient to achieve optimality. For TMSS, anti-squeezing and photon counting is necessary to be optimal. Thanks to the recent advance in magnetic-field-resilient in-cavity squeezing and rapidly coupling out for photon counting, the proposed protocol is compatible with axion detection scenario.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-06
# 機械学習による技術的負債と自己充足的技術的負債の同定の進歩を探る

Exploring the Advances in Using Machine Learning to Identify Technical Debt and Self-Admitted Technical Debt ( http://arxiv.org/abs/2409.04662v1 )

ライセンス: Link先を確認
Eric L. Melin, Nasir U. Eisty, (参考訳) ソフトウェアエンジニアリングでは、短期間の緊急性と長期の保守性の間の妥協を示す技術的負債が、さまざまな機械学習アプローチを通じて研究者によって対処されている。 本研究は、ソフトウェアプロジェクトにおける技術的負債と自己許容技術的負債を検出する機械学習手法を用いた現在の研究状況の反映と、技術的負債と自己許容技術的負債に関する機械学習研究の比較を目的とする。 我々は2024年までの論文の文献レビューを行い、機械学習を用いた技術的負債と自己承認的技術的負債の識別について議論した。 以上の結果から,BERTモデルは他よりもはるかに効果的であることが示唆された。 本研究は, 技術性能が長年にわたって向上してきたが, 広く普及したアプローチが最優先事項であることを示す。 その結果,今後の研究においてBERT技術が他の技術よりも優先されることが示唆された。

In software engineering, technical debt, signifying the compromise between short-term expediency and long-term maintainability, is being addressed by researchers through various machine learning approaches. This study seeks to provide a reflection on the current research landscape employing machine learning methods for detecting technical debt and self-admitted technical debt in software projects and compare the machine learning research about technical debt and self-admitted technical debt. We performed a literature review of studies published up to 2024 that discuss technical debt and self-admitted technical debt identification using machine learning. Our findings reveal the utilization of a diverse range of machine learning techniques, with BERT models proving significantly more effective than others. This study demonstrates that although the performance of techniques has improved over the years, no universally adopted approach reigns supreme. The results suggest prioritizing BERT techniques over others in future works.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-06
# SU(3)離散部分群に対する原始量子ゲート:$Σ(36\times3)$

Primitive Quantum Gates for an SU(3) Discrete Subgroup: $Σ(36\times3)$ ( http://arxiv.org/abs/2405.05973v4 )

ライセンス: Link先を確認
Erik J. Gustafson, Yao Ji, Henry Lamm, Edison M. Murairi, Sebastian Osorio Perez, Shuchen Zhu, (参考訳) 我々は、108要素の$\Sigma(36\times3)$群のデジタル量子シミュレーションのための原始ゲートセットを構築する。 量子シミュレーションのために$SU(3)$の非アーベル結晶のような部分群が構築されたのはこれが初めてである。 ゲージリンクレジスタと必要なプリミティブ -- 反転ゲート、グループ乗算ゲート、トレースゲート、および$\Sigma(36\times3)$ Fourier変換 -- は、8量子符号化と不均一3量子レジスタと2量子レジスタの両方に対して提示される。 後者では、任意のユニタリをこのアーキテクチャに分解する特別なコンパイラが開発された。

We construct the primitive gate set for the digital quantum simulation of the 108-element $\Sigma(36\times3)$ group. This is the first time a nonabelian crystal-like subgroup of $SU(3)$ has been constructed for quantum simulation. The gauge link registers and necessary primitives -- the inversion gate, the group multiplication gate, the trace gate, and the $\Sigma(36\times3)$ Fourier transform -- are presented for both an eight-qubit encoding and a heterogeneous three-qutrit plus two-qubit register. For the latter, a specialized compiler was developed for decomposing arbitrary unitaries onto this architecture.
翻訳日:2024-09-10 11:18:54 公開日:2024-09-06
# GraphEx: Advertiser Keyphrase Recommendationのためのグラフベースの抽出手法

GraphEx: A Graph-based Extraction Method for Advertiser Keyphrase Recommendation ( http://arxiv.org/abs/2409.03140v2 )

ライセンス: Link先を確認
Ashirbad Mishra, Soumik Dey, Marshall Wu, Jinyu Zhao, He Yu, Kaichen Ni, Binbin Li, Kamesh Madduri, (参考訳) オンライン販売者や広告主は、彼らのリストに記載されている商品のキーワードを推奨する。 このようなレコメンデーションを生成する一般的なパラダイムのひとつがExtreme Multi-Label Classification (XMC)である。 Eコマースプラットフォーム上でキーフレーズレコメンデーションに伝統的なアイテムクエリベースのタグ付けやマッピング技術を使用することの限界について概説する。 GraphExは、アイテムタイトルからトークンの置換を抽出することで、売り手に対してキーフレーズを推奨する、革新的なグラフベースのアプローチである。 さらに、精度/リコールのような従来のメトリクスに依存することは、現実のシナリオにおけるパフォーマンスを評価するためにメトリクスの組み合わせを必要とすることを実証する。 これらの指標は、キーフレーズのアイテムとの関係と買い手のアウトリーチの可能性を評価するために設計されている。 GraphExはeBayのプロダクションモデルより優れており、上記の目標を達成する。 リソース制約のあるプロダクション環境でほぼリアルタイムの推論をサポートし、何十億ものアイテムに対して効果的にスケールする。

Online sellers and advertisers are recommended keyphrases for their listed products, which they bid on to enhance their sales. One popular paradigm that generates such recommendations is Extreme Multi-Label Classification (XMC), which involves tagging/mapping keyphrases to items. We outline the limitations of using traditional item-query based tagging or mapping techniques for keyphrase recommendations on E-Commerce platforms. We introduce GraphEx, an innovative graph-based approach that recommends keyphrases to sellers using extraction of token permutations from item titles. Additionally, we demonstrate that relying on traditional metrics such as precision/recall can be misleading in practical applications, thereby necessitating a combination of metrics to evaluate performance in real-world scenarios. These metrics are designed to assess the relevance of keyphrases to items and the potential for buyer outreach. GraphEx outperforms production models at eBay, achieving the objectives mentioned above. It supports near real-time inferencing in resource-constrained production environments and scales effectively for billions of items.
翻訳日:2024-09-10 11:18:54 公開日:2024-09-06
# ライドハイリングシステムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v6 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang, (参考訳) ライドシェアリングシステムは、最適なサービス提供、価格戦略、運用効率を確保するために、動的需要と供給の効率的な管理を必要とします。 配車システムにおける需要と需給ギャップを予測するため、タスクワイドおよび都市ワイドで時空間予測モデルを個別に設計することは、拡大する輸送ネットワーク企業にとって負担となる。 そこで本研究では,各都市の時空間課題を同時に予測する,畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネットワーク(CNN),反復ニューラルネットワーク(RNN)を用いた,時空間ネットワーク(GESME-Net)と時空間ネットワーク(GESME-Net)のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、タスク適応層をマルチタスク学習における共同表現学習のアーキテクチャに統合し、予測に使用する入力特徴の寄与を明らかにする。 提案されたアーキテクチャは、Didi Chuxingのデータでテストされている。 一 北京の需要と需給ギャップを同時に予測すること (二)Chengdu、Xianの需要を同時に予測する。 どちらのシナリオでも、提案したアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Ride-hailing system requires efficient management of dynamic demand and supply to ensure optimal service delivery, pricing strategies, and operational efficiency. Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner to forecast demand and supply-demand gap in a ride-hailing system poses a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting these spatio-temporal tasks in a city as well as across different cities. Furthermore, a task adaptation layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2024-09-09 21:24:12 公開日:2024-09-06
# 拡張性混合領域ガウス過程モデリングと長手データのためのモデル縮小

Scalable mixed-domain Gaussian process modeling and model reduction for longitudinal data ( http://arxiv.org/abs/2111.02019v2 )

ライセンス: Link先を確認
Juho Timonen, Harri Lähdesmäki, (参考訳) 分類型と連続型の両方の入力変数を組み合わせたガウス過程(GP)モデルは、縦方向のデータ解析や計算機実験で使われている。 しかし、これらのモデルに対する標準的な推論は典型的な3次スケーリングを持ち、共分散関数が非連続であるため、GPに対する一般的なスケーラブルな近似スキームは適用できない。 本研究では,混合領域共分散関数の基底関数近似法を導出し,観測数や基底関数の総数に対して線形にスケールする。 提案手法は離散観測モデルを用いたベイズGP回帰にも自然に適用可能である。 提案手法のスケーラビリティを実演し、長手データコンテキストにおける加法GPモデルのモデル削減手法の比較を行う。 我々は、対応する正確なモデルに適合するよりも、実行時のごく一部で正確なGPモデルを正確に近似できることを確認した。 さらに、多数の候補予測器を扱う際に、より小さく、より解釈可能なモデルを得るためのスケーラブルなモデル縮小ワークフローを実証する。

Gaussian process (GP) models that combine both categorical and continuous input variables have found use in longitudinal data analysis of and computer experiments. However, standard inference for these models has the typical cubic scaling, and common scalable approximation schemes for GPs cannot be applied since the covariance function is non-continuous. In this work, we derive a basis function approximation scheme for mixed-domain covariance functions, which scales linearly with respect to the number of observations and total number of basis functions. The proposed approach is naturally applicable to also Bayesian GP regression with discrete observation models. We demonstrate the scalability of the approach and compare model reduction techniques for additive GP models in a longitudinal data context. We confirm that we can approximate the exact GP model accurately in a fraction of the runtime compared to fitting the corresponding exact model. In addition, we demonstrate a scalable model reduction workflow for obtaining smaller and more interpretable models when dealing with a large number of candidate predictors.
翻訳日:2024-09-09 21:24:12 公開日:2024-09-06
# AI倫理の実践原則:デザイナと開発者の視点

AI Ethics Principles in Practice: Perspectives of Designers and Developers ( http://arxiv.org/abs/2112.07467v8 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu, Emma Schleiger, Jon Whittle, Justine Lacey, Glenn Newnham, Stefan Hajkowicz, Cathy Robinson, David Hansen, (参考訳) さまざまな公表されたAI倫理原則のコンセンサスがアプローチされているため、責任あるAIシステムの設計と開発に容易に適用可能な、ハイレベルな原則と実践的なテクニックのギャップは依然として残っている。 オーストラリア国立科学研究機関(CSIRO)の研究者や技術者の実践と経験について検討し,多くの応用分野においてAIシステムの設計・開発に携わっている。 半構造化されたインタビューは、参加者の実践がオーストラリア政府によって提案された高レベルのAI倫理原則とどのように関連し、整合しているかを調べるために使用された。 原則は,(1)プライバシ保護とセキュリティ,(2)信頼性と安全性,(3)透明性と説明可能性,(4)公正性,(5)競争性,(6)説明責任,(7)人間中心の価値,(8)人間,社会,環境の健全性である。 インタビューから得られた洞察に関する議論には、原則間の様々な緊張とトレードオフが含まれ、それぞれのハイレベルな原則を実装するための提案がある。 また,関連する支援機構の強化をめざして提案する。

As consensus across the various published AI ethics principles is approached, a gap remains between high-level principles and practical techniques that can be readily adopted to design and develop responsible AI systems. We examine the practices and experiences of researchers and engineers from Australia's national scientific research agency (CSIRO), who are involved in designing and developing AI systems for many application areas. Semi-structured interviews were used to examine how the practices of the participants relate to and align with a set of high-level AI ethics principles proposed by the Australian Government. The principles comprise: (1) privacy protection and security, (2) reliability and safety, (3) transparency and explainability, (4) fairness, (5) contestability, (6) accountability, (7) human-centred values, (8) human, social and environmental wellbeing. Discussions on the gained insights from the interviews include various tensions and trade-offs between the principles, and provide suggestions for implementing each high-level principle. We also present suggestions aiming to enhance associated support mechanisms.
翻訳日:2024-09-09 21:24:12 公開日:2024-09-06
# 固定k$-Nearest Neighbors を用いたminimax Optimal Algorithms

Minimax Optimal Algorithms with Fixed-$k$-Nearest Neighbors ( http://arxiv.org/abs/2202.02464v3 )

ライセンス: Link先を確認
J. Jon Ryu, Young-Han Kim, (参考訳) 本稿では,固定k$近辺(NN)探索に基づいて,最小値の分類,回帰,密度推定を行う方法を提案する。 大規模データセットを小さなグループに分割し,各サブセットに対するクエリポイントに対して$k$-NNを求める分散学習シナリオを検討する。 本稿では,各問題に対する最小値の最適値を達成するための分類,回帰,密度推定のために,固定k$-NN情報を集約する「emph{optimal}ルール」を提案する。 十分多数のグループに対して固定された$k$の分散アルゴリズムは、ある正規性条件下での乗算対数係数までの最小誤差率を達成することを示す。 大まかに言えば、$M$グループによる分散$k$-NNルールは、固定$k$であっても標準$\Theta(kM)$-NNルールに匹敵するパフォーマンスを持つ。

This paper presents how to perform minimax optimal classification, regression, and density estimation based on fixed-$k$ nearest neighbor (NN) searches. We consider a distributed learning scenario, in which a massive dataset is split into smaller groups, where the $k$-NNs are found for a query point with respect to each subset of data. We propose \emph{optimal} rules to aggregate the fixed-$k$-NN information for classification, regression, and density estimation that achieve minimax optimal rates for the respective problems. We show that the distributed algorithm with a fixed $k$ over a sufficiently large number of groups attains a minimax optimal error rate up to a multiplicative logarithmic factor under some regularity conditions. Roughly speaking, distributed $k$-NN rules with $M$ groups has a performance comparable to the standard $\Theta(kM)$-NN rules even for fixed $k$.
翻訳日:2024-09-09 21:24:12 公開日:2024-09-06
# フレキシブル匿名ネットワークを目指して

Towards Flexible Anonymous Networks ( http://arxiv.org/abs/2203.03764v3 )

ライセンス: Link先を確認
Florentin Rochet, Jules Dejaeghere, Tariq Elahi, (参考訳) Torのような匿名通信設計は、様々なグローバルな場所でリレーを走らせる多くのボランティアに対して、分散信頼に基づくセキュリティを構築している。 実際には、この分布はTorソフトウェアの多くのバージョンが共存する異種ネットワークにつながり、それぞれ異なるプロトコル機能を持つ。 この異種性のため、Tor開発者はネットワークの拡張性を維持する戦略として、前方互換のプロトコル設計を採用する。 この戦略は、Torソフトウェアの異なるバージョンが、発見不可能なエラーなしに相互作用することを保証することを目的としている。 本研究は,プロトコルの基本的なセキュリティ問題として,前方互換性のあるプロトコルの考慮によって実現されるプロトコル寛容を論じる。 私たちは、開発者にとって有益である一方で、プロトコルの寛容さは、過去15年間にTorに対する強力な攻撃を引き起こしている、と論じています。 この問題に対処するために、Flexible Anonymous Network (FAN)を提案する。これはボランティアベースの分散ネットワークのための新しいソフトウェアアーキテクチャで、開発者がソフトウェアを継続的に進化させる能力を失うことなく、依存関係をプロトコル寛容からシフトさせる。 我が家 一 実施のインスタンスを作成すること 二 そのオーバーヘッドを評価して、 三 今もなおTorに当てはまる重度の攻撃に対して防衛するためのFANの利益のいくつかを実験すること。

Anonymous Communication designs such as Tor build their security on distributed trust over many volunteers running relays in diverse global locations. In practice, this distribution leads to a heterogeneous network in which many versions of the Tor software co-exist, each with differing sets of protocol features. Because of this heterogeneity, Tor developers employ forward-compatible protocol design as a strategy to maintain network extensibility. This strategy aims to guarantee that different versions of the Tor software interact without unrecoverable errors. In this work, we cast protocol tolerance that is enabled by forward-compatible protocol considerations as a fundamental security issue. We argue that, while being beneficial for the developers, protocol tolerance has resulted in a number of strong attacks against Tor in the past fifteen years. To address this issue, we propose Flexible Anonymous Network (FAN), a new software architecture for volunteer-based distributed networks that shifts the dependence away from protocol tolerance without losing the ability for developers to ensure the continuous evolution of their software. We i) instantiate an implementation, ii) evaluate its overheads and, iii) experiment with several of FAN's benefits to defend against a severe attack still applicable to Tor today.
翻訳日:2024-09-09 21:24:12 公開日:2024-09-06
# ダークマターの原子干渉計試験

Atom Interferometer Tests of Dark Matter ( http://arxiv.org/abs/2205.13546v4 )

ライセンス: Link先を確認
Yufeng Du, Clara Murgui, Kris Pardo, Yikun Wang, Kathryn M. Zurek, (参考訳) ダークマターの直接検出実験は、大きなパラメータ空間を徐々に排除している。 しかし、粒子質量が$<$ GeVの軽いダークマターモデルはまだほとんど拘束されていない。 本稿では,サブGeV質量における暗黒物質サブコンポーネントの検出に原子干渉計を用いる提案について検討する。 一般化ダークマター直接検出フレームワークを用いた原子干渉計の1つの「アーム」からダークマター散乱によるデコヒーレンスと位相変化について述べる。 これにより、核のリコイル、隠された光子過程、アクシオン相互作用など、複数のチャネルを考えることができる。 この枠組みをいくつかの原子干渉計実験に応用する。 原子干渉計は極低運動量沈着に敏感であり、そのコヒーレント原子は感度を高める可能性があるため、これらの実験は競争力が高く、他の直接検出法と相補的である。 特に、原子干渉計は、$m_\chi \lesssim 10~\rm{keV}$でダークマターサブコンポーネントをプローブすることができる。 中間子質量が$m_\phi=10^{-5}m_\chi$の場合、将来の原子干渉計は、暗黒物質質量に対して$m_\chi \sim 10^{-5} - 10^{-1}~\rm{MeV}$$$ $m_\chi \sim 10^{-42}~\rm{cm}^2$まで核再コイルの既存の制約のギャップを埋めることができる。

Direct detection experiments for dark matter are increasingly ruling out large parameter spaces. However, light dark matter models with particle masses $<$ GeV are still largely unconstrained. Here we examine a proposal to use atom interferometers to detect a light dark matter subcomponent at sub-GeV masses. We describe the decoherence and phase shifts caused by dark matter scattering off of one "arm" of an atom interferometer using a generalized dark matter direct detection framework. This allows us to consider multiple channels: nuclear recoils, hidden photon processes, and axion interactions. We apply this framework to several proposed atom interferometer experiments. Because atom interferometers are sensitive to extremely low momentum deposition and their coherent atoms may give them a boost in sensitivity, these experiments will be highly competitive and complementary to other direct detection methods. In particular, atom interferometers are uniquely able to probe a dark matter sub-component with $m_\chi \lesssim 10~\rm{keV}$. We find that, for a mediator mass $m_\phi=10^{-5}m_\chi$, future atom interferometers could close a gap in the existing constraints on nuclear recoils down to $\bar{\sigma}_n \sim 10^{-42}~\rm{cm}^2$ for $m_\chi \sim 10^{-5} - 10^{-1}~\rm{MeV}$ dark matter masses.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 確率的近距離アルゴリズム

The Stochastic Proximal Distance Algorithm ( http://arxiv.org/abs/2210.12277v4 )

ライセンス: Link先を確認
Haoyu Jiang, Jason Xu, (参考訳) 確率的手法の確率的なバージョンは統計学や機械学習において多くの注目を集めている。 これらのアルゴリズムは単純でスケーラブルな形式を認め、暗黙の更新を通じて数値的な安定性を享受する傾向がある。 本研究では,最近提案された近距離アルゴリズムの確率的バージョン,すなわち所望の制約付き推定問題をペナルティパラメータ$\rho \rightarrow \infty$として回復する反復最適化手法のクラスを提案し,解析する。 関連する確率的近位法との関係を明らかにし, ペナルティパラメータを学習率として解釈することにより, 近位距離法の実践的証明に使用されるヒューリスティックスを正当化し, 収束保証を初めて確立する。 さらに、最近の理論装置を拡張し、有限誤差境界を確立し、収束率レジームの完全な特徴付けを行う。 また,本手法が一般的な学習課題のバッチバージョンより優れていることを示す。

Stochastic versions of proximal methods have gained much attention in statistics and machine learning. These algorithms tend to admit simple, scalable forms, and enjoy numerical stability via implicit updates. In this work, we propose and analyze a stochastic version of the recently proposed proximal distance algorithm, a class of iterative optimization methods that recover a desired constrained estimation problem as a penalty parameter $\rho \rightarrow \infty$. By uncovering connections to related stochastic proximal methods and interpreting the penalty parameter as the learning rate, we justify heuristics used in practical manifestations of the proximal distance method, establishing their convergence guarantees for the first time. Moreover, we extend recent theoretical devices to establish finite error bounds and a complete characterization of convergence rates regimes. We validate our analysis via a thorough empirical study, also showing that unsurprisingly, the proposed method outpaces batch versions on popular learning tasks.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# ハイパーグラフに基づく機械学習アンサンブルネットワーク侵入検知システム

A Hypergraph-Based Machine Learning Ensemble Network Intrusion Detection System ( http://arxiv.org/abs/2211.03933v3 )

ライセンス: Link先を確認
Zong-Zhi Lin, Thomas D. Pike, Mark M. Bailey, Nathaniel D. Bastian, (参考訳) 悪意のある攻撃を検出するネットワーク侵入検知システム(NIDS)は、引き続き課題に対処している。 NIDSはしばしばオフラインで開発され、自動生成されたポートスキャンの浸透試験に直面する。 これらの課題に対処するために、インターネットプロトコルアドレスと宛先ポートに焦点を当てたハイパーグラフを使用して、ポートスキャン攻撃の進化パターンをキャプチャします。 得られたハイパーグラフベースのメトリクスセットを使用して、アンサンブル機械学習(ML)ベースのNIDSをトレーニングし、ポートスキャンアクティビティの監視と検出、他のタイプの攻撃、敵の侵入を高精度、精度、リコールパフォーマンスでリアルタイムに適応できるようにする。 このML適応型NIDSは,(1)侵入事例,(2)NIDS更新規則,(3)NIDS再トレーニング要求を起動するための攻撃しきい値選択,(4)ネットワークトラフィックの性質を事前に把握していない生産環境の組み合わせによって開発された。 40のシナリオが自動生成され、3つのツリーベースモデルからなるMLアンサンブルNIDSを評価する。 結果のML Ensemble NIDSは拡張され、CIC-IDS2017データセットで評価された。 その結果, MLアンサンブルNIDSは, Update-all-NIDSルールのモデル設定の下で, 提案したMLアンサンブルNIDSをインテリジェントに進化させ, シミュレーションを通して100%近い検出性能で最高の結果を得た。

Network intrusion detection systems (NIDS) to detect malicious attacks continue to meet challenges. NIDS are often developed offline while they face auto-generated port scan infiltration attempts, resulting in a significant time lag from adversarial adaption to NIDS response. To address these challenges, we use hypergraphs focused on internet protocol addresses and destination ports to capture evolving patterns of port scan attacks. The derived set of hypergraph-based metrics are then used to train an ensemble machine learning (ML) based NIDS that allows for real-time adaption in monitoring and detecting port scanning activities, other types of attacks, and adversarial intrusions at high accuracy, precision and recall performances. This ML adapting NIDS was developed through the combination of (1) intrusion examples, (2) NIDS update rules, (3) attack threshold choices to trigger NIDS retraining requests, and (4) a production environment with no prior knowledge of the nature of network traffic. 40 scenarios were auto-generated to evaluate the ML ensemble NIDS comprising three tree-based models. The resulting ML Ensemble NIDS was extended and evaluated with the CIC-IDS2017 dataset. Results show that under the model settings of an Update-ALL-NIDS rule (specifically retrain and update all the three models upon the same NIDS retraining request) the proposed ML ensemble NIDS evolved intelligently and produced the best results with nearly 100% detection performance throughout the simulation.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# LMFLOSS:不均衡な医用画像分類のためのハイブリッドロス

LMFLOSS: A Hybrid Loss For Imbalanced Medical Image Classification ( http://arxiv.org/abs/2212.12741v2 )

ライセンス: Link先を確認
Abu Adnan Sadi, Labib Chowdhury, Nusrat Jahan, Mohammad Newaz Sharif Rafi, Radeya Chowdhury, Faisal Ahamed Khan, Nabeel Mohammed, (参考訳) デジタル技術の発展に伴い、医用画像の分類は画像ベースの臨床意思決定支援システムにとって重要なステップとなっている。 医療画像の自動分類は、AIの使用が大きな社会的影響を生み出す可能性を秘めている重要な領域である。 しかし、いくつかの課題は、実用的で効果的なソリューションの開発の障害として機能する。 これらの課題の1つは、ほとんどの医療画像データセットにおいて、一般的なクラス不均衡の問題である。 その結果、既存のAIテクニック、特にディープラーニングベースの方法論は、このようなシナリオではパフォーマンスが劣ることが多い。 本研究では,医療画像におけるクラス不均衡問題を軽減するために,Large Margin aware Focal(LMF)損失という新たな枠組みを提案する。 LMF損失は、2つのハイパーパラメータで最適化された2つの損失関数の線形結合を表す。 このフレームワークは、マイノリティクラスに対してより広いマージンを強制し、データセットにある挑戦的なサンプルを同時に強調することにより、両方の損失関数の明確な特性を利用する。 3つのニューラルネットワークアーキテクチャと4つの医用画像データセットに関する厳密な実験を行った。 提案手法は,マクロf1スコアの2%-9%向上を示すとともに,他のベースライン法よりも一貫して優れていることを示す実証的証拠を提供する。 また、f1スコアのクラスワイド分析を通じて、提案手法が少数クラスの性能を大幅に向上させることを示す。 実験の結果,提案するフレームワークは,異なるアーキテクチャやデータセットに対して一貫して動作することがわかった。 本研究は,医用画像データセットにおけるクラス不均衡問題に対する,簡便かつ効果的なアプローチを示すものである。 われわれの研究は、医療画像分類へのより一般的なアプローチに向けて、新たな研究を刺激することを期待している。

With advances in digital technology, the classification of medical images has become a crucial step for image-based clinical decision support systems. Automatic medical image classification represents a pivotal domain where the use of AI holds the potential to create a significant social impact. However, several challenges act as obstacles to the development of practical and effective solutions. One of these challenges is the prevalent class imbalance problem in most medical imaging datasets. As a result, existing AI techniques, particularly deep-learning-based methodologies, often underperform in such scenarios. In this study, we propose a novel framework called Large Margin aware Focal (LMF) loss to mitigate the class imbalance problem in medical imaging. The LMF loss represents a linear combination of two loss functions optimized by two hyperparameters. This framework harnesses the distinct characteristics of both loss functions by enforcing wider margins for minority classes while simultaneously emphasizing challenging samples found in the datasets. We perform rigorous experiments on three neural network architectures and with four medical imaging datasets. We provide empirical evidence that our proposed framework consistently outperforms other baseline methods, showing an improvement of 2%-9% in macro-f1 scores. Through class-wise analysis of f1 scores, we also demonstrate how the proposed framework can significantly improve performance for minority classes. The results of our experiments show that our proposed framework can perform consistently well across different architectures and datasets. Overall, our study demonstrates a simple and effective approach to addressing the class imbalance problem in medical imaging datasets. We hope our work will inspire new research toward a more generalized approach to medical image classification.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 高圧縮光センシング・暗号化のための散乱誘起エントロピーアップ

Scattering-induced entropy boost for highly-compressed optical sensing and encryption ( http://arxiv.org/abs/2301.06084v2 )

ライセンス: Link先を確認
Xinrui Zhan, Xuyang Chang, Daoyu Li, Rong Yan, Yinuo Zhang, Liheng Bian, (参考訳) 画像センシングは、大きな視野と高解像度を持つ高品質のマシンビジョンシステムに依存していることが多い。 微細な撮像光学を必要とし、計算コストが高く、画像センサとコンピュータユニット間の通信帯域幅が大きい。 本稿では,資源効率の高い画像分類のための新しい画像自由センシングフレームワークを提案する。 単画素検出のためのフレームワークでは、対象の光学場をまず光学ディフューザで散乱させ、次いで空間光変調器で2次元変調する。 光ディフューザは、同時に、対象情報のための圧縮機と暗号化機として機能し、視野を効果的に狭め、システムのセキュリティを向上させる。 次に、空間光変調器の時間変化パターンを用いて測定された1次元の強度値列を用いて、エンドツーエンドの深層学習に基づいて意味情報を抽出する。 提案したセンシングフレームワークは, MNISTデータセットの分類と中国のライセンスプレートの認識において, サンプリングレートが1%, 5%で95%以上精度が得られ, 光拡散器を使わずに, 最大で24%の効率が得られた。 提案フレームワークは,低帯域幅,低コスト,強力な暗号化を備えたシーン解析のための高スループットマシンインテリジェンスにおいて,重要なブレークスとなる。

Image sensing often relies on a high-quality machine vision system with a large field of view and high resolution. It requires fine imaging optics, has high computational costs, and requires a large communication bandwidth between image sensors and computing units. In this paper, we propose a novel image-free sensing framework for resource-efficient image classification, where the required number of measurements can be reduced by up to two orders of magnitude. In the proposed framework for single-pixel detection, the optical field for a target is first scattered by an optical diffuser and then two-dimensionally modulated by a spatial light modulator. The optical diffuser simultaneously serves as a compressor and an encryptor for the target information, effectively narrowing the field of view and improving the system's security. The one-dimensional sequence of intensity values, which is measured with time-varying patterns on the spatial light modulator, is then used to extract semantic information based on end-to-end deep learning. The proposed sensing framework is shown to obtain over a 95\% accuracy at sampling rates of 1% and 5% for classification on the MNIST dataset and the recognition of Chinese license plates, respectively, and the framework is up to 24% more efficient than the approach without an optical diffuser. The proposed framework represents a significant breakthrough in high-throughput machine intelligence for scene analysis with low bandwidth, low costs, and strong encryption.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# DCEM:固体力学の深い相補的エネルギー法

DCEM: A deep complementary energy method for solid mechanics ( http://arxiv.org/abs/2302.01538v8 )

ライセンス: Link先を確認
Yizheng Wang, Jia Sun, Timon Rabczuk, Yinghua Liu, (参考訳) 近年、ディープラーニングの急速な進歩は、特に固体力学の領域で偏微分方程式(PDE)を解く際に、様々な分野に大きな影響を与え、ニューラルネットワークの顕著な近似能力の恩恵を受けている。 PDEの解決において、物理情報ニューラルネットワーク(PINN)とDeep Energy Method(DEM)が注目されている。 最小ポテンシャルエネルギーと相補エネルギーの原理は、固体力学における2つの重要な変分原理である。 しかし、よく知られたDeep Energy Method (DEM) は最小ポテンシャルエネルギーの原理に基づいているが、最小補完エネルギーの重要な形態は欠いている。 このギャップを埋めるために、最小補間エネルギーの原理に基づく深部補間エネルギー法(DCEM)を提案する。 DCEMの出力関数は、本質的に平衡方程式を満たす応力関数である。 本稿では,Prandtl と Airy の応力関数を用いて数値計算を行い,典型的な機械的問題をモデル化する際,DCEM と既存の PINN と DEM のアルゴリズムを比較した。 以上の結果から,DCEMはDEMよりも応力精度と効率が優れており,理論的解析や数値シミュレーションによって支持される複雑な変位境界条件に対処する上で有利であることが示唆された。 我々はDCEMをDCEM-Plus(DCEM-P)に拡張し、偏微分方程式を満たす項を追加する。 さらに,演算子学習と物理方程式を組み合わせることで,Deep complementary energy operator method (DCEM-O)を提案する。 当初,我々は高忠実度数値結果を用いてDCEM-Oを訓練し,補完エネルギーを取り入れた。 DCEM-PとDCEM-Oは、DCEMの精度と効率をさらに高める。

In recent years, the rapid advancement of deep learning has significantly impacted various fields, particularly in solving partial differential equations (PDEs) in the realm of solid mechanics, benefiting greatly from the remarkable approximation capabilities of neural networks. In solving PDEs, Physics-Informed Neural Networks (PINNs) and the Deep Energy Method (DEM) have garnered substantial attention. The principle of minimum potential energy and complementary energy are two important variational principles in solid mechanics. However, the well-known Deep Energy Method (DEM) is based on the principle of minimum potential energy, but there lacks the important form of minimum complementary energy. To bridge this gap, we propose the deep complementary energy method (DCEM) based on the principle of minimum complementary energy. The output function of DCEM is the stress function, which inherently satisfies the equilibrium equation. We present numerical results using the Prandtl and Airy stress functions, and compare DCEM with existing PINNs and DEM algorithms when modeling representative mechanical problems. The results demonstrate that DCEM outperforms DEM in terms of stress accuracy and efficiency and has an advantage in dealing with complex displacement boundary conditions, which is supported by theoretical analyses and numerical simulations. We extend DCEM to DCEM-Plus (DCEM-P), adding terms that satisfy partial differential equations. Furthermore, we propose a deep complementary energy operator method (DCEM-O) by combining operator learning with physical equations. Initially, we train DCEM-O using high-fidelity numerical results and then incorporate complementary energy. DCEM-P and DCEM-O further enhance the accuracy and efficiency of DCEM.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# ランダムな敵の例で証明可能なブラックボックス攻撃:確率的信頼で防御を破る

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence ( http://arxiv.org/abs/2304.04343v3 )

ライセンス: Link先を確認
Hanbin Hong, Xinyu Zhang, Binghui Wang, Zhongjie Ba, Yuan Hong, (参考訳) ブラックボックスの敵攻撃は、ターゲットモデルを反復的にクエリしたり、ローカルサロゲートモデルからの転送可能性を活用することによって、機械学習モデルを妥協する強い可能性を示している。 近年、このような攻撃は、例えば、シーケンシャルクエリのパターンによる検出、モデルへのノイズ注入など、最先端のSOTA(State-of-the-art)ディフェンスによって効果的に軽減できる。 我々の知る限り、我々は、証明可能な保証を備えたブラックボックス攻撃の新しいパラダイム、すなわち、ターゲットモデルに問い合わせる前に、敵のサンプルの攻撃成功確率(ASP)を保証する認証されたブラックボックス攻撃を研究するための第一歩を踏み出します。 この新たなブラックボックス攻撃は、従来の経験的ブラックボックス攻撃と比較して、マシンラーニングモデルの重大な脆弱性を明らかにしている。例えば、強力なSOTA防御を証明可能な信頼性で破り、高いASPで(無限の)敵例の空間を構築し、生成された敵例のASPは、ターゲットモデルに対する検証/クエリなしで理論的に保証される。 具体的には,無作為な敵対例 (AE) によるブラックボックス攻撃の ASP を確保するための新たな理論基盤を確立する。 そこで本研究では,乱れサイズの低減を図りつつ,ランダム化されたAEを製作する新しい手法を提案する。 最後に,CIFAR10/100, ImageNet, LibriSpeechデータセットに対する認証ブラックボックス攻撃を,コンピュータビジョンと音声認識の領域における様々なSOTA防御に対する16のSOTAブラックボックス攻撃とベンチマークで総合的に評価した。 理論的および実験的な結果により、提案された攻撃の重要性が検証された。 コードとすべてのベンチマークは \url{https://github.com/datasec-lab/CertifiedAttack} で公開されている。

Black-box adversarial attacks have demonstrated strong potential to compromise machine learning models by iteratively querying the target model or leveraging transferability from a local surrogate model. Recently, such attacks can be effectively mitigated by state-of-the-art (SOTA) defenses, e.g., detection via the pattern of sequential queries, or injecting noise into the model. To our best knowledge, we take the first step to study a new paradigm of black-box attacks with provable guarantees -- certifiable black-box attacks that can guarantee the attack success probability (ASP) of adversarial examples before querying over the target model. This new black-box attack unveils significant vulnerabilities of machine learning models, compared to traditional empirical black-box attacks, e.g., breaking strong SOTA defenses with provable confidence, constructing a space of (infinite) adversarial examples with high ASP, and the ASP of the generated adversarial examples is theoretically guaranteed without verification/queries over the target model. Specifically, we establish a novel theoretical foundation for ensuring the ASP of the black-box attack with randomized adversarial examples (AEs). Then, we propose several novel techniques to craft the randomized AEs while reducing the perturbation size for better imperceptibility. Finally, we have comprehensively evaluated the certifiable black-box attacks on the CIFAR10/100, ImageNet, and LibriSpeech datasets, while benchmarking with 16 SOTA black-box attacks, against various SOTA defenses in the domains of computer vision and speech recognition. Both theoretical and experimental results have validated the significance of the proposed attack. The code and all the benchmarks are available at \url{https://github.com/datasec-lab/CertifiedAttack}.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 局所的・大域的特徴の教師なし学習を用いた映像アライメント

Video alignment using unsupervised learning of local and global features ( http://arxiv.org/abs/2304.06841v3 )

ライセンス: Link先を確認
Niloufar Fakhfour, Mohammad ShahverdiKondori, Sajjad Hashembeiki, Mohammadjavad Norouzi, Hoda Mohammadzade, (参考訳) 本稿では,ビデオアライメントの問題,類似した動作を含む2組のビデオのフレームをマッチングするプロセスに対処する。 ビデオアライメントの主な課題は、実行プロセスと2つのビデオ間の外観の違いにもかかわらず、正確な対応を確立することである。 フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。 特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに有効な機能を導入する。 そして、それらの特徴を処理して組み合わせて、ビデオを表す多次元の時系列を構築する。 結果の時系列は、DDTW(Diagonalized Dynamic Time Warping)と呼ばれる動的時間ワープの新しいバージョンを使用して、同じアクションのビデオのアライメントに使用される。 このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。 さらに,本手法は,少数のラベル付きビデオを持つデータセットにおいて,アクションフェーズのフレームワイズラベル付けに使用することができる。 評価のために,UCF101データセットのPennアクションとサブセットにおけるビデオ同期と位相分類タスクを検討した。 また,ビデオ同期タスクを効果的に評価するために,Enclosed Area Error(EAE)と呼ばれる新しい指標を提案する。 以上の結果から,本手法は,TCCなどの従来の最先端手法や,自己管理手法や弱教師付き手法よりも優れていた。

In this paper, we tackle the problem of video alignment, the process of matching the frames of a pair of videos containing similar actions. The main challenge in video alignment is that accurate correspondence should be established despite the differences in the execution processes and appearances between the two videos. We introduce an unsupervised method for alignment that uses global and local features of the frames. In particular, we introduce effective features for each video frame by means of three machine vision tools: person detection, pose estimation, and VGG network. Then the features are processed and combined to construct a multidimensional time series that represent the video. The resulting time series are used to align videos of the same actions using a novel version of dynamic time warping named Diagonalized Dynamic Time Warping(DDTW). The main advantage of our approach is that no training is required, which makes it applicable for any new type of action without any need to collect training samples for it. Additionally, our approach can be used for framewise labeling of action phases in a dataset with only a few labeled videos. For evaluation, we considered video synchronization and phase classification tasks on the Penn action and subset of UCF101 datasets. Also, for an effective evaluation of the video synchronization task, we present a new metric called Enclosed Area Error(EAE). The results show that our method outperforms previous state-of-the-art methods, such as TCC, and other self-supervised and weakly supervised methods.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 責任あるAIを実装する - 倫理的側面の緊張とトレードオフ

Implementing Responsible AI: Tensions and Trade-Offs Between Ethics Aspects ( http://arxiv.org/abs/2304.08275v4 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu, (参考訳) 責任あるAIに対する多くの倫理原則が、AI/MLシステムの誤用と悪用に関する懸念を和らげるために提案されている。 このような原則の基本的な側面は、プライバシー、正確性、公正性、堅牢性、説明可能性、透明性である。 しかし、これらの側面の間には潜在的な緊張関係があり、これらの原則に従おうとするAI/ML開発者には困難をもたらしている。 例えば、AI/MLシステムの精度を高めることで、その説明可能性が低下する可能性がある。 原則を実践するための継続的な取り組みの一環として、この作業では、基礎となる側面間の10の顕著な緊張、トレードオフ、その他の相互作用のカタログをコンパイルし、議論しています。 私たちは主に双方向のインタラクションに焦点を合わせ、さまざまな文献にまたがるサポートに焦点をあてています。 このカタログは、倫理原則の側面間の相互作用の認識を高めるとともに、AI/MLシステムのデザイナと開発者による十分に支持された判断を促進するのに役立つ。

Many sets of ethics principles for responsible AI have been proposed to allay concerns about misuse and abuse of AI/ML systems. The underlying aspects of such sets of principles include privacy, accuracy, fairness, robustness, explainability, and transparency. However, there are potential tensions between these aspects that pose difficulties for AI/ML developers seeking to follow these principles. For example, increasing the accuracy of an AI/ML system may reduce its explainability. As part of the ongoing effort to operationalise the principles into practice, in this work we compile and discuss a catalogue of 10 notable tensions, trade-offs and other interactions between the underlying aspects. We primarily focus on two-sided interactions, drawing on support spread across a diverse literature. This catalogue can be helpful in raising awareness of the possible interactions between aspects of ethics principles, as well as facilitating well-supported judgements by the designers and developers of AI/ML systems.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 変換論理

The Transformation Logics ( http://arxiv.org/abs/2304.09639v3 )

ライセンス: Link先を確認
Alessandro Ronca, (参考訳) 表現性と複雑性のトレードオフを微妙にバランスさせるように設計された、時間論理の新しいファミリーを導入する。 彼らの重要な特徴は、変換演算子と呼ばれる新しい種類の演算子を定義する可能性である。 中には既存の時間演算子を仮定するものもあるが、全く新しいものもいる。 特に興味深いのは半群に基づく変換作用素である。 それらの論理は半群理論のリッチネスを生かし、既存の論理を特徴づけることのできない表現性や複雑性を増大させる階層を生成することができる論理を得られることを示す。 その結果は、時間論理の真に斬新で未解明の風景であり、それぞれが、特定のアプリケーションに必要な表現性と複雑性の間のトレードオフに一致する可能性を持っている。

We introduce a new family of temporal logics designed to finely balance the trade-off between expressivity and complexity. Their key feature is the possibility of defining operators of a new kind that we call transformation operators. Some of them subsume existing temporal operators, while others are entirely novel. Of particular interest are transformation operators based on semigroups. They enable logics to harness the richness of semigroup theory, and we show them to yield logics capable of creating hierarchies of increasing expressivity and complexity which are non-trivial to characterise in existing logics. The result is a genuinely novel and yet unexplored landscape of temporal logics, each of them with the potential of matching the trade-off between expressivity and complexity required by specific applications.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# ガリレオ時空の量子化:空空間におけるマクスウェル方程式の再構成

Quantizing Galilean spacetime: a reconstruction of Maxwell's equations in empty space ( http://arxiv.org/abs/2304.11380v2 )

ライセンス: Link先を確認
Ulf Klein, (参考訳) 最近示されているように、非相対論的量子論は(質量)粒子の古典解の連続体からの射影法によって導出することができる。 本論文では,空空間におけるマクスウェル方程式は同じ方法を用いて導出可能であることを示す。 この場合、出発点はガリレオ時空の構造を記述する無質量粒子に対する運動方程式の解の連続体である。 投影の結果、時空構造自体は、速度の次元を持つ新しい基本定数$c$の出現によって変化する。 この最大速度$c$は質量のない粒子に対して導出され、質量のない粒子に対して導出されるより早い精度の限界$\hbar$と類似している。 したがって、射影法は一般化量子化と解釈できる。 すべての基本体は連続的な粒子軌道の集合に遡ることができると推測し、この意味では粒子の概念は体の概念よりも基本的である。

As was recently shown, non-relativistic quantum theory can be derived by means of a projection method from a continuum of classical solutions for (massive) particles. In this paper we show that Maxwell's equations in empty space can be derived using the same method. In this case the starting point is a continuum of solutions of equations of motion for massless particles describing the structure of Galilean space-time. As a result of the projection, the space-time structure itself is changed by the appearance of a new fundamental constant $c$ with the dimension of a velocity. This maximum velocity $c$, derived here for massless particles, is analogous to the accuracy limit $\hbar$ derived earlier for massive particles. The projection method can thus be interpreted as a generalized quantization. We suspect that all fundamental fields can be traced back to continuous sets of particle trajectories, and that in this sense the particle concept is more fundamental than the field concept.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# グラフ注意に基づく部分観測可能平均場多元強化学習

Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention ( http://arxiv.org/abs/2304.12653v3 )

ライセンス: Link先を確認
Min Yang, Guanjun Liu, Ziyuan Zhou, (参考訳) 従来のマルチエージェント強化学習アルゴリズムは大規模マルチエージェント環境では難しい。 近年, 平均場理論の導入により, 多エージェント強化学習のスケーラビリティが向上している。 本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。 この部分的な観察性は、周囲のエージェントの行動の質を評価するエージェントの能力に影響を与える。 本稿では,より効果的な行動を選択するために,局所的な観測からより効果的な情報を取得する手法の開発に焦点をあてる。 この分野でのこれまでの作業では, 周辺エージェントの平均行動を更新するために, 確率分布や重み付き平均場を用いていたが, 周辺エージェントの特徴情報を十分に考慮しておらず, 局所的な最適化につながっている。 本稿では,グラフアテンション(GAMFQ)に基づく新しいマルチエージェント強化学習アルゴリズムを提案する。GAMFQは,グラフアテンションモジュールと平均フィールドモジュールを用いて,各時間における他のエージェントの動作にエージェントがどのように影響するかを記述する。グラフアテンションモジュールは,グラフアテンションエンコーダと可変アテンション機構から構成される。この機構は,中央エージェントに対する近隣エージェントの効果を表すダイナミックグラフを出力する。平均フィールドモジュールは,中央エージェントに対する周辺エージェントの効果を,有効エージェントの作用として近似する。 我々は,MAgentsフレームワークにおける3つの課題に対してGAMFQを評価した。 実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。

Traditional multi-agent reinforcement learning algorithms are difficultly applied in a large-scale multi-agent environment. The introduction of mean field theory has enhanced the scalability of multi-agent reinforcement learning in recent years. This paper considers partially observable multi-agent reinforcement learning (MARL), where each agent can only observe other agents within a fixed range. This partial observability affects the agent's ability to assess the quality of the actions of surrounding agents. This paper focuses on developing a method to capture more effective information from local observations in order to select more effective actions. Previous work in this field employs probability distributions or weighted mean field to update the average actions of neighborhood agents, but it does not fully consider the feature information of surrounding neighbors and leads to a local optimum. In this paper, we propose a novel multi-agent reinforcement learning algorithm, Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph--Attention (GAMFQ) to remedy this flaw. GAMFQ uses a graph attention module and a mean field module to describe how an agent is influenced by the actions of other agents at each time step. This graph attention module consists of a graph attention encoder and a differentiable attention mechanism, and this mechanism outputs a dynamic graph to represent the effectiveness of neighborhood agents against central agents. The mean--field module approximates the effect of a neighborhood agent on a central agent as the average effect of effective neighborhood agents. We evaluate GAMFQ on three challenging tasks in the MAgents framework. Experiments show that GAMFQ outperforms baselines including the state-of-the-art partially observable mean-field reinforcement learning algorithms.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 入力分布のキャパシティを生かした相互情報

The Mutual Information In The Vicinity of Capacity-Achieving Input Distributions ( http://arxiv.org/abs/2304.14219v4 )

ライセンス: Link先を確認
Barış Nakiboğlu, Hao-Chung Cheng, (参考訳) 相互情報は、入力分布と全てのキャパシティ完備な入力分布の集合である距離の正方形のアフィン関数$\Pi_{\mathcal{A}}$、Tops{\o}e と Pinskerの不等式による同一性を使い、チャネルの入力集合が有限であり、制約集合 $\mathcal{A}$ が多面体であること、すなわち、有限個の線形制約によって記述できる。 そのような二次境界の非存在を示す反例は、無限に多くの線形制約と無限の入力集合の場合に与えられる。 ピンスカーの不等式よりもテイラーの定理を使い、モローの分解定理を呼び起こし、距離$\Pi_{\mathcal{A}}$までの相互情報の最も遅い減少の正確な特徴づけは、$\Pi_{\mathcal{A}}$の小さな近傍で決定される。 古典量子チャネルの対応する結果は、2次有界のヒルベルト空間仮定と、その正確な特徴づけに対する有限次元のヒルベルト空間仮定とで分離可能な出力ヒルベルト空間仮定の下で確立される。 チャネル符号化問題に対するこれらの観測の影響と関連する問題への証明手法の適用について論じる。

The mutual information is bounded from above by a decreasing affine function of the square of the distance between the input distribution and the set of all capacity-achieving input distributions $\Pi_{\mathcal{A}}$, on small enough neighborhoods of $\Pi_{\mathcal{A}}$, using an identity due to Tops{\o}e and the Pinsker's inequality, assuming that the input set of the channel is finite and the constraint set $\mathcal{A}$ is polyhedral, i.e., can be described by (possibly multiple but) finitely many linear constraints. Counterexamples demonstrating nonexistence of such a quadratic bound are provided for the case of infinitely many linear constraints and the case of infinite input sets. Using Taylor's theorem with the remainder term, rather than the Pinsker's inequality and invoking Moreau's decomposition theorem the exact characterization of the slowest decrease of the mutual information with the distance to $\Pi_{\mathcal{A}}$ is determined on small neighborhoods of $\Pi_{\mathcal{A}}$. Corresponding results for classical-quantum channels are established under separable output Hilbert space assumption for the quadratic bound and under finite-dimensional output Hilbert space assumption for the exact characterization. Implications of these observations for the channel coding problem and applications of the proof techniques to related problems are discussed.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 瞬時測定は情報を分離できる

Instantaneous measurement can isolate the information ( http://arxiv.org/abs/2306.09670v3 )

ライセンス: Link先を確認
Iman Sargolzahi, (参考訳) スピン1からスピンNまでの1次元スピン鎖を考えると、各スピンはその近傍のスピンと相互作用する。 スピンN上の局所的な操作(測定)を実行すると、リーブ・ロビンソン速度から、この測定の効果はしばらくするとスピン1に達すると期待される。 しかし、この論文では、 イ スピンNの測定を瞬時に行うこと。 b)スピン鎖の初期状態が適切に選択され、スピンNに対する測定の効果がスピン1を達成することはない。 言い換えれば、t=0におけるスピンNの即時測定を行うか否かは、すべての時間t>0のスピン1の減少ダイナミクスを変えるものではない。 スピンNを瞬時に測定する情報はスピン1を達成できないように孤立している。

Consider a one-dimensional spin chain, from spin 1 to spin N, such that each spin interacts with its nearest neighbors. Performing a local operation (measurement) on spin N, we expect from the Lieb-Robinson velocity that, in general, the effect of this measurement achieves spin 1 after some while. But, in this paper, we show that if a) the measurement on spin N is performed instantaneously and b) the initial state of the spin chain is chosen appropriately, then the effect of the measurement on spin N never achieves spin 1. In other words, performing or not performing an instantaneous measurement on spin N at t=0 does not alter the reduced dynamics of spin 1 for all the times t>0. We can interpret this as the following: The information of performing an instantaneous measurement on spin N is isolated such that it cannot achieve spin 1.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-06
# 生成逆数ネットワークにおける実データと生成データの確率的マッチング

Probabilistic Matching of Real and Generated Data Statistics in Generative Adversarial Networks ( http://arxiv.org/abs/2306.10943v3 )

ライセンス: Link先を確認
Philipp Pilar, Niklas Wahlström, (参考訳) 生成的敵ネットワークは生成的モデリングに対する強力なアプローチである。 生成されたサンプルは実際のデータと区別できないことが多いが、真のデータ分布に従う保証はない。 特に科学的応用においては、真の分布が生成した分布によって十分に捕捉されることが不可欠である。 本研究では,あるデータ統計量の分布が実データの分布と一致することを確実にする手法を提案する。 これを達成するために、生成元損失関数に新たな損失項を追加し、これら分布間の差を適切なf-発散器を用いて定量化する。 カーネル密度推定は、真の分布の表現を得、各繰り返しにおけるミニバッチ値から対応する生成された分布を推定するために用いられる。 他の手法と比較すると,分布の完全な形状が考慮されるという利点がある。 提案手法を合成データセットと実世界のデータセットで評価し,提案手法の性能向上を実証した。

Generative adversarial networks constitute a powerful approach to generative modeling. While generated samples often are indistinguishable from real data, there is no guarantee that they will follow the true data distribution. For scientific applications in particular, it is essential that the true distribution is well captured by the generated distribution. In this work, we propose a method to ensure that the distributions of certain generated data statistics coincide with the respective distributions of the real data. In order to achieve this, we add a new loss term to the generator loss function, which quantifies the difference between these distributions via suitable f-divergences. Kernel density estimation is employed to obtain representations of the true distributions, and to estimate the corresponding generated distributions from minibatch values at each iteration. When compared to other methods, our approach has the advantage that the complete shapes of the distributions are taken into account. We evaluate the method on a synthetic dataset and a real-world dataset and demonstrate improved performance of our approach.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 異なる決定木は人間のフィードバックから解釈可能なリワード学習を可能にするか?

Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? ( http://arxiv.org/abs/2306.13004v5 )

ライセンス: Link先を確認
Akansha Kalra, Daniel S. Brown, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、報酬価値を手作りすることの難しさを軽減するために、人間の意図を捉えるための一般的なパラダイムとして登場した。 RLHFへの関心が高まっているにもかかわらず、ほとんどの研究はブラックボックス報酬関数を学習し、表現力は解釈が困難であり、しばしばRLのコストのかかるプロセス全体を実行する必要があるが、これらのフレームワークが実際に人間の好みに適合しているかどうかを解読することさえできる。 本稿では,微分可能決定木(DDT)を用いた嗜好から表現的かつ解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。 また,DDTが高容量のディープニューラルネットワーク報酬関数と比較して競争力のあるRL性能を達成できることを示すだけでなく,学習した報酬関数のアライメントをチェックする上で,我々のフレームワークの診断的有用性を実証する実験的な証拠も提示する。 また、DDTのソフトとハード(argmax)の出力の選択は、高い形状の報酬を欲しがる一方で、よりシンプルで解釈可能な報酬も欲しがる。 ビデオとコード、https://sites.google.com/view/ddt-rlhf

Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for capturing human intent to alleviate the challenges of hand-crafting the reward values. Despite the increasing interest in RLHF, most works learn black box reward functions that while expressive are difficult to interpret and often require running the whole costly process of RL before we can even decipher if these frameworks are actually aligned with human preferences. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs). Our experiments across several domains, including CartPole, Visual Gridworld environments and Atari games, provide evidence that the tree structure of our learned reward function is useful in determining the extent to which the reward function is aligned with human preferences. We also provide experimental evidence that not only shows that reward DDTs can often achieve competitive RL performance when compared with larger capacity deep neural network reward functions but also demonstrates the diagnostic utility of our framework in checking alignment of learned reward functions. We also observe that the choice between soft and hard (argmax) output of reward DDT reveals a tension between wanting highly shaped rewards to ensure good RL performance, while also wanting simpler, more interpretable rewards. Videos and code, are available at: https://sites.google.com/view/ddt-rlhf
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# Coherence-corrected Resamplingを用いた拡散インシシデントモデルによる地震データ補間

Seismic Data Interpolation via Denoising Diffusion Implicit Models with Coherence-corrected Resampling ( http://arxiv.org/abs/2307.04226v3 )

ライセンス: Link先を確認
Xiaoli Wei, Chunxia Zhang, Hongtao Wang, Chengli Tan, Deng Xiong, Baisong Jiang, Jiangshe Zhang, Sang-Woon Kim, (参考訳) 地震データの正確な補間は、画像や解釈の質の向上に不可欠である。 近年, 地震データ補間には, U-Net などの深層学習モデルや生成敵対ネットワークが広く応用されている。 しかしながら、トレーニングやテストの欠如が一致しない場合には、パフォーマンスが低下することが多い。 この問題を軽減するために,多モード適応拡散モデルに基づく新しいフレームワークを提案する。 トレーニングフェーズでは、一般的な知恵に従って、コサインノイズスケジュールを持つ拡散確率モデルを使用する。 この余剰なグローバルノイズ構成は、過度なノイズステージの関与を減らすことで、地震データの利用を改善する。 推論段階では,サンプリングステップの数を減らし,暗黙的拡散モデルを導入する。 従来の非条件生成とは違って,各逆サンプリングステップに既知のトレース情報を組み込んで条件補間を行う。 そこで我々は, 連続したコヒーレンス補正と再サンプリングを含む2つの手法を提案する。 コヒーレンス補正は明らかにされた痕跡のミスマッチを罰し、再サンプリングは隣接する逆ステップ間の巡回補間を行う。 合成および現地地震データに対する広範囲な実験により、モデルの優越性を検証し、1回のトレーニングセッションだけで、様々な欠落パターンと異なる雑音レベルへの一般化能力を実証した。 また,不確実性定量化およびアブレーション研究についても検討した。

Accurate interpolation of seismic data is crucial for improving the quality of imaging and interpretation. In recent years, deep learning models such as U-Net and generative adversarial networks have been widely applied to seismic data interpolation. However, they often underperform when the training and test missing patterns do not match. To alleviate this issue, here we propose a novel framework that is built upon the multi-modal adaptable diffusion models. In the training phase, following the common wisdom, we use the denoising diffusion probabilistic model with a cosine noise schedule. This cosine global noise configuration improves the use of seismic data by reducing the involvement of excessive noise stages. In the inference phase, we introduce the denoising diffusion implicit model to reduce the number of sampling steps. Different from the conventional unconditional generation, we incorporate the known trace information into each reverse sampling step for achieving conditional interpolation. To enhance the coherence and continuity between the revealed traces and the missing traces, we further propose two strategies, including successive coherence correction and resampling. Coherence correction penalizes the mismatches in the revealed traces, while resampling conducts cyclic interpolation between adjacent reverse steps. Extensive experiments on synthetic and field seismic data validate our model's superiority and demonstrate its generalization capability to various missing patterns and different noise levels with just one training session. In addition, uncertainty quantification and ablation studies are also investigated.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 脳ネットワークの説明可能な分類のためのコントラストグラフポーリング

Contrastive Graph Pooling for Explainable Classification of Brain Networks ( http://arxiv.org/abs/2307.11133v3 )

ライセンス: Link先を確認
Jiaxing Xu, Qingtian Bian, Xinhang Li, Aihu Zhang, Yiping Ke, Miao Qiao, Wei Zhang, Wei Khang Jeremy Sim, Balázs Gulyás, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、神経活動を測定するために一般的に用いられる技術である。 特にパーキンソン病、アルツハイマー病、自閉症などの神経変性疾患の同定に重要である。 最近のfMRIデータ解析では、脳をグラフとしてモデル化し、グラフニューラルネットワーク(GNN)によって特徴を抽出している。 しかし、fMRIデータのユニークな特徴は、GNNの特別な設計を必要とする。 効果的なドメイン記述可能な機能を生成するためにGNNを配置することは、依然として困難である。 本稿では,コントラストプール(ContrastPool)とよばれる,コントラッシブなデュアルアテンションブロックとグラフプーリング手法を提案する。 本手法を3つの疾患の5つの静止状態fMRI脳ネットワークデータセットに適用し、最先端のベースラインよりも優れていることを示す。 今回のケーススタディでは,本手法で抽出したパターンが神経科学文献の領域知識と一致していることを確認し,直接的および興味深い知見を開示する。 我々の貢献は、脳ネットワークと神経変性状態の理解を深めるためのContrastPoolの可能性を強調します。 ソースコードはhttps://github.com/AngusMonroe/ContrastPool.comで入手できる。

Functional magnetic resonance imaging (fMRI) is a commonly used technique to measure neural activation. Its application has been particularly important in identifying underlying neurodegenerative conditions such as Parkinson's, Alzheimer's, and Autism. Recent analysis of fMRI data models the brain as a graph and extracts features by graph neural networks (GNNs). However, the unique characteristics of fMRI data require a special design of GNN. Tailoring GNN to generate effective and domain-explainable features remains challenging. In this paper, we propose a contrastive dual-attention block and a differentiable graph pooling method called ContrastPool to better utilize GNN for brain networks, meeting fMRI-specific requirements. We apply our method to 5 resting-state fMRI brain network datasets of 3 diseases and demonstrate its superiority over state-of-the-art baselines. Our case study confirms that the patterns extracted by our method match the domain knowledge in neuroscience literature, and disclose direct and interesting insights. Our contributions underscore the potential of ContrastPool for advancing the understanding of brain networks and neurodegenerative conditions. The source code is available at https://github.com/AngusMonroe/ContrastPool.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 低深度凸ユニタリ進化による開量子系のシミュレーション

Simulation of open quantum systems via low-depth convex unitary evolutions ( http://arxiv.org/abs/2307.14325v3 )

ライセンス: Link先を確認
Joseph Peetz, Scott E. Smart, Spyros Tserkis, Prineha Narang, (参考訳) 量子デバイス上で物理システムをシミュレーションすることは、量子技術の最も有望な応用の1つである。 オープン量子系をシミュレートする現在の量子アプローチは、通常、アンシラ量子ビットと広範囲に制御されたシーケンスを必要とするため、NISQ時代のデバイスでは依然として事実上困難である。 本研究では,ランダム・ユニタリチャネルと呼ばれる開系力学のクラスをシミュレーションするためのハイブリッド量子古典的手法を提案する。 これらのチャネルは自然に一連の凸ユニタリ進化に分解され、効率よくサンプリングされ、独立した回路として実行される。 この手法は深いアンシラのフレームワークを必要としないため、低騒音で実装することができる。 我々は、数十の量子ビットと大きなチャネルランクを持つオープン量子システムのシミュレーションを実装した。

Simulating physical systems on quantum devices is one of the most promising applications of quantum technology. Current quantum approaches to simulating open quantum systems are still practically challenging on NISQ-era devices, because they typically require ancilla qubits and extensive controlled sequences. In this work, we propose a hybrid quantum-classical approach for simulating a class of open system dynamics called random-unitary channels. These channels naturally decompose into a series of convex unitary evolutions, which can then be efficiently sampled and run as independent circuits. The method does not require deep ancilla frameworks and thus can be implemented with lower noise costs. We implement simulations of open quantum systems up to dozens of qubits and with large channel ranks.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# Brody間隔分布を持つ2 X 2相関ランダム行列モデルのクラス

A class of 2 X 2 correlated random-matrix models with Brody spacing distribution ( http://arxiv.org/abs/2308.01514v3 )

ライセンス: Link先を確認
Jamal Sakhr, (参考訳) ブロディ分布が正確な固有値間隔分布である 2 X 2 個のランダム行列モデルのクラスを導入する。 行列要素は、ブロディパラメータに依存する様々なパワーに上昇した指数確率変数の制約された和からなる。 ここで導入されたランダム行列は、ガウス直交アンサンブル(GOE)の3つの重要な方法で異なる: 行列要素は独立でなく、同分布(すなわち IID ではない)でもなく、ガウス分布でもなく、行列は必ずしも実あるいは対称ではない。 最初の2つの特徴は古典的な独立の前提を下げることから生じ、3つ目の特徴はGOEの構築で課される量子力学条件を落とすことに由来する。 特に、現在のモデルでは、固有値が実数となるのに十分だが必要ではないハーミシティ条件は課されない。 したがって、実あるいは複素固有値を持つ複素非エルミート 2 X 2 のランダム行列は、ポアソン級数とウィグナー級数の中間の間隔分布を持つことができる。 数値的な例は、実あるいは複素共役固有値を持つ複素対称行列を含む、異なる種類のランダム行列に対して提供される。

A class of 2 X 2 random-matrix models is introduced for which the Brody distribution is the exact eigenvalue spacing distribution. The matrix elements consist of constrained sums of an exponential random variable raised to various powers that depend on the Brody parameter. The random matrices introduced here differ from those of the Gaussian Orthogonal Ensemble (GOE) in three important ways: the matrix elements are not independent and identically distributed (i.e., not IID) nor Gaussian-distributed, and the matrices are not necessarily real and/or symmetric. The first two features arise from dropping the classical independence assumption, and the third feature stems from dropping the quantum-mechanical conditions that are imposed in the construction of the GOE. In particular, the hermiticity condition, which in the present model, is a sufficient but not necessary condition for the eigenvalues to be real, is not imposed. Consequently, complex non-Hermitian 2 X 2 random matrices with real or complex eigenvalues can also have spacing distributions that are intermediate between those of the Poisson and Wigner classes. Numerical examples are provided for different types of random matrices, including complex-symmetric matrices with real or complex-conjugate eigenvalues.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# EgoPoser: スパースと間欠的な観測から各地におけるロバストリアルタイムEgocentric Poseの推定

EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere ( http://arxiv.org/abs/2308.06493v3 )

ライセンス: Link先を確認
Jiaxi Jiang, Paul Streli, Manuel Meier, Christian Holz, (参考訳) 頭と手のポーズだけでのフルボディの自我中心のポーズ推定は、ヘッドセットベースのプラットフォーム上でのアバター表現を力づけるための研究の活発な領域となっている。 しかし、既存の手法は、データセットが記録された屋内のモーションキャプチャー空間を過度に上回り、同時に連続的な関節運動キャプチャーと一様体次元を仮定する。 EgoPoserは4つの主要なコントリビューションでこれらの制限を克服する。 1) EgoPoserは、ヘッドセットの視野内でのみ、間欠的な手の位置と方向追跡から体ポーズを頑健にモデル化する。 2)ヘッドセットを用いたエゴ位置推定のための入力表現を再考し,グローバルな位置に依存しない全身のポーズを予測する新しいグローバルな動き分解手法を提案する。 3)より高速なSlowFastモジュール設計により,より長い動きの時系列をキャプチャすることでポーズ推定を強化し,計算効率を向上する。 4) EgoPoserは様々なユーザー向けに様々なボディ形状を一般化する。 提案手法を実験的に評価し,600fps以上の高速な推論速度を維持しながら,定性的かつ定量的に最先端の手法より優れていることを示す。 EgoPoserは、フルボディのポーズ推定がもはや外部からのキャプチャに頼る必要がなく、大規模で目に見えない環境にスケールできる、将来の作業のための堅牢なベースラインを確立する。

Full-body egocentric pose estimation from head and hand poses alone has become an active area of research to power articulate avatar representations on headset-based platforms. However, existing methods over-rely on the indoor motion-capture spaces in which datasets were recorded, while simultaneously assuming continuous joint motion capture and uniform body dimensions. We propose EgoPoser to overcome these limitations with four main contributions. 1) EgoPoser robustly models body pose from intermittent hand position and orientation tracking only when inside a headset's field of view. 2) We rethink input representations for headset-based ego-pose estimation and introduce a novel global motion decomposition method that predicts full-body pose independent of global positions. 3) We enhance pose estimation by capturing longer motion time series through an efficient SlowFast module design that maintains computational efficiency. 4) EgoPoser generalizes across various body shapes for different users. We experimentally evaluate our method and show that it outperforms state-of-the-art methods both qualitatively and quantitatively while maintaining a high inference speed of over 600fps. EgoPoser establishes a robust baseline for future work where full-body pose estimation no longer needs to rely on outside-in capture and can scale to large-scale and unseen environments.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# アンチ集中と確率支配による$f$差分プライバシーのための雑音の最適化

Optimizing Noise for $f$-Differential Privacy via Anti-Concentration and Stochastic Dominance ( http://arxiv.org/abs/2308.08343v2 )

ライセンス: Link先を確認
Jordan Awan, Aishwarya Ramasethu, (参考訳) 本稿では,差分プライバシー(f$-DP)を実現する付加雑音機構の反集中不等式を確立する。これは,データベース内の個人を識別する相手の能力を制限するトレードオフ関数$f$という用語で表現されたプライバシーの概念である。 Awan and Vadhan (2023) が提唱した標準雑音分布 (CNDs) は, 半整数値の反集束境界と一致し, 尾の挙動がほぼ最適であることを示す。 また、$f$-DPの保証にかかわらず、すべてのCNDがサブ指数であることも示します。 対数対数対数対数対のCNDの場合、同一のプライバシー保証を持つ他のノイズ分布と比較して確率的に最小のノイズであることを示す。 整数値ノイズの観点からは、離散CNDの新しい概念を提案し、離散CNDが常に存在することを証明し、連続CNDを丸めることによって構成でき、感度1の統計量に対して離散CNDが一意であることを示す。 さらに、感度1における離散CNDは、他の整数値ノイズと比較して確率的に小さいことを示す。 我々の理論的結果は、$f$-DPフレームワークで可能な様々な種類のプライバシー保証に光を当て、パフォーマンスを最適化するより複雑なメカニズムに組み込まれることができます。

In this paper, we establish anti-concentration inequalities for additive noise mechanisms which achieve $f$-differential privacy ($f$-DP), a notion of privacy phrased in terms of a tradeoff function $f$ which limits the ability of an adversary to determine which individuals were in the database. We show that canonical noise distributions (CNDs), proposed by Awan and Vadhan (2023), match the anti-concentration bounds at half-integer values, indicating that their tail behavior is near-optimal. We also show that all CNDs are sub-exponential, regardless of the $f$-DP guarantee. In the case of log-concave CNDs, we show that they are the stochastically smallest noise compared to any other noise distributions with the same privacy guarantee. In terms of integer-valued noise, we propose a new notion of discrete CND and prove that a discrete CND always exists, can be constructed by rounding a continuous CND, and that the discrete CND is unique when designed for a statistic with sensitivity 1. We further show that the discrete CND at sensitivity 1 is stochastically smallest compared to other integer-valued noises. Our theoretical results shed light on the different types of privacy guarantees possible in the $f$-DP framework and can be incorporated in more complex mechanisms to optimize performance.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 大域的局所性:大域的マスター方程式に対する効率的な多体力学

Global becomes local: Efficient many-body dynamics for global master equations ( http://arxiv.org/abs/2309.07105v3 )

ライセンス: Link先を確認
Alexander Schnell, (参考訳) この研究は、グローバル対ローカルマスター方程式の問題に進展をもたらす。 レッドフィールド・マスター方程式 (Redfield Master equation) のような大域的マスター方程式(標準ボルン方程式やマルコフ近似)は、ハミルトニアン系の完全な対角化を必要とする。 これは量子多体系の相互作用には特に困難である。 我々は、相反(エネルギー)空間における短波相関時間展開について議論し、ハミルトニアンの対角化を避けるために、ジャンプ作用素の連続展開を導いた。 局所的に1つの場所に結合された浴場の場合、これは典型的には、局所的なオペレーターの観点から、グローバルなレッドフィールドジャンプ演算子の拡張につながる。 さらに、局所レッドフィールドマスター方程式を新しい局所リンドブラッド形式にマッピングし、より広い体系のクラスに適用できる一方で、従来の局所リンドブラッドアプローチと同じ概念上の利点を持つ方程式を与える。 我々の考えは局所マスター方程式の非ヒューリスティックな基礎を生み出し、それは確立された多体法と組み合わせることができる。

This work makes progress on the issue of global- vs. local- master equations. Global master equations like the Redfield master equation (following from standard Born- and Markov- approximation) require a full diagonalization of the system Hamiltonian. This is especially challenging for interacting quantum many-body systems. We discuss a short-bath-correlation-time expansion in reciprocal (energy) space, leading to a series expansion of the jump operator, which avoids a diagonalization of the Hamiltonian. For a bath that is coupled locally to one site, this typically leads to an expansion of the global Redfield jump operator in terms of local operators. We additionally map the local Redfield master equation to a novel local Lindblad form, giving an equation which has the same conceptual advantages of traditional local Lindblad approaches, while being applicable in a much broader class of systems. Our ideas give rise to a non-heuristic foundation of local master equations, which can be combined with established many-body methods.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# RSF-Conv: 網膜血管セグメンテーションのための回転・スケール同変フーリエパラメータ化畳み込み

RSF-Conv: Rotation-and-Scale Equivariant Fourier Parameterized Convolution for Retinal Vessel Segmentation ( http://arxiv.org/abs/2309.15638v2 )

ライセンス: Link先を確認
Zihong Sun, Hong Wang, Qi Xie, Yefeng Zheng, Deyu Meng, (参考訳) 網膜血管のセグメンテーションは多くの眼疾患の診断において非常に臨床的に重要であるが、複雑な血管形態が原因でいまだに深刻な課題である。 網膜血管に存在する翻訳対称性の巧妙な特徴により、畳み込みニューラルネットワーク(CNN)は網膜血管セグメンテーションにおいて大きな成功を収めた。 しかし、網膜血管に先行するより広範な画像として回転とスケールの対称性は、CNNによって特徴づけられていない。 そこで本研究では,網膜血管セグメンテーションに特化した回転・スケールのフーリエパラメータ化畳み込み(RSF-Conv)を提案する。 一般的なモジュールとして、RCF-Convはプラグイン・アンド・プレイ方式で既存のネットワークに統合でき、パラメータの数を著しく削減できる。 例えば、U-Net と Iter-Net の従来の畳み込みフィルタを RSF-Convs に置き換え、包括的な実験を忠実に行う。 RSF-Conv+U-Net と RSF-Conv+Iter-Net は、ドメイン内評価においてわずかに利点があるだけでなく、ドメイン外評価において、すべての比較手法よりも優れている。 RSF-Convの顕著な一般化が示され,臨床実践におけるクロスデバイスとクロスホスピタルの課題に対して,より実践的な臨床的意義が増している。 RSF-Convの有効性を総合的に示すため,RCF-Conv+U-Net と RSF-Conv+Iter-Net を網膜動脈/静脈の分類に適用し,その臨床応用の可能性を示す。

Retinal vessel segmentation is of great clinical significance for the diagnosis of many eye-related diseases, but it is still a formidable challenge due to the intricate vascular morphology. With the skillful characterization of the translation symmetry existing in retinal vessels, convolutional neural networks (CNNs) have achieved great success in retinal vessel segmentation. However, the rotation-and-scale symmetry, as a more widespread image prior in retinal vessels, fails to be characterized by CNNs. Therefore, we propose a rotation-and-scale equivariant Fourier parameterized convolution (RSF-Conv) specifically for retinal vessel segmentation, and provide the corresponding equivariance analysis. As a general module, RSF-Conv can be integrated into existing networks in a plug-and-play manner while significantly reducing the number of parameters. For instance, we replace the traditional convolution filters in U-Net and Iter-Net with RSF-Convs, and faithfully conduct comprehensive experiments. RSF-Conv+U-Net and RSF-Conv+Iter-Net not only have slight advantages under in-domain evaluation, but more importantly, outperform all comparison methods by a significant margin under out-of-domain evaluation. It indicates the remarkable generalization of RSF-Conv, which holds greater practical clinical significance for the prevalent cross-device and cross-hospital challenges in clinical practice. To comprehensively demonstrate the effectiveness of RSF-Conv, we also apply RSF-Conv+U-Net and RSF-Conv+Iter-Net to retinal artery/vein classification and achieve promising performance as well, indicating its clinical application potential.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 未生児を解放する - マシンラーニングによる胎児の健康分類の促進

Unveiling the Unborn: Advancing Fetal Health Classification through Machine Learning ( http://arxiv.org/abs/2310.00505v2 )

ライセンス: Link先を確認
Sujith K Mandala, (参考訳) 胎児の健康分類は産科における重要な課題であり、潜在的な健康問題の早期発見と管理を可能にする。 しかし、データの複雑さとラベル付きサンプルが限られているため、依然として困難である。 本研究は、包括的データセットに基づいて訓練されたLightGBM分類器を利用して、胎児の健康分類のための新しい機械学習手法を提案する。 提案したモデルでは、テストセットで98.31%の精度が得られる。 以上の結果から、胎児の健康分類を向上し、より客観的かつ正確な評価を提供する機械学習の可能性が示唆された。 特に, 胎児の心拍数, 子宮収縮, 母体血圧など, さまざまな特徴を組み合わせ, 包括的評価を行った。 この手法は、胎児の健康上の問題の早期発見と治療の改善を約束し、母親と赤ちゃんの両方により良い結果をもたらす。 高い精度を達成できただけでなく、我々のアプローチの斬新さは、包括的特徴選択と評価手法にあります。 複数のデータポイントを組み込むことで、従来の手法よりも総合的で信頼性の高い評価を提供する。 本研究は産婦人科領域に重大な影響を及ぼし,胎児の早期発見と胎児の健康問題への介入の道を開く。 今後の作業には、より大きなデータセット上でモデルを検証し、臨床アプリケーションを開発することが含まれる。 最終的に、我々の研究は胎児の健康の評価と管理に革命をもたらし、期待されている母親とその赤ちゃんの医療結果の改善に寄与すると予想している。

Fetal health classification is a critical task in obstetrics, enabling early identification and management of potential health problems. However, it remains challenging due to data complexity and limited labeled samples. This research paper presents a novel machine-learning approach for fetal health classification, leveraging a LightGBM classifier trained on a comprehensive dataset. The proposed model achieves an impressive accuracy of 98.31% on a test set. Our findings demonstrate the potential of machine learning in enhancing fetal health classification, offering a more objective and accurate assessment. Notably, our approach combines various features, such as fetal heart rate, uterine contractions, and maternal blood pressure, to provide a comprehensive evaluation. This methodology holds promise for improving early detection and treatment of fetal health issues, ensuring better outcomes for both mothers and babies. Beyond the high accuracy achieved, the novelty of our approach lies in its comprehensive feature selection and assessment methodology. By incorporating multiple data points, our model offers a more holistic and reliable evaluation compared to traditional methods. This research has significant implications in the field of obstetrics, paving the way for advancements in early detection and intervention of fetal health concerns. Future work involves validating the model on a larger dataset and developing a clinical application. Ultimately, we anticipate that our research will revolutionize the assessment and management of fetal health, contributing to improved healthcare outcomes for expectant mothers and their babies.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# TacoGFN:構造型医薬品設計のためのターゲット条件付きGFlowNet

TacoGFN: Target-conditioned GFlowNet for Structure-based Drug Design ( http://arxiv.org/abs/2310.03223v6 )

ライセンス: Link先を確認
Tony Shen, Seonghwan Seo, Grayson Lee, Mohit Pandey, Jason R Smith, Artem Cherkasov, Woo Youn Kim, Martin Ester, (参考訳) タンパク質ポケットに結合する薬物のような分子の広大な化学領域を探索することは、薬物発見の難しい課題だ。 近年、任意のタンパク質構造のための分子の生成を学習することで、より効率的な構造ベースの生成モデルが導入された。 しかし、制限されたタンパク質リガンド複合体データセットの分布を学習するため、構造に基づく手法はまだ1つのポケットで結合分子を生成する最適化に基づく手法よりも優れていない。 タンパク質ターゲット間の学習を生かしながらデータ上の制限を克服するため、トレーニングデータ分布ではなく、ポケット構造に条件付けられた報酬分布をモデル化する。 我々は,GFlowNetをベースとした新規な分子設計手法であるTacoGFNを設計し,その親和性と特性報酬に比例した確率でタンパク質ポケット構造に条件付けられた分子を生成する。 CrossDocked2020ベンチマークの生成的設定では、TacoGFNは中央のVina Dockスコアで56.0\%と8.44$ kcal/molの最先端の成功率を獲得し、生成時間を桁違いに改善した。 微調整のTacoGFNは、中央値のVina Dockスコアを10.93ドルkcal/molに改善し、成功率は8.8\%に改善し、全ての最適化ベースの手法を上回った。

Searching the vast chemical space for drug-like molecules that bind with a protein pocket is a challenging task in drug discovery. Recently, structure-based generative models have been introduced which promise to be more efficient by learning to generate molecules for any given protein structure. However, since they learn the distribution of a limited protein-ligand complex dataset, structure-based methods do not yet outperform optimization-based methods that generate binding molecules for just one pocket. To overcome limitations on data while leveraging learning across protein targets, we choose to model the reward distribution conditioned on pocket structure, instead of the training data distribution. We design TacoGFN, a novel GFlowNet-based approach for structure-based drug design, which can generate molecules conditioned on any protein pocket structure with probabilities proportional to its affinity and property rewards. In the generative setting for CrossDocked2020 benchmark, TacoGFN attains a state-of-the-art success rate of $56.0\%$ and $-8.44$ kcal/mol in median Vina Dock score while improving the generation time by multiple orders of magnitude. Fine-tuning TacoGFN further improves the median Vina Dock score to $-10.93$ kcal/mol and the success rate to $88.8\%$, outperforming all optimization-based methods.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-06
# 多段軸圧縮機空気力学による製造・施工の深層学習モデリング

Deep learning modelling of manufacturing and build variations on multi-stage axial compressors aerodynamics ( http://arxiv.org/abs/2310.04264v4 )

ライセンス: Link先を確認
Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu, (参考訳) 計算流体力学(Computational Fluid Dynamics)のような物理シミュレーションへのディープラーニングの応用は、最近関心の高まりを経験しており、その生存性は異なる領域で実証されている。 しかし、非常に複雑な乱流と3次元の流れのため、ターボ機械用途にはまだ使用できない。 ガスタービン用多段軸圧縮機は、幾何学的および操作的変数からの流れ場の回帰の高次元性のため、非常に難しいケースである。 本稿では,多段軸圧縮機の流れ場および空力特性予測のためのディープラーニングフレームワークの開発と応用について述べる。 物理に基づく次元の減少は、非構造化状態から構造化状態への回帰問題を再定式化し、自由度を減少させる流れ場予測の可能性を解き放つ。 従来の"ブラックボックス"サロゲートモデルと比較して、対応する空力ドライバを識別することで、全体的なパフォーマンスの予測に説明性を提供する。 これは製造と建築のバリエーションの影響をモデル化するために応用され、関連する性能散乱はCO_2$排出に重大な影響を及ぼすことが知られており、工業と環境の両面において大きな課題となっている。 提案アーキテクチャは,産業関連アプリケーションに対して,CFDベンチマークに匹敵する精度をリアルタイムに達成できることが証明されている。 展開されたモデルはガスタービンの製造・製造プロセスに容易に統合され、実行可能で説明可能なデータを用いて性能への影響を解析的に評価する機会を提供する。

Applications of deep learning to physical simulations such as Computational Fluid Dynamics have recently experienced a surge in interest, and their viability has been demonstrated in different domains. However, due to the highly complex, turbulent and three-dimensional flows, they have not yet been proven usable for turbomachinery applications. Multi-stage axial compressors for gas turbine applications represent a remarkably challenging case, due to the high-dimensionality of the regression of the flow-field from geometrical and operational variables. This paper demonstrates the development and application of a deep learning framework for predictions of the flow field and aerodynamic performance of multi-stage axial compressors. A physics-based dimensionality reduction unlocks the potential for flow-field predictions, as it re-formulates the regression problem from an un-structured to a structured one, as well as reducing the number of degrees of freedom. Compared to traditional "black-box" surrogate models, it provides explainability to the predictions of overall performance by identifying the corresponding aerodynamic drivers. This is applied to model the effect of manufacturing and build variations, as the associated performance scatter is known to have a significant impact on $CO_2$ emissions, therefore posing a challenge of great industrial and environmental relevance. The proposed architecture is proven to achieve an accuracy comparable to that of the CFD benchmark, in real-time, for an industrially relevant application. The deployed model, is readily integrated within the manufacturing and build process of gas turbines, thus providing the opportunity to analytically assess the impact on performance with actionable and explainable data.
翻訳日:2024-09-09 21:08:18 公開日:2024-09-06
# ロボット逆ダイナミクス同定のためのガウス過程回帰に基づくブラックボックス物理インフォームド推定器

A Black-Box Physics-Informed Estimator based on Gaussian Process Regression for Robot Inverse Dynamics Identification ( http://arxiv.org/abs/2310.06585v2 )

ライセンス: Link先を確認
Giulio Giacomuzzos, Ruggero Carli, Diego Romeres, Alberto Dalla Libera, (参考訳) データから直接ロボットの逆ダイナミクスを学習し、ブラックボックスアプローチを採用することは、システムに関する限られた知識が利用できるいくつかの現実シナリオにとって興味深い。 本稿では,ロボットマニピュレータの逆ダイナミクスの同定のためのガウス過程(GP)回帰に基づくブラックボックスモデルを提案する。 提案したモデルは、新しい多次元カーネルである \textit{Lagrangian Inspired Polynomial} (\kernelInitials{}) に依存する。 \kernelInitials{}カーネルは2つの主要なアイデアに基づいている。 まず、逆動力学成分を直接モデル化するのではなく、系の運動エネルギーとポテンシャルエネルギーをGPとしてモデル化する。 逆動力学成分に先立つGPは、線形作用素の下でのGPの性質を適用することでエネルギー上の成分から導かれる。 第二に、エネルギー事前定義に関して、運動エネルギーとポテンシャルエネルギーの多項式構造を証明し、この性質を符号化する多項式カーネルを導出する。 その結果、提案したモデルでは、これらの量にラベルを付けることなく、運動エネルギーとポテンシャルエネルギーを推定することができる。 7 DOFのフランカ・エミカ・パンダと6 DOFのMELFA RV4FLという2つの実際のロボットマニピュレータのシミュレーション結果から、提案モデルはガウス過程とニューラルネットワークの両方に基づく最先端のブラックボックス推定器よりも精度、一般性、データ効率において優れていることが示された。 また,MELFAロボットを用いた実験により,事前情報が少ないにもかかわらず,精度の高いモデルベース推定器に匹敵する性能が得られた。

Learning the inverse dynamics of robots directly from data, adopting a black-box approach, is interesting for several real-world scenarios where limited knowledge about the system is available. In this paper, we propose a black-box model based on Gaussian Process (GP) Regression for the identification of the inverse dynamics of robotic manipulators. The proposed model relies on a novel multidimensional kernel, called \textit{Lagrangian Inspired Polynomial} (\kernelInitials{}) kernel. The \kernelInitials{} kernel is based on two main ideas. First, instead of directly modeling the inverse dynamics components, we model as GPs the kinetic and potential energy of the system. The GP prior on the inverse dynamics components is derived from those on the energies by applying the properties of GPs under linear operators. Second, as regards the energy prior definition, we prove a polynomial structure of the kinetic and potential energy, and we derive a polynomial kernel that encodes this property. As a consequence, the proposed model allows also to estimate the kinetic and potential energy without requiring any label on these quantities. Results on simulation and on two real robotic manipulators, namely a 7 DOF Franka Emika Panda, and a 6 DOF MELFA RV4FL, show that the proposed model outperforms state-of-the-art black-box estimators based both on Gaussian Processes and Neural Networks in terms of accuracy, generality and data efficiency. The experiments on the MELFA robot also demonstrate that our approach achieves performance comparable to fine-tuned model-based estimators, despite requiring less prior information.
翻訳日:2024-09-09 21:08:18 公開日:2024-09-06
# MQT予測器:量子コンピューティングのためのデバイス特化回路コンパイルによる自動デバイス選択

MQT Predictor: Automatic Device Selection with Device-Specific Circuit Compilation for Quantum Computing ( http://arxiv.org/abs/2310.06889v2 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille, (参考訳) 量子コンピューティングのハードウェアとソフトウェアにおける最近の成果により、この新技術の潜在的なユースケースとして、様々なアプリケーション領域の問題が調査されている。 古典コンピューティングと同様に、特定の量子デバイス上でアプリケーションを実現するには、デバイス上で実行できるように、対応する(量子)回路をコンパイルする必要がある。 利用可能なデバイスが着実に増え、さまざまな異なるコンパイルツールによって、アプリケーションを実現しようとするときに考慮すべき選択肢の数は急速に拡大しています。 ツールのサポートや自動化が不足しているため、特に量子コンピューティングの専門家ではないエンドユーザは、簡単にサポートされ、圧倒されます。 本研究では,特定のアプリケーションに適した量子デバイスを自動的に選択し,選択したデバイスに最適化されたコンパイラを提供する手法を提案する。 MQT Predictorと呼ばれる結果のフレームワークは、選択肢の広大な風景をナビゲートするエンドユーザをサポートするだけでなく、さまざまなツールからコンパイラパスの混合とマッチングを可能にし、個々のツールを横断する最適化されたコンパイラを作成することができる。 500以上の量子回路と7つのデバイスに基づく、模範的なフレームワークのインスタンス化の評価によると、QiskitとTKETの両デバイスで最も最適化されたコンパイルフローと比較して、MQT Predictorは、14のベースラインのうちトップ3の回路を98%以上で生成し、期待される忠実さを最適化すると、テスト済みの組み合わせを最大53%上回っている。 MQT PredictorはGitHubでオープンソースとして公開されている(https://github.com/cda-tum/mqt-predictor)。

Fueled by recent accomplishments in quantum computing hardware and software, an increasing number of problems from various application domains are being explored as potential use cases for this new technology. Similarly to classical computing, realizing an application on a particular quantum device requires the corresponding (quantum) circuit to be compiled so that it can be executed on the device. With a steadily growing number of available devices and a wide variety of different compilation tools, the number of choices to consider when trying to realize an application is quickly exploding. Due to missing tool support and automation, especially end-users who are not quantum computing experts are easily left unsupported and overwhelmed. In this work, we propose a methodology that allows one to automatically select a suitable quantum device for a particular application and provides an optimized compiler for the selected device. The resulting framework -- called the MQT Predictor -- not only supports end-users in navigating the vast landscape of choices, it also allows mixing and matching compiler passes from various tools to create optimized compilers that transcend the individual tools. Evaluations of an exemplary framework instantiation based on more than 500 quantum circuits and seven devices have shown that -- compared to both Qiskit's and TKET's most optimized compilation flows for all devices -- the MQT Predictor produces circuits within the top-3 out of 14 baselines in more than 98% of cases while frequently outperforming any tested combination by up to 53% when optimizing for expected fidelity. MQT Predictor is publicly available as open-source on GitHub (https://github.com/cda-tum/mqt-predictor) and as an easy-to-use Python package (https://pypi.org/p/mqt.predictor).
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# MarMot: 自律運転システムのメタモルフィックランタイムモニタリング

MarMot: Metamorphic Runtime Monitoring of Autonomous Driving Systems ( http://arxiv.org/abs/2310.07414v3 )

ライセンス: Link先を確認
Jon Ayerdi, Asier Iriarte, Pablo Valle, Ibai Roman, Miren Illarramendi, Aitor Arrieta, (参考訳) 自律運転システム (Autonomous Driving Systems, ADS) は、不確実な状況下でも安全を確保しなければならない複雑なサイバー物理システム (CPS) である。 現代のADSはディープニューラルネットワーク(Deep Neural Networks, DNN)を用いることが多い。 したがって、潜在的に危険な状況を避けるためには、実行時にADSの信頼性を見積もるアプローチが必要である。 本稿では,複数の入力と対応する出力を格納するシステムの特性であるメタモーフィックリレーショナル(MR)に基づくADSのオンラインモニタリング手法であるMarMotを提案する。 ドメイン固有のMRを用いて、MarMotは実行時のADSの不確実性を推定し、道路を運転するなど、ADSの異常な振る舞いを引き起こす可能性のある異常な状況を特定する。 我々は,小型の物理ADSとシミュレーションADSを含む2つの異なる被写体ADSを用いて,5種類のMRを用いたMarMotの実証評価を行った。 本評価では,外的異常 (eg, 霧, 内的異常 (eg, 欠陥 DNNs) ) と内的異常 (eg, 欠陥 DNNs) の両方を, 誤ラベルによるトレーニングデータにより同定する。 以上の結果より,MarMotは体外異常の最大65倍,体外異常の最大100倍,体外異常の最大54倍,体外異常の88%を同定できることがわかった。 これらの結果により、MarMotは、SelfOracle、Ensemble、MC DropoutベースのADSモニタなど、他の最先端のアプローチよりも優れているか、あるいは同等である。

Autonomous Driving Systems (ADSs) are complex Cyber-Physical Systems (CPSs) that must ensure safety even in uncertain conditions. Modern ADSs often employ Deep Neural Networks (DNNs), which may not produce correct results in every possible driving scenario. Thus, an approach to estimate the confidence of an ADS at runtime is necessary to prevent potentially dangerous situations. In this paper we propose MarMot, an online monitoring approach for ADSs based on Metamorphic Relations (MRs), which are properties of a system that hold among multiple inputs and the corresponding outputs. Using domain-specific MRs, MarMot estimates the uncertainty of the ADS at runtime, allowing the identification of anomalous situations that are likely to cause a faulty behavior of the ADS, such as driving off the road. We perform an empirical assessment of MarMot with five different MRs, using two different subject ADSs, including a small-scale physical ADS and a simulated ADS. Our evaluation encompasses the identification of both external anomalies, e.g., fog, as well as internal anomalies, e.g., faulty DNNs due to mislabeled training data. Our results show that MarMot can identify up to 65\% of the external anomalies and 100\% of the internal anomalies in the physical ADS, and up to 54\% of the external anomalies and 88\% of the internal anomalies in the simulated ADS. With these results, MarMot outperforms or is comparable to other state-of-the-art approaches, including SelfOracle, Ensemble, and MC Dropout-based ADS monitors.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# HSTR-Net:デュアルカメラによる参照型ビデオ超解像

HSTR-Net: Reference Based Video Super-resolution with Dual Cameras ( http://arxiv.org/abs/2310.12092v2 )

ライセンス: Link先を確認
H. Umut Suluhan, Abdullah Enes Doruk, Hasan F. Ates, Bahadir K. Gunturk, (参考訳) 高時空間分解能(HSTR)ビデオ記録は、詳細な情報を必要とする様々な画像タスクの強化に重要な役割を果たしている。 最先端のカメラは、高フレームレートと高空間解像度を同時に提供します。 本稿では,レファレンスベース・スーパーレゾリューション(RefSR)を用いたHSTRビデオ生成のためのデュアルカメラシステムを提案する。 1台のカメラは高解像度低フレームレート(HSLF)ビデオを撮影し、もう1台のカメラは同時に低解像度高フレームレート(LSHF)ビデオを撮影する。 HSLFおよびLSHFビデオフィードを融合し,HSTRビデオフレームを合成するために,新しいディープラーニングアーキテクチャを提案する。 提案モデルでは,光フロー推定と(チャネルワイドおよび空間的)アテンション機構を組み合わせて,2つのビデオフィードのフレーム間の微細な動きと複雑な依存関係を捉える。 シミュレーションにより,提案手法はPSNRとSSIMの指標を用いて,既存の参照ベースSR技術よりも大幅に改善されていることが示された。 この方法はまた、デュアルカメラを装備した電力制約のドローンに配備された場合、空中監視に十分なフレームを毎秒(FPS)表示する。

High-spatio-temporal resolution (HSTR) video recording plays a crucial role in enhancing various imagery tasks that require fine-detailed information. State-of-the-art cameras provide this required high frame-rate and high spatial resolution together, albeit at a high cost. To alleviate this issue, this paper proposes a dual camera system for the generation of HSTR video using reference-based super-resolution (RefSR). One camera captures high spatial resolution low frame rate (HSLF) video while the other captures low spatial resolution high frame rate (LSHF) video simultaneously for the same scene. A novel deep learning architecture is proposed to fuse HSLF and LSHF video feeds and synthesize HSTR video frames. The proposed model combines optical flow estimation and (channel-wise and spatial) attention mechanisms to capture the fine motion and complex dependencies between frames of the two video feeds. Simulations show that the proposed model provides significant improvement over existing reference-based SR techniques in terms of PSNR and SSIM metrics. The method also exhibits sufficient frames per second (FPS) for aerial monitoring when deployed on a power-constrained drone equipped with dual cameras.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# GPT-4を用いた自動スコーリングのためのアンバランスデータの拡張

Using GPT-4 to Augment Unbalanced Data for Automatic Scoring ( http://arxiv.org/abs/2310.18365v3 )

ライセンス: Link先を確認
Luyang Fang, Gyeong-Geon Lee, Xiaoming Zhai, (参考訳) 機械学習に基づく自動スコアリングは、スコアリングカテゴリ間で不均衡な学生反応を伴う課題に直面している。 そこで本稿では,GPT-4を利用した新たなテキストデータ拡張フレームワークを提案する。 実験データセットは,4つの科学項目に対する学生の回答から構成した。 我々は、GPT-4が応答を生成するプロンプト、特にマイノリティスコアリングクラスを作成し、データセットを強化した。 次に、拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。 モデル性能は精度、精度、リコール、F1メトリクスを用いて評価された。 以上の結果から, GPT-4を付加したデータの導入により, モデル性能, 特に精度, F1スコアが向上することが示唆された。 興味深いことに、改善の程度は特定のデータセットと使用される拡張データの割合によって異なる。 特に,自動スコアリングのための安定的な改善を得るためには,各種データ(20%~40%)が必要であった。 追加の学生による回答で訓練されたモデルと比較すると、GPT-4強化モデルは学生データで訓練されたモデルと一致することが示唆される。 本研究は,GPT-4のような生成的大言語モデルを用いて,自動評価における不均衡データセットに対処するデータ拡張手法の可能性と有効性を明らかにする。

Machine learning-based automatic scoring faces challenges with unbalanced student responses across scoring categories. To address this, we introduce a novel text data augmentation framework leveraging GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student written responses to four science items. We crafted prompts for GPT-4 to generate responses, especially for minority scoring classes, enhancing the data set. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 metrics. Our findings revealed that incorporating GPT-4-augmented data remarkedly improved model performance, particularly for precision and F1 scores. Interestingly, the extent of improvement varied depending on the specific dataset and the proportion of augmented data used. Notably, we found that a varying amount of augmented data (20%-40%) was needed to obtain stable improvement for automatic scoring. Comparisons with models trained on additional student-written responses suggest that GPT-4 augmented models match those trained with student data. This research underscores the potential and effectiveness of data augmentation techniques utilizing generative large language models like GPT-4 in addressing unbalanced datasets within automated assessment.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# リーマン対称空間上の不変核:調和解析的アプローチ

Invariant kernels on Riemannian symmetric spaces: a harmonic-analytic approach ( http://arxiv.org/abs/2310.19270v2 )

ライセンス: Link先を確認
Nathael Da Costa, Cyrus Mostajeran, Juan-Pablo Ortega, Salem Said, (参考訳) この研究は、古典ガウス核が非ユークリッド対称空間上で定義されるとき、パラメータの選択に対して正定でないことを証明することを目的としている。 この目的を達成するために,新しい幾何学的および解析的議論を考案した。 これらはガウス核の正定値の厳密な特徴づけであり、これは完備だが、数値計算によって扱われる低次元のシナリオは限られている。 主な成果はL$^{\! p}$-$\hspace{0.02cm}$Godement theorems (ここで$p = 1,2$) は、非コンパクト型の対称空間上で定義されるカーネルが正定値となるために必要な十分条件を提供する。 ボヒナー・ゴデメントの定理(Bochner-Godement theorem)と呼ばれる有名な定理は、既にそのような条件を与えており、その範囲においてはるかに一般的なものであるが、特に適用は困難である。 ガウス核との接続を超えて、この研究の新しい結果は対称空間上の不変核の研究の青写真を作成し、将来の多くの応用を示唆する特定の調和解析ツールを生み出した。

This work aims to prove that the classical Gaussian kernel, when defined on a non-Euclidean symmetric space, is never positive-definite for any choice of parameter. To achieve this goal, the paper develops new geometric and analytical arguments. These provide a rigorous characterization of the positive-definiteness of the Gaussian kernel, which is complete but for a limited number of scenarios in low dimensions that are treated by numerical computations. Chief among these results are the L$^{\!\scriptscriptstyle p}$-$\hspace{0.02cm}$Godement theorems (where $p = 1,2$), which provide verifiable necessary and sufficient conditions for a kernel defined on a symmetric space of non-compact type to be positive-definite. A celebrated theorem, sometimes called the Bochner-Godement theorem, already gives such conditions and is far more general in its scope, but is especially hard to apply. Beyond the connection with the Gaussian kernel, the new results in this work lay out a blueprint for the study of invariant kernels on symmetric spaces, bringing forth specific harmonic analysis tools that suggest many future applications.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# 合成を用いた再合成アルゴリズムの再評価

Re-evaluating Retrosynthesis Algorithms with Syntheseus ( http://arxiv.org/abs/2310.19796v3 )

ライセンス: Link先を確認
Krzysztof Maziarz, Austin Tripp, Guoqing Liu, Megan Stanley, Shufang Xie, Piotr Gaiński, Philipp Seidl, Marwin Segler, (参考訳) 自動合成計画(Automated Synthesis Planning)は、最近、化学と機械学習の交差する研究領域として再登場した。 着実な進歩の出現にもかかわらず、不完全なベンチマークと矛盾した比較は既存の技術の体系的な欠点を隠蔽し、必然的に進歩を妨げていると論じる。 そこで本稿では,Syntheseusと呼ばれる広範囲なベンチマークフレームワークを備えた合成計画ライブラリを提案する。 本研究では, 過去のレトロシンセシスアルゴリズムを再評価することにより, 合成の能力を実証し, 制御された評価実験において, 最先端モデルのランキングが変化することを示した。 この領域における今後の作業に関するガイダンスを最後に、コミュニティに合成計画のベンチマークを改善する方法についての議論を呼びかけます。

Automated Synthesis Planning has recently re-emerged as a research area at the intersection of chemistry and machine learning. Despite the appearance of steady progress, we argue that imperfect benchmarks and inconsistent comparisons mask systematic shortcomings of existing techniques, and unnecessarily hamper progress. To remedy this, we present a synthesis planning library with an extensive benchmarking framework, called syntheseus, which promotes best practice by default, enabling consistent meaningful evaluation of single-step models and multi-step planning algorithms. We demonstrate the capabilities of syntheseus by re-evaluating several previous retrosynthesis algorithms, and find that the ranking of state-of-the-art models changes in controlled evaluation experiments. We end with guidance for future works in this area, and call the community to engage in the discussion on how to improve benchmarks for synthesis planning.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# LooGLE: ロングコンテキスト言語モデルはロングコンテキストを理解することができるか?

LooGLE: Can Long-Context Language Models Understand Long Contexts? ( http://arxiv.org/abs/2311.04939v2 )

ライセンス: Link先を確認
Jiaqi Li, Mengmeng Wang, Zilong Zheng, Muhan Zhang, (参考訳) 大規模言語モデル(LLM)は、様々な言語タスクにおける優れた性能にもかかわらず、典型的にはコンテキストウィンドウサイズのテキスト処理に限られる。 この制限により、LLMの長文理解を高品質なロングシーケンスベンチマークで強化するための重要な研究が進められた。 しかし、この点における以前のデータセットは、現代のLCMのコンテキストウィンドウと比較して短いコンテキスト長、データ漏洩問題のある古いドキュメント、長い依存性タスクよりも短い依存性タスクに重点を置いているといった欠点に悩まされている。 本稿では,LLMの長期文脈理解のためのLong Context Generic Language EvaluationベンチマークであるLooGLEを提案する。 LooGLEには2022年以降の比較的新しいドキュメントがあり、ドキュメント毎に24,000以上のトークンと、さまざまなドメインにまたがる6,000の新しい質問がある。 人間のアノテーションは、長い依存関係の要求を満たすために、1,100以上の高品質な質問応答ペアを慎重に作り上げた。 これらのペアは徹底的なクロスバリデーションを行い、LLMの長期依存能力を最も正確に評価した。 LooGLEにおける8つの最先端LCMの評価から,重要な知見が得られた。 (i)商用モデルがオープンソースモデルを上回っていること。 (ii)LLMは、短い質問回答やクローゼタスクのような短い依存タスクに優れていたが、より複雑な長期依存タスクに苦しんだ。 三 文脈学習及び連鎖思想は、限界的な改善のみを施した。 (4)検索に基づく手法は,文脈ウィンドウ長を延長する手法が長期的文脈理解に限られた影響を与えているのに対し,短時間の質問応答には有意な効果を示した。 そのため、LooGLEは長期コンテキストLLMの体系的かつ包括的な評価スキーマを提供するだけでなく、「真の長期コンテキスト理解」に向けた拡張モデルの開発にも光を当てている。

Large language models (LLMs), despite their impressive performance in various language tasks, are typically limited to processing texts within context-window size. This limitation has spurred significant research efforts to enhance LLMs' long-context understanding with high-quality long-sequence benchmarks. However, prior datasets in this regard suffer from shortcomings, such as short context length compared to the context window of modern LLMs; outdated documents that have data leakage problems; and an emphasis on short dependency tasks rather than long dependency tasks. In this paper, we present LooGLE, a Long Context Generic Language Evaluation benchmark for LLMs' long context understanding. LooGLE features relatively new documents post-2022, with over 24,000 tokens per document and 6,000 newly generated questions spanning diverse domains. Human annotators meticulously crafted more than 1,100 high-quality question-answer pairs to meet the long dependency requirements. These pairs underwent thorough cross-validation, yielding the most precise assessment of LLMs' long dependency capabilities. The evaluation of eight state-of-the-art LLMs on LooGLE revealed key findings: (i) commercial models outperformed open-sourced models; (ii) LLMs excelled in short dependency tasks like short question-answering and cloze tasks but struggled with more intricate long dependency tasks; (iii) in-context learning and chaining thoughts offered only marginal improvements; (iv) retrieval-based techniques demonstrated substantial benefits for short question-answering, while strategies for extending context window length had limited impact on long context understanding. As such, LooGLE not only provides a systematic and comprehensive evaluation schema on long-context LLMs, but also sheds light on future development of enhanced models towards "true long-context understanding".
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# 宇宙量子符号

Quotient Space Quantum Codes ( http://arxiv.org/abs/2311.07265v5 )

ライセンス: Link先を確認
Jing-Lei Xia, (参考訳) 加法符号といくつかの非加法符号は、それぞれ安定化器 G の1つの不変部分空間と複数の不変部分空間を用いて量子符号を構成するため、不変部分空間の選択は重要な問題である。 本稿では,この問題に対して必要かつ十分な条件を提供し,量子符号を構築するための商空間符号を確立する。 これらの新しい符号は、付加的な符号と安定化された符号を統一し、古典的な符号を伝達することができる。 実際、私は、Markus Grassl や Martin Roetteler とは違い、縮退したコードを扱うのが簡単である、ユニオン・スタビライザー・コードを構築するための代替のアプローチを提案します。 また、量子符号に対する新しい境界を示し、量子シングルトン境界の簡単な証明を提供する。 商空間アプローチは、量子誤り訂正符号の研究のための簡潔で明確な数学的枠組みを提供する。

Additive codes and some nonadditive codes use the single and multiple invariant subspaces of the stabilizer G, respectively, to construct quantum codes, so the selection of the invariant subspaces is a key problem. In this paper, I provide the necessary and sufficient conditions for this problem and, establish the quotient space codes to construct quantum codes. These new codes unify additive codes and codeword stabilized codes and can transmit classical codewords. Actually, I give an alternative approach to constructing union stabilizer codes, which is different from that of Markus Grassl and Martin Roetteler, and which is easier to deal with degenerate codes. I also present new bounds for quantum codes and provide a simple proof of the quantum Singleton bound. The quotient space approach provides a concise and clear mathematical framework for the study of quantum error-correcting codes.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# 最適量子リセットの探求--鎖上の粒子のプロトコル

Quest for optimal quantum resetting: protocols for a particle on a chain ( http://arxiv.org/abs/2311.09150v4 )

ライセンス: Link先を確認
Pallabi Chatterjee, S. Aravinda, Ranjan Modak, (参考訳) 古典的な文脈では、検索がターゲットを見つけられない場合、リセットとして知られるプロセスを再起動する方がよいことがよく知られている。 リセットの量子対向はまた、暗黒状態、すなわち粒子が検出を避けている状況を取り除くことによって、検出プロセスのスピードアップを示す。 本研究では, 所定のリセットステップにおいて, 既往のリセットにより生じる可能性のあるピーク位置(粒子の発見確率が最大となる)の集合に対して, 特定の確率でリセットを行い, 前のステップで粒子がどの経路を取るかに関わらず, 未断のユニタリ進化をおこなうような, 最も確率の高い位置リセット(MPR)プロトコルを導入する。 強結合格子モデルでは、最大確率の位置の2倍縮退(左と右)が存在する。 最適再起動率の生存確率は、粒子が双方の経路で独立に等しい確率でリセットされたときにゼロに近づく(検出確率は1に近づく)。 このプロトコルは、最適平均1次通過時間(FDT)を著しく低減し、粒子が初期位置に戻される通常のリセットプロトコルと比較して、検出器が遠く離れている場合でも、より良い性能を発揮する。 そこで本稿では,ステップの関数を右と左に進む確率を考慮し,適応的な2段階MPRである修正プロトコルを提案する。 このプロトコルでは、検出器が遠く離れている場合、最適な平均FDTがさらに削減され、探索プロセスが改善される。

In the classical context, it is well known that, sometimes, if the search does not find its target, it is better to start the process anew again, known as resetting. The quantum counterpart of resetting also indicates speeding up the detection process by eliminating the dark states, i.e., situations where the particle avoids detection. In this work, we introduce the most probable position resetting(MPR) protocol in which, at a given resetting step, resets are done with certain probabilities to the set of possible peak positions (where the probability of finding the particle is maximum) that could occur because of the previous resets and followed by uninterrupted unitary evolution, irrespective of which path was taken by the particle in previous steps. In a tight-binding lattice model, there exists a 2-fold degeneracy (left and right) of the positions of maximum probability. The survival probability with optimal restart rate approaches zero (detection probability approaches one) when the particle is reset with equal probability on both sides path independently. This protocol significantly reduces the optimal mean first-detected-passage time (FDT) and performs better even if the detector is far apart compared to the usual resetting protocols where the particle is brought back to the initial position. We propose a modified protocol, an adaptive two-stage MPR, by making the associated probabilities of going to the right and left a function of steps. In this protocol, we see a further reduction of the optimal mean FDT and improvement in the search process when the detector is far apart.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# ホワイトボックス・トランスフォーマーの低レート化:圧縮がすべて存在するか?

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? ( http://arxiv.org/abs/2311.13110v4 )

ライセンス: Link先を確認
Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Hao Bai, Yuexiang Zhai, Benjamin D. Haeffele, Yi Ma, (参考訳) 本稿では,表現学習の自然な目的として,例えばトークンの集合などのデータの分布を,非コヒーレント部分空間上で支持される低次元ガウス混合に圧縮・変換することが主張される。 このような表現の良さはスパースレート還元と呼ばれる原理的尺度で評価することができ、学習された表現の内在的な情報ゲインと外在的な空間性を同時に最大化する。 この観点からは、トランスフォーマーを含む一般的なディープネットワークアーキテクチャは、この測定を最適化するための反復的なスキームの実現と見なすことができる。 マルチヘッド自己注意演算子は、特徴の符号化速度に近似的な勾配降下ステップを実装して表現を圧縮し、その後の多層パーセプトロンは特徴を拡大する。 これは、数学的に完全に解釈可能なCRATEと呼ばれる、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。 本稿では,従来の圧縮符号化の逆変換をCRATEアーキテクチャと同一のクラスで実現可能であることを示す。 したがって、いわゆるホワイトボックスアーキテクチャはエンコーダとデコーダの両方に普遍的である。 実験によると、これらのネットワークは、その単純さにもかかわらず、大規模な現実世界の画像やテキストデータセットの表現を圧縮し、スパーシフィケートすることを学び、高度にエンジニアリングされたトランスフォーマーベースのモデル(ViT、MAE、DINO、BERT、GPT2)に非常に近い性能を達成する。 提案した計算フレームワークは,データ圧縮の統一的な視点から,深層学習の理論と実践のギャップを埋める大きな可能性を実証している。 コードは、https://ma-lab-berkeley.github.io/CRATE で入手できる。

In this paper, we contend that a natural objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a low-dimensional Gaussian mixture supported on incoherent subspaces. The goodness of such a representation can be evaluated by a principled measure, called sparse rate reduction, that simultaneously maximizes the intrinsic information gain and extrinsic sparsity of the learned representation. From this perspective, popular deep network architectures, including transformers, can be viewed as realizing iterative schemes to optimize this measure. Particularly, we derive a transformer block from alternating optimization on parts of this objective: the multi-head self-attention operator compresses the representation by implementing an approximate gradient descent step on the coding rate of the features, and the subsequent multi-layer perceptron sparsifies the features. This leads to a family of white-box transformer-like deep network architectures, named CRATE, which are mathematically fully interpretable. We show, by way of a novel connection between denoising and compression, that the inverse to the aforementioned compressive encoding can be realized by the same class of CRATE architectures. Thus, the so-derived white-box architectures are universal to both encoders and decoders. Experiments show that these networks, despite their simplicity, indeed learn to compress and sparsify representations of large-scale real-world image and text datasets, and achieve performance very close to highly engineered transformer-based models: ViT, MAE, DINO, BERT, and GPT2. We believe the proposed computational framework demonstrates great potential in bridging the gap between theory and practice of deep learning, from a unified perspective of data compression. Code is available at: https://ma-lab-berkeley.github.io/CRATE .
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# 量子補助入力による無条件安全なコミット

Unconditionally Secure Commitments with Quantum Auxiliary Inputs ( http://arxiv.org/abs/2311.18566v2 )

ライセンス: Link先を確認
Tomoyuki Morimae, Barak Nehoran, Takashi Yamakawa, (参考訳) 1)Chailloux, Kerenidis, and Rosgen (Comput. Complex. 2016) による量子補助入力の概念を再考する。 計算的ハイディングおよび統計的に束縛された量子補助インプットのコミットメントは無条件、すなわち証明されていない仮定に頼らずに存在し、Chaillouxらは複雑性理論的な仮定である${\bf QIP}\not\subseteq{\bf QMA}$を仮定した。 一方、量子補助入力設定においても、統計的隠れと統計的結合を同時に達成することは不可能である。 我々の知る限りでは、これは統計上のセキュリティが不可能なあらゆる形式の(古典的または量子的な)コミットメントの計算セキュリティを無条件で証明する最初の例である。 我々の構築に向けた中間段階として、量子後スパース擬似ランダム分布や、独立した関心を持つかもしれない量子補助入力EFIペアを導入・非条件で構築する。 本研究では,コモンリファレンス量子状態(CRQS)モデルと呼ばれる新しいモデルを提案する。 我々は、CRQSモデルに統計的に隠れ、統計的に結びついたコミットメントが存在することを無条件で証明し、プレーンモデルにおける不可能性を回避した。 また, ゼロ知識証明, 曖昧な転送, マルチパーティ計算への応用についても論じる。

We show the following unconditional results on quantum commitments in two related yet different models: 1. We revisit the notion of quantum auxiliary-input commitments introduced by Chailloux, Kerenidis, and Rosgen (Comput. Complex. 2016) where both the committer and receiver take the same quantum state, which is determined by the security parameter, as quantum auxiliary inputs. We show that computationally-hiding and statistically-binding quantum auxiliary-input commitments exist unconditionally, i.e., without relying on any unproven assumption, while Chailloux et al. assumed a complexity-theoretic assumption, ${\bf QIP}\not\subseteq{\bf QMA}$. On the other hand, we observe that achieving both statistical hiding and statistical binding at the same time is impossible even in the quantum auxiliary-input setting. To the best of our knowledge, this is the first example of unconditionally proving computational security of any form of (classical or quantum) commitments for which statistical security is impossible. As intermediate steps toward our construction, we introduce and unconditionally construct post-quantum sparse pseudorandom distributions and quantum auxiliary-input EFI pairs which may be of independent interest. 2. We introduce a new model which we call the common reference quantum state (CRQS) model where both the committer and receiver take the same quantum state that is randomly sampled by an efficient setup algorithm. We unconditionally prove that there exist statistically hiding and statistically binding commitments in the CRQS model, circumventing the impossibility in the plain model. We also discuss their applications to zero-knowledge proofs, oblivious transfers, and multi-party computations.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# DEVIAS: 身近なアクションとシーンの動画表現を学習する

DEVIAS: Learning Disentangled Video Representations of Action and Scene ( http://arxiv.org/abs/2312.00826v3 )

ライセンス: Link先を確認
Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi, (参考訳) ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。 このようなモデルでは、テストデータが目に見えないアクションシーンの組み合わせを持つビデオで構成されている場合、パフォーマンスが低下する。 シーンに偏ったアクション認識モデルはこの問題に対処するかもしれないが、彼らはしばしばデータ内の貴重なシーン情報を見落としている。 この課題に対処するために、より包括的なビデオ理解のために、DisEntangled VIdeo representations of Action and Scene (DEVIAS) を学習することを提案する。 本研究では,1つのモデルを用いてアンタングル化されたアクションとシーン表現を学習するためのエンコーダ・デコーダアーキテクチャを提案する。 アーキテクチャはディエンタングルエンコーダ(DE)、アクションマスクデコーダ(AMD)、予測ヘッドで構成される。 障害を克服する鍵は、トレーニング期間中にDEとAMDの両方を採用することである。 DEはスロットアテンション機構を使用して、アンタングルされたアクションとシーン表現を学習する。 さらなる混乱のために、AMDはアクションスロットを与えられたアクションマスクを予測することを学ぶ。 結果として生じるアンタングル表現により、目に見えないアクションとシーンの組み合わせを含む、さまざまなシナリオで堅牢なパフォーマンスを実現できます。 提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。 さらに、DEVIASは、下流タスクのデータセット特性に応じてアクションやシーン情報に重点を置く柔軟性を提供する。 DEVIASは、Diving48、Something-V2、UCF-101、ActivityNetなど、さまざまなダウンストリームタスクで好ましいパフォーマンスを示している。 コードはhttps://github.com/KHU-VLL/DEVIASで公開されている。

Video recognition models often learn scene-biased action representation due to the spurious correlation between actions and scenes in the training data. Such models show poor performance when the test data consists of videos with unseen action-scene combinations. Although scene-debiased action recognition models might address the issue, they often overlook valuable scene information in the data. To address this challenge, we propose to learn DisEntangled VIdeo representations of Action and Scene (DEVIAS), for more holistic video understanding. We propose an encoder-decoder architecture to learn disentangled action and scene representations with a single model. The architecture consists of a disentangling encoder (DE), an action mask decoder (AMD), and a prediction head. The key to achieving the disentanglement is employing both DE and AMD during training time. The DE uses the slot attention mechanism to learn disentangled action and scene representations. For further disentanglement, an AMD learns to predict action masks, given an action slot. With the resulting disentangled representations, we can achieve robust performance across diverse scenarios, including both seen and unseen action-scene combinations. We rigorously validate the proposed method on the UCF-101, Kinetics-400, and HVU datasets for the seen, and the SCUBA, HAT, and HVU datasets for unseen action-scene combination scenarios. Furthermore, DEVIAS provides flexibility to adjust the emphasis on action or scene information depending on dataset characteristics for downstream tasks. DEVIAS shows favorable performance in various downstream tasks: Diving48, Something-Something-V2, UCF-101, and ActivityNet. The code is available at https://github.com/KHU-VLL/DEVIAS.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# 拡散モデルのモジュラーカスタマイズのための直交適応

Orthogonal Adaptation for Modular Customization of Diffusion Models ( http://arxiv.org/abs/2312.02432v2 )

ライセンス: Link先を確認
Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein, (参考訳) テキスト・ツー・イメージ・モデルのカスタマイズ技術は、様々なコンテキストやスタイルにまたがる特定の概念の生成を可能にする、これまで達成できなかった幅広いアプリケーションへの道を開いた。 既存の手法は、個々の概念や、限定された事前定義されたセットの高忠実度なカスタマイズを促進するが、単一のモデルが無数の概念をシームレスにレンダリングできるようなスケーラビリティを達成するには至らない。 本稿では,個別の概念に独立して微調整されたカスタマイズモデルを効率的にマージすることを目的として,モジュールカスタマイズと呼ばれる新しい問題に対処する。 これにより、マージされたモデルは、忠実さを損なうことなく、余分な計算コストを発生させることなく、1つのイメージで概念を共同で合成することができる。 この問題に対処するために、直交残量を持つように、微調整中に相互にアクセスできないカスタマイズされたモデルを奨励する手法である直交適応を導入する。 これにより、推論時間中に、カスタマイズされたモデルを最小限の干渉でまとめることができる。 提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。 定量的および定性的な評価の広範なセットを通じて,本手法は効率性やアイデンティティの保存において,関連するベースラインを常に上回り,拡張モデルのスケーラブルなカスタマイズに向けた大きな飛躍を示す。

Customization techniques for text-to-image models have paved the way for a wide range of previously unattainable applications, enabling the generation of specific concepts across diverse contexts and styles. While existing methods facilitate high-fidelity customization for individual concepts or a limited, pre-defined set of them, they fall short of achieving scalability, where a single model can seamlessly render countless concepts. In this paper, we address a new problem called Modular Customization, with the goal of efficiently merging customized models that were fine-tuned independently for individual concepts. This allows the merged model to jointly synthesize concepts in one image without compromising fidelity or incurring any additional computational costs. To address this problem, we introduce Orthogonal Adaptation, a method designed to encourage the customized models, which do not have access to each other during fine-tuning, to have orthogonal residual weights. This ensures that during inference time, the customized models can be summed with minimal interference. Our proposed method is both simple and versatile, applicable to nearly all optimizable weights in the model architecture. Through an extensive set of quantitative and qualitative evaluations, our method consistently outperforms relevant baselines in terms of efficiency and identity preservation, demonstrating a significant leap toward scalable customization of diffusion models.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-06
# AI誘導型逆設計とリサイクル可能な三量体高分子の発見

AI-guided inverse design and discovery of recyclable vitrimeric polymers ( http://arxiv.org/abs/2312.03690v4 )

ライセンス: Link先を確認
Yiwen Zheng, Prakash Thakolkaran, Agni K. Biswal, Jake A. Smith, Ziheng Lu, Shuxin Zheng, Bichlien H. Nguyen, Siddhant Kumar, Aniruddh Vashisth, (参考訳) ビトリマー(Vitrimer)は、アソシアティブな再配列反応を通すダイナミックな共有結合適応ネットワークによって、修復する能力を持つ、持続可能なポリマーの新しいクラスである。 しかしながら、構成分子の限られた選択は、それらの性質空間を制限し、それらの潜在的な応用の完全な実現を禁止している。 この課題を克服するために、分子動力学シミュレーションと、ガラス転移温度(Tg)を所望とするビトリマーケミストリーの逆設計のための新しいグラフ変分オートエンコーダ(VAE)機械学習モデルを組み合わせて、新しいビトリマーポリマーを合成する。 我々は,100万個の化学薬品からなる最初のビトリマーデータセットを構築し,その中の8,424個のTgをガウス過程モデルで校正した高スループットMDシミュレーションにより計算する。 提案する新規なVAEは、二重グラフエンコーダと、多成分ビトリマーの個々の表現を可能にする潜在次元重なり合うスキームを用いる。 ウィトリマーの必要な情報を含む連続潜伏空間を構築することにより、トレーニング体制を超えて望ましいTgを持つ新しいヴィトリマーを発見するための枠組みの精度と効率性を実証する。 化学直観を取り入れ, 311-317 KのTgを添加したビトリマーを合成し, 修復性と流動性を実験的に実証した。 提案フレームワークは, 高分子化学者が新規で持続可能なビトリマーポリマーを設計し, 合成するためのエキサイティングなツールを提供する。

Vitrimer is a new, exciting class of sustainable polymers with the ability to heal due to their dynamic covalent adaptive network that can go through associative rearrangement reactions. However, a limited choice of constituent molecules restricts their property space, prohibiting full realization of their potential applications. To overcome this challenge, we couple molecular dynamics (MD) simulations and a novel graph variational autoencoder (VAE) machine learning model for inverse design of vitrimer chemistries with desired glass transition temperature (Tg) and synthesize a novel vitrimer polymer. We build the first vitrimer dataset of one million chemistries and calculate Tg on 8,424 of them by high-throughput MD simulations calibrated by a Gaussian process model. The proposed novel VAE employs dual graph encoders and a latent dimension overlapping scheme which allows for individual representation of multi-component vitrimers. By constructing a continuous latent space containing necessary information of vitrimers, we demonstrate high accuracy and efficiency of our framework in discovering novel vitrimers with desirable Tg beyond the training regime. To validate the effectiveness of our framework in experiments, we generate novel vitrimer chemistries with a target Tg = 323 K. By incorporating chemical intuition, we synthesize a vitrimer with Tg of 311-317 K, and experimentally demonstrate healability and flowability. The proposed framework offers an exciting tool for polymer chemists to design and synthesize novel, sustainable vitrimer polymers for a facet of applications.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# 2次元漸近準周期系における異常普遍量子輸送

Anomalous universal quantum transport in 2D asymptotic quasiperiodic system ( http://arxiv.org/abs/2312.04349v3 )

ライセンス: Link先を確認
Ting-Fung Jeffrey Poon, Yuhao Wan, Yucheng Wang, Xiong-Jun Liu, (参考訳) 準周期系はアンダーソン変換の概念を準ランダム領域や低次元領域へと拡張し、広く注目を集めている。 本稿では,不合理な限界を持つ有理磁束の列を特徴とする漸近的準周期的2次元システムを提案し,漸近的準周期性(AQP)に関連する異方的普遍波-パケット力学と輸送現象を予測する。 これらの予測は、AQP、緩和、および有限温度の間の新しい相互作用効果によって引き起こされる複数の金属絶縁体遷移のクラスを明らかにし、さらに統一的で深い機構を明らかにする。 具体的には、波束力学、バルク輸送、エッジ輸送を含むすべての輸送現象は、準周期極限における量子相への非自明な漸近関係を示す漸近準周期状態で公布された普遍的なスケーリング法則に統一される。 我々の研究は、普遍的な量子輸送現象を豊かにし、金属絶縁体転移の基礎となるメカニズムを付加し、AQPによるエキゾチック輸送物理学を高次元で研究するための道を開く。

Quasiperiodic systems extend the concept of the Anderson transition to quasi-random and low-dimensional realms and have garnered widespread attention. Here, we propose the asymptotic quasiperiodic two-dimensional systems characterized by a sequence of rational magnetic fluxes, which have an irrational limit, and predict exotic universal wave-packet dynamics and transport phenomena associated with the asymptotic quasiperiodicity (AQP). The predictions unveil a class of multiple metal-insulator transitions driven by a novel interplay effect between AQP, relaxation, and finite temperature, which further reveals a unified and profound mechanism. Specifically, all the transport phenomena, including the wave-packet dynamics, the bulk and edge transport, are unified in the universal scaling laws unveiled in the asymptotic quasiperiodic regime, which demonstrate a nontrivial asymptotic connection to quantum phases in the quasiperiodic limit. Our work enriches the universal quantum transport phenomena, adds to the basic mechanisms underlying metal-insulator transitions, and opens up an avenue to study the exotic transport physics with AQP in high dimensions.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# 霊長類運動電位による多体状態の浮き彫り工学

Floquet engineering of many-body states by the ponderomotive potential ( http://arxiv.org/abs/2312.04892v2 )

ライセンス: Link先を確認
Zhiyuan Sun, (参考訳) 雷動力は、粒子が振動場において感じる効果的な静力であり、その静電位は雷動電位と呼ばれることがある。 我々は、この概念を周期的に駆動される量子多体系に一般化し、その非平衡定常状態を単一粒子レベルを超えて設計するための便利なツールとして提案する。 光によって駆動される材料に応用すると、雷動電位は共鳴に近い平衡光伝導度と密接に関連している。 入射光からの入射運動電位は、半導体中の励起子凝縮を誘導し、特定の電子-フォノン系における超伝導に導かれる魅力的な相互作用を発生させ、電荷/スピン/励起秩序を持つ系において追加の自由エネルギーミニマを生成するために用いられる。 これらの効果は実験的に関連するパラメータで表される。

The ponderomotive force is an effective static force that a particle feels in an oscillating field, whose static potential may be called the ponderomotive potential. We generalize this notion to periodically driven quantum many-body systems, and propose it as a convenient tool to engineer their non-equilibrium steady states beyond the single particle level. Applied to materials driven by light, the ponderomotive potential is intimately related to the equilibrium optical conductivity, which is enhanced close to resonances. We show that the ponderomotive potential from the incident light may be used to induce exciton condensates in semiconductors, to generate attractive interactions leading to superconductivity in certain electron-phonon systems, and to create additional free energy minima in systems with charge/spin/excitonic orders. These effects are presented with experimentally relevant parameters.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# リカレントニューラルカスケードの表現性について

On The Expressivity of Recurrent Neural Cascades ( http://arxiv.org/abs/2312.09048v2 )

ライセンス: Link先を確認
Nadezda Alexandrovna Knorozova, Alessandro Ronca, (参考訳) リカレントニューラルカスケード(Recurrent Neural Cascades、RNC)は、リカレントニューラルネットワークであり、リカレントニューロン間で循環的依存を持たない。 この種のリカレントネットワークは、実際に多くの注目を集めている。 バックプロパゲーションのような固定されたアーキテクチャのトレーニング方法に加えて、カスケードアーキテクチャは自然に構築的な学習方法を可能にする。 さらに、非巡回性は、同じ数のニューロンであっても、完全に連結されたアーキテクチャに比べてより好ましいサンプル複雑性をもたらす構造的先行性を持つ。 中心的な問題は、カスケードアーキテクチャの利点が表現力の低下によるものであるかどうかである。 私たちはこの質問に新しい洞察を与えます。 RNCが捉えた正の言語は、正の繰り返し重みを持つ符号と接尾辞の活性化によって得られる正の言語は、星のない正の正規言語であることを示す。 そこで我々は,1つのニューロンがどのセミグループやグループを実装できるかを分析することによって,RCCの能力にアクセス可能な新しいフレームワークを開発した。 我々のフレームワークの顕著な意味は、RCCがグループを実装可能なニューロンを導入することで、すべての正規言語の表現性を達成できるということである。

Recurrent Neural Cascades (RNCs) are the recurrent neural networks with no cyclic dependencies among recurrent neurons. This class of recurrent networks has received a lot of attention in practice. Besides training methods for a fixed architecture such as backpropagation, the cascade architecture naturally allows for constructive learning methods, where recurrent nodes are added incrementally one at a time, often yielding smaller networks. Furthermore, acyclicity amounts to a structural prior that even for the same number of neurons yields a more favourable sample complexity compared to a fully-connected architecture. A central question is whether the advantages of the cascade architecture come at the cost of a reduced expressivity. We provide new insights into this question. We show that the regular languages captured by RNCs with sign and tanh activation with positive recurrent weights are the star-free regular languages. In order to establish our results we developed a novel framework where capabilities of RNCs are accessed by analysing which semigroups and groups a single neuron is able to implement. A notable implication of our framework is that RNCs can achieve the expressivity of all regular languages by introducing neurons that can implement groups.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# マイクロファブリケート原子蒸気セルにおけるスピン偏極の空洞共鳴検出

Cavity-resonated detection of spin polarization in a microfabricated atomic vapor cell ( http://arxiv.org/abs/2312.12256v2 )

ライセンス: Link先を確認
María Hernández Ruiz, Yintao Ma, Hana Medhat, Chiara Mazzinghi, Vito Giovanni Lucivero, Morgan W. Mitchell, (参考訳) 我々は,光共振器内における微小共振器内での原子蒸気の電子スピン偏極の連続的なパウンド・ドレーバー・ハル(PDH)非破壊モニタリングを実証した。 N$_{2}$バッファガスの^{87}$Rb及び1.3アマガットを含有し、二色誘電体コーティングを有する2つのミラーからなる平面光共振器内に配置し、780nmのD$_2$ライン近傍の位相変調プローブ光との結合を共鳴的に増強する。 本稿では,スピン依存型複素屈折率,共振器光伝達関数,スピン偏光に対するPDH信号応答などの信号生成理論について述べる。 原子共鳴線を周回する波長200$ GHzの共振器とPDH信号の共振を観測する。 795nmD$_1$ラインでの共振光ポンピングにより、スピン依存キャビティラインシフトを理論とよく一致して観察する。 我々は、ラインシフトと光ポンピングパワーの飽和を利用して、光ポンピングの数密度と効率を校正する。 未解決のサイドバンド系では、スピン偏極密度の量子ノイズに制限されたPDH読み出しを観測し、700Hz以上の周波数に対して9×9のスピンs cm$^{-3}$ Hz$^{-1/2}$のフラットノイズフロアを観測した。 この手法の拡張の可能性に留意する。

We demonstrate continuous Pound-Drever-Hall (PDH) nondestructive monitoring of the electron spin polarization of an atomic vapor in a microfabricated vapor cell within an optical resonator. The two-chamber silicon and glass cell contains $^{87}$Rb and 1.3 amagat of N$_{2}$ buffer gas, and is placed within a planar optical resonator formed by two mirrors with dichroic dielectric coatings to resonantly enhance the coupling to phase-modulated probe light near the D$_2$ line at 780 nm. We describe the theory of signal generation in this system, including the spin-dependent complex refractive index, cavity optical transfer functions, and PDH signal response to spin polarization. We observe cavity transmission and PDH signals across $\approx 200$ GHz of detuning around the atomic resonance line. By resonant optical pumping on the 795 nm D$_1$ line, we observe spin-dependent cavity line shifts, in good agreement with theory. We use the saturation of the line shift vs. optical pumping power to calibrate the number density and efficiency of the optical pumping. In the unresolved sideband regime, we observe quantum-noise-limited PDH readout of the spin polarization density, with a flat noise floor of $9 \times 10^9$ spins cm$^{-3}$ Hz$^{-1/2}$ for frequencies above 700 Hz. We note possible extensions of the technique.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# 光音楽認識システム評価のための統一表現フレームワーク

A Unified Representation Framework for the Evaluation of Optical Music Recognition Systems ( http://arxiv.org/abs/2312.12908v2 )

ライセンス: Link先を確認
Pau Torras, Sanket Biswas, Alicia Fornés, (参考訳) 現代光学音楽認識(OMR)は、かなり断片化された分野である。 ほとんどのOMRアプローチでは、互いに独立して互換性のないデータセットを使用するため、それらを組み合わせて、その上に構築された認識システムを比較することは困難である。 本稿では,共通の音楽表現言語の必要性を特定し,協調,技術再利用,コミュニティ活動の公正な評価を可能にするOMR研究のための共通エンドポイントを構築することを目的として,音楽木表記形式(MTN)を提案する。 このフォーマットは、音楽を高収差ノードにグループ化するプリミティブの集合として表現し、完全なグラフベースとシーケンシャルな表記形式の間の妥協である。 また,この概念の実証として,特定のOMRメトリックセットとタイプセットスコアデータセットを開発した。

Modern-day Optical Music Recognition (OMR) is a fairly fragmented field. Most OMR approaches use datasets that are independent and incompatible between each other, making it difficult to both combine them and compare recognition systems built upon them. In this paper we identify the need of a common music representation language and propose the Music Tree Notation (MTN) format, with the idea to construct a common endpoint for OMR research that allows coordination, reuse of technology and fair evaluation of community efforts. This format represents music as a set of primitives that group together into higher-abstraction nodes, a compromise between the expression of fully graph-based and sequential notation formats. We have also developed a specific set of OMR metrics and a typeset score dataset as a proof of concept of this idea.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# アナログ量子貯水池コンピュータを用いたマイクロ波信号処理

Microwave signal processing using an analog quantum reservoir computer ( http://arxiv.org/abs/2312.16166v2 )

ライセンス: Link先を確認
Alen Senanian, Sridhar Prabhu, Vladimir Kremenetski, Saswata Roy, Yingkang Cao, Jeremy Kline, Tatsuhiro Onodera, Logan G. Wright, Xiaodi Wu, Valla Fatemi, Peter L. McMahon, (参考訳) 量子サーブレットコンピューティング(QRC)は、量子プロセッサで機械学習を実行するパラダイムとして提案されており、量子プロセッサの必要な実行回数でトレーニングが効率的であり、古典的なドメインで行われ、パラメータ化された回路量子ニューラルネットワークにおけるバレンプラトーの問題を回避する。 超伝導回路に基づく量子プロセッサを用いて、アナログであるマイクロ波信号を時間的に連続的に分類することは自然である。 しかし、アナログQRCの理論的な提案は存在するが、QRCは回路モデル量子システムを用いて実装されている。 本稿では, 量子ビットに結合した発振器からなる量子超伝導回路を, 様々な分類タスクのためのアナログ量子貯水池として利用し, それらすべてに対して高い精度を実現する方法を示す。 我々の量子システムは、マイクロ波信号を直接取り込み、入力データを人工的に識別することなく動作した。 我々の研究は、事前記録された古典的信号の分類において、QRCが量子計算上の優位性をもたらすかどうかという問題に対処しようとはしない。 超伝導回路はマイクロ波光子の極端に感度の高い検出器として機能し、超伝導回路内の超低消費電力マイクロ波信号の処理を同じシステム内でのQRC処理と組み合わせることで、量子センシング・計算の優位性、すなわち数個の光子からなるマイクロ波信号の全体的な分析において優位性を得ることができる。

Quantum reservoir computing (QRC) has been proposed as a paradigm for performing machine learning with quantum processors where the training is efficient in the number of required runs of the quantum processor and takes place in the classical domain, avoiding the issue of barren plateaus in parameterized-circuit quantum neural networks. It is natural to consider using a quantum processor based on superconducting circuits to classify microwave signals that are analog -- continuous in time. However, while theoretical proposals of analog QRC exist, to date QRC has been implemented using circuit-model quantum systems -- imposing a discretization of the incoming signal in time, with each time point input by executing a gate operation. In this paper we show how a quantum superconducting circuit comprising an oscillator coupled to a qubit can be used as an analog quantum reservoir for a variety of classification tasks, achieving high accuracy on all of them. Our quantum system was operated without artificially discretizing the input data, directly taking in microwave signals. Our work does not attempt to address the question of whether QRCs could provide a quantum computational advantage in classifying pre-recorded classical signals. However, beyond illustrating that sophisticated tasks can be performed with a modest-size quantum system and inexpensive training, our work opens up the possibility of achieving a different kind of advantage than a purely computational advantage: superconducting circuits can act as extremely sensitive detectors of microwave photons; our work demonstrates processing of ultra-low-power microwave signals in our superconducting circuit, and by combining sensitive detection with QRC processing within the same system, one could achieve a quantum sensing-computational advantage, i.e., an advantage in the overall analysis of microwave signals comprising just a few photons.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# VHRリモートセンシング画像における教師なし変化検出のためのセグメント変更モデル(SCM) : 建物を事例として

Segment Change Model (SCM) for Unsupervised Change detection in VHR Remote Sensing Images: a Case Study of Buildings ( http://arxiv.org/abs/2312.16410v2 )

ライセンス: Link先を確認
Xiaoliang Tan, Guanzhou Chen, Tong Wang, Jiaqi Wang, Xiaodong Zhang, (参考訳) リモートセンシング(RS)の分野は、超高解像度(VHR)画像に変化検出(CD)を広く採用している。 既存のディープラーニングベースの手法のほとんどは、注釈付きサンプルにヒンジしてCDプロセスを完成させている。 近年、ビジョンファウンデーションモデル(VFM)の出現により、特定のビジョンタスクにおけるゼロショット予測が可能になった。 本研究では,Segment Anything Model (SAM) と Contrastive Language- Image Pre-training (CLIP) をベースとした,Segment Change Model (SCM) と呼ばれる教師なしCD手法を提案する。 提案手法は,異なるスケールで抽出した特徴を再検討し,それらをトップダウンで統合し,識別的変化エッジを強化する。 我々はさらに、トレーニングなしで意味表現を提供できる革新的なPiecewise Semantic Attention (PSA) スキームを設計し、擬似変化現象を最小限に抑える。 2つの公開データセットの実験を行うことで、提案されたSCMは、mIoUを46.09%から53.67%に、WHU-CDデータセットでは47.56%から52.14%に増やした。 私たちのコードはhttps://github.com/StephenApX/UCD-SCMで利用可能です。

The field of Remote Sensing (RS) widely employs Change Detection (CD) on very-high-resolution (VHR) images. A majority of extant deep-learning-based methods hinge on annotated samples to complete the CD process. Recently, the emergence of Vision Foundation Model (VFM) enables zero-shot predictions in particular vision tasks. In this work, we propose an unsupervised CD method named Segment Change Model (SCM), built upon the Segment Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP). Our method recalibrates features extracted at different scales and integrates them in a top-down manner to enhance discriminative change edges. We further design an innovative Piecewise Semantic Attention (PSA) scheme, which can offer semantic representation without training, thereby minimize pseudo change phenomenon. Through conducting experiments on two public datasets, the proposed SCM increases the mIoU from 46.09% to 53.67% on the LEVIR-CD dataset, and from 47.56% to 52.14% on the WHU-CD dataset. Our codes are available at https://github.com/StephenApX/UCD-SCM.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# ファイス図書館

The Faiss library ( http://arxiv.org/abs/2401.08281v2 )

ライセンス: Link先を確認
Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazaré, Maria Lomeli, Lucas Hosseini, Hervé Jégou, (参考訳) ベクトルデータベースは通常、埋め込みベクトルの大規模なコレクションを管理する。 現在、AIアプリケーションは急速に成長しており、保存とインデックス化が必要な埋め込みの数も増えています。 Faissライブラリはベクトルデータベースの中核機能であるベクトル類似性検索に特化している。 Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。 本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。 ライブラリの主要な機能をベンチマークし、その広範な適用性を強調するために、いくつかの選択されたアプリケーションについて議論する。

Vector databases typically manage large collections of embedding vectors. Currently, AI applications are growing rapidly, and so is the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper describes the trade-off space of vector search and the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# リカレントカーネルの異なる貯留層コンピューティングトポロジへの拡張

Extension of Recurrent Kernels to different Reservoir Computing topologies ( http://arxiv.org/abs/2401.14557v2 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Jonathan Dong, (参考訳) Reservoir Computing (RC) は、高速で効率的な計算能力によって近年人気が高まっている。 標準RCはリカレントカーネルの漸近的極限において等価であることが示されており、その表現力の解析に役立っている。 しかし、Leaky RC、Sparse RC、Deep RCのような確立されたRCパラダイムの多くは、そのような方法では分析されていない。 本研究の目的は, 特定のRCアーキテクチャの等価性を, 対応する Recurrent Kernel の定式化を用いて実験的に解析することによって, このギャップを埋めることである。 各アーキテクチャに実装されたアクティベーション関数を変化させて収束研究を行う。 また, RCアーキテクチャにおけるスパース接続の役割についても光を当て, 貯水池の大きさに依存する最適空間レベルを提案する。 さらに,本系統解析により, 深部RCモデルでは, 連続的な粒径減少の貯水池で収束がより良好であることが示唆された。

Reservoir Computing (RC) has become popular in recent years due to its fast and efficient computational capabilities. Standard RC has been shown to be equivalent in the asymptotic limit to Recurrent Kernels, which helps in analyzing its expressive power. However, many well-established RC paradigms, such as Leaky RC, Sparse RC, and Deep RC, are yet to be analyzed in such a way. This study aims to fill this gap by providing an empirical analysis of the equivalence of specific RC architectures with their corresponding Recurrent Kernel formulation. We conduct a convergence study by varying the activation function implemented in each architecture. Our study also sheds light on the role of sparse connections in RC architectures and propose an optimal sparsity level that depends on the reservoir size. Furthermore, our systematic analysis shows that in Deep RC models, convergence is better achieved with successive reservoirs of decreasing sizes.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# ボーム力学の測地力学拡張によるハートマン効果

Hartman Effect from a Geometrodynamic Extension of Bohmian Mechanics ( http://arxiv.org/abs/2401.16162v2 )

ライセンス: Link先を確認
Said Lantigua, Jonas Maziero, (参考訳) 本稿では,粒子の散乱問題に対する一般解の定電位障壁への導出について述べる。 この解は、アルクビエールのような時空で、粒子が測地線に沿って量子トンネルを行うと仮定して、ボヘミア力学の地力学的アプローチによって構築される。 さらに、この解から、量子ポテンシャル、運動量、位置、トンネル時間に関する数学的表現は、各領域の時空幾何学の観点から決定される。 これにより、障壁内の量子ポテンシャルによって生じる時空歪みの結果、ハートマン効果を説明することができる。

This paper presents the derivation of a general solution to the scattering problem of particles incident onto a barrier of constant potential. This solution is constructed through a geometrodynamic approach to Bohmian mechanics, assuming that particles undergo quantum tunneling along geodesic trajectories in an Alcubierre-like spacetime. Furthermore, from this solution, mathematical expressions for the quantum potential, momentum, position, and tunneling time are determined in terms of the spacetime geometry for each relevant region. This allows us to explain the Hartman effect as a consequence of spacetime distortion generated by the quantum potential within the barrier.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# QuEST: 効率的な選択ファインタニングによる低ビット拡散モデル量子化

QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning ( http://arxiv.org/abs/2402.03666v3 )

ライセンス: Link先を確認
Haoxuan Wang, Yuzhang Shang, Zhihang Yuan, Junyi Wu, Junchi Yan, Yan Yan, (参考訳) 拡散モデルの実践的な展開は、依然として高いメモリと時間オーバーヘッドに悩まされている。 量子化は圧縮と加速の道を開くが、既存の方法は残念ながら、モデルが低ビットに量子化されると失敗する。 本稿では,現行手法の有効性を損なう量子拡散モデルにおいて,不均衡な活性化分布,不正確な時間情報,特定のモジュールの摂動に対する脆弱性の3つの特性を実証的に明らかにする。 分散不均衡に起因する高密度低ビット量子化の難しさを軽減するために,活性化分布に適応するために,量子化モデルを微調整することを提案する。 このアイデアに基づいて、重要な時間情報を持つ層と、ビット幅の低減に敏感な層とを識別し、性能劣化を効率よく軽減する。 提案手法がアクティベーション分布を変化させ、意味のある時間情報を提供し、より簡単で正確な量子化を容易にすることを実証的に検証する。 提案手法は,3つの高解像度画像生成タスクに対して評価され,様々なビット幅設定下での最先端性能を実現するとともに,フル4ビット(すなわちW4A4)の安定拡散で読みやすい画像を生成する最初の方法である。 コードは href{https://github.com/hatchetProject/QuEST}{here} で入手できる。

The practical deployment of diffusion models still suffers from the high memory and time overhead. While quantization paves a way for compression and acceleration, existing methods unfortunately fail when the models are quantized to low-bits. In this paper, we empirically unravel three properties in quantized diffusion models that compromise the efficacy of current methods: imbalanced activation distributions, imprecise temporal information, and vulnerability to perturbations of specific modules. To alleviate the intensified low-bit quantization difficulty stemming from the distribution imbalance, we propose finetuning the quantized model to better adapt to the activation distribution. Building on this idea, we identify two critical types of quantized layers: those holding vital temporal information and those sensitive to reduced bit-width, and finetune them to mitigate performance degradation with efficiency. We empirically verify that our approach modifies the activation distribution and provides meaningful temporal information, facilitating easier and more accurate quantization. Our method is evaluated over three high-resolution image generation tasks and achieves state-of-the-art performance under various bit-width settings, as well as being the first method to generate readable images on full 4-bit (i.e. W4A4) Stable Diffusion. Code is available \href{https://github.com/hatchetProject/QuEST}{here}.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-06
# 私のデータはAIモデルにあるか? メンバーシップ推論テストと顔画像への応用

Is my Data in your AI Model? Membership Inference Test with Application to Face Images ( http://arxiv.org/abs/2402.09225v2 )

ライセンス: Link先を確認
Daniel DeAlcala, Aythami Morales, Julian Fierrez, Gonzalo Mancera, Ruben Tolosana, Javier Ortega-Garcia, (参考訳) この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。 具体的には、2つのMINTアーキテクチャを提案し、そのトレーニングプロセスで使用されるデータに監査モデルが暴露されたときに現れる、異なるアクティベーションパターンを学習する。 これらのアーキテクチャはマルチレイヤパーセプトロン(MLP)と畳み込みニューラルネットワーク(CNN)に基づいている。 実験的なフレームワークは、3つの最先端の顔認識システムを考慮した顔認識の課題に焦点を当てている。 実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。 異なる実験シナリオは、テストするAIモデルのコンテキストによって考慮される。 我々の提案したMINTアプローチは、最大90%の精度で有望な結果を得ることができ、AIモデルが特定のデータでトレーニングされているかどうかを認識できる可能性を示している。 提案されたMINTアプローチは、大規模言語モデル(LLM)のトレーニングやチューニングにセンシティブまたはプライベートデータが使用されたかどうかを明らかにするなど、いくつかのAIアプリケーションにおいて、プライバシと公正性を強制する上で有効である。

This article introduces the Membership Inference Test (MINT), a novel approach that aims to empirically assess if given data was used during the training of AI/ML models. Specifically, we propose two MINT architectures designed to learn the distinct activation patterns that emerge when an Audited Model is exposed to data used during its training process. These architectures are based on Multilayer Perceptrons (MLPs) and Convolutional Neural Networks (CNNs). The experimental framework focuses on the challenging task of Face Recognition, considering three state-of-the-art Face Recognition systems. Experiments are carried out using six publicly available databases, comprising over 22 million face images in total. Different experimental scenarios are considered depending on the context of the AI model to test. Our proposed MINT approach achieves promising results, with up to 90% accuracy, indicating the potential to recognize if an AI model has been trained with specific data. The proposed MINT approach can serve to enforce privacy and fairness in several AI applications, e.g., revealing if sensitive or private data was used for training or tuning Large Language Models (LLMs).
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# Res-VMamba:Deep Residual Learningを用いた選択状態空間モデルを用いた細粒食品カテゴリー視覚分類

Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning ( http://arxiv.org/abs/2402.15761v3 )

ライセンス: Link先を確認
Chi-Sheng Chen, Guan-Ying Chen, Dong Zhou, Di Jiang, Dai-Shi Chen, (参考訳) 食品分類は食品ビジョンタスクの基盤であり、計算栄養の急成長において重要な役割を担っている。 詳細な分類を必要とする食品の複雑さのため、最近の学術研究は、食品分類を行うために、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を主に変更している。 しかし、粒度の細かい特徴を学習するためには、CNNバックボーンはさらなる構造設計が必要である。 近年、Scan(S6)と呼ばれるScan(S6)による選択機構と計算により、新しいSequence State Space(S4)モデルが、Transformerアーキテクチャよりも優れた性能と計算効率を実証している。 Mambaメカニズムをイメージタスク(分類など)に組み込んだVMambaモデルは、現在、ImageNetデータセットにSOTA(State-of-the-art)を確立している。 本研究では,学術的に過小評価された食品データセットCNFOOD-241を導入するとともに,元のVMambaアーキテクチャ設計に固有のグローバルおよびローカル両方の特徴を同時に活用するために,VMambaモデル内の残差学習フレームワークの統合を開拓する。 その結果,VMambaは細粒度および食品の分類において,現在のSOTAモデルを上回っていることがわかった。 提案されたRes-VMambaはさらに、事前訓練された重量なしで分類精度を79.54\%に改善した。 提案手法は,CNFOOD-241データセットを用いた食品認識におけるSOTA性能の新たな評価基準を確立した。 GitHubでは、https://github.com/ChiShengChen/ResVMamba.comでコードが取得できる。

Food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision Transformers (ViTs) to perform food category classification. However, to learn fine-grained features, the CNN backbone needs additional structural design, whereas ViT, containing the self-attention module, has increased computational complexity. In recent months, a new Sequence State Space (S4) model, through a Selection mechanism and computation with a Scan (S6), colloquially termed Mamba, has demonstrated superior performance and computation efficiency compared to the Transformer architecture. The VMamba model, which incorporates the Mamba mechanism into image tasks (such as classification), currently establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this research, we introduce an academically underestimated food dataset CNFOOD-241, and pioneer the integration of a residual learning framework within the VMamba model to concurrently harness both global and local state features inherent in the original VMamba architectural design. The research results show that VMamba surpasses current SOTA models in fine-grained and food classification. The proposed Res-VMamba further improves the classification accuracy to 79.54\% without pretrained weight. Our findings elucidate that our proposed methodology establishes a new benchmark for SOTA performance in food recognition on the CNFOOD-241 dataset. The code can be obtained on GitHub: https://github.com/ChiShengChen/ResVMamba.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# オプティマイザの部分ランク

Partial Rankings of Optimizers ( http://arxiv.org/abs/2402.16565v3 )

ライセンス: Link先を確認
Julian Rodemann, Hannah Blocher, (参考訳) 本稿では,様々なテスト関数に対する複数の基準に従って,オプティマイザをベンチマークするフレームワークを提案する。 最近導入された部分順序/ランク付けのためのユニオンフリーのジェネリックディープ関数に基づいて、順序情報を完全に活用し、非互換性を実現する。 本手法では,全ての部分順序/ランクの分布を記述し,アグリゲーションの悪名高い欠点を回避する。 これにより、オプティマイザの中央あるいは外部のランキングを生成するテスト関数を特定し、ベンチマークスイートの品質を評価することができる。

We introduce a framework for benchmarking optimizers according to multiple criteria over various test functions. Based on a recently introduced union-free generic depth function for partial orders/rankings, it fully exploits the ordinal information and allows for incomparability. Our method describes the distribution of all partial orders/rankings, avoiding the notorious shortcomings of aggregation. This permits to identify test functions that produce central or outlying rankings of optimizers and to assess the quality of benchmarking suites.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# 重力量子力学への代数的アプローチ

An algebraic approach to gravitational quantum mechanics ( http://arxiv.org/abs/2402.17626v2 )

ライセンス: Link先を確認
Won Sang Chung, Georg Junker, Hassan Hassanabadi, (参考訳) 重力の量子論へのほとんどのアプローチは、プランク長の順序の最小長スケールの存在を示している。 そのような内在的な長さスケールを取り入れた量子力学モデルは、ハイゼンベルクの代数の変形を呼び起こし、一般化された不確実性原理となり、重力量子力学と呼ばれるものを構成する。 この変形代数の位置表現を利用して、重力量子力学の様々なモデルを研究する。 ガウス波パケットの自由時間発展と外部誘引ポテンシャルで束縛された粒子のスペクトル特性について検討した。 ここでは、無限の壁を持つ箱のケースと、有限深さの魅力的なポテンシャル井戸を考える。

Most approaches towards a quantum theory of gravitation indicate the existence of a minimal length scale of the order of the Planck length. Quantum mechanical models incorporating such an intrinsic length scale call for a deformation of Heisenberg's algebra resulting in a generalized uncertainty principle and constitute what is called gravitational quantum mechanics. Utilizing the position representation of this deformed algebra, we study various models of gravitational quantum mechanics. The free time evolution of a Gaussian wave packet is investigated as well as the spectral properties of a particle bound by an external attractive potential. Here the cases of a box with infinite walls and an attractive potential well of finite depth are considered.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# カラムヘッダのゼロショットトピック分類:メタデータ強化のためのLCMの活用

Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment ( http://arxiv.org/abs/2403.00884v3 )

ライセンス: Link先を確認
Margherita Martorana, Tobias Kuhn, Lise Stork, Jacco van Ossenbruggen, (参考訳) 従来のデータセット検索システムは、基礎となるデータ値ではなく、メタデータをインデックス化に頼っている。 しかし、高品質なメタデータの作成と強化は、しばしば手作業によるアノテーションを必要とします。 本研究では,3つの大規模言語モデル (LLM) が生成するトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini) を用いてメタデータの充実を支援する手法を提案する。 本分析は,リンクデータ制御語彙である欧州社会科学データアーカイブコンソーシアム(CESSDA)のドメイン固有のトピックに基づいた列ヘッダの分類に焦点をあてる。 提案手法はゼロショット設定で動作し、制御されたトピック語彙を入力プロンプトに直接統合する。 この統合は、トピック分類タスクの結果を改善することを目的として、Large Context Windowsアプローチとして機能する。 内部整合性,機械間整合性,人間分類との整合性の観点からLLMの性能評価を行った。 さらに,文脈情報(データセット記述)が分類結果に与える影響についても検討する。 以上の結果から,ChatGPTとGoogleGeminiは内部整合性およびLLM- Human-agreementの点でGoogleBardより優れていたことが示唆された。 興味深いことに,LLMの性能には文脈情報が大きな影響を与えないことが判明した。 本研究では,列ヘッダのトピック分類にLLMを用いた新しい手法を提案し,セマンティックWebドメインにおけるLLMとLarge Context Windowsの実践的応用を提案する。 このアプローチは、Web上の研究データのデータセット検索とFinderability、Accessibility、Interoperability、Reusability(FAIR)の強化を可能にする。

Traditional dataset retrieval systems rely on metadata for indexing, rather than on the underlying data values. However, high-quality metadata creation and enrichment often require manual annotations, which is a labour-intensive and challenging process to automate. In this study, we propose a method to support metadata enrichment using topic annotations generated by three Large Language Models (LLMs): ChatGPT-3.5, GoogleBard, and GoogleGemini. Our analysis focuses on classifying column headers based on domain-specific topics from the Consortium of European Social Science Data Archives (CESSDA), a Linked Data controlled vocabulary. Our approach operates in a zero-shot setting, integrating the controlled topic vocabulary directly within the input prompt. This integration serves as a Large Context Windows approach, with the aim of improving the results of the topic classification task. We evaluated the performance of the LLMs in terms of internal consistency, inter-machine alignment, and agreement with human classification. Additionally, we investigate the impact of contextual information (i.e., dataset description) on the classification outcomes. Our findings suggest that ChatGPT and GoogleGemini outperform GoogleBard in terms of internal consistency as well as LLM-human-agreement. Interestingly, we found that contextual information had no significant impact on LLM performance. This work proposes a novel approach that leverages LLMs for topic classification of column headers using a controlled vocabulary, presenting a practical application of LLMs and Large Context Windows within the Semantic Web domain. This approach has the potential to facilitate automated metadata enrichment, thereby enhancing dataset retrieval and the Findability, Accessibility, Interoperability, and Reusability (FAIR) of research data on the Web.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# PowerFlowMultiNet:不均衡三相分散システムのためのマルチグラフニューラルネットワーク

PowerFlowMultiNet: Multigraph Neural Networks for Unbalanced Three-Phase Distribution Systems ( http://arxiv.org/abs/2403.00892v3 )

ライセンス: Link先を確認
Salah Ghamizi, Jun Cao, Aoxiang Ma, Pedro Rodriguez, (参考訳) 配電系統における非平衡三相流の効率的な解法は, グリッド解析とシミュレーションにおいて重要である。 高精度で高速なソリューションを提供する大規模なアンバランスな電力グリッドを処理できるスケーラブルなアルゴリズムが求められている。 これを解決するために、ディープラーニング技術、特にグラフニューラルネットワーク(GNN)が登場した。 しかし、既存の文献は主にバランスの取れたネットワークに焦点を当てており、バランスの取れない3相電力グリッドのサポートにおいて重要なギャップを残している。 このレターでは、非平衡三相電力グリッド用に明示的に設計された新しいマルチグラフGNNフレームワークであるPowerFlowMultiNetを紹介する。 提案手法は各位相を多重グラフ表現で個別にモデル化し、非平衡格子の固有非対称性を効果的に捉える。 メッセージパッシングを利用したグラフ埋め込み機構を導入し、電力系統ネットワーク内の空間的依存関係をキャプチャする。 PowerFlowMultiNetは、精度と計算速度の点で従来の手法や他のディープラーニングアプローチよりも優れています。 厳密なテストは、モデルベースの手法と比較して、大きな電力ネットワークにおけるエラー率と計算速度の顕著な100倍の増大を明らかにしている。

Efficiently solving unbalanced three-phase power flow in distribution grids is pivotal for grid analysis and simulation. There is a pressing need for scalable algorithms capable of handling large-scale unbalanced power grids that can provide accurate and fast solutions. To address this, deep learning techniques, especially Graph Neural Networks (GNNs), have emerged. However, existing literature primarily focuses on balanced networks, leaving a critical gap in supporting unbalanced three-phase power grids. This letter introduces PowerFlowMultiNet, a novel multigraph GNN framework explicitly designed for unbalanced three-phase power grids. The proposed approach models each phase separately in a multigraph representation, effectively capturing the inherent asymmetry in unbalanced grids. A graph embedding mechanism utilizing message passing is introduced to capture spatial dependencies within the power system network. PowerFlowMultiNet outperforms traditional methods and other deep learning approaches in terms of accuracy and computational speed. Rigorous testing reveals significantly lower error rates and a notable hundredfold increase in computational speed for large power networks compared to model-based methods.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# 決定型学習のための局所凸グローバルロスネットワーク

Locally Convex Global Loss Network for Decision-Focused Learning ( http://arxiv.org/abs/2403.01875v2 )

ライセンス: Link先を確認
Haeun Jeon, Hyunglip Bae, Minsu Park, Chanyeong Kim, Woo Chang Kim, (参考訳) 不確実性の下での意思決定問題では、未知のパラメータを予測することは最適化部分とは独立であると考えられることが多い。 決定中心学習(Decision- Focus Learning, DFL)は、予測モデルを適用することで予測と最適化を統合するタスク指向のフレームワークである。 ここでは、パラメータに関する最適決定の勾配を計算する際に必然的課題が発生する。 既存の研究では、サロゲート最適化を円滑に改革したり、タスク損失を模倣するサロゲート損失関数を構築したりすることで、この問題に対処している。 しかし、それらは制限された最適化領域に適用される。 本稿では,一般DFLパラダイムで実装可能なグローバル・サロゲート損失モデルであるローカル・コンベックス・グローバル・ロス・ネットワーク(LCGLN)を提案する。 LCGLNは、選択された入力に対して凸であることが保証される部分的な入力凸ニューラルネットワークを介してタスク損失を学習し、他の入力に対して非凸グローバル構造を保持する。 これによりLCGLNは、適切なパラメトリック形式を選択する意味もなく、単一の代理損失によって一般的なDFLを許容することができる。 LCGLNの有効性と柔軟性を3つの確率的決定問題を用いて評価することで検証する。

In decision-making problem under uncertainty, predicting unknown parameters is often considered independent of the optimization part. Decision-focused Learning (DFL) is a task-oriented framework to integrate prediction and optimization by adapting predictive model to give better decision for the corresponding task. Here, an inevitable challenge arises when computing gradients of the optimal decision with respect to the parameters. Existing researches cope this issue by smoothly reforming surrogate optimization or construct surrogate loss function that mimic task loss. However, they are applied to restricted optimization domain. In this paper, we propose Locally Convex Global Loss Network (LCGLN), a global surrogate loss model which can be implemented in a general DFL paradigm. LCGLN learns task loss via partial input convex neural network which is guaranteed to be convex for chosen inputs, while keeping the non-convex global structure for the other inputs. This enables LCGLN to admit general DFL through only a single surrogate loss without any sense for choosing appropriate parametric forms. We confirm effectiveness and flexibility of LCGLN by evaluating our proposed model with three stochastic decision-making problems.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# 量子コンピューティング:ビジョンと課題

Quantum Computing: Vision and Challenges ( http://arxiv.org/abs/2403.02240v4 )

ライセンス: Link先を確認
Sukhpal Singh Gill, Oktay Cetinkaya, Stefano Marrone, Daniel Claudino, David Haunschild, Leon Schlote, Huaming Wu, Carlo Ottaviani, Xiaoyuan Liu, Sree Pragna Machupalli, Kamalpreet Kaur, Priyansh Arora, Ji Liu, Ahmed Farouk, Houbing Herbert Song, Steve Uhlig, Kotagiri Ramamohanarao, (参考訳) 量子コンピューティングの最近の発展は、絡み合い、重ね合わせ、その他の量子基本概念を用いており、従来の計算よりも大幅に処理上の利点をもたらす。 これらの量子的特徴は、従来の計算手法では解決できない多くの複雑な問題を解くのに役立つ。 これらの問題には、量子力学、ロジスティクス、化学ベースの進歩、薬物設計、統計科学、持続可能なエネルギー、銀行、信頼性のある通信、量子化学工学などが含まれる。 ここ数年、量子ソフトウェアやアルゴリズムの作成、量子ハードウェアの研究が目覚ましい進歩を遂げており、量子コンピュータの実現の見通しを大きく前進させてきた。 この分野に関する総合的な文献研究を行うことで、現状を把握し、量子コンピューティング業界で働く研究コミュニティからかなりの注意を必要とする未解決の問題を発見できるだろう。 本稿では,量子コンピューティングの理解を深めるために,この領域における現在の研究に基づく基礎とビジョンについて考察する。 本稿では,量子コンピュータハードウェアの最先端開発と量子暗号,量子ソフトウェア,高スケール性量子コンピュータの今後の進歩について論じる。 量子技術の研究と開発における多くの潜在的な課題とエキサイティングな新しいトレンドが、より広範な議論のためにこの論文で強調されている。

The recent development of quantum computing, which uses entanglement, superposition, and other quantum fundamental concepts, can provide substantial processing advantages over traditional computing. These quantum features help solve many complex problems that cannot be solved otherwise with conventional computing methods. These problems include modeling quantum mechanics, logistics, chemical-based advances, drug design, statistical science, sustainable energy, banking, reliable communication, and quantum chemical engineering. The last few years have witnessed remarkable progress in quantum software and algorithm creation and quantum hardware research, which has significantly advanced the prospect of realizing quantum computers. It would be helpful to have comprehensive literature research on this area to grasp the current status and find outstanding problems that require considerable attention from the research community working in the quantum computing industry. To better understand quantum computing, this paper examines the foundations and vision based on current research in this area. We discuss cutting-edge developments in quantum computer hardware advancement and subsequent advances in quantum cryptography, quantum software, and high-scalability quantum computers. Many potential challenges and exciting new trends for quantum technology research and development are highlighted in this paper for a broader debate.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# FineMath:中国の大規模言語モデルのための細粒度数学的評価ベンチマーク

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models ( http://arxiv.org/abs/2403.07747v2 )

ライセンス: Link先を確認
Yan Liu, Renren Jin, Ling Shi, Zheng Yao, Deyi Xiong, (参考訳) LLM(Large Language Models)の数学的推論能力を徹底的に評価するためには,様々な数学的概念と難易度で数学的な問題を網羅した評価データセットを慎重にキュレートする必要がある。 この目的を追求するために,中国のLLMを評価するための詳細な数学的評価ベンチマークデータセットであるFineMathを提案する。 FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、さらに17のカテゴリの数学語問題に分類され、LLMの数学的推論能力の詳細な分析を可能にする。 数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。 我々は、ファインマス上で広範囲にわたるLLM実験を行い、中国のLLMの数学的推論能力に関して、まだかなりの改善の余地があることを見出した。 また,これまで見過ごされてきた評価プロセスや手法について,詳細な分析を行った。 これらの2つの要因は、モデル結果と数学的推論能力の理解に大きな影響を及ぼす。 データセットは近く公開される予定だ。

To thoroughly assess the mathematical reasoning abilities of Large Language Models (LLMs), we need to carefully curate evaluation datasets covering diverse mathematical concepts and mathematical problems at different difficulty levels. In pursuit of this objective, we propose FineMath in this paper, a fine-grained mathematical evaluation benchmark dataset for assessing Chinese LLMs. FineMath is created to cover the major key mathematical concepts taught in elementary school math, which are further divided into 17 categories of math word problems, enabling in-depth analysis of mathematical reasoning abilities of LLMs. All the 17 categories of math word problems are manually annotated with their difficulty levels according to the number of reasoning steps required to solve these problems. We conduct extensive experiments on a wide range of LLMs on FineMath and find that there is still considerable room for improvements in terms of mathematical reasoning capability of Chinese LLMs. We also carry out an in-depth analysis on the evaluation process and methods that have been overlooked previously. These two factors significantly influence the model results and our understanding of their mathematical reasoning capabilities. The dataset will be publicly available soon.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# TaskCLIP:タスク指向オブジェクト検出のための大規模視覚言語モデルの拡張

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection ( http://arxiv.org/abs/2403.08108v2 )

ライセンス: Link先を確認
Hanning Chen, Wenjun Huang, Yang Ni, Sanggeon Yun, Yezi Liu, Fei Wen, Alvaro Velasquez, Hugo Latapie, Mohsen Imani, (参考訳) タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。 難しいタスクとして、曖昧なセマンティクスの下で、同時に視覚データ処理と推論が必要である。 最近のソリューションは主にオールインワンモデルです。 しかし、オブジェクト検出バックボーンは、テキストの監督なしに事前訓練される。 このように、タスク要求を組み込むために、彼らの複雑なモデルは、高度に不均衡で少ないデータセットで広範囲に学習し、その結果、パフォーマンスの上限、厳しいトレーニング、一般化性に欠ける。 対照的に、汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。 特に後者では、画像やテキストに対する豊富なセマンティック知識と均一な埋め込み空間を提供する、最近成功した大きなビジョン・ランゲージ・モデル(VLM)をバックボーンとして採用しています。 にもかかわらず、VLMの単純適用は、主に形容詞句であるオブジェクト画像の埋め込みと視覚的属性との相違により、準最適品質をもたらす。 そこで本稿では,VLM の後継となる変圧器ベースの整合器を設計し,両埋め込みの校正を行う。 最後に、トレーニング可能なスコア関数を用いて、オブジェクト選択のためのVLMマッチング結果を後処理する。 実験の結果,TaskCLIPは最先端のDETRベースモデルであるTOISTを3.5%上回り,トレーニングと推論の両方に1つのNVIDIA RTX 4090しか必要としないことがわかった。

Task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and reasoning under ambiguous semantics. Recent solutions are mainly all-in-one models. However, the object detection backbones are pre-trained without text supervision. Thus, to incorporate task requirements, their intricate models undergo extensive learning on a highly imbalanced and scarce dataset, resulting in capped performance, laborious training, and poor generalizability. In contrast, we propose TaskCLIP, a more natural two-stage design composed of general object detection and task-guided object selection. Particularly for the latter, we resort to the recently successful large Vision-Language Models (VLMs) as our backbone, which provides rich semantic knowledge and a uniform embedding space for images and texts. Nevertheless, the naive application of VLMs leads to sub-optimal quality, due to the misalignment between embeddings of object images and their visual attributes, which are mainly adjective phrases. To this end, we design a transformer-based aligner after the pre-trained VLMs to re-calibrate both embeddings. Finally, we employ a trainable score function to post-process the VLM matching results for object selection. Experimental results demonstrate that our TaskCLIP outperforms the state-of-the-art DETR-based model TOIST by 3.5% and only requires a single NVIDIA RTX 4090 for both training and inference.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# ガウス鋳型

Gaussian Splatting in Style ( http://arxiv.org/abs/2403.08498v2 )

ライセンス: Link先を確認
Abhishek Saroha, Mariia Gladkova, Cecilia Curreli, Dominik Muhle, Tarun Yenamandra, Daniel Cremers, (参考訳) 3Dシーンのスタイリングは、ニューラルスタイルの3Dへの移行作業を拡張する。 この問題における重要な課題は、複数の視点でスタイリングされた外観の均一性を維持することである。 以前の研究の大部分は、すべてのスタイリングされたイメージと複数のビューイメージのセットの3Dモデルをトレーニングすることで、これを達成している。 これとは対照的に,テスト時に,リアルタイムな高品質なスタイリングされた新しいビューを生成するスタイルイメージの収集を訓練した新しいアーキテクチャを提案する。 本モデルでは,3次元ガウススプラッティングとして,下層の3次元シーン表現を選択する。 我々は3Dガウスアンを多解像度のハッシュグリッドと小さなMLPを使って処理し、スタイリングされたビューを得る。 MLPはテスト期間中に異なるスタイルに一般化するために異なるスタイルのコードで条件付けされている。 3Dガウスの明示的な性質は、幾何整合性や高速なトレーニングとレンダリング機構を含む、NeRFベースの手法よりも本質的に有利である。 これにより,本手法は拡張現実や仮想現実など,様々なユースケースに有用である。 本研究では,室内および屋外の様々な実世界のデータに対して,視覚的品質の優れた最先端性能を実現することを実証する。

3D scene stylization extends the work of neural style transfer to 3D. A vital challenge in this problem is to maintain the uniformity of the stylized appearance across multiple views. A vast majority of the previous works achieve this by training a 3D model for every stylized image and a set of multi-view images. In contrast, we propose a novel architecture trained on a collection of style images that, at test time, produces real time high-quality stylized novel views. We choose the underlying 3D scene representation for our model as 3D Gaussian splatting. We take the 3D Gaussians and process them using a multi-resolution hash grid and a tiny MLP to obtain stylized views. The MLP is conditioned on different style codes for generalization to different styles during test time. The explicit nature of 3D Gaussians gives us inherent advantages over NeRF-based methods, including geometric consistency and a fast training and rendering regime. This enables our method to be useful for various practical use cases, such as augmented or virtual reality. We demonstrate that our method achieves state-of-the-art performance with superior visual quality on various indoor and outdoor real-world data.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# 液体抵抗型液体キャパシタンスネットワーク

Liquid Resistance Liquid Capacitance Networks ( http://arxiv.org/abs/2403.08791v3 )

ライセンス: Link先を確認
Mónika Farsang, Sophie A. Neubauer, Radu Grosu, (参考訳) 本稿では, 電気等価回路(EEC), 液体時間コンスタントネットワーク(LTC), 飽和液体時間コンスタントネットワーク(STC)の一般化, 精度, 生物学的妥当性を向上するニューラル-ODEモデルである液体抵抗型液体容量ニューラルネットワーク(LRC)を紹介する。 また、LRCユニット(LRCU)を非常に効率的かつ正確なゲート付きRNNモデルとして導入し、1つの展開だけを用いて明示的なオイラースキームでRCを解く結果を得た。 我々は,LCCの液容量がLCCとSTCの振動を著しく抑制すると同時に,安価なソルバにおいても劇的に精度を高めていることを実証し,正式に証明した。 我々は、従来の時系列ベンチマークや複雑な自律走行車線維持タスクにおいて、LRCが一般的なニューラルODEと競合し、RNNの精度、効率、解釈可能性の観点から高い競争力を持つことを実験的に実証した。

We introduce liquid-resistance liquid-capacitance neural networks (LRCs), a neural-ODE model which considerably improve the generalization, accuracy, and biological plausibility of electrical equivalent circuits (EECs), liquid time-constant networks (LTCs), and saturated liquid time-constant networks (STCs), respectively. We also introduce LRC units (LRCUs), as a very efficient and accurate gated RNN-model, which results from solving LRCs with an explicit Euler scheme using just one unfolding. We empirically show and formally prove that the liquid capacitance of LRCs considerably dampens the oscillations of LTCs and STCs, while at the same time dramatically increasing accuracy even for cheap solvers. We experimentally demonstrate that LRCs are a highly competitive alternative to popular neural ODEs and gated RNNs in terms of accuracy, efficiency, and interpretability, on classic time-series benchmarks and a complex autonomous-driving lane-keeping task.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-06
# PreCurious: 未学習の言語モデルがいかにプライバシトラップに変わるか

PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps ( http://arxiv.org/abs/2403.09562v2 )

ライセンス: Link先を確認
Ruixuan Liu, Tianhao Wang, Yang Cao, Li Xiong, (参考訳) 事前学習と微調整のパラダイムは、その効果を示し、言語モデルを様々なタスクに合わせるための標準的なアプローチとなっている。 現在、コミュニティベースのプラットフォームは、厳格な検証プロセスなしで公開できるため、トレーニング済みのさまざまなモデルに簡単にアクセスできる。 しかし、事前トレーニングされたモデルのリリースは、慎重に設計されている場合、微調整データセットのプライバシトラップになる可能性がある。 本研究では,攻撃者が事前訓練されたモデルをリリースし,最終調整されたモデルにブラックボックスでアクセスできる新たな攻撃面を明らかにするためのPreCuriousフレームワークを提案する。 PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。 PreCuriousの背後にある重要な直感は、事前訓練されたモデルの記憶段階を操作し、正当な構成で微調整をガイドすることである。 パラメータ効率および微分プライベートな微調整技術が、微調整されたモデルにおけるプライバシー攻撃に対して防御できるという実証的および理論的証拠はあるが、PreCuriousは、良心的な事前訓練されたモデルにおける微調整と比較して、この不規則性をステルス的に分割する可能性を実証している。 DPはメンバーシップ推論攻撃を緩和する一方で、さらに衛生化されたデータセットを活用することで、PreCuriousは、厳格なプライバシー予算(例えば$\epsilon=0.05$)で差分プライベートチューニングの下でも、ターゲットデータ抽出の潜在的な脆弱性を示す。 このように、PreCuriousは、トレーニング済みのモデルを未知のソースからダウンロードし、チュートリアルや常識的な防御にのみ依存し、完全にスクラブした後でも衛生化されたデータセットをリリースするという潜在的なリスクについて、ユーザに警告を発している。

The pre-training and fine-tuning paradigm has demonstrated its effectiveness and has become the standard approach for tailoring language models to various tasks. Currently, community-based platforms offer easy access to various pre-trained models, as anyone can publish without strict validation processes. However, a released pre-trained model can be a privacy trap for fine-tuning datasets if it is carefully designed. In this work, we propose PreCurious framework to reveal the new attack surface where the attacker releases the pre-trained model and gets a black-box access to the final fine-tuned model. PreCurious aims to escalate the general privacy risk of both membership inference and data extraction on the fine-tuning dataset. The key intuition behind PreCurious is to manipulate the memorization stage of the pre-trained model and guide fine-tuning with a seemingly legitimate configuration. While empirical and theoretical evidence suggests that parameter-efficient and differentially private fine-tuning techniques can defend against privacy attacks on a fine-tuned model, PreCurious demonstrates the possibility of breaking up this invulnerability in a stealthy manner compared to fine-tuning on a benign pre-trained model. While DP provides some mitigation for membership inference attack, by further leveraging a sanitized dataset, PreCurious demonstrates potential vulnerabilities for targeted data extraction even under differentially private tuning with a strict privacy budget e.g. $\epsilon=0.05$. Thus, PreCurious raises warnings for users on the potential risks of downloading pre-trained models from unknown sources, relying solely on tutorials or common-sense defenses, and releasing sanitized datasets even after perfect scrubbing.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# Invisible Gas Detection: RGB-Thermal Cross Attention Networkと新しいベンチマーク

Invisible Gas Detection: An RGB-Thermal Cross Attention Network and A New Benchmark ( http://arxiv.org/abs/2403.17712v2 )

ライセンス: Link先を確認
Jue Wang, Yuxiang Lin, Qi Zhao, Dong Luo, Shuaibao Chen, Wei Chen, Xiaojiang Peng, (参考訳) 工業プロセスにおける様々な化学ガスの広範な使用は、その毒性が高いため、輸送および貯蔵中の漏れを防止する効果的な手段を必要としている。 熱赤外ベースのコンピュータビジョン検出技術は、ガス漏れ領域を識別するための簡単なアプローチを提供する。 しかし、熱画像のテクスチャが低く、オープンソースデータセットがないため、高品質なアルゴリズムの開発は困難である。 本稿では,RGB を利用した2ストリームネットワークアーキテクチャを用いて,RGB 画像からのテクスチャ情報と熱画像からのガス領域情報を統合する RGB-Thermal Cross Attention Network (RT-CAN) を提案する。 さらに, 目に見えないガスの検出を容易にするため, 約1.3Kの良好なRGB熱画像と8種類のコレクションシーンを含む, 大規模なオープンソースガス検出データベースであるGas-DBを紹介した。 実験の結果, 両手法の利点を生かし, RGB-熱水法における最先端SOTA(State-of-the-art)性能を達成し, 精度で単一ストリームSOTAモデル, IoU(Intersection of Union), F2指標をそれぞれ4.86%, 5.65%, 4.88%の精度で上回った。 コードとデータはhttps://github.com/logic112358/RT-CANで確認できる。

The widespread use of various chemical gases in industrial processes necessitates effective measures to prevent their leakage during transportation and storage, given their high toxicity. Thermal infrared-based computer vision detection techniques provide a straightforward approach to identify gas leakage areas. However, the development of high-quality algorithms has been challenging due to the low texture in thermal images and the lack of open-source datasets. In this paper, we present the RGB-Thermal Cross Attention Network (RT-CAN), which employs an RGB-assisted two-stream network architecture to integrate texture information from RGB images and gas area information from thermal images. Additionally, to facilitate the research of invisible gas detection, we introduce Gas-DB, an extensive open-source gas detection database including about 1.3K well-annotated RGB-thermal images with eight variant collection scenes. Experimental results demonstrate that our method successfully leverages the advantages of both modalities, achieving state-of-the-art (SOTA) performance among RGB-thermal methods, surpassing single-stream SOTA models in terms of accuracy, Intersection of Union (IoU), and F2 metrics by 4.86%, 5.65%, and 4.88%, respectively. The code and data can be found at https://github.com/logic112358/RT-CAN.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# 大規模言語モデルのアライメントと安全性確保における基礎的課題

Foundational Challenges in Assuring Alignment and Safety of Large Language Models ( http://arxiv.org/abs/2404.09932v2 )

ライセンス: Link先を確認
Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, Benjamin L. Edelman, Zhaowei Zhang, Mario Günther, Anton Korinek, Jose Hernandez-Orallo, Lewis Hammond, Eric Bigelow, Alexander Pan, Lauro Langosco, Tomasz Korbak, Heidi Zhang, Ruiqi Zhong, Seán Ó hÉigeartaigh, Gabriel Recchia, Giulio Corsi, Alan Chan, Markus Anderljung, Lilian Edwards, Aleksandar Petrov, Christian Schroeder de Witt, Sumeet Ramesh Motwan, Yoshua Bengio, Danqi Chen, Philip H. S. Torr, Samuel Albanie, Tegan Maharaj, Jakob Foerster, Florian Tramer, He He, Atoosa Kasirzadeh, Yejin Choi, David Krueger, (参考訳) この研究は、大規模言語モデル(LLM)のアライメントと安全性を確保する上で、18の基本的な課題を特定する。 これらの課題は, LLMの科学的理解, 開発と展開の方法, 社会工学的課題の3つのカテゴリに分類される。 特定された課題に基づいて、200ドル以上の具体的な研究質問を投げかけます。

This work identifies 18 foundational challenges in assuring the alignment and safety of large language models (LLMs). These challenges are organized into three different categories: scientific understanding of LLMs, development and deployment methods, and sociotechnical challenges. Based on the identified challenges, we pose $200+$ concrete research questions.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# 量子強化ニューラル交換相関関数

Quantum-Enhanced Neural Exchange-Correlation Functionals ( http://arxiv.org/abs/2404.14258v2 )

ライセンス: Link先を確認
Igor O. Sokolov, Gert-Jan Both, Art D. Bochevarov, Pavel A. Dub, Daniel S. Levine, Christopher T. Brown, Shaheen Acheche, Panagiotis Kl. Barkoutsos, Vincent E. Elfving, (参考訳) コーン・シャム密度汎関数理論(KS-DFT)は、分子の正確な基底状態エネルギーと電子密度を提供し、非既知の普遍交換相関(XC)関数に基づいている。 近年の研究では、ニューラルネットワークが、その機能に対する近似を表現するために効率的に学習できることが示されており、トレーニングプロセス中に存在しない分子に正確な一般化を提供する。 量子強化機械学習(ML)の最近の進歩により、量子ニューラルネットワーク(QNN)モデルがMLアプリケーションにメリットをもたらす証拠が増えている。 本研究では,XC関数の表現にQNNを用い,それらを古典的ML手法と比較する。 我々は、様々なアーキテクチャで実装されたKS-DFTにおけるXCの量子(ハイブリッド)モデルとして、微分可能量子回路(DQC)に基づくQNNを提案する。 1Dおよび3Dシステム上での性能を評価する。 そこで我々は,既存の微分可能なKS-DFTフレームワークを拡張し,これらの機能を効率的に訓練するための戦略を提案する。 我々のQNNに基づくXC関数は、基準DMRGとFCI/6-31Gからそれぞれ1mHa以下で逸脱するH$_2$と平面H$_4$のエネルギープロファイルを得る。 さらに、トレーニングデータセットには存在しないH$_2$H$_2$というシステムの化学的精度に到達し、わずかな変動パラメータしか使用しない。 この研究は量子モデルのKS-DFTへの統合の基礎を築き、それによってXC関数を微分可能な方法で表現し、様々な性質の計算を容易にするための新たな道を開く。

Kohn-Sham Density Functional Theory (KS-DFT) provides the exact ground state energy and electron density of a molecule, contingent on the as-yet-unknown universal exchange-correlation (XC) functional. Recent research has demonstrated that neural networks can efficiently learn to represent approximations to that functional, offering accurate generalizations to molecules not present during the training process. With the latest advancements in quantum-enhanced machine learning (ML), evidence is growing that Quantum Neural Network (QNN) models may offer advantages in ML applications. In this work, we explore the use of QNNs for representing XC functionals, enhancing and comparing them to classical ML techniques. We present QNNs based on differentiable quantum circuits (DQCs) as quantum (hybrid) models for XC in KS-DFT, implemented across various architectures. We assess their performance on 1D and 3D systems. To that end, we expand existing differentiable KS-DFT frameworks and propose strategies for efficient training of such functionals, highlighting the importance of fractional orbital occupation for accurate results. Our best QNN-based XC functional yields energy profiles of the H$_2$ and planar H$_4$ molecules that deviate by no more than 1 mHa from the reference DMRG and FCI/6-31G results, respectively. Moreover, they reach chemical precision on a system, H$_2$H$_2$, not present in the training dataset, using only a few variational parameters. This work lays the foundation for the integration of quantum models in KS-DFT, thereby opening new avenues for expressing XC functionals in a differentiable way and facilitating computations of various properties.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# PKIのArmored Core: 効率的で信頼性の高い物理認証によるCA署名キーの削除

Armored Core of PKI: Removing Signing Keys for CA via Efficient and Trusted Physical Certification ( http://arxiv.org/abs/2404.15582v4 )

ライセンス: Link先を確認
Xiaolin Zhang, Chenghao Chen, Kailun Qin, Yuxuan Wang, Shipei Qu, Tengfei Wang, Chi Zhang, Dawu Gu, (参考訳) Certificate Authorities(CA)の署名キーの公開は、PKIにとって重要な懸念事項である。 これらのキーは、様々な攻撃や運用上のエラーによって、今日でも公開することができる。 従来の保護はそのようなリスクを排除できず、1つの漏洩鍵はCAを危険にさらすのに十分である。 この長年にわたるジレンマは、CAsの署名キーを削除することを検討する動機となり、証明書操作にPKIのセキュリティ拡張であるArmored Coreを提案する。 CAのデジタル署名キーをなくすことで、鍵の露出を不可能にする。 これを実現するために、我々は、デジタルキーを使わずに物理的に信頼された「署名」を生成するための、PUFベースのX.509v3証明書関数セットを設計する。 我々はこれらの機能に対する暗号的証明を提示した。 さらに,CAにおけるPUF操作を効果的に監視するPUF透過機構を導入する。 Armored Coreは、Let's Encrypt PebbleやCertbotなど、現実世界のPKIシステムに統合されている。 PUF組み込みRISC-V CPUプロトタイプも提供し,実現可能性を確認した。 評価結果から、Armored Coreは余分なオーバーヘッドを伴わずにキー削除を実現しているが、ストレージでは11%、計算では4.9%~73.7%の性能向上を実現している。

The signing key exposure of Certificate Authorities (CAs) remains a critical concern in PKI. These keys can be exposed even today by various attacks or operational errors. Traditional protections fail to eliminate such risk and one leaked key is enough to compromise the CA. This long-standing dilemma motivates us to consider removing CAs' signing keys and propose Armored Core, a PKI security extension using the trusted binding of Physically Unclonable Function (PUF) for certificate operations. It makes key exposure impossible by eliminating the digital signing keys for CA. To achieve this, we design a set of PUF-based X.509v3 certificate functions for CAs to generate physically trusted "signatures" without using a digital key. We have presented cryptographic proofs for these functions. Moreover, we introduce the first PUF transparency mechanism to effectively monitor the PUF operations in CAs. Armored Core is integrated into real-world PKI systems including Let's Encrypt Pebble and Certbot. We also provide a PUF-embedded RISC-V CPU prototype to verify the feasibility. The evaluation results show that Armored Core achieves key removal without introducing extra overhead, but improves the performance by 11% on storage and 4.9%~73.7% on computation.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# 低照度リモートセンシング画像強調のための空間周波数デュアルドメイン特徴核融合ネットワーク

Spatial-frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement ( http://arxiv.org/abs/2404.17400v2 )

ライセンス: Link先を確認
Zishu Yao, Guodong Fan, Jinfu Fan, Min Gan, C. L. Philip Chen, (参考訳) 低照度リモートセンシング画像は一般的に高解像度で空間的な複雑さがあり、空間に連続的に分散した表面的特徴がある。 この連続性は、リモートセンシング画像内の空間領域において広範な長距離相関をもたらす。 畳み込みニューラルネットワークは、長距離モデリングの局所的相関に依存するが、そのような画像に長距離相関を確立するのに苦労する。 一方,大域的な情報に焦点をあてる変換器ベースの手法は,高解像度のリモートセンシング画像を処理する際に,高い計算複雑性に直面している。 別の観点からは、フーリエ変換は多数のパラメータを導入することなくグローバル情報を計算することができ、ネットワークが全体の画像構造をより効率的に把握し、長距離相関を確立することができる。 そこで本稿では,低照度リモートセンシング画像強調のためのDFFN(Dual-Domain Feature Fusion Network)を提案する。 具体的には、この低照度化の課題を、2つのより管理可能なサブタスクに分割する:第1のフェーズは振幅情報を学習し、画像の明るさを回復し、第2のフェーズは位相情報を学習して詳細を洗練する。 両フェーズ間の情報交換を容易にするため,異なるフェーズとスケールのデータを組み合わせた情報融合アフィンブロックを設計した。 さらに,2つのダークライトリモートセンシングデータセットを構築し,現在のダークライトリモートセンシング画像強調におけるデータセットの欠如に対処した。 大規模評価の結果,本手法は既存の最先端手法よりも優れていた。 コードはhttps://github.com/iijjlk/DFFN.comで公開されている。

Low-light remote sensing images generally feature high resolution and high spatial complexity, with continuously distributed surface features in space. This continuity in scenes leads to extensive long-range correlations in spatial domains within remote sensing images. Convolutional Neural Networks, which rely on local correlations for long-distance modeling, struggle to establish long-range correlations in such images. On the other hand, transformer-based methods that focus on global information face high computational complexities when processing high-resolution remote sensing images. From another perspective, Fourier transform can compute global information without introducing a large number of parameters, enabling the network to more efficiently capture the overall image structure and establish long-range correlations. Therefore, we propose a Dual-Domain Feature Fusion Network (DFFN) for low-light remote sensing image enhancement. Specifically, this challenging task of low-light enhancement is divided into two more manageable sub-tasks: the first phase learns amplitude information to restore image brightness, and the second phase learns phase information to refine details. To facilitate information exchange between the two phases, we designed an information fusion affine block that combines data from different phases and scales. Additionally, we have constructed two dark light remote sensing datasets to address the current lack of datasets in dark light remote sensing image enhancement. Extensive evaluations show that our method outperforms existing state-of-the-art methods. The code is available at https://github.com/iijjlk/DFFN.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# シャドウの転がり:MEV層間ロールアップの抽出解析

Rolling in the Shadows: Analyzing the Extraction of MEV Across Layer-2 Rollups ( http://arxiv.org/abs/2405.00138v2 )

ライセンス: Link先を確認
Christof Ferreira Torres, Albin Mamuti, Ben Weintraub, Cristina Nita-Rotaru, Shweta Shinde, (参考訳) 分散金融の出現はブロックチェーンの資産トレーディングを変革し、従来の金融商品をよりアクセスしやすくするとともに、最大抽出価値(MEV)と呼ばれる一連の搾取的な経済プラクティスを導入している。 同時に、分散金融は、EthereumのようなLayer-1ソリューションと比較して、トランザクションコストの削減による資産取引を容易にするために、ロールアップベースのLayer-2ソリューションを採用しています。 しかし、ロールアップにはEthereumのようなパブリックなメムプールがないため、MEVの抽出がより困難になる。 本稿では,MEVがEthereumおよびArbitrum,Optimism,zkSyncなどの著名なロールアップに対する3年近くにわたって,その頻度と影響について検討する。 私たちの分析は、量、利益、コスト、競争、MEVの機会に対する応答時間など、さまざまな指標を含んでいます。 MEVは、Ethereumに匹敵する取引量で、ロールアップで広く使われていることが分かりました。 また、MEVはロールアップのコストが低いが、Ethereumに比べて利益も著しく低いこともわかりました。 さらに,ロールアップにおけるサンドイッチ攻撃の頻度について検討した。 一般的なロールアップのサンドイッチ活動は検出されなかったが、ロールアップとEthereumにまたがるトランザクションによって促進されるクロスレイヤーサンドイッチ攻撃の可能性を確認した。 その結果, クロスレイヤー・サンドイッチ・アタックにより, 攻撃者がすでに200万USドルを稼いでいたことが判明し, クロスレイヤー・トランザクションを利用した3つの新たな攻撃の可能性について検討した。

The emergence of decentralized finance has transformed asset trading on the blockchain, making traditional financial instruments more accessible while also introducing a series of exploitative economic practices known as Maximal Extractable Value (MEV). Concurrently, decentralized finance has embraced rollup-based Layer-2 solutions to facilitate asset trading at reduced transaction costs compared to Layer-1 solutions such as Ethereum. However, rollups lack a public mempool like Ethereum, making the extraction of MEV more challenging. In this paper, we investigate the prevalence and impact of MEV on Ethereum and prominent rollups such as Arbitrum, Optimism, and zkSync over a nearly three-year period. Our analysis encompasses various metrics including volume, profits, costs, competition, and response time to MEV opportunities. We discover that MEV is widespread on rollups, with trading volume comparable to Ethereum. We also find that, although MEV costs are lower on rollups, profits are also significantly lower compared to Ethereum. Additionally, we examine the prevalence of sandwich attacks on rollups. While our findings did not detect any sandwiching activity on popular rollups, we did identify the potential for cross-layer sandwich attacks facilitated by transactions that are sent across rollups and Ethereum. Consequently, we propose and evaluate the feasibility of three novel attacks that exploit cross-layer transactions, revealing that attackers could have already earned approximately 2 million USD through cross-layer sandwich attacks.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# MedPromptExtract(医療データ抽出ツール):NLPとプロンプトエンジニアリングを用いた匿名化と階層自動データ抽出

MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering ( http://arxiv.org/abs/2405.02664v3 )

ライセンス: Link先を確認
Roomani Srivastava, Suraj Prasad, Lipika Bhat, Sarvesh Deshpande, Barnali Das, Kshitij Jadhav, (参考訳) はじめに、放電サマリー(DS)のような情報源からのデータ抽出の労働集約性は、特に低所得国や中所得国(LMIC)の医療記録のデジタル化に重大な障害をもたらす。 本稿では,DS からデータを効率よく抽出する完全自動化手法 MedPromptExtract を提案する。 方法】急性腎不全(AKI)患者のKDAH(Kokilaben Dhirubhai Ambani Hospital)からの放電補助剤(DS)がデータ源であった。 高忠実度情報抽出に半教師付き学習技術を活用した事前学習ツールEIGENをDSの匿名化に使用し、正規フィールドからデータを抽出するために自然言語処理(NLP)を使用した。 患者が入院していることを記述したフリーフローテキストから, Prompt Engineering and Large Language Model (LLM) を用いて独自の臨床情報を抽出した。 AKIの発生に関連する12の特徴を抽出した。 LLMの反応は臨床医のアノテーションに対して検証された。 結果: MedPromptExtracttoolは、まずDSを匿名化パイプラインに適用し、サマリ毎に3秒を要した。 臨床医による匿名化が成功し,その後NLPパイプラインは,全要約毎の0.2秒率で匿名化pdfsから構造化テキストを抽出し,100%の精度でDSを抽出し,12種類の特徴についてジェミニプロを用いたLPMパイプラインで解析した。 臨床医のアノテーションに対するモデル応答とAUCを0.9以上で達成する7つの特徴を比較し,抽出過程の忠実度を高く評価した。 結論: MedPromptExtractは、動的ユーザインタフェースで医療記録から効率的なデータ抽出を行うための自動適応ツールとして機能する。 キーワード:医療記録のデジタル化、匿名化の自動化、情報検索、大規模言語モデル、プロンプトエンジニアリング

Introduction: The labour-intensive nature of data extraction from sources like discharge summaries (DS) poses significant obstacles to the digitisation of medical records particularly for low- and middle-income countries (LMICs). In this paper we present a completely automated method MedPromptExtract to efficiently extract data from DS while maintaining confidentiality. Methods: The source of data was Discharge Summaries (DS) from Kokilaben Dhirubhai Ambani Hospital (KDAH) of patients having Acute Kidney Injury (AKI). A pre-existing tool EIGEN which leverages semi-supervised learning techniques for high-fidelity information extraction was used to anonymize the DS, Natural Language Processing (NLP) was used to extract data from regular fields. We used Prompt Engineering and Large Language Model(LLM) to extract custom clinical information from free flowing text describing the patients stay in the hospital. Twelve features associated with occurrence of AKI were extracted. The LLM responses were validated against clinicians annotations. Results: The MedPromptExtracttool first subjected DS to the anonymization pipeline which took three seconds per summary. Successful anonymization was verified by clinicians, thereafter NLP pipeline extracted structured text from the anonymized pdfs at the rate of 0.2 seconds per summary with 100% accuracy.Finally DS were analysed by the LLM pipeline using Gemini Pro for the twelve features. Accuracy metrics were calculated by comparing model responses to clinicians annotations with seven features achieving AUCs above 0.9, indicating high fidelity of the extraction process. Conclusion: MedPromptExtract serves as an automated adaptable tool for efficient data extraction from medical records with a dynamic user interface. Keywords: Digitizing Medical Records, Automated Anonymisation, Information Retrieval, Large Language Models, Prompt Engineering
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# アハロノフ-ボーム相で制御される熱接合

Thermal junctions controlled with Aharonov-Bohm phases ( http://arxiv.org/abs/2405.05637v2 )

ライセンス: Link先を確認
José Balduque, Adrián Mecha, Rafael Sánchez, (参考訳) 電荷とは異なり、熱流は制御が難しい。 メソスコピック導体では,アハロノフ・ボーム効果を用いて電子熱電流を磁場で操作することができ,干渉パターンの磁気制御により熱電効果が向上し,熱輸送が完全に抑制されることを示した。 3末端構成では、フラックスによって誘起される破壊的相互性は非局所的な熱電応答を発生させ、熱の循環に変換する。 このように、効率的な熱電発電機、熱スイッチ、熱循環器、およびエネルギー回収器は、ナノスケールの熱管理を最小限に妨害するために定義することができる。

Unlike charge, heat flows are difficult to control. We show that, in mesoscopic conductors, electronic thermal currents can be manipulated with a magnetic field by using the Aharonov-Bohm effect: the magnetic control of the interference pattern enhances the thermoelectric effect, while heat transport can be totally suppressed. In a three-terminal configuration, the flux-induced broken reciprocity generates a non-local thermoelectric response and translates to the circulation of heat. This way, efficient thermoelectric generators, thermal switches and thermal circulators, as well as energy harvesters can be defined for minimally disturbing thermal management at the nanoscale.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# 連続的ブラウン橋拡散によるフレーム補間

Frame Interpolation with Consecutive Brownian Bridge Diffusion ( http://arxiv.org/abs/2405.05953v5 )

ライセンス: Link先を確認
Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen, (参考訳) ビデオフレーム補間(VFI)における最近の研究は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようと試み、ランダムなノイズと隣接するフレームを与えられた中間フレームを合成している。 ビデオの解像度が比較的高いため、LDM(Latent Diffusion Models)が条件生成モデルとして使われ、オートエンコーダは画像をラテント表現に圧縮し、これらのラテント表現からイメージを再構成する。 このような定式化は重要な課題である: VFI は出力が決定論的に基底真理中間フレームに等しいことを期待するが、LCM はモデルが複数回実行されると、ランダムに異なる画像の集合を生成する。 多様な生成の理由は、LDMにおける生成された潜在表現の累積分散(生成の各ステップで蓄積される分散)が大きいからである。 これによりサンプリング軌道はランダムになり、決定論的世代よりも多様になる。 この問題に対処するため,我々は,Branian Bridge Diffusionを用いたフレーム補間法を提案する。 具体的には、決定論的初期値を入力とし、生成した潜在表現の累積分散をはるかに小さくする、連続的なブラウン橋拡散を提案する。 実験の結果,本手法はオートエンコーダの改良とともに改良され,VFIの最先端性能が向上し,さらなる向上の可能性が残っていることが示唆された。

Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-06
# 宇宙バウンスによる絡み合い生成

Entanglement production through a cosmological bounce ( http://arxiv.org/abs/2405.11296v2 )

ライセンス: Link先を確認
Viqar Husain, Irfan Javed, Sanjeev S. Seahra, Nomaan X, (参考訳) 量子宇宙論では、ビッグバン特異点が解決され、宇宙がバウンスすると予想される。 ガウスの初期状態の場合、物質-重力絡みのエントロピーはバウンス、減少の間に急速に上昇し、バウンスに続いて定常状態の値に近づく。 これらの観測から、物質重力の絡み合いはマクロ宇宙の特徴であり、第2の絡み合いのエントロピー法則は存在しないことが示唆された。

In quantum cosmology, it is expected that the Big Bang singularity is resolved and the universe undergoes a bounce. We find that for Gaussian initial states, matter-gravity entanglement entropy rises rapidly during the bounce, declines, and then approaches a steady-state value following the bounce. These observations suggest that matter-gravity entanglement is a feature of the macroscopic universe and that there is no Second Law of entanglement entropy.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# Bytes to Schlep? FEPを使う: 完全に暗号化されたプロトコルでプロトコルメタデータを格納する

Bytes to Schlep? Use a FEP: Hiding Protocol Metadata with Fully Encrypted Protocols ( http://arxiv.org/abs/2405.13310v2 )

ライセンス: Link先を確認
Ellis Fenske, Aaron Johnson, (参考訳) FEP(Fully Encrypted Protocols)は、ネットワーク検閲を回避する技術として実際に登場したプロトコルである。 このようなプロトコルは完全にランダムに見えるメッセージを生成するように設計されている。 この設計は、バージョンや長さフィールドなどの通信メタデータを隠蔽し、どのプロトコルが使われているかを特定することさえ困難にする。 さらに、これらのプロトコルは、しばしばパディングをサポートし、プロトコルフィールドの長さとメッセージを含むメッセージを隠蔽する。 プロトコルメタデータの保護は、すべてのインターネット通信に対して、セキュリティとプライバシのメリットを持つ。 FEP設計のセキュリティは暗号的な仮定に依存するが、セキュリティ定義や証明は存在しない。 FEPのメタデータ保護の目標を捉える新しいセキュリティ定義を提供する。 我々の定義は、プロトコルデザイナが利用可能なユビキタスTCPおよびUDPインターフェースをモデル化するデータストリームとデータグラムの設定の両方で与えられる。 これらの新しい概念と既存のセキュリティ定義の関連性を証明する。 さらに、新たなFEP構造を提示し、その安全性を証明します。 最後に、既存のFEP候補を調査し、FEPのセキュリティを満たす程度を特徴付ける。 データエラー発生に対する応答や,最小のプロトコルメッセージのサイズなど,これらのプロトコルが識別可能な新しい方法を特定する。

Fully Encrypted Protocols (FEPs) have arisen in practice as a technique to avoid network censorship. Such protocols are designed to produce messages that appear completely random. This design hides communications metadata, such as version and length fields, and makes it difficult to even determine what protocol is being used. Moreover, these protocols frequently support padding to hide the length of protocol fields and the contained message. These techniques have relevance well beyond censorship circumvention, as protecting protocol metadata has security and privacy benefits for all Internet communications. The security of FEP designs depends on cryptographic assumptions, but neither security definitions nor proofs exist for them. We provide novel security definitions that capture the metadata-protection goals of FEPs. Our definitions are given in both the datastream and datagram settings, which model the ubiquitous TCP and UDP interfaces available to protocol designers. We prove relations among these new notions and existing security definitions. We further present new FEP constructions and prove their security. Finally, we survey existing FEP candidates and characterize the extent to which they satisfy FEP security. We identify novel ways in which these protocols are identifiable, including their responses to the introduction of data errors and the sizes of their smallest protocol messages.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# Open-Vocabulary Object Detector:分散シフト下でのロバスト性問題

Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts ( http://arxiv.org/abs/2405.14874v4 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Kanjar De, Meenakshi Subhash Chippa, Rajkumar Saini, Marcus Liwicki, (参考訳) Out-Of-Distribution (OOD)の堅牢性の課題は、ディープビジョンモデルをデプロイする上で、依然として重要なハードルである。 VLM(Vision-Language Models)は近年,画期的な成果を上げている。 VLMベースのオープン語彙オブジェクト検出は、従来のオブジェクト検出フレームワークの機能を拡張し、事前定義されたカテゴリを超えてオブジェクトの認識と分類を可能にする。 近年のオープン語彙オブジェクト検出におけるOODロバスト性の調査は,これらのモデルの信頼性向上に不可欠である。 本研究では,最近のオープンボキャブラリ (OV) 基礎オブジェクト検出モデルであるOWL-ViT, YOLO World, Grounding DINOのゼロショット機能について,包括的ロバスト性評価を行った。 COCO-O、COCO-DC、COCO-Cは、情報損失、腐敗、敵対攻撃、幾何学的変形による分布変化を包含し、ロバスト性を達成するための研究を促進するためのモデルの堅牢性の課題を強調した。 プロジェクトページ:https://prakashchhipa.github.io/projects/ovod_robustness

The challenge of Out-Of-Distribution (OOD) robustness remains a critical hurdle towards deploying deep vision models. Vision-Language Models (VLMs) have recently achieved groundbreaking results. VLM-based open-vocabulary object detection extends the capabilities of traditional object detection frameworks, enabling the recognition and classification of objects beyond predefined categories. Investigating OOD robustness in recent open-vocabulary object detection is essential to increase the trustworthiness of these models. This study presents a comprehensive robustness evaluation of the zero-shot capabilities of three recent open-vocabulary (OV) foundation object detection models: OWL-ViT, YOLO World, and Grounding DINO. Experiments carried out on the robustness benchmarks COCO-O, COCO-DC, and COCO-C encompassing distribution shifts due to information loss, corruption, adversarial attacks, and geometrical deformation, highlighting the challenges of the model's robustness to foster the research for achieving robustness. Project page: https://prakashchhipa.github.io/projects/ovod_robustness
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 自己直交準ツイスト符号と関連する量子符号の特性評価

Characterization of Nearly Self-Orthogonal Quasi-Twisted Codes and Related Quantum Codes ( http://arxiv.org/abs/2405.15057v2 )

ライセンス: Link先を確認
Martianus Frederic Ezerman, Markus Grassl, San Ling, Ferruh Özbudak, Buket Özkaya, (参考訳) 準ツイスト符号は、量子エラー制御符号のためのコンストラクションXと呼ばれる古典的な材料としてここで用いられる。 この構造は、ほぼ自己直交符号を用いて量子安定化器符号を設計する。 内積の選択を拡大してシンプレクティックおよびトレースシンプレクティック内積をカバーし、元のエルミート内積もカバーする。 得られた量子符号の最小距離における洗練された下界を確立し、図示する。 更新されたオンラインデータベースに含められたランダムな検索から、多数の記録破りの量子コードを報告した。

Quasi-twisted codes are used here as the classical ingredients in the so-called Construction X for quantum error-control codes. The construction utilizes nearly self-orthogonal codes to design quantum stabilizer codes. We expand the choices of the inner product to also cover the symplectic and trace-symplectic inner products, in addition to the original Hermitian one. A refined lower bound on the minimum distance of the resulting quantum codes is established and illustrated. We report numerous record breaking quantum codes from our randomized search for inclusion in the updated online database.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# ブレグマン発散損失に対する統一ロバスト性則

A unified law of robustness for Bregman divergence losses ( http://arxiv.org/abs/2405.16639v3 )

ライセンス: Link先を確認
Santanu Das, Jatin Batra, Piyush Srivastava, (参考訳) 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。 しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値である$n$よりもはるかに多い:過パラメータ化と呼ばれる現象である。 オーバーパラメトリゼーションを理解するために費やされたかなりの研究に寄与する興味深い研究の中で、ブベックとセルケは、広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、過パラメトリゼーションは堅牢な補間(すなわち補間関数がリプシッツであることが要求される場合)に必要であることを示した。 しかし, その頑健性は, 正方損失を伴う回帰の設定においてのみ証明された。 実際には、他の多くの種類の損失が使用されるが、例えば、分類のためのクロスエントロピー損失がある。 本研究では,ブベックとセルケの結果をブレグマン分散損失に一般化し,二乗損失とクロスエントロピー損失の共通一般化を形成する。 我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。

In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points $n$, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work that contributes to the considerable research that has been devoted to understand overparameterization, Bubeck and Sellke showed that for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. However, their robustness results were proved only in the setting of regression with square loss. In practice, however many other kinds of losses are used, e.g. cross entropy loss for classification. In this work, we generalize Bubeck and Selke's result to Bregman divergence losses, which form a common generalization of square loss and cross-entropy loss. Our generalization relies on identifying a bias-variance type decomposition that lies at the heart of the proof and Bubeck and Sellke.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 平らな視点に隠れた:対話型言語モデルにおけるチャット履歴タンパの探索

Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models ( http://arxiv.org/abs/2405.20234v3 )

ライセンス: Link先を確認
Cheng'an Wei, Yue Zhao, Yujia Gong, Kai Chen, Lu Xiang, Shenchen Zhu, (参考訳) ChatGPTやLlamaのような大規模言語モデル(LLM)は、現実のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。 LLMは、入力データが静的で構造化されていないシナリオから基本的に開発されている。 LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。 しかし、LLMはコンテキストからユーザ入力を分離することができず、チャット履歴の改ざんを可能にする。 本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。 鍵となるのは、メッセージの注入を適切に整理できるプロンプトテンプレートを利用することで、ターゲットのLLMを真のチャット履歴として解釈することが可能になる。 WebUIブラックボックス設定で有効なテンプレートを自動的に検索するために,LLMを利用してテンプレートを生成し,反復的に最適化するLLMGA(LLMGA)を提案する。 提案手法をChatGPT や Llama-2/3 などの実世界の LLM に適用する。 その結果, チャット履歴の改ざんにより, 時間の経過とともにモデル動作の適合性が向上し, モデル出力に大きな影響を及ぼすことが示された。 例えば、ChatGPTでは、無効な応答誘発の成功率を最大97%向上させることができる。 本研究は,対話型LDMの現実的展開に関わる課題について考察した。

Large Language Models (LLMs) such as ChatGPT and Llama have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and unstructured. To behave interactively, LLM-based chat systems must integrate prior chat history as context into their inputs, following a pre-defined structure. However, LLMs cannot separate user inputs from context, enabling chat history tampering. This paper introduces a systematic methodology to inject user-supplied history into LLM conversations without any prior knowledge of the target model. The key is to utilize prompt templates that can well organize the messages to be injected, leading the target LLM to interpret them as genuine chat history. To automatically search for effective templates in a WebUI black-box setting, we propose the LLM-Guided Genetic Algorithm (LLMGA) that leverages an LLM to generate and iteratively optimize the templates. We apply the proposed method to popular real-world LLMs including ChatGPT and Llama-2/3. The results show that chat history tampering can enhance the malleability of the model's behavior over time and greatly influence the model output. For example, it can improve the success rate of disallowed response elicitation up to 97% on ChatGPT. Our findings provide insights into the challenges associated with the real-world deployment of interactive LLMs.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 縮退拡散確率モデルの収束性

Convergence of the denoising diffusion probabilistic models ( http://arxiv.org/abs/2406.01320v2 )

ライセンス: Link先を確認
Yumiharu Nakano, (参考訳) 我々は,Ho,J.,Jain,A.,Abbeel,P.,Advanceds in Neural Information Processing Systems, 33 (2020), pp. 6840-6851で提示された拡散確率モデル(DDPM)の原版を理論的に解析した。 我々の主定理は、分散スケジュールのパラメータの漸近条件、$L^2$ベースのスコア推定誤差、および時間ステップ数に対するノイズ推定関数の下で、元のDDPMサンプリングアルゴリズムによって構築されたシーケンスが、無限大となるにつれて、与えられたデータ分布に弱収束することを示している。 定理の証明において、サンプリング列は逆時間確率微分方程式の指数積分器型近似として見ることができる。

We theoretically analyze the original version of the denoising diffusion probabilistic models (DDPMs) presented in Ho, J., Jain, A., and Abbeel, P., Advances in Neural Information Processing Systems, 33 (2020), pp. 6840-6851. Our main theorem states that the sequence constructed by the original DDPM sampling algorithm weakly converges to a given data distribution as the number of time steps goes to infinity, under some asymptotic conditions on the parameters for the variance schedule, the $L^2$-based score estimation error, and the noise estimating function with respect to the number of time steps. In proving the theorem, we reveal that the sampling sequence can be seen as an exponential integrator type approximation of a reverse time stochastic differential equation.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# AIエージェントの脅威:鍵となるセキュリティ問題と今後の道

AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways ( http://arxiv.org/abs/2406.02630v2 )

ライセンス: Link先を確認
Zehang Deng, Yongjian Guo, Changzhou Han, Wanlun Ma, Junwu Xiong, Sheng Wen, Yang Xiang, (参考訳) 人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。 ユーザ入力の認識、推論と計画タスク、アクションの実行が可能なAIエージェントは、アルゴリズム開発とタスクパフォーマンスにおいて顕著な進歩を見せている。 しかし、彼らが起こすセキュリティ上の課題は未調査のままであり、未解決のままである。 この調査では、AIエージェントが直面している新たなセキュリティ脅威について、複数のステップのユーザ入力の予測不能、内部実行の複雑さ、運用環境の多様性、信頼できない外部エンティティとのインタラクションの4つの重要な知識ギャップに分類する。 これらの脅威を体系的にレビューすることで、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。 提供された洞察は、AIエージェントに関連するセキュリティ脅威に対処するためのさらなる研究を刺激し、より堅牢でセキュアなAIエージェントアプリケーションの開発を促進することを目的としている。

An Artificial Intelligence (AI) agent is a software entity that autonomously performs tasks or makes decisions based on pre-defined objectives and data inputs. AI agents, capable of perceiving user inputs, reasoning and planning tasks, and executing actions, have seen remarkable advancements in algorithm development and task performance. However, the security challenges they pose remain under-explored and unresolved. This survey delves into the emerging security threats faced by AI agents, categorizing them into four critical knowledge gaps: unpredictability of multi-step user inputs, complexity in internal executions, variability of operational environments, and interactions with untrusted external entities. By systematically reviewing these threats, this paper highlights both the progress made and the existing limitations in safeguarding AI agents. The insights provided aim to inspire further research into addressing the security threats associated with AI agents, thereby fostering the development of more robust and secure AI agent applications.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 適応スライディングスコア蒸留によるゼロショット映像編集

Zero-Shot Video Editing through Adaptive Sliding Score Distillation ( http://arxiv.org/abs/2406.04888v2 )

ライセンス: Link先を確認
Lianghan Zhu, Yanqi Bao, Jing Huo, Jing Wu, Yu-Kun Lai, Wenbin Li, Yang Gao, (参考訳) テキスト・ツー・ビデオ・ジェネレーション(T2V)の急速な発展により、制御可能なビデオ編集研究への新たな関心が高まっている。 画像編集の進歩を反映した拡散モデル案内への編集プロンプトの適用は注目されているが、このノイズベースの推論プロセスは本質的にオリジナルビデオの整合性を損なうものであり、意図しない過剰な編集と時間的不連続をもたらす。 これらの課題に対処するため,本研究では,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。 具体的には、画像に基づくスコア蒸留と区別し、グローバルとローカルの両方の動画誘導を取り入れた適応スライディングスコア蒸留法を提案し、編集エラーの影響を低減する。 提案した画像ベースジョイントガイダンス機構と組み合わせることで,T2Vモデル固有の不安定性を緩和し,単一ステップサンプリングを行うことができる。 さらに、オリジナルビデオの重要な特徴をさらに保存し、過剰な編集を避けるために、重み付き注意融合モジュールを設計する。 大規模な実験は、これらの戦略が既存の課題に効果的に対処し、現在の最先端の手法よりも優れたパフォーマンスを達成することを実証している。

The rapidly evolving field of Text-to-Video generation (T2V) has catalyzed renewed interest in controllable video editing research. While the application of editing prompts to guide diffusion model denoising has gained prominence, mirroring advancements in image editing, this noise-based inference process inherently compromises the original video's integrity, resulting in unintended over-editing and temporal discontinuities. To address these challenges, this study proposes a novel paradigm of video-based score distillation, facilitating direct manipulation of original video content. Specifically, distinguishing it from image-based score distillation, we propose an Adaptive Sliding Score Distillation strategy, which incorporates both global and local video guidance to reduce the impact of editing errors. Combined with our proposed Image-based Joint Guidance mechanism, it has the ability to mitigate the inherent instability of the T2V model and single-step sampling. Additionally, we design a Weighted Attention Fusion module to further preserve the key features of the original video and avoid over-editing. Extensive experiments demonstrate that these strategies effectively address existing challenges, achieving superior performance compared to current state-of-the-art methods.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# PRoC3Sの信頼:LLMと制約満足度による長距離ロボット問題の解決

Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction ( http://arxiv.org/abs/2406.05572v2 )

ライセンス: Link先を確認
Aidan Curtis, Nishanth Kumar, Jing Cao, Tomás Lozano-Pérez, Leslie Pack Kaelbling, (参考訳) ロボット工学に適用された事前訓練された大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、一連の個別スキルをシークエンシングする能力を示している。 本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。 我々はLLMに対して,環境制約とともに連続制約満足度問題(CCSP)と見なせるような,オープンパラメータを持つ関数のコードを出力するよう促す。 このCCSPはサンプリングや最適化によって解決でき、制約違反を回避しつつ目標を達成するためのスキルシーケンスと連続パラメータ設定を見つけることができる。 さらに, LLM が不満足な CCSP を提案する場合, 例えば, 動力学的に実現不可能で, 動的に不安定で, あるいは衝突を引き起こす場合について考察し, 新たな CCSP を形成するために LLM を再起動する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。

Recent developments in pretrained large language models (LLMs) applied to robotics have demonstrated their capacity for sequencing a set of discrete skills to achieve open-ended goals in simple robotic tasks. In this paper, we examine the topic of LLM planning for a set of continuously parameterized skills whose execution must avoid violations of a set of kinematic, geometric, and physical constraints. We prompt the LLM to output code for a function with open parameters, which, together with environmental constraints, can be viewed as a Continuous Constraint Satisfaction Problem (CCSP). This CCSP can be solved through sampling or optimization to find a skill sequence and continuous parameter settings that achieve the goal while avoiding constraint violations. Additionally, we consider cases where the LLM proposes unsatisfiable CCSPs, such as those that are kinematically infeasible, dynamically unstable, or lead to collisions, and re-prompt the LLM to form a new CCSP accordingly. Experiments across three different simulated 3D domains demonstrate that our proposed strategy, PRoC3S, is capable of solving a wide range of complex manipulation tasks with realistic constraints on continuous parameters much more efficiently and effectively than existing baselines.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 交流センサとしての境界時間結晶--強化と制約-

Boundary Time Crystals as AC sensors: enhancements and constraints ( http://arxiv.org/abs/2406.06273v2 )

ライセンス: Link先を確認
Dominic Gribben, Anna Sanpera, Rosario Fazio, Jamir Marino, Fernando Iemini, (参考訳) 本稿では,交流場センサとしてのバウンダリ時間結晶(BTC)について検討する。 境界時間結晶は、多体系のマクロな分画が時間変換対称性を破る環境に接触する物質の非平衡相である。 量子フィッシャー情報(QFI)によって定量化されるように、印加された交流場とスピンが共鳴する場合、BTCの感度が向上する。 この状態のQFIダイナミクスは、初期のパワーロー成長とラストタイム指数崩壊からなる比較的単純なアンザッツによって捉えられることが示されている。 本研究では、アンザッツパラメータのリソース(符号化時間とスピン数)によるスケーリングについて検討し、古典的QFI境界との比較により、センサ性能の適度な量子化を同定する。 この性能の正確な情報源を調べると、長いコヒーレンス時間と多部相関(量子距離論のアドバンテージ特性)にもかかわらず、BTCのエントロピーコスト(熱力学限界で無限に増大する)が交流場情報の最適復号を妨げていることが分かる。 この結果は、オープンシステムにおける量子センサーの将来的な候補に影響を及ぼし、量子力学におけるエントロピーの役割について将来の研究を後押しすることを願っている。

We investigate the use of a boundary time crystals (BTCs) as sensors of AC fields. Boundary time crystals are non-equilibrium phases of matter in contact to an environment, for which a macroscopic fraction of the many-body system breaks the time translation symmetry. We find an enhanced sensitivity of the BTC when its spins are resonant with the applied AC field, as quantified by the quantum Fisher information (QFI). The QFI dynamics in this regime is shown to be captured by a relatively simple ansatz consisting of an initial power-law growth and late-time exponential decay. We study the scaling of the ansatz parameters with resources (encoding time and number of spins) and identify a moderate quantum enhancement in the sensor performance through comparison with classical QFI bounds. Investigating the precise source of this performance, we find that despite of its long coherence time and multipartite correlations (advantageous properties for quantum metrology), the entropic cost of the BTC (which grows indefinitely in the thermodynamic limit) hinders an optimal decoding of the AC field information. This result has implications for future candidates of quantum sensors in open system and we hope it will encourage future study into the role of entropy in quantum metrology.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# ビデオ生成のための訓練不要カメラ制御

Training-free Camera Control for Video Generation ( http://arxiv.org/abs/2406.10126v2 )

ライセンス: Link先を確認
Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen, (参考訳) 本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。 従来の手法とは異なり、カメラに注釈を付けたデータセットの教師付き微調整や、データ拡張による自己教師型トレーニングは不要である。 代わりに、ほとんどの事前訓練されたビデオ拡散モデルでプラグインして再生し、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成する。 私たちの研究のインスピレーションは、中間ラテントが生成結果に向かって保持する以前のレイアウトから来ており、ノイズの多いピクセルを並べ替えることで、出力コンテンツも再配置されます。 カメラの動きは、視点の変化によって引き起こされるピクセルの並べ替えのようなものと見なされるので、ノイズのある潜伏剤が変化すれば、特定のカメラの動きに従ってビデオを再編成することができる。 そこで本研究では,ビデオ拡散モデルに対するロバストなカメラ制御を実現するCamTrolを提案する。 2段階のプロセスによって達成される。 まず,3次元点雲空間における露光カメラ移動による画像レイアウト再構成をモデル化する。 第2に、一連の並べ替え画像によって形成されるノイズの多いラテントの前に、レイアウトを用いて、カメラモーションで映像を生成する。 大規模な実験により、生成されたビデオのカメラモーションを制御する際に、我々の手法が持つロバストさが実証された。 さらに,本手法は動的コンテンツを用いた3次元回転ビデオ生成において,印象的な結果が得られることを示す。 Project page at https://lifedecoder.github.io/CamTrol/.com

We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 生成時系列モデリングのためのユニバーサルランダム化シグネチャ

Universal randomised signatures for generative time series modelling ( http://arxiv.org/abs/2406.10214v2 )

ライセンス: Link先を確認
Francesca Biagini, Lukas Gonon, Niklas Walter, (参考訳) ランダム化されたシグネチャは、十分に確立されたパスシグネチャに代わる、柔軟で容易に実装可能な代替品として提案されている。 本稿では,貯水池計算の精神において,財務時系列データの生成モデルを導入するためにランダム化シグネチャを用いる。 具体的には、離散時間ランダム化シグネチャに基づく新しいワッサーシュタイン型距離を提案する。 確率測度の空間上のこの計量は、(条件付き)分布の間の距離を捉える。 基本経路を入力とする連続函数の空間上のランダム化シグネチャに対する、我々の新しい普遍近似結果によって、その使用が正当化される。 そこで我々は,貯水池ニューラル確率微分方程式に基づく時系列データを合成するための非逆生成モデルにおける損失関数として,我々の測定値を用いる。 モデルの結果と既存の文献のベンチマークを比較した。

Randomised signature has been proposed as a flexible and easily implementable alternative to the well-established path signature. In this article, we employ randomised signature to introduce a generative model for financial time series data in the spirit of reservoir computing. Specifically, we propose a novel Wasserstein-type distance based on discrete-time randomised signatures. This metric on the space of probability measures captures the distance between (conditional) distributions. Its use is justified by our novel universal approximation results for randomised signatures on the space of continuous functions taking the underlying path as an input. We then use our metric as the loss function in a non-adversarial generator model for synthetic time series data based on a reservoir neural stochastic differential equation. We compare the results of our model to benchmarks from the existing literature.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# SoK: 正規表現否定の文献と工学的レビュー

SoK: A Literature and Engineering Review of Regular Expression Denial of Service ( http://arxiv.org/abs/2406.11618v2 )

ライセンス: Link先を確認
Masudul Hasan Masud Bhuiyan, Berk Çakar, Ethan H Burmane, James C Davis, Cristian-Alexandru Staicu, (参考訳) 正規表現拒否(ReDoS)は非対称なサイバー攻撃であり、近年顕著になっている。 この攻撃は、正規表現(regex)エンジンの遅い最悪のケースマッチング時間を利用する。 これまで、問題のある正規表現はCloudflareとStack Overflowの障害を引き起こし、問題の深刻さを示している。 ReDoSは重要な研究の注目を集めてきたが、最先端の知識を体系化し、さらなる研究の機会を特定できるような知識の体系化は行われていない。 本稿では,ReDoSに関する既存の知識について述べる。 まず、文献を2つのクラスに分けて、計測研究と防衛の2つのクラスに分けて、体系的な文献レビューを行う。 そして,最新のレジェクスエンジンを調査し,ReDoSの防御が実現されたかどうかを検証した。 その結果,(1)本研究では,ReDoSの脆弱性が現実のシステムに対してどのように武器化され得るかを評価する研究はほとんどなく,その実世界への影響を評価することが困難であること,(2)工学的観点からは,多くの主流のReDoSエンジンがReDoSの防御機能を備えており,多くの脅威モデルが陳腐化していることを観察した。 ReDoS研究におけるオープンな課題は、新興防衛の評価と、防衛エンジンへの移行におけるエンジニアの支援である。 これらの方向を支援するために、wrk-redosツールを提示する。 このツールは、Webサービス上でのReDoSの制御された測定をサポートし、エンジニアがアプリケーションに異なるregexエンジンを置換できる概念実証Dockerイメージを含んでいる。

Regular expression denial of service (ReDoS) is an asymmetric cyberattack that has become prominent in recent years. This attack exploits the slow worst-case matching time of regular expression (regex) engines. In the past, problematic regular expressions have led to outages at Cloudflare and Stack Overflow, showing the severity of the problem. While ReDoS has drawn significant research attention, there has been no systematization of knowledge to delineate the state of the art and identify opportunities for further research. In this paper, we describe the existing knowledge on ReDoS. We first provide a systematic literature review, dividing works into two classes: measurement studies and defenses. Then, our engineering review surveys the latest regex engines to examine whether and how ReDoS defenses have been realized. Combining our findings, we observe that (1) in the literature, almost no studies evaluate whether and how ReDoS vulnerabilities can be weaponized against real systems, making it difficult to assess their real-world impact; and (2) from an engineering view, many mainstream regex engines now have ReDoS defenses, rendering many threat models obsolete. The open challenges in ReDoS research are to evaluate the emerging defenses, and to support engineers in migrating to defended engines. To support these directions, we conclude by presenting the wrk-redos tool. This tool supports controlled measurements of ReDoS on a web service, and includes proof-of-concept Docker images that allow engineers to substitute different regex engines in their applications.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-06
# 疫学のモビリティに基づく比較モデルにおけるモデリング・推論・予測

Modeling, Inference, and Prediction in Mobility-Based Compartmental Models for Epidemiology ( http://arxiv.org/abs/2406.12002v2 )

ライセンス: Link先を確認
Ning Jiang, Weiqi Chu, Yao Li, (参考訳) 疫学における古典的な区画モデルは、単純さのために均質な集団を仮定することが多く、個人の固有の異種性を無視している。 この仮定は、実世界のデータに適用した場合、しばしば不正確な予測につながる。 例えば、古典的なモデルはH1N1-2009とCOVID-19の流行で最後のパンデミックサイズを過大評価している。 この問題に対処するために,疾患の伝達と制御において,個人の移動性が重要な要素として紹介される。 本研究では,各区画の移動度分布関数を用いた疾患の動態を特徴付けるとともに,人口の不均一性を考慮した移動型コンパートメントモデルを提案する。 以上の結果から,本モデルと同じ基本再生数に対して,従来のモデルに比べて最終パンデミックサイズが小さく,過大評価の問題に効果的に対処できることが示唆された。 また,感染集団の時系列から移動度分布を推定した。 データセットからモビリティ分布を一意に識別するための十分な条件を提供し、合成データと実世界のデータの両方からモビリティを学習するための機械学習ベースのアプローチを提案する。

Classical compartmental models in epidemiology often assume a homogeneous population for simplicity, which neglects the inherent heterogeneity among individuals. This assumption frequently leads to inaccurate predictions when applied to real-world data. For example, evidence has shown that classical models overestimate the final pandemic size in the H1N1-2009 and COVID-19 outbreaks. To address this issue, we introduce individual mobility as a key factor in disease transmission and control. We characterize disease dynamics using mobility distribution functions for each compartment and propose a mobility-based compartmental model that incorporates population heterogeneity. Our results demonstrate that, for the same basic reproduction number, our mobility-based model predicts a smaller final pandemic size compared to the classical models, effectively addressing the common overestimation problem. Additionally, we infer mobility distributions from the time series of the infected population. We provide sufficient conditions for uniquely identifying the mobility distribution from a dataset and propose a machine-learning-based approach to learn mobility from both synthesized and real-world data.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 反断熱力学による量子バッテリスーパーチャージ

Quantum battery supercharging via counter-diabatic dynamics ( http://arxiv.org/abs/2406.15274v2 )

ライセンス: Link先を確認
L. F. C. de Moraes, Alan C. Duriez, A. Saguia, Alan C. Santos, Marcelo S. Sarandy, (参考訳) スーパーチャージ可能な量子電池(QBs)をモデル化するハミルトン多様体を導出するための反断熱的手法を提案する。 スーパーチャージプロセスに必要な要件は、電池のセル間でのマルチパーティライト相互作用の存在である。 顕著なことに、この条件はハミルトニアンにおける多部項の数によらず不十分である。 本稿では,Grover 探索問題に対する断熱バージョンに基づくQBモデルを用いて,このような不整合を解析的に説明する。 一方、QBスーパーチャージでは、システム内のグローバルな接続がわずかに少ないだけである。 この目的のために、Ising多部相互作用の存在下で$n$のサイトを持つスピン-$1/2$連鎖を考える。 次に、アディバティック近似の妥当性を考慮し、$(n-1)$-site 相互作用の$n$ 項を加えることで、正規化された進化時間に関して最大 QB パワーを示すハミルトニアンは、$n$ で二次的に成長することを示す。 したがって、スーパーチャージは多部接続の$O(n)$項によって達成される。 アディバティック近似で要求される時間制約は、元ハミルトニアンのゲージポテンシャルの観点から反ディバティック展開を考慮し、反ディバティック実装のためにフロケットアプローチによって保証される限定$O(n)$多体相互作用項を考慮すれば超えることができる。

We introduce a counter-diabatic approach for deriving Hamiltonians modeling superchargable quantum batteries (QBs). A necessary requirement for the supercharging process is the existence of multipartite interactions among the cells of the battery. Remarkably, this condition may be insufficient no matter the number of multipartite terms in the Hamiltonian. We analytically illustrate this kind of insufficiency through a model of QB based on the adiabatic version for the Grover search problem. On the other hand, we provide QB supercharging with just a mild number of global connections in the system. To this aim, we consider a spin-$1/2$ chain with $n$ sites in the presence of Ising multipartite interactions. We then show that, by considering the validity of the adiabatic approximation and by adding $n$ terms of $(n-1)$-site interactions, we can achieve a Hamiltonian exhibiting maximum QB power, with respect to a normalized evolution time, growing quadratically with $n$. Therefore, supercharging can be achieved by $O(n)$ terms of multipartite connections. The time constraint required by the adiabatic approximation can be surpassed by considering a counter-diabatic expansion in terms of the gauge potential for the original Hamiltonian, with a limited $O(n)$ many-body interaction terms assured via a Floquet approach for the counter-diabatic implementation.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# SPADアレイの背景から2光子干渉効果としての画素間クロストーク

Inter-pixel cross-talk as background to two-photon interference effects in SPAD arrays ( http://arxiv.org/abs/2406.15323v3 )

ライセンス: Link先を確認
Sergei Kulkov, Tereza Potuckova, Ermanno Bernasconi, Claudio Bruschini, Tommaso Milanese, Edoardo Charbon, Mst Shamim Ara Shawkat, Andrei Nomerotski, Peter Svihra, (参考訳) クロストークは単光子雪崩検出器のよく知られた特徴である。 この効果は、センサによって登録された2つ以上の光子の偶然を含む応用において特に重要である。 本研究では,LinoSPAD2検出器のクロストークを特徴付けるとともに,クロストークとハンベリー・ブラウン・ツイス2光子干渉の同時測定を行い,両効果の比較と相互校正を行う。 125 cps/ピクセルの平均暗カウントレートでは、近隣住民の平均クロストーク確率は0.22〜\%であり、最大20ピクセルのチャンネルで分離された2ドル10^{-5}〜\%の長距離クロストークも観測する。

Cross-talk is a well-known feature of single-photon avalanche detectors. It is especially important to account for this effect in applications involving coincidences of two or more photons registered by the sensor since in this case the cross-talk may mimic the useful signal. In this work, we characterize the cross-talk of the LinoSPAD2 detector, as well as perform joint measurements of the cross-talk and Hanbury Brown - Twiss two-photon interference, comparing and cross-calibrating both effects. With a median dark count rate of 125 cps/pixel, we report the average cross-talk probability of $0.22~\%$ for the nearest neighbor and also observe a long-range cross-talk of the order $2 \cdot 10^{-5}~\%$ for channels separated by up to 20 pixels.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 天文学におけるChatGPTの利用

Delving into the Utilisation of ChatGPT in Scientific Publications in Astronomy ( http://arxiv.org/abs/2406.17324v2 )

ライセンス: Link先を確認
Simone Astarita, Sandor Kruk, Jan Reerink, Pablo Gómez, (参考訳) 自然言語処理における機械学習アプローチの能力の急速な進歩は、過去2年間で大規模言語モデルの台頭を極めた。 最近の研究は、特にいくつかの分野において、学術的な著作にこれらを前例のない形で採用していることを示しているが、天文学におけるその普及性は十分に研究されていない。 これを解決するために、ChatGPTは学術テキストを生成する際に人間よりも頻繁に使用する単語を抽出し、合計100万の論文を検索する。 このようにして、2000年以降にNASA天文学データシステムによって追跡された天文学の出版物における単語発生頻度を評価する。 次に,その発生の統計的解析を行う。 我々はChatGPTで好まれる単語のリストを特定し、2024年に他の分野の傾向と一致した制御群に対して、これらの単語の統計的に有意な増加を見出した。 これらの結果は、天文学論文の執筆においてこれらのモデルが広く採用されていることを示唆している。 我々は、組織、出版社、研究者が協力して、倫理的および実践的なガイドラインを特定し、科学的厳密さを維持しながら、これらのシステムの利点を最大化することを奨励します。

Rapid progress in the capabilities of machine learning approaches in natural language processing has culminated in the rise of large language models over the last two years. Recent works have shown unprecedented adoption of these for academic writing, especially in some fields, but their pervasiveness in astronomy has not been studied sufficiently. To remedy this, we extract words that ChatGPT uses more often than humans when generating academic text and search a total of 1 million articles for them. This way, we assess the frequency of word occurrence in published works in astronomy tracked by the NASA Astrophysics Data System since 2000. We then perform a statistical analysis of the occurrences. We identify a list of words favoured by ChatGPT and find a statistically significant increase for these words against a control group in 2024, which matches the trend in other disciplines. These results suggest a widespread adoption of these models in the writing of astronomy papers. We encourage organisations, publishers, and researchers to work together to identify ethical and pragmatic guidelines to maximise the benefits of these systems while maintaining scientific rigour.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# GlucOS: 自動インスリンデリバリーのセキュリティ、正確性、単純性

GlucOS: Security, correctness, and simplicity for automated insulin delivery ( http://arxiv.org/abs/2406.18262v2 )

ライセンス: Link先を確認
Hari Venugopalan, Shreyas Madhav Ambattur Vijayanand, Caleb Stanford, Stephanie Crossen, Samuel T. King, (参考訳) 本稿では,信頼性の高い自動インスリンデリバリーシステムであるGlucOSを紹介する。 本論文は基本的に、実際の人間に設計、実装、展開するシステムとその経験から学んだ教訓について述べる。 GlucOSはアルゴリズムのセキュリティ、ドライバのセキュリティ、エンド・ツー・エンドの検証を組み合わせることで、悪意のあるMLモデル、脆弱なポンプドライバ、人間の生理学の急激な変化を防いでいる。 我々は、重要な構成要素の正当性を証明し、防衛戦略の一部として人間を組み込む公式な方法を用いています。 評価には,7人の個人による実世界の展開とシミュレーションの結果の両方が含まれており,その手法が一般化されていることを示す。 以上の結果から,GlucOSは安全を維持し,攻撃条件下においてもグルコースコントロールを改善していることが明らかとなった。 この研究は、安全でパーソナライズされた自動化ヘルスケアシステムの可能性を示している。

We present GlucOS, a novel system for trustworthy automated insulin delivery. Fundamentally, this paper is about a system we designed, implemented, and deployed on real humans and the lessons learned from our experiences. GlucOS combines algorithmic security, driver security, and end-to-end verification to protect against malicious ML models, vulnerable pump drivers, and drastic changes in human physiology. We use formal methods to prove correctness of critical components and incorporate humans as part of our defensive strategy. Our evaluation includes both a real-world deployment with seven individuals and results from simulation to show that our techniques generalize. Our results show that GlucOS maintains safety and improves glucose control even under attack conditions. This work demonstrates the potential for secure, personalized, automated healthcare systems.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 脅威インフォームドサイバーレジリエンス指数:サイバー攻撃に対する防御効果を測定するための確率論的定量的アプローチ

Threat-Informed Cyber Resilience Index: A Probabilistic Quantitative Approach to Measure Defence Effectiveness Against Cyber Attacks ( http://arxiv.org/abs/2406.19374v5 )

ライセンス: Link先を確認
Lampis Alevizos, Vinh-Thong Ta, (参考訳) 動的サイバー脅威の状況では、堅牢な情報セキュリティを維持するためには、不確実性の下での効果的な意思決定が不可欠である。 本稿では、サイバー攻撃(キャンプ)に対する組織の防御効果を定量化するための、脅威に富んだ確率的アプローチであるサイバー回復指数(CRI)を紹介する。 Threat-Intelligence Based Security Assessment (TIBSA) の方法論に基づいて、複雑な脅威のインテリジェンスを、ストックマーケットインデックスに似た、実行可能な統一されたメトリクスに変換する数学的モデルを提示します。 提案手法は,実世界の不確実性や最新の脅威アクター戦術,テクニック,手順(TTP)を考慮した攻撃行動をシミュレーションするために,部分観測可能なマルコフ決定プロセス(POMDP)を利用する。 これにより、静的なコンプライアンスベースのアセスメントを超えて、組織のセキュリティ姿勢を動的にコンテキスト対応で評価することが可能になります。 その結果、意思決定者は、量的および質的な評価のギャップを埋め、データ駆動型のリソース割り当てと戦略的計画を可能にする、単一のサイバーレジリエンスの指標を備えている。 これは最終的に、より情報的な意思決定、内部または過渡状態の緩和、リソース割り当ての支援につながる可能性がある。

In the dynamic cyber threat landscape, effective decision-making under uncertainty is crucial for maintaining robust information security. This paper introduces the Cyber Resilience Index (CRI), a threat-informed probabilistic approach to quantifying an organisation's defence effectiveness against cyber-attacks (campaigns). Building upon the Threat-Intelligence Based Security Assessment (TIBSA) methodology, we present a mathematical model that translates complex threat intelligence into an actionable, unified metric similar to a stock market index, that executives can understand and interact with while teams can act upon. Our method leverages Partially Observable Markov Decision Processes (POMDPs) to simulate attacker behaviour considering real-world uncertainties and the latest threat actor tactics, techniques, and procedures (TTPs). This allows for dynamic, context-aware evaluation of an organization's security posture, moving beyond static compliance-based assessments. As a result, decision-makers are equipped with a single metric of cyber resilience that bridges the gap between quantitative and qualitative assessments, enabling data-driven resource allocation and strategic planning. This can ultimately lead to more informed decision-making, mitigate under or overspending, and assist in resource allocation.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# ビッグデータが実際に低ランクである場合、あるいは特定の関数生成行列のエントリワイズ近似

When big data actually are low-rank, or entrywise approximation of certain function-generated matrices ( http://arxiv.org/abs/2407.03250v3 )

ライセンス: Link先を確認
Stanislav Budzinskiy, (参考訳) この記事は、2$m$次元変数の滑らかな関数をサンプリングすることによって生成される行列の低ランク近似に関するものである。 我々は、ある分析関数の特定のクラスに対して、そのような行列が$m$とは独立なランクの正確なエントリーワイズ近似(英語版)を認めることを証明するために、文献でなされた議論に反論する。 この主張を支持するために提示された数値結果に関する理論的説明として、$n \times n$ 関数生成行列が階数 $\varepsilon$ のエントリーワイド誤差で近似できる関数の3つのより狭いクラスを記述し、階数 $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1})$ は次元 $m$ とは独立である。 i) 2つの変数の内積の関数 (ii)変数とユークリッド距離の関数 (iii)シフト不変正定核。 我々は、この議論を、その$m$次元変数の多線型積の関数で生成されるテンソルのテンソル-トレイン近似に拡張する。 低ランク近似の文脈における我々の結果について議論する。 (a)成長するデータセット b) 変圧器ニューラルネットにおける注意

The article concerns low-rank approximation of matrices generated by sampling a smooth function of two $m$-dimensional variables. We refute an argument made in the literature to prove that, for a specific class of analytic functions, such matrices admit accurate entrywise approximation of rank that is independent of $m$ -- a claim known as "big-data matrices are approximately low-rank". We provide a theoretical explanation of the numerical results presented in support of this claim, describing three narrower classes of functions for which $n \times n$ function-generated matrices can be approximated within an entrywise error of order $\varepsilon$ with rank $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$ that is independent of the dimension $m$: (i) functions of the inner product of the two variables, (ii) functions of the Euclidean distance between the variables, and (iii) shift-invariant positive-definite kernels. We extend our argument to tensor-train approximation of tensors generated with functions of the multi-linear product of their $m$-dimensional variables. We discuss our results in the context of low-rank approximation of (a) growing datasets and (b) attention in transformer neural networks.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# QET:要素置換と残留クラスタリングによる量子LDMパラメータとKVキャッシュ圧縮の強化

QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering ( http://arxiv.org/abs/2407.03637v4 )

ライセンス: Link先を確認
Yanshu Wang, Wang Li, Zhaoqian Yao, Tong Yang, (参考訳) 行列量子化は、ストレージ使用量を減らすためにより空間効率の良い形式で行列要素を表現し、元の行列を復調する。 我々は、量子化行列が同じメモリ空間を占める条件の下で、量子化前後の行列間の距離を最小化するものとして量子化誤差最小化(QEM)問題を定式化する。 行列量子化は、Large Language Models (LLM) 重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々なアプリケーションにおいて重要である。 GPT-4 や BERT などの最近の LLM の進歩は,行列として格納されるパラメータや KV キャッシュの大きいため,行列圧縮の重要性を強調している。 行列要素の局所順序性を利用してQEM問題に対処する量子エンタングルメントツリー(QET)を提案する。 この行列はその後、列によってグループ化され、定量化される。 そこで本研究では,MSE削減のための残差の定量化と,マスキングとバッチ処理によるアルゴリズムの高速化という2つの最適化手法を提案する。 実験の結果、QET は MSE を LLM データセット、K キャッシュ、V キャッシュでそれぞれ11.89% の5.05%、13.33%、および11.89% に効果的に削減できることが示された。 コントリビューションには、QEM問題の抽象化、QETアルゴリズムの設計、精度と速度を改善するための2つの最適化の提案が含まれている。

The matrix quantization entails representing matrix elements in a more space-efficient form to reduce storage usage, with dequantization restoring the original matrix for use. We formulate the Quantization Error Minimization (QEM) problem as minimizing the distance between a matrix before and after quantization, under the condition that the quantized matrix occupies the same memory space. Matrix quantization is crucial in various applications, including Large Language Models (LLMs) weight quantization, vector databases, KV cache quantization, graph compression, and image compression. Recent advancements in LLMs, such as GPT-4 and BERT, have highlighted the importance of matrix compression due to the large size of parameters and KV cache, which are stored as matrices. We propose Quantum Entanglement Trees (QET) to address the QEM problem by leveraging the local orderliness of matrix elements, involving iterative element swapping to form a locally ordered matrix. This matrix is then grouped and quantized by columns. To enhance QET, we introduce two optimizations: further quantizing residuals to reduce MSE, and using masking and batch processing to accelerate the algorithm. Experimental results demonstrate that QET can effectively reduce MSE to 5.05%, 13.33%, and 11.89% of the current best method on the LLM dataset, K cache, and V cache, respectively. Our contributions include the abstraction of the QEM problem, the design of the QET algorithm, and the proposal of two optimizations to improve accuracy and speed.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# HyperKAN: Kolmogorov-Arnold NetworksがHyperspectral Image Classificatorsを賢く

HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter ( http://arxiv.org/abs/2407.05278v3 )

ライセンス: Link先を確認
Valeriy Lobanov, Nikita Firsov, Evgeny Myasnikov, Roman Khabibullin, Artem Nikonorov, (参考訳) 従来のニューラルネットワークアーキテクチャでは、多層パーセプトロン(MLP)が特徴抽出段階に続く分類ブロックとして使用されるのが一般的である。 しかし、コルモゴロフ・アルノルドネットワーク(KAN)は、予測精度を高める可能性を秘め、MLPに代わる有望な選択肢を提示している。 本稿では,従来のネットワークの線形層と畳み込み層をKANベースの層に置き換える手法を提案する。 これらの修正により,高スペクトルリモートセンシング画像の画素単位の分類精度が大幅に向上した。 我々は、ハイパースペクトル画像分類のための7つの異なるニューラルネットワークアーキテクチャを修正し、全ネットワークにわたる分類精度を大幅に改善した。 論文で検討されたアーキテクチャには、ベースラインMLP、最先端1D (1DCNN) と3D畳み込み (2つの異なる3DCNN、NM3DCNN)、トランスフォーマー (SSFTT) アーキテクチャ、新たに提案されたM1DCNNが含まれる。 最も大きな効果は、スペクトルデータのみを扱う畳み込みネットワークにおいて達成され、最も優れた分類品質はKanoベースのトランスフォーマーアーキテクチャを用いて達成された。 実験はすべて、公開されている7つのハイパースペクトルデータセットを用いて行われた。 私たちのコードはhttps://github.com/f-neumann77/HyperKANで利用可能です。

In traditional neural network architectures, a multilayer perceptron (MLP) is typically employed as a classification block following the feature extraction stage. However, the Kolmogorov-Arnold Network (KAN) presents a promising alternative to MLP, offering the potential to enhance prediction accuracy. In this paper, we propose the replacement of linear and convolutional layers of traditional networks with KAN-based counterparts. These modifications allowed us to significantly increase the per-pixel classification accuracy for hyperspectral remote-sensing images. We modified seven different neural network architectures for hyperspectral image classification and observed a substantial improvement in the classification accuracy across all the networks. The architectures considered in the paper include baseline MLP, state-of-the-art 1D (1DCNN) and 3D convolutional (two different 3DCNN, NM3DCNN), and transformer (SSFTT) architectures, as well as newly proposed M1DCNN. The greatest effect was achieved for convolutional networks working exclusively on spectral data, and the best classification quality was achieved using a KAN-based transformer architecture. All the experiments were conducted using seven openly available hyperspectral datasets. Our code is available at https://github.com/f-neumann77/HyperKAN.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 地形ビュー生成 -衛星ビューからの高分解能地上ビュー推定を考慮した幾何学的文脈-

Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views ( http://arxiv.org/abs/2407.08061v3 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, (参考訳) 都市部における衛星画像からの現実的な地上映像の予測は、衛星画像と地上画像の間に大きな差があるため、難しい課題である。 本稿では, この課題に対処するための新しいパイプラインを提案し, 多視点衛星画像から, 弱幾何やテクスチャを最大限に尊重する地形ビューを生成する。 衛星画像から部分的意味論や幾何などの画像から画像に幻覚を与える既存の手法とは異なり,衛星画像からの包括的情報を用いて地上画像を直接推定し,分解能を10以上向上させる。 本研究では,地表面における衛星データの幾何歪みを低減し,拡散ネットワークを用いた視線合成のための正確な条件の作成を実現するために,新しい建物改良手法を利用する。 さらに,予測画像の位置に近い画像サンプルを尊重するため,拡散モデルの分布学習を促す新しい地理特化先行手法を提案する。 我々のパイプラインは、衛星画像のみに基づいて、実物に近い地上ビューを初めて生成したものであることを実証する。

Predicting realistic ground views from satellite imagery in urban scenes is a challenging task due to the significant view gaps between satellite and ground-view images. We propose a novel pipeline to tackle this challenge, by generating geospecifc views that maximally respect the weak geometry and texture from multi-view satellite images. Different from existing approaches that hallucinate images from cues such as partial semantics or geometry from overhead satellite images, our method directly predicts ground-view images at geolocation by using a comprehensive set of information from the satellite image, resulting in ground-level images with a resolution boost at a factor of ten or more. We leverage a novel building refinement method to reduce geometric distortions in satellite data at ground level, which ensures the creation of accurate conditions for view synthesis using diffusion networks. Moreover, we proposed a novel geospecific prior, which prompts distribution learning of diffusion models to respect image samples that are closer to the geolocation of the predicted images. We demonstrate our pipeline is the first to generate close-to-real and geospecific ground views merely based on satellite images.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# AIoTにおけるFPGAを用いた時系列予測のための整数のみ量子変換器

Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT ( http://arxiv.org/abs/2407.11041v2 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele, (参考訳) 本稿では,AIoTシステムにおけるデバイス上の時系列予測に最適化されたTransformers用ハードウェアアクセラレータの設計について述べる。 整数のみの量子化と量子化アウェアトレーニングを最適化されたハードウェア設計と統合し、6ビットおよび4ビットの量子化トランスフォーマーモデルを実現し、関連する研究から8ビットの量子化モデルに匹敵する精度を達成した。 組み込みFPGA(Xilinx Spartan-7 XC7S15)の完全な実装を利用して,組込みIoTデバイスにTransformerモデルをデプロイする可能性を検討する。 これには、達成可能な精度、リソース利用、タイミング、電力、デバイス上の推論のためのエネルギー消費の徹底的な分析が含まれる。 以上の結果から,十分な性能を達成できたとしても,最適化プロセスは簡単ではないことが示唆された。 例えば、量子化ビット幅の削減は、様々な最適化の組み合わせを体系的に探索する必要性を強調し、レイテンシやエネルギー消費を一貫して減少させるわけではない。 関連する研究で8ビット量子トランスモデルと比較すると、我々の4ビット量子トランスモデルはテスト損失をわずか0.63%増加させ、最大132.33倍速く動作し、48.19倍のエネルギーを消費する。

This paper presents the design of a hardware accelerator for Transformers, optimized for on-device time-series forecasting in AIoT systems. It integrates integer-only quantization and Quantization-Aware Training with optimized hardware designs to realize 6-bit and 4-bit quantized Transformer models, which achieved precision comparable to 8-bit quantized models from related research. Utilizing a complete implementation on an embedded FPGA (Xilinx Spartan-7 XC7S15), we examine the feasibility of deploying Transformer models on embedded IoT devices. This includes a thorough analysis of achievable precision, resource utilization, timing, power, and energy consumption for on-device inference. Our results indicate that while sufficient performance can be attained, the optimization process is not trivial. For instance, reducing the quantization bitwidth does not consistently result in decreased latency or energy consumption, underscoring the necessity of systematically exploring various optimization combinations. Compared to an 8-bit quantized Transformer model in related studies, our 4-bit quantized Transformer model increases test loss by only 0.63%, operates up to 132.33x faster, and consumes 48.19x less energy.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 目による検証の注意:散乱体における線形トレンドの視覚的検証

Beware of Validation by Eye: Visual Validation of Linear Trends in Scatterplots ( http://arxiv.org/abs/2407.11625v2 )

ライセンス: Link先を確認
Daniel Braun, Remco Chang, Michael Gleicher, Tatiana von Landesberger, (参考訳) スパータプロットにおける回帰モデルの視覚的検証は、モデル品質を評価する一般的なプラクティスであるが、その有効性はいまだに不明である。 線形回帰モデル(線形傾向)を視覚的に検証する個人の能力を調べるための実証実験を2回行った。 最初の実験では、傾きの視覚的評価(線をデータに合わせる)の精度は、傾きの視覚的検証(線を受理する)よりも高いことがわかった。 特に、両方のケースで"急すぎる"斜面へのバイアスが見つかりました。 これは、参加者が共通の垂直距離(OLS回帰)ではなく、点と線の間の直交距離(すなわちODR回帰)で回帰を自然に評価する、という新たな洞察につながった。 第2の実験では,レグレッション・ビジュアライゼーション(エラー線,バウンディングボックス,信頼区間)に共通設計を導入することで,視覚的検証が向上するかどうかを検討した。 エラーラインはバリデーションバイアスを減らしたが、結果はどの設計にも望ましい精度の向上を示さなかった。 以上の結果から,スキャッタプロットの線形傾向に対する視覚モデル検証の有用性が示唆された。

Visual validation of regression models in scatterplots is a common practice for assessing model quality, yet its efficacy remains unquantified. We conducted two empirical experiments to investigate individuals' ability to visually validate linear regression models (linear trends) and to examine the impact of common visualization designs on validation quality. The first experiment showed that the level of accuracy for visual estimation of slope (i.e., fitting a line to data) is higher than for visual validation of slope (i.e., accepting a shown line). Notably, we found bias toward slopes that are "too steep" in both cases. This lead to novel insights that participants naturally assessed regression with orthogonal distances between the points and the line (i.e., ODR regression) rather than the common vertical distances (OLS regression). In the second experiment, we investigated whether incorporating common designs for regression visualization (error lines, bounding boxes, and confidence intervals) would improve visual validation. Even though error lines reduced validation bias, results failed to show the desired improvements in accuracy for any design. Overall, our findings suggest caution in using visual model validation for linear trends in scatterplots.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 拡散変換器の16億パラメータへのスケーリング

Scaling Diffusion Transformers to 16 Billion Parameters ( http://arxiv.org/abs/2407.11633v2 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang, (参考訳) 本稿では,拡散変換器のスパースバージョンであるDiT-MoEについて述べる。 DiT-MoEには、共有専門家ルーティングと専門家レベルのバランス損失という2つのシンプルな設計が含まれている。 条件付き画像生成に適用した場合、専門家の専門化を深く分析すると、興味深い結果が得られます。 一 専門家の選択は、異なるクラス条件情報に敏感でありながら、空間的位置及び騒音の段階による嗜好を示す。 (二)MoE層が深くなるにつれて、専門家の選抜は徐々に、特定の空間的位置から分散とバランスへと変化していく。 三 専門家の専門化は、早い段階でより集中し、半後徐々に一様になる傾向にある。 本稿では、まず低周波空間情報をモデル化し、次に高周波複素情報をモデル化する拡散過程に起因する。 上記のガイダンスに基づき、一連のDiT-MoEは、高密度ネットワークと同等の性能を実験的に達成するが、推論時に計算負荷をはるかに少なくする。 さらに、合成画像データを用いてDiT-MoEの可能性を示し、新しいSoTA FID-50Kスコアが512$\times$512の解像度設定で1.80となる16.5Bパラメータで拡散モデルをスケーリングする。 プロジェクトページ:https://github.com/feizc/DiT-MoE。

In this paper, we present DiT-MoE, a sparse version of the diffusion Transformer, that is scalable and competitive with dense networks while exhibiting highly optimized inference. The DiT-MoE includes two simple designs: shared expert routing and expert-level balance loss, thereby capturing common knowledge and reducing redundancy among the different routed experts. When applied to conditional image generation, a deep analysis of experts specialization gains some interesting observations: (i) Expert selection shows preference with spatial position and denoising time step, while insensitive with different class-conditional information; (ii) As the MoE layers go deeper, the selection of experts gradually shifts from specific spacial position to dispersion and balance. (iii) Expert specialization tends to be more concentrated at the early time step and then gradually uniform after half. We attribute it to the diffusion process that first models the low-frequency spatial information and then high-frequency complex information. Based on the above guidance, a series of DiT-MoE experimentally achieves performance on par with dense networks yet requires much less computational load during inference. More encouragingly, we demonstrate the potential of DiT-MoE with synthesized image data, scaling diffusion model at a 16.5B parameter that attains a new SoTA FID-50K score of 1.80 in 512$\times$512 resolution settings. The project page: https://github.com/feizc/DiT-MoE.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-06
# 疾患の医学的知識発見の促進:レット症候群とアルツハイマー病を応用したオープンソースフレームワーク

Enhancing Biomedical Knowledge Discovery for Diseases: An Open-Source Framework Applied on Rett Syndrome and Alzheimer's Disease ( http://arxiv.org/abs/2407.13492v2 )

ライセンス: Link先を確認
Christos Theodoropoulos, Andrei Catalin Coman, James Henderson, Marie-Francine Moens, (参考訳) バイオメディカル・パブリッシングの増大は、効率的な知識発見にとって重要な必要性を生んでいる。 この文脈では,原文から直接特定の疾患に関する知識を構築するために設計された,オープンソースのエンドツーエンドフレームワークを導入する。 疾患関連知識発見の研究を容易にするため,Rett症候群とアルツハイマー病に焦点を当てた2つの注釈付きデータセットを作成し,バイオメディカルエンティティ間の意味的関係の同定を可能にした。 広範囲なベンチマークは、関係や実体表現を表現する様々な方法を探究し、意味的関係の検出と知識発見における言語モデルの能力の強調のための最適なモデリング戦略に関する洞察を提供する。 また,異なるレイヤ表現とアテンションスコアを用いて探索実験を行い,意味的関係を捉えるトランスフォーマーの能力を探る。

The ever-growing volume of biomedical publications creates a critical need for efficient knowledge discovery. In this context, we introduce an open-source end-to-end framework designed to construct knowledge around specific diseases directly from raw text. To facilitate research in disease-related knowledge discovery, we create two annotated datasets focused on Rett syndrome and Alzheimer's disease, enabling the identification of semantic relations between biomedical entities. Extensive benchmarking explores various ways to represent relations and entity representations, offering insights into optimal modeling strategies for semantic relation detection and highlighting language models' competence in knowledge discovery. We also conduct probing experiments using different layer representations and attention scores to explore transformers' ability to capture semantic relations.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# Hyp2Nav: 群衆ナビゲーションのための双曲的計画と好奇心

Hyp2Nav: Hyperbolic Planning and Curiosity for Crowd Navigation ( http://arxiv.org/abs/2407.13567v3 )

ライセンス: Link先を確認
Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Pascal Mettes, Fabio Galasso, (参考訳) 自律型ロボットは、社会環境における強力な道具になりつつある。 効果的なクラウドナビゲーションには、安全かつ高速な計画だけでなく、組み込みデバイス上でリアルタイムに作業するための解釈可能性や計算効率も必要である。 本研究では,集団ナビゲーションを実現するための双曲学習を提唱し,Hyp2Navを紹介する。 従来の強化学習に基づく群集ナビゲーション法とは異なり、Hyp2Navは双曲幾何学の本質的な性質を活用し、ナビゲーションタスクにおける意思決定プロセスの階層的性質をよりよく符号化する。 提案するハイパーボリックポリシーモデルとハイパーボリック好奇性モジュールは,効果的なソーシャルナビゲーション,最高の成功率,複数のシミュレーション設定にまたがるリターンを実現し,競合する最先端モデルに比べて最大6倍のパラメータを用いて提案する。 提案手法により,2次元の埋め込み空間で機能するポリシーを得ることができ,低リソースのクラウドナビゲーションとモデル解釈可能性の新たな可能性を開くことができる。 Hyp2Navの内部のハイパーボリックな表現は、ロボットが周囲の群衆にどれだけの注意を払っているかに相関している。 コードはhttps://github.com/GDam90/hyp2nav.comで入手できる。

Autonomous robots are increasingly becoming a strong fixture in social environments. Effective crowd navigation requires not only safe yet fast planning, but should also enable interpretability and computational efficiency for working in real-time on embedded devices. In this work, we advocate for hyperbolic learning to enable crowd navigation and we introduce Hyp2Nav. Different from conventional reinforcement learning-based crowd navigation methods, Hyp2Nav leverages the intrinsic properties of hyperbolic geometry to better encode the hierarchical nature of decision-making processes in navigation tasks. We propose a hyperbolic policy model and a hyperbolic curiosity module that results in effective social navigation, best success rates, and returns across multiple simulation settings, using up to 6 times fewer parameters than competitor state-of-the-art models. With our approach, it becomes even possible to obtain policies that work in 2-dimensional embedding spaces, opening up new possibilities for low-resource crowd navigation and model interpretability. Insightfully, the internal hyperbolic representation of Hyp2Nav correlates with how much attention the robot pays to the surrounding crowds, e.g. due to multiple people occluding its pathway or to a few of them showing colliding plans, rather than to its own planned route. The code is available at https://github.com/GDam90/hyp2nav.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# 異常量子相転移を伴う焼入れ拡張Su-Schrieffer-Heegerモデルの絡み合い

Entanglement in quenched extended Su-Schrieffer-Heeger model with anomalous dynamical quantum phase transitions ( http://arxiv.org/abs/2407.15331v2 )

ライセンス: Link先を確認
Cheuk Yiu Wong, Tsz Hin Hui, P. D. Sacramento, Wing Chi Yu, (参考訳) トポロジカルモデルの研究は、特に動的量子相転移(DQPT)の領域において、魅力的な物理学を明らかにしている。 しかし、長距離ホッピングを持つモデルにおけるDQPT近傍の絡み合い構造と性質の理解は、完全には程遠い。 本研究では, 焼入れ型拡張Su-Schrieffer-Heeger(SSH)モデルにおけるDQPTについて検討する。 臨界モータの数が前焼成相と後焼成相の巻成数差を超える異常DQPTが観察される。 アンタングルメントは, 相関行列スペクトルの中央付近の水平交差(セパレーション)に沿って, 異常DQPTの周囲の局所的な最大値(最小値)を示す。 さらに、平衡モデルの位相を2つのクラスに分類し、この2つのクラス内のクエンチを含む絡み合いの時間的進化の特徴的な特徴を同定する。 この発見は、非平衡状態における長距離ホッピングを伴うトポロジカルモデルをよりよく理解するための道を開いた。

Research on topological models unveils fascinating physics, especially in the realm of dynamical quantum phase transitions (DQPTs). However, the understanding of entanglement structures and properties near DQPT in models with longer-range hoppings is far from complete. In this work, we study DQPTs in the quenched extended Su-Schrieffer-Heeger (SSH) model. Anomalous DQPTs, where the number of critical momenta exceeds the winding number differences between the pre-quench and post-quench phases, are observed. We find that the entanglement exhibits local maximum (minimum) around the anomalous DQPTs, in line with the level crossings (separations) around the middle of the correlation matrix spectrum. We further categorize the phases in the equilibrium model into two classes and distinctive features in the time evolution of the entanglement involving quenches within and across the two classes are identified. The findings pave the way to a better understanding of topological models with longer-range hoppings in the out-of-equilibrium regime.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー

Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review ( http://arxiv.org/abs/2407.17844v3 )

ライセンス: Link先を確認
Lisanne van Gelderen, Cristian Tejedor-García, (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。 近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。 それでも研究の進展は、主にプライバシー上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。 この体系的なレビューの目的は、2020年1月から2024年3月までに発行された33の科学的研究に基づいて、PD分類のための音声ベースのDLアプローチの現況を探ることである。 利用可能なリソース、能力、潜在的な制限、バイアス、説明可能性、プライバシーに関する問題について議論する。 さらに、このレビューは、パブリックアクセス可能な音声ベースのデータセットとPDのためのオープンソース資料の概要を提供する。 同定されたDLアプローチは、エンドツーエンド学習(E2E)、転送学習(TL)、深層音響特徴抽出(DAFE)に分類される。 E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。 E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。 TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。 DAFEは、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。 しかし、E2E や TL に比べて性能が劣ることが多い。

Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy concerns. The goal of this systematic review is to explore the current landscape of speech-based DL approaches for PD classification, based on 33 scientific works published between January 2020 and March 2024. We discuss their available resources, capabilities, and potential limitations, and issues related to bias, explainability, and privacy. Furthermore, this review provides an overview of publicly accessible speech-based datasets and open-source material for PD. The DL approaches identified are categorized into end-to-end (E2E) learning, transfer learning (TL), and deep acoustic feature extraction (DAFE). Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAFE aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# StraightLine: 機械学習アプリケーションリクエストのためのエンド・ツー・エンドのリソース・アウェア・スケジューリング

StraightLine: An End-to-End Resource-Aware Scheduler for Machine Learning Application Requests ( http://arxiv.org/abs/2407.18148v2 )

ライセンス: Link先を確認
Cheng-Wei Ching, Boyuan Guan, Hailu Xu, Liting Hu, (参考訳) 機械学習(ML)アプリケーションのライフサイクルは、モデル開発とモデルデプロイメントの2つのステージから構成される。 しかし、従来のMLシステム(トレーニング固有のシステムや推論固有のシステム)は、MLアプリケーションのライフサイクルの特定のステージまたはフェーズにフォーカスする。 これらのシステムは、モデルトレーニングの最適化やモデル推論の加速を目標としており、クラウドデータセンタやローカルサーバ、コンテナ、サーバレスプラットフォームなど、現実のシナリオを常に反映しているとは限りません。 StraightLineは、ハイブリッドインフラストラクチャにおけるさまざまなMLアプリケーションリクエストに対して最適なリソース(コンテナ、仮想マシン、サーバレスなど)をスケジュールする、エンドツーエンドのリソース対応スケジューラです。 鍵となるイノベーションは、ユニークな特徴(例えば、要求頻度、入力データサイズ、データ分散)に基づいてリクエストをインテリジェントに配置する経験的動的配置アルゴリズムである。 既存のMLシステムとは対照的に、StraightLineはエンドツーエンドのリソース対応の配置を提供しており、ハイブリッドインフラストラクチャで異なるコンピューティングリソースに直面する場合、モデルデプロイメントのレスポンス時間と失敗率を大幅に削減することができる。

The life cycle of machine learning (ML) applications consists of two stages: model development and model deployment. However, traditional ML systems (e.g., training-specific or inference-specific systems) focus on one particular stage or phase of the life cycle of ML applications. These systems often aim at optimizing model training or accelerating model inference, and they frequently assume homogeneous infrastructure, which may not always reflect real-world scenarios that include cloud data centers, local servers, containers, and serverless platforms. We present StraightLine, an end-to-end resource-aware scheduler that schedules the optimal resources (e.g., container, virtual machine, or serverless) for different ML application requests in a hybrid infrastructure. The key innovation is an empirical dynamic placing algorithm that intelligently places requests based on their unique characteristics (e.g., request frequency, input data size, and data distribution). In contrast to existing ML systems, StraightLine offers end-to-end resource-aware placement, thereby it can significantly reduce response time and failure rate for model deployment when facing different computing resources in the hybrid infrastructure.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# Patched MOA: 多様なソフトウェア開発タスクの推論を最適化する

Patched MOA: optimizing inference for diverse software development tasks ( http://arxiv.org/abs/2407.18521v2 )

ライセンス: Link先を確認
Asankhaya Sharma, (参考訳) 本稿では,多種多様なソフトウェア開発タスクにおける大規模言語モデル(LLM)の性能を大幅に向上させる推論最適化手法であるPatched MOA(Mixture of Agents)を紹介する。 我々は3つの推論最適化アルゴリズム、Best of N、Mixture of Agents、Monte Carlo Tree Searchを評価し、Patched MOAがより大型で高価なモデルを上回るように小型モデルの性能を向上させることを実証した。 特に,Arena-Hard-Autoベンチマークにおけるgpt-4o-miniモデルの性能は15.52%向上し,低コストでgpt-4-turboを上回った。 また、様々なソフトウェア開発ワークフローにPatched MOAを適用し、タスク完了率を一貫した改善を示します。 提案手法はモデルに依存しず,エンドユーザーに対して透過的であり,既存のLLMパイプラインに容易に組み込むことができる。 この研究はLLM最適化の分野の発展に寄与し、微調整や大型モデルを必要としないモデル性能を向上させるためのコスト効率の高いソリューションを提供する。 私たちの実装はオープンソースで、https://github.com/codelion/optillm.comで公開しています。

This paper introduces Patched MOA (Mixture of Agents), an inference optimization technique that significantly enhances the performance of large language models (LLMs) across diverse software development tasks. We evaluate three inference optimization algorithms - Best of N, Mixture of Agents, and Monte Carlo Tree Search and demonstrate that Patched MOA can boost the performance of smaller models to surpass that of larger, more expensive models. Notably, our approach improves the gpt-4o-mini model's performance on the Arena-Hard-Auto benchmark by 15.52%, outperforming gpt-4-turbo at a fraction of the cost. We also apply Patched MOA to various software development workflows, showing consistent improvements in task completion rates. Our method is model-agnostic, transparent to end-users, and can be easily integrated into existing LLM pipelines. This work contributes to the growing field of LLM optimization, offering a cost-effective solution for enhancing model performance without the need for fine-tuning or larger models. Our implementation is open-source and available at https://github.com/codelion/optillm.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# 多粒子蒸留エンタングルメントのデバイス非依存認証

Device-Independent Certification of Multipartite Distillable Entanglement ( http://arxiv.org/abs/2408.01357v2 )

ライセンス: Link先を確認
Aby Philip, Mark M. Wilde, (参考訳) 量子ネットワークは様々な量子技術で構成され、広範囲に分散し、同時に様々なユーザーを巻き込む。 個々のコンポーネントの機能と効率の証明は、よく研究され広く使われているタスクである。 しかし、量子ネットワークのパワーは、多くのユーザに対して必要な量子技術とプラットフォームをすべて統合することによってのみ実現できる。 本研究では, 量子ネットワークが生成する多粒子状態において, 構成成分の物理的実現に頼ることなく, 蒸留可能な絡み合いを認証する方法を実証する。 私たちはデバイス独立というパラダイムを使ってそうしています。

Quantum networks consist of various quantum technologies, spread across vast distances, and involve various users at the same time. Certifying the functioning and efficiency of the individual components is a task that is well studied and widely used. However, the power of quantum networks can only be realized by integrating all the required quantum technologies and platforms across a large number of users. In this work, we demonstrate how to certify the distillable entanglement available in multipartite states produced by quantum networks, without relying on the physical realization of its constituent components. We do so by using the paradigm of device independence.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# コンテキスト情報によるAIベースのソフトウェアエクスプロイット生成の強化

Enhancing AI-based Generation of Software Exploits with Contextual Information ( http://arxiv.org/abs/2408.02402v3 )

ライセンス: Link先を確認
Pietro Liguori, Cristina Improta, Roberto Natella, Bojan Cukic, Domenico Cotroneo, (参考訳) この実践経験レポートでは、自然言語(NL)記述から攻撃的セキュリティコードを生成するニューラルネットワーク翻訳(NMT)モデルの能力について検討し、文脈理解の重要性とモデルパフォーマンスへの影響を強調している。 本研究では,情報不足,必要なコンテキスト,不要なコンテキストなど,さまざまなシナリオでモデルを評価するために,実際のシェルコードからなるデータセットを用いる。 実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。 その結果,文脈データの導入は性能を著しく向上させることがわかった。 しかし、追加のコンテキストの利点は特定の点を超えて減少し、モデルトレーニングに最適な文脈情報レベルを示す。 さらに、モデルは不要なコンテキストをフィルタリングし、攻撃的セキュリティコードの生成において高いレベルの精度を維持する能力を示す。 この研究は、AI駆動コード生成におけるコンテキスト使用の最適化について、特に攻撃コード生成のような高度な技術的精度を必要とするアプリケーションについて、今後の研究の道を開くものである。

This practical experience report explores Neural Machine Translation (NMT) models' capability to generate offensive security code from natural language (NL) descriptions, highlighting the significance of contextual understanding and its impact on model performance. Our study employs a dataset comprising real shellcodes to evaluate the models across various scenarios, including missing information, necessary context, and unnecessary context. The experiments are designed to assess the models' resilience against incomplete descriptions, their proficiency in leveraging context for enhanced accuracy, and their ability to discern irrelevant information. The findings reveal that the introduction of contextual data significantly improves performance. However, the benefits of additional context diminish beyond a certain point, indicating an optimal level of contextual information for model training. Moreover, the models demonstrate an ability to filter out unnecessary context, maintaining high levels of accuracy in the generation of offensive security code. This study paves the way for future research on optimizing context use in AI-driven code generation, particularly for applications requiring a high degree of technical precision such as the generation of offensive code.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# 単フレーム空間連続心エコー画像合成のための訓練自由条件ビデオ拡散モデル

Training-Free Condition Video Diffusion Models for single frame Spatial-Semantic Echocardiogram Synthesis ( http://arxiv.org/abs/2408.03035v2 )

ライセンス: Link先を確認
Van Phi Nguyen, Tri Nhan Luong Ha, Huy Hieu Pham, Quoc Long Tran, (参考訳) 条件付きビデオ拡散モデル(CDM)はビデオ合成に有望な結果を示しており、リアルな心エコー画像の生成がデータ不足の問題に対処できる可能性がある。 しかし、現在のCDMには、ペア化されたセグメンテーションマップとエコー心電図データセットが必要である。 本稿では, 心エコー法とよばれる新しい手法を提案する。 本手法は3D-Unet with Temporal Attention Layersモデルに基づいて,SDEditに基づくトレーニングフリー条件付け手法を用いてセグメンテーションマップ上で条件付けを行う。 我々は、CAMUSとEchoNet-Dynamicの2つの公開心エコーデータを用いて、本モデルの評価を行った。 本モデルでは,入力セグメンテーションマップに空間的に整合したプラウシブル心エコー図を作成でき,トレーニングベースCDMに匹敵する性能が得られることを示す。 我々の研究は、単一のセグメンテーションマップから心エコーを生成できる新たな可能性を開く。 私たちのコードは \url{https://github.com/gungui98/echo-free} で利用可能です。

Conditional video diffusion models (CDM) have shown promising results for video synthesis, potentially enabling the generation of realistic echocardiograms to address the problem of data scarcity. However, current CDMs require a paired segmentation map and echocardiogram dataset. We present a new method called Free-Echo for generating realistic echocardiograms from a single end-diastolic segmentation map without additional training data. Our method is based on the 3D-Unet with Temporal Attention Layers model and is conditioned on the segmentation map using a training-free conditioning method based on SDEdit. We evaluate our model on two public echocardiogram datasets, CAMUS and EchoNet-Dynamic. We show that our model can generate plausible echocardiograms that are spatially aligned with the input segmentation map, achieving performance comparable to training-based CDMs. Our work opens up new possibilities for generating echocardiograms from a single segmentation map, which can be used for data augmentation, domain adaptation, and other applications in medical imaging. Our code is available at \url{https://github.com/gungui98/echo-free}
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# UniPortrait: アイデンティティ保護のための統一フレームワーク

UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization ( http://arxiv.org/abs/2408.05939v2 )

ライセンス: Link先を確認
Junjie He, Yifeng Geng, Liefeng Bo, (参考訳) UniPortraitは、顔の忠実度、顔の編集性、自由な入力記述、多彩なレイアウト生成を両立させる革新的な人体画像パーソナライゼーションフレームワークである。 UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。 ID埋め込みモジュールは、各IDの切り離し戦略で多彩な編集可能な顔の特徴を抽出し、拡散モデルのコンテキスト空間に埋め込む。 次に、IDルーティングモジュールは、これらの埋め込みを合成画像内の各領域に適応的に結合し、単一のIDと複数のIDをカスタマイズする。 慎重に設計された2段階のトレーニングスキームにより、UniPortraitはシングルIDとマルチIDのカスタマイズにおいて優れたパフォーマンスを実現している。 定量的および定性的な実験は、既存の手法に対する我々の手法の利点を実証し、その優れたスケーラビリティ、例えば、既存の生成制御ツールとの普遍的な互換性を示す。 プロジェクトのページはhttps://aigcdesigngroup.github.io/UniPortrait-Page/にある。

This paper presents UniPortrait, an innovative human image personalization framework that unifies single- and multi-ID customization with high face fidelity, extensive facial editability, free-form input description, and diverse layout generation. UniPortrait consists of only two plug-and-play modules: an ID embedding module and an ID routing module. The ID embedding module extracts versatile editable facial features with a decoupling strategy for each ID and embeds them into the context space of diffusion models. The ID routing module then combines and distributes these embeddings adaptively to their respective regions within the synthesized image, achieving the customization of single and multiple IDs. With a carefully designed two-stage training scheme, UniPortrait achieves superior performance in both single- and multi-ID customization. Quantitative and qualitative experiments demonstrate the advantages of our method over existing approaches as well as its good scalability, e.g., the universal compatibility with existing generative control tools. The project page is at https://aigcdesigngroup.github.io/UniPortrait-Page/ .
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# トレーニングオーバーヘッド比率:大規模言語モデルトレーニングシステムのための実践的信頼性指標

Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems ( http://arxiv.org/abs/2408.07482v2 )

ライセンス: Link先を確認
Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Zheng Hu, Jiantao Ma, (参考訳) 大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。 これらのモデルのトレーニングには、大規模なGPUクラスタと大きな計算時間が必要です。 その重要性にもかかわらず、この分野は信頼性を評価するための指標が欠けている。 本研究では,耐故障性LLMトレーニングシステムの信頼性を評価するために,新しい信頼性指標である \emph{Training Overhead Ratio} (TOR) を導入する。 TORは、観測されたシステムのトレーニング時間に対する最適なトレーニング時間の割合として定義され、あるシステム上でLLMのトレーニングに要する実際の時間を推定するための実用的なツールとして機能する。 さらに,本研究では,信頼性向上の鍵となる要因と,実際に遭遇した各種障害に対するTOR式について検討した。

Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# マルチモーダル大言語モデルのベンチマークに関する調査

A Survey on Benchmarks of Multimodal Large Language Models ( http://arxiv.org/abs/2408.08632v2 )

ライセンス: Link先を確認
Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang, (参考訳) マルチモーダル大規模言語モデル(MLLM)は、視覚的質問応答、視覚的知覚、理解、推論など、様々なアプリケーションで顕著な性能を発揮したため、学術と産業の両方で人気が高まっている。 近年,MLLMを多視点から検討する試みが盛んに行われている。 本稿では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー機能,(5)他のモダリティに着目した,200のベンチマークとMLLMの評価の総合的なレビューを行う。 最後に,MLLMの現在の評価手法の限界について考察し,将来の可能性を探る。 我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。 詳細はGitHubリポジトリを参照してほしい。

Multimodal Large Language Models (MLLMs) are gaining increasing popularity in both academia and industry due to their remarkable performance in various applications such as visual question answering, visual perception, understanding, and reasoning. Over the past few years, significant efforts have been made to examine MLLMs from multiple perspectives. This paper presents a comprehensive review of 200 benchmarks and evaluations for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities. Finally, we discuss the limitations of the current evaluation methods for MLLMs and explore promising future directions. Our key argument is that evaluation should be regarded as a crucial discipline to support the development of MLLMs better. For more details, please visit our GitHub repository: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# バイアスを超えた推論:思考推論の反実的プロンプトと連鎖に関する研究

Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning ( http://arxiv.org/abs/2408.08651v2 )

ライセンス: Link先を確認
Kyle Moore, Jesse Roberts, Thao Pham, Douglas Fisher, (参考訳) 言語モデルは、トレーニングデータからバイアスを吸収することが知られており、意味的関連性よりも統計的規則性によって駆動される予測につながっている。 MMLU(Massive Multi-Task Language Understanding)タスクにおいて,これらのバイアスが回答選択選択に与える影響について検討する。 その結果,解答オプション間の学習規則の相違は,モデルの選好を予測し,人間の試行戦略を反映していることが判明した。 この問題に対処するため,2つの新しい手法として,CoT(Chain of Thought)とAgnostically Primed CoT(Agnostically Primed CoT)の2つを紹介した。 提案手法は,CoTだけではバイアスを軽減するには不十分であるが,本手法では,ベースレートの確率の影響を効果的に低減し,全体的な精度を向上する。 以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。 私たちのコントリビューションは、より堅牢で公正な言語モデルを開発するための実用的なソリューションを提供します。

Language models are known to absorb biases from their training data, leading to predictions driven by statistical regularities rather than semantic relevance. We investigate the impact of these biases on answer choice preferences in the Massive Multi-Task Language Understanding (MMLU) task. Our findings reveal that differences in learned regularities across answer options are predictive of model preferences and mirror human test-taking strategies. To address this issue, we introduce two novel methods: Counterfactual Prompting with Chain of Thought (CoT) and Counterfactual Prompting with Agnostically Primed CoT (APriCoT). We demonstrate that while Counterfactual Prompting with CoT alone is insufficient to mitigate bias, our novel Primed Counterfactual Prompting with CoT approach effectively reduces the influence of base-rate probabilities while improving overall accuracy. Our results suggest that mitigating bias requires a "System-2" like process and that CoT reasoning is susceptible to confirmation bias under some prompting methodologies. Our contributions offer practical solutions for developing more robust and fair language models.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# バービー:バービースタイルの3Dアバター

Barbie: Text to Barbie-Style 3D Avatars ( http://arxiv.org/abs/2408.09126v3 )

ライセンス: Link先を確認
Xiaokun Sun, Zhenyu Zhang, Ying Tai, Qian Wang, Hao Tang, Zili Yi, Jian Yang, (参考訳) テキスト誘導型3Dアバター生成の最近の進歩は,拡散モデルから知識を抽出することによって大きく進歩している。 既存の手法では, 内部と装身具の微粒化や高忠実度モデリングは不可能である。 本稿では,バービーのような多彩で高品質な衣服やアクセサリーを身に着けた3Dアバターを製作するための新しいフレームワークであるバービーを提案する。 全体論的モデルに頼る代わりに、バービーは人体と衣服のセマンティックアライズされたモデルによって、アバターのきめ細かいゆがみを達成している。 これらの非絡み合った3D表現は、異なる専門家モデルによって最適化され、ドメイン固有の忠実さが保証される。 幾何学的多様性と合理的さのバランスをとるために,テンプレート保存と人間優先の進化のための一連の損失を提案する。 最終アバターは、集合的なテクスチャ改質により、優れたテクスチャ整合性を実現する。 大規模な実験では、バービーは服装と服装の両方で既存の手法よりも優れており、柔軟なアパレルの組み合わせとアニメーションをサポートしている。 コードは研究目的でリリースされます。 私たちのプロジェクトページは以下のとおりです。

Recent advances in text-guided 3D avatar generation have made substantial progress by distilling knowledge from diffusion models. Despite the plausible generated appearance, existing methods cannot achieve fine-grained disentanglement or high-fidelity modeling between inner body and outfit. In this paper, we propose Barbie, a novel framework for generating 3D avatars that can be dressed in diverse and high-quality Barbie-like garments and accessories. Instead of relying on a holistic model, Barbie achieves fine-grained disentanglement on avatars by semantic-aligned separated models for human body and outfits. These disentangled 3D representations are then optimized by different expert models to guarantee the domain-specific fidelity. To balance geometry diversity and reasonableness, we propose a series of losses for template-preserving and human-prior evolving. The final avatar is enhanced by unified texture refinement for superior texture consistency. Extensive experiments demonstrate that Barbie outperforms existing methods in both dressed human and outfit generation, supporting flexible apparel combination and animation. The code will be released for research purposes. Our project page is: https://xiaokunsun.github.io/Barbie.github.io/.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-06
# ハイブリッドセマンティック検索:キーワード以外のユーザーインテントを公開

Hybrid Semantic Search: Unveiling User Intent Beyond Keywords ( http://arxiv.org/abs/2408.09236v3 )

ライセンス: Link先を確認
Aman Ahluwalia, Bishwajit Sutradhar, Karishma Ghosh, Indrapal Yadav, Arpan Sheetal, Prashant Patil, (参考訳) 本稿では,ユーザ意図を理解する上で,従来のキーワードベース検索の限界に対処し,非意味的検索エンジン,LLM(Large Language Models),埋め込みモデルなどの長所を生かした,新しいハイブリッド検索手法を提案する。 提案システムは,キーワードマッチング,意味的ベクトル埋め込み,LLM生成した構造化クエリを統合し,関連性が高く,文脈的に適切な検索結果を提供する。 本稿では,これらの補完手法を組み合わせることで,明示的かつ暗黙的なユーザ意図を効果的に捉え,より高速な応答時間にクエリ実行を最適化する手法について検討し,包括的かつ正確な検索結果を生成する上で,このハイブリッド検索モデルの有効性を実証する。

This paper addresses the limitations of traditional keyword-based search in understanding user intent and introduces a novel hybrid search approach that leverages the strengths of non-semantic search engines, Large Language Models (LLMs), and embedding models. The proposed system integrates keyword matching, semantic vector embeddings, and LLM-generated structured queries to deliver highly relevant and contextually appropriate search results. By combining these complementary methods, the hybrid approach effectively captures both explicit and implicit user intent.The paper further explores techniques to optimize query execution for faster response times and demonstrates the effectiveness of this hybrid search model in producing comprehensive and accurate search outcomes.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# 回帰における深部限界モデルフリー予測

Deep Limit Model-free Prediction in Regression ( http://arxiv.org/abs/2408.09532v2 )

ライセンス: Link先を確認
Kejin Wu, Dimitris N. Politis, (参考訳) 本稿では,Deep Neural Network(DNN)に基づくモデルフリー手法を提案する。 通常、人々は依存変数と独立変数(YとX)を橋渡しするためにパラメトリックまたは非パラメトリックモデルに依存します。 しかし、この古典的な手法は正しいモデル仕様に大きく依存している。 非パラメトリックなアプローチであっても、いくつかの加法形式がしばしば仮定される。 新たに提案されたモデルフリー予測原則は、モデル仮定なしで予測手順に光を当てる。 この原則に関する以前の研究は、他の標準的な選択肢よりも優れたパフォーマンスを示している。 近年,機械学習手法の1つであるDNNは,実際の性能が優れており,注目を集めている。 対象のDNNは、X上のY条件のランダム性を訓練されたDNNを介してZにアウトソースするように、特別に設計された損失関数を最小化することによって訓練される。 提案手法は,特に最適点予測において,他のDNN法に比べて安定かつ正確である。 特定の予測手順により、予測間隔は予測変数をキャプチャし、有限サンプルの場合のカバレッジ率を改善することができる。 本手法の優れた性能をシミュレーションおよび実証実験により検証した。

In this paper, we provide a novel Model-free approach based on Deep Neural Network (DNN) to accomplish point prediction and prediction interval under a general regression setting. Usually, people rely on parametric or non-parametric models to bridge dependent and independent variables (Y and X). However, this classical method relies heavily on the correct model specification. Even for the non-parametric approach, some additive form is often assumed. A newly proposed Model-free prediction principle sheds light on a prediction procedure without any model assumption. Previous work regarding this principle has shown better performance than other standard alternatives. Recently, DNN, one of the machine learning methods, has received increasing attention due to its great performance in practice. Guided by the Model-free prediction idea, we attempt to apply a fully connected forward DNN to map X and some appropriate reference random variable Z to Y. The targeted DNN is trained by minimizing a specially designed loss function so that the randomness of Y conditional on X is outsourced to Z through the trained DNN. Our method is more stable and accurate compared to other DNN-based counterparts, especially for optimal point predictions. With a specific prediction procedure, our prediction interval can capture the estimation variability so that it can render a better coverage rate for finite sample cases. The superior performance of our method is verified by simulation and empirical studies.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# DiscoNeRF:3Dオブジェクト発見のためのクラス非依存オブジェクトフィールド

DiscoNeRF: Class-Agnostic Object Field for 3D Object Discovery ( http://arxiv.org/abs/2408.09928v2 )

ライセンス: Link先を確認
Corentin Dumery, Aoxiang Fan, Ren Li, Nicolas Talabot, Pascal Fua, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複数の画像から3Dシーンをモデリングするための強力なツールとなっている。 しかし、NeRFは意味的に意味のある領域に分割することが困難である。 以前のNeRFの3Dセグメンテーションへのアプローチは、単一のオブジェクトを分離するためにユーザーインタラクションを必要とするか、あるいは監督のために限られた数のクラスを持つ2Dセマンティックマスクに依存している。 その結果、実際のシーンで自動生成されるクラス非依存のマスクに悪影響を及ぼす。 これは、ゼロショットのセグメンテーションから生じる曖昧さに起因し、ビューにまたがる一貫性のないマスクをもたらす。 対照的に、一貫性のないセグメンテーションに頑健な手法を提案し、シーンを任意のクラスのオブジェクトの集合に分解することに成功した。 マスクがマッチする限られた数の競合オブジェクトスロットを導入することで、意味のあるオブジェクト表現が登場し、2Dの監督を最もよく説明し、追加の正規化項を最小化する。 実験では,複雑な場面で3Dパノプティクスのセグメンテーションを生成し,仮想3D環境において使用可能なNeRFから高品質な3Dアセットを抽出する手法を実証した。

Neural Radiance Fields (NeRFs) have become a powerful tool for modeling 3D scenes from multiple images. However, NeRFs remain difficult to segment into semantically meaningful regions. Previous approaches to 3D segmentation of NeRFs either require user interaction to isolate a single object, or they rely on 2D semantic masks with a limited number of classes for supervision. As a consequence, they generalize poorly to class-agnostic masks automatically generated in real scenes. This is attributable to the ambiguity arising from zero-shot segmentation, yielding inconsistent masks across views. In contrast, we propose a method that is robust to inconsistent segmentations and successfully decomposes the scene into a set of objects of any class. By introducing a limited number of competing object slots against which masks are matched, a meaningful object representation emerges that best explains the 2D supervision and minimizes an additional regularization term. Our experiments demonstrate the ability of our method to generate 3D panoptic segmentations on complex scenes, and extract high-quality 3D assets from NeRFs that can then be used in virtual 3D environments.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# LLM-PBE:大規模言語モデルにおけるデータプライバシの評価

LLM-PBE: Assessing Data Privacy in Large Language Models ( http://arxiv.org/abs/2408.12787v2 )

ライセンス: Link先を確認
Qinbin Li, Junyuan Hong, Chulin Xie, Jeffrey Tan, Rachel Xin, Junyi Hou, Xavier Yin, Zhun Wang, Dan Hendrycks, Zhangyang Wang, Bo Li, Bingsheng He, Dawn Song, (参考訳) 大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。 しかし、複雑な言語データの処理と解釈における彼らの深い能力は、データプライバシ、特に意図しないトレーニングデータ漏洩のリスクに対する懸念を軽く押し付けている。 この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。 このギャップに対処するために,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介した。 LLM-PBEは、LCMのライフサイクル全体を通してプライバシーを分析し、多様な攻撃と防御戦略を取り入れ、さまざまなデータタイプとメトリクスを扱うように設計されている。 LLM-PBEは、複数のLLMで詳細な実験を行うことで、データプライバシに関する詳細な調査を促進し、モデルサイズやデータ特性、時間次元の進化といった影響要因に光を当てる。 本研究は,LLMにおけるプライバシー問題に対する理解を深めるだけでなく,今後の研究に欠かせない情報源となる。 LLMのプライバシー評価における学術的および実践的な進歩のためのオープンなプラットフォームを提供するため、この分野における知識の広範化を目標として、発見、リソース、および完全な技術レポートがhttps://llm-pbe.github.io/で公開されています。

Large Language Models (LLMs) have become integral to numerous domains, significantly advancing applications in data management, mining, and analysis. Their profound capabilities in processing and interpreting complex language data, however, bring to light pressing concerns regarding data privacy, especially the risk of unintentional training data leakage. Despite the critical nature of this issue, there has been no existing literature to offer a comprehensive assessment of data privacy risks in LLMs. Addressing this gap, our paper introduces LLM-PBE, a toolkit crafted specifically for the systematic evaluation of data privacy risks in LLMs. LLM-PBE is designed to analyze privacy across the entire lifecycle of LLMs, incorporating diverse attack and defense strategies, and handling various data types and metrics. Through detailed experimentation with multiple LLMs, LLM-PBE facilitates an in-depth exploration of data privacy concerns, shedding light on influential factors such as model size, data characteristics, and evolving temporal dimensions. This study not only enriches the understanding of privacy issues in LLMs but also serves as a vital resource for future research in the field. Aimed at enhancing the breadth of knowledge in this area, the findings, resources, and our full technical report are made available at https://llm-pbe.github.io/, providing an open platform for academic and practical advancements in LLM privacy assessment.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# 量子マルチモーダルコントラスト学習フレームワーク

Quantum Multimodal Contrastive Learning Framework ( http://arxiv.org/abs/2408.13919v3 )

ライセンス: Link先を確認
Chi-Sheng Chen, Aidan Hung-Wen Tsai, Sheng-Chieh Huang, (参考訳) 本稿では,脳波と画像データを統合するために量子エンコーダを用いたマルチモーダルコントラスト学習フレームワークを提案する。 この画期的な試みは、従来のマルチモーダル学習フレームワークにおける量子エンコーダの統合を探求するものである。 量子コンピューティングのユニークな特性を活用することで,表現学習能力を向上し,時系列と視覚情報を同時に分析するための堅牢なフレームワークを提供する。 量子エンコーダは脳波信号と画像特徴の複雑なパターンを効果的にキャプチャし、モダリティ間のコントラスト学習を改善することを実証する。 この研究は、特に時間的および視覚的なデータの同時解釈を必要とするアプリケーションにおいて、量子コンピューティングとマルチモーダルデータ分析を統合するための新たな道を開く。

In this paper, we propose a novel framework for multimodal contrastive learning utilizing a quantum encoder to integrate EEG (electroencephalogram) and image data. This groundbreaking attempt explores the integration of quantum encoders within the traditional multimodal learning framework. By leveraging the unique properties of quantum computing, our method enhances the representation learning capabilities, providing a robust framework for analyzing time series and visual information concurrently. We demonstrate that the quantum encoder effectively captures intricate patterns within EEG signals and image features, facilitating improved contrastive learning across modalities. This work opens new avenues for integrating quantum computing with multimodal data analysis, particularly in applications requiring simultaneous interpretation of temporal and visual data.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# PAGE: グラフニューラルネットワークのためのパラメトリック生成説明器

PAGE: Parametric Generative Explainer for Graph Neural Network ( http://arxiv.org/abs/2408.14042v2 )

ライセンス: Link先を確認
Yang Qiu, Wei Liu, Jun Wang, Ruixuan Li, (参考訳) この記事では、パラメータ化された生成的解釈フレームワークであるPAGEを紹介します。 PAGEは、事前の知識や内部の詳細を必要とせずに、グラフニューラルネットワークに対して忠実な説明を提供することができる。 具体的には、自動エンコーダを訓練し、適切なトレーニング戦略を設計することで説明的サブストラクチャを生成する。 オートエンコーダの潜在空間における特徴の次元的減少により、モデルの出力につながる因果的特徴を抽出しやすくなり、簡単に説明を生成することができる。 そこで本研究では,潜在因果関係の特徴とモデル出力の因果関係を識別する新たな判別器を提案する。 適切な最適化目標を設計することにより、十分に訓練された判別器を用いてエンコーダを制約し、強化された因果的特徴を生成する。 最後に、これらの機能はデコーダを通して入力グラフのサブ構造にマッピングされ、説明として機能する。 既存の方法と比較して、PAGEはノードやエッジではなくサンプルスケールで動作し、従来の方法のように摂動やエンコーディングの必要がなくなる。 人工的に合成されたデータセットと実世界のデータセットの両方の実験結果から、我々のアプローチは最も忠実で精度が高いだけでなく、効率の点でベースラインモデルよりもはるかに優れていることが示された。

This article introduces PAGE, a parameterized generative interpretive framework. PAGE is capable of providing faithful explanations for any graph neural network without necessitating prior knowledge or internal details. Specifically, we train the auto-encoder to generate explanatory substructures by designing appropriate training strategy. Due to the dimensionality reduction of features in the latent space of the auto-encoder, it becomes easier to extract causal features leading to the model's output, which can be easily employed to generate explanations. To accomplish this, we introduce an additional discriminator to capture the causality between latent causal features and the model's output. By designing appropriate optimization objectives, the well-trained discriminator can be employed to constrain the encoder in generating enhanced causal features. Finally, these features are mapped to substructures of the input graph through the decoder to serve as explanations. Compared to existing methods, PAGE operates at the sample scale rather than nodes or edges, eliminating the need for perturbation or encoding processes as seen in previous methods. Experimental results on both artificially synthesized and real-world datasets demonstrate that our approach not only exhibits the highest faithfulness and accuracy but also significantly outperforms baseline models in terms of efficiency.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# MEDSAGE: LLM合成対話を用いたASR誤りに対する医療対話要約のロバスト性向上

MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues ( http://arxiv.org/abs/2408.14418v2 )

ライセンス: Link先を確認
Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen, Stefan Winkler, (参考訳) 音声認識(ASR)システムは、音声をテキストに書き起こす上で重要なシステムであるが、それらが導入した誤りは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。 この問題は、微調整のための教師付きデータが不足している低リソース領域である臨床対話要約において特に顕著であり、ブラックボックスソリューションとしてASRモデルを使用する必要がある。 要約モデルのノイズロバスト性を高めるために従来のデータ拡張を利用することは、十分な医療対話音声記録とそれに対応するASR転写が利用できないため、実現不可能である。 そこで本研究では,大規模言語モデル(LLM)を用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。 具体的には、LLMのテキスト内学習機能を活用し、音声録音で利用可能な医療対話例に基づいて、ASRのようなエラーを生成するよう指示する。 実験の結果,LSMはASRノイズを効果的にモデル化し,このノイズデータをトレーニングプロセスに組み込むことで,医用対話要約システムの堅牢性と精度を著しく向上できることがわかった。 本手法は、臨床対話要約の信頼性を高めるための堅牢なソリューションを提供する、重要な応用におけるノイズの多いASR出力の課題に対処する。

Automatic Speech Recognition (ASR) systems are pivotal in transcribing speech into text, yet the errors they introduce can significantly degrade the performance of downstream tasks like summarization. This issue is particularly pronounced in clinical dialogue summarization, a low-resource domain where supervised data for fine-tuning is scarce, necessitating the use of ASR models as black-box solutions. Employing conventional data augmentation for enhancing the noise robustness of summarization models is not feasible either due to the unavailability of sufficient medical dialogue audio recordings and corresponding ASR transcripts. To address this challenge, we propose MEDSAGE, an approach for generating synthetic samples for data augmentation using Large Language Models (LLMs). Specifically, we leverage the in-context learning capabilities of LLMs and instruct them to generate ASR-like errors based on a few available medical dialogue examples with audio recordings. Experimental results show that LLMs can effectively model ASR noise, and incorporating this noisy data into the training process significantly improves the robustness and accuracy of medical dialogue summarization systems. This approach addresses the challenges of noisy ASR outputs in critical applications, offering a robust solution to enhance the reliability of clinical dialogue summarization.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# 絡み合い深さと気象絡み合い基準の代替

Alternatives of entanglement depth and metrological entanglement criteria ( http://arxiv.org/abs/2408.15350v2 )

ライセンス: Link先を確認
Szilárd Szalay, Géza Tóth, (参考訳) 部分的絡み合い特性の1パラメータファミリーの一般理論と、結果として生じる絡み合いの深さのような量について検討する。 それらの特別な例は、分割性の深さ、再現性の深さ(あるいは単に絡み合う深さ)、伸縮性の深さであり、これは以前にも知られていた部分絡み特性の1パラメータの族に基づいていた。 また、より物理的に意味のある性質、例えば、二乗性、強靭性、自由度、およびエントロピー的動機付けのいくつかのものを構築します。 量子フィッシャー情報によるメトロロジカル多部絡み合いの基準はこの枠組みに自然に適合する。 ここでは、これらを正方性深さとして定式化し、従って自然選択であることが判明し、通常の絡み合う深さよりも強い境界が導かれる。 すなわち、量子フィッシャー情報は、絡み合ったサブシステムの最大サイズだけでなく、基本サブシステムのランダムな選択のための絡み合ったサブシステムの平均サイズにも低い境界を与える。 また,両症例の凸基準を定式化した。 これは、前述の境界は、量子状態のすべての分解において平均も保持することを意味する。 また、エントロピー的な意味を持つ一パラメータ部分絡み合い特性は、計量的境界を定義するためにより適していると主張する。

We work out the general theory of one-parameter families of partial entanglement properties and the resulting entanglement depth-like quantities. Special cases of these are the depth of partitionability, the depth of producibility (or simply entanglement depth) and the depth of stretchability, which are based on one-parameter families of partial entanglement properties known earlier. We also construct some further physically meaningful properties, for instance the squareability, the toughness, the degree of freedom, and also several ones of entropic motivation. Metrological multipartite entanglement criteria with the quantum Fisher information fit naturally into this framework. Here we formulate these for the depth of squareability, which therefore turns out to be the natural choice, leading to stronger bounds than the usual entanglement depth. Namely, the quantum Fisher information turns out to provide a lower bound not only on the maximal size of entangled subsystems, but also on the average size of entangled subsystems for a random choice of elementary subsystems. We also formulate convex criteria for both cases, which are much stronger than the original ones. This means that the aforementioned bounds hold also for the average in every decomposition of the quantum state. We also argue for that one-parameter partial entanglement properties bearing entropic meaning are more suitable for the purpose of defining metrological bounds.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# EmoAttack:ディープ音声分類モデルを用いた音声バックドア攻撃に対する感情音声変換の利用

EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models ( http://arxiv.org/abs/2408.15508v2 )

ライセンス: Link先を確認
Wenhan Yao, Zedong XingXiarun Chen, Jia Liu, yongqiang He, Weiping Wen, (参考訳) 単語スポッティングや話者検証を含むディープ音声分類タスクは、音声に基づく人間とコンピュータの相互作用において重要な役割を果たす。 近年、これらの技術のセキュリティはバックドア攻撃に弱いことが実証されている。 具体的には、音声サンプルは、現在のトリガにおけるノイズ破壊と成分変化によって攻撃される。 音声のバックドア攻撃は、音声に固有の高レベルな主観的知覚特性である感情に戦略的に焦点を絞ることができることを示唆する。 さらに,感情音声変換技術が音声バックドア攻撃の引き金となりうることを提案し,その手法をEmoAttackと呼ぶ。 そこで本研究では,EmoAttack法が影響のあるトリガ効果と,その顕著な攻撃成功率と精度のばらつきを保有していることを示す2つの音声分類課題に対する攻撃実験を行った。 さらに、アブレーション実験では、集中的な感情を持つ音声の方が攻撃対象に適していることが判明した。

Deep speech classification tasks, mainly including keyword spotting and speaker verification, play a crucial role in speech-based human-computer interaction. Recently, the security of these technologies has been demonstrated to be vulnerable to backdoor attacks. Specifically speaking, speech samples are attacked by noisy disruption and component modification in present triggers. We suggest that speech backdoor attacks can strategically focus on emotion, a higher-level subjective perceptual attribute inherent in speech. Furthermore, we proposed that emotional voice conversion technology can serve as the speech backdoor attack trigger, and the method is called EmoAttack. Based on this, we conducted attack experiments on two speech classification tasks, showcasing that EmoAttack method owns impactful trigger effectiveness and its remarkable attack success rate and accuracy variance. Additionally, the ablation experiments found that speech with intensive emotion is more suitable to be targeted for attacks.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# 多世界逆レンダリング

Many-Worlds Inverse Rendering ( http://arxiv.org/abs/2408.16005v3 )

ライセンス: Link先を確認
Ziyi Zhang, Nicolas Roussel, Wenzel Jakob, (参考訳) 物理的にベースとした逆レンダラーの表面を最適化する場合、不連続な可視性の変化は依然として大きなボトルネックとなる。 これまでの多くの研究で、可視性シルエットをより効率的にサンプリングするための洗練されたアルゴリズムとデータ構造が提案されている。 我々の研究は別の解決策を提示している: 仮面を局所的に微分するのではなく、表面の体積摂動を区別する。 これは、入力データセットの矛盾する説明(世界)の相互作用しない重ね合わせをモデル化するためである。 それぞれの世界は光学的に他の世界から孤立しており、指数的ランダムメディアに基づく従来の手法との違いを区別する新たな輸送法則が導かれる。 モンテカルロアルゴリズムは従来の手法よりもシンプルで効率的である。 本稿では,本手法が反復数とイテレーション毎のコストの両面において,迅速な収束を促進することを実証する。

Discontinuous visibility changes remain a major bottleneck when optimizing surfaces within a physically-based inverse renderer. Many previous works have proposed sophisticated algorithms and data structures to sample visibility silhouettes more efficiently. Our work presents another solution: instead of differentiating a tentative surface locally, we differentiate a volumetric perturbation of a surface. We refer this as a many-worlds representation because it models a non-interacting superposition of conflicting explanations (worlds) of the input dataset. Each world is optically isolated from others, leading to a new transport law that distinguishes our method from prior work based on exponential random media. The resulting Monte Carlo algorithm is simpler and more efficient than prior methods. We demonstrate that our method promotes rapid convergence, both in terms of the total iteration count and the cost per iteration.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# 確率微分方程式によるグラフニューラルネットワークの不確かさモデリング

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations ( http://arxiv.org/abs/2408.16115v3 )

ライセンス: Link先を確認
Richard Bergna, Sergio Calvo-Ordoñez, Felix L. Opolka, Pietro Liò, Jose Miguel Hernandez-Lobato, (参考訳) グラフ構造データに対する不確実性認識表現の学習の問題に対処する。 グラフニューラル正規微分方程式(GNODE)はノード表現の学習に有効であるが、不確かさの定量化には失敗した。 これを解決するために、ブラウン運動によってランダム性を埋め込んで不確実性を定量化することによってGNODEを強化するLatent Graph Neural Stochastic Differential Equations (LGNSDE)を導入する。 我々は,LGNSDEの理論的保証を提供し,不確実性定量化における性能を実証的に示す。

We address the problem of learning uncertainty-aware representations for graph-structured data. While Graph Neural Ordinary Differential Equations (GNODE) are effective in learning node representations, they fail to quantify uncertainty. To address this, we introduce Latent Graph Neural Stochastic Differential Equations (LGNSDE), which enhance GNODE by embedding randomness through Brownian motion to quantify uncertainty. We provide theoretical guarantees for LGNSDE and empirically show better performance in uncertainty quantification.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# MSLIQA:マルチスケール学習による画像品質評価のための学習表現の強化

MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning ( http://arxiv.org/abs/2408.16879v2 )

ライセンス: Link先を確認
Nasim Jamshidi Avanaki, Abhijay Ghildyal, Nabajeet Barman, Saman Zadtootaghaj, (参考訳) No-Reference Image Quality Assessment (NR-IQA)は、歪みの多様性と大きな注釈付きデータセットの欠如により、依然として困難な課題である。 多くの研究は、より正確なNR-IQAモデルを開発すること、複雑で計算コストのかかるネットワークを利用すること、テストデータセットの性能を高めるために様々な歪みの間の領域ギャップを埋めることによって、これらの課題に対処しようとしている。 本研究では,新しい拡張戦略を導入し,その性能を約28%向上させることにより,汎用軽量NR-IQAモデルの性能向上を図る。 この拡張戦略により、ズームインおよびアウトにより、画像の様々な部分における異なる歪みをネットワークがよりよく識別することができる。 さらに、テスト時間の拡張はパフォーマンスをさらに向上させ、単に拡張を使うことで、私たちの軽量ネットワークの結果を現在の最先端モデルに匹敵するものにします。

No-Reference Image Quality Assessment (NR-IQA) remains a challenging task due to the diversity of distortions and the lack of large annotated datasets. Many studies have attempted to tackle these challenges by developing more accurate NR-IQA models, often employing complex and computationally expensive networks, or by bridging the domain gap between various distortions to enhance performance on test datasets. In our work, we improve the performance of a generic lightweight NR-IQA model by introducing a novel augmentation strategy that boosts its performance by almost 28\%. This augmentation strategy enables the network to better discriminate between different distortions in various parts of the image by zooming in and out. Additionally, the inclusion of test-time augmentation further enhances performance, making our lightweight network's results comparable to the current state-of-the-art models, simply through the use of augmentations.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-06
# LAR-IQA:軽量・高精度・ロバストな非参照画像品質評価モデル

LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model ( http://arxiv.org/abs/2408.17057v2 )

ライセンス: Link先を確認
Nasim Jamshidi Avanaki, Abhijay Ghildyal, Nabajeet Barman, Saman Zadtootaghaj, (参考訳) ディープラーニング技術を用いたNo-Reference Image Quality Assessment(NR-IQA)の分野での最近の進歩は、複数のオープンソースデータセット間で高いパフォーマンスを示す。 しかし、そのようなモデルは一般的に非常に大きく、複雑であるため、特にリソースやバッテリーに制約のあるモバイルデバイスにおいて、現実のデプロイメントには適さない。 この制限に対処するために,高速SOTAモデルよりも5.7倍近い速度で,ECCV AIM UHD-IQAチャレンジ検証およびテストデータセット上での最先端(SOTA)性能を実現する,コンパクトで軽量なNR-IQAモデルを提案する。 本モデルでは両分岐アーキテクチャを特徴とし,各分岐を合成的および音響的に歪んだ画像に別々に訓練することにより,歪みの異なるモデルの一般化性を向上する。 実世界の多様な視覚条件下でのロバスト性を改善するため、トレーニングプロセス中に複数の色空間を組み込む。 また,最近提案されたKAN(Kolmogorov-Arnold Networks)の,従来のMLP(Multi-Layer Perceptrons)と比較して,最終的な品質劣化に対する高い精度を示す。 各種オープンソースデータセットを考慮した評価では,提案した軽量モデルの実用的,高精度,堅牢な性能を強調した。 コード:https://github.com/nasimjamshidi/LAR-IQA。

Recent advancements in the field of No-Reference Image Quality Assessment (NR-IQA) using deep learning techniques demonstrate high performance across multiple open-source datasets. However, such models are typically very large and complex making them not so suitable for real-world deployment, especially on resource- and battery-constrained mobile devices. To address this limitation, we propose a compact, lightweight NR-IQA model that achieves state-of-the-art (SOTA) performance on ECCV AIM UHD-IQA challenge validation and test datasets while being also nearly 5.7 times faster than the fastest SOTA model. Our model features a dual-branch architecture, with each branch separately trained on synthetically and authentically distorted images which enhances the model's generalizability across different distortion types. To improve robustness under diverse real-world visual conditions, we additionally incorporate multiple color spaces during the training process. We also demonstrate the higher accuracy of recently proposed Kolmogorov-Arnold Networks (KANs) for final quality regression as compared to the conventional Multi-Layer Perceptrons (MLPs). Our evaluation considering various open-source datasets highlights the practical, high-accuracy, and robust performance of our proposed lightweight model. Code: https://github.com/nasimjamshidi/LAR-IQA.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-06
# LLMベースの手法は不公平なサービス条件を検出するのに十分か?

Are LLM-based methods good enough for detecting unfair terms of service? ( http://arxiv.org/abs/2409.00077v2 )

ライセンス: Link先を確認
Mirgita Frasheri, Arian Bakhtiarnia, Lukas Esterle, Alexandros Iosifidis, (参考訳) 数え切れないほどのサービス規約(ToS)は、世界中のユーザーが毎日、あらゆる種類のアプリやWebサイトと対話しながら署名している。 多くの場合、この2桁のページにまたがるオンライン契約は、単に希望のサービスに即座にアクセスしたいというユーザーによって盲目的に署名される。 通常、法務チームとの相談を必要とするものは、ユーザーがデータプライバシーの観点から、無数のオンラインエンティティやパートナーに登録する、いくつかのクリックからなる日常的な活動になっている。 大きな言語モデル(LLM)は、長いテキストベースのドキュメントのパースに長けており、ToSの疑わしい条項とその基盤となるプライバシーポリシーを扱う際に、ユーザを支援するために採用される可能性がある。 このタスクのために既存のモデルの有用性を調べるために、まず、人気のあるウェブサイトからクロールされたプライバシーポリシーの集合に対して、個別に適用された12の質問からなるデータセットを構築した。 その後、ChatGPTのような一連のオープンソースおよび商用チャットボットが各質問に対して質問され、回答は与えられた根拠の真実と比較される。 これらの結果から,オープンソースモデルによっては,商用モデルと比較して精度が高いことが示唆された。 しかし、最高のパフォーマンスは商用チャットボット(ChatGPT4)から記録される。 全体として、全てのモデルは、このタスクにおいてランダムよりもわずかにパフォーマンスが良いだけである。 そのため、この目的のために広く採用される前に、パフォーマンスを著しく改善する必要がある。

Countless terms of service (ToS) are being signed everyday by users all over the world while interacting with all kinds of apps and websites. More often than not, these online contracts spanning double-digit pages are signed blindly by users who simply want immediate access to the desired service. What would normally require a consultation with a legal team, has now become a mundane activity consisting of a few clicks where users potentially sign away their rights, for instance in terms of their data privacy, to countless online entities/companies. Large language models (LLMs) are good at parsing long text-based documents, and could potentially be adopted to help users when dealing with dubious clauses in ToS and their underlying privacy policies. To investigate the utility of existing models for this task, we first build a dataset consisting of 12 questions applied individually to a set of privacy policies crawled from popular websites. Thereafter, a series of open-source as well as commercial chatbots such as ChatGPT, are queried over each question, with the answers being compared to a given ground truth. Our results show that some open-source models are able to provide a higher accuracy compared to some commercial models. However, the best performance is recorded from a commercial chatbot (ChatGPT4). Overall, all models perform only slightly better than random at this task. Consequently, their performance needs to be significantly improved before they can be adopted at large for this purpose.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-06
# AdaNAT: トークンベースの画像生成のための適応ポリシーを探る

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation ( http://arxiv.org/abs/2409.00342v2 )

ライセンス: Link先を確認
Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang, (参考訳) 近年,視覚コンテンツ生成のためのトークンベースの手法の有効性が実証されている。 代表的な作品として、非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。 しかしながら、NATは通常、複数の手作業で設計されたスケジューリングルールを含む複雑な生成ポリシーを設定する必要がある。 これらのヒューリスティックなルールは、準最適になりがちで、専門家の知識と労働集約的な努力の要求が伴う。 さらに,各試料の多種多様な特性に柔軟に適応することは不可能である。 これらの問題に対処するため,各サンプルに適したポリシーを自動的に設定する学習可能なアプローチであるAdaNATを提案する。 具体的には、生成ポリシーの決定をマルコフ決定プロセスとして定式化する。 このフレームワークでは、強化学習を通じて、生成のための軽量なポリシーネットワークを学習することができる。 重要なことは、FIDや事前訓練された報酬モデルのような単純な報酬設計が、生成したサンプルの望ましい品質や多様性を確実に保証できないことを示しています。 そこで本稿では,政策ネットワークのトレーニングを効果的に指導する対人報酬設計を提案する。 ImageNet-256 & 512, MS-COCO, CC3Mの4つのベンチマークデータセットに関する総合的な実験は、AdaNATの有効性を検証する。 コードと事前トレーニングされたモデルはhttps://github.com/LeapLabTHU/AdaNAT.comでリリースされる。

Recent studies have demonstrated the effectiveness of token-based methods for visual content generation. As a representative work, non-autoregressive Transformers (NATs) are able to synthesize images with decent quality in a small number of steps. However, NATs usually necessitate configuring a complicated generation policy comprising multiple manually-designed scheduling rules. These heuristic-driven rules are prone to sub-optimality and come with the requirements of expert knowledge and labor-intensive efforts. Moreover, their one-size-fits-all nature cannot flexibly adapt to the diverse characteristics of each individual sample. To address these issues, we propose AdaNAT, a learnable approach that automatically configures a suitable policy tailored for every sample to be generated. In specific, we formulate the determination of generation policies as a Markov decision process. Under this framework, a lightweight policy network for generation can be learned via reinforcement learning. Importantly, we demonstrate that simple reward designs such as FID or pre-trained reward models, may not reliably guarantee the desired quality or diversity of generated samples. Therefore, we propose an adversarial reward design to guide the training of policy networks effectively. Comprehensive experiments on four benchmark datasets, i.e., ImageNet-256 & 512, MS-COCO, and CC3M, validate the effectiveness of AdaNAT. Code and pre-trained models will be released at https://github.com/LeapLabTHU/AdaNAT.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-06
# 空中画像からの大規模3次元表面再構成のための3次元ガウススプラッティング

3D Gaussian Splatting for Large-scale 3D Surface Reconstruction from Aerial Images ( http://arxiv.org/abs/2409.00381v2 )

ライセンス: Link先を確認
YuanZheng Wu, Jin Liu, Shunping Ji, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が注目されている。 しかし、3DGSの非構造的性質は、空中画像から大規模な表面再構成を行う上での課題となっている。 このギャップに対処するため,Aerial Gaussian Splatting (AGS) という3DGSに基づくマルチビューステレオ(MVS)空中画像の大規模再構成手法を提案する。 当初,大規模空中画像に適したデータチャンキング手法を導入し,広帯域空間における3DGS技術の実現を可能にした。 さらに、Ray-Gaussian Intersection法を統合し、正規情報と深度情報を取得し、幾何学的制約を緩和する。 最後に、大域的幾何整合性を高め、再構成精度を向上させるための多視点幾何整合性制約を導入する。 複数のデータセットに対する実験により、GSベースの手法は、幾何学的精度で従来の航空MVS手法と一致し、幾何とレンダリング品質に関して最先端のGSベースの手法を破ることが初めて実証された。

Recently, 3D Gaussian Splatting (3DGS) has garnered significant attention. However, the unstructured nature of 3DGS poses challenges for large-scale surface reconstruction from aerial images. To address this gap, we propose the first large-scale surface reconstruction method for multi-view stereo (MVS) aerial images based on 3DGS, named Aerial Gaussian Splatting (AGS). Initially, we introduce a data chunking method tailored for large-scale aerial imagery, making the modern 3DGS technology feasible for surface reconstruction over extensive scenes. Additionally, we integrate the Ray-Gaussian Intersection method to obtain normal and depth information, facilitating geometric constraints. Finally, we introduce a multi-view geometric consistency constraint to enhance global geometric consistency and improve reconstruction accuracy. Our experiments on multiple datasets demonstrate for the first time that the GS-based technique can match traditional aerial MVS methods on geometric accuracy, and beat state-of-the-art GS-based methods on geometry and rendering quality.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-06
# LLMデータ生成の効率化と効率化におけるプロンプト構築の役割について

On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation ( http://arxiv.org/abs/2409.03946v1 )

ライセンス: Link先を確認
Banooqa Banday, Kowshik Thopalli, Tanzima Z. Islam, Jayaraman J. Thiagarajan, (参考訳) 実世界の表データのためのLLMベースのデータ生成は、列を記述するために使われる機能名に十分な意味的コンテキストが欠如しているため、問題となることがある。 我々は、ドメイン固有の洞察でリッチなプロンプトは、データ生成の品質と効率の両方を改善することができると仮定する。 この仮説を検証するために, エキスパート誘導, LLM誘導, ノベル・マッピングの3つのプロプライエタリな構築プロトコルを探索する。 最近提案されたGReaTフレームワークによる実証研究により、文脈に富んだプロンプトがデータ生成の品質とトレーニング効率を大幅に向上させることがわかった。

LLM-based data generation for real-world tabular data can be challenged by the lack of sufficient semantic context in feature names used to describe columns. We hypothesize that enriching prompts with domain-specific insights can improve both the quality and efficiency of data generation. To test this hypothesis, we explore three prompt construction protocols: Expert-guided, LLM-guided, and Novel-Mapping. Through empirical studies with the recently proposed GReaT framework, we find that context-enriched prompts lead to significantly improved data generation quality and training efficiency.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# FODA-PG : 正常属性と異常属性の適応的鑑別

FODA-PG for Enhanced Medical Imaging Narrative Generation: Adaptive Differentiation of Normal and Abnormal Attributes ( http://arxiv.org/abs/2409.03947v1 )

ライセンス: Link先を確認
Kai Shu, Yuzhuo Jia, Ziyang Zhang, Jiechao Gao, (参考訳) オートマチック・メディカル・イメージング・ナラティブ・ジェネレーション(Automatic Medical Imaging Narrative Generation)は、放射線画像から直接正確な臨床記述を作成することにより、放射線医の作業負荷を軽減することを目的としている。 しかし、医用画像における微妙な視覚的ニュアンスとドメイン固有の用語は、一般的な画像キャプションタスクと比較して大きな課題を生んでいる。 既存のアプローチは、通常と異常な発見の欠如をしばしば無視し、最適以下のパフォーマンスをもたらす。 本稿では,ドメイン適応学習を通じてこれらの制約に対処する,新しい組織-分散適応分割グラフフレームワークFODA-PGを提案する。 FODA-PGは, 疾患関連属性を, 臨床的意義と位置に基づいて, 個別の「病原性」と「病原性」のカテゴリーに分離し, 放射線学的所見のグラフィカルな表現を構築した。 この適応的パーティショニングにより,本モデルは正常状態と病理状態の微妙な相違を捉え,データバイアスの影響を軽減することができる。 この微粒なセマンティック知識を強力なトランスフォーマーベースのアーキテクチャに統合し、その有効性に対する厳密な数学的正当化を提供することで、FODA-PGは、より高度な一般化機能を備えた正確かつ臨床的に一貫性のあるレポートを生成する。 IU-Xray と MIMIC-CXR ベンチマークの大規模な実験により,医療報告生成における領域適応の重要性が示された。

Automatic Medical Imaging Narrative generation aims to alleviate the workload of radiologists by producing accurate clinical descriptions directly from radiological images. However, the subtle visual nuances and domain-specific terminology in medical images pose significant challenges compared to generic image captioning tasks. Existing approaches often neglect the vital distinction between normal and abnormal findings, leading to suboptimal performance. In this work, we propose FODA-PG, a novel Fine-grained Organ-Disease Adaptive Partitioning Graph framework that addresses these limitations through domain-adaptive learning. FODA-PG constructs a granular graphical representation of radiological findings by separating disease-related attributes into distinct "disease-specific" and "disease-free" categories based on their clinical significance and location. This adaptive partitioning enables our model to capture the nuanced differences between normal and pathological states, mitigating the impact of data biases. By integrating this fine-grained semantic knowledge into a powerful transformer-based architecture and providing rigorous mathematical justifications for its effectiveness, FODA-PG generates precise and clinically coherent reports with enhanced generalization capabilities. Extensive experiments on the IU-Xray and MIMIC-CXR benchmarks demonstrate the superiority of our approach over state-of-the-art methods, highlighting the importance of domain adaptation in medical report generation.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# 虚偽情報検出問題とそのオンラインソーシャルメディア上での伝播

The Veracity Problem: Detecting False Information and its Propagation on Online Social Media Networks ( http://arxiv.org/abs/2409.03948v1 )

ライセンス: Link先を確認
Sarah Condran, (参考訳) ソーシャルメディア上の偽情報を検出することは、その負の社会的影響を軽減するために重要である。 偽情報の伝播を低減するため、自動検出はスケーラブルで不偏で費用対効果の高い方法を提供する。 しかし、3つの潜在的な研究領域が特定され、かつては検出の改善が解決された。 第一に、現在のAIベースのソリューションは、複雑で多次元的な問題に対して一次元の分析を提供することが多い。 さらに、これらの手法は文書のライフサイクル内で観察される時間的・動的変化を考慮しない。 第2に、調整された情報キャンペーンの検出と、アクターとキャンペーンの意図の理解についてはほとんど研究されていない。 第3に、Xのような単一のプラットフォームに焦点を当てた既存のデータセットや、特定のプラットフォーム用に設計された検出モデルなど、クロスプラットフォーム分析に関する考慮の欠如がある。 本研究の目的は,偽情報とその伝播を効果的に検出する手法を開発することである。 この目的のために、まず、偽情報の複数の側面を活用したアンサンブル・マルチフェイス・フレームワークの作成を提案する。 次に,ナラティブを操作するための協調作業において,アクターとその意図を識別する手法を提案する。 第3に,新たなデータセットの作成を通じて,プラットフォーム間インタラクションが偽情報の伝播に与える影響を分析することを目的とする。

Detecting false information on social media is critical in mitigating its negative societal impacts. To reduce the propagation of false information, automated detection provide scalable, unbiased, and cost-effective methods. However, there are three potential research areas identified which once solved improve detection. First, current AI-based solutions often provide a uni-dimensional analysis on a complex, multi-dimensional issue, with solutions differing based on the features used. Furthermore, these methods do not account for the temporal and dynamic changes observed within the document's life cycle. Second, there has been little research on the detection of coordinated information campaigns and in understanding the intent of the actors and the campaign. Thirdly, there is a lack of consideration of cross-platform analysis, with existing datasets focusing on a single platform, such as X, and detection models designed for specific platform. This work aims to develop methods for effective detection of false information and its propagation. To this end, firstly we aim to propose the creation of an ensemble multi-faceted framework that leverages multiple aspects of false information. Secondly, we propose a method to identify actors and their intent when working in coordination to manipulate a narrative. Thirdly, we aim to analyse the impact of cross-platform interactions on the propagation of false information via the creation of a new dataset.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# ニューラルタンジェントカーネルによるてんかんの不確かさと観察ノイズ

Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel ( http://arxiv.org/abs/2409.03953v1 )

ライセンス: Link先を確認
Sergio Calvo-Ordoñez, Konstantina Palla, Kamil Ciosek, (参考訳) 近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ニューラル・タンジェント・カーネル(NTK)を用いたガウス過程(GP)における後部分布の計算と正式に等価であることが示されている。 本稿では,この枠組みを2つの方法で拡張する。 まず、ゼロでないアラートノイズに対処する方法を示す。 第2に, 後部共分散推定器を導出し, てんかんの不確実性について検討した。 提案手法は,平均二乗誤差損失に対する勾配勾配を用いた少数の追加予測器のトレーニングを含むため,標準的なトレーニングパイプラインとシームレスに統合する。 本研究では, 合成回帰の実証的評価を通じて, 提案手法の実証実験を行った。

Recent work has shown that training wide neural networks with gradient descent is formally equivalent to computing the mean of the posterior distribution in a Gaussian Process (GP) with the Neural Tangent Kernel (NTK) as the prior covariance and zero aleatoric noise \parencite{jacot2018neural}. In this paper, we extend this framework in two ways. First, we show how to deal with non-zero aleatoric noise. Second, we derive an estimator for the posterior covariance, giving us a handle on epistemic uncertainty. Our proposed approach integrates seamlessly with standard training pipelines, as it involves training a small number of additional predictors using gradient descent on a mean squared error loss. We demonstrate the proof-of-concept of our method through empirical evaluation on synthetic regression.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# 脅威のないアルゴリズム的衝突

Algorithmic Collusion Without Threats ( http://arxiv.org/abs/2409.03956v1 )

ライセンス: Link先を確認
Eshwar Ram Arunachaleswaran, Natalie Collina, Sampath Kannan, Aaron Roth, Juba Ziani, (参考訳) 価格アルゴリズムが ``collude' に学習するのではないか、という懸念が最近かなり高まっている。 「「超競争的価格」は、繰り返しの価格ゲームにおけるナッシュ均衡として現れ、高い価格を支持することを拒否する競争相手を罰する戦略を売り手が実行し、これらの戦略を自動的に学習することができる。 実際、標準的な経済的な直感は、超競争的な価格が脅威の使用から生まれるか、一方の当事者がその支払いを最適化できないかである。 この直感は正しいですか。 アルゴリズムによる意思決定の脅威を防ぐことで、売り手自身の収益を最適化する場合、超競争的価格の上昇を防げるのだろうか? いいえ。 双方のプレイヤーが脅威を符号化せず、自分たちの収益のために最適化されたアルゴリズムを使用している場合でも、超競争的価格が出現する可能性があることを示す。 本研究では,第1の移動者がアルゴリズムをデプロイし,第2の移動者が結果環境内で最適化する逐次価格ゲームについて検討する。 第1のムーバが保証なしのアルゴリズムをデプロイし、第2のムーバが現在の静的環境内で概ね最適化している場合、モノポリーのような価格が発生する。 その結果は、第1のムーバが展開する任意の非回帰学習アルゴリズムと、第2のムーバの利益を少なくともランダムな価格よりも高く得るような価格ポリシーを保ち、第2のムーバが脅威を符号化できない非応答的な価格分布の空間内でのみ最適化している場合にのみ適用される。 実際、アルゴリズム空間における同時価格ゲームのナッシュ均衡を形成する脅威を明示的にエンコードし、ほぼ独占価格につながるような戦略は存在しない。 これは「algorithmic collusion」の定義を拡張し、明示的に脅威をコード化せずに戦略を含める必要があることを示唆している。

There has been substantial recent concern that pricing algorithms might learn to ``collude.'' Supra-competitive prices can emerge as a Nash equilibrium of repeated pricing games, in which sellers play strategies which threaten to punish their competitors who refuse to support high prices, and these strategies can be automatically learned. In fact, a standard economic intuition is that supra-competitive prices emerge from either the use of threats, or a failure of one party to optimize their payoff. Is this intuition correct? Would preventing threats in algorithmic decision-making prevent supra-competitive prices when sellers are optimizing for their own revenue? No. We show that supra-competitive prices can emerge even when both players are using algorithms which do not encode threats, and which optimize for their own revenue. We study sequential pricing games in which a first mover deploys an algorithm and then a second mover optimizes within the resulting environment. We show that if the first mover deploys any algorithm with a no-regret guarantee, and then the second mover even approximately optimizes within this now static environment, monopoly-like prices arise. The result holds for any no-regret learning algorithm deployed by the first mover and for any pricing policy of the second mover that obtains them profit at least as high as a random pricing would -- and hence the result applies even when the second mover is optimizing only within a space of non-responsive pricing distributions which are incapable of encoding threats. In fact, there exists a set of strategies, neither of which explicitly encode threats that form a Nash equilibrium of the simultaneous pricing game in algorithm space, and lead to near monopoly prices. This suggests that the definition of ``algorithmic collusion'' may need to be expanded, to include strategies without explicitly encoded threats.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# シミュレーションモデリングソフトウェアにおけるコードスメルの有病率, 進化, 影響について

On the Prevalence, Evolution, and Impact of Code Smells in Simulation Modelling Software ( http://arxiv.org/abs/2409.03957v1 )

ライセンス: Link先を確認
Riasat Mahbub, Mohammad Masudur Rahman, Muhammad Ahsanul Habib, (参考訳) シミュレーションモデリングシステムは、制御された環境で現実世界のシナリオをテストまたは理解するために日常的に使用される。 彼らは科学研究、工学、産業活動に多くの応用を見出した。 複雑な性質のため、シミュレーションシステムは様々なコード品質の問題や技術的負債に悩まされる可能性がある。 しかし、これまでコード品質の問題(例えばコードの臭い)についての調査は行われていない。 本稿では,シミュレーションソフトウェアシステムにおけるコードの臭いの頻度,進化,および影響に関する実証的研究を行う。 まず、静的解析ツール(例えばDesignite)を使用して、155のシミュレーションとGithubの327の伝統的なプロジェクトにおいて、さまざまなコードの臭いの頻度を検出し、定量化します。 従来のソフトウェアシステムよりもシミュレーションソフトウェアシステムの方が,特定のコードの臭い(例えば,Long Statement,Magic Number)の方が多いことが判明した。 第2に、複数のプロジェクトバージョンにまたがるコードの臭いの進化を分析し、生存の可能性を調べる。 実験の結果,マジックナンバーやロングパラメータリストなどのコードの臭いが,シミュレーションソフトウェアシステムで長期間持続できることが判明した。 最後に、ソフトウェアバグとコードの臭いとの関連について検討する。 我々の実験によると、設計とアーキテクチャのコードの臭いはバグと同時に導入されているが、シミュレーションシステムではコードの臭いとバグとの間には顕著な関連性はない。

Simulation modelling systems are routinely used to test or understand real-world scenarios in a controlled setting. They have found numerous applications in scientific research, engineering, and industrial operations. Due to their complex nature, the simulation systems could suffer from various code quality issues and technical debt. However, to date, there has not been any investigation into their code quality issues (e.g. code smells). In this paper, we conduct an empirical study investigating the prevalence, evolution, and impact of code smells in simulation software systems. First, we employ static analysis tools (e.g. Designite) to detect and quantify the prevalence of various code smells in 155 simulation and 327 traditional projects from Github. Our findings reveal that certain code smells (e.g. Long Statement, Magic Number) are more prevalent in simulation software systems than in traditional software systems. Second, we analyze the evolution of these code smells across multiple project versions and investigate their chances of survival. Our experiments show that some code smells such as Magic Number and Long Parameter List can survive a long time in simulation software systems. Finally, we examine any association between software bugs and code smells. Our experiments show that although Design and Architecture code smells are introduced simultaneously with bugs, there is no significant association between code smells and bugs in simulation systems.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# マルチモーダルデータから忠実で有能なテキストを生成する

Generating Faithful and Salient Text from Multimodal Data ( http://arxiv.org/abs/2409.03961v1 )

ライセンス: Link先を確認
Tahsina Hashem, Weiqing Wang, Derry Tanti Wijaya, Mohammed Eunus Ali, Yuan-Fang Li, (参考訳) 大規模マルチモーダルモデル (LMM) は、多くのマルチモーダルタスクにおいて高い性能を得ているが、テキストを生成する際にも幻覚を与える可能性がある。 視覚データから有能な特徴を検出する性能も不明確である。 本稿では、画像と構造化データ(知識グラフや表に表される)を含む混合モーダルデータから忠実で健全なテキストを生成するフレームワークを開発する。 具体的には、画像のモダリティから幻覚的かつ非塩分的特徴を特定するために、小さな視覚評論家モデルを訓練する。 また、批評家モデルは、有能な画像の特徴のリストも生成する。 この情報は、後編集ステップで利用され、生成品質が向上する。 2つのデータセットに対する実験により,我々のフレームワークは,忠実度と塩分濃度の両方においてLMMの生成品質を向上し,幻覚の低減を目的とした最近の技術よりも優れていることが示された。

While large multimodal models (LMMs) have obtained strong performance on many multimodal tasks, they may still hallucinate while generating text. Their performance on detecting salient features from visual data is also unclear. In this paper, we develop a framework to generate faithful and salient text from mixed-modal data, which includes images and structured data ( represented in knowledge graphs or tables). Specifically, we train a small vision critic model to identify hallucinated and non-salient features from the image modality. The critic model also generates a list of salient image features. This information is used in the post editing step to improve the generation quality. Experiments on two datasets show that our framework improves LMMs' generation quality on both faithfulness and saliency, outperforming recent techniques aimed at reducing hallucination.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# 隠れ変数を持つDAGにおける平均因果効果の推定:後方基準と前方基準の拡張

Average Causal Effect Estimation in DAGs with Hidden Variables: Extensions of Back-Door and Front-Door Criteria ( http://arxiv.org/abs/2409.03962v1 )

ライセンス: Link先を確認
Anna Guo, Razieh Nabi, (参考訳) 隠れ変数を持つ有向非巡回グラフ(DAG)における因果効果の同定理論は十分に開発されているが、g-形式を超えて関数を推定・推定する方法は限られている。 従来の研究では、隠れ変数を持つDAGの幅広いクラスにおいて、同定可能な関数に対する半パラメトリック推定器が提案されている。 いくつかのモデルで二重ロバスト性を示す一方で、既存の推定器は、特に密度推定と連続変数の数値積分において問題に直面し、それらの推定は対象推定器のパラメータ空間の外に落下する可能性がある。 それらの漸近特性は、特に統計学と機械学習の柔軟なモデルを用いてニュアンス推定を行う場合、過度に探索される。 本研究は,従来のバックドアとフロントドアの基準を延長するDAG群に対する,新しいワンステップ修正プラグインと最小損失に基づく因果効果推定器を導入することで,これらの課題に対処する。 これらの推定器は機械学習を利用してモデリング仮定を最小化し、漸近線形性、二重ロバスト性、効率性、および対象パラメータ空間の境界内に留まるといった重要な統計特性を保証する。 我々はL2(P)-ノルムの観点からニュアンス関数推定条件を確立し、ルート-n一貫した因果効果推定を実現する。 実用化のために, flexCausal パッケージを R で開発した。

The identification theory for causal effects in directed acyclic graphs (DAGs) with hidden variables is well-developed, but methods for estimating and inferring functionals beyond the g-formula remain limited. Previous studies have proposed semiparametric estimators for identifiable functionals in a broad class of DAGs with hidden variables. While demonstrating double robustness in some models, existing estimators face challenges, particularly with density estimation and numerical integration for continuous variables, and their estimates may fall outside the parameter space of the target estimand. Their asymptotic properties are also underexplored, especially when using flexible statistical and machine learning models for nuisance estimation. This study addresses these challenges by introducing novel one-step corrected plug-in and targeted minimum loss-based estimators of causal effects for a class of DAGs that extend classical back-door and front-door criteria (known as the treatment primal fixability criterion in prior literature). These estimators leverage machine learning to minimize modeling assumptions while ensuring key statistical properties such as asymptotic linearity, double robustness, efficiency, and staying within the bounds of the target parameter space. We establish conditions for nuisance functional estimates in terms of L2(P)-norms to achieve root-n consistent causal effect estimates. To facilitate practical application, we have developed the flexCausal package in R.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# 量子コンピュータを用いた準真空からのエネルギー抽出

Extracting and Storing Energy From a Quasi-Vacuum on a Quantum Computer ( http://arxiv.org/abs/2409.03973v1 )

ライセンス: Link先を確認
Songbo Xie, Manas Sajjan, Sabre Kais, (参考訳) 我々は量子物理学における真空エネルギーの理解と操作の最近の進歩を探求し、量子エネルギーテレポーテーション(QET)プロトコルに焦点をあてる。 従来のQETプロトコルは、私たちが「準真空状態」と呼ぶ状態からエネルギーを抽出するが、抽出された量子エネルギーは古典的な装置に散逸し、実用性を制限している。 この制限に対処するために、追加の量子ビットを組み込んだ拡張QETプロトコルを提案し、保存されたエネルギーを将来の使用のために量子レジスタに格納することを可能にする。 我々は、IBM超伝導量子コンピュータを用いたこの拡張プロトコルを実験的に検証し、その実現可能性と将来の量子エネルギー操作への応用の可能性を示した。

We explore recent advancements in the understanding and manipulation of vacuum energy in quantum physics, with a focus on the quantum energy teleportation (QET) protocol. Traditional QET protocols extract energy from what we refer to as a ``quasi-vacuum'' state, but the extracted quantum energy is dissipated into classical devices, limiting its practical utility. To address this limitation, we propose an enhanced QET protocol that incorporates an additional qubit, enabling the stored energy to be stored within a quantum register for future use. We experimentally validated this enhanced protocol using IBM superconducting quantum computers, demonstrating its feasibility and potential for future applications in quantum energy manipulation.
翻訳日:2024-09-09 17:10:39 公開日:2024-09-06
# 離散プロセスマッチング法による両モード画像転送

Bi-modality Images Transfer with a Discrete Process Matching Method ( http://arxiv.org/abs/2409.03977v1 )

ライセンス: Link先を確認
Zhe Xiong, Qiaoqiao Ding, Xiaoqun Zhang, (参考訳) 近年, 生成モデルの急速な発展とともに, 医用画像合成がますます普及している。 医用画像合成は、しばしば他の観測されたデータモダリティから、未取得の画像モダリティを生成することを目的としている。 合成画像は、臨床診断補助、モデルトレーニングのためのデータ拡張、検証、画像品質改善に使用することができる。 一方、フローベースモデルは、現実的で高品質な合成画像を生成する能力において、成功した生成モデルの一つである。 しかし、ほとんどのフローベースモデルでは、移動過程におけるフロー常微分方程式(ODE)の進化ステップを計算する必要がある。 本稿では,DPM(Disdisrete Process Matching)と呼ばれる新しいフローベースモデルを提案する。 他のフローマッチングモデルと異なり、前向きと後向きのODEフローを併用し、少数の離散時間ステップの中間画像の一貫性を高めることを提案する。 MRI T1/T2 と CT/MRI の3つのデータセットに対する実験により,DPM は2モーダリティ画像合成における他の最先端のフローベース手法よりも優れており,計算コストの少ない画像品質を実現していることが示された。

Recently, medical image synthesis gains more and more popularity, along with the rapid development of generative models. Medical image synthesis aims to generate an unacquired image modality, often from other observed data modalities. Synthesized images can be used for clinical diagnostic assistance, data augmentation for model training and validation or image quality improving. In the meanwhile, the flow-based models are among the successful generative models for the ability of generating realistic and high-quality synthetic images. However, most flow-based models require to calculate flow ordinary different equation (ODE) evolution steps in transfer process, for which the performances are significantly limited by heavy computation time due to a large number of time iterations. In this paper, we propose a novel flow-based model, namely Discrete Process Matching (DPM) to accomplish the bi-modality image transfer tasks. Different to other flow matching based models, we propose to utilize both forward and backward ODE flow and enhance the consistency on the intermediate images of few discrete time steps, resulting in a transfer process with much less iteration steps while maintaining high-quality generations for both modalities. Our experiments on three datasets of MRI T1/T2 and CT/MRI demonstrate that DPM outperforms other state-of-the-art flow-based methods for bi-modality image synthesis, achieving higher image quality with less computation time cost.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# ネットワークフローのレンズによる任意サンプリングパターンによる入射行列推定

Entry-Specific Matrix Estimation under Arbitrary Sampling Patterns through the Lens of Network Flows ( http://arxiv.org/abs/2409.03980v1 )

ライセンス: Link先を確認
Yudong Chen, Xumei Xi, Christina Lee Yu, (参考訳) 行列補完は、観察されたエントリのスパースセットに基づいて、低ランク行列の欠落値を予測するタスクに取り組む。 観測パターンはランダムに均一に生成されるか、あるいは与えられたアルゴリズムに調整された非常に特殊な構造を持つとしばしば仮定される。 任意のサンプリングパターンに関しては、まだ理解にギャップがあります。 任意のサンプリングパターンが与えられた場合、観測パターンによって誘導される二部グラフのネットワークフローに基づく行列補完アルゴリズムを導入する。 加法行列に対して、私たちが使った特定の流れは、電気の流れであり、我々は、一致するミニマックス下界と共に、観測セットの関数として各エントリにカスタマイズされた誤差上界を確立する。 この結果から,行列内の特定のエントリの回復に対する最小二乗誤差は,グラフ内の対応するエッジの有効抵抗に比例することを示した。 さらに、我々の推定器は最小二乗推定器と同値であることを示す。 両方向の固定効果モデルに推定器を適用し,個々の因果効果と単位特異的・時間特異的な共同設立者を正確に推定できることを示す。 階数 1$ の行列に対して、サンプリングが十分に密度が高いときに最小値の最適推定を行う推定器を形成するために、エッジ不整合経路を用いる。 我々の発見は,ネットワークフローによってパラメータ化された新しい推定器のファミリーを導入し,与えられたサンプリングパターンがエントリ固有レベルでの相対的評価の難しさに与える影響を,きめ細やかかつ直感的に理解することを可能にする。 このグラフベースのアプローチにより、グローバルな性能測定にのみ依存するのではなく、個々のエントリに対する行列完備化の固有の複雑さを定量化することができる。

Matrix completion tackles the task of predicting missing values in a low-rank matrix based on a sparse set of observed entries. It is often assumed that the observation pattern is generated uniformly at random or has a very specific structure tuned to a given algorithm. There is still a gap in our understanding when it comes to arbitrary sampling patterns. Given an arbitrary sampling pattern, we introduce a matrix completion algorithm based on network flows in the bipartite graph induced by the observation pattern. For additive matrices, the particular flow we used is the electrical flow and we establish error upper bounds customized to each entry as a function of the observation set, along with matching minimax lower bounds. Our results show that the minimax squared error for recovery of a particular entry in the matrix is proportional to the effective resistance of the corresponding edge in the graph. Furthermore, we show that our estimator is equivalent to the least squares estimator. We apply our estimator to the two-way fixed effects model and show that it enables us to accurately infer individual causal effects and the unit-specific and time-specific confounders. For rank-$1$ matrices, we use edge-disjoint paths to form an estimator that achieves minimax optimal estimation when the sampling is sufficiently dense. Our discovery introduces a new family of estimators parametrized by network flows, which provide a fine-grained and intuitive understanding of the impact of the given sampling pattern on the relative difficulty of estimation at an entry-specific level. This graph-based approach allows us to quantify the inherent complexity of matrix completion for individual entries, rather than relying solely on global measures of performance.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 歯像分割のための境界特徴融合ネットワーク

Boundary feature fusion network for tooth image segmentation ( http://arxiv.org/abs/2409.03982v1 )

ライセンス: Link先を確認
Dongping Zhang, Zheng Li, Fangao Zeng, Yutong Wei, (参考訳) 歯のセグメンテーションは、矯正治療から人体識別、歯科病理診断に至るまで、医療画像セグメンテーションの分野で重要な技術である。 研究者による多数の歯像分割モデルの開発にもかかわらず、共通の欠点は、ぼやけた歯の境界の課題を考慮できないことである。 歯科診断は、歯の境界を正確に記述する必要がある。 本稿では, 歯と隣接組織の境界が不明瞭である問題に対処するために, 境界情報を統合した斬新な歯のセグメンテーションネットワークを提案する。 このネットワークのコアは境界特徴抽出モジュールであり、高レベル特徴から詳細な境界情報を抽出するように設計されている。 同時に、フィーチャークロスフュージョンモジュールは、詳細な境界情報とグローバルセマンティック情報を相乗的にマージし、特徴情報の段階的な層移動を可能にする。 この方法により, 正確な歯のセグメンテーションが可能となった。 最新のSTSデータチャレンジでは、我々の方法論が厳格にテストされ、合計スコアは0.91だった。 既存手法と比較すると,本手法が歯の境界を分割する上で有意な優位性を示した。

Tooth segmentation is a critical technology in the field of medical image segmentation, with applications ranging from orthodontic treatment to human body identification and dental pathology assessment. Despite the development of numerous tooth image segmentation models by researchers, a common shortcoming is the failure to account for the challenges of blurred tooth boundaries. Dental diagnostics require precise delineation of tooth boundaries. This paper introduces an innovative tooth segmentation network that integrates boundary information to address the issue of indistinct boundaries between teeth and adjacent tissues. This network's core is its boundary feature extraction module, which is designed to extract detailed boundary information from high-level features. Concurrently, the feature cross-fusion module merges detailed boundary and global semantic information in a synergistic way, allowing for stepwise layer transfer of feature information. This method results in precise tooth segmentation. In the most recent STS Data Challenge, our methodology was rigorously tested and received a commendable overall score of 0.91. When compared to other existing approaches, this score demonstrates our method's significant superiority in segmenting tooth boundaries.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 時系列解析のための効率的で一般化可能な記号回帰法

An Efficient and Generalizable Symbolic Regression Method for Time Series Analysis ( http://arxiv.org/abs/2409.03986v1 )

ライセンス: Link先を確認
Yi Xie, Tianyu Qiu, Yun Xiong, Xiuqi Huang, Xiaofeng Gao, Chao Chen, (参考訳) 現在、時系列分析と予測法は定量的分析に優れており、正確な将来予測と多様な統計指標を提供するが、一般的に時系列の進化パターンの解明には不十分である。 より包括的に理解し、洞察に富んだ説明を提供するため、時系列変数の進化における非線形力学に対する明示的な表現を導出するために記号回帰手法を用いる。 しかし、これらの手法は、様々な実世界の時系列データにまたがる計算効率と一般化可能性の課題に直面している。 これらの課題を克服するために、時系列に対して \textbf{N}eural-\textbf{E}nhanced \textbf{Mo}nte-Carlo \textbf{T}ree \textbf{S}earch (NEMoTS) を提案する。 NEMoTSはモンテカルロ木探索(MCTS)の探索・探索バランスを活用し,シンボル回帰における探索空間を著しく低減し,表現品質を向上させる。 さらに、ニューラルネットワークをMCTSと統合することにより、NEMoTSは、検索後のより適切な操作に集中する優れた適合能力を生かしただけでなく、複雑で時間のかかるシミュレーションプロセスを置き換えることで、時系列解析における計算効率と一般化性を大幅に向上させる。 NEMoTSは時系列解析に効率的かつ包括的なアプローチを提供する。 3つの実世界のデータセットによる実験は、NEMoTSがパフォーマンス、効率、信頼性、解釈可能性において著しく優れていることを示し、大規模な実世界の時系列データに適している。

Time series analysis and prediction methods currently excel in quantitative analysis, offering accurate future predictions and diverse statistical indicators, but generally falling short in elucidating the underlying evolution patterns of time series. To gain a more comprehensive understanding and provide insightful explanations, we utilize symbolic regression techniques to derive explicit expressions for the non-linear dynamics in the evolution of time series variables. However, these techniques face challenges in computational efficiency and generalizability across diverse real-world time series data. To overcome these challenges, we propose \textbf{N}eural-\textbf{E}nhanced \textbf{Mo}nte-Carlo \textbf{T}ree \textbf{S}earch (NEMoTS) for time series. NEMoTS leverages the exploration-exploitation balance of Monte-Carlo Tree Search (MCTS), significantly reducing the search space in symbolic regression and improving expression quality. Furthermore, by integrating neural networks with MCTS, NEMoTS not only capitalizes on their superior fitting capabilities to concentrate on more pertinent operations post-search space reduction, but also replaces the complex and time-consuming simulation process, thereby substantially improving computational efficiency and generalizability in time series analysis. NEMoTS offers an efficient and comprehensive approach to time series analysis. Experiments with three real-world datasets demonstrate NEMoTS's significant superiority in performance, efficiency, reliability, and interpretability, making it well-suited for large-scale real-world time series data.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# オンライン議論の相違点を理解する:Redditのガン談話から

Understanding Online Discussion Across Difference: Insights from Gun Discourse on Reddit ( http://arxiv.org/abs/2409.03989v1 )

ライセンス: Link先を確認
Rijul Magu, Nivedhitha Mathan Kumar, Yihe Liu, Xander Koo, Diyi Yang, Amy Bruckman, (参考訳) オンライン上で難しいトピックについて議論するとき、さまざまな観点から人々と意味のある関わりをすることが一般的か? なぜ、なぜそうでないのか? オンライン環境の機能は、違いを超えて市民の会話を促進するために再設計されるのだろうか? 本稿では,Reddit上での銃規制に関する議論を,インターネットの潜在能力に関する洞察を深め,相互の理解を支援するための総合的な目標として検討する。 Reddit投稿のクラスタリング分析は、人々が何を議論しているかについての洞察を与えるのに役立ち、Redditユーザ20人のインタビュー調査は、なぜある種の会話が起きているのか、そうでない人がいないのかを理解するのに役立ちます。 銃政策に関する議論は、保守派の親郡、リベラルな親郡、リベラルなアンチガンの3つのグループに分類される。 それぞれの種類の群は、それぞれ固有のトピックを持っている。 我々の被験者は、イデオロギーの分裂を越えて他人と交際する意思があると述べているが、実際には滅多にない。 被験者は、対立する視点のコミュニティから同時に押し出され、同心のサブレディットに積極的に所属しようとする2つの効果によって、同心のサブレディットにサイロ化される。 もうひとつの要因は、Redditの"カルマ(karma)"メカニズムである。カルマポイントを無効にしたり、仲間の社会的承認を失う恐れがあるため、被験者は、グループの規範に反する発言をためらうことになる。 Reddit上での匿名の議論は複雑な役割を演じており、一部の被験者はそれが解放されることを知り、他の被験者は礼儀正しく対面の規範に縛られていない他人からの報復を恐れている。 本研究は,コンテンツモデレーションがこれらの課題を改善するのに役立つと考えているが,モデレーターが効果的に行うためには,異なるツールが必要であることを示唆している。 プラットフォーム設計の変更によって、さまざまな議論が活発になるのではないか、という提案で締めくくります。

When discussing difficult topics online, is it common to meaningfully engage with people from diverse perspectives? Why or why not? Could features of the online environment be redesigned to encourage civil conversation across difference? In this paper, we study discussions of gun policy on Reddit, with the overarching goal of developing insights into the potential of the internet to support understanding across difference. We use two methods: a clustering analysis of Reddit posts to contribute insights about what people discuss, and an interview study of twenty Reddit users to help us understand why certain kinds of conversation take place and others don't. We find that the discussion of gun politics falls into three groups: conservative pro-gun, liberal pro-gun, and liberal anti-gun. Each type of group has its own characteristic topics. While our subjects state that they would be willing to engage with others across the ideological divide, in practice they rarely do. Subjects are siloed into like-minded subreddits through a two-pronged effect, where they are simultaneously pushed away from opposing-view communities while actively seeking belonging in like-minded ones. Another contributing factor is Reddit's "karma" mechanism: fear of being downvoted and losing karma points and social approval of peers causes our subjects to hesitate to say anything in conflict with group norms. The pseudonymous nature of discussion on Reddit plays a complex role, with some subjects finding it freeing and others fearing reprisal from others not bound by face-to-face norms of politeness. Our subjects believe that content moderation can help ameliorate these issues; however, our findings suggest that moderators need different tools to do so effectively. We conclude by suggesting platform design changes that might increase discussion across difference.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# nVIDIA H100 GPUの信頼性計算:パフォーマンスベンチマーク

Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study ( http://arxiv.org/abs/2409.03992v1 )

ライセンス: Link先を確認
Jianwei Zhu, Hang Yin, Shunfan Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)推論タスクのNVIDIA H100 GPUに対するTrusted Execution Environments(TEE)の実現によるパフォーマンスへの影響を評価する。 我々は、PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに着目し、様々なモデルとトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。 以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送によるパフォーマンス上のペナルティが主な原因であることが示唆された。 ほとんどの典型的なLCMクエリでは、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスがほぼゼロに近いオーバーヘッドを経験している。

This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on NVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various models and token lengths, focusing on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results show that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily due to data transfer. For most typical LLM queries, the overhead remains below 5%, with larger models and longer sequences experiencing near-zero overhead.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 半導体スピン量子ビットのCMOS互換

CMOS compatibility of semiconductor spin qubits ( http://arxiv.org/abs/2409.03993v1 )

ライセンス: Link先を確認
Nard Dumoulin Stuyck, Andre Saraiva, Will Gilbert, Jesus Cifuentes Pardo, Ruoyu Li, Christopher C. Escott, Kristiaan De Greve, Sorin Voinigescu, David J. Reilly, Andrew S. Dzurak, (参考訳) 社会のいくつかの領域は、数百万の高品質な量子ビットをまとめて、フォールトトレラント量子コンピューティング(FTQC)を実行することで破壊される。 今日利用可能な全ての量子コンピューティングハードウェアは、FTQCの要求から何桁も取り除かれている。 このような複雑なシステムを統合する際の脅威は、すでに半導体産業によって対処されている。 しかし、この互換性は、シリコンウエハを基板として使用した量子ビットを製造できる単なる能力から、高収率で低消費電力の電子回路とクビットを一体化してこれらの量子ビットを制御できるまで、様々である。 量子プロセッサから将来のシステムへの進化を補うため、半導体スピン量子ビットはこの点において独特な利点があり、大規模なFTQCにとって最も深刻な競合相手の1つである。 本稿では、最先端半導体スピン量子ビットシステムとCMOS産業のVery Large-Scale Integration(VLSI)の原理の重複に焦点をあてる。 スピン量子ビット演算,材料,システム要件の主な相違点を,よく確立されたCMOS産業プラクティスと比較した。 この分野の主要なプレーヤーはCMOS産業パートナーとのコラボレーションを目論んでいるため、このレビューはFTQCプロセッサの産業規模の生産に向けてR&Dを加速させるのに役立つ。

Several domains of society will be disrupted once millions of high-quality qubits can be brought together to perform fault-tolerant quantum computing (FTQC). All quantum computing hardware available today is many orders of magnitude removed from the requirements for FTQC. The intimidating challenges associated with integrating such complex systems have already been addressed by the semiconductor industry -hence many qubit makers have retrofitted their technology to be CMOS-compatible. This compatibility, however, can have varying degrees ranging from the mere ability to fabricate qubits using a silicon wafer as a substrate, all the way to the co-integration of qubits with high-yield, low-power advanced electronics to control these qubits. Extrapolating the evolution of quantum processors to future systems, semiconductor spin qubits have unique advantages in this respect, making them one of the most serious contenders for large-scale FTQC. In this review, we focus on the overlap between state-of-the-art semiconductor spin qubit systems and CMOS industry Very Large-Scale Integration (VLSI) principles. We identify the main differences in spin qubit operation, material, and system requirements compared to well-established CMOS industry practices. As key players in the field are looking to collaborate with CMOS industry partners, this review serves to accelerate R&D towards the industrial scale production of FTQC processors.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 限られた対向騒音に対する認定

Accreditation Against Limited Adversarial Noise ( http://arxiv.org/abs/2409.03995v1 )

ライセンス: Link先を確認
Andrew Jackson, (参考訳) IID CPTPエラーを前提として、既存のデジタル認証プロトコル(様々な量子検証)をアップグレードして、エラーが逆境としてモデル化されたときに正しく機能する、という簡単な方法を提案する。

I present an easily-applicable method for upgrading any pre-existing digital accreditation (a variety of quantum verification) protocol - that assumes IID CPTP error - to function correctly when error is modelled as being adversarial - albeit slightly modified to more closely resemble physical reality - with no diminution in their efficiency or suitability for near-term usage.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 効果的なサブゴール誘導による非専門的観察からのゴールリーチ政策学習

Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance ( http://arxiv.org/abs/2409.03996v1 )

ライセンス: Link先を確認
RenMing Huang, Shaochong Liu, Yunqiang Pei, Peng Wang, Guoqing Wang, Yang Yang, Hengtao Shen, (参考訳) 本研究では,非専門的かつアクションフリーな観察データから,長期的目標獲得政策学習の課題に対処する。 完全にラベル付けされた専門家データとは異なり、私たちのデータはよりアクセスしやすく、アクションラベリングのコストのかかるプロセスを避けます。 さらに、目的のない探索を伴うオンライン学習と比較して、我々のデータはより効率的な探索のための有用なガイダンスを提供する。 目的を達成するために,我々は新しいサブゴール指導学習戦略を提案する。 この戦略の背後にある動機は、長期の目標が効率的な探索と正確な状態遷移のための限られたガイダンスを提供することである。 拡散戦略に基づくハイレベル政策を開発し、適切なサブゴールをウェイポイントとして生成し、最終目標に導出しやすい状態を好む。 さらに、状態ゴール値関数を学習し、効率的なサブゴール到達を促進する。 これら2つのコンポーネントは、自然に非政治的アクター批判フレームワークに統合され、情報探索による効率的な目標達成を可能にします。 複雑なロボットナビゲーションおよび操作タスクにおいて,本手法の有効性を実証し,本手法の有効性を検証した。 我々のアブレーション研究は、様々な汚職を伴う観測データに対して、我々の手法が堅牢であることを示している。

In this work, we address the challenging problem of long-horizon goal-reaching policy learning from non-expert, action-free observation data. Unlike fully labeled expert data, our data is more accessible and avoids the costly process of action labeling. Additionally, compared to online learning, which often involves aimless exploration, our data provides useful guidance for more efficient exploration. To achieve our goal, we propose a novel subgoal guidance learning strategy. The motivation behind this strategy is that long-horizon goals offer limited guidance for efficient exploration and accurate state transition. We develop a diffusion strategy-based high-level policy to generate reasonable subgoals as waypoints, preferring states that more easily lead to the final goal. Additionally, we learn state-goal value functions to encourage efficient subgoal reaching. These two components naturally integrate into the off-policy actor-critic framework, enabling efficient goal attainment through informative exploration. We evaluate our method on complex robotic navigation and manipulation tasks, demonstrating a significant performance advantage over existing methods. Our ablation study further shows that our method is robust to observation data with various corruptions.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 過パラメータ回帰法とその半教師あり学習への応用

Over-parameterized regression methods and their application to semi-supervised learning ( http://arxiv.org/abs/2409.04001v1 )

ライセンス: Link先を確認
Katsuyuki Hagiwara, (参考訳) 最小ノルム最小二乗は、過パラメータ化された場合における推定戦略であり、機械学習では、ディープラーニングの性質を理解するのに役立つツールとして知られている。 本稿では,非パラメトリック回帰問題の文脈で適用するために,SVD(singular value decomposition)成分のしきい値に基づくいくつかの手法を確立した。 我々は,特異値に基づくしきい値,クロスバリデーションによるハードスレッショルド,ユニバーサルしきい値,ブリッジしきい値のしきい値など,いくつかの手法を検討した。 出力サンプルに関する情報は第1の方法では利用されず、他の方法では利用されない。 そして、それらを半教師付き学習に適用し、ラベルなしの入力サンプルを回帰器のカーネル関数に組み込む。 実データに対する実験結果から, SVD回帰法は, データセットによっては, ナイーブリッジ回帰法よりも優れていることがわかった。 残念ながら、出力サンプルの情報を利用する方法には明確な利点はなかった。 さらに、データセットに依存するため、ラベルなしの入力サンプルをカーネルに組み込むことには、一定の利点がある。

The minimum norm least squares is an estimation strategy under an over-parameterized case and, in machine learning, is known as a helpful tool for understanding a nature of deep learning. In this paper, to apply it in a context of non-parametric regression problems, we established several methods which are based on thresholding of SVD (singular value decomposition) components, wihch are referred to as SVD regression methods. We considered several methods that are singular value based thresholding, hard-thresholding with cross validation, universal thresholding and bridge thresholding. Information on output samples is not utilized in the first method while it is utilized in the other methods. We then applied them to semi-supervised learning, in which unlabeled input samples are incorporated into kernel functions in a regressor. The experimental results for real data showed that, depending on the datasets, the SVD regression methods is superior to a naive ridge regression method. Unfortunately, there were no clear advantage of the methods utilizing information on output samples. Furthermore, for depending on datasets, incorporation of unlabeled input samples into kernels is found to have certain advantages.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# DreamForge:マルチビュー運転シーンのためのモーション対応自動回帰ビデオ生成

DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes ( http://arxiv.org/abs/2409.04003v1 )

ライセンス: Link先を確認
Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Tiantian Wei, Min Dou, Botian Shi, Yong Liu, (参考訳) 近年の拡散モデルの発展により、下流の認識と計画作業のための街路景観の生成が促進され、促進されている。 しかし、時間的コヒーレンスを維持すること、長いビデオを生成すること、運転シーンを正確にモデル化することといった課題は継続する。 そこで我々は,DreamForgeを提案する。DreamForgeは,3D制御可能で拡張可能なビデオの長期再生用に設計された,高度な拡散型自己回帰ビデオ生成モデルである。 制御性に関しては,テキスト記述やカメラポーズ,3Dバウンディングボックス,道路レイアウトなどのフレキシブルな条件をサポートするとともに,幾何学的かつ文脈的に正確な運転シーンを生成するための視点ガイダンスを提供する。 整合性を確保するため、視線横断的注意と時間的コヒーレンスにより、モーションキューで強化された自己回帰的アーキテクチャを介して、視線間整合性を確保する。 コードはhttps://github.com/PJLab-ADG/DriveArenaで入手できる。

Recent advances in diffusion models have significantly enhanced the cotrollable generation of streetscapes for and facilitated downstream perception and planning tasks. However, challenges such as maintaining temporal coherence, generating long videos, and accurately modeling driving scenes persist. Accordingly, we propose DreamForge, an advanced diffusion-based autoregressive video generation model designed for the long-term generation of 3D-controllable and extensible video. In terms of controllability, our DreamForge supports flexible conditions such as text descriptions, camera poses, 3D bounding boxes, and road layouts, while also providing perspective guidance to produce driving scenes that are both geometrically and contextually accurate. For consistency, we ensure inter-view consistency through cross-view attention and temporal coherence via an autoregressive architecture enhanced with motion cues. Codes will be available at https://github.com/PJLab-ADG/DriveArena.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 手書きテキスト生成のためのワンショット拡散ミカ

One-Shot Diffusion Mimicker for Handwritten Text Generation ( http://arxiv.org/abs/2409.04004v1 )

ライセンス: Link先を確認
Gang Dai, Yifan Zhang, Quhui Ke, Qiangya Guo, Shuangping Huang, (参考訳) 既存の手書きテキスト生成方法は、スタイル参照として10以上の手書きサンプルを必要とすることが多い。 しかし,現実的な応用では,利用者は手書き生成モデルを好む傾向にあり,その利便性と効率性のため,単一の参照サンプルだけで動作させる。 このアプローチは「ワンショット生成(one-shot generation)」と呼ばれ、処理を著しく単純化するが、1つのサンプルから作家のスタイルを正確に捉えることの難しさ、特にスパースフォアグラウンドと望ましくない背景雑音の中で文字の端から詳細を抽出することの難しさから、大きな課題を生んでいる。 この問題に対処するために,手書きテキストを生成するワンショット拡散ミミカ (One-shot Diffusion Mimicker, One-DM) を提案する。 個々のサンプルの高周波情報は、しばしば異なるスタイルパターン(例えば、文字スラント、文字接合)を含んでいるという事実に触発され、単一サンプルから高周波成分を取り入れてスタイル抽出を改善する新しいスタイル強化モジュールを開発した。 次に、拡散モデルを誘導し、高品質な手書きテキスト画像を生成するための統合条件として、テキストコンテンツとスタイル特徴を融合させる。 大規模な実験により,本手法は複数の言語で1つのサンプル参照で手書き文字を生成することができた。 ソースコードはhttps://github.com/dailenson/One-DM.comで公開されています。

Existing handwritten text generation methods often require more than ten handwriting samples as style references. However, in practical applications, users tend to prefer a handwriting generation model that operates with just a single reference sample for its convenience and efficiency. This approach, known as "one-shot generation", significantly simplifies the process but poses a significant challenge due to the difficulty of accurately capturing a writer's style from a single sample, especially when extracting fine details from the characters' edges amidst sparse foreground and undesired background noise. To address this problem, we propose a One-shot Diffusion Mimicker (One-DM) to generate handwritten text that can mimic any calligraphic style with only one reference sample. Inspired by the fact that high-frequency information of the individual sample often contains distinct style patterns (e.g., character slant and letter joining), we develop a novel style-enhanced module to improve the style extraction by incorporating high-frequency components from a single sample. We then fuse the style features with the text content as a merged condition for guiding the diffusion model to produce high-quality handwritten text images. Extensive experiments demonstrate that our method can successfully generate handwriting scripts with just one sample reference in multiple languages, even outperforming previous methods using over ten samples. Our source code is available at https://github.com/dailenson/One-DM.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# Qihoo-T2X:テキスト・ツー・アニータスクのためのプロキシトークンによる効率焦点拡散変換器

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task ( http://arxiv.org/abs/2409.04005v1 )

ライセンス: Link先を確認
Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang, (参考訳) 拡散変圧器におけるグローバル自己保持機構は、視覚情報のスパースと冗長性に起因する冗長な計算を伴い、空間窓内のトークンの注意マップは、かなりの類似性を示している。 この冗長性に対処するため、グローバルな視覚情報を効率的にモデル化するために、疎い代表トークン注意(代表トークンの数はトークンの総数よりもはるかに少ない)を利用するプロキシトークン拡散変換器(PT-DiT)を提案する。 具体的には、各変圧器ブロックにおいて、各時空間ウィンドウから1つのトークンをランダムにサンプリングし、その領域のプロキシトークンとして機能する。 グローバルセマンティクスは、これらのプロキシトークンの自己アテンションを通じてキャプチャされ、その後、クロスアテンションを介してすべての潜在トークンに注入される。 同時に、スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために、ウィンドウとシフトウインドウのアテンションを導入する。 PT-DiTに基づいて,T2I,T2V,T2MVタスクの様々なモデルを含むQihoo-T2Xファミリーをさらに発展させる。 実験の結果,PT-DiTは画像生成タスクと映像生成タスクの計算複雑性を減らし,競争性能が向上することがわかった(例:DiTの48%,Pixart-alphaの35%)。 ソースコードはhttps://github.com/360CVGroup/Qihoo-T2X.comで公開されています。

The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 音声感情認識における効率の良いチャンネルアテンションを用いた効率的な前処理手法とCNNに基づくアーキテクチャの探索

Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition ( http://arxiv.org/abs/2409.04007v1 )

ライセンス: Link先を確認
Byunggun Kim, Younghun Kwon, (参考訳) 音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。 近年,深層学習技術の普及に伴い,SERの性能は着実に向上している。 しかし、音声データを使用する多くのドメインとは異なり、SERモデルのトレーニング用データは不十分である。 これにより、ニューラルネットワークのトレーニングが過度に適合し、パフォーマンスが低下する。 実際、成功した感情認識には効果的な事前処理法と、重みパラメータの数を効率的に利用するモデル構造が必要である。 本研究では,周波数時間差の異なる8種類のデータセットを用いて,効果的な感情音声前処理手法を提案する。 本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。 特に、適切に配置されたECAブロックは、いくつかのパラメータだけでチャネルの特徴表現を改善することができる。 対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。 また、ディープ畳み込み層後のECAは、チャネル特徴表現を効果的に増加させることができる。 その結果、前のSERモデルよりも優れた結果(79.37UA 79.68WA)が得られる。 さらに、感情的な音声データ不足を補うために、トレーニング可能なデータを1つのサンプルから全ての異なる設定で事前処理する複数の前処理データ手法を実験した。 実験では、最も高い結果(80.28UA 80.46WA)が得られる。

Speech emotion recognition (SER) classifies human emotions in speech with a computer model. Recently, performance in SER has steadily increased as deep learning techniques have adapted. However, unlike many domains that use speech data, data for training in the SER model is insufficient. This causes overfitting of training of the neural network, resulting in performance degradation. In fact, successful emotion recognition requires an effective preprocessing method and a model structure that efficiently uses the number of weight parameters. In this study, we propose using eight dataset versions with different frequency-time resolutions to search for an effective emotional speech preprocessing method. We propose a 6-layer convolutional neural network (CNN) model with efficient channel attention (ECA) to pursue an efficient model structure. In particular, the well-positioned ECA blocks can improve channel feature representation with only a few parameters. With the interactive emotional dyadic motion capture (IEMOCAP) dataset, increasing the frequency resolution in preprocessing emotional speech can improve emotion recognition performance. Also, ECA after the deep convolution layer can effectively increase channel feature representation. Consequently, the best result (79.37UA 79.68WA) can be obtained, exceeding the performance of previous SER models. Furthermore, to compensate for the lack of emotional speech data, we experiment with multiple preprocessing data methods that augment trainable data preprocessed with all different settings from one sample. In the experiment, we can achieve the highest result (80.28UA 80.46WA).
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 分散高精度多目的量子探索アルゴリズム

Distributed exact multi-objective quantum search algorithm ( http://arxiv.org/abs/2409.04039v1 )

ライセンス: Link先を確認
Hao Li, Daowen Qiu, (参考訳) 多目的探索とは、構造化されていないデータベース内のいくつかの目的のいずれかを探索することを意味する。 グローバーのアルゴリズムは、古典的よりも多目的探索において2次加速度を持つ。 グローバーのアルゴリズムにおける反復作用素は重要な要素であり、振幅増幅において重要な役割を果たす。 本稿では、2つの分散反復演算子を設計し、2つの新しい分散Groverのアルゴリズムに次のような利点がある:(1)GroverのアルゴリズムとLongによる修正Groverのアルゴリズムと比較して、分散アルゴリズムはより少ないキュービットを必要とする;(2)Qiuらによって提案された分散Groverのアルゴリズムと比較して、分散アルゴリズムの1つは正確である。 もちろん、我々の分散アルゴリズムはどちらもかなり量子通信を必要とし、コストとしてより複雑なユニタリ演算子を伴いますが、ノイズ中間スケール量子(NISQ)時代には、物理的な実現可能性にある程度の利点があるかもしれません。

Multi-objective search means searching for any one of several objectives in an unstructured database. Grover's algorithm has quadratic acceleration in multi-objection search than classical ones. Iterated operator in Grover's algorithm is a key element and plays an important role in amplitude amplification. In this paper, we design two distributed iterated operators and therefore two new distributed Grover's algorithms are obtained with the following advantages: (1) Compared to Grover's algorithm and the modified Grover's algorithm by Long, our distributed algorithms require fewer qubits; (2) Compared to the distributed Grover's algorithm proposed by Qiu et al., one of our distributed algorithms is exact. Of course, both our distributed algorithms require quite quantum communication and involve a number of more complicated unitary operators as cost, but there still may have certain advantage of physical realizability in the Noisy Intermediate-Scale Quantum (NISQ) era.
翻訳日:2024-09-09 16:58:39 公開日:2024-09-06
# 細粒度特徴量を用いたファウショット関係分類のための大規模マージン型ネットワーク

Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features ( http://arxiv.org/abs/2409.04009v1 )

ライセンス: Link先を確認
Miao Fan, Yeqi Bai, Mingming Sun, Ping Li, (参考訳) 関係分類(RC)は、自然言語理解と知識グラフ補完において重要な役割を担っている。 一般に、自由文文に現れる2つの利害関係を識別するタスクとして定式化される。 RCに対する従来のアプローチは、特徴工学や深層学習をベースとせず、学習のためのラベル付きインスタンスが不十分なため、認識不能な長い尾関係の大部分が残る共通タイプの関係を分類する上で、有望な性能が得られる。 本稿では,数発学習がRCにとって極めて重要な課題であると考え,数発学習における計量学習の近代的枠組みを改良する。 具体的には,大マージンのProtoNetを細かな機能で採用し,長い尾関係をうまく一般化できることを期待する。 FGF(LM-ProtoNet)というフレームワークを評価するため,大規模に監視された数発のRCデータセットであるFewRelによる大規模な実験を行った。 その結果、多くのベースラインアプローチよりも大幅に改善できることが示されている。

Relation classification (RC) plays a pivotal role in both natural language understanding and knowledge graph completion. It is generally formulated as a task to recognize the relationship between two entities of interest appearing in a free-text sentence. Conventional approaches on RC, regardless of feature engineering or deep learning based, can obtain promising performance on categorizing common types of relation leaving a large proportion of unrecognizable long-tail relations due to insufficient labeled instances for training. In this paper, we consider few-shot learning is of great practical significance to RC and thus improve a modern framework of metric learning for few-shot RC. Specifically, we adopt the large-margin ProtoNet with fine-grained features, expecting they can generalize well on long-tail relations. Extensive experiments were conducted by FewRel, a large-scale supervised few-shot RC dataset, to evaluate our framework: LM-ProtoNet (FGF). The results demonstrate that it can achieve substantial improvements over many baseline approaches.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 非二乗係数行列を持つ線形系に対する量子多列反復アルゴリズム

Quantum multi-row iteration algorithm for linear systems with non-square coefficient matrices ( http://arxiv.org/abs/2409.04010v1 )

ライセンス: Link先を確認
Weitao Lin, Guojing Tian, Xiaoming Sun, (参考訳) 量子線形系アルゴリズムの分野では、量子コンピューティングは古典計算よりも指数関数計算の優位性を実現している。 しかし、焦点は平方係数行列であり、非平方行列に対処する量子アルゴリズムはほとんどない。 Ax = b $ where $ A $$ \in\mathbb{R}^{m \times n} $ で定義されるこのような問題に対して、古典的マルチロー反復法にインスパイアされた量子アルゴリズムを提案し、量子コンパレータと量子ランダムアクセスメモリ(QRAM)に基づく明示的な量子回路を提供する。 量子マルチロー反復アルゴリズムの時間的複雑さは、O(K \log m)$で、反復ステップの数を表す$K$であり、古典的なバージョンと比較して指数的なスピードアップを示している。 古典的マルチロー反復アルゴリズムの収束に基づいて,我々の量子アルゴリズムは[Phys. A, 101, 022322 (2020)]で示される量子ワンロー反復アルゴリズムよりも早く収束することが証明された。 さらに,本アルゴリズムは係数行列に対する需要を小さくし,不整合系の解法や二次最適化問題に適している。

In the field of quantum linear system algorithms, quantum computing has realized exponential computational advantages over classical computing. However, the focus has been on square coefficient matrices, with few quantum algorithms addressing non-square matrices. Towards this kind of problems defined by $ Ax = b $ where $ A $$ \in\mathbb{R}^{m \times n} $, we propose a quantum algorithm inspired by the classical multi-row iteration method and provide an explicit quantum circuit based on the quantum comparator and Quantum Random Access Memory (QRAM). The time complexity of our quantum multi-row iteration algorithm is $ O(K \log m) $, with $ K $ representing the number of iteration steps, which demonstrates an exponential speedup compared to the classical version. Based on the convergence of the classical multi-row iteration algorithm, we prove that our quantum algorithm converges faster than the quantum one-row iteration algorithm presented in [Phys. Rev. A, 101, 022322 (2020)]. Moreover, our algorithm places less demand on the coefficient matrix, making it suitable for solving inconsistent systems and quadratic optimization problems.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 単一点スーパービジョンによる赤外小ターゲット検出のためのハイブリッドマスク生成

Hybrid Mask Generation for Infrared Small Target Detection with Single-Point Supervision ( http://arxiv.org/abs/2409.04011v1 )

ライセンス: Link先を確認
Weijie He, Mushui Liu, Yunlong Yu, Zheming Lu, Xi Li, (参考訳) SIRST(Single-frame infrared small target)検出は、複雑な赤外背景乱れの中で微小な目標を識別する必要があるため、大きな課題となる。 近年、ディープラーニングのアプローチはこの領域で有望な結果を示している。 しかし、これらの手法は広範囲な手動のアノテーションに大きく依存しており、特に微小なサイズのため、赤外線の小さなターゲットに対して、リソースを集中的に扱うのが困難である。 この制限に対処するため,ネットワークトレーニング用のシングルポイントラベルのみから,ターゲット毎に高品質なマスクを復元するHybrid Mask Generation (HMG) アプローチを導入する。 具体的には、HMGアプローチは、手作りのPoints-to-Mask生成戦略と擬似マスク更新戦略を組み合わせて、点ラベルから擬似マスクを復元・精査する。 ポイント・ツー・マスク生成戦略は、ポイント・ツー・ボックス変換(Points-to-Box conversion)、個々のポイントラベルをバウンディングボックスに変換し、その後、ボックス・ツー・マスク予測(Box-to-Mask prediction)、これらバウンディングボックスを正確にマスクに変換する。 マスク更新戦略は、手作りおよびディープラーニングアルゴリズムの補完的な強度を統合して、初期擬似マスクを反復的に洗練する。 3つのデータセットにまたがる実験結果から,本手法は単一点監視による赤外線小目標検出法よりも優れていることが示された。

Single-frame infrared small target (SIRST) detection poses a significant challenge due to the requirement to discern minute targets amidst complex infrared background clutter. Recently, deep learning approaches have shown promising results in this domain. However, these methods heavily rely on extensive manual annotations, which are particularly cumbersome and resource-intensive for infrared small targets owing to their minute sizes. To address this limitation, we introduce a Hybrid Mask Generation (HMG) approach that recovers high-quality masks for each target from only a single-point label for network training. Specifically, our HMG approach consists of a handcrafted Points-to-Mask Generation strategy coupled with a pseudo mask updating strategy to recover and refine pseudo masks from point labels. The Points-to-Mask Generation strategy divides two distinct stages: Points-to-Box conversion, where individual point labels are transformed into bounding boxes, and subsequently, Box-to-Mask prediction, where these bounding boxes are elaborated into precise masks. The mask updating strategy integrates the complementary strengths of handcrafted and deep-learning algorithms to iteratively refine the initial pseudo masks. Experimental results across three datasets demonstrate that our method outperforms the existing methods for infrared small target detection with single-point supervision.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 3D-GP-LMVIC:3次元ガウス幾何学的事前情報を用いた学習型多視点画像符号化

3D-GP-LMVIC: Learning-based Multi-View Image Coding with 3D Gaussian Geometric Priors ( http://arxiv.org/abs/2409.04013v1 )

ライセンス: Link先を確認
Yujun Huang, Bin Chen, Niu Lian, Baoyi An, Shu-Tao Xia, (参考訳) マルチビュー画像圧縮は3Dアプリケーションにとって不可欠である。 ビュー間の相関を効果的にモデル化するために、既存の手法は2次元平面上の2つのビュー間の差異を予測している。 そこで本研究では,3次元ガウス幾何学的先行3D-GP-LMVICを用いた学習に基づく多視点画像符号化手法を提案する。 提案手法は,3次元ガウススプラッティングを用いて3次元シーンの幾何学的先行を導出し,圧縮モデル内のビュー間でのより正確な差分推定を可能にする。 さらに,ビュー間の幾何学的情報の冗長性を低減するために,深度マップ圧縮モデルを導入する。 また,隣接するビュー間の相関性を高めるために,マルチビューシーケンス順序付け手法を提案する。 実験結果から,3D-GP-LMVICは高速符号化と復号速度を維持しつつ,従来の手法と学習法の両方を上回る性能を示した。

Multi-view image compression is vital for 3D-related applications. To effectively model correlations between views, existing methods typically predict disparity between two views on a 2D plane, which works well for small disparities, such as in stereo images, but struggles with larger disparities caused by significant view changes. To address this, we propose a novel approach: learning-based multi-view image coding with 3D Gaussian geometric priors (3D-GP-LMVIC). Our method leverages 3D Gaussian Splatting to derive geometric priors of the 3D scene, enabling more accurate disparity estimation across views within the compression model. Additionally, we introduce a depth map compression model to reduce redundancy in geometric information between views. A multi-view sequence ordering method is also proposed to enhance correlations between adjacent views. Experimental results demonstrate that 3D-GP-LMVIC surpasses both traditional and learning-based methods in performance, while maintaining fast encoding and decoding speed.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# エネルギー・レイテンシ・正確性のトリレンマをナビゲートするエネルギー効率を目指して

Towards Energy-Efficiency by Navigating the Trilemma of Energy, Latency, and Accuracy ( http://arxiv.org/abs/2409.04018v1 )

ライセンス: Link先を確認
Boyuan Tian, Yihan Pang, Muhammad Huzaifa, Shenlong Wang, Sarita Adve, (参考訳) 拡張現実感(XR)は、非テザリングヘッドセットによる没入型体験を可能にするが、バッテリーとリソースの制約に悩まされる。 エネルギー効率の高い設計は、XRデバイスにおける長寿命性と高性能の両方を保証するために不可欠である。 しかし、遅延と精度はエネルギーよりも優先されることが多く、エネルギー効率の差が生じる。 本稿では, 没入型XR体験のための重要なビルディングブロックであるシーン再構築について検討し, エネルギー, レイテンシ, 精度のトリレンマをナビゲートすることによって, エネルギー効率がいかに向上するかを示す。 構成可能なパラメータによって広い設計空間を明らかにするアルゴリズム,実行,データをカバーする,エネルギー指向最適化の3つのクラスについて検討する。 結果として得られた72の設計では、レイテンシとエネルギーのトレードオフの幅が広くなり、精度が低下する。 本研究では,3つの最適化クラスの相乗的共最適化と,下流のシーン再構築消費者のレイテンシと精度の要求を考慮し,曲線上の設計が達成可能であることを示す。 組込みクラスシステムにおける各種のユースケースと測定結果から, ベースラインと比較して, 最大60倍の省エネ効果と, 4倍の遅延範囲を2倍のスピードアップに短縮できる可能性が示唆された。 ScanNetからの代表データ列にまたがるユースケースの詳細な調査では、1.5倍の遅延低減と無視可能な再構築品質の損失で約25倍の省エネが見られた。

Extended Reality (XR) enables immersive experiences through untethered headsets but suffers from stringent battery and resource constraints. Energy-efficient design is crucial to ensure both longevity and high performance in XR devices. However, latency and accuracy are often prioritized over energy, leading to a gap in achieving energy efficiency. This paper examines scene reconstruction, a key building block for immersive XR experiences, and demonstrates how energy efficiency can be achieved by navigating the trilemma of energy, latency, and accuracy. We explore three classes of energy-oriented optimizations, covering the algorithm, execution, and data, that reveal a broad design space through configurable parameters. Our resulting 72 designs expose a wide range of latency and energy trade-offs, with a smaller range of accuracy loss. We identify a Pareto-optimal curve and show that the designs on the curve are achievable only through synergistic co-optimization of all three optimization classes and by considering the latency and accuracy needs of downstream scene reconstruction consumers. Our analysis covering various use cases and measurements on an embedded class system shows that, relative to the baseline, our designs offer energy benefits of up to 60X with potential latency range of 4X slowdown to 2X speedup. Detailed exploration of a use case across representative data sequences from ScanNet showed about 25X energy savings with 1.5X latency reduction and negligible reconstruction quality loss.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 不均一性を考慮した適応計算と通信圧縮を用いた協調エッジ学習

Heterogeneity-Aware Cooperative Federated Edge Learning with Adaptive Computation and Communication Compression ( http://arxiv.org/abs/2409.04022v1 )

ライセンス: Link先を確認
Zhenxiao Zhang, Zhidong Gao, Yuanxiong Guo, Yanmin Gong, (参考訳) クラウドベースのフェデレーション学習(FL)の欠点に触発されて、複数のエッジサーバが多数のエッジデバイス間で分散モデルのトレーニングを協調的に調整する、モバイルエッジネットワーク上でのFLの効率を改善するために、コラボレーティブフェデレーションエッジ学習(CFEL)が提案されている。 しかし、CFELは、動的および不均一なデバイス特性から生じる重要な課題に直面し、収束を遅くし、リソース消費を増加させる。 本稿では、CFELにおける適応計算と通信圧縮により、トレーニング時間とエネルギー消費を最小化しつつ、モデルの精度を最大化することを目的とした異種性を考慮したCFELスキームである「textit{Heterogeneity-Aware Cooperative Edge-based Federated Averaging}」(HCEF)を提案する。 局所更新頻度と勾配圧縮がCFELの収束誤差にどのように影響するかを理論的に解析することにより、異種デバイスにおける局所更新頻度と圧縮比を動的に決定するHCEFの効率的なオンライン制御アルゴリズムを開発する。 実験結果から,提案手法は従来の方式と比較して,トレーニングの遅延を低減し,同時にエネルギー効率を向上させるとともに,より高いモデル精度を維持することができることがわかった。

Motivated by the drawbacks of cloud-based federated learning (FL), cooperative federated edge learning (CFEL) has been proposed to improve efficiency for FL over mobile edge networks, where multiple edge servers collaboratively coordinate the distributed model training across a large number of edge devices. However, CFEL faces critical challenges arising from dynamic and heterogeneous device properties, which slow down the convergence and increase resource consumption. This paper proposes a heterogeneity-aware CFEL scheme called \textit{Heterogeneity-Aware Cooperative Edge-based Federated Averaging} (HCEF) that aims to maximize the model accuracy while minimizing the training time and energy consumption via adaptive computation and communication compression in CFEL. By theoretically analyzing how local update frequency and gradient compression affect the convergence error bound in CFEL, we develop an efficient online control algorithm for HCEF to dynamically determine local update frequencies and compression ratios for heterogeneous devices. Experimental results show that compared with prior schemes, the proposed HCEF scheme can maintain higher model accuracy while reducing training latency and improving energy efficiency simultaneously.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# BFA-YOLO:マルチビュービルディングファサードアタッチメント検出のためのバランスの取れたマルチスケール物体検出ネットワーク

BFA-YOLO: Balanced multiscale object detection network for multi-view building facade attachments detection ( http://arxiv.org/abs/2409.04025v1 )

ライセンス: Link先を確認
Yangguang Chen, Tong Wang, Guanzhou Chen, Kun Zhu, Xiaoliang Tan, Jiaqi Wang, Hong Xie, Wenlin Zhou, Jingyi Zhao, Qing Wang, Xiaolong Luo, Xiaodong Zhang, (参考訳) ドア、窓、バルコニー、エアコンユニット、看板、ガラスカーテンウォールなどのファサードアタッチメントの検出は多くの応用において重要な役割を担っている。 ビルのファサードアタッチメント検出は、ビル情報モデリング(BIM)の構築と会議のレベル・オブ・ディーテール3(LOD3)標準の策定に役立ちます。 しかし、不均一なオブジェクト分散、小さなオブジェクト検出困難、バックグラウンド干渉といった課題に直面している。 そこで本研究では,多視点画像におけるファサードアタッチメント検出モデルであるBFA-YOLOを提案する。 BFA-YOLOは、不均一な分散に対処するためのFeature Balanced Spindle Module (FBSM)、小さなオブジェクト検出を改善するためのTDATH(Target Dynamic Alignment Task Detection Head)、バックグラウンド干渉に対処するための位置記憶強化自己注意機構(PMESA)の3つの新しいイノベーションを取り入れている。 ディープネットワークモデルの検出の有効性はデータセットの特性に大きく依存する。 ファサード構築に関連する既存のオープンソースデータセットは、単一の視点、小さなイメージプール、不完全なカテゴリカバレッジによって制限されている。 ファサードアタッチメント検出データセット構築のための新しい手法を提案し, ファサードアタッチメント検出のためのBFA-3Dデータセットを構築する。 BFA-3Dデータセットには、マルチビュー、正確なラベル、多様なカテゴリ、詳細な分類が含まれる。 BFA-YOLOは、マルチビューのBFA-3DとストリートビューのFacade-WHUデータセットでそれぞれ、YOLOv8を1.8%、mAP@0.5で2.9%上回る。 これらの結果は, ファサードアタッチメント検出におけるBFA-YOLOの優れた性能を裏付けるものである。

Detection of building facade attachments such as doors, windows, balconies, air conditioner units, billboards, and glass curtain walls plays a pivotal role in numerous applications. Building facade attachments detection aids in vbuilding information modeling (BIM) construction and meeting Level of Detail 3 (LOD3) standards. Yet, it faces challenges like uneven object distribution, small object detection difficulty, and background interference. To counter these, we propose BFA-YOLO, a model for detecting facade attachments in multi-view images. BFA-YOLO incorporates three novel innovations: the Feature Balanced Spindle Module (FBSM) for addressing uneven distribution, the Target Dynamic Alignment Task Detection Head (TDATH) aimed at improving small object detection, and the Position Memory Enhanced Self-Attention Mechanism (PMESA) to combat background interference, with each component specifically designed to solve its corresponding challenge. Detection efficacy of deep network models deeply depends on the dataset's characteristics. Existing open source datasets related to building facades are limited by their single perspective, small image pool, and incomplete category coverage. We propose a novel method for building facade attachments detection dataset construction and construct the BFA-3D dataset for facade attachments detection. The BFA-3D dataset features multi-view, accurate labels, diverse categories, and detailed classification. BFA-YOLO surpasses YOLOv8 by 1.8% and 2.9% in mAP@0.5 on the multi-view BFA-3D and street-view Facade-WHU datasets, respectively. These results underscore BFA-YOLO's superior performance in detecting facade attachments.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# シャッフルモデルにおける微分プライバシーのための効率的なフォールトトレラント量子プロトコル

Efficient Fault-Tolerant Quantum Protocol for Differential Privacy in the Shuffle Model ( http://arxiv.org/abs/2409.04026v1 )

ライセンス: Link先を確認
Hassan Jameel Asghar, Arghya Mukherjee, Gavin K. Brennen, (参考訳) 本稿では,ランダムシャッフルをセキュアかつ暗黙的に実装し,シャッフルモデルにおける差分プライバシーを実現する量子プロトコルを提案する。 差分プライバシーのシャッフルモデルは、データコントリビュータによる結果のランダムな置換によって、ローカルな差分プライバシーを通じて達成可能なプライバシーを増幅する。 実際には、このシャッフルの実装方法に対処する必要があります。 例えば、mix-networksによるシャッフルの実装や、信頼できるサードパーティによるシャッフルなどです。 これらの実装固有の問題は、古典的なシステムにおける非自明な計算と信頼の要求を引き起こす。 本稿では、量子状態の絡み合いを利用したプロトコルの量子バージョンを提案し、これらの余分な要求なしにシャッフルを実装可能であることを示す。 本プロトコルは, k > 2 の任意の値に対して k-ary ランダム化応答を実装し,さらにフォールトトレラント計算を用いて効率的に実装することができる。

We present a quantum protocol which securely and implicitly implements a random shuffle to realize differential privacy in the shuffle model. The shuffle model of differential privacy amplifies privacy achievable via local differential privacy by randomly permuting the tuple of outcomes from data contributors. In practice, one needs to address how this shuffle is implemented. Examples include implementing the shuffle via mix-networks, or shuffling via a trusted third-party. These implementation specific issues raise non-trivial computational and trust requirements in a classical system. We propose a quantum version of the protocol using entanglement of quantum states and show that the shuffle can be implemented without these extra requirements. Our protocol implements k-ary randomized response, for any value of k > 2, and furthermore, can be efficiently implemented using fault-tolerant computation.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# フルグラスピング分類とダイナミクスを用いたDense Hand-Object(HO) GraspNet

Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics ( http://arxiv.org/abs/2409.04033v1 )

ライセンス: Link先を確認
Woojin Cho, Jihyun Lee, Minjae Yi, Minje Kim, Taeyun Woo, Donghwan Kim, Taewook Ha, Hyokeun Lee, Je-Hwan Ryu, Woontack Woo, Tae-Kyun Kim, (参考訳) 3Dハンドオブジェクトインタラクションのための既存のデータセットは、データ濃度、相互作用シナリオにおけるデータのバリエーション、あるいはアノテーションの品質に制限される。 本研究では,HOGraspNetと呼ばれる手動オブジェクトインタラクションのための総合的なトレーニングデータセットを提案する。 完全なグリップ分類を捕捉し、グリップアノテーションと広範囲なクラス内変異を提供する唯一の実際のデータセットである。 分類学を原子的作用としてつかむことで、それらの空間と時間組合せは物体の周りの複雑な手の動きを表現することができる。 我々は,YCBデータセットから22個の剛体オブジェクトと,形状と大きさの分類法を用いて8個の複合物を選択し,すべての手つかみ構成のカバレッジを確保する。 データセットには、10歳から74歳までの99人の被験者のさまざまな手形、連続的なビデオフレーム、およびアノテーション付きスパースフレームの1.5M RGB-Depthが含まれている。 3Dハンドとオブジェクトメッシュ、3Dキーポイント、3Dコンタクトマップ、および \emph{grasp labels} のラベルを提供する。 ハンドパラメトリックモデル(MANO)とハンド暗黙関数(HALO)を多視点RGBDフレームに適合させることにより、正確な手とオブジェクトの3Dメッシュを得る。 HALOフィッティングはパラメータチューニングを一切必要とせず、MANOと同等の精度でデータセットのサイズにスケーラビリティを実現することに注意してください。 HOGraspNetは,分類の把握と3次元ポーズ推定を行う。 その結果、グリップ型とオブジェクトクラスに基づく性能変化が示され、データセットが捉えた相互作用空間の潜在的重要性が示される。 提供されるデータは、3Dハンドオブジェクトインタラクションのための普遍的な形状や基礎モデルを学ぶことを目的としている。 私たちのデータセットとコードはhttps://hograspnet2024.github.io/で公開されています。

Existing datasets for 3D hand-object interaction are limited either in the data cardinality, data variations in interaction scenarios, or the quality of annotations. In this work, we present a comprehensive new training dataset for hand-object interaction called HOGraspNet. It is the only real dataset that captures full grasp taxonomies, providing grasp annotation and wide intraclass variations. Using grasp taxonomies as atomic actions, their space and time combinatorial can represent complex hand activities around objects. We select 22 rigid objects from the YCB dataset and 8 other compound objects using shape and size taxonomies, ensuring coverage of all hand grasp configurations. The dataset includes diverse hand shapes from 99 participants aged 10 to 74, continuous video frames, and a 1.5M RGB-Depth of sparse frames with annotations. It offers labels for 3D hand and object meshes, 3D keypoints, contact maps, and \emph{grasp labels}. Accurate hand and object 3D meshes are obtained by fitting the hand parametric model (MANO) and the hand implicit function (HALO) to multi-view RGBD frames, with the MoCap system only for objects. Note that HALO fitting does not require any parameter tuning, enabling scalability to the dataset's size with comparable accuracy to MANO. We evaluate HOGraspNet on relevant tasks: grasp classification and 3D hand pose estimation. The result shows performance variations based on grasp type and object class, indicating the potential importance of the interaction space captured by our dataset. The provided data aims at learning universal shape priors or foundation models for 3D hand-object interaction. Our dataset and code are available at https://hograspnet2024.github.io/.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# MultiCounter: 未編集ビデオにおける複数アクション非依存の反復数

MultiCounter: Multiple Action Agnostic Repetition Counting in Untrimmed Videos ( http://arxiv.org/abs/2409.04035v1 )

ライセンス: Link先を確認
Yin Tang, Wei Luo, Jinrui Zhang, Wei Huang, Ruihai Jing, Deyu Zhang, (参考訳) MRAC(Multi-instance Repetitive Action Counting)は、スポーツやエクササイズといった人間中心のドメインで一般的に見られる、トリミングされていないビデオの複数のインスタンスによって実行される反復的なアクションの数を推定することを目的としている。 本稿では,複数インスタンスの繰り返し動作の同時検出,追跡,カウントが可能な,エンドツーエンドのディープラーニングフレームワークであるMultiCounterを提案する。 具体的には、MultiCounterには2つの新しいモジュールが含まれている。 1)連続フレーム間の効率的な文脈相関のための混合時空間相互作用 2) 周期的境界の正確な認識のためのタスク固有の頭部と行動に依存しない人間の場合の一般化。 我々は、アノテーション付き実世界のビデオから生成されたMultiRepと呼ばれる合成データセットでMultiCounterを訓練する。 MultiRepデータセットの実験はMRACタスクの基本的な課題を検証し、提案モデルの優位性を示す。 高度トラッカーと単一反復カウンタを組み合わせたソリューションであるByteTrack+RepNetと比較して、MultiCounterは周期mAPを41.0%改善し、AvgMAEを58.6%削減し、AvgOBO 1.48倍向上した。 これはMRACの分野での新しいベンチマークとなる。 さらに、MultiCounterはコモディティGPUサーバ上でリアルタイムで動作し、ビデオ内の人間のインスタンスの数に敏感である。

Multi-instance Repetitive Action Counting (MRAC) aims to estimate the number of repetitive actions performed by multiple instances in untrimmed videos, commonly found in human-centric domains like sports and exercise. In this paper, we propose MultiCounter, a fully end-to-end deep learning framework that enables simultaneous detection, tracking, and counting of repetitive actions of multiple human instances. Specifically, MultiCounter incorporates two novel modules: 1) mixed spatiotemporal interaction for efficient context correlation across consecutive frames, and 2) task-specific heads for accurate perception of periodic boundaries and generalization for action-agnostic human instances. We train MultiCounter on a synthetic dataset called MultiRep generated from annotated real-world videos. Experiments on the MultiRep dataset validate the fundamental challenge of MRAC tasks and showcase the superiority of our proposed model. Compared to ByteTrack+RepNet, a solution that combines an advanced tracker with a single repetition counter, MultiCounter substantially improves Period-mAP by 41.0%, reduces AvgMAE by 58.6%, and increases AvgOBO 1.48 times. This sets a new benchmark in the field of MRAC. Moreover, MultiCounter runs in real-time on a commodity GPU server and is insensitive to the number of human instances in a video.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# PlantSeg: 植物病セグメンテーションのための大規模In-the-Wildデータセット

PlantSeg: A Large-Scale In-the-wild Dataset for Plant Disease Segmentation ( http://arxiv.org/abs/2409.04038v1 )

ライセンス: Link先を確認
Tianqi Wei, Zhi Chen, Xin Yu, Scott Chapman, Paul Melloy, Zi Huang, (参考訳) 植物病は農業に重大な脅威をもたらす。 作物の収量を保護するためには適切な診断と効果的な治療が必要である。 診断プロセスを自動化するために、画像分割が通常、疾患領域を正確に識別するために採用され、それによって精度の高い農業が進められる。 植物病に対するロバストなイメージセグメンテーションモデルの開発には、多数の画像にまたがる高品質なアノテーションが必要である。 しかし、既存の植物病データセットは一般的にセグメンテーションラベルが欠如しており、多くの場合、自然環境の複雑さを適切に反映しない、制御された実験室の設定に限られている。 そこで我々は,植物病の大規模セグメンテーションデータセットであるPlanetSegを構築した。 PlantSegは既存のデータセットを3つの重要な側面で区別している。 1)アノテーションタイプ:クラスラベルや境界ボックスのみを含む既存のデータセットとは異なり、PlanetSegの各画像には、植物の種類や病名に関連する詳細かつ高品質なセグメンテーションマスクが含まれている。 2) 画像ソース: 実験室設定の画像を含む典型的なデータセットとは異なり, PlantSeg は主に野生植物病画像から構成される。 この選択は、トレーニングされたモデルを統合疾患管理に適用できるため、実用的な適用性を高める。 (3)スケール:植物セグは11,400枚の画像と,植物の種類別に分類した8000枚の健康な植物像を特徴とする。 大規模な技術実験は、PlantSegのアノテーションの高品質さを検証する。 このデータセットは、研究者が画像分類法を評価するだけでなく、先進的な植物病のセグメンテーションアルゴリズムの開発とベンチマークのための重要な基盤を提供する。

Plant diseases pose significant threats to agriculture. It necessitates proper diagnosis and effective treatment to safeguard crop yields. To automate the diagnosis process, image segmentation is usually adopted for precisely identifying diseased regions, thereby advancing precision agriculture. Developing robust image segmentation models for plant diseases demands high-quality annotations across numerous images. However, existing plant disease datasets typically lack segmentation labels and are often confined to controlled laboratory settings, which do not adequately reflect the complexity of natural environments. Motivated by this fact, we established PlantSeg, a large-scale segmentation dataset for plant diseases. PlantSeg distinguishes itself from existing datasets in three key aspects. (1) Annotation type: Unlike the majority of existing datasets that only contain class labels or bounding boxes, each image in PlantSeg includes detailed and high-quality segmentation masks, associated with plant types and disease names. (2) Image source: Unlike typical datasets that contain images from laboratory settings, PlantSeg primarily comprises in-the-wild plant disease images. This choice enhances the practical applicability, as the trained models can be applied for integrated disease management. (3) Scale: PlantSeg is extensive, featuring 11,400 images with disease segmentation masks and an additional 8,000 healthy plant images categorized by plant type. Extensive technical experiments validate the high quality of PlantSeg's annotations. This dataset not only allows researchers to evaluate their image classification methods but also provides a critical foundation for developing and benchmarking advanced plant disease segmentation algorithms.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# KVリークに対する高効率でセキュアなLCM推論

A First Look At Efficient And Secure On-Device LLM Inference Against KV Leakage ( http://arxiv.org/abs/2409.04040v1 )

ライセンス: Link先を確認
Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu, (参考訳) エンドデバイス上でのLSMの実行は、プライバシー保護のアドバンテージにより、近年大きな注目を集めている。 軽量なLLMモデルと特別に設計されたGPUの出現により、オンデバイスLSM推論は必要な精度と性能のメトリクスを達成した。 しかし、GPU上でのLCM推論は、プライバシーに敏感な中間情報、特にKVペアを漏洩させる可能性がある。 攻撃者はこれらのKVペアを利用してユーザ会話全体を再構築し、重大な脆弱性を発生させる。 FHE(Fully Homomorphic Encryption)やTEE(Trusted Execution Environments)といった既存のソリューションは、計算集約的すぎるかリソース限定的である。 これらの問題に対処するため、我々は2つのフェーズで動作するKV-Shieldを設計した。 初期化段階では、全てのKV対が対応するように重み行列を置換する。 実行時フェーズにおいて、アテンションベクトルは、層出力の正確性を保証するために逆順に置換される。 すべての置換関連操作はTEE内で実行され、セキュアでないGPUが元のKVペアにアクセスできないことを保証するため、会話の再構成が防止される。 最後に、KV-Shieldの正しさと、その利点とオーバーヘッドを理論的に解析する。

Running LLMs on end devices has garnered significant attention recently due to their advantages in privacy preservation. With the advent of lightweight LLM models and specially designed GPUs, on-device LLM inference has achieved the necessary accuracy and performance metrics. However, we have identified that LLM inference on GPUs can leak privacy-sensitive intermediate information, specifically the KV pairs. An attacker could exploit these KV pairs to reconstruct the entire user conversation, leading to significant vulnerabilities. Existing solutions, such as Fully Homomorphic Encryption (FHE) and Trusted Execution Environments (TEE), are either too computation-intensive or resource-limited. To address these issues, we designed KV-Shield, which operates in two phases. In the initialization phase, it permutes the weight matrices so that all KV pairs are correspondingly permuted. During the runtime phase, the attention vector is inversely permuted to ensure the correctness of the layer output. All permutation-related operations are executed within the TEE, ensuring that insecure GPUs cannot access the original KV pairs, thus preventing conversation reconstruction. Finally, we theoretically analyze the correctness of KV-Shield, along with its advantages and overhead.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# ヒューマン・コンピテンシー・フレームワークを用いた視覚データセットとモデルの評価について

On Evaluation of Vision Datasets and Models using Human Competency Frameworks ( http://arxiv.org/abs/2409.04041v1 )

ライセンス: Link先を確認
Rahul Ramachandran, Tejal Kulkarni, Charchit Sharma, Deepak Vijaykeerthy, Vineeth N Balasubramanian, (参考訳) コンピュータビジョンにおけるモデルとデータセットの評価は依然として難しい課題であり、ほとんどのリーダーボードは精度のみに依存している。 精度はモデル評価の一般的な指標であるが、すべてのデータセット項目の単一モデルのスコアを考慮し、粗い評価のみを提供する。 本稿では,モデルと各データセットのアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークであるIRTについて検討する。 IRTを活用して、モデル校正を評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。

Evaluating models and datasets in computer vision remains a challenging task, with most leaderboards relying solely on accuracy. While accuracy is a popular metric for model evaluation, it provides only a coarse assessment by considering a single model's score on all dataset items. This paper explores Item Response Theory (IRT), a framework that infers interpretable latent parameters for an ensemble of models and each dataset item, enabling richer evaluation and analysis beyond the single accuracy number. Leveraging IRT, we assess model calibration, select informative data subsets, and demonstrate the usefulness of its latent parameters for analyzing and comparing models and datasets in computer vision.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 安全なオンライン空間を目指して : 障害を食うための介入戦略のシミュレーションと評価

Towards Safer Online Spaces: Simulating and Assessing Intervention Strategies for Eating Disorder Discussions ( http://arxiv.org/abs/2409.04043v1 )

ライセンス: Link先を確認
Louis Penafiel, Hsien-Te Kao, Isabel Erickson, David Chu, Robert McCormack, Kristina Lerman, Svitlana Volkova, (参考訳) 摂食障害は、世界中の何百万人もの人々に影響を及ぼす複雑な精神状態である。 ソーシャルメディアプラットフォームへの効果的な介入は重要ですが、テスト戦略はリスクがあります。 ED関連議論における介入戦略のシミュレーションと評価のための新しいLCM駆動型実験ベッドを提案する。 本フレームワークは,複数のプラットフォーム,モデル,ED関連トピック間の合成会話を生成し,多様な介入アプローチによる制御実験を可能にする。 介入型, 生成モデル, ソーシャルメディアプラットフォーム, ED関連コミュニティ・トピックの4次元にわたる会話動態に対する様々な介入戦略の影響を解析した。 介入の有効性を評価するために、感情、感情などを含む認知領域分析の指標を用いています。 以上の結果から,市民中心の介入はすべての次元において肯定的な感情や感情のトーンを一貫して改善する一方,洞察-リセットアプローチは否定的な感情を増大させる傾向にあることがわかった。 また,LLM生成会話における有意なバイアスを明らかにし,認知的指標はモデル間で顕著に異なる(Claude-3 Haiku $>$ Mistral $>$ GPT-3.5-turbo $>$ LLaMA3)。 これらのバリエーションは、EDに関する現実的な議論をシミュレートする上で、モデル選択の重要性を強調している。 本研究は、ED関連議論の複雑な力学と様々な介入戦略の有効性に関する貴重な情報を提供する。

Eating disorders are complex mental health conditions that affect millions of people around the world. Effective interventions on social media platforms are crucial, yet testing strategies in situ can be risky. We present a novel LLM-driven experimental testbed for simulating and assessing intervention strategies in ED-related discussions. Our framework generates synthetic conversations across multiple platforms, models, and ED-related topics, allowing for controlled experimentation with diverse intervention approaches. We analyze the impact of various intervention strategies on conversation dynamics across four dimensions: intervention type, generative model, social media platform, and ED-related community/topic. We employ cognitive domain analysis metrics, including sentiment, emotions, etc., to evaluate the effectiveness of interventions. Our findings reveal that civility-focused interventions consistently improve positive sentiment and emotional tone across all dimensions, while insight-resetting approaches tend to increase negative emotions. We also uncover significant biases in LLM-generated conversations, with cognitive metrics varying notably between models (Claude-3 Haiku $>$ Mistral $>$ GPT-3.5-turbo $>$ LLaMA3) and even between versions of the same model. These variations highlight the importance of model selection in simulating realistic discussions related to ED. Our work provides valuable information on the complex dynamics of ED-related discussions and the effectiveness of various intervention strategies.
翻訳日:2024-09-09 16:48:15 公開日:2024-09-06
# 化学動力学の実験量子シミュレーション

Experimental Quantum Simulation of Chemical Dynamics ( http://arxiv.org/abs/2409.04044v1 )

ライセンス: Link先を確認
T. Navickas, R. J. MacDonell, C. H. Valahu, V. C. Olaya-Agudelo, F. Scuccimarra, M. J. Millican, V. G. Matsos, H. L. Nourse, A. D. Rao, M. J. Biercuk, C. Hempel, I. Kassal, T. R. Tan, (参考訳) 化学シミュレーションは、量子コンピューティングの最も初期の応用の1つである可能性が高い。 しかし、化学シミュレーションのための既存のデジタル量子アルゴリズムは、多くの論理量子ビットとゲートを必要とし、既存の技術を超える実践的応用を配置する。 ここでは, 化学反応の最初の量子シミュレーションを行うために, アナログ手法を用いる。 特に、光誘起非断熱力学をシミュレートし、電子運動と核運動の強い結合と絡み合いを伴うため、量子化学における最も難しい問題の1つである。 我々は、閉じ込められたイオンの電子的自由度と振動的自由度の両方の情報を符号化する混合量子ボソン(MQB)アナログシミュレータを使用する。 3つの異なる分子の力学と、縮合相における開系力学を、すべて同じ量子資源でシミュレートすることで、プログラマビリティと汎用性を実証する。 我々の手法は等価なデジタル量子シミュレーションよりも桁違いに少ないリソースを必要とし、複雑な化学反応の短期シミュレーションのためのアナログ量子シミュレータのポテンシャルを実証する。

Simulating chemistry is likely to be among the earliest applications of quantum computing. However, existing digital quantum algorithms for chemical simulation require many logical qubits and gates, placing practical applications beyond existing technology. Here, we use an analog approach to carry out the first quantum simulations of chemical reactions. In particular, we simulate photoinduced non-adiabatic dynamics, one of the most challenging classes of problems in quantum chemistry because they involve strong coupling and entanglement between electronic and nuclear motions. We use a mixed-qudit-boson (MQB) analog simulator, which encodes information in both the electronic and vibrational degrees of freedom of a trapped ion. We demonstrate its programmability and versatility by simulating the dynamics of three different molecules as well as open-system dynamics in the condensed phase, all with the same quantum resources. Our approach requires orders of magnitude fewer resources than equivalent digital quantum simulations, demonstrating the potential of analog quantum simulators for near-term simulations of complex chemical reactions.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# GitHubでユーザプライバシの意識を探る - 実証的研究

Exploring User Privacy Awareness on GitHub: An Empirical Study ( http://arxiv.org/abs/2409.04048v1 )

ライセンス: Link先を確認
Costanza Alfieri, Juri Di Rocco, Phuong T. Nguyen, Paola Inverardi, (参考訳) GitHubは、開発者にソースコードを配布し、共通のプロジェクトで共同作業するための実践的な方法を提供する。 アカウントのセキュリティとプライバシを強化するため、GitHubでは、アクセス権限の管理、監査ログのレビュー、二要素認証を有効にしている。 しかし、この努力にもかかわらず、プラットフォームはユーザーのプライバシーに関する様々な問題に直面している。 本稿では,GitHubエコシステムに関する実証的研究を紹介する。 我々の焦点は、プラットフォーム上でのプライバシー設定の活用と、ユーザーが開示した各種機密情報の特定である。 6,132人の開発者からなるデータセットを活用して、プルリクエストに対するコメントによってアクティビティを報告し、分析する。 以上の結果から,GitHub上のプライバシ設定が利用可能なユーザによる積極的な関与が示唆された。 特に、プルリクエストコメント内で異なる形式のプライベート情報の開示を観察する。 この観察により、大きな言語モデルとBERTを用いた感度検出の探索が進められ、パーソナライズされたプライバシアシスタントの道が拓かれた。 私たちの研究は、プライバシー設定などの既存のプライバシ保護ツールの利用と、その固有の制限に関する洞察を提供します。 本研究の目的は,このようなプライバシ保護ツールを開発する動機と,それをパーソナライズするための方法論を両立させることである。

GitHub provides developers with a practical way to distribute source code and collaboratively work on common projects. To enhance account security and privacy, GitHub allows its users to manage access permissions, review audit logs, and enable two-factor authentication. However, despite the endless effort, the platform still faces various issues related to the privacy of its users. This paper presents an empirical study delving into the GitHub ecosystem. Our focus is on investigating the utilization of privacy settings on the platform and identifying various types of sensitive information disclosed by users. Leveraging a dataset comprising 6,132 developers, we report and analyze their activities by means of comments on pull requests. Our findings indicate an active engagement by users with the available privacy settings on GitHub. Notably, we observe the disclosure of different forms of private information within pull request comments. This observation has prompted our exploration into sensitivity detection using a large language model and BERT, to pave the way for a personalized privacy assistant. Our work provides insights into the utilization of existing privacy protection tools, such as privacy settings, along with their inherent limitations. Essentially, we aim to advance research in this field by providing both the motivation for creating such privacy protection tools and a proposed methodology for personalizing them.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# EigenSR:単一ハイパースペクトル画像超解法のための固有ブリッジ付きRGB学習者

EigenSR: Eigenimage-Bridged Pre-Trained RGB Learners for Single Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2409.04050v1 )

ライセンス: Link先を確認
Xi Su, Xiangfei Shen, Mingyang Wan, Jing Nie, Lihui Chen, Haijun Liu, Xichuan Zhou, (参考訳) 単一ハイパースペクトル画像超解像(単一HSI-SR)は、単一入力低解像度HSIの解像度を改善することを目的としている。 データ不足のボトルネックのため、単一HSI-SRの開発はRGBの自然画像よりもはるかに遅れている。 近年、RGB SRの研究により、大規模なベンチマークデータセットで事前訓練されたモデルでは、見えないデータのパフォーマンスが大幅に向上することが示されている。 しかし、データスカシティのボトルネックを克服するために、事前訓練されたRGBモデルをHSIに転送するにはどうすればよいのか? 事前訓練されたRGBモデルとHSIのチャネルに有意な違いがあるため、モデルではスペクトル次元に沿った相関に焦点を合わせることができないため、HSIでの利用能力は制限される。 HSI空間スペクトル分離に着想を得て,まず事前学習したモデルを空間成分(固有画像)で微調整し,その後,反復スペクトル正則化(ISR)を用いて未知のHSIに推論してスペクトル相関を維持する新しい枠組みを提案する。 我々の方法の利点は次のとおりである。 1) スペクトル忠実度を維持しつつ, 事前学習したRGBモデルの空間テクスチャ処理能力をHSIに効果的に注入する。 2)スペクトル非相関領域における学習は、スペクトル非依存データへの一般化性を向上し得る。 3) 固有値領域での推測は, HSIのスペクトル低ランク特性を自然に利用し, 複雑さを低減させる。 この研究は、事前訓練されたRGBモデルと固有画像によるHSI間のギャップを埋め、限られたHSIトレーニングデータの問題に対処する。 大規模な実験により、EigenSRは空間とスペクトルの両方で最先端のSOTA(State-of-the-art)法より優れていることが示された。 私たちのコードは解放されます。

Single hyperspectral image super-resolution (single-HSI-SR) aims to improve the resolution of a single input low-resolution HSI. Due to the bottleneck of data scarcity, the development of single-HSI-SR lags far behind that of RGB natural images. In recent years, research on RGB SR has shown that models pre-trained on large-scale benchmark datasets can greatly improve performance on unseen data, which may stand as a remedy for HSI. But how can we transfer the pre-trained RGB model to HSI, to overcome the data-scarcity bottleneck? Because of the significant difference in the channels between the pre-trained RGB model and the HSI, the model cannot focus on the correlation along the spectral dimension, thus limiting its ability to utilize on HSI. Inspired by the HSI spatial-spectral decoupling, we propose a new framework that first fine-tunes the pre-trained model with the spatial components (known as eigenimages), and then infers on unseen HSI using an iterative spectral regularization (ISR) to maintain the spectral correlation. The advantages of our method lie in: 1) we effectively inject the spatial texture processing capabilities of the pre-trained RGB model into HSI while keeping spectral fidelity, 2) learning in the spectral-decorrelated domain can improve the generalizability to spectral-agnostic data, and 3) our inference in the eigenimage domain naturally exploits the spectral low-rank property of HSI, thereby reducing the complexity. This work bridges the gap between pre-trained RGB models and HSI via eigenimages, addressing the issue of limited HSI training data, hence the name EigenSR. Extensive experiments show that EigenSR outperforms the state-of-the-art (SOTA) methods in both spatial and spectral metrics. Our code will be released.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# COLUMBUS:マルチチョイスリビューによる認知的側方理解の評価

COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes ( http://arxiv.org/abs/2409.04053v1 )

ライセンス: Link先を確認
Koen Kraaijveld, Yifan Jiang, Kaixin Ma, Filip Ilievski, (参考訳) 視覚的質問答え(VQA)ベンチマークは推論技術の発展を触媒しているが、彼らは垂直思考に焦点を当てている。 効果的な問題解決には横方向の思考が必要であるが、これはまだAIで研究されており、視覚認知システムのテストには使われていない。 このギャップを埋めるために、視覚的側方思考を多選択質問応答タスクとして定式化し、タスク例をインスタンス化するための3段階の分類駆動手法を記述する。 そこで我々は,テキストとアイコンリバスパズルを用いたQAセット作成にタスクパイプラインを適用した合成ベンチマークであるCOLUMBUSを開発した。 COLUMBUSは1000以上のパズルで構成され、それぞれ4つの答え候補がある。 SotA視覚言語モデル(VLM)は優れた性能を発揮するが,本評価は人間とモデルの間に大きなギャップがあることを実証する。 VLMは人為的な記述の恩恵を受けるが、適切な抽象レベルで表現を自己生成することは困難である。

While visual question-answering (VQA) benchmarks have catalyzed the development of reasoning techniques, they have focused on vertical thinking. Effective problem-solving also necessitates lateral thinking, which remains understudied in AI and has not been used to test visual perception systems. To bridge this gap, we formulate visual lateral thinking as a multiple-choice question-answering task and describe a three-step taxonomy-driven methodology for instantiating task examples. Then, we develop COLUMBUS, a synthetic benchmark that applies the task pipeline to create QA sets with text and icon rebus puzzles based on publicly available collections of compounds and common phrases. COLUMBUS comprises over 1,000 puzzles, each with four answer candidates. While the SotA vision-language models (VLMs) achieve decent performance, our evaluation demonstrates a substantial gap between humans and models. VLMs benefit from human-curated descriptions but struggle to self-generate such representations at the right level of abstraction.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# 大規模言語モデルを用いたウィキデータ分類の精査

Refining Wikidata Taxonomy using Large Language Models ( http://arxiv.org/abs/2409.04056v1 )

ライセンス: Link先を確認
Yiwen Peng, Thomas Bonald, Mehwish Alam, (参考訳) そのコラボレーティブな性質から、Wikidataは、インスタンスとクラス間のあいまいさ、いくつかの分類学的パスの不正確さ、サイクルの存在、クラス間の高い冗長性など、複雑な分類を持っていることが知られている。 この分類をきれいにするための手作業は時間がかかり、エラーや主観的な決定をしがちである。 我々は,Large Language Models (LLM) とグラフマイニング技術を組み合わせたWikidata分類の新バージョンであるWiKCを提案する。 リンクを切断したり、クラスをマージしたりといった分類の操作は、オープンソースのLCM上でゼロショットプロンプトの助けを借りて行われる。 精巧な分類の質は、本質的・外生的両面から評価され、後者の実体型付けの課題において、WiKCの実践的関心を示す。

Due to its collaborative nature, Wikidata is known to have a complex taxonomy, with recurrent issues like the ambiguity between instances and classes, the inaccuracy of some taxonomic paths, the presence of cycles, and the high level of redundancy across classes. Manual efforts to clean up this taxonomy are time-consuming and prone to errors or subjective decisions. We present WiKC, a new version of Wikidata taxonomy cleaned automatically using a combination of Large Language Models (LLMs) and graph mining techniques. Operations on the taxonomy, such as cutting links or merging classes, are performed with the help of zero-shot prompting on an open-source LLM. The quality of the refined taxonomy is evaluated from both intrinsic and extrinsic perspectives, on a task of entity typing for the latter, showing the practical interest of WiKC.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# 思考の自己調和型連鎖

Self-Harmonized Chain of Thought ( http://arxiv.org/abs/2409.04057v1 )

ライセンス: Link先を確認
Ziqi Jin, Wei Lu, (参考訳) CoT(Chain-of-Thought)のプロンプトにより、大きな言語モデルが中間ステップを介して複雑な推論を行うことができることが明らかになった。 CoTプロンプトは主に3つのアプローチに分類される。 最初のアプローチでは、'Let's Think by Step''のような素直なプロンプトを使って、回答を得る前にシーケンシャルな思考プロセスを生成する。 第2のアプローチでは、人間によるステップバイステップのデモを使用して、モデルの推論プロセスを導出する。 3つ目は、'Let's Think by Step'で推論されたデモの生成を自動化する。 このアプローチは時に推論エラーを引き起こし、誤解を招く影響を軽減するためにデモを多様化する必要性を強調します。 しかし、多様なデモンストレーションは効果的な表現に挑戦する。 本研究では,自己調和型チェーン・オブ・シークレット・プロンプト法であるECHOを提案する。 多様な解経路を一様かつ効果的な解パターンに集約し、ECHOは3つの推論領域で最高の全体的な性能を示す。

Chain-of-Thought (CoT) prompting reveals that large language models are capable of performing complex reasoning via intermediate steps. CoT prompting is primarily categorized into three approaches. The first approach utilizes straightforward prompts like ``Let's think step by step'' to generate a sequential thought process before yielding an answer. The second approach makes use of human-crafted, step-by-step demonstrations to guide the model's reasoning process. The third automates the generation of reasoned demonstrations with the 'Let's think step by step'.This approach sometimes leads to reasoning errors, highlighting the need to diversify demonstrations to mitigate its misleading effects. However, diverse demonstrations pose challenges for effective representations. In this work, we propose ECHO, a self-harmonized chain-of-thought prompting method. It consolidates diverse solution paths into a uniform and effective solution pattern.ECHO demonstrates the best overall performance across three reasoning domains.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# D4: テキスト誘導拡散モデルに基づくブドウ園撮影検出のためのドメイン適応データ拡張(D4.情報ネットワーク,一般セッション)

D4: Text-guided diffusion model-based domain adaptive data augmentation for vineyard shoot detection ( http://arxiv.org/abs/2409.04060v1 )

ライセンス: Link先を確認
Kentaro Hirahara, Chikahito Nakane, Hajime Ebisawa, Tsuyoshi Kuroda, Yohei Iwaki, Tomoyoshi Utsumi, Yuichiro Nomura, Makoto Koike, Hiroshi Mineno, (参考訳) 農業分野では, 対象検出モデルを用いた植物表現型化が注目されている。 しかし、アノテーションの難しさやドメインの多様性のため、汎用的かつ高精度なモデルを作成するのに必要なトレーニングデータを集めることは極めて困難である。 さらに、異なる作物間でトレーニングデータを転送することは困難であり、特定の環境、条件、作物に有効な機械学習モデルが開発されているが、実際の分野において広く適用することはできない。 本研究では,ブドウ園の撮影検出のための生成データ拡張法(D4)を提案する。 D4は、無人地上車両や他の手段によって収集されたビデオデータから得られた多数のオリジナル画像と、少量の注釈付きデータセットに基づいて、事前訓練されたテキスト誘導拡散モデルを使用する。 提案手法は,オブジェクト検出に必要なアノテーション情報を保持しつつ,対象領域に適合する背景情報を含む新たな注釈付き画像を生成する。 さらにD4は、アノテーションの難しさやドメインの多様性など、農業におけるトレーニングデータの欠如を克服している。 本手法により,BBox検出タスクの平均平均精度が28.65%向上し,Vineyard shoot検出のキーポイント検出タスクの平均精度が13.73%向上したことを確認した。 本手法は,農業におけるトレーニングデータ生成のコストと領域の多様性を同時に解決し,検出モデルの一般化性能を向上させることを目的としている。

In an agricultural field, plant phenotyping using object detection models is gaining attention. However, collecting the training data necessary to create generic and high-precision models is extremely challenging due to the difficulty of annotation and the diversity of domains. Furthermore, it is difficult to transfer training data across different crops, and although machine learning models effective for specific environments, conditions, or crops have been developed, they cannot be widely applied in actual fields. In this study, we propose a generative data augmentation method (D4) for vineyard shoot detection. D4 uses a pre-trained text-guided diffusion model based on a large number of original images culled from video data collected by unmanned ground vehicles or other means, and a small number of annotated datasets. The proposed method generates new annotated images with background information adapted to the target domain while retaining annotation information necessary for object detection. In addition, D4 overcomes the lack of training data in agriculture, including the difficulty of annotation and diversity of domains. We confirmed that this generative data augmentation method improved the mean average precision by up to 28.65% for the BBox detection task and the average precision by up to 13.73% for the keypoint detection task for vineyard shoot detection. Our generative data augmentation method D4 is expected to simultaneously solve the cost and domain diversity issues of training data generation in agriculture and improve the generalization performance of detection models.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# ソフト制約に基づくノルムにおけるプリエンプションの説明的アプローチ

An Argumentative Approach for Explaining Preemption in Soft-Constraint Based Norms ( http://arxiv.org/abs/2409.04065v1 )

ライセンス: Link先を確認
Wachara Fungwacharakorn, Kanae Tsushima, Hiroshi Hosobe, Hideaki Takeda, Ken Satoh, (参考訳) ソフト制約に基づく規範の様々な側面が研究されているが、プリエンプションを理解することは依然として困難である。 プリエンプション(Preemption)は、新しい情報が現れると、上位のノルムが下位のノルムをオーバーライドする状況である。 そこで本研究では、導出状態議論フレームワーク(DSA-framework)を提案する。 DSAの枠組みは、進化する状況的知識に基づいて、どのようにプリエンプションが発生するかを説明するために、派生状態が組み込まれている。 DSAの枠組みに基づいて、プリエンプションを説明するための議論的なアプローチを提案する。 局所最適性の下では、DSA-frameworkは論理的制約階層として表されるソフト制約に基づくノルムによって、ある結果が義務的あるいは禁じられている理由を説明することができることを正式に証明する。

Although various aspects of soft-constraint based norms have been explored, it is still challenging to understand preemption. Preemption is a situation where higher-level norms override lower-level norms when new information emerges. To address this, we propose a derivation state argumentation framework (DSA-framework). DSA-framework incorporates derivation states to explain how preemption arises based on evolving situational knowledge. Based on DSA-framework, we present an argumentative approach for explaining preemption. We formally prove that, under local optimality, DSA-framework can provide explanations why one consequence is obligatory or forbidden by soft-constraint based norms represented as logical constraint hierarchies.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# 非圧縮性流体の解法のためのFEMベースニューラルネットワークとその逆問題

FEM-based Neural Networks for Solving Incompressible Fluid Flows and Related Inverse Problems ( http://arxiv.org/abs/2409.04067v1 )

ライセンス: Link先を確認
Franziska Griese, Fabian Hoppe, Alexander Rüttgers, Philipp Knechtges, (参考訳) 偏微分方程式で記述された技術的システムの数値シミュレーションと最適化は高価であり、特に異なるパラメータに対して基礎となる方程式を解かなければならないマルチクエリシナリオにおいてである。 この文脈で比較的新しいアプローチは、ニューラルネットワークのよい近似特性(パラメータ依存)と古典有限要素法(離散化)を組み合わせることである。 しかし、パラメータ空間からFEMに分解された解空間へのPDEの解写像を純粋にデータ駆動回帰問題として考慮する代わりに、いわゆる物理情報レグレッション問題は有用であることが証明されている。 これらにおいて、方程式残差はニューラルネットワークのトレーニング中に最小化される。 本稿では, 定常ストークスと定常ナヴィエ・ストークス方程式のそれぞれを, サドル点と非線形流体力学の問題に拡張する。 特に,訓練中のバニラ方程式の残差を最小限に抑える代わりに,プレコンディショナーによって修正された方程式の残差を最小限に抑える。 線形の場合と類似して、これは現在の非線形の場合の条件も改善する。 数値的な例では、このアプローチはトレーニングの労力を大幅に削減し、精度と一般化可能性を大幅に向上させる。 最後に,パラメータ化モデルの関連する逆問題への適用について述べる。

The numerical simulation and optimization of technical systems described by partial differential equations is expensive, especially in multi-query scenarios in which the underlying equations have to be solved for different parameters. A comparatively new approach in this context is to combine the good approximation properties of neural networks (for parameter dependence) with the classical finite element method (for discretization). However, instead of considering the solution mapping of the PDE from the parameter space into the FEM-discretized solution space as a purely data-driven regression problem, so-called physically informed regression problems have proven to be useful. In these, the equation residual is minimized during the training of the neural network, i.e. the neural network "learns" the physics underlying the problem. In this paper, we extend this approach to saddle-point and non-linear fluid dynamics problems, respectively, namely stationary Stokes and stationary Navier-Stokes equations. In particular, we propose a modification of the existing approach: Instead of minimizing the plain vanilla equation residual during training, we minimize the equation residual modified by a preconditioner. By analogy with the linear case, this also improves the condition in the present non-linear case. Our numerical examples demonstrate that this approach significantly reduces the training effort and greatly increases accuracy and generalizability. Finally, we show the application of the resulting parameterized model to a related inverse problem.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# グリーンコーヒー豆の着色特性

Site-Specific Color Features of Green Coffee Beans ( http://arxiv.org/abs/2409.04068v1 )

ライセンス: Link先を確認
Shu-Min Tan, Shih-Hsun Hung, Je-Chiang Tsai, (参考訳) コーヒーは最も価値の高い主要商品の1つである。 それにもかかわらず、グリーンコーヒー豆の一般的な選択技術は、労働集約的で主観的な人為的視覚検査に依存している。 そのため、豆の品質を評価するための効率的な方法が必要である。 本稿では,グリーンコーヒー豆の種皮の部位別着色特性を明らかにするために,部位非依存のアプローチを実証する。 そこで我々は,このサイト固有の色特徴に基づくグリーンコーヒー豆の2つの評価手法を提案する。 これらの色特徴のサイト固有の性質から、機械学習分類器は、既存のbeansの評価手法と比較して、単純で計算コストの少ない、普遍的な適用性を有するという利点があることを示唆している。 最後に、このサイト固有の色特徴は、異なる成長するサイトから適格な豆を区別することができる。 さらに,この機能はコーヒービジネスにおける不正行為を防止し,豆の評価方法に特有である。

Coffee is one of the most valuable primary commodities. Despite this, the common selection technique of green coffee beans relies on personnel visual inspection, which is labor-intensive and subjective. Therefore, an efficient way to evaluate the quality of beans is needed. In this paper, we demonstrate a site-independent approach to find site-specific color features of the seed coat in qualified green coffee beans. We then propose two evaluation schemes for green coffee beans based on this site-specific color feature of qualified beans. Due to the site-specific properties of these color features, machine learning classifiers indicate that compared with the existing evaluation schemes of beans, our evaluation schemes have the advantages of being simple, having less computational costs, and having universal applicability. Finally, this site-specific color feature can distinguish qualified beans from different growing sites. Moreover, this function can prevent cheating in the coffee business and is unique to our evaluation scheme of beans.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# 歩行者追跡のためのオフライン専門家からのオンライン残留学習

Online Residual Learning from Offline Experts for Pedestrian Tracking ( http://arxiv.org/abs/2409.04069v1 )

ライセンス: Link先を確認
Anastasios Vlachos, Anastasios Tsiamis, Aren Karapetyan, Efe C. Balta, John Lygeros, (参考訳) 本稿では,未知のターゲットをデータから予測する問題について考察する。 オンライン適応とオフライン学習予測を組み合わせたオンライン残留学習(ORL)を提案する。 より低いレベルでは、予測水平線の前後で生成された複数のオフライン予測を用いる。 我々は、再帰的最小二乗アルゴリズムを用いて、真のターゲット状態に関する各残差をオンラインで学習することで、すべてのオフライン予測を増強する。 より高いレベルでは、強化された下位レベルの予測器を専門家として扱い、エキスパートアドバイザフレームワークによる予測を採用する。 我々は適応型ソフトマックス重み付け方式を用いて集合予測を行い、後悔の観点からORLの保証を行う。 我々は,オンライン歩行者軌道予測の設定における性能向上のためにORLを用いている。 スタンフォード大学のDrone Datasetのデータから、ORLは両世界の最高のパフォーマンスを示すことができることを示す。

In this paper, we consider the problem of predicting unknown targets from data. We propose Online Residual Learning (ORL), a method that combines online adaptation with offline-trained predictions. At a lower level, we employ multiple offline predictions generated before or at the beginning of the prediction horizon. We augment every offline prediction by learning their respective residual error concerning the true target state online, using the recursive least squares algorithm. At a higher level, we treat the augmented lower-level predictors as experts, adopting the Prediction with Expert Advice framework. We utilize an adaptive softmax weighting scheme to form an aggregate prediction and provide guarantees for ORL in terms of regret. We employ ORL to boost performance in the setting of online pedestrian trajectory prediction. Based on data from the Stanford Drone Dataset, we show that ORL can demonstrate best-of-both-worlds performance.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# ウェーブレットグラフ理論を用いたアルツハイマー病脳ネットワークの研究

Study of Brain Network in Alzheimers Disease Using Wavelet-Based Graph Theory Method ( http://arxiv.org/abs/2409.04072v1 )

ライセンス: Link先を確認
Ali Khazaee, Abdolreza Mohammadi, Ruairi Oreally, (参考訳) アルツハイマー病(英: Alzheimer's disease、AD)は、記憶喪失と認知低下を特徴とする神経変性疾患である。 しかし,異種症状の出現により早期診断は困難である。 安静時fMRI(r-fMRI)は、ADと軽度認知障害(MCI)で破壊されることで知られる自然脳活動と機能的接続を捉えている。 ピアソンの相関のような伝統的な手法は相関行列を計算するために用いられてきたが、これらの手法は脳活動の動的および非定常的な性質をしばしば見落としている。 本研究では、離散ウェーブレット変換(DWT)とグラフ理論を統合し、脳ネットワークの動的挙動をモデル化する新しい手法を提案する。 DWTを用いてrs-fMRI信号を分解することにより、脳活動の時間周波数表現を捉え、基礎となるネットワークダイナミクスをより微妙に解析することができる。 グラフ理論は、これらの複雑なネットワークを分析するための堅牢な数学的フレームワークを提供する一方、機械学習は、異なる周波数帯域からの学習パターンに基づいて、ADの異なるステージの識別を自動化するために使用される。 本手法をアルツハイマー病神経画像イニシアチブ(ADNI)データベースからRS-fMRI画像のデータセットに適用し,ADの早期診断ツールとしての可能性と疾患進行のモニタリングに応用した。 我々の統計分析では、ADとMCIに影響を及ぼす特定の脳領域と接続を異なる周波数帯域で特定し、脳機能に対する疾患の影響についてより深い知見を提供する。

Alzheimer's disease (AD) is a neurodegenerative disorder marked by memory loss and cognitive decline, making early detection vital for timely intervention. However, early diagnosis is challenging due to the heterogeneous presentation of symptoms. Resting-state fMRI (rs-fMRI) captures spontaneous brain activity and functional connectivity, which are known to be disrupted in AD and mild cognitive impairment (MCI). Traditional methods, such as Pearson's correlation, have been used to calculate association matrices, but these approaches often overlook the dynamic and non-stationary nature of brain activity. In this study, we introduce a novel method that integrates discrete wavelet transform (DWT) and graph theory to model the dynamic behavior of brain networks. By decomposing rs-fMRI signals using DWT, our approach captures the time-frequency representation of brain activity, allowing for a more nuanced analysis of the underlying network dynamics. Graph theory provides a robust mathematical framework to analyze these complex networks, while machine learning is employed to automate the discrimination of different stages of AD based on learned patterns from different frequency bands. We applied our method to a dataset of rs-fMRI images from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database, demonstrating its potential as an early diagnostic tool for AD and for monitoring disease progression. Our statistical analysis identifies specific brain regions and connections that are affected in AD and MCI, at different frequency bands, offering deeper insights into the disease's impact on brain function.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# AnyMatch -- 小さな言語モデルとの効率的なゼロショットエンティティマッチング

AnyMatch -- Efficient Zero-Shot Entity Matching with a Small Language Model ( http://arxiv.org/abs/2409.04073v1 )

ライセンス: Link先を確認
Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter, (参考訳) エンティティマッチング(EM)は、2つのレコードが同じ現実世界のエンティティを指すかどうかを決定する問題である。 多くのEMアプローチの大きな欠点は、ラベル付き例に依存することである。 したがって、ラベル付きサンプルが見えないターゲットデータセットで利用できないゼロショットエンティティマッチングの難しい設定に焦点を当てる。 近年,大規模言語モデル (LLM) はゼロショットEMに対して有望な結果を示しているが,低スループットと高デプロイメントコストで適用性とスケーラビリティが制限されている。 我々は、転送学習設定で微調整された小さな言語モデルであるAnyMatchでゼロショットEM問題を再検討する。 本稿では,AutoMLフィルタを用いてマッチングする困難なペアを選択し,属性レベルの追加例を生成し,データ内のラベルの不均衡を制御することによって,モデルのための微調整データを生成する新しいデータ選択手法を提案する。 我々は,9つのベンチマークデータセットにおいて,13のベースラインと比較して,予測品質と展開コストを広範囲に評価する。 我々は、AnyMatchは、パラメータサイズが小さいにもかかわらず、競争力のある予測品質を提供しており、F1スコア全体では2番目に高く、数十億のパラメータを持つモデルを使用する他のアプローチよりも優れています。 さらに、AnyMatchの予測品質は、プロプライエタリな1兆パラメータモデルGPT-4による最先端手法MatchGPTの4.4%以内であるが、AnyMatchではパラメータが桁違いに少なく、3,899倍の推論コスト(1000トークンあたりのドル)を必要とする。

Entity matching (EM) is the problem of determining whether two records refer to same real-world entity, which is crucial in data integration, e.g., for product catalogs or address databases. A major drawback of many EM approaches is their dependence on labelled examples. We thus focus on the challenging setting of zero-shot entity matching where no labelled examples are available for an unseen target dataset. Recently, large language models (LLMs) have shown promising results for zero-shot EM, but their low throughput and high deployment cost limit their applicability and scalability. We revisit the zero-shot EM problem with AnyMatch, a small language model fine-tuned in a transfer learning setup. We propose several novel data selection techniques to generate fine-tuning data for our model, e.g., by selecting difficult pairs to match via an AutoML filter, by generating additional attribute-level examples, and by controlling label imbalance in the data. We conduct an extensive evaluation of the prediction quality and deployment cost of our model, in a comparison to thirteen baselines on nine benchmark datasets. We find that AnyMatch provides competitive prediction quality despite its small parameter size: it achieves the second-highest F1 score overall, and outperforms several other approaches that employ models with hundreds of billions of parameters. Furthermore, our approach exhibits major cost benefits: the average prediction quality of AnyMatch is within 4.4% of the state-of-the-art method MatchGPT with the proprietary trillion-parameter model GPT-4, yet AnyMatch requires four orders of magnitude less parameters and incurs a 3,899 times lower inference cost (in dollars per 1,000 tokens).
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# UI-JEPA: 画面上でのユーザアクティビティによるユーザインテントのアクティブな認識に向けて

UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity ( http://arxiv.org/abs/2409.04081v1 )

ライセンス: Link先を確認
Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin, (参考訳) ユーザインターフェース(UI)アクションのシーケンスからユーザ意図を生成することは、包括的なUI理解における中核的な課題である。 MLLM(Multimodal large language model)の最近の進歩は、この分野でかなりの進歩をもたらしたが、広範囲なモデルパラメータ、計算能力、高レイテンシ要求は、軽量でオンデバイスなソリューションが必要で、レイテンシーが低く、プライバシーが高くなるシナリオでは実用的ではない。 さらに、高品質なデータセットの欠如により、このような軽量モデルの開発が妨げられている。 これらの課題に対処するために,UI-JEPAを提案する。UI-JEPAは,自己教師付き学習を通じてラベル付きデータから抽象的なUI埋め込みを学習するためのマスキング戦略を利用する新しいフレームワークであり,ユーザ意図の予測のために微調整されたLLMデコーダと組み合わせる。 Intent in the Wild" (IIW) と "Intent in the Tame" (IIT) の2つの新しいUIグラウンド型マルチモーダルデータセットも導入した。 IIWは219カテゴリーの1.7Kビデオで構成され、IITは10カテゴリの914ビデオを含んでいる。 我々はこれらのデータセットの最初のベースラインを確立し、JEPAスタイルの目的とLLMデコーダを組み合わせて学習した表現が、最先端の大規模MLLMのパフォーマンスに匹敵するユーザ意図の予測を達成できることを示した。 UI-JEPAは意図的類似度スコアによって測定され、GPT-4 TurboとClaude 3.5 Sonnetをそれぞれ10.0%と7.2%上回り、2つのデータセットで平均した。 特に、UI-JEPAは、計算コストを0.5倍削減し、IIWデータセットのレイテンシを6.6倍改善することで、パフォーマンスを達成する。 これらの結果はUI-JEPAの有効性を強調し、軽量で高性能なUI理解の可能性を強調している。

Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, "Intent in the Wild" (IIW) and "Intent in the Tame" (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# SDformerFlow:イベントベース光フロー推定のための時空間スウィンスパイクフォーマ

SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation ( http://arxiv.org/abs/2409.04082v1 )

ライセンス: Link先を確認
Yi Tian, Juan Andrade-Cetto, (参考訳) イベントカメラは、光強度の変化をキャプチャする非同期でスパースなイベントストリームを生成する。 従来のフレームベースのカメラに比べて、よりダイナミックな範囲と極めて高速なデータレートといった大きな利点があり、高速な動きや困難な照明条件を含むシナリオで特に有用である。 スパイキングニューラルネットワーク(SNN)も同様の非同期特性とスパース特性を共有し、イベントカメラのデータ処理に適している。 本稿では,他のコンピュータビジョンタスクにおける変圧器やスパイク駆動型変圧器(スパイクフォーマ)の可能性に触発されて,イベントカメラの高速かつ堅牢な光フロー推定法として,STTFlowNetとSDformerFlowを提案する。 STTFlowNetは、時空間シフトしたウィンドウ自己アテンション(スウィン)トランスフォーマーエンコーダを備えたU字型人工知能ニューラルネットワーク(ANN)アーキテクチャを採用しており、SDformerFlowはスウィンスパイクフォーマーエンコーダを組み込んだ完全なスパイクを行う。 さらに、異なるニューロンモデルを持つスパイキングバージョンの2つの変種を提示する。 我々の研究は、高密度光流量推定にスパイクフォーマを用いた最初のものである。 教師付き学習を用いて,すべてのモデルのエンドツーエンドトレーニングを行う。 以上の結果から,DSECおよびMVSECデータセット上でのSNNを用いたイベント光フロー法の性能が向上し,同等のANNと比較して消費電力が大幅に減少した。

Event cameras generate asynchronous and sparse event streams capturing changes in light intensity. They offer significant advantages over conventional frame-based cameras, such as a higher dynamic range and an extremely faster data rate, making them particularly useful in scenarios involving fast motion or challenging lighting conditions. Spiking neural networks (SNNs) share similar asynchronous and sparse characteristics and are well-suited for processing data from event cameras. Inspired by the potential of transformers and spike-driven transformers (spikeformers) in other computer vision tasks, we propose two solutions for fast and robust optical flow estimation for event cameras: STTFlowNet and SDformerFlow. STTFlowNet adopts a U-shaped artificial neural network (ANN) architecture with spatiotemporal shifted window self-attention (swin) transformer encoders, while SDformerFlow presents its fully spiking counterpart, incorporating swin spikeformer encoders. Furthermore, we present two variants of the spiking version with different neuron models. Our work is the first to make use of spikeformers for dense optical flow estimation. We conduct end-to-end training for all models using supervised learning. Our results yield state-of-the-art performance among SNN-based event optical flow methods on both the DSEC and MVSEC datasets, and show significant reduction in power consumption compared to the equivalent ANNs.
翻訳日:2024-09-09 16:36:07 公開日:2024-09-06
# Redditスレッドの成長ネットワークの構造とダイナミクス

Structure and dynamics of growing networks of Reddit threads ( http://arxiv.org/abs/2409.04085v1 )

ライセンス: Link先を確認
Diletta Goglia, Davide Vega, (参考訳) 何百万人もの人々がオンラインソーシャルネットワークを使って所有意識を強化し、例えば、社会的検証と自己認識の形でフィードバックを与え、求めている。 このフィードバックを表現する際に、人々の信念や視点の相違を観察することが一般的である。 このような相互作用をモデル化し分析することは、人々が自分の価値を表現し議論しながら異なる意見に直面しているときに起こる社会現象を理解するために重要である。 本研究では,ユーザが何らかの行動に関して判断や判断に参画するRedditコミュニティについて検討する。 我々は、このコミュニティのスレッドを、時間とともに成長するユーザインタラクションの複雑なネットワークとしてモデル化し、それらの構造的特性の進化を分析する。 Redditネットワークの進化は他のソーシャルネットワークと異なるが、同じカテゴリーに落ちている。 これは、その大域的なクラスタリング係数が極めて小さく、時間とともに最も短い経路長が増加するためである。 このような特性は、ユーザーがスレッドでどのように議論するか、すなわち、他のほとんどのユーザーと、しばしば1つのメッセージによって明らかにする。 このような会話において、不一致や相互性が果たす役割を分析することで、このような結果を補強する。 また、Redditスレッドの時間的進化は、異なる速度で成長する2つのサブグラフによって制御されていることも示しています。 研究コミュニティでは,特定のユーザインタラクションを強制するユーザガイドラインにより,そのようなスピードの違いが他のコミュニティよりも高いことが判明した。 最後に,ソーシャル・ジャッジメント・セオリー(Social Judgment Theory)にさかのぼるユーザ行動について,得られた結果を解釈する。

Millions of people use online social networks to reinforce their sense of belonging, for example by giving and asking for feedback as a form of social validation and self-recognition. It is common to observe disagreement among people beliefs and points of view when expressing this feedback. Modeling and analyzing such interactions is crucial to understand social phenomena that happen when people face different opinions while expressing and discussing their values. In this work, we study a Reddit community in which people participate to judge or be judged with respect to some behavior, as it represents a valuable source to study how users express judgments online. We model threads of this community as complex networks of user interactions growing in time, and we analyze the evolution of their structural properties. We show that the evolution of Reddit networks differ from other real social networks, despite falling in the same category. This happens because their global clustering coefficient is extremely small and the average shortest path length increases over time. Such properties reveal how users discuss in threads, i.e. with mostly one other user and often by a single message. We strengthen such result by analyzing the role that disagreement and reciprocity play in such conversations. We also show that Reddit thread's evolution over time is governed by two subgraphs growing at different speeds. We discover that, in the studied community, the difference of such speed is higher than in other communities because of the user guidelines enforcing specific user interactions. Finally, we interpret the obtained results on user behavior drawing back to Social Judgment Theory.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 単眼深度推定のためのクラス認識メトリクスの導入:自動車の視点から

Introducing a Class-Aware Metric for Monocular Depth Estimation: An Automotive Perspective ( http://arxiv.org/abs/2409.04086v1 )

ライセンス: Link先を確認
Tim Bader, Leon Eisemann, Adrian Pogorzelski, Namrata Jangid, Attila-Balazs Kis, (参考訳) メートル法単眼深度推定モデルの精度の向上は自動車分野からの関心の高まりにつながった。 現在のモデル評価は、モデルの性能に関する深い洞察を与えていない。 本稿では,深度推定モデルの評価のための新しい手法を提案する。 提案手法では,3つのコンポーネント,クラスワイドコンポーネント,エッジとコーナーの画像特徴成分,グローバルな一貫性保持コンポーネントを活用している。 クラスは、シーンにおける距離と、自動車応用の臨界点についてさらに重み付けされている。 評価では,古典的メトリクスとの比較,クラスワイド分析,重要な状況の検索を通じて,指標の利点を示す。 結果から,我々の測定基準は,安全クリティカルな要件を満たしつつ,モデル結果のより深い洞察を提供することがわかった。 コードと重みは以下のリポジトリで公開します。

The increasing accuracy reports of metric monocular depth estimation models lead to a growing interest from the automotive domain. Current model evaluations do not provide deeper insights into the models' performance, also in relation to safety-critical or unseen classes. Within this paper, we present a novel approach for the evaluation of depth estimation models. Our proposed metric leverages three components, a class-wise component, an edge and corner image feature component, and a global consistency retaining component. Classes are further weighted on their distance in the scene and on criticality for automotive applications. In the evaluation, we present the benefits of our metric through comparison to classical metrics, class-wise analytics, and the retrieval of critical situations. The results show that our metric provides deeper insights into model results while fulfilling safety-critical requirements. We release the code and weights on the following repository: \href{https://github.com/leisemann/ca_mmde}
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 未知の量子状態からの最大作業抽出:フィードバック実験によるエルゴトロピー推定

Maximal work extraction unitarily from an unknown quantum state: Ergotropy estimation via feedback experiments ( http://arxiv.org/abs/2409.04087v1 )

ライセンス: Link先を確認
Jitendra Joshi, T. S Mahesh, (参考訳) 量子技術の新たな応用を考えると、量子レベルでのエネルギー貯蔵と利用を研究することは大きな関心事である。 この文脈では、エネルギー貯蔵型量子デバイスから一元的に抽出できる仕事の最大量であるエルゴトロピーの研究に重要な現代的関心がある。 本稿では,エルゴトロピー推定のためのフィードバックベースアルゴリズム(FQErgo)を提案する。 また、任意の初期状態を受動的状態に変換することで、さらなるユニタリな作業抽出が不可能になる。 FQErgoは、特定の期待値によって強度が反復的に調整されたドライブフィールドを適用し、単一のプローブキュービットを使用して都合よく読み取る。 したがって、FQErgoは一元的エネルギー抽出と受動的状態の生成に実用的な方法を提供している。 ランダム初期状態におけるFQErgoの数値解析により、ドライブエラーがあっても受動状態の生成とエルゴトロピーの推定が成功することを確認した。 最後に、2ビットと3ビットのNMRレジスタにFQErgoを実装し、その受動的状態を作成し、そのエルゴトロピーを正確に推定する。

Considering the emerging applications of quantum technologies, studying energy storage and usage at the quantum level is of great interest. In this context, there is a significant contemporary interest in studying ergotropy, the maximum amount of work that can be extracted unitarily from an energy-storing quantum device. Here, we propose and experimentally demonstrate a feedback-based algorithm (FQErgo) for estimating ergotropy. This method also transforms an arbitrary initial state to its passive state, which allows no further unitary work extraction. FQErgo applies drive fields whose strengths are iteratively adjusted via certain expectation values, conveniently read using a single probe qubit. Thus, FQErgo provides a practical way for unitary energy extraction and for preparing passive states. By numerically analyzing FQErgo on random initial states, we confirm the successful preparation of passive states and estimation of ergotropy, even in the presence of drive errors. Finally, we implement FQErgo on two- and three-qubit NMR registers, prepare their passive states, and accurately estimate their ergotropy.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# ロスシーマルチパス原子干渉計のスキューズ化

Squeezing Enhancement in Lossy Multi-Path Atom Interferometers ( http://arxiv.org/abs/2409.04091v1 )

ライセンス: Link先を確認
Julian Günther, Jan-Niclas Kirsten-Siemß, Naceur Gaaloul, Klemens Hammerer, (参考訳) 本稿では、特にブラッグ回折を用いて、原子間干渉法においてスピンスクイーズ状態によって得られる感度の利得について検討する。 我々は、速度選択性による損失や望ましくない運動量状態への散乱を含む、現実的な非単位干渉計を正確に記述する一般化された入出力形式を導入する。 この定式化は1軸ねじれスピンスクイーズ状態の性能評価に応用され、位相感度が向上する。 以上の結果から,ブラッグビームスプリッタのパラメータを慎重に最適化し,スケザリングの程度を制御することにより,光パルス操作における現実的な損失レベルにもかかわらず,標準量子限界に対する干渉計の感度を数dBで向上できることが示唆された。 しかし、この分析はこれらの改善を実際に達成する上での課題、特に有限温度が絡み合いの利点に与える影響も強調している。 その結果,現実的な条件下での量子絡み合いを利用して干渉計のセットアップを最適化する方法が示唆され,原子干渉計による精密距離測定の進歩に寄与した。

This paper explores the sensitivity gains afforded by spin-squeezed states in atom interferometry, in particular using Bragg diffraction. We introduce a generalised input-output formalism that accurately describes realistic, non-unitary interferometers, including losses due to velocity selectivity and scattering into undesired momentum states. This formalism is applied to evaluate the performance of one-axis twisted spin-squeezed states in improving phase sensitivity. Our results show that by carefully optimising the parameters of the Bragg beam splitters and controlling the degree of squeezing, it is possible to improve the sensitivity of the interferometer by several dB with respect to the standard quantum limit despite realistic levels of losses in light pulse operations. However, the analysis also highlights the challenges associated with achieving these improvements in practice, most notably the impact of finite temperature on the benefits of entanglement. The results suggest ways of optimising interferometric setups to exploit quantum entanglement under realistic conditions, thereby contributing to advances in precision metrology with atom interferometers.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# UNIT:ワンビジョンエンコーダにおける画像とテキスト認識の統合

UNIT: Unifying Image and Text Recognition in One Vision Encoder ( http://arxiv.org/abs/2409.04095v1 )

ライセンス: Link先を確認
Yi Zhu, Yanpeng Zhou, Chunwei Wang, Yang Cao, Jianhua Han, Lu Hou, Hang Xu, (参考訳) 現在、視覚変換器(ViT)のような視覚エンコーダモデルは、一般的に画像認識タスクに優れるが、人間の視覚認識のようなテキスト認識を同時にサポートすることはできない。 この制限に対処するために、単一のモデル内で画像とテキストの認識を統一する新しいトレーニングフレームワークUNITを提案する。 UNITは、画像認識タスクで事前訓練されたビジョンエンコーダから始め、テキスト出力を予測するための軽量言語デコーダと、元の画像エンコーダ機能の破滅的な忘れを防止するための軽量ビジョンデコーダを導入している。 トレーニングプロセスは、スケール内事前訓練とスケール間微調整の2段階からなる。 大規模な事前訓練中、UNITは画像と文書が一般的に使用される解像度にあるマルチスケール入力から統一表現を学習し、基本的な認識機能を実現する。 スケール間微調整の段階では、最も一般的に使用されるものとは異なる解像度で画像や文書を特徴付けるスケール交換データを導入し、スケールロバスト性を高める。 注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。 複数のベンチマークで実験した結果,本手法は文書関連タスク(例えば OCR や DocQA)の既存手法よりも高い性能を示し,そのコア画像認識能力を向上することなく,テキスト認識を大幅に向上させる能力を示した。

Currently, vision encoder models like Vision Transformers (ViTs) typically excel at image recognition tasks but cannot simultaneously support text recognition like human visual recognition. To address this limitation, we propose UNIT, a novel training framework aimed at UNifying Image and Text recognition within a single model. Starting with a vision encoder pre-trained with image recognition tasks, UNIT introduces a lightweight language decoder for predicting text outputs and a lightweight vision decoder to prevent catastrophic forgetting of the original image encoding capabilities. The training process comprises two stages: intra-scale pretraining and inter-scale finetuning. During intra-scale pretraining, UNIT learns unified representations from multi-scale inputs, where images and documents are at their commonly used resolution, to enable fundamental recognition capability. In the inter-scale finetuning stage, the model introduces scale-exchanged data, featuring images and documents at resolutions different from the most commonly used ones, to enhance its scale robustness. Notably, UNIT retains the original vision encoder architecture, making it cost-free in terms of inference and deployment. Experiments across multiple benchmarks confirm that our method significantly outperforms existing methods on document-related tasks (e.g., OCR and DocQA) while maintaining the performances on natural images, demonstrating its ability to substantially enhance text recognition without compromising its core image recognition capabilities.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 統計情報による超不均衡分類

Ultra-imbalanced classification guided by statistical information ( http://arxiv.org/abs/2409.04101v1 )

ライセンス: Link先を確認
Yin Jin, Ningtao Wang, Ruofan Wu, Pengfei Shi, Xing Fu, Weiqiang Wang, (参考訳) 不均衡データは、現実世界の分類タスクで頻繁に発生する。 これまでの不均衡学習の研究は主に少数のサンプルで学ぶことに焦点を当てていた。 しかし、少数民族が豊富なサンプルを含む場合においても不均衡の概念は適用され、金融リスク管理分野における不正検出などの工業的応用が普通である。 本稿では,<emph{ultra-im Balanced classification} (UIC) と呼ばれる新しい定式化を提案することにより,不均衡学習に対する集団レベルのアプローチを提案する。 UICでは、無限のトレーニングサンプルが利用可能であっても、損失関数は異なる振る舞いをする。 UIC問題の本質的な難しさを理解するために,情報理論からアイデアを借り,統計情報のレンズを通して異なる損失関数を比較する枠組みを確立する。 新たな学習目標であるTunable Boosting Lossは、UIC下でのデータ不均衡に対して証明可能な耐性を有し、パブリックデータセットと産業データセットの両方に関する広範な実験的研究によって実証的に有効である。

Imbalanced data are frequently encountered in real-world classification tasks. Previous works on imbalanced learning mostly focused on learning with a minority class of few samples. However, the notion of imbalance also applies to cases where the minority class contains abundant samples, which is usually the case for industrial applications like fraud detection in the area of financial risk management. In this paper, we take a population-level approach to imbalanced learning by proposing a new formulation called \emph{ultra-imbalanced classification} (UIC). Under UIC, loss functions behave differently even if infinite amount of training samples are available. To understand the intrinsic difficulty of UIC problems, we borrow ideas from information theory and establish a framework to compare different loss functions through the lens of statistical information. A novel learning objective termed Tunable Boosting Loss is developed which is provably resistant against data imbalance under UIC, as well as being empirically efficient verified by extensive experimental studies on both public and industrial datasets.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 雑音ゲートを持つベイズネットワークによるインテリジェントチューリングシステム

Intelligent tutoring systems by Bayesian networks with noisy gates ( http://arxiv.org/abs/2409.04102v1 )

ライセンス: Link先を確認
Alessandro Antonucci, Francesca Mangili, Claudio Bonesana, Giorgia Adorni, (参考訳) ベイジアンネットのような直進的なグラフィカルモデルは、純粋に自動で学習者とリアルタイムで対話できるインテリジェントなチューリングシステムを実装するためにしばしば使用される。 このようなモデルに対処する場合、パラメータの数に縛られることは、複数の理由から重要である。 第一に、これらのモデルは一般的に専門家の知識に基づいているため、実践者が採用を妨げている可能性がある。 さらに、モデルパラメータの数は推論の複雑さに影響を与えるが、リアルタイムフィードバックにはクエリの高速な計算が必要である。 我々は、チューリングシステムで使用される基底ベイズネットにおける条件付き確率表のコンパクトなパラメトリゼーションのための不確実性のある論理ゲートを提唱する。 本稿では、モデルパラメータのセマンティクスと、そのようなアプローチをこの領域に適用するために必要な仮定について論じる。 また、計算を高速化する専用の推論スキームも作成する。

Directed graphical models such as Bayesian nets are often used to implement intelligent tutoring systems able to interact in real-time with learners in a purely automatic way. When coping with such models, keeping a bound on the number of parameters might be important for multiple reasons. First, as these models are typically based on expert knowledge, a huge number of parameters to elicit might discourage practitioners from adopting them. Moreover, the number of model parameters affects the complexity of the inferences, while a fast computation of the queries is needed for real-time feedback. We advocate logical gates with uncertainty for a compact parametrization of the conditional probability tables in the underlying Bayesian net used by tutoring systems. We discuss the semantics of the model parameters to elicit and the assumptions required to apply such approach in this domain. We also derive a dedicated inference scheme to speed up computations.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# バイオメディカル知識グラフ補完モデルの性能評価におけるグラフトポロジの役割

The Role of Graph Topology in the Performance of Biomedical Knowledge Graph Completion Models ( http://arxiv.org/abs/2409.04103v1 )

ライセンス: Link先を確認
Alberto Cattaneo, Stephen Bonner, Thomas Martynec, Carlo Luschi, Ian P Barrett, Daniel Justus, (参考訳) 知識グラフ補完は、薬物の精製や薬物標的の識別など、バイオメディカル研究におけるいくつかのタスクに有用な方法として、ますます採用されている。 そのために、さまざまなデータセットと知識グラフの埋め込みモデルが長年にわたって提案されてきた。 しかし、与えられたタスクに有用なデータセットを描画する特性についてはほとんど分かっておらず、知識グラフ埋め込みモデルの理論的性質はよく理解されているものの、この分野での実用性については議論の余地がある。 本研究では,生物医学的知識グラフのトポロジ的特性を包括的に調査し,実世界の応用で観測された精度のリンクを確立する。 すべてのモデル予測と新しい分析ツールをリリースすることによって、コミュニティは私たちの仕事の上に構築し、これらの重要なアプリケーションの理解を引き続き改善するよう促します。

Knowledge Graph Completion has been increasingly adopted as a useful method for several tasks in biomedical research, like drug repurposing or drug-target identification. To that end, a variety of datasets and Knowledge Graph Embedding models has been proposed over the years. However, little is known about the properties that render a dataset useful for a given task and, even though theoretical properties of Knowledge Graph Embedding models are well understood, their practical utility in this field remains controversial. We conduct a comprehensive investigation into the topological properties of publicly available biomedical Knowledge Graphs and establish links to the accuracy observed in real-world applications. By releasing all model predictions and a new suite of analysis tools we invite the community to build upon our work and continue improving the understanding of these crucial applications.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# MixNet: モーター画像脳波分類における包括的パイプラインへの古典的・近代的アプローチの参加力

MixNet: Joining Force of Classical and Modern Approaches Toward the Comprehensive Pipeline in Motor Imagery EEG Classification ( http://arxiv.org/abs/2409.04104v1 )

ライセンス: Link先を確認
Phairot Autthasan, Rattanaphon Chaisaen, Huy Phan, Maarten De Vos, Theerawit Wilaiprasitporn, (参考訳) 近年のディープラーニング(DL)の進歩は、運動画像(MI)ベースの脳-コンピュータインタフェース(BCI)システムに大きな影響を与え、脳波(EEG)信号の復号性を高めている。 しかし、ほとんどの研究では、MIタスク中の被差別者の識別に苦労し、MI分類性能を制限している。 本稿では、MIデータからのスペクトル空間信号とMIN2Netというマルチタスク学習アーキテクチャを利用して、この制限を克服する新しい分類フレームワークであるMixNetを提案する。 ここでは、MIデータ上のフィルタバンク共通空間パターン(FBCSP)法を用いてスペクトル空間信号を生成する。 マルチタスク学習アーキテクチャは、分類タスクに使用されるため、各タスクにおける学習は、タスク間の一般化率と潜在的な過度なオーバーフィットを示す可能性がある。 この問題に対処するために、適応的な勾配ブレンディングを実装し、複数の損失重みを同時に調整し、その一般化/過度化傾向に基づいて各タスクの学習速度を調整する。 6つのベンチマークデータセットの異なるデータサイズに関する実験結果から、MixNetは主観的および非依存的な設定において、すべての最先端アルゴリズムを一貫して上回っていることが示された。 最後に、低密度のEEG MI分類の結果は、MixNetがすべての最先端アルゴリズムを上回り、低密度のモンタージュに基づいた軽量でポータブルなEEGウェアラブルデバイスなど、IoT(Internet of Thing)アプリケーションに有望な影響を提供することを示している。

Recent advances in deep learning (DL) have significantly impacted motor imagery (MI)-based brain-computer interface (BCI) systems, enhancing the decoding of electroencephalography (EEG) signals. However, most studies struggle to identify discriminative patterns across subjects during MI tasks, limiting MI classification performance. In this article, we propose MixNet, a novel classification framework designed to overcome this limitation by utilizing spectral-spatial signals from MI data, along with a multitask learning architecture named MIN2Net, for classification. Here, the spectral-spatial signals are generated using the filter-bank common spatial patterns (FBCSPs) method on MI data. Since the multitask learning architecture is used for the classification task, the learning in each task may exhibit different generalization rates and potential overfitting across tasks. To address this issue, we implement adaptive gradient blending, simultaneously regulating multiple loss weights and adjusting the learning pace for each task based on its generalization/overfitting tendencies. Experimental results on six benchmark data sets of different data sizes demonstrate that MixNet consistently outperforms all state-of-the-art algorithms in subject-dependent and -independent settings. Finally, the low-density EEG MI classification results show that MixNet outperforms all state-of-the-art algorithms, offering promising implications for Internet of Thing (IoT) applications, such as lightweight and portable EEG wearable devices based on low-density montages.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# LLMは新たな研究思想を創出できるのか? 100人以上のNLP研究者による大規模人間研究

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers ( http://arxiv.org/abs/2409.04109v1 )

ライセンス: Link先を確認
Chenglei Si, Diyi Yang, Tatsunori Hashimoto, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、科学的な発見を加速する可能性に対する楽観主義を喚起し、新しいアイデアを自律的に生成し、検証する研究エージェントを提唱する研究が増えている。 それにもかかわらず、LLMシステムが新しい専門家レベルのアイデアを創出する第一歩を踏み出すことができるという評価は行われていない。 本研究は,共同創設者のコントロールをしながら研究アイデア生成を評価し,専門家NLP研究者とLLMアイデアエージェントとの直接比較を行う実験的な設計を確立することにより,この問題に対処する。 100人以上のNLP研究者を雇い、新しいアイデアとLLMと人間のアイデアの盲点レビューを書くことで、研究アイデアのための現在のLLM能力に関する最初の統計的に重要な結論を得る。 LLMの自己評価の失敗や世代における多様性の欠如など,研究エージェントの構築と評価におけるオープンな問題を明らかにする。 最後に, 新規性の人的判断は専門家でも困難であることを認め, 研究成果に有意な違いをもたらすかどうかを調査し, 研究者を全面的なプロジェクトとして採用するエンド・ツー・エンドの研究設計を提案する。

Recent advancements in large language models (LLMs) have sparked optimism about their potential to accelerate scientific discovery, with a growing number of works proposing research agents that autonomously generate and validate new ideas. Despite this, no evaluations have shown that LLM systems can take the very first step of producing novel, expert-level ideas, let alone perform the entire research process. We address this by establishing an experimental design that evaluates research idea generation while controlling for confounders and performs the first head-to-head comparison between expert NLP researchers and an LLM ideation agent. By recruiting over 100 NLP researchers to write novel ideas and blind reviews of both LLM and human ideas, we obtain the first statistically significant conclusion on current LLM capabilities for research ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility. Studying our agent baselines closely, we identify open problems in building and evaluating research agents, including failures of LLM self-evaluation and their lack of diversity in generation. Finally, we acknowledge that human judgements of novelty can be difficult, even by experts, and propose an end-to-end study design which recruits researchers to execute these ideas into full projects, enabling us to study whether these novelty and feasibility judgements result in meaningful differences in research outcome.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 垂直分割型多視点データに対するアクティブ・パッシブ・フェデレーション学習

Active-Passive Federated Learning for Vertically Partitioned Multi-view Data ( http://arxiv.org/abs/2409.04111v1 )

ライセンス: Link先を確認
Jiyuan Liu, Xinwang Liu, Siqi Wang, Xingchen Hu, Qing Liao, Xinhang Wan, Yi Zhang, Xin Lv, Kunlun He, (参考訳) 垂直的フェデレーション学習(Vertical Federated Learning)は、デバイス(クライアント)間で垂直に分割されたマルチビューデータを統合するための、自然でエレガントなアプローチである。 モデルトレーニングとは別に、既存のメソッドはモデル推論におけるすべてのクライアントの協調を必要とします。 しかし、モデル推論は長くサービスとして維持され、特にクライアントが異なる組織に属している場合、契約の完全性やネットワークの不安定性といった現実のシナリオでは予測不可能であり、結果としてそれらが失敗する。 この問題に対処するため、私たちはまず、フレキシブルなアクティブ・パッシブ・フェデレーション・ラーニング(APFed)フレームワークを提案します。 具体的には、アクティブクライアントは学習タスクの開始者であり、完全なモデルを構築する責任を持ち、受動的クライアントはアシスタントとしてのみ機能する。 モデルが構築されると、アクティブクライアントは独立して推論を行うことができる。 さらに、APFedフレームワークを2つの分類方法に分類し、それぞれに再構成損失とパッシブクライアントに対するコントラスト損失を利用する。 一方、2つの手法は一連の実験でテストされ、望ましい結果が得られ、有効性を検証する。

Vertical federated learning is a natural and elegant approach to integrate multi-view data vertically partitioned across devices (clients) while preserving their privacies. Apart from the model training, existing methods requires the collaboration of all clients in the model inference. However, the model inference is probably maintained for service in a long time, while the collaboration, especially when the clients belong to different organizations, is unpredictable in real-world scenarios, such as concellation of contract, network unavailablity, etc., resulting in the failure of them. To address this issue, we, at the first attempt, propose a flexible Active-Passive Federated learning (APFed) framework. Specifically, the active client is the initiator of a learning task and responsible to build the complete model, while the passive clients only serve as assistants. Once the model built, the active client can make inference independently. In addition, we instance the APFed framework into two classification methods with employing the reconstruction loss and the contrastive loss on passive clients, respectively. Meanwhile, the two methods are tested in a set of experiments and achieves desired results, validating their effectiveness.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 相互作用する非エルミタンスピン-1/21次元系の明示的波動関数

An Explicit Wavefunction of the Interacting Non-Hermitian Spin-1/2 1D System ( http://arxiv.org/abs/2409.04112v1 )

ライセンス: Link先を確認
Yue Wang, Xiangyu Zhang, Zhesen Yang, Congjun Wu, (参考訳) 1次元スピン-$\frac{1}{2}$相互作用するフェルミオン系に対して、相互作用と非エルミートスピン軌道カップリングの相互作用から生じる多体共鳴を明示するBethe-ansatz波動関数を示す。 希薄限界では、波動関数は大幅に単純化され、スレーター行列式とジャストロー因子に分解される。 有効熱力学分布は、パウリの排除原理と共鳴から生じる特異なジグザグポテンシャルから生じる反発を含む有効ハミルトニアンによって構成される。 これらの効果の競合は、均一に分散された構成から相分離へと遷移する。 近年のコールドアトムロス実験との関連について論じる。

We present an explicit Bethe-ansatz wavefunction to a 1D spin-$\frac{1}{2}$ interacting fermion system, manifesting a many-body resonance resulting from the interplay between interaction and non-Hermitian spin-orbit coupling. In the dilute limit, the wavefunction is greatly simplified and then factorized into Slater determinants and a Jastrow factor. An effective thermodynamic distribution is constructed with an effective Hamiltonian including a repulsion resulting from Pauli's exclusion principle and a distinctive zigzag potential arising from the resonance. The competition between these effects leads to a transition from a uniformly distributed configuration to a phase separation. The connection to the recent cold atom experimental efforts of realizing on-site atom-loss is discussed.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 大規模言語モデルにおけるコード生成のためのマルチプログラミング言語アンサンブル

Multi-Programming Language Ensemble for Code Generation in Large Language Model ( http://arxiv.org/abs/2409.04114v1 )

ライセンス: Link先を確認
Tengfei Xue, Xuefeng Li, Tahir Azim, Roman Smirnov, Jianhui Yu, Arash Sadrieh, Babak Pahlavan, (参考訳) 大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。 しかし、既存のほとんどのアプローチは、1つのプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。 LLMは異なる言語にまたがる様々なエラーパターンを持ち、これらの多言語出力を活用することでより堅牢なアプローチを開発することができることを示唆している。 本研究では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブル方式であるMulti-Programming Language Ensemble (MPLE)を提案する。 それぞれの言語固有のコード生成プロセスを個別の"弱専門家"として扱い,その出力を効果的に統合することにより,言語固有のエラーやバイアスを軽減できる。 この多言語アンサンブル戦略は、異なるプログラミング言語の補完的な強みを活用し、モデルがより正確で堅牢なコードを生成することを可能にする。 我々の手法は、リフレクションアルゴリズムやモンテカルロ木探索といった一般的な手法とシームレスに統合して、コード生成の品質をさらに向上させることができる。 実験結果から,既存のベンチマーク(HumanEvalとHumanEval+)のベースライン性能を最大17.92%向上し,HumanEvalベンチマークの96.25%の精度向上を実現した。 コードはhttps://github.com/NinjaTech-AI/MPLEでリリースされる。

Large language models (LLMs) have significantly improved code generation, particularly in one-pass code generation. However, most existing approaches focus solely on generating code in a single programming language, overlooking the potential of leveraging the multi-language capabilities of LLMs. LLMs have varying patterns of errors across different languages, suggesting that a more robust approach could be developed by leveraging these multi-language outputs. In this study, we propose Multi-Programming Language Ensemble (MPLE), a novel ensemble-based method that utilizes code generation across multiple programming languages to enhance overall performance. By treating each language-specific code generation process as an individual "weak expert" and effectively integrating their outputs, our method mitigates language-specific errors and biases. This multi-language ensemble strategy leverages the complementary strengths of different programming languages, enabling the model to produce more accurate and robust code. Our approach can be seamlessly integrated with commonly used techniques such as the reflection algorithm and Monte Carlo tree search to improve code generation quality further. Experimental results show that our framework consistently enhances baseline performance by up to 17.92% on existing benchmarks (HumanEval and HumanEval-plus), with a standout result of 96.25% accuracy on the HumanEval benchmark, achieving new state-of-the-art results across various LLM models. The code will be released at https://github.com/NinjaTech-AI/MPLE
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# Smooth-edged Perturbationsは摂動に基づく画像説明を改善する

Smooth-edged Perturbations Improve Perturbation-based Image Explanations ( http://arxiv.org/abs/2409.04116v1 )

ライセンス: Link先を確認
Gustav Grund Pihlgren, Kary Främling, (参考訳) 摂動に基づくポストホック画像説明法は、入力の一部を摂動することで画像予測モデルを説明するために一般的に用いられる。 個々のピクセルを個別に摂動させることの難しさのため、画像は典型的にはより大きなセグメントに起因している。 ランダム化入力サンプリング(RISE)法は,スムーズな摂動マスクを用いてこの問題を解決した。 この手法は有効で普及していると証明されているが、どの部分が成功に寄与しているかは研究されていない。 この研究は、マスクサンプリング、セグメンテーション技術、スムーシング、帰属計算の多くの組み合わせをテストする。 その結果,RISE方式の画素属性はすべての評価手法に有益であることが示唆された。 さらに、帰属計算が最も影響の少ないパラメータであることが示されている。 https://github.com/guspih/post-hoc-image-perturbation.com/post-hoc-image-perturbation.com では、この作業の実装がオンラインで公開されている。

Perturbation-based post-hoc image explanation methods are commonly used to explain image prediction models by perturbing parts of the input to measure how those parts affect the output. Due to the intractability of perturbing each pixel individually, images are typically attributed to larger segments. The Randomized Input Sampling for Explanations (RISE) method solved this issue by using smooth perturbation masks. While this method has proven effective and popular, it has not been investigated which parts of the method are responsible for its success. This work tests many combinations of mask sampling, segmentation techniques, smoothing, and attribution calculation. The results show that the RISE-style pixel attribution is beneficial to all evaluated methods. Furthermore, it is shown that attribution calculation is the least impactful parameter. The implementation of this work is available online: https://github.com/guspih/post-hoc-image-perturbation.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# 信頼性に配慮した文書OCRエラー検出

Confidence-Aware Document OCR Error Detection ( http://arxiv.org/abs/2409.04117v1 )

ライセンス: Link先を確認
Arthur Hemmer, Mickaël Coustaty, Nicola Bartolo, Jean-Marc Ogier, (参考訳) 光文字認識(OCR)は、その後のアプリケーションに影響を及ぼす精度の課題に直面し続けている。 これらの誤りに対処するために,OCR後誤り検出の精度向上のためのOCR信頼度スコアの有用性を検討する。 本研究は,OCRシステム間の信頼度と誤差率の相関関係について検討した。 我々は、OCR信頼スコアをトークン埋め込みに組み込んだBERTベースのモデルConfBERTを開発し、ノイズ調整のための任意の事前学習フェーズを提供する。 実験の結果,OCRの信頼性スコアの統合により誤り検出能力が向上することが示された。 本研究は,検出精度の向上におけるOCR信頼性スコアの重要性を強調し,商用OCR技術とオープンソースOCR技術のパフォーマンスの相違を明らかにした。

Optical Character Recognition (OCR) continues to face accuracy challenges that impact subsequent applications. To address these errors, we explore the utility of OCR confidence scores for enhancing post-OCR error detection. Our study involves analyzing the correlation between confidence scores and error rates across different OCR systems. We develop ConfBERT, a BERT-based model that incorporates OCR confidence scores into token embeddings and offers an optional pre-training phase for noise adjustment. Our experimental results demonstrate that integrating OCR confidence scores can enhance error detection capabilities. This work underscores the importance of OCR confidence scores in improving detection accuracy and reveals substantial disparities in performance between commercial and open-source OCR technologies.
翻訳日:2024-09-09 16:25:56 公開日:2024-09-06
# Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering

Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering ( http://arxiv.org/abs/2409.04122v1 )

ライセンス: Link先を確認
Jan Hofmann, Cornelia Sindermann, Roman Klinger, (参考訳) 著者プロファイルは、共有するコンテンツを分析して個人の特徴を推測するタスクである。 監視された機械学習は、自然言語理解タスクに対処するために大きな言語モデルを促すことの人気にもかかわらず、このタスクを実行する自動システムを支配している。 1つの理由は、分類インスタンスが大量のポストで構成されており、おそらくユーザプロファイル全体であり、トランスフォーマーの入力長を超える可能性があるからである。 たとえモデルが大きなコンテキストウインドウを使えるとしても、投稿の全体は、このような"needle-in-the-haystack"タスクで発生する問題に次いで、APIアクセスのブラックボックスシステムのコストと遅延を発生させる。 この制限を緩和するために、関係のないコンテンツと関係のないコンテンツとを区別することを目的とした著者プロファイリングの新しい手法を提案し、続いて、関連するデータのみを実際のユーザプロファイリングする。 関連付け付きデータの必要性を回避するため,大言語モデルのゼロショット機能を利用する報酬関数を用いた強化学習により,この関連付けフィルタを最適化する。 2つのTwitterコーパスにおける5つの人格特性予測手法の評価を行った。 本手法は,スキューラベル分布を用いた実世界の公開データに対して,ユーザプロファイル内の全投稿と類似した有効性を示すが,コンテキストは極めて短い。 これらのデータと人工投稿のバランスの取れたバージョンの評価は、関連する投稿に対するフィルタリングが予測の精度を大幅に向上させることを示している。

Author profiling is the task of inferring characteristics about individuals by analyzing content they share. Supervised machine learning still dominates automatic systems that perform this task, despite the popularity of prompting large language models to address natural language understanding tasks. One reason is that the classification instances consist of large amounts of posts, potentially a whole user profile, which may exceed the input length of Transformers. Even if a model can use a large context window, the entirety of posts makes the application of API-accessed black box systems costly and slow, next to issues which come with such "needle-in-the-haystack" tasks. To mitigate this limitation, we propose a new method for author profiling which aims at distinguishing relevant from irrelevant content first, followed by the actual user profiling only with relevant data. To circumvent the need for relevance-annotated data, we optimize this relevance filter via reinforcement learning with a reward function that utilizes the zero-shot capabilities of large language models. We evaluate our method for Big Five personality trait prediction on two Twitter corpora. On publicly available real-world data with a skewed label distribution, our method shows similar efficacy to using all posts in a user profile, but with a substantially shorter context. An evaluation on a version of these data balanced with artificial posts shows that the filtering to relevant posts leads to a significantly improved accuracy of the predictions.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# テンソルネットワーク攻撃による暗号化プロトコルのハック

Hacking Cryptographic Protocols with Tensor Network Attacks ( http://arxiv.org/abs/2409.04125v1 )

ライセンス: Link先を確認
Borja Aizpurua, Siddhartha Patra, Josu Etxezarreta Martinez, Roman Orus, (参考訳) 本稿では、対称鍵暗号の攻撃を開始するためのTensor Networks (TN) の応用について紹介する。 我々は最近導入したフレキシブルPEPS量子回路シミュレータ(FQCS)と同様に,マトリックス製品状態(MPS)を利用する。 従来のブルートフォース攻撃と変分量子攻撃アルゴリズム(VQAA)との比較を行った。 我々のベンチマークには、10ビットキーのSimplified Data Encryption Standard (S-DES)、16ビットキーのSimplified Advanced Encryption Standard (S-AES)、32ビットキーのBlowfishが含まれている。 キーサイズが小さい場合、MPSはキーを復元するのに必要となる時間と平均の両方でVQAAとFQCSを上回っている。 キーサイズが大きくなるにつれて、FQCSはVQAAやMPSに比べて平均的なイテレーションの点で効率が良くなり、MPSは時間的にも最速である。 これらの結果は、特に速度と効率の最適化において、量子暗号解析の進歩におけるTN法の可能性を強調している。 また,キーサイズが大きくなるにつれて絡み合いが重要になることを示す。

Here we introduce the application of Tensor Networks (TN) to launch attacks on symmetric-key cryptography. Our approaches make use of Matrix Product States (MPS) as well as our recently-introduced Flexible-PEPS Quantum Circuit Simulator (FQCS). We compare these approaches with traditional brute-force attacks and Variational Quantum Attack Algorithm (VQAA) methods also proposed by us. Our benchmarks include the Simplified Data Encryption Standard (S-DES) with 10-bit keys, Simplified Advanced Encryption Standard (S-AES) with 16-bit keys, and Blowfish with 32-bit keys. We find that for small key size, MPS outperforms VQAA and FQCS in both time and average iterations required to recover the key. As key size increases, FQCS becomes more efficient in terms of average iterations compared to VQAA and MPS, while MPS remains the fastest in terms of time. These results highlight the potential of TN methods in advancing quantum cryptanalysis, particularly in optimizing both speed and efficiency. Our results also show that entanglement becomes crucial as key size increases.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 安全な交通信号認識:光パッチ攻撃に対する注意型ユニバーサルイメージ塗布機構

Secure Traffic Sign Recognition: An Attention-Enabled Universal Image Inpainting Mechanism against Light Patch Attacks ( http://arxiv.org/abs/2409.04133v1 )

ライセンス: Link先を確認
Hangcheng Cao, Longzhi Yuan, Guowen Xu, Ziyang He, Zhengru Fang, Yuguang Fang, (参考訳) 交通標識認識システムは、運転中にドライバーが情報的な決定を下すのを助けるために重要な役割を果たす。 しかし、深層学習技術、特に将来のコネクテッド・自動運転に大きく依存しているため、これらのシステムは個人と公共交通機関の両方に重大な安全リスクをもたらす敵の攻撃の影響を受けやすい。 特に最近研究者たちは、信号認識システムを騙す新たな攻撃ベクトルを見つけました。 従来の敵のステッカーや落書きと比較すると、これらの出現したライトパッチは、実装の容易さと優れたステルスネスにより、攻撃性を高めている。 このセキュリティの脅威を効果的に解消するために,SafeSignというユニバーサルイメージの塗装機構を提案する。 注意力のある多視点画像融合を利用して、敵の光パッチによって汚染された交通標識を修復し、正確な信号認識を保証する。 ここでは、まず、悪質な光パッチが実交通標識の局所的およびグローバル的特徴空間に与える影響について検討する。 次に,多彩な汚染されたサインパターンを出力するバイナリマスクベースのU-Net画像生成パイプラインを設計し,必要なトレーニングデータを用いた画像インペイントモデルを提案する。 次に,マルチビュー画像からの補完情報を協調的に活用し,汚染された標識を修復するアテンション機構対応ニューラルネットワークを開発した。 最後に、SafeSignの潜在的な光パッチベースの攻撃に対する抵抗効果を評価するための広範囲な実験が行われ、3つの広く使用されている手話認識モデルにおいて、平均精度が54.8%向上した。

Traffic sign recognition systems play a crucial role in assisting drivers to make informed decisions while driving. However, due to the heavy reliance on deep learning technologies, particularly for future connected and autonomous driving, these systems are susceptible to adversarial attacks that pose significant safety risks to both personal and public transportation. Notably, researchers recently identified a new attack vector to deceive sign recognition systems: projecting well-designed adversarial light patches onto traffic signs. In comparison with traditional adversarial stickers or graffiti, these emerging light patches exhibit heightened aggression due to their ease of implementation and outstanding stealthiness. To effectively counter this security threat, we propose a universal image inpainting mechanism, namely, SafeSign. It relies on attention-enabled multi-view image fusion to repair traffic signs contaminated by adversarial light patches, thereby ensuring the accurate sign recognition. Here, we initially explore the fundamental impact of malicious light patches on the local and global feature spaces of authentic traffic signs. Then, we design a binary mask-based U-Net image generation pipeline outputting diverse contaminated sign patterns, to provide our image inpainting model with needed training data. Following this, we develop an attention mechanism-enabled neural network to jointly utilize the complementary information from multi-view images to repair contaminated signs. Finally, extensive experiments are conducted to evaluate SafeSign's effectiveness in resisting potential light patch-based attacks, bringing an average accuracy improvement of 54.8% in three widely-used sign recognition models
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 糖尿病網膜症研究のための光コヒーレンス・トモグラフィー-OCTAデータセット

Optical Coherence Tomography Angiography-OCTA dataset for the study of Diabetic Retinopathy ( http://arxiv.org/abs/2409.04137v1 )

ライセンス: Link先を確認
Pooja Bidwai, Shilpa Gite, Biswajeet Pradhan, Aditi Gupta, Kishore pahuja, (参考訳) 本研究では,インドのマハーラシュトラ州プーンにあるナターシャ・アイケア・リサーチ・インスティテュートから収集された,左眼133点と右眼135点を含む179点の網膜画像からなるデータセットについて検討した。 この画像は非ミリ波光コヒーレンス・トモグラフィー(OCTA)装置、特にオプトフ・アバンティ・エディション(Optovue Avanti Edition)装置を用いて撮影された。 その後、2人の眼科医が画像に注釈を付けました。 このデータセットは、糖尿病網膜症(DR)の早期発見のための自動診断ツールを開発するために、研究者や医師によって使用することができる。

This study presents a dataset consisting of 268 retinal images from 179 individuals, including 133 left-eye and 135 right-eye images, collected from Natasha Eye Care and Research Institute in Pune, Maharashtra, India. The images were captured using a nonmydriatic Optical Coherence Tomography Angiography (OCTA) device, specifically the Optovue Avanti Edition machine as per the protocol mentioned in this paper. Two ophthalmologists then annotated the images. This dataset can be used by researchers and doctors to develop automated diagnostic tools for early detection of diabetic retinopathy (DR).
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# Half-VAE: 明示的な逆マッピングを回避するエンコーダフリーなVAE

Half-VAE: An Encoder-Free VAE to Bypass Explicit Inverse Mapping ( http://arxiv.org/abs/2409.04140v1 )

ライセンス: Link先を確認
Yuan-Hao Wei, Yan-Jie Sun, Chen Zhang, (参考訳) 推論と逆問題(inference)と逆問題(inverse problem)は密接に関連する概念であり、どちらも基本的には未知の原因や観測データからのパラメータの推論を含む。 強力な手法であるベイズ推論は、因果推論に関連するものを含む様々な問題を解決するためにしばしば用いられる。 ベイズ予想のサブセットである変分推論は、主に複素後続分布を効率的に近似するために用いられる。 変分推論とディープラーニングを組み合わせた変分オートエンコーダ(VAE)は,様々な領域に広く適用されている。 本研究では,独立成分分析(ICA)のような逆問題に対するVAEの可能性を,明示的な逆写像プロセスに頼らずに検討する。 他のVAEベースのICAメソッドとは異なり、このアプローチはVAEアーキテクチャのエンコーダを捨て、潜在変数を直接トレーニング可能なパラメータとして設定する。 言い換えれば、潜伏変数はもはやエンコーダの出力ではなく、代わりに目的関数から直接最適化され、適切な値に収束する。 適切な事前設定により、トレーニング可能なパラメータで表される潜伏変数は、パラメータが収束するにつれて相互に独立性を示すことができる。 このアプローチはハーフ-VAEと呼ばれ、エンコーダを排除して逆マッピングプロセスをバイパスする。 本研究では,明示的な逆写像処理を必要とせず,半VAEを用いてICAを解く可能性を示す。

Inference and inverse problems are closely related concepts, both fundamentally involving the deduction of unknown causes or parameters from observed data. Bayesian inference, a powerful class of methods, is often employed to solve a variety of problems, including those related to causal inference. Variational inference, a subset of Bayesian inference, is primarily used to efficiently approximate complex posterior distributions. Variational Autoencoders (VAEs), which combine variational inference with deep learning, have become widely applied across various domains. This study explores the potential of VAEs for solving inverse problems, such as Independent Component Analysis (ICA), without relying on an explicit inverse mapping process. Unlike other VAE-based ICA methods, this approach discards the encoder in the VAE architecture, directly setting the latent variables as trainable parameters. In other words, the latent variables are no longer outputs of the encoder but are instead optimized directly through the objective function to converge to appropriate values. We find that, with a suitable prior setup, the latent variables, represented by trainable parameters, can exhibit mutually independent properties as the parameters converge, all without the need for an encoding process. This approach, referred to as the Half-VAE, bypasses the inverse mapping process by eliminating the encoder. This study demonstrates the feasibility of using the Half-VAE to solve ICA without the need for an explicit inverse mapping process.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# コンテキストが鍵:ビジョントランスフォーマーを用いたコンテキスト内学習のためのバックドアアタック

Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers ( http://arxiv.org/abs/2409.04142v1 )

ライセンス: Link先を確認
Gorka Abad, Stjepan Picek, Lorenzo Cavallaro, Aitor Urbieta, (参考訳) 訓練のコストが高いため、大規模モデル(LM)の実践者は信頼できないソースからダウンロードされた事前訓練されたモデルを使うことが多い。 インコンテキスト学習(In-context learning)とは、LMがプロンプトやコンテキストに応じて複数のタスクを実行する能力である。 これにより、モデルがどのようにトリガーされるかによって、動的振る舞いを持つバックドアアタックなど、新たなアタックが可能になる。 本稿では、視覚変換器(ViT)の能力を活用し、プロンプトに応じて異なるタスクを実行する。 そして、データ中毒によって、新たな2つの脅威を調査する。 一 攻撃者が攻撃対象のタスクを選択し、選択したタスクのみをトリガーの有無でテスト時に侵害するタスク固有のバックドア。 同時に、トリガーでトリガーをトリガーしても、他のタスクは影響を受けない。 テスト対象のモデルに対して,最大89.90\%の劣化を達成して,すべてのテストモデルを攻撃することに成功しました。 二 攻撃を一般化し、訓練期間中に見つからないタスクであっても、バックドアが \emph{any} タスクに影響を及ぼすようにする。 当社の攻撃はすべてのテストモデルで成功し、最大で13\times$gradingを実現しました。 最後に,モデルからバックドアを除去する手法として,プロンプトと微調整の堅牢性について検討する。 その結果, これらの手法は短絡し, 劣化率89.90\%から73.46\%に低下することが判明した。

Due to the high cost of training, large model (LM) practitioners commonly use pretrained models downloaded from untrusted sources, which could lead to owning compromised models. In-context learning is the ability of LMs to perform multiple tasks depending on the prompt or context. This can enable new attacks, such as backdoor attacks with dynamic behavior depending on how models are prompted. In this paper, we leverage the ability of vision transformers (ViTs) to perform different tasks depending on the prompts. Then, through data poisoning, we investigate two new threats: i) task-specific backdoors where the attacker chooses a target task to attack, and only the selected task is compromised at test time under the presence of the trigger. At the same time, any other task is not affected, even if prompted with the trigger. We succeeded in attacking every tested model, achieving up to 89.90\% degradation on the target task. ii) We generalize the attack, allowing the backdoor to affect \emph{any} task, even tasks unseen during the training phase. Our attack was successful on every tested model, achieving a maximum of $13\times$ degradation. Finally, we investigate the robustness of prompts and fine-tuning as techniques for removing the backdoors from the model. We found that these methods fall short and, in the best case, reduce the degradation from 89.90\% to 73.46\%.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 非圧縮性ナビエ・ストークス方程式に対する効率的なhp-変数PINNフレームワーク

An efficient hp-Variational PINNs framework for incompressible Navier-Stokes equations ( http://arxiv.org/abs/2409.04143v1 )

ライセンス: Link先を確認
Thivin Anandh, Divij Ghose, Ankit Tyagi, Abhineet Gupta, Suranjan Sarkar, Sashikumaar Ganesan, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、PDEの残余を損失関数に組み込むことで、偏微分方程式(PDE)を解くことができる。 変分物理学インフォームドニューラルネットワーク(VPINN)とhp-VPINNは、損失関数のPDE残基の変分形式を用いる。 hp-VPINNは従来のPINNよりも有望であるが、トレーニング時間が長く、複雑なジオメトリを扱えるフレームワークが欠けているため、より複雑なPDEに制限されている。 したがって、hp-VPINNはナヴィエ・ストークス方程式の解法には適用されていない。 FastVPINNは、テンソルベースの損失計算を導入し、トレーニング効率を大幅に改善することで、これらの課題に対処するために導入された。 さらに、双線型変換を用いることで、FastVPINNsフレームワークは複素幾何学上のPDEを解くことができた。 本研究では,FastVPINNsフレームワークをベクトル値問題に拡張し,非圧縮性なナビエ・ストークス方程式を2次元前方および逆問題に対して解くことに着目した。 その結果,文献に記録されているPINNのアルゴリズムと同等の精度を維持しつつ,トレーニング時間を2倍改善したことを示す。 さらに,非圧縮性ナヴィエ・ストークス方程式の逆問題の解法において,レイノルズ数の根底流れを正確に同定することで,フレームワークの効率性を示す。 さらに、複雑なジオメトリを扱うフレームワークの能力は、計算流体力学の幅広い応用の可能性を強調している。 この実装は、hp-VPINNの研究のための新しい道を開き、より複雑な問題への適用性を広げる可能性がある。

Physics-informed neural networks (PINNs) are able to solve partial differential equations (PDEs) by incorporating the residuals of the PDEs into their loss functions. Variational Physics-Informed Neural Networks (VPINNs) and hp-VPINNs use the variational form of the PDE residuals in their loss function. Although hp-VPINNs have shown promise over traditional PINNs, they suffer from higher training times and lack a framework capable of handling complex geometries, which limits their application to more complex PDEs. As such, hp-VPINNs have not been applied in solving the Navier-Stokes equations, amongst other problems in CFD, thus far. FastVPINNs was introduced to address these challenges by incorporating tensor-based loss computations, significantly improving the training efficiency. Moreover, by using the bilinear transformation, the FastVPINNs framework was able to solve PDEs on complex geometries. In the present work, we extend the FastVPINNs framework to vector-valued problems, with a particular focus on solving the incompressible Navier-Stokes equations for two-dimensional forward and inverse problems, including problems such as the lid-driven cavity flow, the Kovasznay flow, and flow past a backward-facing step for Reynolds numbers up to 200. Our results demonstrate a 2x improvement in training time while maintaining the same order of accuracy compared to PINNs algorithms documented in the literature. We further showcase the framework's efficiency in solving inverse problems for the incompressible Navier-Stokes equations by accurately identifying the Reynolds number of the underlying flow. Additionally, the framework's ability to handle complex geometries highlights its potential for broader applications in computational fluid dynamics. This implementation opens new avenues for research on hp-VPINNs, potentially extending their applicability to more complex problems.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 接続性の問題:マトリックス製品状態を用いたオープン量子システムシミュレーションにおけるバスモード順序と幾何の影響

Connectivity matters: Impact of bath modes ordering and geometry in Open Quantum System simulation with Matrix Product States ( http://arxiv.org/abs/2409.04145v1 )

ライセンス: Link先を確認
Thibaut Lacroix, Brendon W. Lovett, Alex W. Chin, (参考訳) いくつかの環境と相互作用する量子系の力学を研究できることは、量子化学から量子熱力学まで、非平衡系を通して多くの環境において重要である。 このような問題に対して、テンソルネットワークに基づく手法は、数値的に正確なシミュレーションを行うための最先端の手法である。 しかし、この多環境非摂動文脈で効率的に使用されるためには、これらの手法は波動関数 Ans\atze の位相を巧妙に選択する必要がある。 これはしばしば、異なるシステムと環境自由度の間の相互関係を分析して行われる。 正準モデルハミルトニアンに対し、ボゾン環境モードの単純な順序付けにより、結合 {System + Environments} 状態が行列積状態として書けることを示し、収束に必要な結合次元を著しく減少させる。 これらの結果は、テンソルネットワークトポロジ(例えばエンタングル化の正規化)を微調整する複雑な相関解析は、通常不要であり、木テンソルネットワーク状態は、いくつかの応用において単純な行列積状態と比較して、準最適であることを示している。

Being able to study the dynamics of quantum systems interacting with several environments is important in many settings ranging from quantum chemistry to quantum thermodynamics, through out-of-equilibrium systems. For such problems tensor network-based methods are state-of-the-art approaches to perform numerically exact simulations. However, to be used efficiently in this multi-environment non-perturbative context, these methods require a clever choice of the topology of the wave-function Ans\"atze. This is often done by analysing cross-correlations between different system and environment degrees of freedom. We show for canonical model Hamiltonians that simple orderings of bosonic environmental modes, which enable to write the joint {System + Environments} state as a matrix product state, reduce considerably the bond dimension required for convergence. These results suggest that complex correlation analyses in order to tweak tensor networks topology (e.g. entanglement renormalization) are usually not necessary and that tree tensor network states are sub-optimal compared to simple matrix product states in several applications.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# コインには2つの側面がある:中国語のスペル訂正のための新しい検出器・コレクターフレームワーク

A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction ( http://arxiv.org/abs/2409.04150v1 )

ライセンス: Link先を確認
Xiangke Zeng, Zuchao Li, Lefei Zhang, Ping Wang, Hongqiu Wu, Hai Zhao, (参考訳) 中国語のSpelling Correction(CSC)は、中国語のテキストにおける誤字の訂正を主眼とする、基礎的な自然言語処理(NLP)タスクである。 既存の手法では、エラー訂正プロセスのアンタングルを選択でき、追加のエラー検出器を用いてエラー位置をピンポイントする。 しかし、エラー検出の固有の性能制限のため、精度とリコールはコインの両面が同時に対向することができないようなものである。 さらに、エラー訂正を支援するために、エラー位置情報を司法的に適用する方法も検討する価値がある。 本稿では,エラー検出・補正フレームワークに基づく新しい手法を提案する。 我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。 エラーの発生が文脈依存であり,検出結果の精度が低いことを考慮し,革新的な特徴融合戦略と選択的マスキング戦略を用いて,誤り検出結果をCSCタスクに組み込む。 提案手法の有効性を実証するために, 主流のCSCデータセットを用いた実証実験を行った。

Chinese Spelling Correction (CSC) stands as a foundational Natural Language Processing (NLP) task, which primarily focuses on the correction of erroneous characters in Chinese texts. Certain existing methodologies opt to disentangle the error correction process, employing an additional error detector to pinpoint error positions. However, owing to the inherent performance limitations of error detector, precision and recall are like two sides of the coin which can not be both facing up simultaneously. Furthermore, it is also worth investigating how the error position information can be judiciously applied to assist the error correction. In this paper, we introduce a novel approach based on error detector-corrector framework. Our detector is designed to yield two error detection results, each characterized by high precision and recall. Given that the occurrence of errors is context-dependent and detection outcomes may be less precise, we incorporate the error detection results into the CSC task using an innovative feature fusion strategy and a selective masking strategy. Empirical experiments conducted on mainstream CSC datasets substantiate the efficacy of our proposed method.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 光ハミルトニアンのクリロフ錯体

Krylov Complexity of Optical Hamiltonians ( http://arxiv.org/abs/2409.04156v1 )

ライセンス: Link先を確認
Abhishek Chowdhury, Aryabrat Mahapatra, (参考訳) 本研究では,時間依存の古典的外部場を考慮した量子光学系におけるクリロフの複雑性について検討する。2レベル原子,フォトニック系,クエンチド発振器などの相互作用する量子光学モデルに着目する。 これらのモデルは、$SU(2)$, $H(1)$ (Heisenberg--Weyl) と $SU(1,1)$ の生成元に線型なハミルトニアンを持ち、クリロフ基底の直感的な同定を可能にする。我々は、主に共鳴に着目した、駆動場の異なる状態におけるこれらの系における複雑性の挙動を分析する。これは、群対称性のユニタリ進化作用素のガウス分解によって達成される。さらに、Lanczosアルゴリズムを用いた3レベル$SU(3)$原子系のクリロフ複雑性についても調べ、基礎となる複雑性のダイナミクスを明らかにする。 調査を簡略化するために、私たちは関連するグループ構造を活用しました。

In this work, we investigate the Krylov complexity in quantum optical systems subject to time--dependent classical external fields. We focus on various interacting quantum optical models, including a collection of two--level atoms, photonic systems and the quenched oscillator. These models have Hamiltonians which are linear in the generators of $SU(2)$, $H(1)$ (Heisenberg--Weyl) and $SU(1,1)$ group symmetries allowing for a straightforward identification of the Krylov basis. We analyze the behaviour of complexity for these systems in different regimes of the driven field, focusing primarily on resonances. This is achieved via the Gauss decomposition of the unitary evolution operators for the group symmetries. Additionally, we also investigate the Krylov complexity in a three--level $SU(3)$ atomic system using the Lanczos algorithm, revealing the underlying complexity dynamics. Throughout we have exploited the the relevant group structures to simplify our explorations.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# CUQ-GNN: 後続ネットワークを用いた委員会ベースのグラフ不確実性定量化

CUQ-GNN: Committee-based Graph Uncertainty Quantification using Posterior Networks ( http://arxiv.org/abs/2409.04159v1 )

ライセンス: Link先を確認
Clemens Damke, Eyke Hüllermeier, (参考訳) 本研究では,予測不確実性の有意な定義がグラフデータに与える影響について検討する。 これまで,ノード分類タスクにおける不確実性を定量化するために,いわゆるグラフ・ポストリア・ネットワーク(GPN)モデルが提案されてきた。 グラフが与えられたら、正規化フロー(NF)を使用して各ノードのクラス密度を独立に推定し、それらの密度をディリクレの擬似カウントに変換し、パーソナライズされたPage-Rankアルゴリズムを用いてグラフを通して分散する。 GPNsのアーキテクチャは、不確実性推定の性質に関する3つの公理によって動機付けられている。 これらの公理は実際には必ずしも満たされていないため,標準グラフニューラルネットワークとPosterior Networks(PostNets)のNFに基づく不確実性推定を組み合わせた,Committe-based Uncertainty Quantification Graph Neural Networks (CUQ-GNNs) のファミリーを提案する。 このアプローチは、不確実性推定の特性に対するドメイン固有の要求に柔軟に適応する。 我々は,共通ノード分類ベンチマークにおいて,CUQ-GNNとGPNなどの不確実性定量化手法を比較し,有効であることを示す。

In this work, we study the influence of domain-specific characteristics when defining a meaningful notion of predictive uncertainty on graph data. Previously, the so-called Graph Posterior Network (GPN) model has been proposed to quantify uncertainty in node classification tasks. Given a graph, it uses Normalizing Flows (NFs) to estimate class densities for each node independently and converts those densities into Dirichlet pseudo-counts, which are then dispersed through the graph using the personalized Page-Rank algorithm. The architecture of GPNs is motivated by a set of three axioms on the properties of its uncertainty estimates. We show that those axioms are not always satisfied in practice and therefore propose the family of Committe-based Uncertainty Quantification Graph Neural Networks (CUQ-GNNs), which combine standard Graph Neural Networks with the NF-based uncertainty estimation of Posterior Networks (PostNets). This approach adapts more flexibly to domain-specific demands on the properties of uncertainty estimates. We compare CUQ-GNN against GPN and other uncertainty quantification approaches on common node classification benchmarks and show that it is effective at producing useful uncertainty estimates.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 短時間2次元量子力学シミュレーションのための高速古典的アルゴリズム

An Efficient Classical Algorithm for Simulating Short Time 2D Quantum Dynamics ( http://arxiv.org/abs/2409.04161v1 )

ライセンス: Link先を確認
Yusen Wu, Yukun Zhang, Xiao Yuan, (参考訳) シュロディンガー方程式の効率的な古典的シミュレーションは、量子力学の中心であり、複雑な自然現象を探索し、古典計算と量子計算の基本的な区別を理解するために重要である。 一般的な量子力学はBQP完全であるが、テンソルネットワークは1Dシステムにおける短時間進化の効率的なシミュレーションを可能にする。 しかし,領域法に違反した場合,これらの手法を高次元に拡張することは著しく困難となる。 本研究では,クラスタ展開と浅部量子回路シミュレーションを利用して,2次元量子系の短時間ダイナミクスをシミュレーションする,効率的な古典的アルゴリズムを導入することで,この問題に対処する。 提案アルゴリズムは, 量子固有値と固有状態の効率的な推定法, 超伝導量子コンピュータのシミュレーション, 量子変分アルゴリズムの量子化, 定数ギャップ・アディアバティック量子進化のシミュレーションなど, 幅広い応用がある。 本研究は, 短時間2次元量子力学の複雑さに固有の単純さを明らかにし, ノイズの多い中間スケール量子ハードウェア, 特に2次元トポロジカル構造に限定した量子ハードウェアの限界を強調した。 この研究は、古典計算と量子計算の境界と量子優位性を達成するための基準の理解を深める。

Efficient classical simulation of the Schrodinger equation is central to quantum mechanics, as it is crucial for exploring complex natural phenomena and understanding the fundamental distinctions between classical and quantum computation. Although simulating general quantum dynamics is BQP-complete, tensor networks allow efficient simulation of short-time evolution in 1D systems. However, extending these methods to higher dimensions becomes significantly challenging when the area law is violated. In this work, we tackle this challenge by introducing an efficient classical algorithm for simulating short-time dynamics in 2D quantum systems, utilizing cluster expansion and shallow quantum circuit simulation. Our algorithm has wide-ranging applications, including an efficient dequantization method for estimating quantum eigenvalues and eigenstates, simulating superconducting quantum computers, dequantizing quantum variational algorithms, and simulating constant-gap adiabatic quantum evolution. Our results reveal the inherent simplicity in the complexity of short-time 2D quantum dynamics and highlight the limitations of noisy intermediate-scale quantum hardware, particularly those confined to 2D topological structures. This work advances our understanding of the boundary between classical and quantum computation and the criteria for achieving quantum advantage.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 光パルス原子干渉計を用いたボース・アインシュタイン凝縮法によるボルンの法則試験の提案

Proposal for a Bose-Einstein condensate based test of Born's rule using light-pulse atom interferometry ( http://arxiv.org/abs/2409.04163v1 )

ライセンス: Link先を確認
Simon Kanthak, Julia Pahl, Daniel Reiche, Markus Krutzik, (参考訳) 我々は、ボルンの規則のモジュラー二乗仮説をテストするためのプラットフォームとして、超低温量子ガスを用いた光パルス原子干渉計を提案し、数値的にベンチマークする。 本プロトコルは,Bose-Einstein condensates (BEC) における多重パス干渉を誘導するための二重ブラッグと単一ラマン回折の組み合わせに基づく。 マクロな材料スリットとブロッキングマスクを用いた以前の試験とは対照的に、光学回折格子は高い制御を提供し、製造工程の幾何学的不正確さのような体系的な誤りを避ける。 加えて、デルタキック衝突したBECのサブリコイル膨張速度は、原子の外運動量状態の準備、識別、選択的な対処を可能にする。 このことは、高コントラスト干渉法とブロッキングマスクの高消去の両方に好適な近対一回折忠実性を示す。 その代わり、反動原子-原子相互作用による非線形位相シフトを考慮し、マルチパス干渉計の数値シミュレーションに完全に反映する必要がある。 モジュラー二乗法則が成立すると仮定すると、従来のBEC干渉計による実験的不確実性の影響を検証し、仮定的三階干渉項に対する100ドルの統計的偏差に対する5.7\times10^{-3}$$$$\left(1.8\times10^{-3}\right)$の値を与える。

We propose and numerically benchmark light-pulse atom interferometry with ultra-cold quantum gases as a platform to test the modulo-square hypothesis of Born's rule. Our interferometric protocol is based on a combination of double Bragg and single Raman diffraction to induce multipath interference in Bose-Einstein condensates (BECs) and block selected interferometer paths, respectively. In contrast to previous tests employing macroscopic material slits and blocking masks, optical diffraction lattices provide a high degree of control and avoid possible systematic errors like geometrical inaccuracies from manufacturing processes. In addition, sub-recoil expansion rates of delta-kick collimated BECs allow to prepare, distinguish and selectively address the external momentum states of the atoms. This further displays in close-to-unity diffraction fidelities favorable for both high-contrast interferometry and high extinction of the blocking masks. In return, non-linear phase shifts caused by repulsive atom-atom interactions need to be taken into account, which we fully reflect in our numerical simulations of the multipath interferometer. Assuming that the modulo-square rule holds, we examine the impact of experimental uncertainties in accordance with conventional BEC interferometer to provide an upper bound of $5.7\times10^{-3}$ $\left(1.8\times10^{-3}\right)$ on the statistical deviation of $100$ $\left(1000\right)$ iterations for a hypothetical third-order interference term.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# OpenSourceはChatGPTに勝てるか -- テキスト・コード生成のための大規模言語モデルの比較研究

Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation ( http://arxiv.org/abs/2409.04164v1 )

ライセンス: Link先を確認
Luis Mayer, Christian Heumann, Matthias Aßenmacher, (参考訳) 近年,大規模言語モデル (LLM) は,ソフトウェア工学を含む様々な分野の潜在的な応用のための強力なツールとして出現している。 本研究の範囲内では,テキスト・トゥ・コード生成能力について,Bard,BingChat,ChatGPT,Llama2,Code Llamaの5種類の最先端LLMを評価した。 実証的な研究として,プログラムWebサイトLeetCodeから得られたコーディング問題のテキスト記述と,Pythonでソリューションを作成するタスクを備えたモデルへのプロンプトをフィードする。 その後、生成した出力の品質をLeetCodeのテスト機能を使って評価する。 その結果, モデル間の性能の相違が大きいことが示唆された。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。 さらなる洞察を得るために、ランタイムと生成された出力のメモリ使用量を計測し、Leetcodeの他のコードと比較する。 正確なインデントやコード形式の違いを比較した詳細なエラー解析と,不正に解決されたタスクを特定のエラーカテゴリに割り当てることで,より微妙な結果と改善の可能性が得られる。 結果は、モデルが長いプロンプトの形で多くのコンテキストに直面しているときに、ますます間違ったコードを生成するパターンも示しています。

In recent years, large language models (LLMs) have emerged as powerful tools with potential applications in various fields, including software engineering. Within the scope of this research, we evaluate five different state-of-the-art LLMs - Bard, BingChat, ChatGPT, Llama2, and Code Llama - concerning their capabilities for text-to-code generation. In an empirical study, we feed prompts with textual descriptions of coding problems sourced from the programming website LeetCode to the models with the task of creating solutions in Python. Subsequently, the quality of the generated outputs is assessed using the testing functionalities of LeetCode. The results indicate large differences in performance between the investigated models. ChatGPT can handle these typical programming challenges by far the most effectively, surpassing even code-specialized models like Code Llama. To gain further insights, we measure the runtime as well as the memory usage of the generated outputs and compared them to the other code submissions on Leetcode. A detailed error analysis, encompassing a comparison of the differences concerning correct indentation and form of the generated code as well as an assignment of the incorrectly solved tasks to certain error categories allows us to obtain a more nuanced picture of the results and potential for improvement. The results also show a clear pattern of increasingly incorrect produced code when the models are facing a lot of context in the form of longer prompts.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# Androidアプリ開発者は、プライバシ関連データの収集を正確に報告しているか?

Do Android App Developers Accurately Report Collection of Privacy-Related Data? ( http://arxiv.org/abs/2409.04167v1 )

ライセンス: Link先を確認
Mugdha Khedkar, Ambuj Kumar Mondal, Eric Bodden, (参考訳) 多くのAndroidアプリケーションがユーザからデータを集めている。 欧州連合(EU)のGDPR(General Data Protection Regulation)は、ベンダに対して、アプリが収集するデータを忠実に開示するよう求めている。 多くのアプリは、同じ情報が簡単に入手できないサードパーティのコードを使用するため、このタスクは複雑である。 現在のAndroidアプリは、これらの要件をどの程度正確に満たしていますか? そこで本研究では,Androidアプリのデータ収集を正しく報告するために,プライバシ関連データの多層的定義を最初に公開する。 さらに、Androidアプリの入力として使用できるプライバシーに敏感なデータクラスのデータセットを作成します。 このデータセットは、ユーザインターフェースとシステムAPIを通じて収集されたデータを考慮に入れます。 我々は、70のAndroidアプリのデータ安全性セクションを手動で調べ、データ収集がどのように報告されているかを観察し、オーバーレポートとアンダーレポートのインスタンスを識別する。 さらに,アプリのソースコード,ユーザインターフェース,パーミッションを通じて収集されたプライバシー関連データを静的に抽出し,ラベル付けするプロトタイプを開発した。 プロトタイプの結果と20のアプリのデータ安全性セクションを比較すると、レポートの相違が明らかになる。 メッセージとソーシャルメディアの2つのアプリ(SignalとInstagram)の結果を用いて、アプリ開発者がそれぞれ過度にレポートされたデータと過度にレポートされたデータ収集について検討し、不正確な報告されたデータカテゴリを特定する。 私たちの結果は、Googleが収集したデータの抽象的な定義や、既存のツールサポートが不十分であるために、アプリの開発者がデータの収集を正確に報告するのに苦労していることを示している。

Many Android applications collect data from users. The European Union's General Data Protection Regulation (GDPR) requires vendors to faithfully disclose which data their apps collect. This task is complicated because many apps use third-party code for which the same information is not readily available. Hence we ask: how accurately do current Android apps fulfill these requirements? In this work, we first expose a multi-layered definition of privacy-related data to correctly report data collection in Android apps. We further create a dataset of privacy-sensitive data classes that may be used as input by an Android app. This dataset takes into account data collected both through the user interface and system APIs. We manually examine the data safety sections of 70 Android apps to observe how data collection is reported, identifying instances of over- and under-reporting. Additionally, we develop a prototype to statically extract and label privacy-related data collected via app source code, user interfaces, and permissions. Comparing the prototype's results with the data safety sections of 20 apps reveals reporting discrepancies. Using the results from two Messaging and Social Media apps (Signal and Instagram), we discuss how app developers under-report and over-report data collection, respectively, and identify inaccurately reported data categories. Our results show that app developers struggle to accurately report data collection, either due to Google's abstract definition of collected data or insufficient existing tool support.
翻訳日:2024-09-09 16:16:11 公開日:2024-09-06
# 計算から判断へ:数学的推論課題におけるLLM審査員の検討

From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks ( http://arxiv.org/abs/2409.04168v1 )

ライセンス: Link先を確認
Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth, (参考訳) 人間のアノテーションの必要性を減らすため、他の候補モデルの質を判断する手段として、大型言語モデル(LLM)が提案されている。 LLM審査員は、要約や機械翻訳などの生成タスクにおける人間の判断との相関を測定することで評価される。 対照的に、数学的推論タスクにおけるLCMの判断について検討する。 これらのタスクは多段階の推論を必要とし、それらの解の正しさは検証可能であり、より客観的な評価を可能にする。 我々は、詳細な性能分析を行い、使用済みの審査員は、主にタスクパフォーマンスを改善することができないが、より良いモデルを選択することができることを発見した。 本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。 審査員は、たとえその答えが間違っているとしても、より高い品質のモデルを選択する傾向があることを観察する。 さらに,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。 アブレーションでは、候補者の答えを交換するか、マスクするか、裁判官が元の判断をしばしば保持していることを観察し、裁判官がその判断に筆記様式を取り入れている証拠を提供する。 要約すると, 判定の正則性は統計測度を用いて定量化され, 活用の角度は様々である。

To reduce the need for human annotations, large language models (LLMs) have been proposed as judges of the quality of other candidate models. LLM judges are typically evaluated by measuring the correlation with human judgments on generation tasks such as summarization or machine translation. In contrast, we study LLM judges on mathematical reasoning tasks. These tasks require multi-step reasoning, and the correctness of their solutions is verifiable, enabling a more objective evaluation. We perform a detailed performance analysis and find that the used judges are mostly unable to improve task performance but are able to pick the better model. Our analysis uncovers a strong correlation between judgment performance and the candidate model task performance. We observe that judges tend to choose the model of higher quality even if its answer is incorrect. Further, we show that it is possible to use statistics, such as the task performances of the individual models, to predict judgment performance. In an ablation, we either swap or mask the candidate answers and observe that judges often keep the original judgment, providing evidence that judges incorporate writing style in their judgments. In summary, we find that regularities in the judgments are quantifiable using statistical measures and provide various angles on exploiting them.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# In-experiment Bipartite Graph を用いた購入側マーケットプレース実験における販売側アウトカムの測定

Towards Measuring Sell Side Outcomes in Buy Side Marketplace Experiments using In-Experiment Bipartite Graph ( http://arxiv.org/abs/2409.04174v1 )

ライセンス: Link先を確認
Vaiva Pilkauskaitė, Jevgenij Gamper, Rasa Giniūnaitė, Agne Reklaitė, (参考訳) 本研究では,オンライン二部グラフ実験のための因果推定器を実店舗環境で評価する。 我々の新しい貢献は、過去の知識や歴史的データに頼るのではなく、実験データを用いた二部グラフを構築することである。 市場における買い手と売り手の相互作用からバイパーティイトグラフを構築し,バイパートイト実験と仲介分析の交差点に新たな研究方向を確立する。 このアプローチは、買い手側の実験における売り手側の因果効果を評価することを目的とした、現代の市場にとって極めて重要である。 ヨーロッパ最大の中古市場であるVintedで8千万人以上のユーザを抱える歴史的バイヤーサイドの実験を行った。

In this study, we evaluate causal inference estimators for online controlled bipartite graph experiments in a real marketplace setting. Our novel contribution is constructing a bipartite graph using in-experiment data, rather than relying on prior knowledge or historical data, the common approach in the literature published to date. We build the bipartite graph from various interactions between buyers and sellers in the marketplace, establishing a novel research direction at the intersection of bipartite experiments and mediation analysis. This approach is crucial for modern marketplaces aiming to evaluate seller-side causal effects in buyer-side experiments, or vice versa. We demonstrate our method using historical buyer-side experiments conducted at Vinted, the largest second-hand marketplace in Europe with over 80M users.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# CISCAとCytoDArk0: 組織(病理)画像解析のための細胞インスタンスセグメンテーションと分類法と脳細胞構造研究のための新しいオープンなNissl-stainedデータセット

CISCA and CytoDArk0: a Cell Instance Segmentation and Classification method for histo(patho)logical image Analyses and a new, open, Nissl-stained dataset for brain cytoarchitecture studies ( http://arxiv.org/abs/2409.04175v1 )

ライセンス: Link先を確認
Valentina Vadori, Jean-Marie Graïc, Antonella Peruffo, Giulia Vadori, Livio Finos, Enrico Grisan, (参考訳) 顕微鏡組織画像中の個々の細胞を単離・分類することは複雑な作業であるが、様々な医学的・生物学的研究において重要な取り組みである。 デジタル病理学のワークフローや脳細胞構造研究における詳細な形態的・構造的解析や簡単な細胞カウントを支援するため, 組織学的スライスにおける自動細胞インスタンス分割と分類のための新しい深層学習フレームワーク(CISCA)を提案する。 CISCAのコアには、デコーダに3つの頭を持つ軽量なU-Netを備えたネットワークアーキテクチャがある。 第1の頭部はピクセルを隣接する細胞、細胞体、背景の境界に分類し、第2の頭部は4方向の4つの距離マップを回帰する。 第1および第2ヘッドからのネットワーク出力は、調整後処理ステップを通じて統合され、最終的に個々のセルのセグメンテーションが生成される。 第3のヘッドは、必要に応じて、細胞を関連クラスに同時分類することを可能にする。 我々は,CNIC,PanNuke,MoNuSegの4つのデータセットを用いて,提案手法の有効性を示す。 また,CytoDArk0は,Cetartiodactyla および Primates に属する哺乳動物の大脳皮質,小脳,海馬のNissl染色画像からなる新しいデータセットである。 各種組織の種類,倍率,染色技術にまたがるセグメンテーションと細胞分類におけるCISCAの堅牢性と精度を実証し,他の最先端手法と比較してCISCAを評価した。

Delineating and classifying individual cells in microscopy tissue images is a complex task, yet it is a pivotal endeavor in various medical and biological investigations. We propose a new deep learning framework (CISCA) for automatic cell instance segmentation and classification in histological slices to support detailed morphological and structural analysis or straightforward cell counting in digital pathology workflows and brain cytoarchitecture studies. At the core of CISCA lies a network architecture featuring a lightweight U-Net with three heads in the decoder. The first head classifies pixels into boundaries between neighboring cells, cell bodies, and background, while the second head regresses four distance maps along four directions. The network outputs from the first and second heads are integrated through a tailored post-processing step, which ultimately yields the segmentation of individual cells. A third head enables simultaneous classification of cells into relevant classes, if required. We showcase the effectiveness of our method using four datasets, including CoNIC, PanNuke, and MoNuSeg, which are publicly available H\&E datasets. Additionally, we introduce CytoDArk0, a novel dataset consisting of Nissl-stained images of the cortex, cerebellum, and hippocampus from mammals belonging to the orders Cetartiodactyla and Primates. We evaluate CISCA in comparison to other state-of-the-art methods, demonstrating CISCA's robustness and accuracy in segmenting and classifying cells across diverse tissue types, magnifications, and staining techniques.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 等分的組合せゲームにおける共進化アルゴリズムの実行時解析

Runtime analysis of a coevolutionary algorithm on impartial combinatorial games ( http://arxiv.org/abs/2409.04177v1 )

ライセンス: Link先を確認
Alistair Benford, Per Kristian Lehre, (参考訳) 複雑なダイナミクスのため、組合せゲームはゲームプレイエージェントを訓練するアルゴリズムの鍵となるテストケースと応用である。 セルフプレイでトレーニングするアルゴリズムには、CoEA(Coevolutionary Algorithm)がある。 CoEAは、同時代人との相互作用に基づいて最強の個体群を反復的に選択し、(ランダム化された突然変異と交叉を通じて)次の世代で両親として選択された個体群を使用することによって、個体群を進化させる。 しかし,CoEAのゲームプレイへの応用はサイクリングなどの病理的行動のため困難であり,特に過渡的なペイオフシーンを持つゲームにとって重要な問題である。 このような振る舞いを避けるためにCoEAを設計する方法についての洞察は、実行時分析によって得られます。 本稿では, UMDA (CoEAの一種) に必要なシミュレーションゲーム数に対して, 初期組合せゲームに対する最適戦略を(高い確率で) 発見するために, 一般上界を証明し, 実行時解析の範囲を組合せゲームに推し進める。 この結果は任意の公平な組合せゲームに適用され、多くのゲームでは、インプリッド境界はゲーム位置の数の関数として多項式あるいは準ポリノミカル(英語版)である。 主な結果を証明した後、Nim、Chomp、Silver Dollar、Turning Turtlesといった単純なゲームにいくつかの応用を提供している。 組合せゲーム上でのCoEAの最初のランタイム解析として、この結果は共進化の包括的な理論的枠組みへの重要なステップである。

Due to their complex dynamics, combinatorial games are a key test case and application for algorithms that train game playing agents. Among those algorithms that train using self-play are coevolutionary algorithms (CoEAs). CoEAs evolve a population of individuals by iteratively selecting the strongest based on their interactions against contemporaries, and using those selected as parents for the following generation (via randomised mutation and crossover). However, the successful application of CoEAs for game playing is difficult due to pathological behaviours such as cycling, an issue especially critical for games with intransitive payoff landscapes. Insight into how to design CoEAs to avoid such behaviours can be provided by runtime analysis. In this paper, we push the scope of runtime analysis to combinatorial games, proving a general upper bound for the number of simulated games needed for UMDA (a type of CoEA) to discover (with high probability) an optimal strategy for an impartial combinatorial game. This result applies to any impartial combinatorial game, and for many games the implied bound is polynomial or quasipolynomial as a function of the number of game positions. After proving the main result, we provide several applications to simple well-known games: Nim, Chomp, Silver Dollar, and Turning Turtles. As the first runtime analysis for CoEAs on combinatorial games, this result is a critical step towards a comprehensive theoretical framework for coevolution.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 効率的なシーン調整レグレッションのためのプロンプトとしての再ジェクションエラー

Reprojection Errors as Prompts for Efficient Scene Coordinate Regression ( http://arxiv.org/abs/2409.04178v1 )

ライセンス: Link先を確認
Ting-Ru Liu, Hsuan-Kung Yang, Jou-Min Liu, Chun-Wei Huang, Tsung-Chih Chiang, Quan Kong, Norimasa Kobori, Chun-Yi Lee, (参考訳) シーン座標回帰(SCR)法は、正確な視覚的位置決めの可能性から、将来的な研究分野として浮上している。 しかしながら、既存のSCRアプローチの多くは、動的オブジェクトやテクスチャレス領域を含む、すべてのイメージ領域からのサンプルをトレーニングしている。 トレーニング中にこれらの領域を最適化するために利用すると、モデル全体のパフォーマンスと効率を損なう可能性がある。 本研究では,これらの領域の有害な影響を検証するために,まず奥行き分析を行う。 分析からインスピレーションを得た上で,Segment Anything Model (SAM) を用いて誤り誘導特徴選択(EGFS)機構を導入する。 このメカニズムは、プロンプトとして低い再投射領域を発生させ、それらをエラー誘導マスクに拡張し、これらのマスクを使用して点をサンプリングし、問題領域を反復的にフィルタリングする。 提案手法は,ケンブリッジランドマークとインドア6データセットの3次元情報に依存しない既存のSCR手法よりも優れていることを示す。

Scene coordinate regression (SCR) methods have emerged as a promising area of research due to their potential for accurate visual localization. However, many existing SCR approaches train on samples from all image regions, including dynamic objects and texture-less areas. Utilizing these areas for optimization during training can potentially hamper the overall performance and efficiency of the model. In this study, we first perform an in-depth analysis to validate the adverse impacts of these areas. Drawing inspiration from our analysis, we then introduce an error-guided feature selection (EGFS) mechanism, in tandem with the use of the Segment Anything Model (SAM). This mechanism seeds low reprojection areas as prompts and expands them into error-guided masks, and then utilizes these masks to sample points and filter out problematic areas in an iterative manner. The experiments demonstrate that our method outperforms existing SCR approaches that do not rely on 3D information on the Cambridge Landmarks and Indoor6 datasets.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 神経多変量回帰における神経崩壊の頻度

The Prevalence of Neural Collapse in Neural Multivariate Regression ( http://arxiv.org/abs/2409.04180v1 )

ライセンス: Link先を確認
George Andriopoulos, Zixuan Dong, Li Guo, Zifan Zhao, Keith Ross, (参考訳) 近年,ニューラルネットワークは分類問題のトレーニングの最終段階にニューラル・コラプス(NC)を示すことが観察されている。 NRC1) 最後の層特徴ベクトルは、特徴ベクトルの$n$主成分で区切られた部分空間に崩壊し、$n$は、目標の次元である(単変量回帰、$n=1$); (NRC2) 最後の層特徴ベクトルも、最終層重みベクトルで区切られた部分空間に崩壊する(NRC3) 重みベクトルのグラム行列は、目標の共分散行列に依存する特定の機能形式に収束する。 種々のデータセットやネットワークアーキテクチャに対する(NRC1)-(NRC3)の妥当性を実証的に確立した後、損失関数を最小化する際に最終層特徴ベクトルを自由変数として扱う非制約特徴モデル(UFM)の文脈で回帰タスクをモデル化することにより、これらの現象を説明する。 UFMモデルにおける正規化パラメータが厳密な正の場合, (NRC1)-(NRC3) も UFM 最適化問題の解として現れる。 また、正規化パラメータが 0 に等しい場合、崩壊しないことを示す。 我々の知る限り、これは回帰の文脈における神経崩壊に関する最初の経験的、理論的研究である。 この拡張は、ニューラル崩壊の応用範囲を新しい問題カテゴリに広げるだけでなく、ニューラル崩壊の現象がディープラーニングにおける普遍的な振る舞いであることを示唆している。

Recently it has been observed that neural networks exhibit Neural Collapse (NC) during the final stage of training for the classification problem. We empirically show that multivariate regression, as employed in imitation learning and other applications, exhibits Neural Regression Collapse (NRC), a new form of neural collapse: (NRC1) The last-layer feature vectors collapse to the subspace spanned by the $n$ principal components of the feature vectors, where $n$ is the dimension of the targets (for univariate regression, $n=1$); (NRC2) The last-layer feature vectors also collapse to the subspace spanned by the last-layer weight vectors; (NRC3) The Gram matrix for the weight vectors converges to a specific functional form that depends on the covariance matrix of the targets. After empirically establishing the prevalence of (NRC1)-(NRC3) for a variety of datasets and network architectures, we provide an explanation of these phenomena by modeling the regression task in the context of the Unconstrained Feature Model (UFM), in which the last layer feature vectors are treated as free variables when minimizing the loss function. We show that when the regularization parameters in the UFM model are strictly positive, then (NRC1)-(NRC3) also emerge as solutions in the UFM optimization problem. We also show that if the regularization parameters are equal to zero, then there is no collapse. To our knowledge, this is the first empirical and theoretical study of neural collapse in the context of regression. This extension is significant not only because it broadens the applicability of neural collapse to a new category of problems but also because it suggests that the phenomena of neural collapse could be a universal behavior in deep learning.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 質問応答におけるLLMと知識グラフの組み合わせによる幻覚の低減

Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering ( http://arxiv.org/abs/2409.04181v1 )

ライセンス: Link先を確認
Larissa Pusch, Tim O. F. Conrad, (参考訳) 自然言語処理の進歩は、データベースのようなデジタル情報システムとの対話方法に革命をもたらし、それらにアクセスしやすくしています。 しかし、特にバイオメディカル領域のように、正確性が重要である場合、課題は持続する。 主要な問題は幻覚の問題であり、モデルが基盤となるデータから情報を取り除き、危険な誤報につながる可能性がある。 本稿では,バイオメディカルKGの例として,大規模言語モデル(LLM)と知識グラフ(KG)を組み合わせて,質問応答システムの精度と信頼性を向上させることにより,このギャップを埋める新しいアプローチを提案する。 提案手法はLangChainフレームワーク上に構築され,LLM生成クエリの構文的・意味的妥当性を保証するクエリチェッカーを組み込んで,知識グラフから情報を抽出し,幻覚などのエラーを大幅に低減する。 GPT-4 Turbo や llama3:70b などの LLM の試験を行った。 GPT-4 Turboは正確なクエリ生成において他のモデルよりも優れているが、llama3:70bのようなオープンソースモデルは適切なプロンプトエンジニアリングを約束することを示している。 このアプローチをアクセス可能にするために、ユーザフレンドリーなWebベースのインターフェースが開発され、自然言語クエリ、生成されたCypherクエリ、修正されたCypherクエリを入力し、その結果のパスを精度良く検証することができる。 全体として、このハイブリッドアプローチは、データギャップや幻覚といった一般的な問題に効果的に対処し、質問応答システムに対する信頼性と直感的なソリューションを提供する。 この論文の結果とユーザインターフェースを生成するソースコードは、Gitリポジトリで確認できます。

Advancements in natural language processing have revolutionized the way we can interact with digital information systems, such as databases, making them more accessible. However, challenges persist, especially when accuracy is critical, as in the biomedical domain. A key issue is the hallucination problem, where models generate information unsupported by the underlying data, potentially leading to dangerous misinformation. This paper presents a novel approach designed to bridge this gap by combining Large Language Models (LLM) and Knowledge Graphs (KG) to improve the accuracy and reliability of question-answering systems, on the example of a biomedical KG. Built on the LangChain framework, our method incorporates a query checker that ensures the syntactical and semantic validity of LLM-generated queries, which are then used to extract information from a Knowledge Graph, substantially reducing errors like hallucinations. We evaluated the overall performance using a new benchmark dataset of 50 biomedical questions, testing several LLMs, including GPT-4 Turbo and llama3:70b. Our results indicate that while GPT-4 Turbo outperforms other models in generating accurate queries, open-source models like llama3:70b show promise with appropriate prompt engineering. To make this approach accessible, a user-friendly web-based interface has been developed, allowing users to input natural language queries, view generated and corrected Cypher queries, and verify the resulting paths for accuracy. Overall, this hybrid approach effectively addresses common issues such as data gaps and hallucinations, offering a reliable and intuitive solution for question answering systems. The source code for generating the results of this paper and for the user-interface can be found in our Git repository: https://git.zib.de/lpusch/cyphergenkg-gui
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# GALLa: ソースコード理解を改善するグラフ指向の大規模言語モデル

GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding ( http://arxiv.org/abs/2409.04183v1 )

ライセンス: Link先を確認
Ziyin Zhang, Hang Yu, Shijie Li, Peng Di, Jianguo Li, Rui Wang, (参考訳) プログラミング言語には、グラフで表されるデータフローのようなリッチな意味情報があり、ソースコードの表面形式からは利用できない。 最近のコード言語モデルは数十億のパラメータに拡張されているが、ソースコードはテキストトークンとしてのみモデル化され、その他の構造情報は無視されている。 逆に、コードの構造情報をエンコードするモデルは、Transformerアーキテクチャに修正を加え、そのスケールと事前訓練されたLLMとの互換性を制限する。 この作業では、GALLa - Graph Aligned Large Language Modelで両方の世界の長所を捉えます。 GALLaはグラフニューラルネットワークとクロスモーダルアライメント技術を使用して、微調整中の補助タスクとしてLLMにコードの構造情報を注入する。 このフレームワークは、モデル非依存とタスク非依存の両方であり、ダウンストリームタスクの任意のコード LLM に適用することができ、ベースラインの LLM よりも推論時間にコストがかからず、微調整データとは無関係なコーパスからのトレーニング時間にのみ構造グラフデータを必要とする。 350Mから8Bまでの4つの異なるベースラインLLMを持つ5つのコードタスクの実験では、GALLaの有効性が検証され、LLaMA3のような強力なモデルでもベースラインよりも一貫した改善が示された。

Programming languages possess rich semantic information such as data flow that is represented by graphs and not available from the surface form of source code. Recent code language models have scaled to billions of parameters, but model source code solely as text tokens while ignoring any other structural information. Conversely, models that do encode structural information of code make modifications to the Transformer architecture, limiting their scale and compatibility with pretrained LLMs. In this work, we take the best of both worlds with GALLa - Graph Aligned Large Language Model. GALLa utilizes graph neural networks and cross-modal alignment technologies to inject the structural information of code into LLMs as an auxiliary task during finetuning. This framework is both model-agnostic and task-agnostic, as it can be applied to any code LLM for any code downstream task, and requires the structural graph data only at training time from a corpus unrelated to the finetuning data, while incurring no cost at inference time over the baseline LLM. Experiments on five code tasks with four different baseline LLMs ranging in size from 350M to 8B validate the effectiveness of GALLa, demonstrating consistent improvement over the baseline, even for powerful models such as LLaMA3.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 多層SAEを用いた残留流解析

Residual Stream Analysis with Multi-Layer SAEs ( http://arxiv.org/abs/2409.04185v1 )

ライセンス: Link先を確認
Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison, (参考訳) スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。 しかし、標準的なSAEはトランス層ごとに個別に訓練されるため、レイヤ間の情報の流れを研究するのが困難である。 この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルを同時にトレーニングした単一SAEである多層SAE(MLSAE)を導入する。 残余ストリームは、通常、レイヤ間で情報を保存するものとして理解されるので、複数のレイヤでアクティブな個々のSAE機能を見つけることを期待し、期待しました。 興味深いことに、単一のSAE機能は異なるプロンプトのために異なるレイヤでアクティブであるが、単一のプロンプトでは単一の機能が単一のレイヤでアクティブになる可能性がはるかに高い。 大きな基盤となるモデルでは、残留ストリーム内の隣接層間のコサイン類似度が高くなるため、複数の層でより多くの機能がアクティブになることが期待できる。 これらの結果から,MLSAEは変圧器内の情報の流れを研究する上で有望な手法であることが示唆された。 コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。

Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, standard SAEs are trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer simultaneously. The residual stream is usually understood as preserving information across layers, so we expected to, and did, find individual SAE features that are active at multiple layers. Interestingly, while a single SAE feature is active at different layers for different prompts, for a single prompt, we find that a single feature is far more likely to be active at a single layer. For larger underlying models, we find that the cosine similarities between adjacent layers in the residual stream are higher, so we expect more features to be active at multiple layers. These results show that MLSAEs are a promising method to study information flow in transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# ソースデバイス依存性を持つ真空揺らぎからの量子乱数生成器のランダム性

Randomness in quantum random number generator from vacuum fluctuations with source-device-independence ( http://arxiv.org/abs/2409.04186v1 )

ライセンス: Link先を確認
Megha Shrivastava, Mohit Mittal, Isha Kumari, Venkat Abhignan, (参考訳) 乱数の適用はユビキタスである。 真空揺らぎの次数に関するホモダイン測定から、よく研究された量子乱数生成器を実験的に構築する。 この乱数生成器における半デバイス独立性は通常、位相変調器を用いてレーザーの位相をシフトし、以前の実装における真空状態のXとPの2次測定からランダムサンプリングを得る。 2つのホモダイン検出器を用いて2つの二次構造を同時に測定することにより、このソースデバイス独立な量子乱数生成器の最適性能を示す実験パラメータを特徴付ける。 また,これらのパラメータのランダム性への影響を,古典的および量子的側情報に耳を傾ける盗聴者に対応するシャノンエントロピーとフォン・ノイマンエントロピーに基づいて抽出することができる。

The application for random numbers is ubiquitous. We experimentally build a well-studied quantum random number generator from homodyne measurements on the quadrature of the vacuum fluctuations. Semi-device-independence in this random number generator is usually obtained using phase modulators to shift the phase of the laser and obtain random sampling from both X and P quadrature measurements of the vacuum state in previous implementations. We characterize the experimental parameters for optimal performance of this source-device independent quantum random number generator by measuring the two quadratures concurrently using two homodyne detectors. We also study the influence of these parameters on randomness, which can be extracted based on Shannon entropy and von Neumann entropy, which correspond to an eavesdropper listening to classical and quantum side information, respectively.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# LITE: 効率的なReID機能統合によるマルチオブジェクトトラッキングのパラダイムシフト

LITE: A Paradigm Shift in Multi-Object Tracking with Efficient ReID Feature Integration ( http://arxiv.org/abs/2409.04187v1 )

ライセンス: Link先を確認
Jumabek Alikhanov, Dilshod Obidov, Hakil Kim, (参考訳) 軽量統合追跡機能抽出(LITE)パラダイムは,新しいマルチオブジェクト追跡(MOT)手法として導入されている。 推論、前処理、後処理、ReIDモデルのトレーニングコストを削減して、ReIDベースのトラッカーを強化する。 LITEは、スピードを損なうことなくリアルタイムの外観機能を使用する。 YOLOv8mのような標準のCNNベースの検出器を使用して、外観特徴抽出を直接追跡パイプラインに統合することにより、LITEは大幅なパフォーマンス向上を示す。 古典的なDeepSORT上でのLITEの最も単純な実装は、MOT17ベンチマークの28.3 FPSでHOTAのスコアが43.03%に達し、MOT17のDeepSORTの2倍、MOT20データセットの4倍高速となり、同様の精度を維持している。 さらに, トラッキング・バイ・ディテクト・アプローチの新たな評価フレームワークにより, 従来型のDeepSORTのようなトラッカーは, 公正な条件下での評価を行うと, 現代の最先端トラッカーと競合し続けることが明らかとなった。 コードはhttps://github.com/Jumabek/LITE.comで公開される。

The Lightweight Integrated Tracking-Feature Extraction (LITE) paradigm is introduced as a novel multi-object tracking (MOT) approach. It enhances ReID-based trackers by eliminating inference, pre-processing, post-processing, and ReID model training costs. LITE uses real-time appearance features without compromising speed. By integrating appearance feature extraction directly into the tracking pipeline using standard CNN-based detectors such as YOLOv8m, LITE demonstrates significant performance improvements. The simplest implementation of LITE on top of classic DeepSORT achieves a HOTA score of 43.03% at 28.3 FPS on the MOT17 benchmark, making it twice as fast as DeepSORT on MOT17 and four times faster on the more crowded MOT20 dataset, while maintaining similar accuracy. Additionally, a new evaluation framework for tracking-by-detection approaches reveals that conventional trackers like DeepSORT remain competitive with modern state-of-the-art trackers when evaluated under fair conditions. The code will be available post-publication at https://github.com/Jumabek/LITE.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# Spurious correlations Benchmarks の妥当性の再評価

Reassessing the Validity of Spurious Correlations Benchmarks ( http://arxiv.org/abs/2409.04188v1 )

ライセンス: Link先を確認
Samuel J. Bell, Diane Bouchacourt, Levent Sagun, (参考訳) ニューラルネットワークは、データが急激な相関を含むとフェールする可能性がある。 この現象を理解するために、研究者は緩和法を評価するための多くの素早い相関ベンチマークを提案している。 しかし、これらのベンチマークは大きな不一致を示し、一方のベンチマークで最高のメソッドはもう一方のベンチマークでは性能が良くない。 この不一致について検討し、ベンチマークが満足すべき3つのデシラタを定義して、メソッドを有意に評価することで、ベンチマークの有効性を検討する。 ベンチマークと緩和の両方に影響を及ぼす: 特定のベンチマークがメソッド性能の有意義な尺度ではないこと、そして、いくつかのメソッドが広く使われるには十分に堅牢ではないこと。 提案手法は,与えられた問題に最もよく似たベンチマークを用いて,実践者がメソッドを選択するための簡単なレシピを提供する。

Neural networks can fail when the data contains spurious correlations. To understand this phenomenon, researchers have proposed numerous spurious correlations benchmarks upon which to evaluate mitigation methods. However, we observe that these benchmarks exhibit substantial disagreement, with the best methods on one benchmark performing poorly on another. We explore this disagreement, and examine benchmark validity by defining three desiderata that a benchmark should satisfy in order to meaningfully evaluate methods. Our results have implications for both benchmarks and mitigations: we find that certain benchmarks are not meaningful measures of method performance, and that several methods are not sufficiently robust for widespread use. We present a simple recipe for practitioners to choose methods using the most similar benchmark to their given problem.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 離散・連続変数系に対する2成分測定による最適忠実度推定

Optimal Fidelity Estimation from Binary Measurements for Discrete and Continuous Variable Systems ( http://arxiv.org/abs/2409.04189v1 )

ライセンス: Link先を確認
Omar Fawzi, Aadil Oufkir, Robert Salzmann, (参考訳) 所望の目標量子状態と実際の準備状態との間の忠実度を推定することは、実験の成功を評価するのに不可欠である。 純粋ターゲット状態に対しては,直接測定可能な関数表現を用い,忠実度推定に必要な準備状態のコピー数を決定する。 連続変数(CV)システムでは、変位パリティ測定によって測定できるウィグナー関数を利用する。 本研究は,全ての可能な準備状態における最悪のシナリオを考慮し,忠実度推定に要するサンプルの複雑さについて,上層および下層境界を提供する。 フォック状態やガウス状態のような特定の興味のある対象状態に対して、このサンプルの複雑さはウィグナー関数の$L^1$-ノルムによって特徴づけられる。 $n$ qubitsからなる離散変数系に対しては,パウリ弦測度を用いた忠実度推定プロトコルを探索する。 CV法と同様に、サンプルの複雑さは、Haarランダム状態と安定化状態の両方のターゲット状態の特性関数の$L^1$-normによって特徴づけられる。 さらに, 汎用ブラックボックスモデルでは, 任意の対象状態に対して, 対象状態の滑らかな$L^1$-normにより, 忠実度推定のための最適なサンプル複雑性が特徴づけられることを示した。 我々の知る限りでは、Wigner関数の$L^1$-normが情報処理タスクのコストを低くするのはこれが初めてである。

Estimating the fidelity between a desired target quantum state and an actual prepared state is essential for assessing the success of experiments. For pure target states, we use functional representations that can be measured directly and determine the number of copies of the prepared state needed for fidelity estimation. In continuous variable (CV) systems, we utilise the Wigner function, which can be measured via displaced parity measurements. We provide upper and lower bounds on the sample complexity required for fidelity estimation, considering the worst-case scenario across all possible prepared states. For target states of particular interest, such as Fock and Gaussian states, we find that this sample complexity is characterised by the $L^1$-norm of the Wigner function, a measure of Wigner negativity widely studied in the literature, in particular in resource theories of quantum computation. For discrete variable systems consisting of $n$ qubits, we explore fidelity estimation protocols using Pauli string measurements. Similarly to the CV approach, the sample complexity is shown to be characterised by the $L^1$-norm of the characteristic function of the target state for both Haar random states and stabiliser states. Furthermore, in a general black box model, we prove that, for any target state, the optimal sample complexity for fidelity estimation is characterised by the smoothed $L^1$-norm of the target state. To the best of our knowledge, this is the first time the $L^1$-norm of the Wigner function provides a lower bound on the cost of some information processing task.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# Air-Gapsはあなたのプライベートなデータを安全に維持できるのか?

Mind The Gap: Can Air-Gaps Keep Your Private Data Secure? ( http://arxiv.org/abs/2409.04190v1 )

ライセンス: Link先を確認
Mordechai Guri, (参考訳) 個人情報は、現代のデジタル世界における攻撃者にとって最も価値ある資産であり、利益をもたらす標的の1つになっている。 これには、個人識別情報(PII)、医療記録、法情報、生体情報、プライベート通信が含まれる。 ハッカーから保護するためには、"エアギャップ"対策が用いられる可能性がある。 この保護戦略は、インターネットから完全に(物理的、論理的に)隔離されたネットワーク内の機密データを保護している。 内部ネットワークと外界の間の物理的な「空気ギャップ」を作ることは、盗難やオンラインの脅威から機密データを保護します。 エアギャップネットワークは、今日では政府組織、医療産業、金融セクター、知的財産および法律事務所等に関係している。 本稿では,現代のサイバー攻撃とデータプライバシの観点から,エアギャップのセキュリティを深く掘り下げる。 このレベルの保護にもかかわらず、過去10年で公表された事件は、エアギャップネットワークでさえ侵害に免疫がないことを示している。 モチベーション付きかつ有能な敵は、高度な攻撃ベクトルを使用して、空襲されたネットワークを侵入し、機密データを外部にリークすることができる。 エアギャップセキュリティのさまざまな側面に注目します。 まず、Agent.btzのような悪名高いネットワークを含むエアギャップネットワークをターゲットにしたサイバーインシデントについて概説する。 第2に、敵攻撃モデルと、攻撃者がエアギャップネットワークを危険にさらすために使用する異なる攻撃ベクトルを導入する。 第3に,攻撃者がエアギャップネットワークからデータを漏洩させる手法を提案する。 最後に,防衛と予防の両面からデータを保護するために必要な対策を提案する。

Personal data has become one of the most valuable assets and lucrative targets for attackers in the modern digital world. This includes personal identification information (PII), medical records, legal information, biometric data, and private communications. To protect it from hackers, 'air-gap' measures might be employed. This protective strategy keeps sensitive data in networks entirely isolated (physically and logically) from the Internet. Creating a physical 'air gap' between internal networks and the outside world safeguards sensitive data from theft and online threats. Air-gap networks are relevant today to governmental organizations, healthcare industries, finance sectors, intellectual property and legal firms, and others. In this paper, we dive deep into air-gap security in light of modern cyberattacks and data privacy. Despite this level of protection, publicized incidents from the last decade show that even air-gap networks are not immune to breaches. Motivated and capable adversaries can use sophisticated attack vectors to penetrate the air-gapped networks, leaking sensitive data outward. We focus on different aspects of air gap security. First, we overview cyber incidents that target air-gap networks, including infamous ones such Agent.btz. Second, we introduce the adversarial attack model and different attack vectors attackers may use to compromise air-gap networks. Third, we present the techniques attackers can apply to leak data out of air-gap networks and introduce more innovative ones based on our recent research. Finally, we propose the necessary countermeasures to protect the data, both defensive and preventive.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 確率的関係モデルによるプライバシー保護リレーショナルデータ合成に向けて

Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models ( http://arxiv.org/abs/2409.04194v1 )

ライセンス: Link先を確認
Malte Luttermann, Ralf Möller, Mattis Hartwig, (参考訳) 確率的リレーショナルモデル(英語版)は、一階述語論理と確率的モデルを組み合わせて、関係領域内のオブジェクト間の関係を表現するために確立された定式化を提供する。 同時に、人工知能の分野は、さまざまな機械学習タスクのための大量のリレーショナルトレーニングデータを必要としている。 しかし、プライバシーの懸念やデータ保護の規制、高コストなどにより、現実世界のデータ収集は難しいことが多い。 これらの課題を軽減するために、合成データの生成は有望なアプローチである。 本稿では,確率的関係モデルを用いて合成関係データを生成する問題を解く。 特に,リレーショナルデータベースから確率的リレーショナルモデルへ移行し,その基礎となる確率分布から新しい合成リレーショナルデータポイントをサンプリングするパイプラインを提案する。 提案するパイプラインの一部として,与えられた関係データベースから確率的関係モデルを構築するための学習アルゴリズムを導入する。

Probabilistic relational models provide a well-established formalism to combine first-order logic and probabilistic models, thereby allowing to represent relationships between objects in a relational domain. At the same time, the field of artificial intelligence requires increasingly large amounts of relational training data for various machine learning tasks. Collecting real-world data, however, is often challenging due to privacy concerns, data protection regulations, high costs, and so on. To mitigate these challenges, the generation of synthetic data is a promising approach. In this paper, we solve the problem of generating synthetic relational data via probabilistic relational models. In particular, we propose a fully-fledged pipeline to go from relational database to probabilistic relational model, which can then be used to sample new synthetic relational data points from its underlying probability distribution. As part of our proposed pipeline, we introduce a learning algorithm to construct a probabilistic relational model from a given relational database.
翻訳日:2024-09-09 16:05:19 公開日:2024-09-06
# 磁性誘電体$δ$板の準周期配置:グリーン関数と$N$体に対するカシミールエネルギー

Quasiperiodic arrangement of magnetodielectric $δ$-plates: Green's functions and Casimir energies for $N$ bodies ( http://arxiv.org/abs/2409.04195v1 )

ライセンス: Link先を確認
Venkat Abhignan, (参考訳) 簡単な置換規則から生成した磁化誘電率$\delta$-functionプレートを用いた有限準周期構成について検討する。 以前のN$ボディの研究では、スカラー場を介する相互作用が関与していたが、有限サイズの準周期格子を扱うための磁気および誘電特性を持つプレートを用いて、グリーン関数と対応するカシミールエネルギーを電磁場に拡張した。 カシミールエネルギーは、純粋な導電性または透過性を持つ$\delta$-platesから作られた準周期構造のクラスに対して計算される。 この準周期的なプレート列のカシミールエネルギーは正か負のどちらかであることが判明し、量子真空からの圧力がプレートのスタックをその配置に応じて拡大または収縮させる傾向があることを示した。 また、逆電気および横磁気モードのグリーン関数を$\delta$-plates で扱い、遷移行列を$N$ 純粋導電性あるいは透磁性プレートで導出する。

We study a variety of finite quasiperiodic configurations with magnetodielectric $\delta$-function plates created from simple substitution rules. While previous studies for $N$ bodies involved interactions mediated by a scalar field, we extended our analysis of Green's function and corresponding Casimir energy to the electromagnetic field using plates with magnetic and dielectric properties for handling finite-size quasiperiodic lattices. The Casimir energy is computed for a class of quasiperiodic structures built from $N$ purely conducting or permeable $\delta$-plates. The Casimir energy of this quasiperiodic sequence of plates turns out to be either positive or negative, indicating that the pressure from the quantum vacuum tends to cause the stack of plates to expand or contract depending on their arrangement. We also handle the transverse electric and transverse magnetic mode Green's functions for $\delta$-plates and derive the Faddeev-like equation with the transition matrix for $N$ purely conducting or permeable plates.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# GST:ガウス散乱変換器を用いた1枚の画像からの精密な3次元人体

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers ( http://arxiv.org/abs/2409.04196v1 )

ライセンス: Link先を確認
Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht, (参考訳) モノクロ画像からリアルな3Dモデルを構築することは、クリエイティブ産業、ヒューマン・コンピュータ・インタフェース、ヘルスケアに重要な応用をもたらす。 我々は,ガウスの混合体からなるシーン表現である3Dガウススプレイティング(3DGS)をベースとした。 単一の入力画像からそのような混合物を予測することは、(入力画素と多対一の関係を持つ)一様ではない密度であり、厳密な物理的制約があるため困難である。 同時に、さまざまな服やポーズに合うように柔軟でなければならない。 我々のキーとなる観察は、標準化された人間のメッシュ(SMPLなど)の頂点は、ガウス人に適切な密度と近似的な初期位置を与えることができるということである。 次に、変換器モデルをトレーニングして、これらの位置に対する比較的小さな調整を、他のガウスの属性やSMPLパラメータと同様に、共同で予測することができる。 この組み合わせ(多視点監視のみを用いる)は、テスト時間最適化、高価な拡散モデル、あるいは3Dポイントの監督なしに、単一の画像から高速な3次元人間のモデル推定を実現できることを実証的に示す。 また,衣服などのバリエーションを考慮に入れた人体モデルにより,3次元ポーズ推定の改善が期待できることを示す。 コードはプロジェクトのWebサイト https://abdullahamdi.com/gst/ で公開されている。

Reconstructing realistic 3D human models from monocular images has significant applications in creative industries, human-computer interfaces, and healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene representation composed of a mixture of Gaussians. Predicting such mixtures for a human from a single input image is challenging, as it is a non-uniform density (with a many-to-one relationship with input pixels) with strict physical constraints. At the same time, it needs to be flexible to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate density and approximate initial position for Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other Gaussians' attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve fast inference of 3D human models from a single image without test-time optimization, expensive diffusion models, or 3D points supervision. We also show that it can improve 3D pose estimation by better fitting human models that account for clothes and other variations. The code is available on the project website https://abdullahamdi.com/gst/ .
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# Twin-field-based multi-party quantum key agreement

Twin-field-based multi-party quantum key agreement ( http://arxiv.org/abs/2409.04204v1 )

ライセンス: Link先を確認
Venkat Abhignan, R. Srikanth, (参考訳) 量子鍵分布(QKD)は、計算仮定よりも量子力学の法則によって保証されるように、2人の遠いユーザー間の暗号通信をセキュアにすることができる。 反伝播弱コヒーレント光パルスを用いるツインフィールドスキームは、量子リピータを用いることなく標準QKDの安全な距離を2倍にする。 本稿では,ツインフィールド鍵分配プロトコルを,マルチパーティ量子鍵合意のためのスキームに拡張する手法について検討する。 我々は,最小誤差判別分析を用いてプロトコルのセキュリティを調査し,絡み合いに基づくソース置換方式に基づいて漸近鍵レートを導出する。 また、ANSYSインターコネクションプラットフォーム上でシミュレーションを行い、特定の状況下でのプロトコルの性能について検討する。

Quantum key distribution (QKD) can secure cryptographic communication between two distant users, as guaranteed by the laws of quantum mechanics rather than computational assumptions. The twin-field scheme, which employs counter-propagated weak coherent light pulses, doubles the secure distance of standard QKD without using quantum repeaters. Here, we study a method to extend the twin-field key distribution protocol to a scheme for multi-party quantum key agreement. We study our protocol's security using a minimum error discrimination analysis and derive the asymptotic key rate based on the entanglement-based source-replacement scheme. We also simulate it on the ANSYS Interconnect platform to study the protocol's performance in certain practical situations.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 時間的行動検出におけるゲーティングとコンテキストの導入

Introducing Gating and Context into Temporal Action Detection ( http://arxiv.org/abs/2409.04205v1 )

ライセンス: Link先を確認
Aglind Reka, Diana Laura Borza, Dominick Reilly, Michal Balazia, Francois Bremond, (参考訳) 時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の動作の局所化と分類を行うタスクであり、アクションの重複やアクションの変動が原因で依然として困難である。 最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。 この知見に基づいて,軽量かつ効果的な操作による特徴抽出プロセスを提案する。 まず、異なるウィンドウサイズを持つ並列畳み込みを用いた局所分岐を用いて、きめ細かい時間的特徴と粗い時間的特徴の両方をキャプチャする。 このブランチには、最も関連性の高い機能を選択するためのゲーティングメカニズムが組み込まれている。 第2に,境界フレームをキーと値のペアとして使用するコンテキスト分岐を導入して,クロスアテンションを通じて中心フレームとの関係を解析する。 提案手法は時間的依存を捕捉し,文脈的理解を改善する。 挑戦的データセット(THUMOS14とEPIC-KITCHEN 100)に対するゲーティング機構とコンテキストブランチの評価は、ベースラインと既存のメソッドよりも一貫した改善を示している。

Temporal Action Detection (TAD), the task of localizing and classifying actions in untrimmed video, remains challenging due to action overlaps and variable action durations. Recent findings suggest that TAD performance is dependent on the structural design of transformers rather than on the self-attention mechanism. Building on this insight, we propose a refined feature extraction process through lightweight, yet effective operations. First, we employ a local branch that employs parallel convolutions with varying window sizes to capture both fine-grained and coarse-grained temporal features. This branch incorporates a gating mechanism to select the most relevant features. Second, we introduce a context branch that uses boundary frames as key-value pairs to analyze their relationship with the central frame through cross-attention. The proposed method captures temporal dependencies and improves contextual understanding. Evaluations of the gating mechanism and context branch on challenging datasets (THUMOS14 and EPIC-KITCHEN 100) show a consistent improvement over the baseline and existing methods.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 高速フォワード低ランクトレーニング

Fast Forwarding Low-Rank Training ( http://arxiv.org/abs/2409.04206v1 )

ライセンス: Link先を確認
Adir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov, (参考訳) 低ランク適応(LoRA)のようなパラメータ効率の良い微調整手法は、事前訓練された言語モデル(LM)を微調整する際の計算コストを削減することを目的としている。 これらの低ランク設定によって実現され、より効率的な最適化戦略が提案される: Fast Forward、大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチ。 Fast Forwardの段階では、損失が小さな検証セットで改善されなくなるまで、最新のオプティマイザステップを繰り返す。 通常の最適化段階とファストフォワード段階を交互に行うことで、Fast ForwardはFLOPの87倍の削減と、Adamとの標準SGDよりも81倍の短縮を実現している。 我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。 さらに、Fast Forwardをいつ、どのように適用するかを分析します。

Parameter efficient finetuning methods like low-rank adaptation (LoRA) aim to reduce the computational costs of finetuning pretrained Language Models (LMs). Enabled by these low-rank settings, we propose an even more efficient optimization strategy: Fast Forward, a simple and effective approach to accelerate large segments of training. In a Fast Forward stage, we repeat the most recent optimizer step until the loss stops improving on a tiny validation set. By alternating between regular optimization steps and Fast Forward stages, Fast Forward provides up to an 87\% reduction in FLOPs and up to an 81\% reduction in train time over standard SGD with Adam. We validate Fast Forward by finetuning various models on different tasks and demonstrate that it speeds up training without compromising model performance. Additionally, we analyze when and how to apply Fast Forward.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 人物再同定のための伝達可能な生成攻撃の学習

Learning to Learn Transferable Generative Attack for Person Re-Identification ( http://arxiv.org/abs/2409.04208v1 )

ライセンス: Link先を確認
Yuan Bian, Min Liu, Xueping Wang, Yunfeng Ma, Yaonan Wang, (参考訳) ディープラーニングに基づく人物再識別(re-id)モデルは、監視システムに広く採用されており、必然的に敵対的な攻撃に対するディープネットワークの脆弱性を継承している。 既存の攻撃は、異なるドメインでトレーニングされたモデルを摂動するクロステスト能力を無視して、クロスデータセットとクロスモデル転送可能性のみを考慮する。 実世界のre-idモデルのロバスト性を強力に検証するために,メタトランスフォータブル生成攻撃(MTGA)手法を提案する。 具体的には、メタトレインおよびメタテストアタックプロセスのための異なるre-idモデルとデータセットを選択することで、クロスモデル\&datasetブラックボックスアタックタスクを最初に模倣する。 異なるモデルが異なる機能領域にフォーカスする可能性があるため、Perturbation Random Erasingモジュールはさらに、攻撃者がモデル固有の機能だけを学ぶことを防ぐために考案されている。 クロステストの転送性向上のために,ターゲットモデルの多領域統計を混合することにより,多彩な特徴埋め込み空間を模倣する正規化ミックス戦略が導入された。 特にクロスモデル・データセットとクロスモデル・データセット・テスト攻撃では, MTGAは平均mAP低下率で21.5\%, 11.3\%, SOTA法では21.5\%, MTGA法では11.3\%, MTGA法では21.5\%, MTGA法では1。 MTGAのコードは、論文が受理された後に公開される。

Deep learning-based person re-identification (re-id) models are widely employed in surveillance systems and inevitably inherit the vulnerability of deep networks to adversarial attacks. Existing attacks merely consider cross-dataset and cross-model transferability, ignoring the cross-test capability to perturb models trained in different domains. To powerfully examine the robustness of real-world re-id models, the Meta Transferable Generative Attack (MTGA) method is proposed, which adopts meta-learning optimization to promote the generative attacker producing highly transferable adversarial examples by learning comprehensively simulated transfer-based cross-model\&dataset\&test black-box meta attack tasks. Specifically, cross-model\&dataset black-box attack tasks are first mimicked by selecting different re-id models and datasets for meta-train and meta-test attack processes. As different models may focus on different feature regions, the Perturbation Random Erasing module is further devised to prevent the attacker from learning to only corrupt model-specific features. To boost the attacker learning to possess cross-test transferability, the Normalization Mix strategy is introduced to imitate diverse feature embedding spaces by mixing multi-domain statistics of target models. Extensive experiments show the superiority of MTGA, especially in cross-model\&dataset and cross-model\&dataset\&test attacks, our MTGA outperforms the SOTA methods by 21.5\% and 11.3\% on mean mAP drop rate, respectively. The code of MTGA will be released after the paper is accepted.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# ダイアグラム形式化による多モード幾何問題解法

Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver ( http://arxiv.org/abs/2409.04214v1 )

ライセンス: Link先を確認
Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma, Ziran Qin, Xiaokai Zhang, Na Zhu, Tuo Leng, (参考訳) 数学的推論は、AIモデル、特に言語信号と視覚信号の両方を必要とする幾何学的問題において、現在も進行中の課題である。 ほとんどのMLLMの視覚エンコーダは自然の場面で訓練されているため、幾何学図の理解に苦慮し、テキストのみを処理するLLMよりも幾何学的問題解決に優れる。 この制限は、幾何学的関係を表現する効果的な方法の欠如によって増幅される。 これらの問題に対処するために、視覚的特徴、幾何学的形式言語、自然言語表現を統合した新しいフレームワークであるダイアグラム形式化拡張幾何問題解法(DFE-GPS)を導入する。 我々は新しい合成データアプローチを提案し、幾何学的構造をよりよく理解するために視覚エンコーダを強化するために、形式的および自然言語のキャプションを付加した大規模な幾何学的データセット、SynthGeo228Kを作成する。 我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。

Mathematical reasoning remains an ongoing challenge for AI models, especially for geometry problems that require both linguistic and visual signals. As the vision encoders of most MLLMs are trained on natural scenes, they often struggle to understand geometric diagrams, performing no better in geometry problem solving than LLMs that only process text. This limitation is amplified by the lack of effective methods for representing geometric relationships. To address these issues, we introduce the Diagram Formalization Enhanced Geometry Problem Solver (DFE-GPS), a new framework that integrates visual features, geometric formal language, and natural language representations. We propose a novel synthetic data approach and create a large-scale geometric dataset, SynthGeo228K, annotated with both formal and natural language captions, designed to enhance the vision encoder for a better understanding of geometric structures. Our framework improves MLLMs' ability to process geometric diagrams and extends their application to open-ended tasks on the formalgeo7k dataset.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# MpoxMamba:Mpox検出のためのグループ型Mambaベースの軽量ハイブリッドネットワーク

MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection ( http://arxiv.org/abs/2409.04218v1 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Haihuang Liang, Zhenzhang Li, Yufeng Wang, (参考訳) 効果的なmpox検出ツールが欠如しているため、mpoxウイルスは世界中で普及し続けており、世界保健機関(WHO)によって国際的に懸念されている公衆衛生上の緊急事態であると宣言されている。 深層学習に基づくmpox検出ツールは、mpoxの発生を緩和するために不可欠である。 しかし,既存の手法では,検出性能,パラメータサイズ,モデル複雑性の良好なトレードオフを達成するのが困難である。 長距離依存のモデリングにおけるMambaの成功と,その線形複雑性を考えると,MpoxMambaと呼ばれる軽量ハイブリッドアーキテクチャを提案する。 MpoxMambaは、深層分離可能な畳み込みを利用して、ハンポックス皮膚病変の局所的な特徴表現を抽出し、グループ化されたMambaモジュールによってグローバルな文脈情報をモデル化する能力を大幅に強化する。 2つの広く知られているmpoxデータセットの実験結果は、MpoxMambaが既存のmpox検出方法と最先端の軽量モデルより優れていることを示している。 また,疫病地域(http://5227i971s5.goho.co:30290。 MpoxMambaのソースコードはhttps://github.com/YubiaoYue/MpoxMambaで入手できる。

Due to the lack of effective mpox detection tools, the mpox virus continues to spread worldwide and has once again been declared a public health emergency of international concern by the World Health Organization. Deep learning-based mpox detection tools are crucial to alleviate mpox outbreak. However, existing methods have difficulty in achieving a good trade-off between detection performance, parameter size, and model complexity, which is crucial for practical applications and widespread deployment, especially in resource-limited scenarios. Given that the success of Mamba in modeling long-range dependencies and its linear complexity, we proposed a lightweight hybrid architecture called MpoxMamba. MpoxMamba utilizes deep separable convolutions to extract local feature representations in mpox skin lesions, and greatly enhances the model's ability to model the global contextual information by grouped Mamba modules. Experimental results on two widely recognized mpox datasets demonstrate that MpoxMamba outperforms existing mpox detection methods and state-of-the-art lightweight models. We also developed a web-based online application to provide free mpox detection services to the public in the epidemic areas (http://5227i971s5.goho.co:30290). The source codes of MpoxMamba are available at https://github.com/YubiaoYue/MpoxMamba.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 不完全制御を用いた量子センシングにおける最適精度の回復

Recovering optimal precision in quantum sensing using imperfect control ( http://arxiv.org/abs/2409.04223v1 )

ライセンス: Link先を確認
Zi-Shen Li, Xinyue Long, Xiaodong Yang, Dawei Lu, Yuxiang Yang, (参考訳) 量子制御は、量子センシングの精度向上に重要な役割を果たしている。 しかし、既存のプロトコルの多くは、必然的に制御の欠陥があるにもかかわらず、完全な制御を必要とする。 ここでは、制御パルスの持続時間と問合せ時間が不確実である不完全なクロックを用いた量子センシングの基本的な設定について考察する。 このシナリオでは,非マルコフ環境下での周波数推定の課題について検討する。 我々は制御戦略を設計し、制御自由戦略よりも優れていることを証明し、このモデルに固有の小さなエラー項まで最適なハイゼンベルクのスケールを回復する。 さらに、核磁気共鳴(NMR)プラットフォーム上での実験を通じて、制御戦略の利点を実証する。 我々の発見は、量子センシングにおける量子制御の利点が不完全性の存在においても持続していることを確認する。

Quantum control plays a crucial role in enhancing precision scaling for quantum sensing. However, most existing protocols require perfect control, even though real-world devices inevitably have control imperfections. Here, we consider a fundamental setting of quantum sensing with imperfect clocks, where the duration of control pulses and the interrogation time are all subject to uncertainty. Under this scenario, we investigate the task of frequency estimation in the presence of a non-Markovian environment. We design a control strategy and prove that it outperforms any control-free strategies, recovering the optimal Heisenberg scaling up to a small error term that is intrinsic to this model. We further demonstrate the advantage of our control strategy via experiments on a nuclear magnetic resonance (NMR) platform. Our finding confirms that the advantage of quantum control in quantum sensing persists even in the presence of imperfections.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 階層型マルチエージェント強化学習フレームワークによる多臓器疾患ケアの促進

Advancing Multi-Organ Disease Care: A Hierarchical Multi-Agent Reinforcement Learning Framework ( http://arxiv.org/abs/2409.04224v1 )

ライセンス: Link先を確認
Daniel J. Tan, Qianyi Xu, Kay Choong See, Dilruk Perera, Mengling Feng, (参考訳) 多臓器疾患は、複数の臓器系に同時に影響し、複雑で適応的な治療戦略を必要とするため、重大な課題を呈する。 AIによる医療意思決定支援システムの最近の進歩にもかかわらず、既存のソリューションは個々の臓器システムに限定されている。 彼らはしばしば、臓器システム間の複雑な依存関係を無視し、結果として、実際に役立つ包括的な治療勧告の提供に失敗する。 本稿では,これらの課題に対処する新しい階層型マルチエージェント強化学習(HMARL)フレームワークを提案する。 このフレームワークは、各臓器システムに専用のエージェントを使用し、明示的なエージェント間通信チャネルを通じて動的にモデル化し、臓器間の協調的な治療戦略を可能にする。 さらに, 2層状態表現技術を導入し, 患者状態をさまざまな階層レベルでコンテキスト化し, 治療精度と関連性を高める。 本研究は,敗血症(複雑多臓器疾患)管理の質的,定量的な評価を通じて,患者の生存率を著しく向上させる効果的な治療方針を学習する能力を示す。 この枠組みは、多臓器治療推奨のための包括的アプローチの先駆けとして、臨床意思決定支援システムの大幅な進歩を示す。

Multi-organ diseases present significant challenges due to their simultaneous impact on multiple organ systems, necessitating complex and adaptive treatment strategies. Despite recent advancements in AI-powered healthcare decision support systems, existing solutions are limited to individual organ systems. They often ignore the intricate dependencies between organ system and thereby fails to provide holistic treatment recommendations that are useful in practice. We propose a novel hierarchical multi-agent reinforcement learning (HMARL) framework to address these challenges. This framework uses dedicated agents for each organ system, and model dynamic through explicit inter-agent communication channels, enabling coordinated treatment strategies across organs. Furthermore, we introduce a dual-layer state representation technique to contextualize patient conditions at various hierarchical levels, enhancing the treatment accuracy and relevance. Through extensive qualitative and quantitative evaluations in managing sepsis (a complex multi-organ disease), our approach demonstrates its ability to learn effective treatment policies that significantly improve patient survival rates. This framework marks a substantial advancement in clinical decision support systems, pioneering a comprehensive approach for multi-organ treatment recommendations.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# SPACE: 分散マルチロボットタスク割当アルゴリズム評価のためのPythonベースのシミュレータ

SPACE: A Python-based Simulator for Evaluating Decentralized Multi-Robot Task Allocation Algorithms ( http://arxiv.org/abs/2409.04230v1 )

ライセンス: Link先を確認
Inmo Jang, (参考訳) Swarm Roboticsは、集合的な目標を達成するために複数のロボットの協調を探求し、集団的な意思決定が中心となる。 このプロセスでは、自律的にローカルな意思決定を行い、それらを伝達する分散ロボットが関与する。 このような分散アルゴリズムを数百以上のロボットで現実のシナリオでテストすることは、しばしば非現実的であり、効果的なシミュレーションツールの必要性を強調している。 本研究では,分散マルチロボットタスクアロケーション(MRTA)アルゴリズムの研究,評価,比較を支援するPythonベースのシミュレータであるSPACE(Swarm Planning and Control Evaluation)を提案する。 SPACEは、Pythonプラグインとして意思決定アルゴリズムを実装し、直感的なGUIでエージェントの動作木を簡単に構築し、エージェント間通信とローカルタスク認識のための組み込みサポートを活用することで、コアアルゴリズム開発を効率化する。 その実用性を実証するために、シミュレータ内でCBBAとGRAPEを実装し、特に動的に導入されたタスクのシナリオにおいて、異なるメトリクス間で性能を比較した。 この評価は、MRTAアルゴリズムの厳密で標準化された比較を行う上でのSPACEの有用性を示し、今後の研究を支援するのに役立つ。

Swarm robotics explores the coordination of multiple robots to achieve collective goals, with collective decision-making being a central focus. This process involves decentralized robots autonomously making local decisions and communicating them, which influences the overall emergent behavior. Testing such decentralized algorithms in real-world scenarios with hundreds or more robots is often impractical, underscoring the need for effective simulation tools. We propose SPACE (Swarm Planning and Control Evaluation), a Python-based simulator designed to support the research, evaluation, and comparison of decentralized Multi-Robot Task Allocation (MRTA) algorithms. SPACE streamlines core algorithmic development by allowing users to implement decision-making algorithms as Python plug-ins, easily construct agent behavior trees via an intuitive GUI, and leverage built-in support for inter-agent communication and local task awareness. To demonstrate its practical utility, we implement and evaluate CBBA and GRAPE within the simulator, comparing their performance across different metrics, particularly in scenarios with dynamically introduced tasks. This evaluation shows the usefulness of SPACE in conducting rigorous and standardized comparisons of MRTA algorithms, helping to support future research in the field.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# UniDet3D:マルチデータセット屋内3Dオブジェクト検出

UniDet3D: Multi-dataset Indoor 3D Object Detection ( http://arxiv.org/abs/2409.04234v1 )

ライセンス: Link先を確認
Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin, (参考訳) ロボット工学や拡張現実におけるスマートソリューションに対する顧客の需要は、ポイントクラウドから3Dオブジェクトを検出することにかなりの関心を集めている。 しかし、既存の屋内データセットは、強力で一般的な3Dオブジェクト検出モデルを訓練するには小さすぎるし、多様ではない。 一方、基礎モデルを用いたより一般的なアプローチは、特定のタスクに対する教師付きトレーニングに基づくものよりも品質が劣っている。 本研究では,屋内データセットの混合に基づいて学習し,様々な室内環境下での作業が可能な,シンプルで効果的な3次元物体検出モデルである \ours{} を提案する。 異なるラベル空間を統一することにより、教師付きジョイントトレーニングスキームを通じて複数のデータセットにまたがる強力な表現を学習することができる。 提案するネットワークアーキテクチャは,バニラトランスフォーマーエンコーダ上に構築されており,予測パイプラインの実行,カスタマイズ,拡張が容易である。 ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), ScanNet++ (+2.7 mAP50) である。 コードはhttps://github.com/filapro/unidet3dで入手できる。

Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds. Yet, existing indoor datasets taken individually are too small and insufficiently diverse to train a powerful and general 3D object detection model. In the meantime, more general approaches utilizing foundation models are still inferior in quality to those based on supervised training for a specific task. In this work, we propose \ours{}, a simple yet effective 3D object detection model, which is trained on a mixture of indoor datasets and is capable of working in various indoor environments. By unifying different label spaces, \ours{} enables learning a strong representation across multiple datasets through a supervised joint training scheme. The proposed network architecture is built upon a vanilla transformer encoder, making it easy to run, customize and extend the prediction pipeline for practical use. Extensive experiments demonstrate that \ours{} obtains significant gains over existing 3D object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at https://github.com/filapro/unidet3d .
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 推定精度を用いた教師なしドメイン適応のためのネットワーク信頼度校正

Calibration of Network Confidence for Unsupervised Domain Adaptation Using Estimated Accuracy ( http://arxiv.org/abs/2409.04241v1 )

ライセンス: Link先を確認
Coby Penso, Jacob Goldberger, (参考訳) 本研究は,対象ドメインからの未ラベルサンプルを用いて,もともとソースドメイン上でトレーニングされたモデルを対象ドメインに適応させながら,ネットワーク信頼性を校正する問題に対処する。 ターゲットドメインからのラベルがないため、ターゲットドメイン上で適応されたネットワークを直接キャリブレーションすることは不可能である。 この課題に対処するために、ターゲットドメイン上でのネットワークの精度を推定するキャリブレーション手順を導入する。 ネットワーク精度は、まずラベル付きソースデータに基づいて計算され、その後、ターゲットドメイン上のモデルの実際の精度を表すように修正される。 提案アルゴリズムは,推定精度と計算された信頼度との差を最小化することにより,目標領域の予測信頼度を直接調整する。 実験結果から,本手法は,重み付けに頼っている既存手法よりも,いくつかの標準データセットにおいて有意に優れていたことが示唆された。

This study addresses the problem of calibrating network confidence while adapting a model that was originally trained on a source domain to a target domain using unlabeled samples from the target domain. The absence of labels from the target domain makes it impossible to directly calibrate the adapted network on the target domain. To tackle this challenge, we introduce a calibration procedure that relies on estimating the network's accuracy on the target domain. The network accuracy is first computed on the labeled source data and then is modified to represent the actual accuracy of the model on the target domain. The proposed algorithm calibrates the prediction confidence directly in the target domain by minimizing the disparity between the estimated accuracy and the computed confidence. The experimental results show that our method significantly outperforms existing methods, which rely on importance weighting, across several standard datasets.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# 隠蔽侵入の防止:差動保護システムにおける故障対策サイバーアタックの検出

Unmasking Covert Intrusions: Detection of Fault-Masking Cyberattacks on Differential Protection Systems ( http://arxiv.org/abs/2409.04242v1 )

ライセンス: Link先を確認
Ahmad Mohammad Saber, Amr Youssef, Davor Svetinovic, Hatem Zeineldin, Ehab F. El-Saadany, (参考訳) ラインカレント微分リレー(Line Current Differential Relays、LCDR)は、重要な伝送路を保護するために徐々に使われる高速リレーである。 しかし、LCDRはサイバー攻撃に弱い。 フォールト・マスキング・アタック(英: Fault-Masking Attacks、FMA)は、標的のLCDRのリモート測定を操作して、保護線上の障害を偽装するステルスサイバーアタックである。 そのため、このLCDRは検出されていない。 本稿では,FMAを検出するための2つのモジュールフレームワークを提案する。 最初のモジュールは、保護された伝送線路の等価物理モデルから開発されたMismatch Index (MI) である。 MIは、LCDRの局所的および遠隔的測定に重大なミスマッチがある場合にのみトリガーされ、LCDR自体が非リガー化され、FMAを示す。 MIが起動された後、第2のモジュールであるニューラルネットワークベースの分類器は、トリガーイベントがFMAの発生を宣言する前にLCDRによって保護されたライン上にある物理的障害であることを即座に確認する。 提案するフレームワークはIEEE 39-busベンチマークシステムを用いてテストされる。 シミュレーションの結果,LCDR上のFMAを正確に検出でき,正常なシステム障害,変動,測定ノイズの影響を受けないことが確認された。 OPAL-RTのリアルタイムシミュレータを用いた実験結果から,提案手法のリアルタイム性能性能を確認した。

Line Current Differential Relays (LCDRs) are high-speed relays progressively used to protect critical transmission lines. However, LCDRs are vulnerable to cyberattacks. Fault-Masking Attacks (FMAs) are stealthy cyberattacks performed by manipulating the remote measurements of the targeted LCDR to disguise faults on the protected line. Hence, they remain undetected by this LCDR. In this paper, we propose a two-module framework to detect FMAs. The first module is a Mismatch Index (MI) developed from the protected transmission line's equivalent physical model. The MI is triggered only if there is a significant mismatch in the LCDR's local and remote measurements while the LCDR itself is untriggered, which indicates an FMA. After the MI is triggered, the second module, a neural network-based classifier, promptly confirms that the triggering event is a physical fault that lies on the line protected by the LCDR before declaring the occurrence of an FMA. The proposed framework is tested using the IEEE 39-bus benchmark system. Our simulation results confirm that the proposed framework can accurately detect FMAs on LCDRs and is not affected by normal system disturbances, variations, or measurement noise. Our experimental results using OPAL-RT's real-time simulator confirm the proposed solution's real-time performance capability.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# メモリ効率のよい光フローのためのハイブリッドコストボリューム

Hybrid Cost Volume for Memory-Efficient Optical Flow ( http://arxiv.org/abs/2409.04243v1 )

ライセンス: Link先を確認
Yang Zhao, Gangwei Xu, Gang Wu, (参考訳) 現在の最先端のフロー法は、主に高密度全対のコストボリュームに基づいている。 しかし、画像解像度が増大するにつれて、これらのコストボリュームを構成する計算量と空間的複雑さは質的な速度で増大し、高解像度画像には実用的でない。 本稿では,HCV(Hybrid Cost Volume for memory- efficient optical flow)を提案する。 HCVを構築するために,まず4Dコストボリュームを2つのグローバルな3Dコストボリュームに分割するTop-k戦略を提案する。 これらのボリュームは、かなりの量のマッチング情報を保持しながら、メモリ使用量を大幅に削減する。 さらに、HCVのローカル情報を補うために、ローカル検索スペースを備えたローカル4Dコストボリュームを導入する。 HCVをベースとして,HCVFlowというメモリ効率の高い光フローネットワークを設計する。 HCVFlowは、全対コストボリュームに基づく再帰流法と比較して、高い精度を確保しつつ、メモリ消費を著しく削減する。 Sintel と KITTI のデータセットと実世界の 4K (2160*3840) 解像度画像に対して,本手法の有効性と有効性を検証する。 大規模な実験により,HCVFlowはメモリ使用量が非常に少なく,精度で他のメモリ効率の手法よりも優れていることが示された。 コードはhttps://github.com/gangweiX/HCVFlowで公開されている。

Current state-of-the-art flow methods are mostly based on dense all-pairs cost volumes. However, as image resolution increases, the computational and spatial complexity of constructing these cost volumes grows at a quartic rate, making these methods impractical for high-resolution images. In this paper, we propose a novel Hybrid Cost Volume for memory-efficient optical flow, named HCV. To construct HCV, we first propose a Top-k strategy to separate the 4D cost volume into two global 3D cost volumes. These volumes significantly reduce memory usage while retaining a substantial amount of matching information. We further introduce a local 4D cost volume with a local search space to supplement the local information for HCV. Based on HCV, we design a memory-efficient optical flow network, named HCVFlow. Compared to the recurrent flow methods based the all-pairs cost volumes, our HCVFlow significantly reduces memory consumption while ensuring high accuracy. We validate the effectiveness and efficiency of our method on the Sintel and KITTI datasets and real-world 4K (2160*3840) resolution images. Extensive experiments show that our HCVFlow has very low memory usage and outperforms other memory-efficient methods in terms of accuracy. The code is publicly available at https://github.com/gangweiX/HCVFlow.
翻訳日:2024-09-09 15:55:18 公開日:2024-09-06
# WarpAdam: Meta-Learningアプローチに基づいた新しいAdamオプティマイザ

WarpAdam: A new Adam optimizer based on Meta-Learning approach ( http://arxiv.org/abs/2409.04244v1 )

ライセンス: Link先を確認
Chengxi Pan, Junshang Chen, Jingrui Ye, (参考訳) ディープラーニングモデルのトレーニングには最適化アルゴリズムの最適選択が不可欠である。 アダム・オプティマイザはその効率と幅広い適用性のために大きな注目を集めている。 しかし、多様なデータセットにまたがる最適化の適応性を高めるため、メタラーの「ワープ勾配降下」概念をアダム最適化器に組み込むことにより、革新的な最適化戦略を提案する。従来のアダム最適化器では、勾配平均と分散の見積を計算し、モデルパラメータを更新するためにグラデーションを利用する。本手法では、線形変換勾配に使用されるPと呼ばれる学習可能な歪み行列を導入する。この変換は、各イテレーション中の勾配をわずかに調整し、最適な歪み行列Pを学習することにより、異なるデータ分布にまたがる勾配情報を適応させ、最適化性能を向上させることを目的としている。 さらに,適応行列Pを学習するための効果的な戦略を検討し,本手法が最適な結果をもたらすシナリオを特定する。 結論として,メタラーニングとアダム・オプティマイザの‘ワープ勾配’の概念を融合させる,革新的なアプローチを提案する。 学習可能な歪み行列Pをオプティマイザ内に導入することにより,多種多様なデータ分布にまたがるモデルの一般化能力を向上し,ディープラーニング最適化の分野における新たな可能性を開くことを目指す。

Optimal selection of optimization algorithms is crucial for training deep learning models. The Adam optimizer has gained significant attention due to its efficiency and wide applicability. However, to enhance the adaptability of optimizers across diverse datasets, we propose an innovative optimization strategy by integrating the 'warped gradient descend'concept from Meta Learning into the Adam optimizer. In the conventional Adam optimizer, gradients are utilized to compute estimates of gradient mean and variance, subsequently updating model parameters. Our approach introduces a learnable distortion matrix, denoted as P, which is employed for linearly transforming gradients. This transformation slightly adjusts gradients during each iteration, enabling the optimizer to better adapt to distinct dataset characteristics. By learning an appropriate distortion matrix P, our method aims to adaptively adjust gradient information across different data distributions, thereby enhancing optimization performance. Our research showcases the potential of this novel approach through theoretical insights and empirical evaluations. Experimental results across various tasks and datasets validate the superiority of our optimizer that integrates the 'warped gradient descend' concept in terms of adaptability. Furthermore, we explore effective strategies for training the adaptation matrix P and identify scenarios where this method can yield optimal results. In summary, this study introduces an innovative approach that merges the 'warped gradient descend' concept from Meta Learning with the Adam optimizer. By introducing a learnable distortion matrix P within the optimizer, we aim to enhance the model's generalization capability across diverse data distributions, thus opening up new possibilities in the field of deep learning optimization.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# Hermes:エッジデバイス上の大規模モデルに対するメモリ効率の良いパイプライン推論

Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices ( http://arxiv.org/abs/2409.04249v1 )

ライセンス: Link先を確認
Xueyuan Han, Zinuo Cai, Yichu Zhang, Chongxin Fan, Junhan Liu, Ruhui Ma, Rajkumar Buyya, (参考訳) トランスフォーマーベースの大規模モデルの応用は近年、多くの成功を収めている。 しかし,大規模モデルのパラメータの指数関数的増加は,エッジ展開に強い記憶障害をもたらす。 この課題に対処する以前の作業は、主にモデル構造を最適化し、メモリスワップメソッドを採用することに焦点を当てていた。 しかし、前者は推論精度を低下させ、後者は推論遅延を増大させる。 本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。 動的メモリ管理を取り入れることでメモリ使用量を削減し、並列モデルローディングを利用することで推論遅延を最小限にする。 PIPELOAD機構に基づいて,エッジデバイス上での大規模モデル推論に最適化されたHermesを提案する。 異なるサイズのトランスフォーマーモデル上でHermesを評価する。 提案実験は,BERTモデルとViTモデルにおける最新のパイプライン機構よりも最大4.24倍の推論速度,86.7%のメモリ消費,2.58倍の推論速度,90.3%のGPTモデルにおけるメモリ消費を実現していることを示す。

The application of Transformer-based large models has achieved numerous success in recent years. However, the exponential growth in the parameters of large models introduces formidable memory challenge for edge deployment. Prior works to address this challenge mainly focus on optimizing the model structure and adopting memory swapping methods. However, the former reduces the inference accuracy, and the latter raises the inference latency. This paper introduces PIPELOAD, a novel memory-efficient pipeline execution mechanism. It reduces memory usage by incorporating dynamic memory management and minimizes inference latency by employing parallel model loading. Based on PIPELOAD mechanism, we present Hermes, a framework optimized for large model inference on edge devices. We evaluate Hermes on Transformer-based models of different sizes. Our experiments illustrate that Hermes achieves up to 4.24 X increase in inference speed and 86.7% lower memory consumption than the state-of-the-art pipeline mechanism for BERT and ViT models, 2.58 X increase in inference speed and 90.3% lower memory consumption for GPT-style models.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 任意のユニタリを持たない離散変数におけるフォトニック多部絡み合い

Photonic multipartite entanglement in discrete variables without arbitrary unitaries ( http://arxiv.org/abs/2409.04250v1 )

ライセンス: Link先を確認
Milica Banic, J. E. Sipe, Marco Liscidini, (参考訳) 本稿では,光子対情報源に基づくポストセレクトされたマルチパーティイト状態のソース設計手法を提案する。 我々のアプローチは、異なる符号化スキームや物理プラットフォームにおける任意のターゲット状態に適用できる。 また、デバイスで使用するコンポーネントの種類を制限できるため、光学素子の損失や実装が難しいことも回避できる。 例として、ピコジュールポンプパルスの10kHzオンチップ発生率を持つ周波数双符号化高次元GHZ状態の受動的統合源を設計する。

We present an approach for designing sources of postselected multipartite states based on photon-pair sources. Our approach can be applied to arbitrary target states in different encoding schemes and physical platforms. It also allows one to limit the types of components to be used in the device, such that lossy or difficult-to-implement optical elements can be avoided. As an example, we apply this strategy to design a passive integrated source of frequency-bin-encoded high-dimensional GHZ states with a 10 kHz on-chip generation rate for picojoule pump pulses.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 平面走査プローブ顕微鏡によるナノスケールでのベクトル磁場イメージング

Planar scanning probe microscopy enables vector magnetic field imaging at the nanoscale ( http://arxiv.org/abs/2409.04252v1 )

ライセンス: Link先を確認
Paul Weinbrenner, Patricia Klar, Christian Giese, Luis Flacke, Manuel Müller, Matthias Althammer, Stephan Geprägs, Rudolf Gross, Friedemann Reinhard, (参考訳) 平面走査型プローブ顕微鏡は,近年,先端型走査型プローブイメージングの新たなアプローチとして注目されている。 磁場に敏感な窒素空洞(NV)中心をドープしたバルクダイヤモンドのような拡張された平面センサーを、平面サンプルのナノスケールの近接でスキャンすることができる。 これまでのところ、この技術は光学近接場顕微鏡に限られており、興味のあるサンプルのナノファブリケーションを必要としている。 ここでは、この技術をNV中心を用いた磁気計測に拡張し、試料側ナノファブリケーションの必要性を除去する修正を提案する。 薄膜磁気異方体における磁気渦の3次元ベクトル磁場を直接撮像し、同じ走査プローブ内で異なる方向のNV中心で繰り返し走査する。 この結果から,同じ走査プローブ内の複数の量子ビットを用いた量子センシングへの扉が開かれた。

Planar scanning probe microscopy is a recently emerging alternative approach to tip-based scanning probe imaging. It can scan an extended planar sensor, such as a polished bulk diamond doped with magnetic-field-sensitive nitrogen-vacancy (NV) centers, in nanometer-scale proximity of a planar sample. So far, this technique has been limited to optical near-field microscopy, and has required nanofabrication of the sample of interest. Here we extend this technique to magnetometry using NV centers, and present a modification that removes the need for sample-side nanofabrication. We harness this new ability to perform a hitherto infeasible measurement - direct imaging of the three-dimensional vector magnetic field of magnetic vortices in a thin film magnetic heterostructure, based on repeated scanning with NV centers with different orientations within the same scanning probe. Our result opens the door to quantum sensing using multiple qubits within the same scanning probe, a prerequisite for the use of entanglement-enhanced and massively parallel schemes.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# デジタルハミルトニアンシミュレーションにおける誤差の希釈

Dilution of error in digital Hamiltonian simulation ( http://arxiv.org/abs/2409.04254v1 )

ライセンス: Link先を確認
Etienne Granet, Henrik Dreyer, (参考訳) 局所可観測体のディジタル量子シミュレーションにおけるノイズの量は,多くの状況においてシステムサイズに依存しないという,解析的,数値的,実験的証拠を提供する。 演算子の「関連文字列長」に基づいて、この誤差の希釈を顕微鏡で説明し、これは演算子におけるパウリ弦の長さで、指数的に小さな文字列の部分空間に属する$s$であり、時間$t$でゼロでない期待値を与えることができる。 この説明は,エラーの発生時期と発生しない時期を予測できることを示す。 本稿では,この機構に依存する誤差低減手法を提案する。 ノイズの多いデバイスを用いたディジタル量子シミュレーションは,大規模システムのシミュレーションを行うために,ゲートエラーを線形に削減する必要がなくなるという意味で,適切な場合においてスケーラブルであることを示す。

We provide analytic, numerical and experimental evidence that the amount of noise in digital quantum simulation of local observables can be independent of system size in a number of situations. We provide a microscopic explanation of this dilution of errors based on the "relevant string length" of operators, which is the length of Pauli strings in the operator at time $s$ that belong to the exponentially small subspace of strings that can give a non-zero expectation value at time $t$. We show that this explanation can predict when dilution of errors occurs and when it does not. We propose an error mitigation method whose efficiency relies on this mechanism. Our findings imply that digital quantum simulation with noisy devices is in appropriate cases scalable in the sense that gate errors do not need to be reduced linearly to simulate larger systems.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# NSF-UKRIバイラテラルワークショップ : 化学における量子情報科学

NSF-UKRI Bilateral Workshop: Quantum Information Science in Chemistry ( http://arxiv.org/abs/2409.04264v1 )

ライセンス: Link先を確認
Gregory D Scholes, Alexandra Olaya-Castro, Shaul Mukamel, Adam Kirrander, Kang-Kuen Ni, Gordon Hedley, Natia Frank, (参考訳) この文書は、2024年2月12日から13日にかけてバージニア州アレクサンドリアで開催されたNSF-UKRI二国間ワークショップ(Quantum Information Science in Chemistry)において、議論の状況と主要な成果をまとめたものである。 このワークショップは、米国科学財団(NSF)と英国研究イノベーション(UKRI)によって、EPSRC(Engineering and Physical Sciences Research Council)を通じて共同で資金提供された。 アメリカ(アメリカ)とイギリス(イギリス)の科学使節団が集結した。

This document summarizes the context and main outcomes of the discussions that took place during the NSF-UKRI bilateral workshop on Quantum Information Science in Chemistry, held on 12-13 February 2024, in Alexandria, Virginia (US). The workshop was jointly funded by the National Science Foundation (NSF) and UK Research and Innovation (UKRI) through the Engineering and Physical Sciences Research Council (EPSRC). It brought together scientific delegations from the United States of America (US) and the United Kingdom (UK).
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# ドメイン固有の基礎モデルの概要--鍵となる技術、応用、課題

An overview of domain-specific foundation model: key technologies, applications and challenges ( http://arxiv.org/abs/2409.04267v1 )

ライセンス: Link先を確認
Haolong Chen, Hanzhi Chen, Zijian Zhao, Kaifeng Han, Guangxu Zhu, Yichen Zhao, Ying Du, Wei Xu, Qingjiang Shi, (参考訳) 人間の言語理解におけるChatGPTやその他の基礎モデルベースの製品のパフォーマンスは、学術と産業の両方に、これらのモデルが特定の産業やアプリケーションシナリオにどのように適合するかを探るきっかけとなった。 このプロセスはドメイン固有の基盤モデルのカスタマイズとして知られており、汎用モデルの限界に対処する。 その重要性にもかかわらず、ドメイン固有の基盤モデルの構築に関する包括的な概要論文が欠落しており、汎用モデルには多くのリソースが存在する。 このギャップを埋めるために、この記事はドメイン固有の基礎モデルをカスタマイズするための方法論を、タイムリーかつ徹底的に概観する。 基本的な概念を導入し、一般的なアーキテクチャの概要を説明し、ドメイン固有のモデルを構築するための重要な方法を調査します。 さらに、この記事では、これらの専門モデルから恩恵を受けることができるさまざまなドメインについて論じ、今後の課題を強調します。 そこで本研究では,様々な分野の研究者や実践者に対して,独自の基礎モデルを開発するための貴重なガイダンスと参考資料を提供することを目的とする。

The impressive performance of ChatGPT and other foundation-model-based products in human language understanding has prompted both academia and industry to explore how these models can be tailored for specific industries and application scenarios. This process, known as the customization of domain-specific foundation models, addresses the limitations of general-purpose models, which may not fully capture the unique patterns and requirements of domain-specific data. Despite its importance, there is a notable lack of comprehensive overview papers on building domain-specific foundation models, while numerous resources exist for general-purpose models. To bridge this gap, this article provides a timely and thorough overview of the methodology for customizing domain-specific foundation models. It introduces basic concepts, outlines the general architecture, and surveys key methods for constructing domain-specific models. Furthermore, the article discusses various domains that can benefit from these specialized models and highlights the challenges ahead. Through this overview, we aim to offer valuable guidance and reference for researchers and practitioners from diverse fields to develop their own customized foundation models.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# Open Language Data Initiative:Karakalpakの低リソース機械翻訳の改善

Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak ( http://arxiv.org/abs/2409.04269v1 )

ライセンス: Link先を確認
Mukhammadsaid Mamasaidov, Abror Shopulatov, (参考訳) この研究はカラカルパク語に対するいくつかの貢献を示す: カラカルパク語に翻訳されたFLORES+のデベロップスデータセット、ウズベク・カラカルパク語のための並列コーパス、ロシア・カラカルパク語、英語・カラカルパク語の各10,000対のペア、そしてこれらの言語をまたいだ翻訳のためのオープンソースの微調整ニューラルモデル。 実験では、異なるモデル変種とトレーニングアプローチを比較し、既存のベースラインの改善を実証した。 この作業は、Open Language Data Initiative(OLDI)共有タスクの一部として実施され、Karakalpakの機械翻訳能力を向上し、NLP技術における言語多様性の拡大に寄与することを目的としている。

This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 大規模言語モデルによる進化的マルチタスクにおける知識伝達の自動化

Advancing Automated Knowledge Transfer in Evolutionary Multitasking via Large Language Models ( http://arxiv.org/abs/2409.04270v1 )

ライセンス: Link先を確認
Yuxiao Huang, Xuebin Lv, Shenghao Wu, Jibin Wu, Liang Feng, Kay Chen Tan, (参考訳) 進化的マルチタスク最適化(Evolutionary Multi-task Optimization、EMTO)は、探索性能を向上させるために同時に最適化されたタスク間の知識伝達を利用するパラダイムである。 EMTOの性能向上のために,特定の最適化タスクのための知識伝達モデルが開発されている。 しかし、これらのモデルを設計するには、しばしばかなりの専門知識が必要である。 近年,大規模言語モデル (LLM) が自律プログラミングにおいて顕著な成功を収め,特定の問題に対する効果的な解法の実現を目指している。 本研究では,LLMに基づく最適化パラダイムを導入し,知識伝達モデルを生成する自律型モデルファクトリを構築し,様々な最適化タスクにおける効率的かつ効率的な知識伝達を実現する。 提案手法の性能を評価するため,LLMが生成する知識伝達モデルと既存の知識伝達手法を比較した総合的研究を行った。 その結果,手作りの知識伝達モデルに対して,効率と効率の両面から優れた,あるいは競争的な性能を達成できることが示唆された。

Evolutionary Multi-task Optimization (EMTO) is a paradigm that leverages knowledge transfer across simultaneously optimized tasks for enhanced search performance. To facilitate EMTO's performance, various knowledge transfer models have been developed for specific optimization tasks. However, designing these models often requires substantial expert knowledge. Recently, large language models (LLMs) have achieved remarkable success in autonomous programming, aiming to produce effective solvers for specific problems. In this work, a LLM-based optimization paradigm is introduced to establish an autonomous model factory for generating knowledge transfer models, ensuring effective and efficient knowledge transfer across various optimization tasks. To evaluate the performance of the proposed method, we conducted comprehensive empirical studies comparing the knowledge transfer model generated by the LLM with existing state-of-the-art knowledge transfer methods. The results demonstrate that the generated model is able to achieve superior or competitive performance against hand-crafted knowledge transfer models in terms of both efficiency and effectiveness.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# Crispエッジ検出のためのCycle Pixel差分ネットワーク

Cycle Pixel Difference Network for Crisp Edge Detection ( http://arxiv.org/abs/2409.04272v1 )

ライセンス: Link先を確認
Changsong Liu, Wei Zhang, Yanyan Liu, Mingyang Li, Wenlin Li, Yimeng Fan, Xiangnan Bai, Liang Zhangd, (参考訳) エッジ検出はコンピュータビジョンの基本課題であり、注目を集めている。 ディープラーニングの出現はこの分野を大きく前進させた。 しかし、大規模な事前訓練された重量に依存する最近のディープラーニングベースの手法は、ゼロから訓練することはできない。 本稿では,画像勾配情報と最新の畳み込み操作を効果的に統合する新しいサイクル画素差分畳み込み(CPDC)を提案する。 CPDCに基づいて、純粋にエンドツーエンドのネットワークであるPD-Netと呼ばれるU字型エンコーダデコーダモデルを開発する。 さらに,既存手法のエッジ厚み問題に対処するため,モデルの識別能力を高めるため,マルチスケール情報拡張モジュール(MSEM)を構築し,鮮明でクリーンな輪郭マップを生成する。 提案手法はBSDS500データセット(ODS=0.813)、NYUD-V2データセット(ODS=0.760)、BIPEDデータセット(ODS=0.898)で競合性能を発揮することを示す。 我々のアプローチは、エッジ検出におけるこれらの課題に対処するための新しい視点を提供する。

Edge detection, as a fundamental task in computer vision, has garnered increasing attention. The advent of deep learning has significantly advanced this field. However, recent deep learning-based methods which rely on large-scale pre-trained weights cannot be trained from scratch, with very limited research addressing this issue. This paper proposes a novel cycle pixel difference convolution (CPDC), which effectively integrates image gradient information with modern convolution operations. Based on the CPDC, we develop a U-shape encoder-decoder model named CPD-Net, which is a purely end-to-end network. Additionally, to address the issue of edge thickness produced by most existing methods, we construct a multi-scale information enhancement module (MSEM) to enhance the discriminative ability of the model, thereby generating crisp and clean contour maps. Comprehensive experiments conducted on three standard benchmarks demonstrate that our method achieves competitive performance on the BSDS500 dataset (ODS=0.813), NYUD-V2 (ODS=0.760), and BIPED dataset (ODS=0.898). Our approach provides a novel perspective for addressing these challenges in edge detection.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# AttentionX:分散最適化の観点からの合意の不一致を警告する

AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective ( http://arxiv.org/abs/2409.04275v1 )

ライセンス: Link先を確認
Guoqiang Zhang, Richard Heusdens, (参考訳) 本稿では,分散最適化の観点からのコンセンサス差を利用して,変圧器の標準アテンションを拡張し,アテンションXと呼ぶ。 一般の分散最適化アルゴリズム \cite{Boyd11ADMM} とprimal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} は、pear-to-pear (P2P) ネットワーク上の分散最適化問題の幅広いクラスを反復的に解決するように設計されている。 特にPDMMの各イテレーションでは、ネットワークの各ノードがまず近隣から情報収集を行い、次にローカル情報融合を行う。 高レベルの観点からは、$KQ$-softmax-based weighted summation of $V$-representations in Attentionは近隣の情報収集に対応し、一方、トランスフォーマーのフィードフォワードネットワーク(FFN)による特徴処理はローカル情報融合に対応している。 PDMMはラグランジアン乗算器を利用して、線形エッジ制約の残差エラーという形で歴史的コンセンサス差を捉え、アルゴリズムが収束するのに重要な役割を果たす。 PDMMにインスパイアされた我々は、標準注意の出力更新圧縮にコンセンサスの不一致を組み込むために、AttentionXを提案する。 AttentionXにおけるコンセンサスの違いは、$V$-representations と $V$-representions の重み付け和と、それ自身をスケールした$V$-representions との差を指す。 ViTおよびnanoGPTの実験は有望な性能を示した。

In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that %the popular distributed optimization algorithm \cite{Boyd11ADMM} and the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 大規模言語モデルを用いた認証型マルチエージェント作業データセットの生成

Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets ( http://arxiv.org/abs/2409.04286v1 )

ライセンス: Link先を確認
Desiree Heim, Christian Jilek, Adrian Ulges, Andreas Dengel, (参考訳) 現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。 これらの問題は、知識労働支援システムの客観的かつ同等のデータ駆動評価と最適化を妨げる。 このようなデータを実生活で収集するために必要な膨大なリソースとデータ検閲の必要性のため、そのようなデータセットの収集はほぼ不可能に思える。 そこで本稿では,構成可能なマルチエージェント型知識ワークデータセット生成手法を提案する。 本システムは,大規模言語モデル生成文書作成エージェント間の協調的知識労働をシミュレートする。 さらに、ジェネレータは、その構成またはシミュレーションプロセス中に作成されたすべてのバックグラウンド情報を知識グラフでキャプチャする。 最後に、結果のデータセットは、プライバシや機密性に関する懸念なく利用および共有することができる。 本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。 実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。 さらに,参加者のコメントに記載された信頼度基準を分析し,共通の問題に対する潜在的な改善について詳しく検討した。

Current publicly available knowledge work data collections lack diversity, extensive annotations, and contextual information about the users and their documents. These issues hinder objective and comparable data-driven evaluations and optimizations of knowledge work assistance systems. Due to the considerable resources needed to collect such data in real-life settings and the necessity of data censorship, collecting such a dataset appears nearly impossible. For this reason, we propose a configurable, multi-agent knowledge work dataset generator. This system simulates collaborative knowledge work among agents producing Large Language Model-generated documents and accompanying data traces. Additionally, the generator captures all background information, given in its configuration or created during the simulation process, in a knowledge graph. Finally, the resulting dataset can be utilized and shared without privacy or confidentiality concerns. This paper introduces our approach's design and vision and focuses on generating authentic knowledge work documents using Large Language Models. Our study involving human raters who assessed 53% of the generated and 74% of the real documents as realistic demonstrates the potential of our approach. Furthermore, we analyze the authenticity criteria mentioned in the participants' comments and elaborate on potential improvements for identified common issues.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# CoxKAN: Kolmogorov-Arnold Networks for Interpretable, High-Performance Survival Analysis

CoxKAN: Kolmogorov-Arnold Networks for Interpretable, High-Performance Survival Analysis ( http://arxiv.org/abs/2409.04290v1 )

ライセンス: Link先を確認
William Knottenbelt, Zeyu Gao, Rebecca Wray, Woody Zhidong Zhang, Jiashuai Liu, Mireia Crispin-Ortuzar, (参考訳) 生存分析(Survival analysis)は、特定の事象が起こるまでの時間モデリングに使用される統計学の分野であり、医学、工学、金融、その他多くの分野で広く使われている。 生存モデルを選択する場合、通常、パフォーマンスと解釈可能性の間にトレードオフがあり、最も高いパフォーマンスはディープラーニングに基づいたブラックボックスモデルによって達成される。 これは、医師がブラックボックスモデルを盲目的に信頼し、重要な患者決定を下すことに消極的である医学などの分野で大きな問題である。 Kolmogorov-Arnold Networks (KAN) は近年,多層パーセプトロン (MLP) の解釈可能かつ正確な代替として提案されている。 我々は,Cox比例ハザードであるCoxKANを,解釈可能な高性能サバイバル解析のために導入する。 提案したCoxKANを4つの合成データセットと9つの医用データセットで評価した。 合成実験により、CoxKANは、ハザード関数の解釈可能なシンボル式を正確に回収し、自動的特徴選択を効果的に行うことを示した。 9つの実データセットの評価から、CoxKANはCox比例ハザードモデルより一貫して優れており、チューニングされたMLPよりも優れているか同等のパフォーマンスを達成する。 さらに、CoxKANは、既存の生存法で認識するのが極めて難しい予測変数間の複雑な相互作用を識別し、重要なバイオマーカーが患者リスクに与える影響を明らかにするシンボル式を自動的に見つける。

Survival analysis is a branch of statistics used for modeling the time until a specific event occurs and is widely used in medicine, engineering, finance, and many other fields. When choosing survival models, there is typically a trade-off between performance and interpretability, where the highest performance is achieved by black-box models based on deep learning. This is a major problem in fields such as medicine where practitioners are reluctant to blindly trust black-box models to make important patient decisions. Kolmogorov-Arnold Networks (KANs) were recently proposed as an interpretable and accurate alternative to multi-layer perceptrons (MLPs). We introduce CoxKAN, a Cox proportional hazards Kolmogorov-Arnold Network for interpretable, high-performance survival analysis. We evaluate the proposed CoxKAN on 4 synthetic datasets and 9 real medical datasets. The synthetic experiments demonstrate that CoxKAN accurately recovers interpretable symbolic formulae for the hazard function, and effectively performs automatic feature selection. Evaluation on the 9 real datasets show that CoxKAN consistently outperforms the Cox proportional hazards model and achieves performance that is superior or comparable to that of tuned MLPs. Furthermore, we find that CoxKAN identifies complex interactions between predictor variables that would be extremely difficult to recognise using existing survival methods, and automatically finds symbolic formulae which uncover the precise effect of important biomarkers on patient risk.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 非線型系に対する拡張ワイル・ウィグナー位相空間フレームワーク:典型的および修正プレディエーター様ダイナミクス

Extended Weyl-Wigner phase-space framework for non-linear systems: typical and modified prey-predator-like dynamics ( http://arxiv.org/abs/2409.04291v1 )

ライセンス: Link先を確認
Alex E. Bernardini, Orfeu Bertolami, (参考訳) 位相空間ワイル・ウィグナー量子力学のハミルトン部分集合への拡張は、$H(q,\,p) = {K} となる。 (p) + {V} (q)$($K) (p)$1$p^2$コントリビューションの置き換え)を再検討する。 古典的および定常的なプロファイルからの逸脱は、ガウス分布とガンマ/ラプラシア分布のアンサンブルに対するウィグナー関数とウィグナー電流の観点から同定される。 この手順は、古典的な位相空間パターンと比較して量子ゆらぎの正確なパターンを考慮することに成功している。 一般結果は、非線形力学を明らかにする特定のハミルトン派に特化され、ウィグナー電流によってマッピングされた量子修正を扱う新しいアルゴリズムが提案される。 分析の結果、このフレームワークは、例えば、統計的制約を受ける量子化された捕食者のようなシナリオを包含していることがわかった。

The extension of the phase-space Weyl-Wigner quantum mechanics to the subset of Hamiltonians in the form of $H(q,\,p) = {K}(p) + {V}(q)$ (with $K(p)$ replacing single $p^2$ contributions) is revisited. Deviations from classical and stationary profiles are identified in terms of Wigner functions and Wigner currents for Gaussian and gamma/Laplacian distribution ensembles. The procedure is successful in accounting for the exact pattern of quantum fluctuations when compared with the classical phase-space pattern. General results are then specialized to some specific Hamiltonians revealing non-linear dynamics, and suggest a novel algorithm to treat quantum modifications mapped by Wigner currents. Our analysis shows that the framework encompasses, for instance, the quantized prey-predator-like scenarios subjected to statistical constraints.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# FS-MedSAM2:ファインチューニングなしでのFew-Shot医療画像分割のためのSAM2の可能性を探る

FS-MedSAM2: Exploring the Potential of SAM2 for Few-Shot Medical Image Segmentation without Fine-tuning ( http://arxiv.org/abs/2409.04298v1 )

ライセンス: Link先を確認
Yunhao Bai, Qinji Yu, Boxiang Yun, Dakai Jin, Yingda Xia, Yan Wang, (参考訳) Segment Anything Model 2 (SAM2)は、最近、自然画像やビデオのためのゼロショットプロンプトセグメンテーションにおいて、例外的な性能を示した。 しかし、医療画像に適用する際、大きな課題に直面している。 リリース以来、SAM2のセグメンテーション能力を医療画像領域に適応させる多くの試みがなされている。 これらの取り組みは通常、モデルの重みを微調整するためにかなりの量のラベル付きデータを使用する。 本稿では,学習したメモリアテンションモジュールのフル活用とマスクプロンプトの処理能力を通じて,異なる視点からSAM2を探索する。 FS-MedSAM2はシンプルだが効果的なフレームワークであり、SAM2は微調整を必要とせず、数ショットで優れた医用画像セグメンテーションを実現することができる。 当社のフレームワークは,2つの公開医療画像データセットの最先端技術よりも優れています。 コードはhttps://github.com/DeepMed-Lab-ECNU/FS_MedSAM2で公開されている。

The Segment Anything Model 2 (SAM2) has recently demonstrated exceptional performance in zero-shot prompt segmentation for natural images and videos. However, it faces significant challenges when applied to medical images. Since its release, many attempts have been made to adapt SAM2's segmentation capabilities to the medical imaging domain. These efforts typically involve using a substantial amount of labeled data to fine-tune the model's weights. In this paper, we explore SAM2 from a different perspective via making the full use of its trained memory attention module and its ability of processing mask prompts. We introduce FS-MedSAM2, a simple yet effective framework that enables SAM2 to achieve superior medical image segmentation in a few-shot setting, without the need for fine-tuning. Our framework outperforms the current state-of-the-arts on two publicly available medical image datasets. The code is available at https://github.com/DeepMed-Lab-ECNU/FS_MedSAM2.
翻訳日:2024-09-09 15:44:50 公開日:2024-09-06
# 3次元トーリックコードのための等変機械学習デコーダ

Equivariant Machine Learning Decoder for 3D Toric Codes ( http://arxiv.org/abs/2409.04300v1 )

ライセンス: Link先を確認
Oliver Weissl, (参考訳) コンピュータや通信システムにおけるエラーの軽減は、これらの技術の普及が始まって以来、多くの研究がなされてきた。 しかし、計算や通信を行う新しい手法を開発する際には、エラーに対処する手法を再検討する必要がある。 量子コンピューティングの分野では、エラーが高速で無効な結果を伝播できるため、エラー訂正が注目されている。 量子システムのエラーを修正するために、エラー訂正符号が使用される。 トポロジカルコードというコードの部分群は、現在多くの研究論文の焦点となっている。 位相符号は、$d$次元曲面に埋め込まれたグラフに対応するパリティチェック行列を表す。 私たちの研究は、3D四角い格子を持つトーリックコードに焦点を当てています。 デコーダの目標はノイズに対する堅牢性であり、コードサイズによって増加する可能性がある。 しかし、妥当なデコーダ性能は格子サイズで多項式的にスケールする。 誤差補正は時間に敏感な操作であるため,帰納的バイアスを用いたニューラルネットワークを提案する。 これにより、ネットワークはインプットの指数的に増加するトレーニング空間の比較的小さな部分集合から学習することができる。 さらに, 変圧器ネットワークが補正にどう役立つかを検討する。 これらのメソッドは、3Dトーリックコードでエラーを復号する様々な構成や以前に公開された方法と比較される。

Mitigating errors in computing and communication systems has seen a great deal of research since the beginning of the widespread use of these technologies. However, as we develop new methods to do computation or communication, we also need to reiterate the method used to deal with errors. Within the field of quantum computing, error correction is getting a lot of attention since errors can propagate fast and invalidate results, which makes the theoretical exponential speed increase in computation time, compared to traditional systems, obsolete. To correct errors in quantum systems, error-correcting codes are used. A subgroup of codes, topological codes, is currently the focus of many research papers. Topological codes represent parity check matrices corresponding to graphs embedded on a $d$-dimensional surface. For our research, the focus lies on the toric code with a 3D square lattice. The goal of any decoder is robustness to noise, which can increase with code size. However, a reasonable decoder performance scales polynomially with lattice size. As error correction is a time-sensitive operation, we propose a neural network using an inductive bias: equivariance. This allows the network to learn from a rather small subset of the exponentially growing training space of possible inputs. In addition, we investigate how transformer networks can help in correction. These methods will be compared with various configurations and previously published methods of decoding errors in the 3D toric code.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 脱離水溶性化合物の定量化

A Unified Approach to Inferring Chemical Compounds with the Desired Aqueous Solubility ( http://arxiv.org/abs/2409.04301v1 )

ライセンス: Link先を確認
Muniba Batool, Naveed Ahmed Azam, Jianshen Zhu, Kazuya Haraguchi, Liang Zhao, Tatsuya Akutsu, (参考訳) 水溶性(AS)は、医薬品の発見と材料設計において重要な役割を果たす重要な物理化学的性質である。 本稿では、単純な決定論的グラフ理論記述子、多重線形回帰法(MLR)、混合整数線形計画法(MILP)に基づいて、化学化合物を所望のASで予測・推論するための新しい統一的なアプローチについて報告する。 ステップワイド・プロシージャをベースとした選択記述子により,29種類のデータセットに対して,最も単純な回帰モデル MLR が既存の手法に比べて精度の高い予測精度を実現し,[0.7191, 0.9377] の範囲の精度を実現した。 これらの記述子と学習モデルをMILPとしてシミュレートすることにより、所望のAS、所定の構造、および50個の非水素原子を妥当な時間範囲 [6, 1204] 秒で数学的に正確かつ最適な化合物を推定した。 これらの結果は, 単純なグラフ理論記述子と化合物のASとの間に強い相関関係があることを示し, 複雑な化学記述子や複雑な機械学習モデルに頼らずに, ASの深い理解につながる可能性が示唆された。 提案されたアプローチの実装はhttps://github.com/ku-dml/mol-infer/tree/master/AqSolで公開されている。

Aqueous solubility (AS) is a key physiochemical property that plays a crucial role in drug discovery and material design. We report a novel unified approach to predict and infer chemical compounds with the desired AS based on simple deterministic graph-theoretic descriptors, multiple linear regression (MLR) and mixed integer linear programming (MILP). Selected descriptors based on a forward stepwise procedure enabled the simplest regression model, MLR, to achieve significantly good prediction accuracy compared to the existing approaches, achieving the accuracy in the range [0.7191, 0.9377] for 29 diverse datasets. By simulating these descriptors and learning models as MILPs, we inferred mathematically exact and optimal compounds with the desired AS, prescribed structures, and up to 50 non-hydrogen atoms in a reasonable time range [6, 1204] seconds. These findings indicate a strong correlation between the simple graph-theoretic descriptors and the AS of compounds, potentially leading to a deeper understanding of their AS without relying on widely used complicated chemical descriptors and complex machine learning models that are computationally expensive, and therefore difficult to use for inference. An implementation of the proposed approach is available at https://github.com/ku-dml/mol-infer/tree/master/AqSol.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# グローバー・ミシェルソン干渉計の実験実験

Experimental demonstration of a Grover-Michelson interferometer ( http://arxiv.org/abs/2409.04303v1 )

ライセンス: Link先を確認
Christopher R. Schwarze, David S. Simon, Anthony D. Manni, Abdoulaye Ndao, Alexander V. Sergienko, (参考訳) 本稿では,4ポート線形光散乱器であるGroverコインの低出力・高ロバストな光学実装について述べる。 グローバー硬貨の以前の実現には不安定な環キャビティの形成が必要であったが、散乱器のこのバージョンは内部干渉を示さなかった。 このGroverコインを別のシステムに配置すると、高次元の光場モードの干渉計に使用できる。 この場合、我々はGrover-Michelsonインターフェロメータを作成し、その結果、Michelsonインターフェロメータの従来のビームスプリッタを4ポートGroverコインに置き換えた。 この置換により、元のマイケルソン系における位相パラメータの冗長性が排除され、干渉パターンの形状と傾斜を連続的に調整できるようになった。 視認性と位相感度が通常のミッチェルソン干渉計より1桁大きい強度干渉計を観測した。 この装置は、ミッチェルソン干渉計とほぼ同数の光学的資源で容易に形成できるため、位相遅延評価において大幅に性能が向上する可能性があるため、多くの干渉計測・制御システムを改善する大きな可能性がある。

We present a low-resource and robust optical implementation of the four-dimensional Grover coin, a four-port linear-optical scatterer that augments the low dimensionality of a regular beam-splitter. While prior realizations of the Grover coin required a potentially unstable ring-cavity to be formed, this version of the scatterer does not exhibit any internal interference. When this Grover coin is placed in another system, it can be used for interferometry with a higher-dimensional set of optical field modes. In this case, we formed a Grover-Michelson interferometer, which results when the traditional beam-splitter of a Michelson interferometer is replaced with a four-port Grover coin. This replacement has been shown to remove a phase parameter redundancy in the original Michelson system, now allowing continuous tuning of the shape and slope of the interference pattern. We observed an intensity interferogram with $97\%$ visibility and a phase sensitivity more than an order of magnitude larger than a regular Michelson interferometer. Because this device is readily formed with nearly the same number of optomechanical resources as a Michelson interferometer, but can outperform it drastically in phase delay evaluation, it has a great potential to improve many interferometric sensing and control systems.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 紀元時間とボヘミア力学--測定できるものを決定する理論である

Arrival time and Bohmian Mechanics: It is the theory which decides what we can measure ( http://arxiv.org/abs/2409.04304v1 )

ライセンス: Link先を確認
Aurélien Drezet, (参考訳) 本研究では、ド・ブロイ・ボーム理論(またはボーム力学)の枠組みにおける量子粒子の到着時間分布を測定するダスとD\"{u}rr (DD) の最近の提案を分析する。 また、これらの同じ提案のGoldstein Tumulka と Zangh\`{i} (GTZ) による批判を分析し、各主人公が正当であることを示す。 詳しくは、DDの予想は原理的には測定可能であるが、それらはダスやモードリンの希望と矛盾してベルの定理で使われる符号なし定理に違反することはない。

In this work we analyze recent proposals by Das and D\"{u}rr (DD) to measure the arrival time distributions of quantum particles within the framework of de Broglie Bohm theory (or Bohmian mechanics). We also analyze the criticisms made by Goldstein Tumulka and Zangh\`{i} (GTZ) of these same proposals, and show that each protagonist is both right and wrong. In fine, we show that DD's predictions are indeed measurable in principle, but that they will not lead to violations of the no-signalling theorem used in Bell's theorem, in contradiction with some of Das and Maudlin's hopes.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 深部衝突確率場による不確実性を考慮した安全かつ効率的な経路計画

Safe and Efficient Path Planning under Uncertainty via Deep Collision Probability Fields ( http://arxiv.org/abs/2409.04306v1 )

ライセンス: Link先を確認
Felix Herrmann, Sebastian Zach, Jacopo Banfi, Jan Peters, Georgia Chalvatzaki, Davide Tateo, (参考訳) ロボットと環境障害などの移動エージェントとの衝突確率の推定は,経路計画中の安全確保に不可欠である。 これは、ノイズの多いセンサが障害を知覚する自律運転など、多くのアプリケーションシナリオにおいて、現代的な計画アルゴリズムの重要な構成要素である。 多くのアプローチが存在するが、それらは衝突確率の保守的推定をしすぎるか、サンプリングに基づく性質のため計算集約的である。 これらの問題に対処するために、任意の不確実性分布を持つ任意の物体の衝突確率をニューラルネットワークで計算するDeep Collision Probability Fieldsを導入する。 提案手法は, 学習段階のサンプリングにより, 衝突確率の計算集約的推定を導出し, 計画中の制約をニューラルネットワークで高速に推測することを可能にする。 広範にわたる実験において,Deep Collision Probability Fields は,計画のための合理的な衝突確率(最大10^{-3})を生成可能であること,また,我々のアプローチは,不確実な静的および動的障害物を含む2次元地図上で安全な経路を計画するための標準的な経路計画手法に容易に接続可能であること,などが示されている。 追加の資料、コード、ビデオはhttps://sites.google.com/view/ral-dcpf.comで入手できる。

Estimating collision probabilities between robots and environmental obstacles or other moving agents is crucial to ensure safety during path planning. This is an important building block of modern planning algorithms in many application scenarios such as autonomous driving, where noisy sensors perceive obstacles. While many approaches exist, they either provide too conservative estimates of the collision probabilities or are computationally intensive due to their sampling-based nature. To deal with these issues, we introduce Deep Collision Probability Fields, a neural-based approach for computing collision probabilities of arbitrary objects with arbitrary unimodal uncertainty distributions. Our approach relegates the computationally intensive estimation of collision probabilities via sampling at the training step, allowing for fast neural network inference of the constraints during planning. In extensive experiments, we show that Deep Collision Probability Fields can produce reasonably accurate collision probabilities (up to 10^{-3}) for planning and that our approach can be easily plugged into standard path planning approaches to plan safe paths on 2-D maps containing uncertain static and dynamic obstacles. Additional material, code, and videos are available at https://sites.google.com/view/ral-dcpf.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 先端ICノード用半導体製造におけるSEMによるナノスケール欠陥解析

Advancing SEM Based Nano-Scale Defect Analysis in Semiconductor Manufacturing for Advanced IC Nodes ( http://arxiv.org/abs/2409.04310v1 )

ライセンス: Link先を確認
Bappaditya Dey, Matthias Monden, Victor Blanco, Sandip Halder, Stefan De Gendt, (参考訳) 本研究では,先進ノードに対する半導体欠陥の複数インスタンスの分類,検出,セグメント化を行うための,エンドツーエンドの自動欠陥分類・検出・分離(ADCDS)フレームワークを提案する。 このフレームワークは2つのモジュールから構成される。 a)欠陥検出モジュール b)欠陥セグメンテーションモジュール。 欠陥検出モジュールはDeformable DETRを使用してナノスケール欠陥の分類と検出を支援し、セグメンテーションモジュールはBoxSnakeを利用している。 BoxSnakeは、以前のモジュールでサポートされているナノスケール欠陥のボックス管理インスタンスセグメンテーションを容易にする。 これは、通常、従来のセグメンテーションモデルのトレーニングに結びついている、人間の専門家による、地軸のピクセルワイドマスクアノテーションの面倒な要求をなくすことによって、プロセスを単純化する。 我々は,ADI と AEI の2つの異なるプロセスデータセットを用いて,ADCDS フレームワークの性能を評価した。 提案手法の適用性および意義を実証し,特に2値欠陥マスクのナノスケール分割と生成において,地上画素分割アノテーションが利用できない挑戦的なADI SEMデータセットを用いて検証した。 さらに,提案手法を従来の手法と比較し,その有効性を実証した。 提案するフレームワークは,検出のためのmAP@IoU0.5 72.19,ADIデータセットのセグメンテーションのための78.86を総合的に達成した。 同様に、AEIデータセットでは、これらのメトリクスは検出に90.38、セグメンテーションに95.48であった。 したがって,本提案フレームワークは,重大な制約に対処しながら,高度な欠陥解析の要件を効果的に満たす。

In this research, we introduce a unified end-to-end Automated Defect Classification-Detection-Segmentation (ADCDS) framework for classifying, detecting, and segmenting multiple instances of semiconductor defects for advanced nodes. This framework consists of two modules: (a) a defect detection module, followed by (b) a defect segmentation module. The defect detection module employs Deformable DETR to aid in the classification and detection of nano-scale defects, while the segmentation module utilizes BoxSnake. BoxSnake facilitates box-supervised instance segmentation of nano-scale defects, supported by the former module. This simplifies the process by eliminating the laborious requirement for ground-truth pixel-wise mask annotation by human experts, which is typically associated with training conventional segmentation models. We have evaluated the performance of our ADCDS framework using two distinct process datasets from real wafers, as ADI and AEI, specifically focusing on Line-space patterns. We have demonstrated the applicability and significance of our proposed methodology, particularly in the nano-scale segmentation and generation of binary defect masks, using the challenging ADI SEM dataset where ground-truth pixelwise segmentation annotations were unavailable. Furthermore, we have presented a comparative analysis of our proposed framework against previous approaches to demonstrate its effectiveness. Our proposed framework achieved an overall mAP@IoU0.5 of 72.19 for detection and 78.86 for segmentation on the ADI dataset. Similarly, for the AEI dataset, these metrics were 90.38 for detection and 95.48 for segmentation. Thus, our proposed framework effectively fulfils the requirements of advanced defect analysis while addressing significant constraints.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# ダブルウェルポテンシャルによる多体トンネル

Many-body tunneling in a double-well potential ( http://arxiv.org/abs/2409.04311v1 )

ライセンス: Link先を確認
Matteo Zendra, Fausto Borgonovi, Giuseppe Luca Celardo, Shmuel Gurvitz, (参考訳) 本稿では,多体システムにおけるワニエ関数の評価の新しいアプローチを提案する。 極大局所化ワニエ関数アプローチ(英語版)のような従来の手法とは異なり、我々の手法はこれらのテールを強調する。 正確に解けるモデル上での摂動論的解析近似と広範な数値シミュレーションを用いて、非標準ハバード項に対処し、多体力学に対するそれらの重要な影響を実証する。 具体的には、任意のダブルウェルポテンシャルのトンネル力学について研究し、標準ハバードモデルを超えて密度誘導トンネルやペアトンネルのような非標準用語を含むようにした。 密度誘起トンネル法は単一粒子トンネルパラメータ$\Omega_0$を修飾するが,ペアトンネル法は標準モデルで捕捉されないコヒーレント伝播を可能にする。 標準ハバードモデルと非標準ハバードモデルとの相違は相互作用強度の増大とともに増大し、新たな輸送行動につながる可能性が示唆された。 しかしながら、より低い相互作用強度では、両モデルが収束し、非標準項は無視される。 これらの発見は、ツイストした二層グラフェンと金属絶縁体転移における超伝導のような現象に重要な意味を持つ。 本モデルは,低域パラメータの数値シミュレーションとよく一致し,光二重井戸電位における2次原子トンネルの実験観測により強く支持されている。 この実験データとの強い合意は、標準的なHubbardモデルよりも複雑な多体システムを記述するためのより包括的なフレームワークを提供することにおける、我々のアプローチの正確性と可能性を強調します。

We present a novel approach for evaluating Wannier functions, offering a new perspective on their role in many-body systems. Unlike traditional methods, such as the maximally localized Wannier functions approach, which focuses on minimizing the function tails, our approach emphasizes these tails. Using perturbative analytical approximations and extensive numerical simulations on an exactly solvable model, we address nonstandard Hubbard terms and demonstrate their critical influence on many-body dynamics. Specifically, we study tunneling dynamics in arbitrary double-well potentials, moving beyond the standard Hubbard model to include nonstandard terms such as density-induced tunneling and pair tunneling. Our results reveal that these terms significantly modify the dynamics predicted by the standard Hubbard model: density-induced tunneling modifies the single-particle tunneling parameter $\Omega_0$, while pair tunneling enables coherent propagation not captured by the standard model. We show that the discrepancies between the standard and nonstandard Hubbard models grow with increasing interaction strength, potentially leading to novel transport behaviors. However, at lower interaction strengths, both models converge, as nonstandard terms become negligible. These findings have important implications for phenomena like superconductivity in twisted bilayer graphene and metal-insulator transitions. Our model aligns well with numerical simulations of lowest-band parameters and is strongly supported by experimental observations of second-order atom tunneling in optical double-well potentials. This strong agreement with experimental data highlights the accuracy and potential of our approach in providing a more comprehensive framework for describing complex many-body systems than the standard Hubbard model.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 熱水蒸気を用いた超高速極端学習機

An optically accelerated extreme learning machine using hot atomic vapors ( http://arxiv.org/abs/2409.04312v1 )

ライセンス: Link先を確認
Pierre Azam, Robin Kaiser, (参考訳) 機械学習は、実用的なソリューションを提供する社会的関心の問題の多様性によって、目覚ましい成長を遂げた、広く使われている技術になりつつある。 このアプリケーションと必要なリソースの増加は、現在のハードウェア技術によって制限され始めています。 実際、大規模言語モデルや高解像度画像認識のような新しい機械学習の課題は、必要となる計算の計算時間とエネルギーコストの問題を提起している。 この文脈では、光学プラットフォームは機械学習のためのより効率的なハードウェアを開発することを目的として、数年間設計されてきた。 様々な探索プラットフォームの中で、光自由空間伝搬は並列性、低エネルギーコスト、計算速度といった様々な利点を提供している。 本稿では, 熱水蒸気を伝播する光の強い非線形特性とチューニング可能な非線形特性を, エクストリーム学習マシンモデルと組み合わせた新しい設計を提案する。 我々は、MNIST画像分類タスクにおいて、そのような自由空間非線形伝搬を用いたトレーニングの強化を数値的および実験的に示す。 我々は、プラットフォームの精度を向上させるためにさらに最適化できる様々な実験用ハイパーパラメータを指摘した。

Machine learning is becoming a widely used technique with a impressive growth due to the diversity of problem of societal interest where it can offer practical solutions. This increase of applications and required resources start to become limited by present day hardware technologies. Indeed, novel machine learning subjects such as large language models or high resolution image recognition raise the question of large computing time and energy cost of the required computation. In this context, optical platforms have been designed for several years with the goal of developing more efficient hardware for machine learning. Among different explored platforms, optical free-space propagation offers various advantages: parallelism, low energy cost and computational speed. Here, we present a new design combining the strong and tunable nonlinear properties of a light beam propagating through a hot atomic vapor with an Extreme Learning Machine model. We numerically and experimentally demonstrate the enhancement of the training using such free-space nonlinear propagation on a MNIST image classification task. We point out different experimental hyperparameters that can be further optimized to improve the accuracy of the platform.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 薬物発見における不確かさの定量化

Enhancing Uncertainty Quantification in Drug Discovery with Censored Regression Labels ( http://arxiv.org/abs/2409.04313v1 )

ライセンス: Link先を確認
Emma Svensson, Hannah Rosa Friesacher, Susanne Winiwarter, Lewis Mervin, Adam Arany, Ola Engkvist, (参考訳) 薬物発見の初期段階において、どの実験を追求するかの決定は、計算モデルの影響を受け得る。 これらの決定は、実験の時間と費用のかかる性質のために重要である。 そのため、機械学習予測における不確実性を正確に定量化することが重要となり、資源を最適に利用でき、モデルへの信頼が向上する。 薬物発見のための計算手法は、しばしば限られたデータと希少な実験的な観察に悩まされるが、正確な観察値ではなく閾値を提供する検閲されたラベルの形で追加情報が存在する。 しかし、機械学習における不確実性を定量化する標準的なアプローチは、検閲されたラベルを完全に活用することはできない。 本研究では, アンサンブルベース, ベイズモデル, ガウスモデルに適応し, 生存分析からTobitモデルを用いて, 検閲されたラベルから学習する。 以上の結果から,検閲されたラベルから得られる部分的な情報にもかかわらず,実際の医薬品設定を正確かつ確実にモデル化することが不可欠であることが示唆された。

In the early stages of drug discovery, decisions regarding which experiments to pursue can be influenced by computational models. These decisions are critical due to the time-consuming and expensive nature of the experiments. Therefore, it is becoming essential to accurately quantify the uncertainty in machine learning predictions, such that resources can be used optimally and trust in the models improves. While computational methods for drug discovery often suffer from limited data and sparse experimental observations, additional information can exist in the form of censored labels that provide thresholds rather than precise values of observations. However, the standard approaches that quantify uncertainty in machine learning cannot fully utilize censored labels. In this work, we adapt ensemble-based, Bayesian, and Gaussian models with tools to learn from censored labels by using the Tobit model from survival analysis. Our results demonstrate that despite the partial information available in censored labels, they are essential to accurately and reliably model the real pharmaceutical setting.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 学習対検索:LLMによる回帰における文脈内事例の役割

Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs ( http://arxiv.org/abs/2409.04318v1 )

ライセンス: Link先を確認
Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi, (参考訳) 生成型大規模言語モデル(LLM)は、文脈内学習者(in-context learninger)である。 しかし、インコンテキスト学習(ICL)の基盤となるメカニズムは依然として主要な研究課題であり、モデルがICLをどのように活用するかに関する実験的な研究結果は必ずしも一貫性がない。 本研究では,内部知識の抽出と,回帰タスクに着目したインコンテキスト事例からの学習を併用した,インコンテキスト学習機構の評価フレームワークを提案する。 まず、LLMが実世界のデータセット上で回帰処理を行い、LLMが内部知識を取得する範囲を、文脈内サンプルから学習する範囲で測定する実験を設計できることを示す。 この過程は、この2つの極端の間のスペクトル上にあると我々は主張する。 本稿では,これらのメカニズムがタスクに関する事前の知識や,インコンテキストの例によって提供される情報のタイプと豊かさなど,様々な要因によって引き起こされる度合いを詳細に分析する。 我々は3つのLSMを使用し、複数のデータセットを用いて結果のロバスト性を相関づける。 この結果から,コンテキスト内事例からのメタラーニングの活用と,課題に応じて知識検索の促進を図った。

Generative Large Language Models (LLMs) are capable of being in-context learners. However, the underlying mechanism of in-context learning (ICL) is still a major research question, and experimental research results about how models exploit ICL are not always consistent. In this work, we propose a framework for evaluating in-context learning mechanisms, which we claim are a combination of retrieving internal knowledge and learning from in-context examples by focusing on regression tasks. First, we show that LLMs can perform regression on real-world datasets and then design experiments to measure the extent to which the LLM retrieves its internal knowledge versus learning from in-context examples. We argue that this process lies on a spectrum between these two extremes. We provide an in-depth analysis of the degrees to which these mechanisms are triggered depending on various factors, such as prior knowledge about the tasks and the type and richness of the information provided by the in-context examples. We employ three LLMs and utilize multiple datasets to corroborate the robustness of our findings. Our results shed light on how to engineer prompts to leverage meta-learning from in-context examples and foster knowledge retrieval depending on the problem being addressed.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 効率的な線形解法による多面体上の対数凹密度の高速サンプリング

Faster Sampling from Log-Concave Densities over Polytopes via Efficient Linear Solvers ( http://arxiv.org/abs/2409.04320v1 )

ライセンス: Link先を確認
Oren Mangoubi, Nisheeth K. Vishnoi, (参考訳) a log-concave distribution $\pi(\theta) \propto e^{-f(\theta)}$ がポリトープ $K:=\{\theta \in \mathbb{R}^d: A\theta \leq b\}$ に制約される場合、$A\in \mathbb{R}^{m\times d}$ と $b \in \mathbb{R}^m$ からサンプリングされる問題を考える。 f$が$O(1)$-Lipschitz or $O(1)$-smooth run in roughly $O(md \times md^{\omega -1})$ arithmetic operation, where $md^{\omega -1}$ termは、各マルコフ連鎖のステップが行列の反転と行列式を必要とするため生じる(以下、$\omega \approx 2.37$は行列乗算定数である)。 我々は、このマルコフ連鎖のほぼ最適な実装を示し、ステップごとの複雑さは、約$A$のゼロでないエントリの数であるのに対して、マルコフ連鎖のステップの数は同じである。 主な技術材料は 1)このダイキンウォークで生じる行列がゆっくり変化することを示す。 2) この緩やかな変化を利用した効率的な線形解法を展開し、前段で計算した情報を用いて行列の逆転を高速化する。 3) ランダム化されたテイラー級数に基づく推定器を用いて, メトロポリスフィルタの行列項の計算を高速化する。

We consider the problem of sampling from a log-concave distribution $\pi(\theta) \propto e^{-f(\theta)}$ constrained to a polytope $K:=\{\theta \in \mathbb{R}^d: A\theta \leq b\}$, where $A\in \mathbb{R}^{m\times d}$ and $b \in \mathbb{R}^m$.The fastest-known algorithm \cite{mangoubi2022faster} for the setting when $f$ is $O(1)$-Lipschitz or $O(1)$-smooth runs in roughly $O(md \times md^{\omega -1})$ arithmetic operations, where the $md^{\omega -1}$ term arises because each Markov chain step requires computing a matrix inversion and determinant (here $\omega \approx 2.37$ is the matrix multiplication constant). We present a nearly-optimal implementation of this Markov chain with per-step complexity which is roughly the number of non-zero entries of $A$ while the number of Markov chain steps remains the same. The key technical ingredients are 1) to show that the matrices that arise in this Dikin walk change slowly, 2) to deploy efficient linear solvers that can leverage this slow change to speed up matrix inversion by using information computed in previous steps, and 3) to speed up the computation of the determinantal term in the Metropolis filter step via a randomized Taylor series-based estimator.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# ニュートラル原子CSS符号の論理的量子忠実度に対する幾何学的アプローチ

Geometrical Approach to Logical Qubit Fidelities of Neutral Atom CSS Codes ( http://arxiv.org/abs/2409.04324v1 )

ライセンス: Link先を確認
J. J. Postema, S. J. J. M. F. Kokkelmans, (参考訳) 量子エラー訂正(QEC)符号で量子情報を符号化すると、エラーに対する保護が強化される。 デコヒーレンス効果による量子デバイスの不完全性は、量子ゲート演算の忠実性を制限する。 特に、中性原子量子コンピュータは、絡み合いを促進するリドベルク状態の有限寿命のため、相関エラーに悩まされる。 トポロジカルQEC符号の性能に対するそのような誤差の影響を予測することは、実量子デバイスの忠実度制限を理解し、特徴づけるのに重要である。 QECコードを混乱を伴う$\mathbb{Z}_2$格子ゲージ理論にマッピングすることで、最適なデコーダを使わずにモンテカルロ法を用いてエラーレートの上限を計算することができる。 本稿では,この統計図を用いて中性原子アーキテクチャの誤差率閾値を推定し,放射減衰を計算基準に仮定し,リークと原子損失を唯一の誤差源とする。 この誤差率しきい値である$p_\text{th}$を定量化し、実験パラメータの任意のセットを考慮すれば、実験的な制約に限定する。

Encoding quantum information in a quantum error correction (QEC) code enhances protection against errors. Imperfection of quantum devices due to decoherence effects will limit the fidelity of quantum gate operations. In particular, neutral atom quantum computers will suffer from correlated errors because of the finite lifetime of the Rydberg states that facilitate entanglement. Predicting the impact of such errors on the performance of topological QEC codes is important in understanding and characterising the fidelity limitations of a real quantum device. Mapping a QEC code to a $\mathbb{Z}_2$ lattice gauge theory with disorder allows us to use Monte Carlo techniques to calculate upper bounds on error rates without resorting to an optimal decoder. In this Article, we adopt this statistical mapping to predict error rate thresholds for neutral atom architecture, assuming radiative decay to the computational basis, leakage and atom loss as the sole error sources. We quantify this error rate threshold $p_\text{th}$ and bounds on experimental constraints, given any set of experimental parameters.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 工学系人口の回帰学習 : リスクインフォームドアプローチ

Active learning for regression in engineering populations: A risk-informed approach ( http://arxiv.org/abs/2409.04328v1 )

ライセンス: Link先を確認
Daniel R. Clarkson, Lawrence A. Bull, Chandula T. Wickramarachchi, Elizabeth J. Cross, Timothy J. Rogers, Keith Worden, Nikolaos Dervilis, Aidan J. Hughes, (参考訳) 回帰(Regression)は、連続変数間のマッピングの学習を含む、データ中心のエンジニアリングアプリケーションで一般的な基本的な予測タスクである。 多くの工学的応用(例えば構造的健康モニタリング)において、そのようなマッピングを学習するのに使われる特徴ラベルペアは可用性が限られており、従来の教師付き機械学習アプローチの有効性を妨げている。 本稿では,アクティブラーニングと階層型ベイズモデルを組み合わせることで,データの不足を克服する手法を提案する。 アクティブラーニング(英: Active Learning)は、リソース効率のよい特徴ラベルペアを優先的に取得する手法である。 特に、現在の作業では、レグレッションベースのエンジニアリング意思決定タスク(例えば、検査とメンテナンス)に関連するコンテキスト情報を活用するリスクインフォームドアプローチを採用しています。 階層的ベイズモデルにより、複数の関連する回帰タスクが集団を通して学習され、局所的および世界的影響を捉えることができる。 このモデリングアプローチによって促進される情報共有は、あるエンジニアリングシステムで得られた情報によって、人口全体の予測性能が向上することを意味する。 提案手法は, 実験ケーススタディを用いて実証された。 具体的には, 加工品の表面粗さに注目が集まる加工工具の個体群に対して, 複数の回帰処理を行う。 能動学習アルゴリズムの構築に使用される回帰タスクを用いて,検査・保守決定プロセスを定義する。 提案手法はラベル取得と回帰タスクの独立なモデリングに対する非形式的アプローチに対してベンチマークされる。 提案手法は, 予測性能を維持しつつ, 必要な検査回数を削減し, 予測コストの観点から優れた性能を有することを示す。

Regression is a fundamental prediction task common in data-centric engineering applications that involves learning mappings between continuous variables. In many engineering applications (e.g.\ structural health monitoring), feature-label pairs used to learn such mappings are of limited availability which hinders the effectiveness of traditional supervised machine learning approaches. The current paper proposes a methodology for overcoming the issue of data scarcity by combining active learning with hierarchical Bayesian modelling. Active learning is an approach for preferentially acquiring feature-label pairs in a resource-efficient manner. In particular, the current work adopts a risk-informed approach that leverages contextual information associated with regression-based engineering decision-making tasks (e.g.\ inspection and maintenance). Hierarchical Bayesian modelling allow multiple related regression tasks to be learned over a population, capturing local and global effects. The information sharing facilitated by this modelling approach means that information acquired for one engineering system can improve predictive performance across the population. The proposed methodology is demonstrated using an experimental case study. Specifically, multiple regressions are performed over a population of machining tools, where the quantity of interest is the surface roughness of the workpieces. An inspection and maintenance decision process is defined using these regression tasks which is in turn used to construct the active-learning algorithm. The novel methodology proposed is benchmarked against an uninformed approach to label acquisition and independent modelling of the regression tasks. It is shown that the proposed approach has superior performance in terms of expected cost -- maintaining predictive performance while reducing the number of inspections required.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 熱帯雨林における森林破壊検出のための優れたスーパーピクセルの同定法

How to Identify Good Superpixels for Deforestation Detection on Tropical Rainforests ( http://arxiv.org/abs/2409.04330v1 )

ライセンス: Link先を確認
Isabela Borlido, Eduardo Bouhid, Victor Sundermann, Hugo Resende, Alvaro Luiz Fazenda, Fabio Faria, Silvio Jamil F. Guimarães, (参考訳) 熱帯林の保全は、地球生態系において重要な役割を担っているため、社会的・生態学的に重要な意味を持つ。 不運なことに、森林破壊と荒廃は年間数百万ヘクタールに影響を及ぼし、効果的な森林モニタリングのために政府や民間のイニシアチブを必要としている。 しかし、データ不均衡、画像分解能、低コントラスト領域、閉塞のため、衛星画像中の森林破壊領域の特定は困難である。 スーパーピクセルセグメンテーションはこれらの欠点を克服し、ワークロードを削減し、重要な画像境界を保存する。 しかし、ほとんどのリモートセンシング画像は、最近のスーパーピクセル法を利用していない。 本研究では,熱帯林における森林破壊検出システムを支援するため,衛星画像中の16個のスーパーピクセルの評価を行った。 また,対象タスクに対するスーパーピクセル法の性能評価を行い,セグメンテーション手法の評価との関係を確立する。 ERS, GMMSP, DISFはそれぞれUE, BR, SIRSで最高の成績を示し, ERSはCO, Regとのトレードオフで最高の成績を示した。 分類において、SH, DISF, ISFは、それぞれRGB, UMDA, PCAの合成に最適である。 本実験により, 森林破壊検出タスクにおいて, 勾配, 均一性, コンパクト性, 規則性とのトレードオフが良好であるスーパーピクセル法が, 優れたスーパーピクセルの同定に適していることがわかった。

The conservation of tropical forests is a topic of significant social and ecological relevance due to their crucial role in the global ecosystem. Unfortunately, deforestation and degradation impact millions of hectares annually, requiring government or private initiatives for effective forest monitoring. However, identifying deforested regions in satellite images is challenging due to data imbalance, image resolution, low-contrast regions, and occlusion. Superpixel segmentation can overcome these drawbacks, reducing workload and preserving important image boundaries. However, most works for remote sensing images do not exploit recent superpixel methods. In this work, we evaluate 16 superpixel methods in satellite images to support a deforestation detection system in tropical forests. We also assess the performance of superpixel methods for the target task, establishing a relationship with segmentation methodological evaluation. According to our results, ERS, GMMSP, and DISF perform best on UE, BR, and SIRS, respectively, whereas ERS has the best trade-off with CO and Reg. In classification, SH, DISF, and ISF perform best on RGB, UMDA, and PCA compositions, respectively. According to our experiments, superpixel methods with better trade-offs between delineation, homogeneity, compactness, and regularity are more suitable for identifying good superpixels for deforestation detection tasks.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# Amortized Bayesian Workflow (Extended Abstract)

Amortized Bayesian Workflow (Extended Abstract) ( http://arxiv.org/abs/2409.04332v1 )

ライセンス: Link先を確認
Marvin Schmitt, Chengkun Li, Aki Vehtari, Luigi Acerbi, Paul-Christian Bürkner, Stefan T. Radev, (参考訳) ベイズ推定はしばしば計算速度とサンプリング精度のトレードオフに直面している。 そこで本研究では,ゴールド標準MCMC技術と高速なアモータライズ推論を統合し,多くの観測データセットで推論を行う際の速度と精度を両立させる適応ワークフローを提案する。 提案手法では,各データセットに対する推論手法の選択を原則として,高速アモートサンプリングから遅いが正確なMCMCまで,パレートフロントに沿って移動させる。 ステップ間で計算を再利用することで、我々のワークフローは、アモールト化とMCMCベースの推論の相乗効果を生成する。 我々は,1000個の観測データセットを用いた一般化された極値タスクに対するこの統合手法の有効性を実証し,高い後部品質を維持しつつ90倍の時間効率向上を示した。

Bayesian inference often faces a trade-off between computational speed and sampling accuracy. We propose an adaptive workflow that integrates rapid amortized inference with gold-standard MCMC techniques to achieve both speed and accuracy when performing inference on many observed datasets. Our approach uses principled diagnostics to guide the choice of inference method for each dataset, moving along the Pareto front from fast amortized sampling to slower but guaranteed-accurate MCMC when necessary. By reusing computations across steps, our workflow creates synergies between amortized and MCMC-based inference. We demonstrate the effectiveness of this integrated approach on a generalized extreme value task with 1000 observed data sets, showing 90x time efficiency gains while maintaining high posterior quality.
翻訳日:2024-09-09 15:34:51 公開日:2024-09-06
# 連続可変量子通信における空間モードの多様性と多重化

Spatial-Mode Diversity and Multiplexing for Continuous Variables Quantum Communications ( http://arxiv.org/abs/2409.04334v1 )

ライセンス: Link先を確認
Seid Koudia, Leonardo Oleynik, Mert Bayraktar, Junaid ur Rehman, Symeon Chatzinotas, (参考訳) 本研究では,ガウス的損失チャネル,フェード,クロストークなどの現実的なチャネル条件の影響を軽減するために,多様性スキームを用いた連続可変(CV)量子通信システムの性能について検討する。 チャネルの透過率を対数正規分布としてモデル化することにより、フェーディングの確率的性質について考察する。 我々は、受信機における後処理増幅と送信機における前処理増幅の両方が通信システムの忠実度に与える影響を分析する。 以上の結果から,特に強暗色,高熱的背景雑音の条件下では,単一チャネル伝送に比べて多様性が有益であることが示唆された。 また、チャネル間のクロストークの効果についても検討し、強弱なフェーディングや熱雑音のシナリオにおいて顕著な利点が持続することを示した。 CV-QKDでは、平均秘密鍵レートにおいて多様性が多重化を上回ることが示され、いくつかの体制において多重化よりも多様性の優位性が示された。

We investigate the performance of continuous-variable (CV) quantum communication systems employing diversity schemes to mitigate the effects of realistic channel conditions, including Gaussian lossy channels, fading, and crosstalk. By modeling the transmittivity of the channel as a log-normal distribution, we account for the stochastic nature of fading. We analyze the impact of both post-processing amplification at the receiver and pre-amplification at the transmitter on the fidelity of the communication system. Our findings reveal that diversity schemes provide significant advantages over single-channel transmission in terms of fidelity, particularly in conditions of strong fading and high thermal background noise. We also explore the effect of crosstalk between channels and demonstrate that a noticeable advantage persists in scenarios of strong fading or thermal noise. For CV-QKD, we show that diversity can outperform multiplexing in terms of average secret key rate, revealing a diversity advantage over multiplexing in some regimes.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 高精度なマルチモデル混合レトロシンセティック法

A high-accuracy multi-model mixing retrosynthetic method ( http://arxiv.org/abs/2409.04335v1 )

ライセンス: Link先を確認
Shang Xiang, Lin Yao, Zhen Wang, Qifan Yu, Wentan Liu, Wentao Guo, Guolin Ke, (参考訳) コンピュータ支援合成計画(CASP)の分野は近年急速に進歩し、様々なアルゴリズムベンチマークにおいて大きな進歩を遂げている。 しかし、化学者は実際にCASPを使用すると、多くの不可能な反応に遭遇することが多い。 この記事では、CASPに関連する一般的なエラーを掘り下げ、単一ステップモデルの精度を高めることを目的とした製品予測モデルを紹介します。 製品予測モデルはシングルステップ反応の数を減らすが、反応の総数を維持し、反応の多様性を高めるために複数のシングルステップモデルを統合する。 手動分析と大規模テストに基づいて、製品予測モデルは、マルチモデルアンサンブルアプローチと組み合わせて、より高い実現可能性と多様性を提供することが証明されている。

The field of computer-aided synthesis planning (CASP) has seen rapid advancements in recent years, achieving significant progress across various algorithmic benchmarks. However, chemists often encounter numerous infeasible reactions when using CASP in practice. This article delves into common errors associated with CASP and introduces a product prediction model aimed at enhancing the accuracy of single-step models. While the product prediction model reduces the number of single-step reactions, it integrates multiple single-step models to maintain the overall reaction count and increase reaction diversity. Based on manual analysis and large-scale testing, the product prediction model, combined with the multi-model ensemble approach, has been proven to offer higher feasibility and greater diversity.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# AGR:LLMにおけるバイアス低減のための年齢グループフェアネス・リワード

AGR: Age Group fairness Reward for Bias Mitigation in LLMs ( http://arxiv.org/abs/2409.04340v1 )

ライセンス: Link先を確認
Shuirong Cao, Ruoxi Cheng, Zhiqiang Wang, (参考訳) LLMは年齢バイアスを示すことができ、結果として年齢グループ全体で個人が不平等に扱われる。 多くの研究が人種や性別の偏見に対処しているが、年齢の偏見はほとんど調査されていない。 年齢バイアスに対する指示調整と選好データセットの不足は、その検出と測定を妨げ、既存の微調整手法は、年齢に関する公平さにほとんど対処しない。 本稿では,RLHFのための年齢差優先データセットと命令調整データセットを構築する。 年齢集団間でのLDMの応答品質の差を低減するために, 年齢フェアネス報酬であるARGを導入する。 大規模な実験により、この報酬は応答精度を大幅に改善し、年齢群間の性能格差を低減することが示されている。 我々のソースコードとデータセットは匿名の \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link} で入手できる。

LLMs can exhibit age biases, resulting in unequal treatment of individuals across age groups. While much research has addressed racial and gender biases, age bias remains little explored. The scarcity of instruction-tuning and preference datasets for age bias hampers its detection and measurement, and existing fine-tuning methods seldom address age-related fairness. In this paper, we construct age bias preference datasets and instruction-tuning datasets for RLHF. We introduce ARG, an age fairness reward to reduce differences in the response quality of LLMs across different age groups. Extensive experiments demonstrate that this reward significantly improves response accuracy and reduces performance disparities across age groups. Our source code and datasets are available at the anonymous \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link}.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# ファイングラインドWebページフィンガープリントの大規模化に向けて

Towards Fine-Grained Webpage Fingerprinting at Scale ( http://arxiv.org/abs/2409.04341v1 )

ライセンス: Link先を確認
Xiyuan Zhao, Xinhao Deng, Qi Li, Yunpeng Liu, Zhuotao Liu, Kun Sun, Ke Xu, (参考訳) Webサイトフィンガープリント(WF)攻撃は、暗号化されたトラフィックパターンを分析することで、Torクライアントが訪れたウェブサイトを効果的に識別することができる。 既存の攻撃は、異なるWebサイトを特定することに集中しているが、その精度は、特に同じWebサイトの異なるサブページを区別する場合に、きめ細かいWebページを特定するために適用されると劇的に低下する。 WebPage Fingerprinting (WPF)攻撃は、非常に類似したトラフィックパターンとはるかに大規模なWebページの課題に直面します。 さらに、クライアントは複数のWebページを同時に訪問することが多く、難読化トラフィックから各Webページのトラフィックパターンを抽出することが困難になる。 本稿では,マルチラベルメトリック学習に基づくWPF攻撃であるOscarを提案し,特徴空間を変換することで,難読化トラフィックから異なるWebページを識別する。 Oscarは、類似のトラフィックパターンであっても、さまざまなWebページの微妙な違いを抽出することができる。 特にOscarは、プロキシベースのメトリクス学習とサンプルベースのメトリクス学習の損失を組み合わせて、難読化トラフィックからWebページの特徴を抽出し、複数のWebページを識別する。 我々は,1000の監視されたWebページと9,000以上の監視されていないWebページから収集されたトラフィックを用いて,そのパフォーマンスをプロトタイプ化し,評価した。 オスカーは、最先端の攻撃と比較して、マルチラベルメトリックのRecall@5を88.6%改善した。

Website Fingerprinting (WF) attacks can effectively identify the websites visited by Tor clients via analyzing encrypted traffic patterns. Existing attacks focus on identifying different websites, but their accuracy dramatically decreases when applied to identify fine-grained webpages, especially when distinguishing among different subpages of the same website. WebPage Fingerprinting (WPF) attacks face the challenges of highly similar traffic patterns and a much larger scale of webpages. Furthermore, clients often visit multiple webpages concurrently, increasing the difficulty of extracting the traffic patterns of each webpage from the obfuscated traffic. In this paper, we propose Oscar, a WPF attack based on multi-label metric learning that identifies different webpages from obfuscated traffic by transforming the feature space. Oscar can extract the subtle differences among various webpages, even those with similar traffic patterns. In particular, Oscar combines proxy-based and sample-based metric learning losses to extract webpage features from obfuscated traffic and identify multiple webpages. We prototype Oscar and evaluate its performance using traffic collected from 1,000 monitored webpages and over 9,000 unmonitored webpages in the real world. Oscar demonstrates an 88.6% improvement in the multi-label metric Recall@5 compared to the state-of-the-art attacks.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# コンピュータによるサンドミキサーとサンドベース画像

Computer-Generated Sand Mixtures and Sand-based Images ( http://arxiv.org/abs/2409.04345v1 )

ライセンス: Link先を確認
Ryan A. Subong, Alma Jean D. Subong, (参考訳) 本研究は,砂の写真を入力として,コンピュータで生成した砂の混合画像を作成するためのアルゴリズムのソフトウェア実装の有効性を検証することを目的としている。 本発明の方法は、実際の混合画像とコンピュータ生成画像とを視覚的に比較し、混合生成が期待通りに結果を生成するかどうかを検証し、コンピュータ生成したサンドベース画像とそのソースを比較し、画像再生が同じ画像内容を維持することを検証することである。 混合比較の結果、実際の色とコンピュータ生成した色は、全体の色と色が類似していることが示されている。 それでも、生成したものは、個々の砂粒子ではなく、ピクセルによる視覚的特徴を継承する方法により、より粗いテクスチャとコントラストを有する。 砂をベースとした画像とそのソースの比較は、テクスチャを生成した砂混合物の視覚的特性に置き換えつつ、変換中にその内容の本質を維持できることを示してきた。 その結果,提案アルゴリズムのソフトウェア実装は,砂の画像を効果的に利用して混合画像を生成し,それらの混合画像を用いてデジタル画像をコンピュータで生成した砂ベースの画像に変換することができることがわかった。

This paper aims to verify the effectiveness of the software implementation of the proposed algorithm in creating computer-generated images of sand mixtures using a photograph of sand as an input and its effectiveness in converting digital pictures into sand-based images out of the mixtures it generated. The method of this paper is to visually compare the photographed image of the actual mixtures to its computer-generated counterpart to verify if the mixture generation produces results as expected and compare the computer-generated sand-based images with its source to verify image reproduction maintains same image content. The results of the mixture comparison shows that the actual and the computer-generated ones have similar overall shade and color. Still, the generated one has a rougher texture and higher contrast due to the method of inheriting visual features by pixel, not by individual sand particles. The comparison of the sand-based image and its source has demonstrated the software's ability to maintain the essence of its contents during conversion while replacing its texture with the visual properties of the generated sand mixture. The result have shown that the software implementation of the proposed algorithm can effectively use the images of sand to generate images of its mixtures and use those mixture images to convert a digital picture into a computer-generated sand-based image.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 頑健な自己検定2量子絡み合い状態の新しいアプローチの検討

Investigating a new approach of robustly self-testing two-qubit entangled states ( http://arxiv.org/abs/2409.04347v1 )

ライセンス: Link先を確認
Chan-Ching Lien, Shin-Liang Chen, (参考訳) 著者らは最近の論文(Quantum 5, 552 (2021))で、安定に自己テスト可能な量子集合体のためのフレームワークを提案した。 本研究では,これらの手法を2量子交絡量子状態の自己テストのシナリオに適用する。 参照状態との忠実性に関する新しい境界は他の方法と比較する。

In a recent paper [Quantum 5, 552 (2021)], the authors proposed a framework for robustly self-testing steerable quantum assemblages. In this work, we apply their method to the scenario of self-testing two-qubit entangled quantum states. The new bounds on the fidelity with the reference states are compared with other methods.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# Sierpinski三角Fermion-to-Qubit変換

A Sierpinski Triangle Fermion-to-Qubit Transform ( http://arxiv.org/abs/2409.04348v1 )

ライセンス: Link先を確認
Brent Harrison, Mitchell Chiew, Jason Necaise, Andrew Projansky, Sergii Strelchuk, James D. Whitfield, (参考訳) 量子コンピュータ上のフェルミオンの系をシミュレートするには、量子ビット上のフェルミオン状態と演算子を表現する必要がある。 これは、有名なジョルダン・ウィグナー変換やパリティ、ブラヴィ・キタエフ、三次木エンコーディングなど、様々な方法で達成できる。 特に、Bravyi-Kitaevエンコーディングは、古典的なデータ構造であるフェンウィックツリー(Fenwick tree)で記述することができる。 ここでは、フェンウィック木に似た古典的データ構造のクラスと、1対1のフェルミオン-量子変換のクラスとの対応性を確立する。 本稿では,最近発見された"Sierpinski tree"データ構造に基づく新しいフェルミオン対量子ビット符号化法を提案する。 これは、フェンウィックの木の観点から、ブラヴィイ・キタエフのエンコーディングの定式化に類似している。

In order to simulate a system of fermions on a quantum computer, it is necessary to represent the fermionic states and operators on qubits. This can be accomplished in multiple ways, including the well-known Jordan-Wigner transform, as well as the parity, Bravyi-Kitaev, and ternary tree encodings. Notably, the Bravyi-Kitaev encoding can be described in terms of a classical data structure, the Fenwick tree. Here we establish a correspondence between a class of classical data structures similar to the Fenwick tree, and a class of one-to-one fermion-to-qubit transforms. We present a novel fermion-to-qubit encoding based on the recently discovered "Sierpinski tree" data structure, which matches the operator locality of the ternary tree encoding, and has the additional benefit of encoding the fermionic states as computational basis states. This is analogous to the formulation of the Bravyi-Kitaev encoding in terms of the Fenwick tree.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 学習問題のクラスにおける一般化向上のためのナイーブアグリゲーションアルゴリズム

A naive aggregation algorithm for improving generalization in a class of learning problems ( http://arxiv.org/abs/2409.04352v1 )

ライセンス: Link先を確認
Getachew K Befekadu, (参考訳) 本稿では、モデル検証という一般化を改善するタスクを、逐次的な意思決定問題として学習プロセスに組み込む、エキスパートアドバイス設定による典型的な学習問題に対する単純集約アルゴリズムを提案する。 特に,高次元非線形関数をモデル化するための点推定の学習問題について考察する。そこでは,専門家のグループが,勾配系の離散時間版を用いてパラメータ推定を更新する。 ここでは,このようなアルゴリズムが,究極的には最適パラメータ推定に繋がる,専門家の見積を集約するための混合分布戦略の集合を逐次決定する条件を提供する。 最後に、この研究の一環として、非線形回帰問題の典型例に対する数値的な結果を示す。

In this brief paper, we present a naive aggregation algorithm for a typical learning problem with expert advice setting, in which the task of improving generalization, i.e., model validation, is embedded in the learning process as a sequential decision-making problem. In particular, we consider a class of learning problem of point estimations for modeling high-dimensional nonlinear functions, where a group of experts update their parameter estimates using the discrete-time version of gradient systems, with small additive noise term, guided by the corresponding subsample datasets obtained from the original dataset. Here, our main objective is to provide conditions under which such an algorithm will sequentially determine a set of mixing distribution strategies used for aggregating the experts' estimates that ultimately leading to an optimal parameter estimate, i.e., as a consensus solution for all experts, which is better than any individual expert's estimate in terms of improved generalization or learning performances. Finally, as part of this work, we present some numerical results for a typical case of nonlinear regression problem.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# Serp-Mamba:選択状態空間モデルによる高分解能網膜血管セグメンテーションの改善

Serp-Mamba: Advancing High-Resolution Retinal Vessel Segmentation with Selective State-Space Model ( http://arxiv.org/abs/2409.04356v1 )

ライセンス: Link先を確認
Hongqiu Wang, Yixian Chen, Wu Chen, Huihui Xu, Haoyu Zhao, Bin Sheng, Huazhu Fu, Guang Yang, Lei Zhu, (参考訳) Ultra-Wide-Field Scanning Laser Ophthalmoscopy (UWF-SLO)画像は、通常200度の高解像度網膜像を撮影する。 UWF-SLO画像における血管の正確なセグメンテーションは、基礎疾患の検出と診断に不可欠である。 近年の研究では、マンバの選択的状態空間モデル(SSM)が長距離依存のモデル化において良好に機能していることが判明している。 そこで本研究では,この課題に対処する最初のSerpentine Mamba(Serp-Mamba)ネットワークを提案する。 具体的には,血管の管状構造の複雑で多様で繊細な性質を認識する。 さらに、UWF-SLO画像の高解像度化により、容器と背景のカテゴリーのバランスが悪化する。 以上の知見に基づいて,まず,蛇のように曲がった血管構造に沿ってUWF-SLO像を走査するSerpentine Interwoven Adaptive (SIA)スキャン機構を考案した。 このアプローチは血管のテクスチャ変換と整合し、湾曲した血管構造の特徴を効果的かつ連続的に捕捉する。 次に,高分解能画像によって強調されるカテゴリ不均衡問題に対処するため,Ambiguity-Driven Dual Recalibration (ADDR) モジュールを提案する。 我々のADDRモジュールは、2つの学習可能なしきい値で画素をデラインし、二重駆動方式であいまいな画素を精細化し、それによって容器と背景領域を正確に区別する。 3つのデータセットの実験結果から,高分解能容器セグメンテーションにおけるSerp-Mambaの優れた性能が示された。 私たちはまた、設計の影響を検証するために、一連のアブレーション研究も行っています。 私たちのコードは、この作品の公開時に公表します。

Ultra-Wide-Field Scanning Laser Ophthalmoscopy (UWF-SLO) images capture high-resolution views of the retina with typically 200 spanning degrees. Accurate segmentation of vessels in UWF-SLO images is essential for detecting and diagnosing fundus disease. Recent studies have revealed that the selective State Space Model (SSM) in Mamba performs well in modeling long-range dependencies, which is crucial for capturing the continuity of elongated vessel structures. Inspired by this, we propose the first Serpentine Mamba (Serp-Mamba) network to address this challenging task. Specifically, we recognize the intricate, varied, and delicate nature of the tubular structure of vessels. Furthermore, the high-resolution of UWF-SLO images exacerbates the imbalance between the vessel and background categories. Based on the above observations, we first devise a Serpentine Interwoven Adaptive (SIA) scan mechanism, which scans UWF-SLO images along curved vessel structures in a snake-like crawling manner. This approach, consistent with vascular texture transformations, ensures the effective and continuous capture of curved vascular structure features. Second, we propose an Ambiguity-Driven Dual Recalibration (ADDR) module to address the category imbalance problem intensified by high-resolution images. Our ADDR module delineates pixels by two learnable thresholds and refines ambiguous pixels through a dual-driven strategy, thereby accurately distinguishing vessels and background regions. Experiment results on three datasets demonstrate the superior performance of our Serp-Mamba on high-resolution vessel segmentation. We also conduct a series of ablation studies to verify the impact of our designs. Our code shall be released upon publication of this work.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# コンテキスト認識のための接続性を考慮したネットワーク

Connectivity-Inspired Network for Context-Aware Recognition ( http://arxiv.org/abs/2409.04360v1 )

ライセンス: Link先を確認
Gianluca Carloni, Sara Colantonio, (参考訳) 本論文の目的は3倍である。 我々は、人間の視覚システムについて、広範囲にわたる文献レビューを行い、画像分類のための新しい生物学的動機付けニューラルネットワークを提案し、最後に、コンテキスト認識をモデル化するための新しいプラグイン・アンド・プレイ・モジュールを提案する。 視覚認知に対処するため,生体脳の回路モチーフを取り入れることによる効果に着目した。 我々の畳み込みアーキテクチャは、人間の皮質と皮質下の流れの接続にインスパイアされ、視覚領域と認知領域の間の広範囲な求心的および求心的な接続を模倣するボトムアップとトップダウンの変調を実装します。 私たちのContextual Attention Blockはシンプルで効果的で、任意のフィードフォワードニューラルネットワークと統合できます。 画像内の異なるオブジェクトの共起をモデル化し、特徴マップがシーンに因果的影響に応じて乗算する重みを推論する。 私たちはモジュールをさまざまなボトルネックに配置し、階層的なコンテキスト認識をモデルに注入します。 ベンチマークデータを用いた画像分類実験により提案手法の有効性を検証し,その性能とクラスアクティベーションによる説明の堅牢性について一貫した改善が得られた。 私たちのコードはhttps://github.com/gianlucarloni/CoCoReco.comで公開されています。

The aim of this paper is threefold. We inform the AI practitioner about the human visual system with an extensive literature review; we propose a novel biologically motivated neural network for image classification; and, finally, we present a new plug-and-play module to model context awareness. We focus on the effect of incorporating circuit motifs found in biological brains to address visual recognition. Our convolutional architecture is inspired by the connectivity of human cortical and subcortical streams, and we implement bottom-up and top-down modulations that mimic the extensive afferent and efferent connections between visual and cognitive areas. Our Contextual Attention Block is simple and effective and can be integrated with any feed-forward neural network. It infers weights that multiply the feature maps according to their causal influence on the scene, modeling the co-occurrence of different objects in the image. We place our module at different bottlenecks to infuse a hierarchical context awareness into the model. We validated our proposals through image classification experiments on benchmark data and found a consistent improvement in performance and the robustness of the produced explanations via class activation. Our code is available at https://github.com/gianlucarloni/CoCoReco.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# RCNet:マルチビュー低照度画像強調のためのディープリカレントコラボレーティブネットワーク

RCNet: Deep Recurrent Collaborative Network for Multi-View Low-Light Image Enhancement ( http://arxiv.org/abs/2409.04363v1 )

ライセンス: Link先を確認
Hao Luo, Baoliang Chen, Lingyu Zhu, Peilin Chen, Shiqi Wang, (参考訳) 複数の視点からのシーン観察により、より包括的な視覚体験がもたらされる。 しかし、暗黒界における複数の視点の獲得という文脈では、非常に相関の深い視点が著しく疎外されており、補助的な視点でシーン理解を改善することは困難である。 近年の単一画像ベースエンハンスメント手法は、異なる視点間の潜在的な特徴対応の無知のため、すべてのビューに対して一貫した復元性能を提供できない可能性がある。 この問題を軽減するため,マルチビュー低照度画像の高精細化を初めて検討する。 まず,多視点低照度トリプレット (MVLT) と呼ばれる新しいデータセットを構築した。 各三重奏は、同じシーンに対して3つの異なる視点を備える。 第2に,Recurrent Collaborative Network (RCNet) に基づく多視点強化フレームワークを提案する。 具体的には、異なるビュー間での類似したテクスチャ対応の恩恵を受けるために、ビュー内特徴強調(Intra-view EN)に続いてビュー内特徴強調(Intertra-view EN)を行い、ビュー間特徴強調(Inter-view AF)を行い、ビュー内およびビュー間特徴伝播を連続的にマルチビューコラボレーションを介してモデル化するReEAF(Recurrent Feature enhancement, alignment and fusion)モジュールを設計する。 さらに、強調からアライメント(E2A)、アライメントからアライメントへ(A2E)の2つの異なるモジュールを開発し、イントラビューENとインタービューAFの相互作用を可能にする。 実験の結果,我々のRCNetは,他の最先端手法よりも優れていた。 データセット、コード、モデルはすべてhttps://github.com/hluo29/RCNet.comで公開されます。

Scene observation from multiple perspectives would bring a more comprehensive visual experience. However, in the context of acquiring multiple views in the dark, the highly correlated views are seriously alienated, making it challenging to improve scene understanding with auxiliary views. Recent single image-based enhancement methods may not be able to provide consistently desirable restoration performance for all views due to the ignorance of potential feature correspondence among different views. To alleviate this issue, we make the first attempt to investigate multi-view low-light image enhancement. First, we construct a new dataset called Multi-View Low-light Triplets (MVLT), including 1,860 pairs of triple images with large illumination ranges and wide noise distribution. Each triplet is equipped with three different viewpoints towards the same scene. Second, we propose a deep multi-view enhancement framework based on the Recurrent Collaborative Network (RCNet). Specifically, in order to benefit from similar texture correspondence across different views, we design the recurrent feature enhancement, alignment and fusion (ReEAF) module, in which intra-view feature enhancement (Intra-view EN) followed by inter-view feature alignment and fusion (Inter-view AF) is performed to model the intra-view and inter-view feature propagation sequentially via multi-view collaboration. In addition, two different modules from enhancement to alignment (E2A) and from alignment to enhancement (A2E) are developed to enable the interactions between Intra-view EN and Inter-view AF, which explicitly utilize attentive feature weighting and sampling for enhancement and alignment, respectively. Experimental results demonstrate that our RCNet significantly outperforms other state-of-the-art methods. All of our dataset, code, and model will be available at https://github.com/hluo29/RCNet.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 公式統計のための機械学習を活用する - 統計的マニフェスト

Leveraging Machine Learning for Official Statistics: A Statistical Manifesto ( http://arxiv.org/abs/2409.04365v1 )

ライセンス: Link先を確認
Marco Puts, David Salgado, Piet Daas, (参考訳) 統計学は、統計学を統計学に応用することが重要であり、機会と課題の両方を提示する。 近年、機械学習は急速な技術進歩を享受しているが、その応用には高品質な統計結果を生み出すために必要な方法論的堅牢性はない。 機械学習モデルにおける全てのエラー源を説明するため、Total Machine Learning Error (TMLE)は、調査手法で使用されるTotal Survey Error Modelに類似したフレームワークとして提示される。 MLモデルが内部でも外部でも有効であることを保証する手段として、TMLEモデルは代表性や測定誤差といった問題に対処する。 いくつかのケーススタディが提示され、公式統計における機械学習の適用により多くの厳密さを適用することの重要性が説明されている。

It is important for official statistics production to apply ML with statistical rigor, as it presents both opportunities and challenges. Although machine learning has enjoyed rapid technological advances in recent years, its application does not possess the methodological robustness necessary to produce high quality statistical results. In order to account for all sources of error in machine learning models, the Total Machine Learning Error (TMLE) is presented as a framework analogous to the Total Survey Error Model used in survey methodology. As a means of ensuring that ML models are both internally valid as well as externally valid, the TMLE model addresses issues such as representativeness and measurement errors. There are several case studies presented, illustrating the importance of applying more rigor to the application of machine learning in official statistics.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# Ethereumバリデータの匿名化:P2Pネットワークにはプライバシー上の問題がある

Deanonymizing Ethereum Validators: The P2P Network Has a Privacy Issue ( http://arxiv.org/abs/2409.04366v1 )

ライセンス: Link先を確認
Lioba Heimbach, Yann Vonlanthen, Juan Villacis, Lucianna Kiffer, Roger Wattenhofer, (参考訳) 多くのブロックチェーンネットワークは、ピアツーピア(P2P)ネットワークにおけるバリデーターの匿名性を維持することを目的としており、プライバシとセキュリティ上の懸念から、バリデーターの識別子をピアのIPアドレスにリンクできないようにしている。 この研究はEthereum P2Pネットワークがこの匿名性を提供していないことを示している。 本稿では,ネットワーク内の任意のノードに対して,接続されたピアにホストされたバリデータを特定し,提案手法の有効性を実証的に検証する手法を提案する。 3日間にわたって4つのノードから収集されたデータを使用して、P2PネットワークでEthereumバリデータのうち15%以上を特定できる。 匿名化技術から得られた洞察は、ピア、地理的な場所、ホスティング組織にまたがるバリデータの提供に関する貴重な情報を提供する。 さらに、P2Pネットワークにおける匿名性の欠如に関連する影響とリスクについて考察し、バリデータによるプライバシ保護を支援する方法を提案する。 Ethereum Foundationは私たちに、結果の影響を認めながら、バグ報奨金を与えてくれました。

Many blockchain networks aim to preserve the anonymity of validators in the peer-to-peer (P2P) network, ensuring that no adversary can link a validator's identifier to the IP address of a peer due to associated privacy and security concerns. This work demonstrates that the Ethereum P2P network does not offer this anonymity. We present a methodology that enables any node in the network to identify validators hosted on connected peers and empirically verify the feasibility of our proposed method. Using data collected from four nodes over three days, we locate more than 15% of Ethereum validators in the P2P network. The insights gained from our deanonymization technique provide valuable information on the distribution of validators across peers, their geographic locations, and hosting organizations. We further discuss the implications and risks associated with the lack of anonymity in the P2P network and propose methods to help validators protect their privacy. The Ethereum Foundation has awarded us a bug bounty, acknowledging the impact of our results.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 構造ファフィアン設定のための確率的ハイパーパラメータチューニング

Provable Hyperparameter Tuning for Structured Pfaffian Settings ( http://arxiv.org/abs/2409.04367v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Anh Tuan Nguyen, Dravyansh Sharma, (参考訳) データ駆動型アルゴリズム設計は、アルゴリズムを特定のアプリケーションドメインに自動的に適応させ、より良いパフォーマンスを達成する。 パラメータ化アルゴリズムの文脈では、対象のアプリケーション領域の問題分布から引き出された問題インスタンスを用いて、アルゴリズムパラメータをチューニングする。 経験的エビデンスは、データ駆動型アルゴリズム設計の有効性を支持するが、いくつかのパラメータ化されたファミリーの理論的保証は依然として困難である。 これは対応するユーティリティ関数の複雑な振る舞いによるもので、通常は断片的かつ不連続な構造を持つ。 本研究では,パラメータ化データ駆動型アルゴリズムの設計問題に対して,分散学習とオンライン学習の両方で学習保証を提供するための洗練されたフレームワークを提案する。 分散学習環境では,古典的なGJフレームワークの拡張であるPfaffian GJフレームワークを導入し,計算にPfaffian関数が関係する関数クラスに対する学習保証を提供する。 有理関数を特徴とする計算を伴う関数クラスに限定されるGJフレームワークとは異なり、提案フレームワークはより一般的で広く適用可能なPfaffian関数を含む関数クラスを扱うことができる。 そして,多くのパラメータ化アルゴリズムに対して,そのユーティリティ関数は精巧な断片構造を持ち,提案したフレームワークを用いた学習保証に自動的に変換されることを示す。 オンライン学習環境において、損失関数列の分散性を検証するための新しいツールを提供する。 この十分条件は、ピースワイズ構造がプファフ遷移境界を含むピースワイズ構造損失関数の列に対する非回帰学習を可能にする。

Data-driven algorithm design automatically adapts algorithms to specific application domains, achieving better performance. In the context of parameterized algorithms, this approach involves tuning the algorithm parameters using problem instances drawn from the problem distribution of the target application domain. While empirical evidence supports the effectiveness of data-driven algorithm design, providing theoretical guarantees for several parameterized families remains challenging. This is due to the intricate behaviors of their corresponding utility functions, which typically admit piece-wise and discontinuity structures. In this work, we present refined frameworks for providing learning guarantees for parameterized data-driven algorithm design problems in both distributional and online learning settings. For the distributional learning setting, we introduce the Pfaffian GJ framework, an extension of the classical GJ framework, capable of providing learning guarantees for function classes for which the computation involves Pfaffian functions. Unlike the GJ framework, which is limited to function classes with computation characterized by rational functions, our proposed framework can deal with function classes involving Pfaffian functions, which are much more general and widely applicable. We then show that for many parameterized algorithms of interest, their utility function possesses a refined piece-wise structure, which automatically translates to learning guarantees using our proposed framework. For the online learning setting, we provide a new tool for verifying dispersion property of a sequence of loss functions. This sufficient condition allows no-regret learning for sequences of piece-wise structured loss functions where the piece-wise structure involves Pfaffian transition boundaries.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 医用画像における走査型ドメインシフトがディープラーニング性能に及ぼす影響 : 実験的研究

The Impact of Scanner Domain Shift on Deep Learning Performance in Medical Imaging: an Experimental Study ( http://arxiv.org/abs/2409.04368v1 )

ライセンス: Link先を確認
Gregory Szumel, Brian Guo, Darui Lu, Rongze Gui, Tingyu Wang, Nicholas Konz, Maciej A. Mazurowski, (参考訳) 目的: 異なるスキャナーとプロトコルを用いて取得した医用画像は, 外観的に大きく異なる可能性がある。 スキャナドメインシフトと呼ばれるこの現象は、あるスキャナによって取得され、別のスキャナでテストされるデータに基づいてトレーニングされたディープニューラルネットワークのパフォーマンスが低下する可能性がある。 この重要な実践的問題はよく認識されているが、様々なモダリティや診断タスクで問題に関する体系的な研究は行われていない。 材料と方法:本論文では,異なる自動診断タスクにおいて,スキャナ領域シフトが畳み込みニューラルネットワーク性能に与える影響を,幅広い実験的に評価する。 我々はX線、CT、MRIなどの一般的な放射線学的手法でこの現象を評価する。 結果: 異なるスキャナーのデータに対するネットワーク性能は、ほぼ常に同じスキャナーのデータよりも悪く、異なるデータセット間でのパフォーマンス低下の程度を定量化しています。 特に,この低下はMRIでは最も深刻であり,X線では中等度であり,CTでは極めて小さく,MRIやX線では存在しないCT取得システムの標準化の性質に起因している。 また、トレーニングセットに様々な量のターゲットドメインデータを注入し、トレーニングデータにノイズを加えることで一般化する方法について検討する。 結論:本研究の結果は,様々なモダリティにわたる深層学習におけるスキャナ領域シフトによる性能低下の程度を,医療画像解析のための堅牢な深層学習モデルの開発を導くことを目的とした,広範な実験的証拠と定量化を提供する。

Purpose: Medical images acquired using different scanners and protocols can differ substantially in their appearance. This phenomenon, scanner domain shift, can result in a drop in the performance of deep neural networks which are trained on data acquired by one scanner and tested on another. This significant practical issue is well-acknowledged, however, no systematic study of the issue is available across different modalities and diagnostic tasks. Materials and Methods: In this paper, we present a broad experimental study evaluating the impact of scanner domain shift on convolutional neural network performance for different automated diagnostic tasks. We evaluate this phenomenon in common radiological modalities, including X-ray, CT, and MRI. Results: We find that network performance on data from a different scanner is almost always worse than on same-scanner data, and we quantify the degree of performance drop across different datasets. Notably, we find that this drop is most severe for MRI, moderate for X-ray, and quite small for CT, on average, which we attribute to the standardized nature of CT acquisition systems which is not present in MRI or X-ray. We also study how injecting varying amounts of target domain data into the training set, as well as adding noise to the training data, helps with generalization. Conclusion: Our results provide extensive experimental evidence and quantification of the extent of performance drop caused by scanner domain shift in deep learning across different modalities, with the goal of guiding the future development of robust deep learning models for medical image analysis.
翻訳日:2024-09-09 15:24:36 公開日:2024-09-06
# 数学的保証を伴うコーン・シャム逆変換

Kohn-Sham inversion with mathematical guarantees ( http://arxiv.org/abs/2409.04372v1 )

ライセンス: Link先を確認
Michael F. Herbst, Vebjørn H. Bakkestuen, Andre Laestadius, (参考訳) 正確なモロー・ヨシダ正規化定式化を用いて周期系の交換相関ポテンシャルを得る。 我々は、厳密な数学的原理と効率的な数値的実装の深い関係を明らかにする。 我々は,バルクシリコンで数値的に検証される誤差境界を含む数学的に厳密な逆変換アルゴリズムを開発した。 これにより、コーン・シャム反転法を解析する新たな経路が開かれ、それを使って近似汎函数を開発する数学的アプローチの育成が期待できる。

We use an exact Moreau-Yosida regularized formulation to obtain the exchange-correlation potential for periodic systems. We reveal a profound connection between rigorous mathematical principles and efficient numerical implementation, which marks the first computation of a Moreau-Yosida-based inversion for physical systems. We develop a mathematically rigorous inversion algorithm including error bounds that are verified numerically in bulk silicon. This unlocks a new pathway to analyze Kohn-Sham inversion methods, which we expect in turn to foster mathematical approaches for developing approximate functionals.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 取引詐欺モデルにおける公正性の評価:公正度指標、バイアス監査、課題

Evaluating Fairness in Transaction Fraud Models: Fairness Metrics, Bias Audits, and Challenges ( http://arxiv.org/abs/2409.04373v1 )

ライセンス: Link先を確認
Parameswaran Kamalaruban, Yulu Pi, Stuart Burrell, Eleanor Drage, Piotr Skalski, Jason Wong, David Sutton, (参考訳) トランザクション不正検出モデルにおける公正性の確保は、バイアスのある意思決定の潜在的な害と法的影響のために不可欠である。 アルゴリズムの公正性に関する広範な研究にもかかわらず、詐欺検出モデルにおけるバイアスの研究には顕著なギャップがある。 これらの課題には、不正データの不均衡の性質と不正保護とサービス品質のトレードオフを考慮に入れた公正度メトリクスの必要性が含まれる。 このギャップに対処するため、パブリックな合成データセットを用いた取引不正モデルの総合的公正性評価を行い、この領域における最初のアルゴリズムバイアス監査を示す。 1)正当化後にのみ有意なバイアスを呈し,クラス不均衡の影響を浮き彫りにした。 2) バイアスはサービス品質関連パリティ指標と不正保護関連パリティ指標の両方において重要である。 3) 性別などのセンシティブな属性を除去する無意識アプローチによる公平性は,相関プロキシの存在により,これらのデータセット内のバイアス緩和を改善しないと考えられる。 また、取引詐欺モデルにおける社会技術的公正に関する課題についても論じる。 これらの洞察は、不正検出、保護とサービス品質のバランス、そして単純なバイアス軽減戦略を超えて、公正なアプローチの必要性を浮き彫りにしている。 今後の作業は、公正度メトリクスの精査と、トランザクション詐欺ドメインのユニークな複雑さに合わせた方法の開発に注力する必要があります。

Ensuring fairness in transaction fraud detection models is vital due to the potential harms and legal implications of biased decision-making. Despite extensive research on algorithmic fairness, there is a notable gap in the study of bias in fraud detection models, mainly due to the field's unique challenges. These challenges include the need for fairness metrics that account for fraud data's imbalanced nature and the tradeoff between fraud protection and service quality. To address this gap, we present a comprehensive fairness evaluation of transaction fraud models using public synthetic datasets, marking the first algorithmic bias audit in this domain. Our findings reveal three critical insights: (1) Certain fairness metrics expose significant bias only after normalization, highlighting the impact of class imbalance. (2) Bias is significant in both service quality-related parity metrics and fraud protection-related parity metrics. (3) The fairness through unawareness approach, which involved removing sensitive attributes such as gender, does not improve bias mitigation within these datasets, likely due to the presence of correlated proxies. We also discuss socio-technical fairness-related challenges in transaction fraud models. These insights underscore the need for a nuanced approach to fairness in fraud detection, balancing protection and service quality, and moving beyond simple bias mitigation strategies. Future work must focus on refining fairness metrics and developing methods tailored to the unique complexities of the transaction fraud domain.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# リーマン最適化による強化学習のためのガウスモデルQ-Functions

Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization ( http://arxiv.org/abs/2409.04374v1 )

ライセンス: Link先を確認
Minh Vu, Konstantinos Slavakis, (参考訳) 本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。 GMMが確率密度関数の推定として典型的な役割を果たす既存のRL文献とは異なり、GMMはここでのQ-函数の損失を近似する。 GMM-QFと呼ばれる新しいQ関数近似器はベルマン残差に組み込まれ、リーマン最適化タスクを標準方針決定スキームの新しいポリシー評価ステップとして推進する。 本稿は、ガウス核のハイパーパラメータ(平均と共分散行列)がデータからどのように学習されるかを示し、したがってリーマン最適化の強力なツールボックスへのRLの扉を開く。 数値実験では、トレーニングデータを使用しなくても、提案設計は、RLのベンチマークタスクでトレーニングデータを使用する最先端のQ-networksよりも優れていることが示された。

This paper establishes a novel role for Gaussian-mixture models (GMMs) as functional approximators of Q-function losses in reinforcement learning (RL). Unlike the existing RL literature, where GMMs play their typical role as estimates of probability density functions, GMMs approximate here Q-function losses. The new Q-function approximators, coined GMM-QFs, are incorporated in Bellman residuals to promote a Riemannian-optimization task as a novel policy-evaluation step in standard policy-iteration schemes. The paper demonstrates how the hyperparameters (means and covariance matrices) of the Gaussian kernels are learned from the data, opening thus the door of RL to the powerful toolbox of Riemannian optimization. Numerical tests show that with no use of training data, the proposed design outperforms state-of-the-art methods, even deep Q-networks which use training data, on benchmark RL tasks.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# アンサンブル学習による皮膚病変診断の強化

Enhancing Skin Lesion Diagnosis with Ensemble Learning ( http://arxiv.org/abs/2409.04381v1 )

ライセンス: Link先を確認
Xiaoyi Liu, Zhou Yu, Lianghao Tan, Yafeng Yan, Ge Shi, (参考訳) 皮膚病変は、良性から癌への重症度で広く異なる、ますます重要な医学的関心事である。 正確な診断は、タイムリーかつ適切な治療の確保に不可欠である。 本研究では,7種類の病変を含むHAM10000データセットを用いて皮膚病変の診断を支援する深層学習手法の実装について検討した。 まず,MobileNetV2,ResNet18,VGG11の3つの事前学習モデルを評価し,それぞれ0.798,0.802,0.805の精度を実現した。 分類精度をさらに高めるために,最大投票,平均投票,積み重ねを用いたアンサンブルモデルを開発し,0.803,0.82,0.83の精度を得た。 最適性能のアンサンブル学習モデルであるスタックリングに基づいて,カスタマイズアーキテクチャと微調整を取り入れたモデルであるSkinNetを開発し,0.867の精度と0.96のAUCを実現した。 個々のモデルに対するこの大幅な改善は、皮膚病変分類の改善におけるアンサンブル学習の有効性を示す。

Skin lesions are an increasingly significant medical concern, varying widely in severity from benign to cancerous. Accurate diagnosis is essential for ensuring timely and appropriate treatment. This study examines the implementation of deep learning methods to assist in the diagnosis of skin lesions using the HAM10000 dataset, which contains seven distinct types of lesions. First, we evaluated three pre-trained models: MobileNetV2, ResNet18, and VGG11, achieving accuracies of 0.798, 0.802, and 0.805, respectively. To further enhance classification accuracy, we developed ensemble models employing max voting, average voting, and stacking, resulting in accuracies of 0.803, 0.82, and 0.83. Building on the best-performing ensemble learning model, stacking, we developed our proposed model, SkinNet, which incorporates a customized architecture and fine-tuning, achieving an accuracy of 0.867 and an AUC of 0.96. This substantial improvement over individual models demonstrates the effectiveness of ensemble learning in improving skin lesion classification.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 暗黙的拡散を伴うLangevinサンプリングによるベイズ画像の実証的復元

Empirical Bayesian image restoration by Langevin sampling with a denoising diffusion implicit prior ( http://arxiv.org/abs/2409.04384v1 )

ライセンス: Link先を確認
Charlesquin Kemajou Mbakam, Jean-Francois Giovannelli, Marcelo Pereyra, (参考訳) スコアベース拡散法は、事前学習された基礎モデルとテスト時間中に指定された可能性関数を柔軟に組み合わせることで、画像復元作業を解決する強力な戦略を提供する。 これらの手法は主に2つの確率過程から導かれる: オルンシュタイン=ウレンベック逆転は、有名な拡散確率モデル(DDPM)と拡散暗黙的モデル(DDIM)、ランゲヴィン拡散過程である。 DDPM と DDIM によって提供されるソリューションは、しばしば驚くほど現実的であるが、潜在的な難易度問題とそれに伴う必要な近似のため、必ずしも測定値と一致しない。 あるいは、ランゲヴィン法を用いることで、難解な可能性の問題を回避できるが、通常、品質が劣り、計算時間が長くなるという回復結果につながる。 本稿では,実験的なベイジアン・ランゲヴィンアルゴリズムに基礎的なDDPMデノイザを注意深く埋め込む,新しい高効率な画像復元手法を提案する。 3つの標準的なタスク(画像のデブロアリング、超解像、塗装)に対する大規模な実験結果から、提案手法は画像推定精度と計算時間の両方において最先端の戦略を改善することが示されている。

Score-based diffusion methods provide a powerful strategy to solve image restoration tasks by flexibly combining a pre-trained foundational prior model with a likelihood function specified during test time. Such methods are predominantly derived from two stochastic processes: reversing Ornstein-Uhlenbeck, which underpins the celebrated denoising diffusion probabilistic models (DDPM) and denoising diffusion implicit models (DDIM), and the Langevin diffusion process. The solutions delivered by DDPM and DDIM are often remarkably realistic, but they are not always consistent with measurements because of likelihood intractability issues and the associated required approximations. Alternatively, using a Langevin process circumvents the intractable likelihood issue, but usually leads to restoration results of inferior quality and longer computing times. This paper presents a novel and highly computationally efficient image restoration method that carefully embeds a foundational DDPM denoiser within an empirical Bayesian Langevin algorithm, which jointly calibrates key model hyper-parameters as it estimates the model's posterior mean. Extensive experimental results on three canonical tasks (image deblurring, super-resolution, and inpainting) demonstrate that the proposed approach improves on state-of-the-art strategies both in image estimation accuracy and computing time.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# プライバタイズドヒストグラムから推定される線形不偏像の良さ

Best Linear Unbiased Estimate from Privatized Histograms ( http://arxiv.org/abs/2409.04387v1 )

ライセンス: Link先を確認
Jordan Awan, Adam Edwards, Paul Bartholomew, Andrew Sillers, (参考訳) 差分プライバシー(DP)メカニズムでは、民営化の異なる組み合わせを組み合わせることで、ある量を推定できるという意味で、「冗長」な出力を解放することは有益である。 実際、この構造はアメリカ合衆国国勢調査局が発行したDP 2020十年国勢調査製品に存在している。 この構造により、DP出力は、自己整合性(すなわち、異なる値を組み合わせて同じ推定結果を得る推定器)を強制することにより改善でき、最小分散処理が線形射影であることを示す。 しかし、標準的なプロジェクションアルゴリズムは、Decennial Censusのようなアプリケーションにおいて、メモリと実行時間の両方の観点から計算的に高価すぎる。 最適線形不偏推定法(SEA BLUE)を2段階のアグリゲーションプロセスに基づいて提案する。 1) 直線的かつ偏見のない手続により自己整合を強制する。 2)計算的かつメモリ効率が高い。 3)一定の構造的前提の下で最小分散解を達成し、 4) 構造的仮定の違反に対して強固であることが実証的に示されている。 そこで本研究では,推定値から信頼区間を計算する3つの手法を提案する。 我々は,2010年国勢調査の2つの製品にSEA BLUEを適用し,そのスケーラビリティと妥当性を考察した。

In differential privacy (DP) mechanisms, it can be beneficial to release "redundant" outputs, in the sense that a quantity can be estimated by combining different combinations of privatized values. Indeed, this structure is present in the DP 2020 Decennial Census products published by the U.S. Census Bureau. With this structure, the DP output can be improved by enforcing self-consistency (i.e., estimators obtained by combining different values result in the same estimate) and we show that the minimum variance processing is a linear projection. However, standard projection algorithms are too computationally expensive in terms of both memory and execution time for applications such as the Decennial Census. We propose the Scalable Efficient Algorithm for Best Linear Unbiased Estimate (SEA BLUE), based on a two step process of aggregation and differencing that 1) enforces self-consistency through a linear and unbiased procedure, 2) is computationally and memory efficient, 3) achieves the minimum variance solution under certain structural assumptions, and 4) is empirically shown to be robust to violations of these structural assumptions. We propose three methods of calculating confidence intervals from our estimates, under various assumptions. We apply SEA BLUE to two 2010 Census demonstration products, illustrating its scalability and validity.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 質問応答型高精細ビデオイベント

Question-Answering Dense Video Events ( http://arxiv.org/abs/2409.04388v1 )

ライセンス: Link先を確認
Hangyu Qin, Junbin Xiao, Angela Yao, (参考訳) MLLM(Multimodal Large Language Models)は,単一イベントビデオの質問応答において優れた性能を示した。 本稿では,長時間にわたる複数の事象を忠実に理解し,原因を解明するためにMLLMに挑戦する。 この研究を容易にするために、DeVE-QA - 10.6Kの長ビデオ上での26Kイベントに関する78Kの質問を含むデータセットを構築した。 次に、DVE-QAにおいて、シングルイベントのQAにおいて優れた既存のMLLMが、よく機能するのに苦労していることをベンチマークし、示す。 改良のために,階層型キャプションモジュール,時間的イベントメモリモジュール,自己整合性チェックモジュールを強調表示した新しい学習自由MLLM手法であるDeViを提案する。 大規模な実験では、DeViは密集した質問に答え、関連するビデオの瞬間をグラウンド化するのに優れていることが示されている。 既存のMLLMと比較して、DeVE-QA と NExT-GQA でそれぞれ G(round)QA の精度が4.1%、G(round)QA が3.7%向上している。

Multimodal Large Language Models (MLLMs) have shown excellent performance in question-answering of single-event videos. In this paper, we present question-answering dense video events, a novel task that requires answering and grounding the dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events occurring over extended time periods. To facilitate the study, we construct DeVE-QA - a dataset featuring 78K questions about 26K events on 10.6K long videos. We then benchmark and show that existing MLLMs excelling at single-event QA struggle to perform well in DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.1 percent and 3.7 percent for G(round)QA accuracy on DeVE-QA and NExT-GQA respectively.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 今後の課題:点雲列における時間的動き推定による3次元物体検出の強化

Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences ( http://arxiv.org/abs/2409.04390v1 )

ライセンス: Link先を確認
Rui Yu, Runkai Zhao, Cong Nie, Heng Wang, HuaiCheng Yan, Meng Wang, (参考訳) 高精度で堅牢なLiDAR 3Dオブジェクト検出は、自動運転における総合的なシーン理解に不可欠である。 その重要性にもかかわらず、LiDAR検出性能は点雲データ固有の制約によって制限されている。 近年,多フレーム視点情報を融合し,物体の空間的表現を充実させることにより,時間的アグリゲーションが検出精度を大幅に向上することが証明されている。 本研究では,フレーム間移動予測情報を用いた空間時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを提案する。 学習不可能な動き推定モデルから生成された動的先行処理を組み込むことにより,LiDAR検出器の時空間解釈能力の向上を目指す。 具体的には,運動誘導型特徴集合(MGFA)を用いて,前と将来の運動状態からの物体軌道を利用して空間時間相関を駆動列上のガウス熱マップにモデル化する。 この動きに基づく熱マップは、時間的特徴融合を誘導し、提案された対象特徴を豊かにする。 さらに,過去フレームと将来フレームの相互作用を効果的に促進する2次元相関重み付けモジュール (DCWM) を設計する。 最終的に、カスケードのクロスアテンションに基づくデコーダを用いて、3D予測を洗練させる。 Waymo と nuScenes のデータセットを用いて実験を行い,提案手法が空間時間的特徴学習を効果的に行うことにより,優れた3次元検出性能を実現することを示す。

Accurate and robust LiDAR 3D object detection is essential for comprehensive scene understanding in autonomous driving. Despite its importance, LiDAR detection performance is limited by inherent constraints of point cloud data, particularly under conditions of extended distances and occlusions. Recently, temporal aggregation has been proven to significantly enhance detection accuracy by fusing multi-frame viewpoint information and enriching the spatial representation of objects. In this work, we introduce a novel LiDAR 3D object detection framework, namely LiSTM, to facilitate spatial-temporal feature learning with cross-frame motion forecasting information. We aim to improve the spatial-temporal interpretation capabilities of the LiDAR detector by incorporating a dynamic prior, generated from a non-learnable motion estimation model. Specifically, Motion-Guided Feature Aggregation (MGFA) is proposed to utilize the object trajectory from previous and future motion states to model spatial-temporal correlations into gaussian heatmap over a driving sequence. This motion-based heatmap then guides the temporal feature fusion, enriching the proposed object features. Moreover, we design a Dual Correlation Weighting Module (DCWM) that effectively facilitates the interaction between past and prospective frames through scene- and channel-wise feature abstraction. In the end, a cascade cross-attention-based decoder is employed to refine the 3D prediction. We have conducted experiments on the Waymo and nuScenes datasets to demonstrate that the proposed framework achieves superior 3D detection performance with effective spatial-temporal feature learning.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# ゲージ変換を用いた量子シミュレーションにおけるゲージドリフトの抑制

Suppressing Gauge Drift in Quantum Simulations with Gauge Transformations ( http://arxiv.org/abs/2409.04395v1 )

ライセンス: Link先を確認
Carter Ball, (参考訳) 量子格子ゲージ理論のシミュレーションは、指数的に大きいヒルベルト空間の物理的部分空間から系の状態を押し出すため、ゲージ不変性を維持するという大きな課題に直面している。 本稿では,ゲージ変換を2つの方法で利用する手法について概説する。 第一に、ゲージドリフトを抑制するために頻繁な投影を行うことで、ゼノ効果を利用する方法である。 これらのプロジェクションは局所ゲージ変換を利用して、物理振幅が一様正規化係数未満の非接触状態にある間、非物理的振幅を負のクビットに結合することで破壊的に非物理的振幅を妨害する。 第2に、ゲージドリフトの速度を抑えるために、システムの時間進化を通してゲージ変換が行われる。 本稿では,本手法を純粋な1D SU$(2)$玩具モデル上で実証する。

The simulation of quantum lattice gauge theories faces the major challenge of maintaining gauge invariance, as various errors in the simulation push the state of the system out of the physical subspace of the system's exponentially larger Hilbert space. This paper outlines a method, based off of previous work, that uses gauge transformations in two ways. Firstly, the method exploits the Zeno effect by conducting frequent projections to suppress gauge drift. These projections utilize local gauge transformations to destructively interfere unphysical amplitudes via coupling to an ancillary qubit while the physical amplitudes are left untouched, up to a less than unity normalization factor. Secondly, gauge transformations are conducted throughout the time evolution of the system to hamper the speed of gauge drift. This paper demonstrates this method on a pure 1D SU$(2)$ toy model.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 二状態ベクトル形式論における物語

Stories in the two-state vector formalism ( http://arxiv.org/abs/2409.04396v1 )

ライセンス: Link先を確認
Patryk Michalski, Andrzej Dragan, (参考訳) 量子力学の2状態ベクトル形式は、標準量子論の時相化されたアプローチである。 本研究は, このフォーマリズムにおける今後の研究のための厳格な基盤を確立することを目的としている。 本稿では,2状態ベクトルと理想的な測定値を組み合わせた,ストーリーの概念を紹介する。 この概念を用いて、すべての二状態ベクトルからなる空間の構造について検討する。 いくつかの2状態ベクトルまたはそれらの統計的混合は物理的に区別できないと結論付けている。 特に、すべての非分離二状態ベクトルが、分離二状態ベクトルの統計的混合と区別可能であるわけではないことを実証する。 これにより、厳密な非分離な二状態ベクトルの定義を、過去と未来の間の絡み合いの真の表象として定式化する。

The two-state vector formalism of quantum mechanics is a time-symmetrized approach to standard quantum theory. In our work, we aim to establish rigorous foundations for the future investigation within this formalism. We introduce the concept of a story - a compatible pair consisting of a two-state vector and an ideal measurement. Using this concept, we examine the structure of the space comprising all two-state vectors. We conclude that some pairs of two-state vectors or their statistical mixtures cannot be physically distinguished. In particular, we demonstrate that not every non-separable two-state vector is distinguishable from a statistical mixture of separable two-state vectors. This leads us to formulate the definition of a strictly non-separable two-state vector as a genuine manifestation of entanglement between the past and the future.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# HiSC4D:ウェアラブルIMUとLiDARを用いた大規模空間における人間中心インタラクションと4次元シーンキャプチャ

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR ( http://arxiv.org/abs/2409.04398v1 )

ライセンス: Link先を確認
Yudi Dai, Zhiyong Wang, Xiping Lin, Chenglu Wen, Lan Xu, Siqi Shen, Yuexin Ma, Cheng Wang, (参考訳) 室内外の大規模シーン、多様な人間の動き、豊かな人間と人間の相互作用、人間と環境の相互作用を含む動的デジタル世界を正確かつ効率的に作成することを目的とした、新しいヒューマン中心のインタラクションと4Dシーンキャプチャー手法であるHiSC4Dを紹介した。 ボディマウントのIMUとヘッドマウントのLiDARを利用することで、HiSC4Dは外部デバイスやマップを必要とせずに、非拘束空間における自我中心の人間の動きを捉えることができる。 これにより、人間中心のインタラクションや、さまざまな環境での4Dシーンキャプチャの柔軟性とアクセシビリティが向上する。 IMUが人間の空間的制約のないポーズをキャプチャできるが、長期間の使用は困難であり、LiDARはグローバルなローカライゼーションには適しているが、局所的な位置と向きは粗いが、HiSC4Dは、全てのセンサを調和させ、環境の手がかりを活用する共同最適化手法を採用し、大きなシーンで長期のキャプチャーに有望な結果をもたらす。 4つの大きなシーン(200〜5000$m^2$)に8つのシーケンスを含むデータセットを組み,SMPLアノテーションとダイナミックなシーンによる正確な4次元動作の36kフレーム,収穫された人点雲31kフレーム,環境のメッシュを提供する。 バスケットボールジムや商業通りなどの様々なシナリオは、毎日の挨拶や1対1のバスケットボールの試合、ツアーガイドといった挑戦的な人間の動きとともに、HiSC4Dの有効性と一般化能力を示している。 データセットとコードはwww.lidar Humanmotion.net/hisc4dで公開されている。

We introduce HiSC4D, a novel Human-centered interaction and 4D Scene Capture method, aimed at accurately and efficiently creating a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, rich human-human interactions, and human-environment interactions. By utilizing body-mounted IMUs and a head-mounted LiDAR, HiSC4D can capture egocentric human motions in unconstrained space without the need for external devices and pre-built maps. This affords great flexibility and accessibility for human-centered interaction and 4D scene capturing in various environments. Taking into account that IMUs can capture human spatially unrestricted poses but are prone to drifting for long-period using, and while LiDAR is stable for global localization but rough for local positions and orientations, HiSC4D employs a joint optimization method, harmonizing all sensors and utilizing environment cues, yielding promising results for long-term capture in large scenes. To promote research of egocentric human interaction in large scenes and facilitate downstream tasks, we also present a dataset, containing 8 sequences in 4 large scenes (200 to 5,000 $m^2$), providing 36k frames of accurate 4D human motions with SMPL annotations and dynamic scenes, 31k frames of cropped human point clouds, and scene mesh of the environment. A variety of scenarios, such as the basketball gym and commercial street, alongside challenging human motions, such as daily greeting, one-on-one basketball playing, and tour guiding, demonstrate the effectiveness and the generalization ability of HiSC4D. The dataset and code will be publicated on www.lidarhumanmotion.net/hisc4d available for research purposes.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 古典的に加速された量子エラー緩和のための光錐シェーディング

Lightcone shading for classically accelerated quantum error mitigation ( http://arxiv.org/abs/2409.04401v1 )

ライセンス: Link先を確認
Andrew Eddins, Minh C. Tran, Patrick Rall, (参考訳) QEM(Quantum error mitigation)は、ノイズの多い量子コンピュータからの正確な期待値を、平均値がより正確だが収束するのに時間がかかるような分散のバイアスをトレーディングすることで、回復することができる。 確率的誤差キャンセリング(PEC)はQEM法の中でも特に頑健でバイアスを抑える手段として際立っている。 しかしながら、PECは他の方法よりもはるかに大きなばらつきを示し、与えられた誤差率に対する大きな問題への適用を阻害する。 近年の研究では、所望の観測装置の因果光円錐外にある誤差を緩和することなく、PSCのばらつきを低減できることが示されている。 ここでは、回路内の各エラーチャネルが最終結果にどの程度偏りがあるか、より厳密な境界を古典的に計算することで、光錐アプローチを改善する。 シェードライトコーン(shaded lightcone)と呼ばれるこの境界は、より標的となるPECの適用を可能にし、バイアスと分散のトレードオフを改善しながら、回路の構造がエラー緩和計算の難しさをいかに決定するかを照らし出す。 タイトな色合いの光錐は指数関数的に計算が難しいが,本論文では,状態や可観測性の代わりにエラーを進化させることの容易さを利用して,質素な古典的資源であっても,いくつかの問題に対して実用的な利点を提供するアルゴリズムを提案する。 このアルゴリズムは、PECを目標精度に適用するために必要なランタイムを、標準の光錐PECに比べて約2桁の規模で削減し、ノイズの多いハードウェアにPECを直接適用することで計算できる問題の領域を広げる。

Quantum error mitigation (QEM) can recover accurate expectation values from a noisy quantum computer by trading off bias for variance, such that an averaged result is more accurate but takes longer to converge. Probabilistic error cancellation (PEC) stands out among QEM methods as an especially robust means of controllably eliminating bias. However, PEC often exhibits a much larger variance than other methods, inhibiting application to large problems for a given error rate. Recent analyses have shown that the variance of PEC can be reduced by not mitigating errors lying outside the causal lightcone of the desired observable. Here, we improve the lightcone approach by classically computing tighter bounds on how much each error channel in the circuit can bias the final result. This set of bounds, which we refer to as a "shaded lightcone," enables a more targeted application of PEC, improving the tradespace of bias and variance, while illuminating how the structure of a circuit determines the difficulty of error-mitigated computation. Although a tight shaded lightcone is exponentially hard to compute, we present an algorithm providing a practical benefit for some problems even with modest classical resources, leveraging the ease of evolving an error instead of the state or the observable. The algorithm reduces the runtime that would be needed to apply PEC for a target accuracy in an example 127-qubit Trotter circuit by approximately two orders of magnitude compared to standard lightcone-PEC, expanding the domain of problems that can be computed via direct application of PEC on noisy hardware.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# 精査下の量子カーネル法:ベンチマークによる検討

Quantum Kernel Methods under Scrutiny: A Benchmarking Study ( http://arxiv.org/abs/2409.04406v1 )

ライセンス: Link先を確認
Jan Schnabel, Marco Roth, (参考訳) 量子機械学習の分野におけるカーネル理論の登場以来、量子カーネル法(QKM)は有望な応用の探索と興味深い研究結果の提供の両方に注目が集まっている。 基礎となるGram行列の計算には、FQK(fidelity quantum kernel)とPQK(Projected quantum kernel)の2つの一般的なアプローチが出現している。 これらの手法のベンチマークは、堅牢な洞察を得、それらの実用性を理解するために不可欠である。 そこで本研究では,FQKとPQKに基づく設計選択の多様体におけるQKMを総合的に検討する。 本研究は、FQKとPQKの量子サポートベクトルマシンとカーネルリッジレグレッションを体系的に比較し、5つのデータセットファミリーと64のデータセットの分類および回帰タスクを包含する。 その結果、2万以上のモデルがトレーニングされ、最先端のハイパーパラメータサーチを使用して最適化され、堅牢で包括的な洞察が確保された。 我々は,モデル性能スコアにおけるハイパーパラメータの重要性を掘り下げ,厳密な相関分析を通じて結果を支援する。 本稿では,2つのデータ符号化戦略についても精査する。 さらに、PQKの設計自由に対処する詳細な分析を行い、学習に責任を負う基本原則について検討する。 我々のゴールは、特定のタスクの最高のパフォーマンスモデルを特定することではなく、効果的なQKMを導き、普遍的なパターンを明らかにするメカニズムを明らかにすることである。

Since the entry of kernel theory in the field of quantum machine learning, quantum kernel methods (QKMs) have gained increasing attention with regard to both probing promising applications and delivering intriguing research insights. Two common approaches for computing the underlying Gram matrix have emerged: fidelity quantum kernels (FQKs) and projected quantum kernels (PQKs). Benchmarking these methods is crucial to gain robust insights and to understand their practical utility. In this work, we present a comprehensive large-scale study examining QKMs based on FQKs and PQKs across a manifold of design choices. Our investigation encompasses both classification and regression tasks for five dataset families and 64 datasets, systematically comparing the use of FQKs and PQKs quantum support vector machines and kernel ridge regression. This resulted in over 20,000 models that were trained and optimized using a state-of-the-art hyperparameter search to ensure robust and comprehensive insights. We delve into the importance of hyperparameters on model performance scores and support our findings through rigorous correlation analyses. In this, we also closely inspect two data encoding strategies. Moreover, we provide an in-depth analysis addressing the design freedom of PQKs and explore the underlying principles responsible for learning. Our goal is not to identify the best-performing model for a specific task but to uncover the mechanisms that lead to effective QKMs and reveal universal patterns.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# データギャップの爆発:非無視の欠如を利用したモデル学習の操作

Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning ( http://arxiv.org/abs/2409.04407v1 )

ライセンス: Link先を確認
Deniz Koyuncu, Alex Gittens, Bülent Yener, Moti Yung, (参考訳) 欠失データは実際には一般的に遭遇し、欠失が無視できない場合、効果的な修復は欠失メカニズムの知識に依存する。 データから根底にある欠陥メカニズムを学習することは、一般的に不可能なので、敵は悪意のない欠陥メカニズムを悪用することで、この事実を悪用することができる。 このような敵対的ミススティングネス(AM)攻撃は、最近になってモチベーションを得て導入され、因果構造学習アルゴリズムをミスリードして特定の因果関係を隠蔽することに成功している。 しかし、既存の AM 攻撃では、モデラー (victim) は、欠落したデータを扱うために、完全な情報最大可能性法を使用し、モデラーが異なる修復戦略を使用する場合、適用範囲が限られていると仮定する。 本研究は,AM攻撃の文脈における連帯学習に焦点を当てる。 考える (i)完全な事例分析 (二)抑止の意、及び 三 モデリング者が使用する代替戦略としての回帰に基づく計算 欠落したエントリを組み合わせて検索する代わりに、欠落したエントリを扱うために使用されるこれらのメソッドの漸近形式を導出することにより、新しい確率近似を提案する。 次に、二段階最適化問題として、対向的欠落メカニズムの学習を定式化する。 一般化された線形モデルの実験により、AM攻撃は、カリフォルニア住宅データセットのような実際のデータセットにおいて、特徴のp-値が重要なものから重要でないものへと変化し、比較的穏やかな量の欠落(20%)を使用することができることが示された。 さらに、データ評価に基づいて、防衛戦略に対する攻撃の堅牢性を評価する。

Missing data is commonly encountered in practice, and when the missingness is non-ignorable, effective remediation depends on knowledge of the missingness mechanism. Learning the underlying missingness mechanism from the data is not possible in general, so adversaries can exploit this fact by maliciously engineering non-ignorable missingness mechanisms. Such Adversarial Missingness (AM) attacks have only recently been motivated and introduced, and then successfully tailored to mislead causal structure learning algorithms into hiding specific cause-and-effect relationships. However, existing AM attacks assume the modeler (victim) uses full-information maximum likelihood methods to handle the missing data, and are of limited applicability when the modeler uses different remediation strategies. In this work we focus on associational learning in the context of AM attacks. We consider (i) complete case analysis, (ii) mean imputation, and (iii) regression-based imputation as alternative strategies used by the modeler. Instead of combinatorially searching for missing entries, we propose a novel probabilistic approximation by deriving the asymptotic forms of these methods used for handling the missing entries. We then formulate the learning of the adversarial missingness mechanism as a bi-level optimization problem. Experiments on generalized linear models show that AM attacks can be used to change the p-values of features from significant to insignificant in real datasets, such as the California-housing dataset, while using relatively moderate amounts of missingness (<20%). Additionally, we assess the robustness of our attacks against defense strategies based on data valuation.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# Train Till You Drop: 安定的でロバストなソース不要な非教師なし3Dドメイン適応を目指して

Train Till You Drop: Towards Stable and Robust Source-free Unsupervised 3D Domain Adaptation ( http://arxiv.org/abs/2409.04409v1 )

ライセンス: Link先を確認
Björn Michele, Alexandre Boulch, Tuan-Hung Vu, Gilles Puy, Renaud Marlet, Nicolas Courty, (参考訳) 本研究では,3次元セマンティックセグメンテーションのための非教師なし領域適応(SFUDA)の課題に対処する。 それは、ソースデータにアクセスすることなく、ラベルのないターゲットドメインでドメイン適応を実行することであり、利用可能な情報は、ソースドメインで優れたパフォーマンスを達成するために訓練されたモデルである。 既存のSFUDAアプローチの一般的な問題は、トレーニング時間後にパフォーマンスが低下することです。 この問題を軽減するための2つの戦略について議論する。 まず,学習問題を正規化するための合理的な方法を提案する。 第二に、参照モデルとの一致に基づく新しい基準を導入する。 1)適切なタイミングでトレーニングを中止し、(2)ターゲットドメインに関する知識を必要とせずにハイパーパラメータを選択するバリデータとして使用する。 私たちのコントリビューションは実装が容易で、すべてのSFUDAメソッドに容易に対応でき、すべてのベースラインに対して安定した改善が保証されます。 本研究は, 各種3次元ライダー設定による評価を行い, 最先端性能を実現した。 プロジェクトリポジトリ(コード付き)は、github.com/valeoai/TTYDである。

We tackle the challenging problem of source-free unsupervised domain adaptation (SFUDA) for 3D semantic segmentation. It amounts to performing domain adaptation on an unlabeled target domain without any access to source data; the available information is a model trained to achieve good performance on the source domain. A common issue with existing SFUDA approaches is that performance degrades after some training time, which is a by product of an under-constrained and ill-posed problem. We discuss two strategies to alleviate this issue. First, we propose a sensible way to regularize the learning problem. Second, we introduce a novel criterion based on agreement with a reference model. It is used (1) to stop the training when appropriate and (2) as validator to select hyperparameters without any knowledge on the target domain. Our contributions are easy to implement and readily amenable for all SFUDA methods, ensuring stable improvements over all baselines. We validate our findings on various 3D lidar settings, achieving state-of-the-art performance. The project repository (with code) is: github.com/valeoai/TTYD.
翻訳日:2024-09-09 15:14:50 公開日:2024-09-06
# Open-MAGVIT2: 自己回帰型ビジュアルジェネレーションの民主化を目指すオープンソースプロジェクト

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation ( http://arxiv.org/abs/2409.04410v1 )

ライセンス: Link先を確認
Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan, (参考訳) 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。 Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンライザをオープンソースで複製し、超大型のコードブックを持つトークンライザ($2^{18}$コード)を作成し、ImageNet 256 \times 256$で最先端の再構築性能(1.17 rFID)を達成する。 さらに、その応用をプレーンな自動回帰モデルで検討し、スケーラビリティ特性を検証する。 超大語彙で予測する自己回帰モデルを支援するために、非対称なトークン因子化により異なる大きさの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入し、生成品質を向上させるためにサブトークン相互作用を強化する。 自動回帰視覚生成の分野でイノベーションと創造性を育むために、すべてのモデルとコードをリリースします。

We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., $2^{18}$ codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet $256 \times 256$. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 点集合の計量マグニチュードの近似

Approximating Metric Magnitude of Point Sets ( http://arxiv.org/abs/2409.04411v1 )

ライセンス: Link先を確認
Rayna Andreeva, James Ward, Primoz Skraba, Jie Gao, Rik Sarkar, (参考訳) 計量等級は、多くの望ましい幾何学的性質を持つ点雲の「大きさ」の尺度である。 様々な数学的文脈に適応しており、最近の研究は機械学習と最適化アルゴリズムを強化することを示唆している。 しかし、データセットが大きい場合や、繰り返し計算を行わなければならない場合(例えば、モデルトレーニング)には計算コストが制限される。 本稿では, 等級計算問題について検討し, 効率よく近似する方法を示す。 凸最適化問題としてキャストできるが、部分モジュラ最適化としては適用できないことを示す。 本稿では,高速に収束し精度の高い反復近似アルゴリズムと,計算をより高速に行うサブセット選択法という,2つの新しいアルゴリズムについて述べる。 確率勾配降下時に生じるモデル列の規模は一般化ギャップと相関することが従来提案されてきた。 よりスケーラブルなアルゴリズムを用いてこの結果を拡張することで、より長いシーケンスが実際に高い相関関係を持つことが示される。 また、ニューラルネットワークトレーニングの効果的な正規化ツールとして、また、新しいクラスタリング基準として、機械学習における新たなスケールの応用について説明する。

Metric magnitude is a measure of the "size" of point clouds with many desirable geometric properties. It has been adapted to various mathematical contexts and recent work suggests that it can enhance machine learning and optimization algorithms. But its usability is limited due to the computational cost when the dataset is large or when the computation must be carried out repeatedly (e.g. in model training). In this paper, we study the magnitude computation problem, and show efficient ways of approximating it. We show that it can be cast as a convex optimization problem, but not as a submodular optimization. The paper describes two new algorithms - an iterative approximation algorithm that converges fast and is accurate, and a subset selection method that makes the computation even faster. It has been previously proposed that magnitude of model sequences generated during stochastic gradient descent is correlated to generalization gap. Extension of this result using our more scalable algorithms shows that longer sequences in fact bear higher correlations. We also describe new applications of magnitude in machine learning - as an effective regularizer for neural network training, and as a novel clustering criterion.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# Knapsack制約下での非モノトン部分モジュラ最大化のための並列アルゴリズムの改良

Improved Parallel Algorithm for Non-Monotone Submodular Maximization under Knapsack Constraint ( http://arxiv.org/abs/2409.04415v1 )

ライセンス: Link先を確認
Tan D. Tran, Canh V. Pham, Dung T. K. Ha, Phuong N. H. Pham, (参考訳) 本研究は, クナプサック制約問題の下での非単調部分モジュラー最大化に対する効率よい並列アルゴリズムを, サイズ$n$の基底集合上で提案する。 我々のアルゴリズムは,既存の並列処理の最適近似係数を 8+\epsilon$ から 7+\epsilon$ に改善する。 このアプローチの鍵となる考え方は、新しい代替しきい値アルゴリズムフレームワークを作ることです。 この戦略は、連続ラウンドの定数数内で2つの不随伴候補解を交互に構成する。 そして、適応複雑性を犠牲にすることなく、アルゴリズムはソリューションの品質を高める。 収益の最大化、画像要約、最大重み付けという3つの応用に関する大規模な実験研究により、我々のアルゴリズムは解の質を著しく向上するだけでなく、最先端のアルゴリズムに比較適応性を必要とすることが示された。

This work proposes an efficient parallel algorithm for non-monotone submodular maximization under a knapsack constraint problem over the ground set of size $n$. Our algorithm improves the best approximation factor of the existing parallel one from $8+\epsilon$ to $7+\epsilon$ with $O(\log n)$ adaptive complexity. The key idea of our approach is to create a new alternate threshold algorithmic framework. This strategy alternately constructs two disjoint candidate solutions within a constant number of sequence rounds. Then, the algorithm boosts solution quality without sacrificing the adaptive complexity. Extensive experimental studies on three applications, Revenue Maximization, Image Summarization, and Maximum Weighted Cut, show that our algorithm not only significantly increases solution quality but also requires comparative adaptivity to state-of-the-art algorithms.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# RLPF:LLMを用いたユーザ要約のための予測フィードバックからの強化学習

RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs ( http://arxiv.org/abs/2409.04421v1 )

ライセンス: Link先を確認
Jiaxing Wu, Lin Ning, Luyang Liu, Harrison Lee, Neo Wu, Chao Wang, Sushant Prakash, Shawn O'Banion, Bradley Green, Jun Xie, (参考訳) LLMを利用したパーソナライズエージェントシステムは,過去の活動からユーザの行動を予測するために,Large Language Models (LLMs) を使用している。 しかし、その効果はしばしば、そのようなデータ固有のノイズと長さのために、広範で長いユーザー履歴データを効果的に活用する能力に依存している。 既存の事前訓練されたLLMは、簡潔だが下流のタスクに必要なコンテキストを欠いている要約を生成し、パーソナライズシステムにおけるそれらの有用性を妨げている。 これらの課題に対処するために、予測フィードバック(RLPF)からの強化学習を紹介する。 RLPFファインチューンLSMは、ダウンストリームタスクのパフォーマンスに最適化された簡潔で可読なユーザサマリーを生成する。 生成された要約の有用性を最大化することにより、RLPFは下流タスクに不可欠な情報を保持しながら、広範囲なユーザ履歴データを効果的に蒸留する。 実験による評価では,外在的ダウンストリームタスクユーティリティと内在的要約品質が向上し,ダウンストリームタスク性能が最大22%向上し,ファクタリティ,抽象性,可読性が最大84.59%向上した。 RLPFはまた、19の未確認タスクおよび/またはデータセットのうち16のパフォーマンスを改善しながら、コンテキスト長の74%の顕著な削減を実現し、その一般化可能性を示している。 このアプローチは、長めのノイズの多いユーザ履歴を情報的で可読な表現に効果的に変換することで、LCMのパーソナライズを強化するための有望なソリューションを提供する。

LLM-powered personalization agent systems employ Large Language Models (LLMs) to predict users' behavior from their past activities. However, their effectiveness often hinges on the ability to effectively leverage extensive, long user historical data due to its inherent noise and length of such data. Existing pretrained LLMs may generate summaries that are concise but lack the necessary context for downstream tasks, hindering their utility in personalization systems. To address these challenges, we introduce Reinforcement Learning from Prediction Feedback (RLPF). RLPF fine-tunes LLMs to generate concise, human-readable user summaries that are optimized for downstream task performance. By maximizing the usefulness of the generated summaries, RLPF effectively distills extensive user history data while preserving essential information for downstream tasks. Our empirical evaluation demonstrates significant improvements in both extrinsic downstream task utility and intrinsic summary quality, surpassing baseline methods by up to 22% on downstream task performance and achieving an up to 84.59% win rate on Factuality, Abstractiveness, and Readability. RLPF also achieves a remarkable 74% reduction in context length while improving performance on 16 out of 19 unseen tasks and/or datasets, showcasing its generalizability. This approach offers a promising solution for enhancing LLM personalization by effectively transforming long, noisy user histories into informative and human-readable representations.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 合成医用イメージングの基礎モデル探索:胸部X線と微調整技術に関する研究

Exploring Foundation Models for Synthetic Medical Imaging: A Study on Chest X-Rays and Fine-Tuning Techniques ( http://arxiv.org/abs/2409.04424v1 )

ライセンス: Link先を確認
Davide Clode da Silva, Marina Musse Bernardes, Nathalia Giacomini Ceretta, Gabriel Vaz de Souza, Gabriel Fonseca Silva, Rafael Heitor Bordini, Soraia Raupp Musse, (参考訳) 機械学習は、疾患の予防と治療の特定を支援することで、医療を著しく進歩させた。 しかし、プライバシの懸念と厳格な規制のため、患者データへのアクセスは困難である。 合成的で現実的なデータを生成することは、これらの制限を克服するための潜在的な解決策となり、最近の研究では、微調整基盤モデルがそのようなデータを効果的に生成できることが示唆されている。 本研究では,現実的な医用画像,特に胸部X線を生成する基礎モデルの可能性について検討し,微調整による評価を行った。 本稿では,事前学習した基礎モデルから始まり,様々な構成で精錬する潜在拡散モデルを提案する。 さらに,訓練された各モデルが生成した画像のリアリズムを評価するために,医療専門家の入力を用いて実験を行った。

Machine learning has significantly advanced healthcare by aiding in disease prevention and treatment identification. However, accessing patient data can be challenging due to privacy concerns and strict regulations. Generating synthetic, realistic data offers a potential solution for overcoming these limitations, and recent studies suggest that fine-tuning foundation models can produce such data effectively. In this study, we explore the potential of foundation models for generating realistic medical images, particularly chest x-rays, and assess how their performance improves with fine-tuning. We propose using a Latent Diffusion Model, starting with a pre-trained foundation model and refining it through various configurations. Additionally, we performed experiments with input from a medical professional to assess the realism of the images produced by each trained model.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# Qubit (複数形 Qubits)

Qubit magic-breaking channels ( http://arxiv.org/abs/2409.04425v1 )

ライセンス: Link先を確認
Ayan Patra, Rivu Gupta, Alessandro Ferraro, Aditi Sen De, (参考訳) 我々は、量子チャネルの概念を開発し、それらを魔法(非安定化器性)を破壊することで、普遍的な量子計算で状態が役に立たないようにする。 任意の次元でこれらのチャネルの特性を確立する。 我々は、キュービットチャネルが魔法を破るために必要な十分な基準を証明し、それを決定するアルゴリズムを提示する。 さらに,数種類のキュービットチャネルに対して,様々な後処理操作の下でマジックブレーキングを行うためのパラメータに関して,コンパクトな基準を提供する。 さらに,マルチキュービットチャネルのテンソル積が魔法の破れとなる必要十分条件について検討する。 我々は,魔法の保存可能性に関する動的資源理論において,その意味を定めている。

We develop a notion of quantum channels that can make states useless for universal quantum computation by destroying their magic (non-stabilizerness) - we refer to them as magic-breaking channels. We establish the properties of these channels in arbitrary dimensions. We prove the necessary and sufficient criteria for qubit channels to be magic-breaking and present an algorithm for determining the same. Moreover, we provide compact criteria in terms of the parameters for several classes of qubit channels to be magic-breaking under various post-processing operations. Further, we investigate the necessary and sufficient conditions for the tensor product of multiple qubit channels to be magic-breaking. We establish implications of the same for the dynamical resource theory of magic preservability.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 分子内電子核ダイナミクスのアナログ量子シミュレーション

Analog Quantum Simulation of Coupled Electron-Nuclear Dynamics in Molecules ( http://arxiv.org/abs/2409.04427v1 )

ライセンス: Link先を確認
Jong-Kwon Ha, Ryan J. MacDonell, (参考訳) 光-物質相互作用によって誘導される分子の電子核動力学の結合を理解することは光化学プロセスの潜在的な応用には不可欠であるが、正確な量子力学シミュレーションの計算コストが高いため、これは難しい。 量子コンピューティングは、計算装置の量子特性を利用して、正確な量子力学シミュレーションに必要な計算コストを削減する可能性がある。 しかし、結合電子核力学シミュレーションのための既存の量子アルゴリズムは、フォールトトレラントデバイスを必要とするか、ボルン・オッペンハイマー近似と電子基底の切り離しを用いる。 本研究では、分子ハミルトニアンを量子ビットとボソニックモードを結合したデバイスにマッピングすることで、電子と核の分離なしに、プレBOフレームワークにおける分子ビブロニックダイナミクスに対する最初のアナログ量子シミュレーション手法を提案する。 提案手法は,等価な古典的アルゴリズムと比較して資源と計算コストが指数関数的に削減されていることを示す。 提案手法の計算コストは既存のBOベースの量子アルゴリズムよりも指数関数的に低い。 さらに,本手法は,既存のケミカルダイナミクスのためのプリBO量子アルゴリズムよりもはるかに小さなリソーススケーリングを持つ。 このアプローチの低コストにより、短期量子デバイス上での電子核力学の正確な処理が可能となる。

Understanding the coupled electron-nuclear dynamics in molecules induced by light-matter interactions is crucial for potential applications of photochemical processes, but it is challenging due to the high computational costs of exact quantum dynamics simulations. Quantum computing has the potential to reduce the computational cost required for exact quantum dynamics simulations by exploiting the quantum nature of the computational device. However, existing quantum algorithms for coupled electron-nuclear dynamics simulation either require fault-tolerant devices, or use the Born-Oppenheimer (BO) approximation and a truncation of the electronic basis. In this work, we present the first analog quantum simulation approach for molecular vibronic dynamics in a pre-BO framework, i.e. without the separation of electrons and nuclei, by mapping the molecular Hamiltonian to a device with coupled qubits and bosonic modes. We show that our approach has exponential savings in resource and computational costs compared to the equivalent classical algorithms. The computational cost of our approach is also exponentially lower than existing BO-based quantum algorithms. Furthermore, our approach has a much smaller resource scaling than the existing pre-BO quantum algorithms for chemical dynamics. The low cost of our approach will enable an exact treatment of electron-nuclear dynamics on near-term quantum devices.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 低出力皮質内脳マシンインタフェースのためのハイブリッドスパイクニューラルネットワーク

Hybrid Spiking Neural Networks for Low-Power Intra-Cortical Brain-Machine Interfaces ( http://arxiv.org/abs/2409.04428v1 )

ライセンス: Link先を確認
Alexandru Vasilache, Jann Krausse, Klaus Knobloch, Juergen Becker, (参考訳) 皮質内脳-機械インタフェース(iBMI)は、日常活動を行う能力を回復させることで、麻痺患者の生活を劇的に改善する可能性がある。 しかし、現在のiBMIは、ハードウェアと配線が大きすぎるため、スケーラビリティとモビリティの制限に悩まされている。 ワイヤレスiBMIはソリューションを提供するが、限られたデータレートで制限される。 この課題を克服するために、ワイヤレスiBMIにおける組み込みニューラルネットワークのためのハイブリッドスパイキングニューラルネットワークについて検討している。 ネットワークは、時間的畳み込みに基づく圧縮と、繰り返し処理と、元のシーケンス長への最後の補間からなる。 リカレントユニットとして、ゲートリカレントユニット(GRU)、リークインテグレート・アンド・ファイア(LIF)ニューロン、および両方を組み合わせて、GRU(sGRU)をスパイクし、精度、フットプリント、アクティベーション空間の差異を分析する。 そこで我々は,"Non Human Primate Reaching with Multi Channel Sensorimotor Cortex Electrophysiology"データセットでデコーダをトレーニングし,NeuroBenchフレームワークを用いて評価し,IEEE BioCAS Grand Challenge on Neural Decodingの両トラックを対象としている。 提案手法は,NuroBenchフレームワークの現在のベースラインモデルを超えつつ,低シナプス動作を維持しつつ,多チャンネル一次運動野記録から霊長類の到達速度を推定する上で高い精度を実現する。 この研究は、高い復号精度で無線iBMIを促進するためのハイブリッドニューラルネットワークの可能性を強調し、監視されたニューロンの数を大幅に増加させ、より高度な神経補綴技術への道を開いた。

Intra-cortical brain-machine interfaces (iBMIs) have the potential to dramatically improve the lives of people with paraplegia by restoring their ability to perform daily activities. However, current iBMIs suffer from scalability and mobility limitations due to bulky hardware and wiring. Wireless iBMIs offer a solution but are constrained by a limited data rate. To overcome this challenge, we are investigating hybrid spiking neural networks for embedded neural decoding in wireless iBMIs. The networks consist of a temporal convolution-based compression followed by recurrent processing and a final interpolation back to the original sequence length. As recurrent units, we explore gated recurrent units (GRUs), leaky integrate-and-fire (LIF) neurons, and a combination of both - spiking GRUs (sGRUs) and analyze their differences in terms of accuracy, footprint, and activation sparsity. To that end, we train decoders on the "Nonhuman Primate Reaching with Multichannel Sensorimotor Cortex Electrophysiology" dataset and evaluate it using the NeuroBench framework, targeting both tracks of the IEEE BioCAS Grand Challenge on Neural Decoding. Our approach achieves high accuracy in predicting velocities of primate reaching movements from multichannel primary motor cortex recordings while maintaining a low number of synaptic operations, surpassing the current baseline models in the NeuroBench framework. This work highlights the potential of hybrid neural networks to facilitate wireless iBMIs with high decoding precision and a substantial increase in the number of monitored neurons, paving the way toward more advanced neuroprosthetic technologies.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# VILA-U:ビジュアル理解と生成を統合した統一ファンデーションモデル

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation ( http://arxiv.org/abs/2409.04429v1 )

ライセンス: Link先を確認
Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, Song Han, Yao Lu, (参考訳) VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。 従来の視覚言語モデル(VLM)は、視覚コンテンツを理解し、生成するために別々のモジュールを使用する。 対照的に、VILA-Uは両方のタスクに単一の自己回帰的次トーケン予測フレームワークを採用しており、拡散モデルのような追加のコンポーネントは不要である。 このアプローチは、モデルを簡単にするだけでなく、ビジュアル言語理解と生成における最先端のパフォーマンスも達成する。 VILA-Uの成功は2つの主な要因に起因している: 個別の視覚トークンを事前学習中にテキスト入力と整列する統合視覚タワー。 これによってVILA-Uは、完全なトークンベースの自動回帰フレームワークを使用して、より複雑なモデルに互換性を持って実行することができる。

VILA-U is a Unified foundation model that integrates Video, Image, Language understanding and generation. Traditional visual language models (VLMs) use separate modules for understanding and generating visual content, which can lead to misalignment and increased complexity. In contrast, VILA-U employs a single autoregressive next-token prediction framework for both tasks, eliminating the need for additional components like diffusion models. This approach not only simplifies the model but also achieves near state-of-the-art performance in visual language understanding and generation. The success of VILA-U is attributed to two main factors: the unified vision tower that aligns discrete visual tokens with textual inputs during pretraining, which enhances visual perception, and autoregressive image generation can achieve similar quality as diffusion models with high-quality dataset. This allows VILA-U to perform comparably to more complex models using a fully token-based autoregressive framework.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# シグモイド・セルフ・アテンションの理論, 分析, ベストプラクティス

Theory, Analysis, and Best Practices for Sigmoid Self-Attention ( http://arxiv.org/abs/2409.04431v1 )

ライセンス: Link先を確認
Jason Ramapuram, Federico Danieli, Eeshan Dhekane, Floris Weers, Dan Busbridge, Pierre Ablin, Tatiana Likhomanenko, Jagrit Digani, Zijin Gu, Amitis Shidani, Russ Webb, (参考訳) 注意はトランスフォーマーアーキテクチャの重要な部分です。 これはシーケンスからシーケンスへのマッピングであり、各シーケンス要素を重み付けされた値の和に変換する。 重みは通常、キーとクエリ間のドット生成物のソフトマックスとして得られる。 近年の研究では、ReLUやシグモイドアクティベーションなどのトランスフォーマーにおけるソフトマックスアテンションに代わる方法が検討されている。 本研究では,シグモイドの注意を再考し,より深い理論的,実証的な分析を行う。 理論的には、シグミドアテンションを持つ変圧器は普遍関数近似器であり、ソフトマックスアテンションに比べて正則性の向上の恩恵を受ける。 より詳細な経験的分析により、訓練の初期段階における大きな初期注意規範の安定化は、シグモイド・アテンションを持つモデルのトレーニングを成功させる上で重要な要素であり、事前の試みよりも優れていた。 H100 GPU上でのFLASHATTENTION2よりも17%のカーネル高速化を実現するハードウェア・アウェアでメモリ効率のよいSigmoid attentionの実装であるFLASHSIGMOIDも導入した。 言語, 視覚, 音声による実験から, 適切に正規化されたシグモイドの注意は, それまでのシグモイドの注意が完全に達成できなかった幅広い領域や尺度において, ソフトマックスの注意の強いパフォーマンスと一致することが示された。 我々の研究は先行技術を統合し、変圧器におけるソフトマックスの置き換えとしてシグミド注意のベストプラクティスを確立する。

Attention is a key part of the transformer architecture. It is a sequence-to-sequence mapping that transforms each sequence element into a weighted sum of values. The weights are typically obtained as the softmax of dot products between keys and queries. Recent work has explored alternatives to softmax attention in transformers, such as ReLU and sigmoid activations. In this work, we revisit sigmoid attention and conduct an in-depth theoretical and empirical analysis. Theoretically, we prove that transformers with sigmoid attention are universal function approximators and benefit from improved regularity compared to softmax attention. Through detailed empirical analysis, we identify stabilization of large initial attention norms during the early stages of training as a crucial factor for the successful training of models with sigmoid attention, outperforming prior attempts. We also introduce FLASHSIGMOID, a hardware-aware and memory-efficient implementation of sigmoid attention yielding a 17% inference kernel speed-up over FLASHATTENTION2 on H100 GPUs. Experiments across language, vision, and speech show that properly normalized sigmoid attention matches the strong performance of softmax attention on a wide range of domains and scales, which previous attempts at sigmoid attention were unable to fully achieve. Our work unifies prior art and establishes best practices for sigmoid attention as a drop-in softmax replacement in transformers.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 研究分野の知識組織システムに関する調査:資源と課題

A Survey on Knowledge Organization Systems of Research Fields: Resources and Challenges ( http://arxiv.org/abs/2409.04432v1 )

ライセンス: Link先を確認
Angelo Salatino, Tanay Aggarwal, Andrea Mannocci, Francesco Osborne, Enrico Motta, (参考訳) 用語リスト、テザウリ、分類学、オントロジーなどの知識組織システム(KOS)は、情報の分類、管理、検索において基本的な役割を果たす。 学術領域では、KOSは研究論文、学術コース、特許、書籍、科学会場、ドメインエキスパート、助成金、ソフトウェア、実験材料、その他いくつかの関連製品やエージェントを分類することを目的として、研究領域とその関係を表すためにしばしば採用されている。 これらの研究領域の構造的表現は、多くの学術分野に広く受け入れられており、AIベースのシステムを強化するのに有効であることが証明されている。 一 関係書類の検索可能性を高めること。 二 高度な分析ソリューションにより学術研究の影響を定量化し得ること。 三 研究力学の分析及び予測 本稿は、現在のKOSに関する総合的な研究成果を学術分野に提示することを目的としている。 我々は、スコープ、構造、キュレーション、使用法、他のKOSへのリンクの5つの主次元に基づいて45のKOSを分析し比較した。 本研究は,学術分野にまたがる研究知識を表現するための,より統合されたソリューションの必要性を浮き彫りにした,スコープ,スケール,品質,利用の面での極めて異種なシナリオを明らかにする。 主な課題と、最も有望な今後の方向性について議論することで、締めくくります。

Knowledge Organization Systems (KOSs), such as term lists, thesauri, taxonomies, and ontologies, play a fundamental role in categorising, managing, and retrieving information. In the academic domain, KOSs are often adopted for representing research areas and their relationships, primarily aiming to classify research articles, academic courses, patents, books, scientific venues, domain experts, grants, software, experiment materials, and several other relevant products and agents. These structured representations of research areas, widely embraced by many academic fields, have proven effective in empowering AI-based systems to i) enhance retrievability of relevant documents, ii) enable advanced analytic solutions to quantify the impact of academic research, and iii) analyse and forecast research dynamics. This paper aims to present a comprehensive survey of the current KOS for academic disciplines. We analysed and compared 45 KOSs according to five main dimensions: scope, structure, curation, usage, and links to other KOSs. Our results reveal a very heterogeneous scenario in terms of scope, scale, quality, and usage, highlighting the need for more integrated solutions for representing research knowledge across academic fields. We conclude by discussing the main challenges and the most promising future directions.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 制限された局所ハミルトニアン:頂点被覆の量子一般化

Constrained local Hamiltonians: quantum generalizations of Vertex Cover ( http://arxiv.org/abs/2409.04433v1 )

ライセンス: Link先を確認
Ojas Parekh, Chaithanya Rayudu, Kevin Thompson, (参考訳) 量子マックスカットのような局所ハミルトン問題に対する厳密な近似アルゴリズムの生成は、制約のない古典的な離散最適化問題との接続を利用している。 我々は、よく研究された古典的頂点被覆問題をインスピレーションとして、制限された局所ハミルトン問題に対する近似アルゴリズムの研究を開始する。 We consider natural quantum generalizations of Vertex Cover, and one of them called Transverse Vertex Cover (TVC) is equivalent to the PXP model with additional 1-local Pauli-Z terms。 我々は,TVCがStoqMAハードであることを示し,古典的局所比法を量子一般化した近似アルゴリズムを開発した。 これにより、凸緩和の解法に依存しない単純な線形時間古典近似アルゴリズムが得られる。 また、反強磁性逆場イジングモデルと等価であるVertex Coverの非拘束量子局所ハミルトンバージョン上で、我々の量子局所比法を実証する。

Recent successes in producing rigorous approximation algorithms for local Hamiltonian problems such as Quantum Max Cut have exploited connections to unconstrained classical discrete optimization problems. We initiate the study of approximation algorithms for constrained local Hamiltonian problems, using the well-studied classical Vertex Cover problem as inspiration. We consider natural quantum generalizations of Vertex Cover, and one of them, called Transverse Vertex Cover (TVC), is equivalent to the PXP model with additional 1-local Pauli-Z terms. We show TVC is StoqMA-hard and develop an approximation algorithm for it based on a quantum generalization of the classical local ratio method. This results in a simple linear-time classical approximation algorithm that does not depend on solving a convex relaxation. We also demonstrate our quantum local ratio method on a traditional unconstrained quantum local Hamiltonian version of Vertex Cover which is equivalent to the anti-ferromagnetic transverse field Ising model.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# ニューロン相互作用とニューキャスティングネットワークによるトレーニングの高速化

Accelerating Training with Neuron Interaction and Nowcasting Networks ( http://arxiv.org/abs/2409.04434v1 )

ライセンス: Link先を確認
Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie, Eugene Belilovsky, Simon Lacoste-Julien, (参考訳) 古典的な適応オプティマイザ(例えばAdam)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークのトレーニングが加速される。 しかし、学習可能な更新ルールは、トレーニングや使用に費用がかかり不安定になる可能性がある。 トレーニングを加速するための、最近提案されたよりシンプルなアプローチは、最適化ステップの大部分にAdamを使用することであり、定期的に、いくつかのステップ、すなわち Nowcast(予測未来)パラメータのみを使用する。 我々は、ニューロロン相互作用とニューノキャスティング(NiNo)ネットワークによるこのアプローチを改善した。 NiNoはニューロン接続とグラフニューラルネットワークを活用して、複数のタスク上の一連のトレーニング軌跡から教師付き方法で学習することで、パラメータをより正確に検索する。 トランスフォーマーのような一部のネットワークでは、ニューロンの接続性は非自明である。 ニューロン接続を正確にモデル化することにより、NiNoは視力と言語タスクの最大50%のAdamトレーニングを加速できる。

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. A simpler recently proposed approach to accelerate training is to use Adam for most of the optimization steps and periodically, only every few steps, nowcast (predict future) parameters. We improve this approach by Neuron interaction and Nowcasting (NiNo) networks. NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters by learning in a supervised way from a set of training trajectories over multiple tasks. We show that in some networks, such as Transformers, neuron connectivity is non-trivial. By accurately modeling neuron connectivity, we allow NiNo to accelerate Adam training by up to 50\% in vision and language tasks.
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# カップルダンスにおけるシナジーとシンフォニー

Synergy and Synchrony in Couple Dances ( http://arxiv.org/abs/2409.04440v1 )

ライセンス: Link先を確認
Vongani Maluleke, Lea Müller, Jathushan Rajasegaran, Georgios Pavlakos, Shiry Ginosar, Angjoo Kanazawa, Jitendra Malik, (参考訳) 本稿では,社会的相互作用が行動にどの程度影響するかを問う。 私たちは、カップルとして踊る2人のダンサーの設定でこれを研究します。 まず,ダンサーの過去の動きのみをパートナーに関係なく予測するベースラインを考える。 次に,ダンスパートナーの動きも考慮し,社会的情報を考慮に入れるという利点を考察する。 スウィング(Swing)は、強く物理的に結合したダンスのジャンルであり、私たちはそのジャンルの動画データセットを提示する。 この文脈における一人ひとりの将来の動きの予測は困難であることを示す。 その代わり、相互作用パートナーの振る舞いを考えることで予測が大きな恩恵を受け、驚くほど説得力のあるカップルのダンス合成結果が得られます(ビデオ参照)。 我々のコントリビューションは、社会的に条件付き将来の動き予測の利点の実証と、この方向における将来の研究を可能にするために、現在進行中のカップルダンスビデオデータセットのデモである。 ビデオはプロジェクトのWebサイト(https://von31.github.io/synNsync)で公開されている。

This paper asks to what extent social interaction influences one's behavior. We study this in the setting of two dancers dancing as a couple. We first consider a baseline in which we predict a dancer's future moves conditioned only on their past motion without regard to their partner. We then investigate the advantage of taking social information into account by conditioning also on the motion of their dancing partner. We focus our analysis on Swing, a dance genre with tight physical coupling for which we present an in-the-wild video dataset. We demonstrate that single-person future motion prediction in this context is challenging. Instead, we observe that prediction greatly benefits from considering the interaction partners' behavior, resulting in surprisingly compelling couple dance synthesis results (see supp. video). Our contributions are a demonstration of the advantages of socially conditioned future motion prediction and an in-the-wild, couple dance video dataset to enable future research in this direction. Video results are available on the project website: https://von31.github.io/synNsync
翻訳日:2024-09-09 15:05:01 公開日:2024-09-06
# 1次元を超える非アベリア格子ゲージ理論の効率的な有限リソース定式化

An efficient finite-resource formulation of non-Abelian lattice gauge theories beyond one dimension ( http://arxiv.org/abs/2409.04441v1 )

ライセンス: Link先を確認
Pierpaolo Fontana, Marc Miranda Riaza, Alessio Celi, (参考訳) 非アベリアゲージ理論は、摂動理論と格子ゲージ理論における量子モンテカルロ計算の両方と同様に、基礎的な相互作用の正確な記述を提供する。 これらの計算を補完したり、量子マシン上で量子に着想を得たハミルトン格子計算と組み合わせて、現在の量子資源との連続極限予測を改善することは、非常に大きな課題である。 そこで本研究では,非アベリアゲージ理論におけるカップリングの実行を,空間次元を超えた資源効率で計算する手法を提案する。 まず、周期格子上のハミルトニアンをループ変数と共役ループ電場の観点から表現し、ゲージ非依存の格子を保持するためにガウス法則を利用する。 そして,小さなトーラス上での結合の実行を計算しながら,小ループと大ループの局所基底を変動的に同定し,トラクション誤差を最小限に抑える。 提案手法は,従来の量子コンピュータやシミュレータ,テンソル・ネットワーク計算と競合する素結合や格子の任意の値での計算を可能にする。

Non-Abelian gauge theories provide an accurate description of fundamental interactions, as both perturbation theory and quantum Monte Carlo computations in lattice gauge theory, it when applicable, show remarkable agreement with experimental data from particle colliders and cosmological observations. Complementing these computations, or combining them with quantum-inspired Hamiltonian lattice computations on quantum machines to improve continuum limit predictions with current quantum resources, is a formidable open challenge. Here, we propose a resource-efficient method to compute the running of the coupling in non-Abelian gauge theories beyond one spatial dimension. We first represent the Hamiltonian on periodic lattices in terms of loop variables and conjugate loop electric fields, exploiting the Gauss law to retain the gauge-independent ones. Then, we identify a local basis for small and large loops variationally to minimize the truncation error while computing the running of the coupling on small tori. Our method enables computations at arbitrary values of the bare coupling and lattice spacing with current quantum computers, simulators and tensor-network calculations, in regimes otherwise inaccessible.
翻訳日:2024-09-09 15:05:00 公開日:2024-09-06
# 高時間変動を有する点雲における3次元物体追跡

3D Single-object Tracking in Point Clouds with High Temporal Variation ( http://arxiv.org/abs/2408.02049v3 )

ライセンス: Link先を確認
Qiao Wu, Kun Sun, Pei An, Mathieu Salzmann, Yanning Zhang, Jiaqi Yang, (参考訳) 点雲の高時間変動は、3D単一物体追跡(3D SOT)の鍵となる課題である。 既存のアプローチは、点雲の形状変化と、隣接するフレームを横切る物体の運動が滑らかであり、高時間変動データに対処できないという仮定に依存している。 本稿では,HVTrackと呼ばれる高時間変動の点群における3次元SOTのための新しいフレームワークを提案する。 HVTrackは、高時間変動シナリオにおける課題に取り組むために、3つの新しいコンポーネントを提案する。 1) 時間点雲の形状の変動を処理する相対型対応メモリモジュール。 2) 拡張検索領域における類似の物体の散逸に対処する基地拡張機能横断モジュール 3)重い背景雑音を抑えるためのコンテキストポイントガイド自己注意モジュール。 我々は、KITTIデータセットのサンプリングのために異なるフレーム間隔を設定することで、高時間変動(KITTI-HV)を持つデータセットを構築する。 5フレーム間隔のKITTI-HVでは、私たちのHVTrackは、最先端のトラッカーであるCXTrackerを11.3%/15.7%上回っている。

The high temporal variation of the point clouds is the key challenge of 3D single-object tracking (3D SOT). Existing approaches rely on the assumption that the shape variation of the point clouds and the motion of the objects across neighboring frames are smooth, failing to cope with high temporal variation data. In this paper, we present a novel framework for 3D SOT in point clouds with high temporal variation, called HVTrack. HVTrack proposes three novel components to tackle the challenges in the high temporal variation scenario: 1) A Relative-Pose-Aware Memory module to handle temporal point cloud shape variations; 2) a Base-Expansion Feature Cross-Attention module to deal with similar object distractions in expanded search areas; 3) a Contextual Point Guided Self-Attention module for suppressing heavy background noise. We construct a dataset with high temporal variation (KITTI-HV) by setting different frame intervals for sampling in the KITTI dataset. On the KITTI-HV with 5 frame intervals, our HVTrack surpasses the state-of-the-art tracker CXTracker by 11.3%/15.7% in Success/Precision.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 分子設計の再考:ゴール指向生成のための潜在変数モデルと自己回帰モデルの統合

Rethinking Molecular Design: Integrating Latent Variable and Auto-Regressive Models for Goal Directed Generation ( http://arxiv.org/abs/2409.00046v3 )

ライセンス: Link先を確認
Heath Arthur-Loui, Amina Mollaysa, Michael Krauthammer, (参考訳) デノボ分子の設計は、最先端の生成モデルを用いることで、非常に活発な研究領域となっている。 これらの進歩にもかかわらず、薬物設計の課題に対する答えとして、この分野はより複雑な生成モデルと洗練された分子表現に焦点を当てているため、いくつかの根本的な疑問は未解決のままである。 本稿では、分子の最も単純な表現に戻り、古典的生成アプローチ、特に変分オートエンコーダ(VAE)や自己回帰モデルにおける見過ごされた制限について検討する。 本稿では, 分子配列の妥当性, 条件生成, スタイル伝達を改善するために, 両者の強みを生かした, 新規な正則化器の形でのハイブリッドモデルを提案する。 さらに、これらのモデルの振る舞いの見過ごされた仮定について、深く議論する。

De novo molecule design has become a highly active research area, advanced significantly through the use of state-of-the-art generative models. Despite these advances, several fundamental questions remain unanswered as the field increasingly focuses on more complex generative models and sophisticated molecular representations as an answer to the challenges of drug design. In this paper, we return to the simplest representation of molecules, and investigate overlooked limitations of classical generative approaches, particularly Variational Autoencoders (VAEs) and auto-regressive models. We propose a hybrid model in the form of a novel regularizer that leverages the strengths of both to improve validity, conditional generation, and style transfer of molecular sequences. Additionally, we provide an in depth discussion of overlooked assumptions of these models' behaviour.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 空間補間のためのハイブリッドフレームワーク:データ駆動とドメイン知識の融合

A Hybrid Framework for Spatial Interpolation: Merging Data-driven with Domain Knowledge ( http://arxiv.org/abs/2409.00125v3 )

ライセンス: Link先を確認
Cong Zhang, Shuyi Du, Hongqing Song, Yuhe Wang, (参考訳) 散乱観測データセットの補間による空間分布情報の推定は、空間依存を理解する上でのドメイン知識の重要な役割を見落としていることが多い。 さらに、これらのデータセットの特徴は通常、散乱した観測場所の空間座標に限られる。 本稿では,データ駆動型空間依存機能抽出とルール支援型空間依存関数マッピングを統合したハイブリッドフレームワークを提案する。 2つのアプリケーションシナリオにおいて,本フレームワークの優れた性能を実証し,再構成された分散フィールドにおけるより局所的な空間的特徴を捉える能力を強調した。 さらに、変換されたファジィ規則を適用して非線形推定能力を向上し、観測データセットに関連する不確かさを定量化する可能性を強調した。 本フレームワークでは,観測データとルール支援ドメイン知識を相乗的に組み合わせた空間情報推定手法を提案する。

Estimating spatially distributed information through the interpolation of scattered observation datasets often overlooks the critical role of domain knowledge in understanding spatial dependencies. Additionally, the features of these data sets are typically limited to the spatial coordinates of the scattered observation locations. In this paper, we propose a hybrid framework that integrates data-driven spatial dependency feature extraction with rule-assisted spatial dependency function mapping to augment domain knowledge. We demonstrate the superior performance of our framework in two comparative application scenarios, highlighting its ability to capture more localized spatial features in the reconstructed distribution fields. Furthermore, we underscore its potential to enhance nonlinear estimation capabilities through the application of transformed fuzzy rules and to quantify the inherent uncertainties associated with the observation data sets. Our framework introduces an innovative approach to spatial information estimation by synergistically combining observational data with rule-assisted domain knowledge.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 暗黙の知識による準備から得られる言語モデル

Language Models Benefit from Preparation with Elicited Knowledge ( http://arxiv.org/abs/2409.01345v2 )

ライセンス: Link先を確認
Jiacan Yu, Hannah An, Lenhart K. Schubert, (参考訳) ゼロショット・チェーン・オブ・シンキング (ゼロショット・チェーン・オブ・シンキング、ゼロショット・チェーン・オブ・シンキング、ゼロショット・チェーン・オブ・シンキング、ゼロショット・チェーン・オブ・シンキング、ゼロショット・チェーン・オブ・シンキング、ゼロショット・チェーン・オブ・シンキング) は、複数の推論ステップを必要とするタスクに対して言語モデル (LM) による質問応答 (QA) でしばしば用いられる。 しかしながら、いくつかのQAタスクは、連鎖推論ステップよりも、関連する知識へのアクセスに重点を置いている。 そこで本研究では, LMの2つの事例を用いて, LM1が関連情報を生成し, LM2がこの情報に基づいて疑問に答える, PreP と呼ばれる単純な汎用的プロンプト手法を提案する。 PrePは、ユーザのドメイン知識から独立して設計されており、特別なプロンプトエンジニアリングを必要とせずに、様々なQAタスクに適用できる。 提案手法の有効性を評価するため,人工物部品および材料組成に関する広範囲なスキーマ的データセットから,100のバイナリ選択質問のデータセットを作成する。 これらの質問は、2つのアーティファクトのうちどれが、他のアーティファクトと材料を共有する可能性が低いかを問う。 このような質問は、異なるアーティファクトの部分構造における共有材料に関するLMの知識を調査する。 提案手法は,我々のデータセットと3つの公開コモンセンス推論データセットで検証する。 我々の手法の平均精度は、テストされたすべてのデータセットでテストされた他のすべてのメソッドよりも一貫して高い。

The zero-shot chain of thought (CoT) approach is often used in question answering (QA) by language models (LMs) for tasks that require multiple reasoning steps, typically enhanced by the prompt "Let's think step by step." However, some QA tasks hinge more on accessing relevant knowledge than on chaining reasoning steps. We introduce a simple general prompting technique, called PREP, that involves using two instances of LMs: the first (LM1) generates relevant information, and the second (LM2) answers the question based on this information. PREP is designed to be general and independent of the user's domain knowledge, making it applicable across various QA tasks without the need for specialized prompt engineering. To evaluate the effectiveness of our prompting method, we create a dataset of 100 binary-choice questions, derived from an extensive schematic dataset on artifact parts and material composition. These questions ask which of two artifacts is less likely to share materials with another artifact. Such questions probe the LM's knowledge of shared materials in the part structure of different artifacts. We test our method on our dataset and three published commonsense reasoning datasets. The average accuracy of our method is consistently higher than that of all the other tested methods across all the tested datasets.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 知識インフォームド強化学習による大規模都市施設選定

Large-scale Urban Facility Location Selection with Knowledge-informed Reinforcement Learning ( http://arxiv.org/abs/2409.01588v2 )

ライセンス: Link先を確認
Hongyuan Su, Yu Zheng, Jingtao Ding, Depeng Jin, Yong Li, (参考訳) 施設配置問題 (FLP) は、施設のアクセシビリティを最大化するために戦略的に施設を配置することを目的とした古典的な組合せ最適化の課題である。 本稿では,超高速な推論速度でほぼ最適解を生成できる大規模都市FLPの解法に適した強化学習手法を提案する。 我々は,局所探索から本態的なスワップ操作を蒸留し,知識インフォームドグラフニューラルネットワークによって誘導された都市域のグラフ上のエッジをインテリジェントに選択することにより,局所探索の重い計算の必要性を補足する。 地理的条件の異なる4つのアメリカの都市での大規模な実験により、我々の手法は、アクセシビリティ損失が5倍未満の商用解決器に匹敵する性能を達成できる一方で、最大1000倍の速度で表示できることが示されている。 当社のモデルは、https://huggingface.co/spaces/randommmm/MFLPで、オンライン地理空間アプリケーションとしてデプロイしています。

The facility location problem (FLP) is a classical combinatorial optimization challenge aimed at strategically laying out facilities to maximize their accessibility. In this paper, we propose a reinforcement learning method tailored to solve large-scale urban FLP, capable of producing near-optimal solutions at superfast inference speed. We distill the essential swap operation from local search, and simulate it by intelligently selecting edges on a graph of urban regions, guided by a knowledge-informed graph neural network, thus sidestepping the need for heavy computation of local search. Extensive experiments on four US cities with different geospatial conditions demonstrate that our approach can achieve comparable performance to commercial solvers with less than 5\% accessibility loss, while displaying up to 1000 times speedup. We deploy our model as an online geospatial application at https://huggingface.co/spaces/randommmm/MFLP.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# Pureformer-VC:純変圧器ブロックを用いたノンパラレルワンショット音声変換とトリプルト識別訓練

Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training ( http://arxiv.org/abs/2409.01668v2 )

ライセンス: Link先を確認
Wenhan Yao, Zedong Xing, Xiarun Chen, Jia Liu, Yongqiang He, Weiping Wen, (参考訳) ワンショット音声変換(VC)は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。 既存の移動型VC法は, 音声表現の不整合に頼り, 各音声成分を正確にかつ独立に符号化し, 効率よく変換された音声に再コンパイルする。 そこで本研究では,コンバータブロックを用いてアンタングル化されたエンコーダを構築するPureformer-VCと,スタイル転送デコーダをジェネレータとして構築するZipformerブロックを提案する。 このデコーダでは,有効スタイルフォーマブロックを用いて,発声音声に話者特性を効果的に統合する。 モデルは、生成的VAE損失をコンポーネントの符号化に使用し、教師なしの識別訓練に三重項損失を用いた。 そこで我々はZipformerの共有重み付けにスタイルフォーマ法を適用した。 実験結果から,提案手法は単発音声変換シナリオにおける既存手法と比較して,主観的スコアに匹敵する結果が得られ,客観的指標が向上することが示唆された。

One-shot voice conversion(VC) aims to change the timbre of any source speech to match that of the target speaker with only one speech sample. Existing style transfer-based VC methods relied on speech representation disentanglement and suffered from accurately and independently encoding each speech component and recomposing back to converted speech effectively. To tackle this, we proposed Pureformer-VC, which utilizes Conformer blocks to build a disentangled encoder, and Zipformer blocks to build a style transfer decoder as the generator. In the decoder, we used effective styleformer blocks to integrate speaker characteristics effectively into the generated speech. The models used the generative VAE loss for encoding components and triplet loss for unsupervised discriminative training. We applied the styleformer method to Zipformer's shared weights for style transfer. The experimental results show that the proposed model achieves comparable subjective scores and exhibits improvements in objective metrics compared to existing methods in a one-shot voice conversion scenario.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 制約のない機能を超えて: 一般データ付き浅層ニューラルネットワークのためのニューラルネットワークのニューラルネットワーク崩壊

Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data ( http://arxiv.org/abs/2409.01832v2 )

ライセンス: Link先を確認
Wanli Hong, Shuyang Ling, (参考訳) ニューラル崩壊(Neural collapse, NC)は、ディープニューラルネットワーク(DNN)のトレーニング(TPT)の最終段階に発生する現象である。 また、各サンプル手段に同級データの特徴が崩壊し、サンプル手段は、単純な等角形状のタイトフレーム(ETF)を示す。 過去数年間、NCがなぜ発生し、それが一般化にどのように影響するかを説明することに焦点を当てた研究が急増している。 DNNは分析が難しいことで知られているため、ほとんどの研究は主に制約のない機能モデル(UFM)に焦点を当てている。 UFMはNCをある程度説明しているが、ネットワークアーキテクチャとデータセットがNCにどのように影響するかの完全な図は提供していない。 本研究では、浅いReLUニューラルネットワークに着目し、トレーニングデータセットの幅、深さ、データ次元、統計的性質が神経崩壊に与える影響を理解する。 2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。 2層ReLUニューラルネットワークの場合、正規化された経験的リスク関数のグローバル最小化器がNC構成を示すときの十分条件は、ネットワーク幅ではなく、データ次元、サンプルサイズ、信号対雑音比に依存する。 3層ニューラルネットワークでは,第1層が十分に広い範囲でNCが発生することを示す。 NCと一般化の関係について、一般化はデータのSNR(signal-to-noise ratio)に大きく依存していることを示す。 この結果は, 浅い非線形ネットワーク下でのNCの出現を特徴付けるとともに, データ特性やネットワークアーキテクチャにどのように依存するかを特徴付けることにより, FM下でのNCの最先端理論解析を著しく拡張する。

Neural collapse (NC) is a phenomenon that emerges at the terminal phase of the training (TPT) of deep neural networks (DNNs). The features of the data in the same class collapse to their respective sample means and the sample means exhibit a simplex equiangular tight frame (ETF). In the past few years, there has been a surge of works that focus on explaining why the NC occurs and how it affects generalization. Since the DNNs are notoriously difficult to analyze, most works mainly focus on the unconstrained feature model (UFM). While the UFM explains the NC to some extent, it fails to provide a complete picture of how the network architecture and the dataset affect NC. In this work, we focus on shallow ReLU neural networks and try to understand how the width, depth, data dimension, and statistical property of the training dataset influence the neural collapse. We provide a complete characterization of when the NC occurs for two or three-layer neural networks. For two-layer ReLU neural networks, a sufficient condition on when the global minimizer of the regularized empirical risk function exhibits the NC configuration depends on the data dimension, sample size, and the signal-to-noise ratio in the data instead of the network width. For three-layer neural networks, we show that the NC occurs as long as the first layer is sufficiently wide. Regarding the connection between NC and generalization, we show the generalization heavily depends on the SNR (signal-to-noise ratio) in the data: even if the NC occurs, the generalization can still be bad provided that the SNR in the data is too low. Our results significantly extend the state-of-the-art theoretical analysis of the N C under the UFM by characterizing the emergence of the N C under shallow nonlinear networks and showing how it depends on data properties and network architecture.
翻訳日:2024-09-09 13:11:14 公開日:2024-09-06
# 大規模言語モデルにおける選好学習の統一的視点に向けて:調査

Towards a Unified View of Preference Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2409.02795v2 )

ライセンス: Link先を確認
Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang, (参考訳) 大きな言語モデル(LLM)は、非常に強力な能力を示す。 成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。 このアライメントプロセスは、LLMの性能を効率的に向上するために、少量のデータしか必要としないことが多い。 効果的な分野ではあるが、この分野の研究は複数の領域にまたがっており、関連する手法は比較的複雑である。 異なる方法間の関係は未探索であり、好みのアライメントの発達を制限している。 これを踏まえ、我々は既存の一般的なアライメント戦略を異なるコンポーネントに分割し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それら間の接続を確立する。 本研究では、選好学習におけるすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。 この統合されたビューは、既存のアライメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを相乗化する可能性も開きます。 さらに,本論文では,読者の包括的理解を促進するために,既存アルゴリズムの詳細な実例を示す。 最後に、我々の統一的な視点に基づいて、大きな言語モデルと人間の嗜好を整合させるための課題と今後の研究方向性について検討する。

Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# CMM-Math:大規模マルチモーダルモデルの数学推論の評価と拡張を目的とした中国のマルチモーダル数学データセット

CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models ( http://arxiv.org/abs/2409.02834v2 )

ライセンス: Link先を確認
Wentao Liu, Qianjun Pan, Yi Zhang, Zhuo Liu, Ji Wu, Jie Zhou, Aimin Zhou, Qin Chen, Bo Jiang, Liang He, (参考訳) 大規模言語モデル(LLM)は、人間の知能の基礎となる数学的推論において有望な結果を得た。 従来の研究は、テキスト数学推論データセット(例えば、MATH、GSM8K)に基づくLLMの性能改善と測定に重点を置いていた。 最近、数人の研究者が大規模なマルチモーダルモデル(LMM)の有効性を評価するために、英語のマルチモーダル数学データセット(例えば、MATHVISTA、MATH-V)をリリースした。 本稿では,LMMの数学的推論を評価するために,ベンチマークやトレーニング部品を含む中国のマルチモーダル数学(CMM-Math)データセットをリリースする。 CMM-Mathには28,000以上の高品質なサンプルが含まれており、中国の小学校から高校まで、12段階の詳細なソリューションを備えた様々な問題タイプ(例えば、多重選択、ブランクの補充など)が特徴である。 特に、視覚的コンテキストは質問や意見の中に存在し、このデータセットをより困難にします。 包括的分析により、CMM-Mathデータセット上の最先端のLMMが課題に直面しており、LMM開発におけるさらなる改善の必要性を強調している。 また,複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。 基礎的な事前学習、基礎的な微調整、数学的微調整を含む3つの段階を用いてモデルを訓練する。 より広範な実験により,本モデルは3つのマルチモーダルな数学的データセット上でのSOTA LMMと比較することにより,数学推論性能を効果的に向上することが示された。

Large language models (LLMs) have obtained promising results in mathematical reasoning, which is a foundational skill for human intelligence. Most previous studies focus on improving and measuring the performance of LLMs based on textual math reasoning datasets (e.g., MATH, GSM8K). Recently, a few researchers have released English multimodal math datasets (e.g., MATHVISTA and MATH-V) to evaluate the effectiveness of large multimodal models (LMMs). In this paper, we release a Chinese multimodal math (CMM-Math) dataset, including benchmark and training parts, to evaluate and enhance the mathematical reasoning of LMMs. CMM-Math contains over 28,000 high-quality samples, featuring a variety of problem types (e.g., multiple-choice, fill-in-the-blank, and so on) with detailed solutions across 12 grade levels from elementary to high school in China. Specifically, the visual context may be present in the questions or opinions, which makes this dataset more challenging. Through comprehensive analysis, we discover that state-of-the-art LMMs on the CMM-Math dataset face challenges, emphasizing the necessity for further improvements in LMM development. We also propose a Multimodal Mathematical LMM (Math-LMM) to handle the problems with mixed input of multiple images and text segments. We train our model using three stages, including foundational pre-training, foundational fine-tuning, and mathematical fine-tuning. The extensive experiments indicate that our model effectively improves math reasoning performance by comparing it with the SOTA LMMs over three multimodal mathematical datasets.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# Oops, I Sammpled it: Reprepreting Confidence Intervals in Few-Shot Learning

Oops, I Sampled it Again: Reinterpreting Confidence Intervals in Few-Shot Learning ( http://arxiv.org/abs/2409.02850v2 )

ライセンス: Link先を確認
Raphael Lafargue, Luke Smith, Franck Vermet, Mathias Löwe, Ian Reid, Vincent Gripon, Jack Valmadre, (参考訳) 少数ショット学習(FSL)における信頼区間(CI)を計算する主要な方法は、複数のタスクに同じサンプルが現れるように置換されたタスクをサンプリングすることに基づいている。 これにより、CIはサンプルのランダムさを考慮し、データ自体を考慮しない、という誤解を招くことになる。 この問題の程度を定量化するために、我々は置換なしで計算されたCIの比較分析を行う。 これらは支配的な方法による顕著な過小評価を示している。 この観察は、FSL比較研究における信頼区間の解釈方法と結果の結論の再評価を要求する。 私たちの研究は、ペアテストを使用することで、この問題に部分的に対処できることを示しています。 さらに、特定のサイズのタスクを戦略的にサンプリングすることで、CI(サイズ)をさらに削減する方法についても検討する。 また、新しい最適化ベンチマークを導入し、https://github.com/RafLaf/FSL-benchmark-againでアクセスすることができる。

The predominant method for computing confidence intervals (CI) in few-shot learning (FSL) is based on sampling the tasks with replacement, i.e.\ allowing the same samples to appear in multiple tasks. This makes the CI misleading in that it takes into account the randomness of the sampler but not the data itself. To quantify the extent of this problem, we conduct a comparative analysis between CIs computed with and without replacement. These reveal a notable underestimation by the predominant method. This observation calls for a reevaluation of how we interpret confidence intervals and the resulting conclusions in FSL comparative studies. Our research demonstrates that the use of paired tests can partially address this issue. Additionally, we explore methods to further reduce the (size of the) CI by strategically sampling tasks of a specific size. We also introduce a new optimized benchmark, which can be accessed at https://github.com/RafLaf/FSL-benchmark-again
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# HiPrompt: 階層型MLLMプロンプトを用いたチューニング不要な高分解能生成

HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts ( http://arxiv.org/abs/2409.02919v2 )

ライセンス: Link先を確認
Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qingfeng Liu, Yike Guo, (参考訳) 事前訓練された拡散モデルを用いた高解像度画像生成の可能性は非常に大きいが、これらのモデルは、特に4K解像度以上へのスケーリングにおいて、オブジェクトの反復や構造的アーティファクトの問題に悩まされることが多い。 問題の原因は,複数の尺度を生成するための単一のプロンプトが不十分な有効性をもたらすことにある。 これに対し、階層的なプロンプトを導入して上記の問題に対処する、新しいチューニング不要なソリューションであるHiPromptを提案する。 階層的なプロンプトは、グローバルとローカルの両方のガイダンスを提供する。 具体的には、グローバルガイダンスは、全体の内容を記述するユーザ入力から導き、ローカルガイダンスは、MLLMからのパッチワイズ記述を利用して、地域構造とテクスチャ生成を精巧にガイドする。 さらに、逆復調過程において、生成した雑音を低周波及び高周波空間成分に分解する。 これらのコンポーネントは、パッチに関する詳細な記述やより広範な画像レベルのプロンプトなど、複数のプロンプトレベルに条件付けされている。 さらに、生成者は局所的な空間領域にもっと集中し、生成した画像が高定義で一貫性のある局所的および大域的意味論、構造、テクスチャを維持することを保証できる。 広汎な実験により、HiPromptは高解像度画像生成における最先端の作業より優れており、オブジェクトの反復が著しく減少し、構造的品質が向上することが示された。

The potential for higher-resolution image generation using pretrained diffusion models is immense, yet these models often struggle with issues of object repetition and structural artifacts especially when scaling to 4K resolution and higher. We figure out that the problem is caused by that, a single prompt for the generation of multiple scales provides insufficient efficacy. In response, we propose HiPrompt, a new tuning-free solution that tackles the above problems by introducing hierarchical prompts. The hierarchical prompts offer both global and local guidance. Specifically, the global guidance comes from the user input that describes the overall content, while the local guidance utilizes patch-wise descriptions from MLLMs to elaborately guide the regional structure and texture generation. Furthermore, during the inverse denoising process, the generated noise is decomposed into low- and high-frequency spatial components. These components are conditioned on multiple prompt levels, including detailed patch-wise descriptions and broader image-level prompts, facilitating prompt-guided denoising under hierarchical semantic guidance. It further allows the generation to focus more on local spatial regions and ensures the generated images maintain coherent local and global semantics, structures, and textures with high definition. Extensive experiments demonstrate that HiPrompt outperforms state-of-the-art works in higher-resolution image generation, significantly reducing object repetition and enhancing structural quality.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# トラップイオン量子シミュレーションの進歩

Progress in Trapped-Ion Quantum Simulation ( http://arxiv.org/abs/2409.02990v2 )

ライセンス: Link先を確認
Michael Foss-Feig, Guido Pagano, Andrew C. Potter, Norman Y. Yao, (参考訳) トラップされたイオンは、長いコヒーレンス時間と高忠実度、プログラム可能な量子演算を提供し、凝縮物質系の量子シミュレーション、量子力学、高エネルギー物理学に関する問題のための有望なプラットフォームとなる。 我々は、トラップイオン量子ビットおよびアーキテクチャにおける選択された展開をレビューし、これらの新興機能を利用する量子シミュレーションアプリケーションについて議論する。 このレビューでは、フレキシブルキュービット接続、選択的中回路計測、古典的なフィードバックなどのトラップイオンハードウェア機能を利用するデジタル(ゲートベース)量子シミュレーションの発展を強調し、長距離相互作用を持つモデルをシミュレートし、非ユニタリダイナミクスを探索し、限られた絡み合いを持つ状態のシミュレーションを圧縮し、長距離絡み合い状態の準備やシミュレートに必要な回路深さを減らす。

Trapped ions offer long coherence times and high fidelity, programmable quantum operations, making them a promising platform for quantum simulation of condensed matter systems, quantum dynamics, and problems related to high-energy physics. We review selected developments in trapped-ion qubits and architectures and discuss quantum simulation applications that utilize these emerging capabilities. This review emphasizes developments in digital (gate-based) quantum simulations that exploit trapped-ion hardware capabilities, such as flexible qubit connectivity, selective mid-circuit measurement, and classical feedback, to simulate models with long-range interactions, explore non-unitary dynamics, compress simulations of states with limited entanglement, and reduce the circuit depths required to prepare or simulate long-range entangled states.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# NUMOSIM: 異常検出ベンチマークを備えた合成モビリティデータセット

NUMOSIM: A Synthetic Mobility Dataset with Anomaly Detection Benchmarks ( http://arxiv.org/abs/2409.03024v2 )

ライセンス: Link先を確認
Chris Stanford, Suman Adari, Xishun Liao, Yueshuai He, Qinhua Jiang, Chenchen Kuai, Jiaqi Ma, Emmanuel Tung, Yinlong Qian, Lingyi Zhao, Zihao Zhou, Zeeshan Rasheed, Khurram Shafique, (参考訳) 現実世界のモビリティデータの収集は難しい。 プライバシーの懸念、論理的困難、および固有の偏見に悩まされることが多い。 さらに、微妙で複雑なパターンを区別するために細心の注意を要するため、大規模データの異常を正確にアノテートすることはほぼ不可能である。 これらの課題は、信頼性のあるデータへのアクセスを制限し、厳密な評価、比較、および方法論のベンチマークを複雑化することにより、地理空間異常検出研究の進展を著しく妨げた。 これらの制約に対処するため,我々はNUMOSIMという合成モビリティデータセットを導入し,異常検出手法のベンチマークを行うための制御,倫理的,多様な環境を提供する。 NUMOSIMは、さまざまな現実的なモビリティシナリオをシミュレートし、実際のモビリティデータに基づいてトレーニングされた高度なディープラーニングモデルによって生成された、典型的な動作と異常な動作の両方を包含する。 このアプローチにより、NUMOSIMは現実の運動パターンの複雑さを正確に再現し、人口統計学、地理空間学、時間的要因間の相互作用を効果的に捉えた検出アルゴリズムに、戦略的に異常を注入して挑戦し、評価することができる。 我々のゴールは、異常検出およびモビリティモデリング技術を改善するための現実的なベンチマークを提供することで、地理空間モビリティ解析を向上することである。 これをサポートするために、包括的なドキュメント、評価指標、ベンチマーク結果とともに、NUMOSIMデータセットへのオープンアクセスを提供しています。

Collecting real-world mobility data is challenging. It is often fraught with privacy concerns, logistical difficulties, and inherent biases. Moreover, accurately annotating anomalies in large-scale data is nearly impossible, as it demands meticulous effort to distinguish subtle and complex patterns. These challenges significantly impede progress in geospatial anomaly detection research by restricting access to reliable data and complicating the rigorous evaluation, comparison, and benchmarking of methodologies. To address these limitations, we introduce a synthetic mobility dataset, NUMOSIM, that provides a controlled, ethical, and diverse environment for benchmarking anomaly detection techniques. NUMOSIM simulates a wide array of realistic mobility scenarios, encompassing both typical and anomalous behaviours, generated through advanced deep learning models trained on real mobility data. This approach allows NUMOSIM to accurately replicate the complexities of real-world movement patterns while strategically injecting anomalies to challenge and evaluate detection algorithms based on how effectively they capture the interplay between demographic, geospatial, and temporal factors. Our goal is to advance geospatial mobility analysis by offering a realistic benchmark for improving anomaly detection and mobility modeling techniques. To support this, we provide open access to the NUMOSIM dataset, along with comprehensive documentation, evaluation metrics, and benchmark results.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# 巨人の肩に立つ

Standing on the shoulders of giants ( http://arxiv.org/abs/2409.03151v2 )

ライセンス: Link先を確認
Lucas Felipe Ferraro Cardoso, José de Sousa Ribeiro Filho, Vitor Cirilo Araujo Santos, Regiane Silva Kawasaki Frances, Ronnie Cley de Oliveira Alves, (参考訳) 機械学習の進歩には基礎があるが、精度やF1といった混乱行列から抽出された古典的評価指標は限られている。 このようなメトリクスは、データの複雑さやヒットの品質を考慮せずに、モデルのパフォーマンスの定量的なビューのみを提供する。 これらの制限を克服するために、最近の研究では、アイテム反応理論(IRT)のような心理学的指標を導入し、インスタンスの潜伏特性のレベルの評価を可能にした。 この研究は、IRTの概念が、類似したパフォーマンスを持つオプションの中で、どのモデルが最も適しているかを特定するために、混乱行列を豊かにする方法について考察する。 調査では、IRTは代替ではなく、特定のインスタンスにおけるモデルの詳細な振る舞いを、新しい評価層と観察層を提供することによって、古典的なメトリクスを補完する。 また、IRTのスコアが分析された古典的メトリクスの66%と異なる貢献をしているという自信が97%あることも観察された。

Although fundamental to the advancement of Machine Learning, the classic evaluation metrics extracted from the confusion matrix, such as precision and F1, are limited. Such metrics only offer a quantitative view of the models' performance, without considering the complexity of the data or the quality of the hit. To overcome these limitations, recent research has introduced the use of psychometric metrics such as Item Response Theory (IRT), which allows an assessment at the level of latent characteristics of instances. This work investigates how IRT concepts can enrich a confusion matrix in order to identify which model is the most appropriate among options with similar performance. In the study carried out, IRT does not replace, but complements classical metrics by offering a new layer of evaluation and observation of the fine behavior of models in specific instances. It was also observed that there is 97% confidence that the score from the IRT has different contributions from 66% of the classical metrics analyzed.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# iSeg: トレーニングフリーセグメンテーションのための反復リファインメントベースのフレームワーク

iSeg: An Iterative Refinement-based Framework for Training-free Segmentation ( http://arxiv.org/abs/2409.03209v2 )

ライセンス: Link先を確認
Lin Sun, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang, (参考訳) 安定拡散は、テキスト記述を与える強力な画像合成能力を示し、オブジェクトをグループ化するための強力な意味的手がかりを含むことを示唆している。 これに触発された研究者らは、トレーニングフリーセグメンテーションに安定な拡散を利用する方法を模索してきた。 既存のアプローチのほとんどは、単にクロスアテンションマップを使用するか、自己アテンションマップによってそれを洗練して、セグメンテーションマスクを生成する。 私たちは、自己注意マップによる反復的な改善がより良い結果をもたらすと信じています。 しかし、このような改善は、複数の反復で横断地図を正確に精錬する無関係なグローバル情報を含む自己注意マップが原因で、準最適である可能性が経験的に実証されている。 そこで本研究では,非関係なグローバル情報に対応する弱応答を抑えるために,勾配勾配勾配法を用いて,非関連な自己アテンションマップのエントロピーを減少させるエントロピー還元型自己アテンションモジュールを備えた,iSegと呼ばれるトレーニングフリーセグメンテーションのための反復的改良フレームワークを提案する。 エントロピーを再現した自己アテンションモジュールを活用することで、iSegは反復的洗練による洗練された相互アテンションマップを安定的に改善する。 さらに,カテゴリ拡張型クロスアテンションモジュールを設計し,正確なクロスアテンションマップを生成する。 さまざまなデータセットと多様なセグメンテーションタスクにわたる大規模な実験は、提案されたコントリビューションのメリットを明らかにし、多様なセグメンテーションタスクにおいて有望なパフォーマンスをもたらす。 Cityscapesの教師なしセマンティックセマンティックセマンティクスでは,mIoUの3.8%の絶対ゲインを達成している。 さらに、提案したiSegは、異なる種類の画像とインタラクションによるセグメンテーションをサポートすることができる。

Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. Inspired by this, researchers have explored employing stable diffusion for trainingfree segmentation. Most existing approaches either simply employ cross-attention map or refine it by self-attention map, to generate segmentation masks. We believe that iterative refinement with self-attention map would lead to better results. However, we mpirically demonstrate that such a refinement is sub-optimal likely due to the self-attention map containing irrelevant global information which hampers accurately refining cross-attention map with multiple iterations. To address this, we propose an iterative refinement framework for training-free segmentation, named iSeg, having an entropy-reduced self-attention module which utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined crossattention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kind of images and interactions.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# 大規模言語モデルの攻撃・防衛手法の最近の進歩

Recent Advances in Attack and Defense Approaches of Large Language Models ( http://arxiv.org/abs/2409.03274v2 )

ライセンス: Link先を確認
Jing Cui, Yishi Xu, Zhewei Huang, Shuchang Zhou, Jianbin Jiao, Junge Zhang, (参考訳) 大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。 しかし、その広範な展開は、重大な安全性と信頼性の懸念を引き起こしている。 深層ニューラルネットワークの脆弱性は、新たな脅威モデルと相まって、セキュリティ評価を妥協し、誤ったセキュリティ感覚を生み出す可能性がある。 LLMのセキュリティ分野における広範な研究を考えると、現状の要約は、研究コミュニティが現在の景観をよりよく理解し、今後の発展を知らせるのに役立つと信じている。 本稿では,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代の防衛機構の有効性を評価する。 我々は攻撃ベクトルとモデル弱点に関する最近の研究を分析し、攻撃機構と進化する脅威景観に関する洞察を提供する。 また、現在の防衛戦略についても検討し、その強みと限界を強調します。 攻撃・防衛手法の進歩とは対照的に,我々は研究のギャップを識別し,LLMの安全性を高めるための今後の方向性を提案する。 我々の目標は、LLMの安全性の課題の理解を深め、より堅牢なセキュリティ対策の開発を指導することである。

Large Language Models (LLMs) have revolutionized artificial intelligence and machine learning through their advanced text processing and generating capabilities. However, their widespread deployment has raised significant safety and reliability concerns. Established vulnerabilities in deep neural networks, coupled with emerging threat models, may compromise security evaluations and create a false sense of security. Given the extensive research in the field of LLM security, we believe that summarizing the current state of affairs will help the research community better understand the present landscape and inform future developments. This paper reviews current research on LLM vulnerabilities and threats, and evaluates the effectiveness of contemporary defense mechanisms. We analyze recent studies on attack vectors and model weaknesses, providing insights into attack mechanisms and the evolving threat landscape. We also examine current defense strategies, highlighting their strengths and limitations. By contrasting advancements in attack and defense methodologies, we identify research gaps and propose future directions to enhance LLM security. Our goal is to advance the understanding of LLM safety challenges and guide the development of more robust security measures.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# 環境システム科学におけるFAIR時系列データ管理のためのデジタル生態系

Digital Ecosystem for FAIR Time Series Data Management in Environmental System Science ( http://arxiv.org/abs/2409.03351v2 )

ライセンス: Link先を確認
J. Bumberger, M. Abbrent, N. Brinckmann, J. Hemmen, R. Kunkel, C. Lorenz, P. Lünenschloß, B. Palm, T. Schnicke, C. Schulz, H. van der Schaaf, D. Schäfer, (参考訳) 気候変動、生物多様性の喪失、環境汚染による課題に対処するには、環境システム科学の様々な分野に適用可能な包括的な監視と効果的なデータ管理戦略が必要である。 本稿では、FAIRの原則(Findable、Accessible、Interoperable、Reusable)に準拠した時系列データを管理するための汎用的で転送可能なデジタルエコシステムを提案する。 システムは高度に適応可能で、クラウド対応で、小規模プロジェクトから大規模監視イニシアチブまで幅広い環境でのデプロイメントに適している。 エコシステムは、詳細なメタデータの登録と管理のためのSensor Management System(SMS)、効率的な時系列データストレージ、転送、リアルタイム可視化のためのプラットフォームである \nolinkurl{time.IO}、リアルタイム分析と品質保証によるデータの整合性を保証する自動品質制御システム(SaQC)の3つのコアコンポーネントで構成されている。 モジュールアーキテクチャと標準化されたプロトコルとインターフェースを組み合わせることで、エコシステムをさまざまな環境や機関に簡単に移行し、デプロイできるようになります。 このアプローチは、研究者、政策立案者、一般の人々を含む幅広い利害関係者に対するデータアクセシビリティを高め、協調を促進し、環境モニタリングにおける科学的研究を促進する。

Addressing the challenges posed by climate change, biodiversity loss, and environmental pollution requires comprehensive monitoring and effective data management strategies that are applicable across various scales in environmental system science. This paper introduces a versatile and transferable digital ecosystem for managing time series data, designed to adhere to the FAIR principles (Findable, Accessible, Interoperable, and Reusable). The system is highly adaptable, cloud-ready, and suitable for deployment in a wide range of settings, from small-scale projects to large-scale monitoring initiatives. The ecosystem comprises three core components: the Sensor Management System (SMS) for detailed metadata registration and management; \nolinkurl{time.IO}, a platform for efficient time series data storage, transfer, and real-time visualization; and the System for Automated Quality Control (SaQC), which ensures data integrity through real-time analysis and quality assurance. The modular architecture, combined with standardized protocols and interfaces, ensures that the ecosystem can be easily transferred and deployed across different environments and institutions. This approach enhances data accessibility for a broad spectrum of stakeholders, including researchers, policymakers, and the public, while fostering collaboration and advancing scientific research in environmental monitoring.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# Cognidual Framework:認知タスク改善のためのデュアルシステム理論フレームワーク内での大規模言語モデルの自己学習

CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks ( http://arxiv.org/abs/2409.03381v2 )

ライセンス: Link先を確認
Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Chao Qu, Jing Pan, Yuan Cheng, Yinghui Xu, Wei Chu, (参考訳) 認知心理学は、知覚、注意、記憶、言語、問題解決、意思決定、推論を調査する。 カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。 近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。 それでも、LLMにおける人間の認知に類似した二重体系の枠組みの存在は未解明のままである。 本研究では, LLMの自己学習を通じて, 意図的な推論から直感的な応答へと進化し, 新たな情報の獲得と習得の過程をエミュレートすることを目的とした, CFLLM(textbf{Cognidual Framework for LLMs)を紹介した。 以上の結果から,LLMの反応生成の背景にある認知メカニズムが明らかとなり,認知心理学における認知能力の理解が深まることが示唆された。 実際、自己学習モデルは特定のクエリに対するより高速な応答を提供し、推論時の計算要求を減らすことができる。

Cognitive psychology investigates perception, attention, memory, language, problem-solving, decision-making, and reasoning. Kahneman's dual-system theory elucidates the human decision-making process, distinguishing between the rapid, intuitive System 1 and the deliberative, rational System 2. Recent advancements have positioned large language Models (LLMs) as formidable tools nearing human-level proficiency in various cognitive tasks. Nonetheless, the presence of a dual-system framework analogous to human cognition in LLMs remains unexplored. This study introduces the \textbf{CogniDual Framework for LLMs} (CFLLMs), designed to assess whether LLMs can, through self-training, evolve from deliberate deduction to intuitive responses, thereby emulating the human process of acquiring and mastering new information. Our findings reveal the cognitive mechanisms behind LLMs' response generation, enhancing our understanding of their capabilities in cognitive psychology. Practically, self-trained models can provide faster responses to certain queries, reducing computational demands during inference.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル

UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2409.03431v2 )

ライセンス: Link先を確認
Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao, (参考訳) 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。 UV-Mambaは、変形可能な畳み込み(DCN)を組み込んで、画像サイズを増大させる状態空間モデル(SSM)で生じる長いシーケンスモデリングにおけるメモリ損失問題を緩和する。 そのアーキテクチャはエンコーダ・デコーダフレームワークを使用し、4つの変形可能な状態空間拡張(DSSA)ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。 北京と西安のデータセットを用いて実験を行い,UV-マンバが最先端の性能を発揮することを示す。 具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。 ソースコードと事前訓練されたモデルは補足資料で利用可能である。

Owing to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images is a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in long sequence modeling, which arises in state space model (SSM) with increasing image size, by incorporating deformable convolutions (DCN). Its architecture utilizes an encoder-decoder framework, includes an encoder with four deformable state space augmentation (DSSA) blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on the Beijing and Xi'an datasets, and the results show that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model, while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available in the supplementary material.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# 原子干渉計を用いた重力曲率の局所測定方式

Local Measurement Scheme of Gravitational Curvature using Atom Interferometers ( http://arxiv.org/abs/2409.03515v2 )

ライセンス: Link先を確認
Michael Werner, Ali Lezeik, Dennis Schlippert, Ernst Rasel, Naceur Gaaloul, Klemens Hammerer, (参考訳) 光パルス原子干渉計(英: Light pulse atom Interferometers、AIF)は、空間的不均一性と重力曲率の精巧な量子プローブである。 さらに、極長塩基性原子干渉計(VLBAI)には詳細な測定と校正が必要不可欠である。 ここでは、2つの共位置干渉計の差分信号が重力ポテンシャルの曲率に比例した位相シフトを逸脱する手法を提案する。 スケール係数は、光子波数、干渉計時間、原子反動など、よく制御された量にのみ依存し、測定された位相から曲率を正確に推定することができる。 ケーススタディでは,ハノーバーVLBAI施設の文脈において,このような重力波干渉計を数値シミュレーションし,複雑な空間依存性を持つ重力場における位相シフトのロバスト性を証明する。 非自明な重力場に対する重力曲率の推定器を定義し、空間分解能に関する信号強度と推定精度のトレードオフを計算する。 本稿では,時間依存重力場とそれに対応する測定戦略について考察する。

Light pulse atom interferometers (AIFs) are exquisite quantum probes of spatial inhomogeneity and gravitational curvature. Moreover, detailed measurement and calibration are necessary prerequisites for very-long-baseline atom interferometry (VLBAI). Here we present a method in which the differential signal of two co-located interferometers singles out a phase shift proportional to the curvature of the gravitational potential. The scale factor depends only on well controlled quantities, namely the photon wave number, the interferometer time and the atomic recoil, which allows the curvature to be accurately inferred from a measured phase. As a case study, we numerically simulate such a co-located gradiometric interferometer in the context of the Hannover VLBAI facility and prove the robustness of the phase shift in gravitational fields with complex spatial dependence. We define an estimator of the gravitational curvature for non-trivial gravitational fields and calculate the trade-off between signal strength and estimation accuracy with regard to spatial resolution. As a perspective, we discuss the case of a time-dependent gravitational field and corresponding measurement strategies.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# 非協調環境におけるLLMに基づくマルチエージェント詩生成

LLM-based multi-agent poetry generation in non-cooperative environments ( http://arxiv.org/abs/2409.03659v2 )

ライセンス: Link先を確認
Ran Zhang, Steffen Eger, (参考訳) 自動詩生成のための大規模言語モデル(LLM)の大幅な進歩にもかかわらず、生成された詩は多様性に欠けており、訓練過程は人間の学習と大きく異なる。 詩生成システムの学習過程は、より人間らしく、その出力はより多様で斬新であるべきだという理論的根拠のもと、我々は、多様性を促進するために協調的相互作用以外の非協調的相互作用を強調する社会学習に基づく枠組みを導入する。 本実験は, TRAINING-BASED エージェント (GPT-2) と PROMPING-BASED エージェント (GPT-3 と GPT-4) を併用した非協調的な詩生成環境における LLM ベースのマルチエージェントシステムの試みである。 96kの詩から評価したところ,本フレームワークはTRAINING-BASEDエージェントの詩生成プロセスに有効であり,1)多様性が3.0~3.7ポイント(pp)増加し,5.6~11.3ppが新鮮で新規なn-gramによる新規性の増加を示す。 TRAINING-BASEDエージェントから生成された詩は、語彙、スタイル、意味論の点で集団的な違いを示す。 本研究のフレームワークにおけるPromptting-BASEDエージェントは,非協調的環境の恩恵を受けるとともに,非均一性エージェントを用いたより多様なモデルのアンサンブルにより,多様性をさらに向上させる可能性があり,実験によると7.0-17.5pp。 しかし、Promptting-BASEDエージェントは、時間とともに語彙の多様性が低下し、ソーシャルネットワークで意図されるグループベースのばらつきは示さない。 本稿では,人的相互作用に類似した社会的学習プロセス(LLMに基づくエージェントモデリング)を取り入れた自動詩生成などの創造的タスクのパラダイムシフトを論じる。

Despite substantial progress of large language models (LLMs) for automatic poetry generation, the generated poetry lacks diversity while the training process differs greatly from human learning. Under the rationale that the learning process of the poetry generation systems should be more human-like and their output more diverse and novel, we introduce a framework based on social learning where we emphasize non-cooperative interactions besides cooperative interactions to encourage diversity. Our experiments are the first attempt at LLM-based multi-agent systems in non-cooperative environments for poetry generation employing both TRAINING-BASED agents (GPT-2) and PROMPTING-BASED agents (GPT-3 and GPT-4). Our evaluation based on 96k generated poems shows that our framework benefits the poetry generation process for TRAINING-BASED agents resulting in 1) a 3.0-3.7 percentage point (pp) increase in diversity and a 5.6-11.3 pp increase in novelty according to distinct and novel n-grams. The generated poetry from TRAINING-BASED agents also exhibits group divergence in terms of lexicons, styles and semantics. PROMPTING-BASED agents in our framework also benefit from non-cooperative environments and a more diverse ensemble of models with non-homogeneous agents has the potential to further enhance diversity, with an increase of 7.0-17.5 pp according to our experiments. However, PROMPTING-BASED agents show a decrease in lexical diversity over time and do not exhibit the group-based divergence intended in the social network. Our paper argues for a paradigm shift in creative tasks such as automatic poetry generation to include social learning processes (via LLM-based agent modeling) similar to human interaction.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# RAGに基づく文脈応答予測システムに対する質問応答

RAG based Question-Answering for Contextual Response Prediction System ( http://arxiv.org/abs/2409.03708v2 )

ライセンス: Link先を確認
Sriram Veturi, Saurabh Vaichal, Reshma Lal Jagadheesh, Nafis Irtiza Tripto, Nian Yan, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、効果的な質問応答システムとしての可能性を含む汎用性を示している。 しかし、業界環境で特定の顧客の問い合わせに応答して正確な情報を提供するためには、幻覚を避けるために総合的な知識ベースにアクセスする必要がある。 Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。 しかし、RAGを用いた現実世界アプリケーションのための正確な問合せフレームワークの開発にはいくつかの課題が伴う。 1)データ可用性の問題。 2 生成されたコンテンツの質の評価及び 3)人的評価の費用性。 本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。 顧客からの問い合わせに応じて、提案システムは関連する知識文書を検索し、それらを過去のチャット履歴とともに活用し、大手小売店の連絡先センターにおけるカスタマーサービスエージェントに対する応答提案を生成する。 総合的な自動評価と人的評価により、このソリューションは現在のBERTベースのアルゴリズムよりも精度と妥当性が優れていることを示す。 以上の結果から,RAGをベースとしたLCMは,作業負荷の軽減によるカスタマーサービス代表者への優れた支援となる可能性が示唆された。

Large Language Models (LLMs) have shown versatility in various Natural Language Processing (NLP) tasks, including their potential as effective question-answering systems. However, to provide precise and relevant information in response to specific customer queries in industry settings, LLMs require access to a comprehensive knowledge base to avoid hallucinations. Retrieval Augmented Generation (RAG) emerges as a promising technique to address this challenge. Yet, developing an accurate question-answering framework for real-world applications using RAG entails several challenges: 1) data availability issues, 2) evaluating the quality of generated content, and 3) the costly nature of human evaluation. In this paper, we introduce an end-to-end framework that employs LLMs with RAG capabilities for industry use cases. Given a customer query, the proposed system retrieves relevant knowledge documents and leverages them, along with previous chat history, to generate response suggestions for customer service agents in the contact centers of a major retail company. Through comprehensive automated and human evaluations, we show that this solution outperforms the current BERT-based algorithms in accuracy and relevance. Our findings suggest that RAG-based LLMs can be an excellent support to human customer service representatives by lightening their workload.
翻訳日:2024-09-09 13:05:05 公開日:2024-09-06
# SELF-[IN]CRRECT:自己生成応答を識別するLLM構造

SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses ( http://arxiv.org/abs/2404.04298v3 )

ライセンス: Link先を確認
Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, Daniel Khashabi, (参考訳) LLMは、より良い結果を得るために、常に以前の出力を改善することができるか? このことが真実であるためには、LLMは初期応答を生成するよりも、以前生成された代替品の識別が優れている必要がある。 我々は実際にこの仮説の有効性を探求する。 まず、任意のタスクにおける任意のモデルの生成的および識別的能力を比較することができる統一的なフレームワークを定式化します。 その結果,複数のオープンソースおよび産業用LCMを実験的に分析した結果,モデルが初期応答を生成するよりも,以前生成した代替品の識別が確実でないことが判明した。 この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。

Can LLMs consistently improve their previous outputs for better results? For this to be true, LLMs would need to be better at discriminating among previously-generated alternatives, than generating initial responses. We explore the validity of this hypothesis in practice. We first formulate a unified framework that allows us to compare the generative and discriminative capability of any model on any task. In our resulting experimental analysis of several open-source and industrial LLMs, we observe that models are not reliably better at discriminating among previously-generated alternatives than generating initial responses. This finding challenges the notion that LLMs may be able to enhance their performance only through their own judgment.
翻訳日:2024-09-09 11:10:06 公開日:2024-09-06
# RMT-BVQA:リカレントメモリ変換器による高画質化のためのブラインド映像品質評価

RMT-BVQA: Recurrent Memory Transformer-based Blind Video Quality Assessment for Enhanced Video Content ( http://arxiv.org/abs/2405.08621v4 )

ライセンス: Link先を確認
Tianhao Peng, Chen Feng, Duolikun Danier, Fan Zhang, Benoit Vallade, Alex Mackin, David Bull, (参考訳) 近年のディープラーニングの進歩により、ビデオ品質の向上、視覚的アーティファクトの削減、知覚的品質の向上など、数多くのアルゴリズムが開発されている。 しかし, コンテントの品質評価についてはほとんど研究されていない - 圧縮アプリケーション用に設計された品質指標に基づいて, エンハンスメント手法の評価を行う場合が多い。 本稿では,映像コンテンツの改良を目的とした新しいブラインドディープ・ビデオ品質評価手法を提案する。 新たなRecurrent Memory Transformer (RMT) ベースのネットワークアーキテクチャを用いて,13Kトレーニングパッチと拡張コンテンツを備えた新しいデータベースをベースとした,コンテンツ品質に配慮したコントラスト学習戦略を通じて最適化されたビデオ品質表現を実現する。 抽出された品質表現は線形回帰によって合成され、ビデオレベルの品質指標を生成する。 提案手法であるRTT-BVQAは,VDPVE(VQA Dataset for Perceptual Video Enhancement)データベース上で5倍のクロスバリデーションによって評価されている。 その結果、既存の10の非参照品質指標と比較すると、相関性能が優れていることがわかった。

With recent advances in deep learning, numerous algorithms have been developed to enhance video quality, reduce visual artifacts, and improve perceptual quality. However, little research has been reported on the quality assessment of enhanced content - the evaluation of enhancement methods is often based on quality metrics that were designed for compression applications. In this paper, we propose a novel blind deep video quality assessment (VQA) method specifically for enhanced video content. It employs a new Recurrent Memory Transformer (RMT) based network architecture to obtain video quality representations, which is optimized through a novel content-quality-aware contrastive learning strategy based on a new database containing 13K training patches with enhanced content. The extracted quality representations are then combined through linear regression to generate video-level quality indices. The proposed method, RMT-BVQA, has been evaluated on the VDPVE (VQA Dataset for Perceptual Video Enhancement) database through a five-fold cross validation. The results show its superior correlation performance when compared to ten existing no-reference quality metrics.
翻訳日:2024-09-09 11:10:06 公開日:2024-09-06
# 磁気三層膜に内在する非線形層間交換結合の駆動

Driving noncollinear interlayer exchange coupling intrinsically in magnetic trilayers ( http://arxiv.org/abs/2409.00911v2 )

ライセンス: Link先を確認
Guan-Wei Peng, Hung-Chin Wang, Yu-Jie Zhong, Chao-Cheng Kaun, Ching-Hao Chang, (参考訳) 非磁性スペーサを金属三層として挟む強磁性側層は、スピントロニクスデバイスを実現するための重要なプラットフォームとなっている。 最近の実験では、導電スペーサの幅や性質を操作することにより、側層間の非線形磁気アライメントが誘導されることが示されている。 理論解析の結果,スペーサ幅の変化は層間交換結合(IEC)に大きく影響し,非線形アライメントをもたらすことが明らかとなった。 解析および第1原理法により、Agスペーサの特定の幅において、側層の磁気モーメントが垂直であることを示す。 このアライメントはAg量子井戸状態によって媒介され、3層にわたってスピンスパイラルを示す。 以上の結果から,非直線IECは磁気デバイスやブートスピントロニクス技術を制御する自由度に優れており,輸送能力も向上していることが明らかとなった。

Ferromagnetic side layers sandwiching a nonmagnetic spacer as a metallic trilayer has become a pivotal platform for achieving spintronic devices. Recent experiments demonstrate that manipulating the width or the nature of conducting spacer induces noncollinear magnetic alignment between the side layers. Our theoretical analysis reveals that altering the width of spacer significantly affects the interlayer exchange coupling (IEC), resulting in noncollinear alignment. Through analytic and first-principles methods, our study on the Fe/Ag/Fe trilayer shows that at a specific width of the Ag spacer, the magnetic moments of side layers tend to be perpendicular. This alignment is mediated by Ag quantum well states, exhibiting spin spirals across the trilayer. Our results reveal that the noncollinear IEC offers a degree of freedom to control magnetic devices and boot spintronic technology with improved transport capabilities.
翻訳日:2024-09-09 11:10:06 公開日:2024-09-06