このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230611となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# perfdetectiveai -- ソフトウェアアプリケーションにおけるパフォーマンスギャップ分析とレコメンデーション PerfDetectiveAI -- Performance Gap Analysis and Recommendation in Software Applications ( http://arxiv.org/abs/2306.06566v1 ) ライセンス: Link先を確認 | Vivek Basavegowda Ramu | (参考訳) 本稿では,ソフトウェアアプリケーションにおける性能ギャップ分析と提案のための概念的フレームワークPerfDetectiveAIを紹介する。
ソフトウェア開発者にとっては、競争力のあるエッジを維持し、例外的なユーザエクスペリエンスを提供するのは、アプリケーションのスピードを最大化することに依存します。
しかし、最先端のアプローチの調査は、パフォーマンスのギャップを判断し、効率的な改善戦略を作成することに関わる複雑さのために必要である。
現代の機械学習(ML)と人工知能(AI)技術は、PerfDetectiveAIでパフォーマンス測定を監視し、ソフトウェアアプリケーションのパフォーマンス不足の領域を特定するために使用されている。
フレームワークの助けを借りて、ソフトウェア開発者とパフォーマンスエンジニアは、アプリケーションのパフォーマンスを高め、システムの生産性を高めることができるはずです。
高度なアルゴリズムを活用し、洗練されたデータ分析手法を利用する。
PerfDetectiveAIは、AI、ML、ソフトウェアエンジニアリングの分野の理論的基盤に基づいて、微妙なパフォーマンスの相違を明らかにし、潜在的なボトルネックを特定することのできる高度なシステムを構想している。
perfdetectiveaiは、高度なアルゴリズム、統計モデリング、予測分析を統合することで、意思決定プロセスを導くためのデータ駆動型レコメンデーションを提供することを目的としている。
PerfDetectiveAIは現在概念的な段階にあるが、この記事ではフレームワークの基本原則、基礎となる方法論、想定されるワークフローについて概説する。
私たちは、この概念的なフレームワークを導入して、AI駆動のパフォーマンス最適化の領域において、さらなる研究と開発を奨励したいと考えています。 PerfDetectiveAI, a conceptual framework for performance gap analysis and suggestion in software applications is introduced in this research. For software developers, retaining a competitive edge and providing exceptional user experiences depend on maximizing application speed. But investigating cutting-edge approaches is necessary due to the complexity involved in determining performance gaps and creating efficient improvement tactics. Modern machine learning (ML) and artificial intelligence (AI) techniques are used in PerfDetectiveAI to monitor performance measurements and identify areas of underperformance in software applications. With the help of the framework, software developers and performance engineers should be able to enhance application performance and raise system productivity. It does this by utilizing sophisticated algorithms and utilizing sophisticated data analysis methodologies. Drawing on theoretical foundations from the fields of AI, ML and software engineering, PerfDetectiveAI envisions a sophisticated system capable of uncovering subtle performance discrepancies and identifying potential bottlenecks. PerfDetectiveAI aims to provide practitioners with data-driven recommendations to guide their decision-making processes by integrating advanced algorithms, statistical modelling, and predictive analytics. While PerfDetectiveAI is currently at the conceptual stage, this paper outlines the framework's fundamental principles, underlying methodologies and envisioned workflow. We want to encourage more research and development in the area of AI-driven performance optimization by introducing this conceptual framework, setting the foundation for the next developments in the quest for software excellence. | 翻訳日:2023-10-24 04:06:24 公開日:2023-06-11 |
# マルチエージェントシミュレーションと人工知能による避難計画の強化--危険環境における人間行動の理解 Enhancing Evacuation Planning through Multi-Agent Simulation and Artificial Intelligence: Understanding Human Behavior in Hazardous Environments ( http://arxiv.org/abs/2307.09485v1 ) ライセンス: Link先を確認 | Afnan Alazbah and Khalid Fakeeh and Osama Rabie | (参考訳) 本稿では, コーディネーター, イベント開催者, 当局にとって重要な, 有害な場所の避難に対処する重要な課題に焦点をあてる。
効率的なソリューションの開発を容易にするため,我々は人工知能(AI)技術,特にマルチエージェントシステム(MAS)を用いて避難シミュレーションモデルを構築した。
netlogoは、危険な環境における苦難状況における人間の行動の包括的理解を提供する能力により、選択のシミュレーションツールとして選択される。
本研究の目的は,このような危機的状況において,個人の反応や反応の理解を深めることである。
AIとMASを活用することで、シミュレーションモデルは避難シナリオの複雑なダイナミクスを捉え、政策立案者と緊急計画立案者が情報的な決定を行い、より効率的で効果的な避難戦略を実現することを目的としている。
本研究は, 避難計画の進展に寄与し, 最終的には危険地における個人の安全と幸福を向上させることを目的とする。 This paper focuses on the crucial task of addressing the evacuation of hazardous places, which holds great importance for coordinators, event hosts, and authorities. To facilitate the development of effective solutions, the paper employs Artificial Intelligence (AI) techniques, specifically Multi-Agent Systems (MAS), to construct a simulation model for evacuation. NetLogo is selected as the simulation tool of choice due to its ability to provide a comprehensive understanding of human behaviour in distressing situations within hazardous environments. The primary objective of this paper is to enhance our comprehension of how individuals react and respond during such distressing situations. By leveraging AI and MAS, the simulation model aims to capture the complex dynamics of evacuation scenarios, enabling policymakers and emergency planners to make informed decisions and implement more efficient and effective evacuation strategies. This paper endeavours to contribute to the advancement of evacuation planning and ultimately improve the safety and well-being of individuals in hazardous places | 翻訳日:2023-10-23 17:02:28 公開日:2023-06-11 |
# 月経周期長の予測モデル:時系列予測手法 Predictive Modeling of Menstrual Cycle Length: A Time Series Forecasting Approach ( http://arxiv.org/abs/2308.07927v1 ) ライセンス: Link先を確認 | Rosana C. B. Rego | (参考訳) 月経周期の適切な予測は、周期に伴う不快を最小化するために予防措置を取ることができるため、女性の健康にとって意味がある。
さらに、正確な予測は、家族計画のような女性の人生における重要な出来事を計画するのに有用である。
本研究では,通常の月経周期と不規則周期を予測する機械学習手法について検討した。
時系列予測アルゴリズムとして,AutoRegressive Integrated Integrated Average, Huber Regression, Lasso Regression, Orthogonal Matching Pursuit, Long Short-Term Memory Networkなどを実装した。
さらに,目的を達成するために合成データを作成した。
その結果,機械学習を用いて月経周期の開始と持続時間を正確に予測できることがわかった。 A proper forecast of the menstrual cycle is meaningful for women's health, as it allows individuals to take preventive actions to minimize cycle-associated discomforts. In addition, precise prediction can be useful for planning important events in a woman's life, such as family planning. In this work, we explored the use of machine learning techniques to predict regular and irregular menstrual cycles. We implemented some time series forecasting algorithm approaches, such as AutoRegressive Integrated Moving Average, Huber Regression, Lasso Regression, Orthogonal Matching Pursuit, and Long Short-Term Memory Network. Moreover, we generated synthetic data to achieve our purposes. The results showed that it is possible to accurately predict the onset and duration of menstrual cycles using machine learning techniques. | 翻訳日:2023-10-23 14:08:53 公開日:2023-06-11 |
# 量子yang-mills理論 The quantum Yang-Mills theory ( http://arxiv.org/abs/2306.13663v1 ) ライセンス: Link先を確認 | Dimitrios Metaxas | (参考訳) 公理場の量子論において、真空の一意性(純粋な真空状態)の仮定は他の公理とは独立であり、クラスター分解特性と同値である。
しかし、後者は、成長する距離における相互作用のクーロンまたは湯川減衰を意味するので、強い相互作用の閉じ込め特性は考慮できない。
前述したyang-mills量子論の解は、ガウスの法則を組み込むために補助場を使い、摂動と閉じ込められた真空という2つの別々の真空状態の存在を証明している。
多重真空の存在は、実際には、補助場の固有空間への真空状態の分解を通じて、公理的、代数的量子場理論によって期待される。
一般的な真空状態は混合量子状態であり、クラスター分解特性は保持されない。
2つの真空の間のエネルギー密度差のため、強い相互作用の物理学はラグランジアンの記述を含まない。
本稿では, ヤン・ミルズ相互作用の以前の解法に関する上記の発言を明らかにし, いくつかの議論, 関連する数学的問題に対する批判, スピン2事件に関する仮のコメントで結論づける。 In axiomatic quantum field theory, the postulate of the uniqueness of the vacuum (a pure vacuum state) is independent of the other axioms and equivalent to the cluster decomposition property. The latter, however, implies a Coulomb or Yukawa attenuation of the interactions at growing distance, hence cannot accomodate the confining properties of the strong interaction. The solution of the Yang-Mills quantum theory given previously, uses an auxiliary field to incorporate Gauss's law, and demonstrates the existence of two separate vacua, the perturbative and the confining vacuum, therefore a mixed vacuum state, deriving confinement, as well as the related, expected properties of the strong interaction. The existence of multiple vacua is, in fact, expected by the axiomatic, algebraic quantum field theory, via the decomposition of the vacuum state to eigenspaces of the auxiliary field. The general vacuum state is a mixed quantum state and the cluster decomposition property does not hold. Because of the energy density difference between the two vacua, the physics of the strong interactions does not admit a Lagrangian description. I clarify the above remarks related to the previous solution of the Yang-Mills interaction, and conclude with some discussion, a criticism of a related mathematical problem, and some tentative comments regarding the spin-2 case. | 翻訳日:2023-07-02 13:46:04 公開日:2023-06-11 |
# 民主的・包括的発展のための機械学習における異種接続軸の展開 Unraveling the Interconnected Axes of Heterogeneity in Machine Learning for Democratic and Inclusive Advancements ( http://arxiv.org/abs/2306.10043v1 ) ライセンス: Link先を確認 | Maryam Molamohammadi, Afaf Taik, Nicolas Le Roux, Golnoosh Farnadi | (参考訳) 意思決定プロセスにおける機械学習(ML)の利用の増加は、社会に対するその利益に関する疑問を提起する。
本研究では,ML製品の軌道に大きく影響を及ぼす不均一性の3つの軸を同定し,解析する。
これらの軸は
一 価値観、文化及び規制
二 データ構成、及び
三 資源及びインフラの容量
これらの軸が相互依存し、相互に影響を及ぼす様子を実証し、共同で考慮し、対処する必要性を強調する。
残念なことに、現在の研究環境はこの点において不足しており、しばしば全体論的アプローチの採用に失敗している。
本研究は,これらの軸をスキューし,選択された数個を選別し,電力集中,均質化制御,依存度の増加を図った。
この3つの軸の断片化研究が大きな課題となり、現実のシナリオを反映しない非現実的な解空間へと繋がる。
これらの問題に対処することは、社会の相互接続の性質をより包括的に理解し、現実の複雑さとその多様な要件により整合した、民主的で包括的なMLシステムの開発を促進するために不可欠である。 The growing utilization of machine learning (ML) in decision-making processes raises questions about its benefits to society. In this study, we identify and analyze three axes of heterogeneity that significantly influence the trajectory of ML products. These axes are i) values, culture and regulations, ii) data composition, and iii) resource and infrastructure capacity. We demonstrate how these axes are interdependent and mutually influence one another, emphasizing the need to consider and address them jointly. Unfortunately, the current research landscape falls short in this regard, often failing to adopt a holistic approach. We examine the prevalent practices and methodologies that skew these axes in favor of a selected few, resulting in power concentration, homogenized control, and increased dependency. We discuss how this fragmented study of the three axes poses a significant challenge, leading to an impractical solution space that lacks reflection of real-world scenarios. Addressing these issues is crucial to ensure a more comprehensive understanding of the interconnected nature of society and to foster the democratic and inclusive development of ML systems that are more aligned with real-world complexities and its diverse requirements. | 翻訳日:2023-06-26 01:51:04 公開日:2023-06-11 |
# Aspect Sentiment Triplet 抽出のためのペアリング強化手法 A Pairing Enhancement Approach for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2306.10042v1 ) ライセンス: Link先を確認 | Fan Yang, Mian Zhang, Gongzhen Hu and Xiabing Zhou | (参考訳) Aspect Sentiment Triplet extract (ASTE) は、アスペクト項、意見項、およびそれらの対応する感情極性をレビューテキストから抽出することを目的としている。
言語の複雑さと一つの文に複数のアスペクト項と意見項が存在するため、現在のモデルはアスペクト項とそれを記述する意見項の関連を混乱させることが多い。
本稿では,3重項抽出モデルにアスペクト-オピニオンペアリング知識を注入するために,訓練段階におけるコントラスト学習を取り入れたASTEのペアリング強化手法を提案する。
実験の結果,本手法は4つのASTEデータセット(例:14lap,14res,15res,16res)において,古典的および最先端の3重項抽出法と比較して良好な性能を示した。
さらに、アブレーション研究は分析を行い、他のペアリング強化アプローチよりもコントラスト学習の利点を検証する。 Aspect Sentiment Triplet Extraction (ASTE) aims to extract the triplet of an aspect term, an opinion term, and their corresponding sentiment polarity from the review texts. Due to the complexity of language and the existence of multiple aspect terms and opinion terms in a single sentence, current models often confuse the connections between an aspect term and the opinion term describing it. To address this issue, we propose a pairing enhancement approach for ASTE, which incorporates contrastive learning during the training stage to inject aspect-opinion pairing knowledge into the triplet extraction model. Experimental results demonstrate that our approach performs well on four ASTE datasets (i.e., 14lap, 14res, 15res and 16res) compared to several related classical and state-of-the-art triplet extraction methods. Moreover, ablation studies conduct an analysis and verify the advantage of contrastive learning over other pairing enhancement approaches. | 翻訳日:2023-06-26 01:50:45 公開日:2023-06-11 |
# ビジュアル・アウェア・レコメンダシステムのセキュア化:逆画像再構成・検出フレームワーク Securing Visually-Aware Recommender Systems: An Adversarial Image Reconstruction and Detection Framework ( http://arxiv.org/abs/2306.07992v1 ) ライセンス: Link先を確認 | Minglei Yin, Bin Liu, Neil Zhenqiang Gong, Xin Li | (参考訳) 画像などのリッチなビジュアルデータとアイテムの関連付けが容易なため、視覚認識レコメンデーションシステム(var)は様々なアプリケーションで広く使われている。
近年の研究では、VARSはアイテムイメージの敵対的攻撃に弱いことが示されており、これらのアイテムに関連するクリーンなイメージに人間に知覚できない摂動を与える。
VARSに対する攻撃は、VARSが広く使用されているEコマースやソーシャルネットワークなど、幅広いアプリケーションに新たなセキュリティ上の課題をもたらす。
このような敵攻撃からVARSを保護する方法が重要な問題となっている。
現在、VARSに対する視覚的攻撃に対してセキュアな防衛戦略を設計する方法に関する体系的な研究が残っていない。
本稿では,VARSをセキュアにするための逆画像再構成・検出フレームワークを提案することで,このギャップを埋めようとしている。
提案手法は,(1)大域的視覚トランスフォーマーに基づく画像再構成による局所摂動を特徴とする敵対的攻撃からのvarsの確保,(2)新しいコントラスト学習手法による攻撃例の高精度検出を同時に行うことができる。
一方,我々のフレームワークは,様々な攻撃やVARSモデルに対する防衛戦略の柔軟性を向上させるために,フィルタと検出器の両方として使用できるように設計されている。
我々は2つの攻撃方法(FGSMとPGD)で広範な実験を行った。
2つの実世界のデータセットにおける実験結果は、視覚的攻撃に対する防御戦略が効果的であり、異なる攻撃に対する既存の方法よりも優れていることを示している。
さらに, 本手法は, 逆例を高精度に検出できる。 With rich visual data, such as images, becoming readily associated with items, visually-aware recommendation systems (VARS) have been widely used in different applications. Recent studies have shown that VARS are vulnerable to item-image adversarial attacks, which add human-imperceptible perturbations to the clean images associated with those items. Attacks on VARS pose new security challenges to a wide range of applications such as e-Commerce and social networks where VARS are widely used. How to secure VARS from such adversarial attacks becomes a critical problem. Currently, there is still a lack of systematic study on how to design secure defense strategies against visual attacks on VARS. In this paper, we attempt to fill this gap by proposing an adversarial image reconstruction and detection framework to secure VARS. Our proposed method can simultaneously (1) secure VARS from adversarial attacks characterized by local perturbations by image reconstruction based on global vision transformers; and (2) accurately detect adversarial examples using a novel contrastive learning approach. Meanwhile, our framework is designed to be used as both a filter and a detector so that they can be jointly trained to improve the flexibility of our defense strategy to a variety of attacks and VARS models. We have conducted extensive experimental studies with two popular attack methods (FGSM and PGD). Our experimental results on two real-world datasets show that our defense strategy against visual attacks is effective and outperforms existing methods on different attacks. Moreover, our method can detect adversarial examples with high accuracy. | 翻訳日:2023-06-16 23:40:36 公開日:2023-06-11 |
# 概念の自動抽出と概念重要度推定を統一する包括的アプローチ A Holistic Approach to Unifying Automatic Concept Extraction and Concept Importance Estimation ( http://arxiv.org/abs/2306.07304v1 ) ライセンス: Link先を確認 | Thomas Fel, Victor Boutin, Mazda Moayeri, R\'emi Cad\`ene, Louis Bethune, L\'eo and\'eol, Mathieu Chalvidal, Thomas Serre | (参考訳) 近年,ANN(Artificial Neural Networks)の決定を解釈する上で最も有望な説明可能性手法として,概念に基づくアプローチが登場している。
これらの手法は,(1)概念抽出,(2)重要度推定の2段階において,ANNアクティベーションの複雑なパターン内に埋もれた,理解不能な視覚的「概念」を発見する。
これら2つのステップはメソッド間で共有されるが、それぞれ固有の実装が異なる。
本稿では,これら2つのステップを包括的に定義し,明確化する統一理論フレームワークを提案する。
このフレームワークには、いくつかの利点があります。
一 異なる概念抽出アプローチを比較するための新しい評価指標を提案すること。
二 現代帰属法及び評価基準を活用し、最先端概念に基づくアプローチ及び重要度評価手法を拡張し、体系的に評価すること。
(iii)そのような方法の最適性に関する理論的保証を導出すること。
同様の共有戦略に基づいて分類されたデータポイントのクラスタを効率的に識別する方法です。
これらの知見を説明し,モデルの主要戦略を強調するために,戦略クラスタグラフと呼ばれる視覚的表現を導入する。
最後に、ImageNetデータセットの全クラスに対して、これらの視覚化の完全なコンパイルを提供する専用ウェブサイトであるhttps://serre-lab.github.io/Lensを紹介する。 In recent years, concept-based approaches have emerged as some of the most promising explainability methods to help us interpret the decisions of Artificial Neural Networks (ANNs). These methods seek to discover intelligible visual 'concepts' buried within the complex patterns of ANN activations in two key steps: (1) concept extraction followed by (2) importance estimation. While these two steps are shared across methods, they all differ in their specific implementations. Here, we introduce a unifying theoretical framework that comprehensively defines and clarifies these two steps. This framework offers several advantages as it allows us: (i) to propose new evaluation metrics for comparing different concept extraction approaches; (ii) to leverage modern attribution methods and evaluation metrics to extend and systematically evaluate state-of-the-art concept-based approaches and importance estimation techniques; (iii) to derive theoretical guarantees regarding the optimality of such methods. We further leverage our framework to try to tackle a crucial question in explainability: how to efficiently identify clusters of data points that are classified based on a similar shared strategy. To illustrate these findings and to highlight the main strategies of a model, we introduce a visual representation called the strategic cluster graph. Finally, we present https://serre-lab.github.io/Lens, a dedicated website that offers a complete compilation of these visualizations for all classes of the ImageNet dataset. | 翻訳日:2023-06-14 16:29:11 公開日:2023-06-11 |
# ディープラーニングタスクへのトランスフォーマーの適用に関する包括的調査 A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks ( http://arxiv.org/abs/2306.07303v1 ) ライセンス: Link先を確認 | Saidul Islam, Hanae Elmekki, Ahmed Elsebai, Jamal Bentahar, Najat Drawel, Gaith Rjoub, Witold Pedrycz | (参考訳) Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識機構を使用するディープニューラルネットワークである。
従来のニューラルネットワークやLSTM(Long Short-Term Memory)のようなリカレントニューラルネットワーク(RNN)の更新版とは異なり、トランスフォーマーモデルは入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
その結果、トランスフォーマーベースのモデルは人工知能の分野で研究者の間で大きな関心を集めている。
これは、自然言語処理(NLP)タスクだけでなく、コンピュータビジョン、オーディオおよび音声処理、ヘルスケア、IoT(Internet of Things)など、幅広い領域においても、その大きな可能性と顕著な成果に起因する可能性がある。
トランスフォーマーの特定の分野への貢献、建築上の差異、性能評価を強調する調査論文がいくつか出版されているが、様々な分野にまたがる主要な応用を包含する包括的な調査論文は依然として存在していない。
そこで我々は,2017年から2022年にかけて提案する変圧器モデルの広範な調査を行い,このギャップを埋める作業を行った。
本調査では,NLP,コンピュータビジョン,マルチモダリティ,音声・音声処理,信号処理という,トランスフォーマーベースモデルを対象としたトップ5のアプリケーションドメインを特定した。
これらの領域における高度に影響力のあるトランスフォーマーモデルの影響を解析し,提案する分類法を用いてそれぞれのタスクに基づいて分類する。
我々の目標は、熱心な研究者にとってトランスフォーマーの既存の可能性と将来の可能性に光を当てることであり、この画期的な技術のより広い理解に寄与する。 Transformer is a deep neural network that employs a self-attention mechanism to comprehend the contextual relationships within sequential data. Unlike conventional neural networks or updated versions of Recurrent Neural Networks (RNNs) such as Long Short-Term Memory (LSTM), transformer models excel in handling long dependencies between input sequence elements and enable parallel processing. As a result, transformer-based models have attracted substantial interest among researchers in the field of artificial intelligence. This can be attributed to their immense potential and remarkable achievements, not only in Natural Language Processing (NLP) tasks but also in a wide range of domains, including computer vision, audio and speech processing, healthcare, and the Internet of Things (IoT). Although several survey papers have been published highlighting the transformer's contributions in specific fields, architectural differences, or performance evaluations, there is still a significant absence of a comprehensive survey paper encompassing its major applications across various domains. Therefore, we undertook the task of filling this gap by conducting an extensive survey of proposed transformer models from 2017 to 2022. Our survey encompasses the identification of the top five application domains for transformer-based models, namely: NLP, Computer Vision, Multi-Modality, Audio and Speech Processing, and Signal Processing. We analyze the impact of highly influential transformer-based models in these domains and subsequently classify them based on their respective tasks using a proposed taxonomy. Our aim is to shed light on the existing potential and future possibilities of transformers for enthusiastic researchers, thus contributing to the broader understanding of this groundbreaking technology. | 翻訳日:2023-06-14 16:28:51 公開日:2023-06-11 |
# 教師エージェントによる誤認知体験が学習とラプポートに及ぼす影響 Impact of Experiencing Misrecognition by Teachable Agents on Learning and Rapport ( http://arxiv.org/abs/2306.07302v1 ) ライセンス: Link先を確認 | Yuya Asano, Diane Litman, Mingzhi Yu, Nikki Lobczowski, Timothy Nokes-Malach, Adriana Kovashka, Erin Walker | (参考訳) 音声認識可能なエージェントはタイピングベースエージェントよりもいくつかの利点があるが、自動音声認識(ASR)による誤認識に起因する誤りに弱い。
これらの誤りは伝播し、会話の流れに予期せぬ変化をもたらす。
これらの変化が学習成果と学習者のエージェントとのラパポートとどのように関連しているかを分析した。
その結果,ASRの誤りを伴わない学習者からの正しい入力を条件として,エージェントが返すべき応答の種類に関係なく,学習の得得やラプポートとは無関係であることが判明した。
また、これらの知見から引き出すことができる教育可能なエージェントに対する最適エラー回復ポリシーの意義についても論じる。 While speech-enabled teachable agents have some advantages over typing-based ones, they are vulnerable to errors stemming from misrecognition by automatic speech recognition (ASR). These errors may propagate, resulting in unexpected changes in the flow of conversation. We analyzed how such changes are linked with learning gains and learners' rapport with the agents. Our results show they are not related to learning gains or rapport, regardless of the types of responses the agents should have returned given the correct input from learners without ASR errors. We also discuss the implications for optimal error-recovery policies for teachable agents that can be drawn from these findings. | 翻訳日:2023-06-14 16:28:19 公開日:2023-06-11 |
# 大気汚染予測のための新しい回帰・最小方形支援ベクトル機械学習技術 Novel Regression and Least Square Support Vector Machine Learning Technique for Air Pollution Forecasting ( http://arxiv.org/abs/2306.07301v1 ) ライセンス: Link先を確認 | Dhanalakshmi M and Radha V | (参考訳) 大気汚染は粒子状物質、化学物質、生物物質の起源であり、人間や他の生物に痛みをもたらし、自然の生息地や空域に不快感を与える。
そのため、都市部では大気汚染が主要な環境問題の一つとなっている。
いくつかの大気汚染指標は、人間の健康に悪影響を及ぼすと言われている。
また、大気汚染指標の不適切な検出は、人間や生物にとって深刻な合併症をもたらす。
これに対処するために, 離散回帰と最小二乗支持ベクトル(dr-lssv)に基づく大気汚染予測手法を提案する。
その結果, DR-LSSV技術は大気汚染予測性能を効果的に向上し, 従来の機械学習手法よりも大気汚染予測精度, 大気汚染予測時間, 偽陽性率で優れていた。 Air pollution is the origination of particulate matter, chemicals, or biological substances that brings pain to either humans or other living creatures or instigates discomfort to the natural habitat and the airspace. Hence, air pollution remains one of the paramount environmental issues as far as metropolitan cities are concerned. Several air pollution benchmarks are even said to have a negative influence on human health. Also, improper detection of air pollution benchmarks results in severe complications for humans and living creatures. To address this aspect, a novel technique called, Discretized Regression and Least Square Support Vector (DR-LSSV) based air pollution forecasting is proposed. The results indicate that the proposed DR-LSSV Technique can efficiently enhance air pollution forecasting performance and outperforms the conventional machine learning methods in terms of air pollution forecasting accuracy, air pollution forecasting time, and false positive rate. | 翻訳日:2023-06-14 16:28:00 公開日:2023-06-11 |
# 進行性クラスワイズ注意(PCA)による皮膚病変の診断 Progressive Class-Wise Attention (PCA) Approach for Diagnosing Skin Lesions ( http://arxiv.org/abs/2306.07300v1 ) ライセンス: Link先を確認 | Asim Naveed, Syed S. Naqvi, Tariq M. Khan, Imran Razzak | (参考訳) 皮膚がんは世界中のがんの中で最も頻度が高い。
早期発見の重要性を誇張することはできず、後期の症例は致命的になる可能性がある。
しかし、皮膚病変の分類には、色、形、サイズの違い、同じクラス内での著しい変異、異なるクラス間の顕著な類似性など、様々なバリエーションがあるため、いくつかの課題がある。
本稿では,皮膚病変に関するより具体的な詳細を解明しながら,各分類を等しく考慮した新しい分類的注意手法を提案する。
このアテンションメカニズムは、複数のスケールから識別的特徴の詳細をアマルガメートするために徐々に使われる。
紹介されたテクニックは、HAM1000やISIC 2019のリーダーボードを含む15以上の最先端メソッドを越え、素晴らしいパフォーマンスを示した。
HAM10000データセットで97.40%、ISIC 2019データセットで94.9%の精度を達成した。 Skin cancer holds the highest incidence rate among all cancers globally. The importance of early detection cannot be overstated, as late-stage cases can be lethal. Classifying skin lesions, however, presents several challenges due to the many variations they can exhibit, such as differences in colour, shape, and size, significant variation within the same class, and notable similarities between different classes. This paper introduces a novel class-wise attention technique that equally regards each class while unearthing more specific details about skin lesions. This attention mechanism is progressively used to amalgamate discriminative feature details from multiple scales. The introduced technique demonstrated impressive performance, surpassing more than 15 cutting-edge methods including the winners of HAM1000 and ISIC 2019 leaderboards. It achieved an impressive accuracy rate of 97.40% on the HAM10000 dataset and 94.9% on the ISIC 2019 dataset. | 翻訳日:2023-06-14 16:27:34 公開日:2023-06-11 |
# 付加多次元ガウス過程モデリングとクォークグルーオンプラズマの多物理代理モデルへの応用 Additive Multi-Index Gaussian process modeling, with application to multi-physics surrogate modeling of the quark-gluon plasma ( http://arxiv.org/abs/2306.07299v1 ) ライセンス: Link先を確認 | Kevin Li, Simon Mak, J.-F Paquet, Steffen A. Bass | (参考訳) クォークグルーオンプラズマ(クォークグルーオンプラズマ、英: quark-gluon plasma、qgp)は、ビッグバンの直後に宇宙を満たした核物質の一様相である。
qgpの研究における重要な課題は、実験的可観測性と理論的パラメータを調和させるためには、高次元のパラメータ空間上の複雑な物理モデルの多くのシミュレーション実行が必要であることである。
各ランは計算に非常に高価で、数千時間のCPUを必要とするため、物理学者は数百ランに制限される。
高次元予測のための限られたトレーニングデータを考えると、既存のサロゲートモデルは予測の不確実性が高く、科学的発見が不正確になることが多い。
これを解決するために,パラメータ空間の低次元埋め込みに柔軟な加法構造を利用するAdMIn-GP(Adjectitive Multi-Index Gaussian Process)モデルを提案する。
これは、qgpが複数の異なる物理現象(つまり、複数の物理現象)に支配されているという事前の科学的知識によって導かれる。
フレキシブルベイズ非パラメトリックフレームワーク内のそのような埋め込み構造に対するAdMIn-GPモデルは、点を誘導する注意深く構築された変分推論アプローチによる効率的なモデルフィッティングを容易にする。
数値実験とQGPアプリケーションによるAdMIn-GPの有効性を示すとともに,既存のモデルよりも優れたサロゲートモデリング性能を示す。 The Quark-Gluon Plasma (QGP) is a unique phase of nuclear matter, theorized to have filled the Universe shortly after the Big Bang. A critical challenge in studying the QGP is that, to reconcile experimental observables with theoretical parameters, one requires many simulation runs of a complex physics model over a high-dimensional parameter space. Each run is computationally very expensive, requiring thousands of CPU hours, thus limiting physicists to only several hundred runs. Given limited training data for high-dimensional prediction, existing surrogate models often yield poor predictions with high predictive uncertainties, leading to imprecise scientific findings. To address this, we propose a new Additive Multi-Index Gaussian process (AdMIn-GP) model, which leverages a flexible additive structure on low-dimensional embeddings of the parameter space. This is guided by prior scientific knowledge that the QGP is dominated by multiple distinct physical phenomena (i.e., multiphysics), each involving a small number of latent parameters. The AdMIn-GP models for such embedded structures within a flexible Bayesian nonparametric framework, which facilitates efficient model fitting via a carefully constructed variational inference approach with inducing points. We show the effectiveness of the AdMIn-GP via a suite of numerical experiments and our QGP application, where we demonstrate considerably improved surrogate modeling performance over existing models. | 翻訳日:2023-06-14 16:27:12 公開日:2023-06-11 |
# ソーシャルポストロケーション推論のためのマルチモーダル表現学習 Multi-modal Representation Learning for Social Post Location Inference ( http://arxiv.org/abs/2306.07935v1 ) ライセンス: Link先を確認 | Ruiting Dai, Jiayi Luo, Xucheng Luo, Lisi Mo, Wanlun Ma, Fan Zhou | (参考訳) ソーシャルポストを介して地理的位置を推定することは、製品マーケティング、ポイント・オブ・エコメンデーション、感染者追跡など、多くの実用的な位置情報ベースのアプリケーションにとって不可欠である。
画像に基づく位置検索やソーシャルポストテキストの埋め込みに基づく位置推定とは異なり、ソーシャルポストの位置決めに対するマルチモーダル情報(ポスト画像、テキスト、ハッシュタグ)の併用効果は、あまり注目されない。
本研究では,Instagramから画像,テキスト,ハッシュタグを用いたソーシャルポストの実際のデータセットを収集し,位置推定のためのソーシャルポストのさまざまなモダリティを融合させる新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。
MRLFはマルチヘッドアテンション機構を統合し、位置情報の抽出を強化し、単一のドメインベースの手法と比較して位置推測を大幅に改善する。
そこで本稿では,ソーシャルポストテキストの文字とハッシュタグの相対的依存関係を考慮し,マルチモデル情報融合を柔軟に行う新しい注目型文字認識モジュールを提案する。
実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための扉を開くことができた。 Inferring geographic locations via social posts is essential for many practical location-based applications such as product marketing, point-of-interest recommendation, and infector tracking for COVID-19. Unlike image-based location retrieval or social-post text embedding-based location inference, the combined effect of multi-modal information (i.e., post images, text, and hashtags) for social post positioning receives less attention. In this work, we collect real datasets of social posts with images, texts, and hashtags from Instagram and propose a novel Multi-modal Representation Learning Framework (MRLF) capable of fusing different modalities of social posts for location inference. MRLF integrates a multi-head attention mechanism to enhance location-salient information extraction while significantly improving location inference compared with single domain-based methods. To overcome the noisy user-generated textual content, we introduce a novel attention-based character-aware module that considers the relative dependencies between characters of social post texts and hashtags for flexible multi-model information fusion. The experimental results show that MRLF can make accurate location predictions and open a new door to understanding the multi-modal data of social posts for online inference tasks. | 翻訳日:2023-06-14 12:36:08 公開日:2023-06-11 |
# Deep Demixing: ネットワークエピデミクスの進化を再構築する Deep Demixing: Reconstructing the Evolution of Network Epidemics ( http://arxiv.org/abs/2306.07938v1 ) ライセンス: Link先を確認 | Boning Li, Gojko \v{C}utura, Ananthram Swami, Santiago Segarra | (参考訳) 部分的あるいは集約的な時間情報からネットワーク上で進化する流行を再構築するグラフオートエンコーダであるDeep Demixing(DDmix)モデルを提案する。
ネットワークトポロジーの知識を仮定して,流行モデルではなく,病原体の伝播経路を推定することを目的とする。
データ駆動アプローチは、モデル認識の欠如を克服するために利用される。
この逆問題を解決するために、DDmixは過去の流行拡大から訓練されたグラフ条件変分オートエンコーダとして提案される。
DDmixは、潜在空間における(未知の)拡散力学の重要な側面を捉えようとしている。
合成ネットワークと実世界のネットワークでシミュレーションされた流行拡散を用いて,複数の(非グラフ認識)学習アルゴリズムと比較することにより,ddmixの精度を実証する。
DDmixの汎用性は、異なるタイプのネットワークで強調される。
最後に,提案手法の簡易な後処理拡張により,再構成された伝播経路におけるスーパースプリーダーの同定が可能となることを示す。 We propose the deep demixing (DDmix) model, a graph autoencoder that can reconstruct epidemics evolving over networks from partial or aggregated temporal information. Assuming knowledge of the network topology but not of the epidemic model, our goal is to estimate the complete propagation path of a disease spread. A data-driven approach is leveraged to overcome the lack of model awareness. To solve this inverse problem, DDmix is proposed as a graph conditional variational autoencoder that is trained from past epidemic spreads. DDmix seeks to capture key aspects of the underlying (unknown) spreading dynamics in its latent space. Using epidemic spreads simulated in synthetic and real-world networks, we demonstrate the accuracy of DDmix by comparing it with multiple (non-graph-aware) learning algorithms. The generalizability of DDmix is highlighted across different types of networks. Finally, we showcase that a simple post-processing extension of our proposed method can help identify super-spreaders in the reconstructed propagation path. | 翻訳日:2023-06-14 12:22:37 公開日:2023-06-11 |
# システムサイズの独立な非クリフォードゲート数の効率的なユニタリ設計 Efficient unitary designs with a system-size independent number of non-Clifford gates ( http://arxiv.org/abs/2002.09524v3 ) ライセンス: Link先を確認 | Jonas Haferkamp, Felipe Montealegre-Mora, Markus Heinrich, Jens Eisert, David Gross, Ingo Roth | (参考訳) 多くの量子情報プロトコルはランダムユニタリの実装を必要とする。
フル$n$-qubit群から引き出されたハールランダムなユニタリを生成するには指数的資源を必要とするので、しばしば$t$-designs を用いる。
unitary $t$-designsは、haar-measureを最大$t$-th momentsに模倣する。
クリフォード・オペレーションズが3ドルの設計で実装できることは知られている。
本研究では,この障壁を破るのに必要な非クリフォード資源を定量化する。
我々は、$O(t^{4}\log^{2}(t)\log(1/\varepsilon))$多くの非クリフォードゲートを多項式深さランダムクリフォード回路に注入して、$\varepsilon$-approximate $t$-designを得るだけで十分である。
厳密には、必要となる非クリフォードゲートの数はシステムサイズとは独立であり、漸近的に、非クリフォードゲートの密度はゼロになる傾向がある。
また、ランダムクリフォード回路の収束時間に関する新しい境界をクリフォード群上の一様分布の t$-th モーメントに導出する。
我々の証明は、クリフォード群に対して最近開発されたシュール・ワイル双対性の変種と平均作用素の制限されたスペクトルギャップの境界を利用する。 Many quantum information protocols require the implementation of random unitaries. Because it takes exponential resources to produce Haar-random unitaries drawn from the full $n$-qubit group, one often resorts to $t$-designs. Unitary $t$-designs mimic the Haar-measure up to $t$-th moments. It is known that Clifford operations can implement at most $3$-designs. In this work, we quantify the non-Clifford resources required to break this barrier. We find that it suffices to inject $O(t^{4}\log^{2}(t)\log(1/\varepsilon))$ many non-Clifford gates into a polynomial-depth random Clifford circuit to obtain an $\varepsilon$-approximate $t$-design. Strikingly, the number of non-Clifford gates required is independent of the system size -- asymptotically, the density of non-Clifford gates is allowed to tend to zero. We also derive novel bounds on the convergence time of random Clifford circuits to the $t$-th moment of the uniform distribution on the Clifford group. Our proofs exploit a recently developed variant of Schur-Weyl duality for the Clifford group, as well as bounds on restricted spectral gaps of averaging operators. | 翻訳日:2023-06-14 03:42:52 公開日:2023-06-11 |
# データマイニングによる最小遅延問題に対する最先端ヒューリスティックの改善 Improving a State-of-the-Art Heuristic for the Minimum Latency Problem with Data Mining ( http://arxiv.org/abs/1908.10705v2 ) ライセンス: Link先を確認 | \'Italo Santana, Alexandre Plastino, Isabel Rosseti | (参考訳) 近年, ハイブリッドメタヒューリスティックスが運用研究のトレンドとなっている。
成功例は、Greedy Randomized Adaptive Search procedures (GRASP) とデータマイニング技術を組み合わせることで、高品質なソリューションで頻繁に見られるパターンが探索空間を効率的に探索し、計算時間の大幅な短縮につながる。
本研究では,最小レイテンシ問題(MLP)に対するGRASPに基づく最先端ヒューリスティックを,2種類のMLP変種のデータマイニング技術を用いて改善する。
計算実験により、データマイニングによるアプローチは、大量のインスタンスのソリューション品質に適合または改善することができ、実行時間が大幅に短縮された。
さらに、88の新たなソリューションコスト値が文献に導入されている。
本結果を支援するため, 統計的意義試験, マイニングパターンの使用の影響, 等時比較, ターゲット間プロットについて検討した。 Recently, hybrid metaheuristics have become a trend in operations research. A successful example combines the Greedy Randomized Adaptive Search Procedures (GRASP) and data mining techniques, where frequent patterns found in high-quality solutions can lead to an efficient exploration of the search space, along with a significant reduction of computational time. In this work, a GRASP-based state-of-the-art heuristic for the Minimum Latency Problem (MLP) is improved by means of data mining techniques for two MLP variants. Computational experiments showed that the approaches with data mining were able to match or improve the solution quality for a large number of instances, together with a substantial reduction of running time. In addition, 88 new cost values of solutions are introduced into the literature. To support our results, tests of statistical significance, impact of using mined patterns, equal time comparisons and time-to-target plots are provided. | 翻訳日:2023-06-14 03:42:12 公開日:2023-06-11 |
# SAAを圧倒するデータ駆動アプローチ A data-driven approach to beating SAA out-of-sample ( http://arxiv.org/abs/2105.12342v3 ) ライセンス: Link先を確認 | Jun-ya Gotoh, Michael Jong Kim, Andrew E.B. Lim | (参考訳) 分散ロバスト最適化 (DRO) 問題の解法は、サンプル平均近似 (SAA) よりも期待外報酬が高くなることがあるが、保証はない。
本稿では、分布最適化モデル(DOO)のクラスを紹介し、最悪のケース(DRO)モデルだけでなく、ベストケース(DOO)モデルも考慮すれば、常に '`beat' SAA out-sample が可能であることを示す。
最適化ソリューションは、最悪のケースやSAAオプティマイザよりもモデルエラーに敏感であり、従ってロバスト性は低く、データ制限時に、最悪のケースやベストケースモデルより優れているように調整することは困難である。 While solutions of Distributionally Robust Optimization (DRO) problems can sometimes have a higher out-of-sample expected reward than the Sample Average Approximation (SAA), there is no guarantee. In this paper, we introduce a class of Distributionally Optimistic Optimization (DOO) models, and show that it is always possible to ``beat" SAA out-of-sample if we consider not just worst-case (DRO) models but also best-case (DOO) ones. We also show, however, that this comes at a cost: Optimistic solutions are more sensitive to model error than either worst-case or SAA optimizers, and hence are less robust and calibrating the worst- or best-case model to outperform SAA may be difficult when data is limited. | 翻訳日:2023-06-14 03:40:03 公開日:2023-06-11 |
# タブレット+テキスト質問のためのマルチロー・マルチスパン距離スーパービジョン Multi-Row, Multi-Span Distant Supervision For Table+Text Question ( http://arxiv.org/abs/2112.07337v3 ) ライセンス: Link先を確認 | Vishwajeet Kumar, Yash Gupta, Saneem Chemmengath, Jaydeep Sen, Soumen Chakrabarti, Samarth Bharadwaj, FeiFei Pan | (参考訳) テーブルとリンクされたテキストに対する質問応答(QA)、またはTextTableQA(英語版)は、近年、テーブルが関連するテキストとともにドキュメントに埋め込まれることがしばしば見られるため、重要な研究を目撃している。
HybridQAとOTT-QAは2つの最もよく知られているTextTableQAデータセットであり、テーブルセルとリンクされたテキストパスからの情報を組み合わせることで最もよく答えられる質問である。
両方のデータセットとTextTableQAの一般的な課題は、トレーニングインスタンスには質問と回答のみが含まれており、ゴールドの回答はテーブル行をまたいだ複数のテーブルセルだけでなく、テーブル行とその関連するテキストの範囲内に複数のテキストが分散している可能性があることだ。
これにより、騒がしいマルチインスタンストレーニング体制が生まれる。
MITQAはトランスフォーマーをベースとしたTextTableQAシステムで、これら2つの軸に沿った遠隔監視を多インスタンス損失目標を通じて明示的に設計し、慎重にカリキュラム設計を行う。
提案手法は,HybridQAとOTT-QAの両方の既存のベースラインを破り,HybridQAのリーダーボードの上位にMITQAを配置し,EMとF1のスコアが得られた。 Question answering (QA) over tables and linked text, also called TextTableQA, has witnessed significant research in recent years, as tables are often found embedded in documents along with related text. HybridQA and OTT-QA are the two best-known TextTableQA datasets, with questions that are best answered by combining information from both table cells and linked text passages. A common challenge in both datasets, and TextTableQA in general, is that the training instances include just the question and answer, where the gold answer may match not only multiple table cells across table rows but also multiple text spans within the scope of a table row and its associated text. This leads to a noisy multi instance training regime. We present MITQA, a transformer-based TextTableQA system that is explicitly designed to cope with distant supervision along both these axes, through a multi-instance loss objective, together with careful curriculum design. Our experiments show that the proposed multi-instance distant supervision approach helps MITQA get state-of-the-art results beating the existing baselines for both HybridQA and OTT-QA, putting MITQA at the top of HybridQA leaderboard with best EM and F1 scores on a held out test set. | 翻訳日:2023-06-14 03:29:20 公開日:2023-06-11 |
# ExtremeBB: オンラインHate、Harassment、Manosphere、Extremismに関する大規模研究のためのデータベース ExtremeBB: A Database for Large-Scale Research into Online Hate, Harassment, the Manosphere and Extremism ( http://arxiv.org/abs/2111.04479v2 ) ライセンス: Link先を確認 | Anh V. Vu, Lydia Wilson, Yi Ting Chua, Ilia Shumailov, Ross Anderson | (参考訳) オンラインヘイト、ハラスメント、マノスフィア、その他の過激主義を奨励する12の極右掲示板フォーラムにおいて、38.5kユーザーによる535万以上の投稿のテキストデータベースであるextremebbを紹介する。
ヘイトスピーチと毒性を測定すること、過激主義イデオロギーの異なる鎖の進化を追跡すること、オンラインのサブカルチャー、過激主義の行動と現実世界の暴力の関係を追跡すること、そして過激主義のコミュニティをほぼリアルタイムで監視することである。
これは問題となるイデオロギーの広がりだけでなく、介入の有効性にも光を当てることができる。
ExtremeBBには堅牢な倫理的データ共有体制があり、世界中の学者とデータを共有できる。
2020年以降、12の機関から16の研究グループに49のライセンスが与えられている。 We introduce ExtremeBB, a textual database of over 53.5M posts made by 38.5k users on 12 extremist bulletin board forums promoting online hate, harassment, the manosphere and other forms of extremism. It enables large-scale analyses of qualitative and quantitative historical trends going back two decades: measuring hate speech and toxicity; tracing the evolution of different strands of extremist ideology; tracking the relationships between online subcultures, extremist behaviours, and real-world violence; and monitoring extremist communities in near real time. This can shed light not only on the spread of problematic ideologies but also the effectiveness of interventions. ExtremeBB comes with a robust ethical data-sharing regime that allows us to share data with academics worldwide. Since 2020, access has been granted to 49 licensees in 16 research groups from 12 institutions. | 翻訳日:2023-06-14 03:28:39 公開日:2023-06-11 |
# 時間遅延コヒーレントフィードバックを用いた導波路qed系における非線形スペクトルと多光子効果の量子軌道理論とシミュレーション Quantum Trajectory Theory and Simulations of Nonlinear Spectra and Multi-Photon Effects in Waveguide-QED Systems with a Time-Delayed Coherent Feedback ( http://arxiv.org/abs/2110.09362v3 ) ライセンス: Link先を確認 | Gavin Crowder, Lora Ramunno, and Stephen Hughes | (参考訳) 時間遅延コヒーレントフィードバックを用いた2レベル系の導波路出力に対する非線形スペクトルと多光子相関関数について検討した。
量子軌道シミュレーションを利用する最近の量子軌道離散導波路(QTDW)アプローチと、導波路の衝突モデルを拡張して、そのダイナミクスを正確にシミュレートすることで、これらの観測値を計算する。
一般的な手法の説明に続いて、コヒーレントポンプ場の存在下で、第1および第2次量子相関関数を計算する方法を示す。
短い遅延時間で、フィードバックがモロー三重項の中心ピークをフィルタリングしたり、束ねられた光子と反束光子の出力を、ラウンドトリップフェーズの適切な選択によって切り替える方法について示します。
さらに,ループ長とラウンドトリップ位相が,束ねや反束の指標であるゼロタイム2次量子相関関数にどのように影響するかを示す。
フィードバックループを通じて導入された新しい共鳴は、導波路からの無干渉出力スペクトルの出現によっても示される。
これらの結果は,QTDWモデルで容易にアクセス可能な確率的観測値である,システム出力と個々の軌跡の待ち時間分布の文脈で説明される。 We study the nonlinear spectra and multi-photon correlation functions for the waveguide output of a two-level system (including realistic dissipation channels) with a time-delayed coherent feedback. We compute these observables by extending a recent quantum trajectory discretized-waveguide (QTDW) approach which exploits quantum trajectory simulations and a collisional model for the waveguide to tractably simulate the dynamics. Following a description of the general technique, we show how to calculate the first and second order quantum correlation functions, in the presence of a coherent pumping field. With a short delay time, we show how feedback can be used to filter out the central peak of the Mollow triplet or switch the output between bunched and anti-bunched photons by proper choice of round trip phase. We further show how the loop length and round trip phase effects the zero-time second order quantum correlation function, an indicator of bunching or anti-bunching. New resonances introduced through the feedback loop are also shown through their appearance in the incoherent output spectrum from the waveguide. We explain these results in the context of the waiting time distributions of the system output and individual trajectories, uniquely stochastic observables that are easily accessible with the QTDW model. | 翻訳日:2023-06-14 03:27:45 公開日:2023-06-11 |
# 数種類の勾配に対するマルチプロキシアンカーファミリー損失 Multi Proxy Anchor Family Loss for Several Types of Gradients ( http://arxiv.org/abs/2110.03997v8 ) ライセンス: Link先を確認 | Shozo Saeki, Minoru Kawahara, and Hirohisa Aman | (参考訳) deep metric learning(dml)の目的は、類似したデータが近く、類似したデータが遠くにある埋め込み空間にマップするニューラルネットワークを学ぶことである。
しかし、従来のプロキシベースのDMLの損失には、勾配問題と複数のローカルセンターを持つ実世界のデータセットの適用の2つの問題がある。
さらに、DMLのパフォーマンス指標には、安定性と柔軟性にもいくつかの問題がある。
本稿では、3つのマルチプロキシアンカー(mpa)ファミリーロスと正規化ディスカウント累積ゲイン(ndcg@k)メトリックを提案する。
この論文には3つの貢献がある。
1)マルチローカルセンターを持つ実世界のデータセットを用いて,MPAファミリーの損失を学習することができる。
2) MPAファミリーの損失は勾配問題の解決によるニューラルネットワークのトレーニング能力を向上させる。
3) MPAファミリーの損失は, 勾配発生に関するデータワイド, クラスワイド特性を有する。
最後に, MPAファミリーの損失の有効性を実証し, MPAファミリーの損失は細粒度画像の2つのデータセットに対して高い精度を実現する。 The deep metric learning (DML) objective is to learn a neural network that maps into an embedding space where similar data are near and dissimilar data are far. However, conventional proxy-based losses for DML have two problems: gradient problem and application of the real-world dataset with multiple local centers. Additionally, the performance metrics of DML also have some issues with stability and flexibility. This paper proposes three multi-proxies anchor (MPA) family losses and a normalized discounted cumulative gain (nDCG@k) metric. This paper makes three contributions. (1) MPA-family losses can learn using a real-world dataset with multi-local centers. (2) MPA-family losses improve the training capacity of a neural network owing to solving the gradient problem. (3) MPA-family losses have data-wise or class-wise characteristics with respect to gradient generation. Finally, we demonstrate the effectiveness of MPA-family losses, and MPA-family losses achieves higher accuracy on two datasets for fine-grained images. | 翻訳日:2023-06-14 03:27:03 公開日:2023-06-11 |
# EvadeDroid: ブラックボックスAndroidマルウェア検出のための機械学習の実践的侵入攻撃 EvadeDroid: A Practical Evasion Attack on Machine Learning for Black-box Android Malware Detection ( http://arxiv.org/abs/2110.03301v3 ) ライセンス: Link先を確認 | Hamid Bostani and Veelasha Moonsamy | (参考訳) 過去10年間、研究者は回避攻撃の開発を通じて、Androidのマルウェア検出装置の脆弱性を広範囲に調査してきたが、現実のシナリオにおけるこれらの攻撃の実用性は議論の余地がある。
多くの研究は、攻撃者がマルウェア検出に使用されるターゲット分類器の詳細を知っていると仮定しているが、実際、悪意のあるアクターはターゲット分類器へのアクセスを制限している。
本稿では,現実のシナリオにおいて,ブラックボックスのAndroidマルウェア検出を効果的に回避するために設計された,現実的な意思決定に基づく敵攻撃であるEvadeDroidを紹介する。
現実のマルウェアを生成することに加えて、提案された回避攻撃は、元のマルウェアアプリケーション(アプリ)の機能を保存することもできる。
EvadeDroidは、n-gramベースのアプローチを利用して、マルウェアアプリとオプコードレベルの類似性を共有できる良質なドナーから派生した機能保存変換のコレクションを構築する。
これらの変換は、反復的かつ漸進的な操作戦略を通じて、マルウェアインスタンスを良質なインスタンスに変換するために使用される。
提案手法は,マルウェアアプリに最適な変換シーケンスを検出および注入可能な,クエリ効率の良い新しい最適化アルゴリズムである。
EvadeDroidのソフトおよびハードラベル攻撃に対する有効性を示す実験的検討を行った。
さらに、EvadeDroidは、ブラックボックスMLベースのマルウェア検出を最小限のクエリ要求で効果的に回避できる現実世界の敵の例を生成する能力を示している。
最後に,提案する課題空間敵攻撃は,市販の5つのアンチウイルスに対してステルス性を維持し,実世界での可能性を示すことができることを示した。 Over the last decade, researchers have extensively explored the vulnerabilities of Android malware detectors to adversarial examples through the development of evasion attacks; however, the practicality of these attacks in real-world scenarios remains arguable. The majority of studies have assumed attackers know the details of the target classifiers used for malware detection, while in reality, malicious actors have limited access to the target classifiers. This paper introduces EvadeDroid, a practical decision-based adversarial attack designed to effectively evade black-box Android malware detectors in real-world scenarios. In addition to generating real-world adversarial malware, the proposed evasion attack can also preserve the functionality of the original malware applications (apps). EvadeDroid constructs a collection of functionality-preserving transformations derived from benign donors that share opcode-level similarity with malware apps by leveraging an n-gram-based approach. These transformations are then used to morph malware instances into benign ones via an iterative and incremental manipulation strategy. The proposed manipulation technique is a novel, query-efficient optimization algorithm that can find and inject optimal sequences of transformations into malware apps. Our empirical evaluation demonstrates the efficacy of EvadeDroid under soft- and hard-label attacks. Furthermore, EvadeDroid exhibits the capability to generate real-world adversarial examples that can effectively evade a wide range of black-box ML-based malware detectors with minimal query requirements. Finally, we show that the proposed problem-space adversarial attack is able to preserve its stealthiness against five popular commercial antiviruses, thus demonstrating its feasibility in the real world. | 翻訳日:2023-06-14 03:26:48 公開日:2023-06-11 |
# SubseasonalClimateUSA:Subseasonal ForecastingとBenchmarkingのためのデータセット SubseasonalClimateUSA: A Dataset for Subseasonal Forecasting and Benchmarking ( http://arxiv.org/abs/2109.10399v3 ) ライセンス: Link先を確認 | Soukayna Mouatadid, Paulo Orenstein, Genevieve Flaspohler, Miruna Oprescu, Judah Cohen, Franklyn Wang, Sean Knight, Maria Geogdzhayeva, Sam Levang, Ernest Fraenkel and Lester Mackey | (参考訳) 前もって2週間から6週間の天気予報は資源配分や気候適応に重要であるが、予報コミュニティには多くの課題がある。
この予測の地平線において、物理学に基づく力学モデルはスキルが限られており、予測のターゲットは地域気象と地球規模の気候変数の両方に複雑に依存する。
近年、機械学習の手法は、技術の進歩において有望であるが、複雑なデータキュレーションのコスト、専門家の知識と複数の関連するデータソース、ファイルフォーマット、時間的および空間的な解像度を集約する。
このプロセスを合理化し,今後の発展を加速するために,米国におけるサブシーズン予測モデルのトレーニングとベンチマークのためのキュレートデータセットであるSubseasonalClimateUSAを導入する。
このデータセットを用いて,操作力学モデル,古典的気象ベースライン,最先端機械学習と深層学習に基づく手法など,さまざまなサブシーズンモデルのベンチマークを行う。
全体として、我々のベンチマークは、現在の運用モデルの精度を高めるためのシンプルで効果的な方法を提案する。
SubseasonalClimateUSAは、https://github.com/microsoft/subseasonal_data/ Pythonパッケージを通じて定期的に更新され、アクセスできる。 Subseasonal forecasting of the weather two to six weeks in advance is critical for resource allocation and climate adaptation but poses many challenges for the forecasting community. At this forecast horizon, physics-based dynamical models have limited skill, and the targets for prediction depend in a complex manner on both local weather and global climate variables. Recently, machine learning methods have shown promise in advancing the state of the art but only at the cost of complex data curation, integrating expert knowledge with aggregation across multiple relevant data sources, file formats, and temporal and spatial resolutions. To streamline this process and accelerate future development, we introduce SubseasonalClimateUSA, a curated dataset for training and benchmarking subseasonal forecasting models in the United States. We use this dataset to benchmark a diverse suite of subseasonal models, including operational dynamical models, classical meteorological baselines, and ten state-of-the-art machine learning and deep learning-based methods from the literature. Overall, our benchmarks suggest simple and effective ways to extend the accuracy of current operational models. SubseasonalClimateUSA is regularly updated and accessible via the https://github.com/microsoft/subseasonal_data/ Python package. | 翻訳日:2023-06-14 03:26:22 公開日:2023-06-11 |
# 自己監督型プレトレーニングにおける個人領域因子の影響の測定 Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training ( http://arxiv.org/abs/2203.00648v3 ) ライセンス: Link先を確認 | Ramon Sanabria, Wei-Ning Hsu, Alexei Baevski, Michael Auli | (参考訳) 人間の音声データにはアクセント、構文、意味の多様性、音響環境といったドメイン要素が豊富に含まれている。
従来,事前学習と微調整の音声認識におけるドメインミスマッチの効果について検討してきたが,個々の要因の寄与を判別することはできなかった。
本稿では,事前学習された表現が自動音声認識に与える影響をよりよく理解するための制御された研究を提案する。
そこで本研究では,修正された自然言語や合成音声を1つのドメインファクタで事前学習し,微調整後の性能を計測する。
その結果,音素領域因子は事前学習において重要な役割を担っていることが明らかとなった。
本研究は,音声の自己教師付き事前学習において,事前学習集合のドメイン特性をよりよく理解する最初の研究である。 Human speech data comprises a rich set of domain factors such as accent, syntactic and semantic variety, or acoustic environment. Previous work explores the effect of domain mismatch in automatic speech recognition between pre-training and fine-tuning as a whole but does not dissect the contribution of individual factors. In this paper, we present a controlled study to better understand the effect of such factors on the performance of pre-trained representations on automatic speech recognition. To do so, we pre-train models either on modified natural speech or synthesized audio, with a single domain factor modified, and then measure performance after fine-tuning. Results show that phonetic domain factors play an important role during pre-training while grammatical and syntactic factors are far less important. To our knowledge, this is the first study to better understand the domain characteristics of pre-trained sets in self-supervised pre-training for speech. | 翻訳日:2023-06-14 03:19:45 公開日:2023-06-11 |
# 円滑なリスク対策の最適化のための政策勾配アプローチ A policy gradient approach for optimization of smooth risk measures ( http://arxiv.org/abs/2202.11046v3 ) ライセンス: Link先を確認 | Nithia Vijayan and Prashanth L.A | (参考訳) 本稿では,リスクに敏感な強化学習(rl)問題を解決するためのポリシー勾配アルゴリズムを提案する。
我々は,エピソジックマルコフ決定過程を検討し,累積割引報酬の円滑なリスク対策の幅広いクラスを用いてリスクをモデル化する。
そこで我々は,2つのテンプレートポリシー勾配アルゴリズムを提案し,それぞれがオンラインとオフラインのRL設定におけるスムーズなリスク尺度を最適化する。
提案アルゴリズムの収束率をスムーズなリスク尺度の定常点に定量化する非漸近境界を導出する。
特殊な場合として,提案アルゴリズムは平均分散度と歪みリスク度をそれぞれ最適化する。 We propose policy gradient algorithms for solving a risk-sensitive reinforcement learning (RL) problem in on-policy as well as off-policy settings. We consider episodic Markov decision processes, and model the risk using the broad class of smooth risk measures of the cumulative discounted reward. We propose two template policy gradient algorithms that optimize a smooth risk measure in on-policy and off-policy RL settings, respectively. We derive non-asymptotic bounds that quantify the rate of convergence of our proposed algorithms to a stationary point of the smooth risk measure. As special cases, we establish that our algorithms apply to optimization of mean-variance and distortion risk measures, respectively. | 翻訳日:2023-06-14 03:18:55 公開日:2023-06-11 |
# 暗号通貨の評価 - 説明可能なAIアプローチ Cryptocurrency Valuation: An Explainable AI Approach ( http://arxiv.org/abs/2201.12893v6 ) ライセンス: Link先を確認 | Yulin Liu and Luyao Zhang | (参考訳) 現在、暗号通貨資産の基礎に関する説得力のあるプロキシは存在しない。
本稿では、独自のブロックチェーン会計手法を用いて、新しい市場間投資比率(PU比)を提案する。
その後、Bitcoinの履歴データによって、さまざまな基本的な市場比をプロキシし、短期的なbitcoinリターンの予測力はほとんどない。
しかし、pu比率は、他の方法よりも長期bitcoinリターンを効果的に予測する。
さらに,機械学習を用いてPU比の説明可能性を検証する。
最後に、PU比によって推奨される自動取引戦略を提示する。
第1に、私たちの市場と資金の比率は、古典的な金融理論と、アドホックではなくBitcoin会計のユニークなUTXOモデルに基づくものであり、第2に、この比率の買い得と売り上げ高の影響を実証する実証的証拠であり、最後に、将来の研究において例外となるPython Package Indexを介して、オープンソースソフトウェアとしてトレーディングアルゴリズムを配布する。 Currently, there are no convincing proxies for the fundamentals of cryptocurrency assets. We propose a new market-to-fundamental ratio, the price-to-utility (PU) ratio, utilizing unique blockchain accounting methods. We then proxy various existing fundamental-to-market ratios by Bitcoin historical data and find they have little predictive power for short-term bitcoin returns. However, PU ratio effectively predicts long-term bitcoin returns than alternative methods. Furthermore, we verify the explainability of PU ratio using machine learning. Finally, we present an automated trading strategy advised by the PU ratio that outperforms the conventional buy-and-hold and market-timing strategies. Our research contributes to explainable AI in finance from three facets: First, our market-to-fundamental ratio is based on classic monetary theory and the unique UTXO model of Bitcoin accounting rather than ad hoc; Second, the empirical evidence testifies the buy-low and sell-high implications of the ratio; Finally, we distribute the trading algorithms as open-source software via Python Package Index for future research, which is exceptional in finance research. | 翻訳日:2023-06-14 03:18:02 公開日:2023-06-11 |
# 学習と最適化による説明可能なAI Explainable AI via Learning to Optimize ( http://arxiv.org/abs/2204.14174v2 ) ライセンス: Link先を確認 | Howard Heaton and Samy Wu Fung | (参考訳) 機械学習(ML)では非解読可能なブラックボックスが一般的であるが、アプリケーションは説明可能な人工知能(XAI)を必要としている。
XAIの中核は、透明で解釈可能なデータ駆動アルゴリズムを確立することである。
この作業は、事前の知識を符号化し、信頼できない推論をフラグ付けしなければならない状況において、XAIのための具体的なツールを提供する。
各推論がデータ駆動最適化問題を解決する"learn to optimize"(l2o)方法論を使用する。
私たちのl2oモデルは実装が簡単で、事前知識を直接エンコードし、理論的保証(例えば制約の満足度)を与えます。
また,モデル推論が信頼できるかどうかを検証するために,解釈可能な証明書の利用を提案する。
数値的な例は、辞書ベースの信号回復、CTイメージング、および暗号通貨の仲裁取引の適用例である。
コードと追加のドキュメントはhttps://xai-l2o.research.typal.academyにある。 Indecipherable black boxes are common in machine learning (ML), but applications increasingly require explainable artificial intelligence (XAI). The core of XAI is to establish transparent and interpretable data-driven algorithms. This work provides concrete tools for XAI in situations where prior knowledge must be encoded and untrustworthy inferences flagged. We use the "learn to optimize" (L2O) methodology wherein each inference solves a data-driven optimization problem. Our L2O models are straightforward to implement, directly encode prior knowledge, and yield theoretical guarantees (e.g. satisfaction of constraints). We also propose use of interpretable certificates to verify whether model inferences are trustworthy. Numerical examples are provided in the applications of dictionary-based signal recovery, CT imaging, and arbitrage trading of cryptoassets. Code and additional documentation can be found at https://xai-l2o.research.typal.academy. | 翻訳日:2023-06-14 03:09:33 公開日:2023-06-11 |
# 自己回帰型ドリフト検出方法 Autoregressive based Drift Detection Method ( http://arxiv.org/abs/2203.04769v2 ) ライセンス: Link先を確認 | Mansour Zoubeirou A Mayaki and Michel Riveill | (参考訳) 古典的な機械学習フレームワークでは、モデルは過去のデータに基づいてトレーニングされ、将来の価値を予測するために使用される。
データ分布は時間とともに変化しない(定常性)と仮定される。
しかし、現実のシナリオでは、データ生成プロセスは時間とともに変化し、モデルは新しい入力データに適応する必要があります。
この現象は概念ドリフトと呼ばれ、予測モデルの性能が低下する。
本研究では,ADDMと呼ばれる自己回帰モデルに基づく新しいドリフト検出手法を提案する。
この方法は、ディープニューラルネットワークから単純な線形回帰モデルまで、あらゆる機械学習アルゴリズムに統合することができる。
提案手法は, 合成データセットと実世界のデータセットの両方において, 最先端のドリフト検出方法よりも優れていることを示す。
提案手法は理論的に保証され,様々な概念ドリフトの検出に有効である。
ドリフト検出器に加えて,ドリフトの重大度に基づく新しいドリフト適応法を提案した。 In the classic machine learning framework, models are trained on historical data and used to predict future values. It is assumed that the data distribution does not change over time (stationarity). However, in real-world scenarios, the data generation process changes over time and the model has to adapt to the new incoming data. This phenomenon is known as concept drift and leads to a decrease in the predictive model's performance. In this study, we propose a new concept drift detection method based on autoregressive models called ADDM. This method can be integrated into any machine learning algorithm from deep neural networks to simple linear regression model. Our results show that this new concept drift detection method outperforms the state-of-the-art drift detection methods, both on synthetic data sets and real-world data sets. Our approach is theoretically guaranteed as well as empirical and effective for the detection of various concept drifts. In addition to the drift detector, we proposed a new method of concept drift adaptation based on the severity of the drift. | 翻訳日:2023-06-14 03:08:01 公開日:2023-06-11 |
# RealAEによるレベルアップ: Androidのマルウェア検出のロバスト性を高めるために特徴空間におけるドメイン制約を活用する Level Up with RealAEs: Leveraging Domain Constraints in Feature Space to Strengthen Robustness of Android Malware Detection ( http://arxiv.org/abs/2205.15128v3 ) ライセンス: Link先を確認 | Hamid Bostani, Zhengyu Zhao, Zhuoran Liu, Veelasha Moonsamy | (参考訳) 敵の例に対する脆弱性は、マシンラーニング(ML)ベースのAndroidマルウェア検出において、依然として大きな障害となっている。
Androidマルウェアドメインにおける現実的な攻撃は、Realizable Adversarial Examples (RealAEs)、すなわちAndroidマルウェアのドメイン制約を満たすAEを作成する。
近年の研究では、RealAEs in Adversarial Training (AT)は非現実的なAEs(unRealAEs)よりも現実的な攻撃に対する防御に有効であることが示されている。
これはRealAEが、現実的な攻撃に対して脆弱な機能領域において、ディフェンダーが特定のポケットを探索できるようにするためである。
しかし、既存の防衛は一般に問題空間でRealAEを生成するが、これはATにとって時間がかかり非現実的であることが知られている。
本稿では,よりシンプルで効率的な解法を実現するために,機能空間における実数を生成することを提案する。
当社のアプローチは,機能領域におけるAndroidドメイン制約の新たな解釈によるものです。
具体的には,データから有意義な特徴依存を抽出し,AT中に特徴空間RealAEの生成に適用することにより,まず特徴空間領域の制約を学習する。
有名なAndroidマルウェア検出装置であるDREBINの大規模な実験により、我々の新しい防御効果は、非RealAEベースのATだけでなく、非一様摂動に依存する最先端の防御能力でも優れていることが実証された。
我々は,Androidのマルウェア特性を表現する上で,学習した機能空間ドメイン制約が,RealAEとunRealAEの区別に役立つことを示すことによって,さらに検証を行った。 The vulnerability to adversarial examples remains one major obstacle for Machine Learning (ML)-based Android malware detection. Realistic attacks in the Android malware domain create Realizable Adversarial Examples (RealAEs), i.e., AEs that satisfy the domain constraints of Android malware. Recent studies have shown that using such RealAEs in Adversarial Training (AT) is more effective in defending against realistic attacks than using unrealizable AEs (unRealAEs). This is because RealAEs allow defenders to explore certain pockets in the feature space that are vulnerable to realistic attacks. However, existing defenses commonly generate RealAEs in the problem space, which is known to be time-consuming and impractical for AT. In this paper, we propose to generate RealAEs in the feature space, leading to a simpler and more efficient solution. Our approach is driven by a novel interpretation of Android domain constraints in the feature space. More concretely, our defense first learns feature-space domain constraints by extracting meaningful feature dependencies from data and then applies them to generating feature-space RealAEs during AT. Extensive experiments on DREBIN, a well-known Android malware detector, demonstrate that our new defense outperforms not only unRealAE-based AT but also the state-of-the-art defense that relies on non-uniform perturbations. We further validate the ability of our learned feature-space domain constraints in representing Android malware properties by showing that our feature-space domain constraints can help distinguish RealAEs from unRealAEs. | 翻訳日:2023-06-14 03:00:09 公開日:2023-06-11 |
# quic-fl: フェデレーション学習のための素早い非偏り圧縮 QUIC-FL: Quick Unbiased Compression for Federated Learning ( http://arxiv.org/abs/2205.13341v4 ) ライセンス: Link先を確認 | Ran Ben Basat, Shay Vargaftik, Amit Portnoy, Gil Einziger, Yaniv Ben-Itzhak, Michael Mitzenmacher | (参考訳) 分散平均推定(Distributed Mean Estimation, DME)は、$n$クライアントが平均を推定するパラメータサーバにベクトルを通信する手法であり、コミュニケーション効率のよいフェデレーション学習における基本的な構成要素である。
本稿では,符号化や復号の複雑さを漸近的に改善することにより,O(1/n)$正規化平均二乗誤差(NMSE)保証を実現する従来のDME技術を改善する。
これを実現するために,本研究では,既製の数学的解法を用いて量子化を設計できる新しい方法で問題を定式化する。 Distributed Mean Estimation (DME), in which $n$ clients communicate vectors to a parameter server that estimates their average, is a fundamental building block in communication-efficient federated learning. In this paper, we improve on previous DME techniques that achieve the optimal $O(1/n)$ Normalized Mean Squared Error (NMSE) guarantee by asymptotically improving the complexity for either encoding or decoding (or both). To achieve this, we formalize the problem in a novel way that allows us to use off-the-shelf mathematical solvers to design the quantization. | 翻訳日:2023-06-14 02:59:11 公開日:2023-06-11 |
# ClaimDiff: 論争的な問題に関する主張の比較と対比 ClaimDiff: Comparing and Contrasting Claims on Contentious Issues ( http://arxiv.org/abs/2205.12221v2 ) ライセンス: Link先を確認 | Miyoung Ko, Ingyu Seong, Hwaran Lee, Joonsuk Park, Minsuk Chang, Minjoon Seo | (参考訳) 誤情報の検知の重要性が高まる中、多くの研究は証拠を検索することで事実の主張を検証することに注力している。
しかし、正準事実検証タスクは、事実に一貫性のある主張における微妙な違いを捉えることには適用されない。
我々の根底にある前提は、信頼できる情報源の中で、その議論は必ずしも他方よりも真ではなく、検証よりも比較を必要とするということである。
本研究では,クレームペア間のニュアンスを比較することを中心に,新たなデータセットであるクレームディファクトを提案する。
ClaimDiffでは、268のニュース記事から2,941の注釈付きクレームペアを提供する。
人間はクレーム間のニュアンスを検出することができるが、強いベースラインはそれらを検出するのに苦労し、人間と19%以上の絶対的なギャップを示す。
この最初の研究は、機械学習による比較を通じて、読者が議論の余地のない問題を把握するのに役立つことを期待している。 With the growing importance of detecting misinformation, many studies have focused on verifying factual claims by retrieving evidence. However, canonical fact verification tasks do not apply to catching subtle differences in factually consistent claims, which might still bias the readers, especially on contentious political or economic issues. Our underlying assumption is that among the trusted sources, one's argument is not necessarily more true than the other, requiring comparison rather than verification. In this study, we propose ClaimDiff, a novel dataset that primarily focuses on comparing the nuance between claim pairs. In ClaimDiff, we provide 2,941 annotated claim pairs from 268 news articles. We observe that while humans are capable of detecting the nuances between claims, strong baselines struggle to detect them, showing over a 19% absolute gap with the humans. We hope this initial study could help readers to gain an unbiased grasp of contentious issues through machine-aided comparison. | 翻訳日:2023-06-14 02:58:59 公開日:2023-06-11 |
# 多重空間プロテオミクスチャネルの臨床駆動型生成画像合成のためのSSIMガイドcGANアーキテクチャ A SSIM Guided cGAN Architecture For Clinically Driven Generative Image Synthesis of Multiplexed Spatial Proteomics Channels ( http://arxiv.org/abs/2205.10373v2 ) ライセンス: Link先を確認 | Jillur Rahman Saurav, Mohammad Sadegh Nasr, Paul Koomey, Michael Robben, Manfred Huber, Jon Weidanz, Br\'id Ryan, Eytan Ruppin, Peng Jiang, and Jacob M. Luber | (参考訳) 本稿では,複数空間プロテオミクス画像中の光精度の高いタンパク質チャネルを生成するために,画像合成(i2i)を生成的に行う構造類似度指標尺度(SSIM)について述べる。
このアプローチは、ベンチまたはクリニックでの実験データ収集中に含まれなかった空間的プロテオミクスチャネルを正確に生成するために利用できる。
HuBMAP(Human BioMolecular Atlas Program)から得られた実験空間プロテオミクスデータは、U-Netベースの画像合成パイプラインを介して欠失タンパク質の空間的表現を生成するために用いられた。
HuBMAPチャネルは、タンパク質の空間的景観に代表される基盤生物学を再カプセル化するために必要な最小限のセットを得るために、ヒューリスティックとして(SSIM)によって階層的にクラスタリングされた。
その後、ssimベースのアーキテクチャにより、最大100チャンネルのスライドによる生成画像合成のスケーリングが可能になり、11チャンネルのデータに限定されたartアルゴリズムの現在の状態よりも優れていることを証明します。
我々は,ヒト肺腺癌組織から得られた新しい実験的空間プロテオミクスデータを生成し,HuBMAPで訓練されたモデルが我々の新しいデータセットからチャネルを正確に合成できることを検証した。
空間的プロテオミクスを含む疎染色多重組織スライドからの実験データを再カプセル化できることは、医療診断や薬物開発に多大な影響を与え、臨床現場で生成画像合成によって生成されたデータを活用するという医療倫理に重要な疑問を提起する。
本稿では,プロテオミクスに基づく組織染色の時間とコストを削減できるとともに,実験によって生成できるデータ量を増大させるアルゴリズムを提案する。 Here we present a structural similarity index measure (SSIM) guided conditional Generative Adversarial Network (cGAN) that generatively performs image-to-image (i2i) synthesis to generate photo-accurate protein channels in multiplexed spatial proteomics images. This approach can be utilized to accurately generate missing spatial proteomics channels that were not included during experimental data collection either at the bench or the clinic. Experimental spatial proteomic data from the Human BioMolecular Atlas Program (HuBMAP) was used to generate spatial representations of missing proteins through a U-Net based image synthesis pipeline. HuBMAP channels were hierarchically clustered by the (SSIM) as a heuristic to obtain the minimal set needed to recapitulate the underlying biology represented by the spatial landscape of proteins. We subsequently prove that our SSIM based architecture allows for scaling of generative image synthesis to slides with up to 100 channels, which is better than current state of the art algorithms which are limited to data with 11 channels. We validate these claims by generating a new experimental spatial proteomics data set from human lung adenocarcinoma tissue sections and show that a model trained on HuBMAP can accurately synthesize channels from our new data set. The ability to recapitulate experimental data from sparsely stained multiplexed histological slides containing spatial proteomic will have tremendous impact on medical diagnostics and drug development, and also raises important questions on the medical ethics of utilizing data produced by generative image synthesis in the clinical setting. The algorithm that we present in this paper will allow researchers and clinicians to save time and costs in proteomics based histological staining while also increasing the amount of data that they can generate through their experiments. | 翻訳日:2023-06-14 02:58:43 公開日:2023-06-11 |
# vmrf: ニューラルネットワークの輝度フィールドをマッチングするビュー VMRF: View Matching Neural Radiance Fields ( http://arxiv.org/abs/2207.02621v2 ) ライセンス: Link先を確認 | Jiahui Zhang and Fangneng Zhan and Rongliang Wu and Yingchen Yu and Wenqing Zhang and Bai Song and Xiaoqin Zhang and Shijian Lu | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、多視点2次元画像から暗黙的に3次元表現をモデル化することで、新しいビュー合成において非常に印象的な性能を示した。
しかし、既存のほとんどの研究は、適切なカメラでNeRFモデルを訓練し、初期化または手作りのカメラポーズの分布を訓練している。
我々は、カメラポーズやカメラポーズの分布について事前知識を必要とせず、効果的なNeRFトレーニングを可能にする革新的な視野マッチングNeRFであるVMRFを設計する。
VMRFは、不均衡な最適輸送を利用するビューマッチングスキームを導入し、レンダリングされた画像とランダムに初期化されたカメラのポーズを対応する実画像にマッピングする特徴輸送計画を生成する。
特徴伝達プランをガイダンスとして、レンダリング画像と実画像の相対的なポーズ変換を予測することにより、初期ランダム化されたカメラポーズを補正する新しいポーズキャリブレーション手法を設計する。
多数の合成および実データに対する大規模な実験により、提案されたVMRFは、最先端の最先端を質的に、定量的に、大きなマージンで上回ることを示した。 Neural Radiance Fields (NeRF) have demonstrated very impressive performance in novel view synthesis via implicitly modelling 3D representations from multi-view 2D images. However, most existing studies train NeRF models with either reasonable camera pose initialization or manually-crafted camera pose distributions which are often unavailable or hard to acquire in various real-world data. We design VMRF, an innovative view matching NeRF that enables effective NeRF training without requiring prior knowledge in camera poses or camera pose distributions. VMRF introduces a view matching scheme, which exploits unbalanced optimal transport to produce a feature transport plan for mapping a rendered image with randomly initialized camera pose to the corresponding real image. With the feature transport plan as the guidance, a novel pose calibration technique is designed which rectifies the initially randomized camera poses by predicting relative pose transformations between the pair of rendered and real images. Extensive experiments over a number of synthetic and real datasets show that the proposed VMRF outperforms the state-of-the-art qualitatively and quantitatively by large margins. | 翻訳日:2023-06-14 02:50:02 公開日:2023-06-11 |
# フェデレーションオフライン強化学習 Federated Offline Reinforcement Learning ( http://arxiv.org/abs/2206.05581v2 ) ライセンス: Link先を確認 | Doudou Zhou, Yufeng Zhang, Aaron Sonabend-W, Zhaoran Wang, Junwei Lu, Tianxi Cai | (参考訳) Evidence-based or data-driven dynamic treatment systemsは、オフライン強化学習(RL)の恩恵を受け得るパーソナライズド医療に不可欠である。
医療データは医療機関で利用できるが、プライバシー上の制約により共有は禁止されている。
さらに、異質性は異なる場所に存在する。
その結果、フェデレーションされたオフラインrlアルゴリズムが必要となり、問題に対処することを約束する。
本稿では,サイト間の均質な効果と不均質な効果を両立できるマルチサイトマルコフ決定過程モデルを提案する。
提案モデルにより,サイトレベルの特徴の分析が可能となる。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムは通信効率とプライバシ保護であり,要約統計を交換することで,単一の通信インタラクションのみを必要とする。
十分な動作カバレッジを前提にせず,提案アルゴリズムに理論的保証を与える。学習したポリシの最適性は,データが分散していない場合と同程度である。
大規模なシミュレーションにより,提案アルゴリズムの有効性が示された。
この方法は、複数のサイトにあるsepsisデータセットに適用され、臨床環境での使用を説明する。 Evidence-based or data-driven dynamic treatment regimes are essential for personalized medicine, which can benefit from offline reinforcement learning (RL). Although massive healthcare data are available across medical institutions, they are prohibited from sharing due to privacy constraints. Besides, heterogeneity exists in different sites. As a result, federated offline RL algorithms are necessary and promising to deal with the problems. In this paper, we propose a multi-site Markov decision process model which allows both homogeneous and heterogeneous effects across sites. The proposed model makes the analysis of the site-level features possible. We design the first federated policy optimization algorithm for offline RL with sample complexity. The proposed algorithm is communication-efficient and privacy-preserving, which requires only a single round of communication interaction by exchanging summary statistics. We give a theoretical guarantee for the proposed algorithm without the assumption of sufficient action coverage, where the suboptimality for the learned policies is comparable to the rate as if data is not distributed. Extensive simulations demonstrate the effectiveness of the proposed algorithm. The method is applied to a sepsis data set in multiple sites to illustrate its use in clinical settings. | 翻訳日:2023-06-14 02:48:08 公開日:2023-06-11 |
# 有限深度ユニタリからの位相秩序の階層性、測定とフィードフォワード Hierarchy of topological order from finite-depth unitaries, measurement and feedforward ( http://arxiv.org/abs/2209.06202v2 ) ライセンス: Link先を確認 | Nathanan Tantivasadakarn, Ashvin Vishwanath, Ruben Verresen | (参考訳) 長距離絡み合い-位相秩序状態のバックボーン--局所的なユニタリ回路、またはそれと同値な断熱状態準備を使用して有限時間で作成できない。
最近、単一部位の測定が抜け穴を提供し、特定の場合において有限時間状態の準備を可能にすることが判明した。
ここでは、この観測が「ショット」と呼ばれる状態を生成するのに必要な最小限の測定層に基づいて、長距離の絡み合った状態に複雑な階層を課す方法を示す。
まず、アベリア安定化状態(英語版)と同様、非アベリア量子双対(例えば$D_4$や$Q_8$)を持つ群の任意の非アベリア量子双対を生成するための単一ショットプロトコルを構築する。
測定後、波動関数は常に望まれる非アベリア位相順に崩壊し、測定結果を記録する条件が示される。
さらに、クリーンな量子二重基底状態は、測定結果に依存するフィードフォワードゲートを介して決定的に作成することができる。
第二に、有限個のショットが任意の可解対称性群に対するクラマース・ワニエ双対変換(すなわちゲージ写像)を実装できるという最初の構成的証明を与える。
特別な場合として、これは全ての可解群に対してツイスト量子二重を作成するための明示的なプロトコルを与える。
第三に、非可解な量子双対やフィボナッチアロンのようなある種の位相順序は、有限深度ユニタリと測定の同値類の下で非自明な物質の位相を定義するが、これは任意の有限個のショットで準備できない。
さらに、ゲートが指数関数的に小さな尾を持つことを許す結果について検討し、例えば、キラルなものを含む任意のアベリア正午理論を準備できる。
この階層構造は、量子シミュレーターに実用的な意味を持ち、長距離絡み合った状態の風景の新しい図を描く。 Long-range entanglement--the backbone of topologically ordered states--cannot be created in finite time using local unitary circuits, or equivalently, adiabatic state preparation. Recently it has come to light that single-site measurements provide a loophole, allowing for finite-time state preparation in certain cases. Here we show how this observation imposes a complexity hierarchy on long-range entangled states based on the minimal number of measurement layers required to create the state, which we call "shots". First, similar to Abelian stabilizer states, we construct single-shot protocols for creating any non-Abelian quantum double of a group with nilpotency class two (such as $D_4$ or $Q_8$). We show that after the measurement, the wavefunction always collapses into the desired non-Abelian topological order, conditional on recording the measurement outcome. Moreover, the clean quantum double ground state can be deterministically prepared via feedforward--gates which depend on the measurement outcomes. Second, we provide the first constructive proof that a finite number of shots can implement the Kramers-Wannier duality transformation (i.e., the gauging map) for any solvable symmetry group. As a special case, this gives an explicit protocol to prepare twisted quantum double for all solvable groups. Third, we argue that certain topological orders, such as non-solvable quantum doubles or Fibonacci anyons, define non-trivial phases of matter under the equivalence class of finite-depth unitaries and measurement, which cannot be prepared by any finite number of shots. Moreover, we explore the consequences of allowing gates to have exponentially small tails, which enables, for example, the preparation of any Abelian anyon theory, including chiral ones. This hierarchy paints a new picture of the landscape of long-range entangled states, with practical implications for quantum simulators. | 翻訳日:2023-06-14 02:40:47 公開日:2023-06-11 |
# モデル対応コントラスト学習 : ジレンマの回避に向けて Model-Aware Contrastive Learning: Towards Escaping the Dilemmas ( http://arxiv.org/abs/2207.07874v4 ) ライセンス: Link先を確認 | Zizheng Huang, Haoxing Chen, Ziqi Wen, Chao Zhang, Huaxiong Li, Bo Wang, Chunlin Chen | (参考訳) コントラスト学習(cl)は、複数のドメインにわたる大きなブレークスルーを継続的に達成します。
しかし、最も一般的なインフォアンスベースの手法は、\textit{uniformity-tolerance dilemma} (utd) や \textit{gradient reduction} のようないくつかのジレンマに苦しめられ、どちらも$\mathcal{p}_{ij}$ 項と関連している。
UTDは予期せぬ性能劣化を引き起こす可能性があることが確認されている。
温度の固定性はUTDのせいだと我々は主張する。
この課題に対処するために、我々は、インスタンス識別タスクの基本的な信頼性を反映したアライメントの程度に温度が適応するモデル・アウェア・コントラシティブ・ラーニング(MACL)戦略を提示し、CL損失をハードネガティブに対するペナルティ強度を適応的に調整できるようにすることにより、CL損失ファミリーを強化した。
別のジレンマについて、勾配縮小問題について、関連する勾配スケーリング係数の限界を導出し、このジレンマから逃れるために、最近のいくつかのアプローチがより少ない負のサンプルで有効である理由を統一的な視点で説明できる。
視覚,文,グラフモダリティにおける広範囲な印象的な結果が,表現学習とダウンストリームタスクに対する我々のアプローチの一般的な改善を検証する。 Contrastive learning (CL) continuously achieves significant breakthroughs across multiple domains. However, the most common InfoNCE-based methods suffer from some dilemmas, such as \textit{uniformity-tolerance dilemma} (UTD) and \textit{gradient reduction}, both of which are related to a $\mathcal{P}_{ij}$ term. It has been identified that UTD can lead to unexpected performance degradation. We argue that the fixity of temperature is to blame for UTD. To tackle this challenge, we enrich the CL loss family by presenting a Model-Aware Contrastive Learning (MACL) strategy, whose temperature is adaptive to the magnitude of alignment that reflects the basic confidence of the instance discrimination task, then enables CL loss to adjust the penalty strength for hard negatives adaptively. Regarding another dilemma, the gradient reduction issue, we derive the limits of an involved gradient scaling factor, which allows us to explain from a unified perspective why some recent approaches are effective with fewer negative samples, and summarily present a gradient reweighting to escape this dilemma. Extensive remarkable empirical results in vision, sentence, and graph modality validate our approach's general improvement for representation learning and downstream tasks. | 翻訳日:2023-06-14 02:38:52 公開日:2023-06-11 |
# 混合グラフ学習におけるハイブリッドポーリングの有効性について On the Effectiveness of Hybrid Pooling in Mixup-Based Graph Learning for Language Processing ( http://arxiv.org/abs/2210.03123v2 ) ライセンス: Link先を確認 | Zeming Dong, Qiang Hu, Zhenya Zhang, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves Le Traon, and Jianjun Zhao | (参考訳) グラフニューラルネットワーク(GNN)ベースのグラフ学習は、自然言語やプログラミング言語処理、特にテキストやソースコードの分類において人気がある。
GNNは通常、グラフノードの特徴の変換を学習する交互層と、グラフプーリング演算子(例えばマックスプール)を使用してグラフの意味情報を保存しながらノード数を効果的に削減するグラフプーリング層を組み込むことで構築される。
近年,グラフ学習タスクにおけるGNNを強化すべく,グラフデータとラベルを線形に混合して合成グラフデータを生成するデータ拡張技術であるManifold-Mixupが広く採用されている。
しかし、多様体混合の性能はグラフプーリング演算子の影響を強く受けることができ、そのような影響を明らかにする研究は多くない。
このギャップを埋めるために、我々はグラフプーリングオペレーターがMixupベースのグラフ学習のパフォーマンスにどのように影響するかを調査する。
そこで我々は,11個のグラフプーリング演算(ハイブリッドプール演算子9個,非ハイブリッドプール演算子2個)に基づくグラフプーリングの形式的特徴付けにManifold-Mixupを適用し,総合的な実証的研究を行った。
自然言語データセット(Gossipcop, Politifact, Python800)とプログラミング言語データセット(JAVA250, Python800)の実験結果から, ハイブリッドプール演算子は, 標準のMax-poolingや最先端のグラフマルチセット変換器(GMT)よりも, より正確でロバストなモデルを生成するという点で, マニフォールド・ミクスアップに有効であることが示された。 Graph neural network (GNN)-based graph learning has been popular in natural language and programming language processing, particularly in text and source code classification. Typically, GNNs are constructed by incorporating alternating layers which learn transformations of graph node features, along with graph pooling layers that use graph pooling operators (e.g., Max-pooling) to effectively reduce the number of nodes while preserving the semantic information of the graph. Recently, to enhance GNNs in graph learning tasks, Manifold-Mixup, a data augmentation technique that produces synthetic graph data by linearly mixing a pair of graph data and their labels, has been widely adopted. However, the performance of Manifold-Mixup can be highly affected by graph pooling operators, and there have not been many studies that are dedicated to uncovering such affection. To bridge this gap, we take an early step to explore how graph pooling operators affect the performance of Mixup-based graph learning. To that end, we conduct a comprehensive empirical study by applying Manifold-Mixup to a formal characterization of graph pooling based on 11 graph pooling operations (9 hybrid pooling operators, 2 non-hybrid pooling operators). The experimental results on both natural language datasets (Gossipcop, Politifact) and programming language datasets (JAVA250, Python800) demonstrate that hybrid pooling operators are more effective for Manifold-Mixup than the standard Max-pooling and the state-of-the-art graph multiset transformer (GMT) pooling, in terms of producing more accurate and robust models. | 翻訳日:2023-06-14 02:30:30 公開日:2023-06-11 |
# 高次元回帰問題に対するユニタリネットワークの確率的分割 Probabilistic partition of unity networks for high-dimensional regression problems ( http://arxiv.org/abs/2210.02694v2 ) ライセンス: Link先を確認 | Tiffany Fan, Nathaniel Trask, Marta D'Elia, Eric Darve | (参考訳) 本研究では,高次元回帰問題の文脈におけるユニタリネットワーク(PPOU-Net)モデルの確率的分割について検討し,適応次元の減少に着目した一般的な枠組みを提案する。
提案したフレームワークでは,各クラスタが局所的な固定度多項式に関連付けられている低次元多様体上のエキスパートモデルの混合により,対象関数を近似する。
本稿では,予測最大化(EM)アルゴリズムを活用するトレーニング戦略を提案する。
トレーニング中、私たちは交互に
i) DNN係数を更新するために勾配降下を適用すること
(II) EMアルゴリズムから得られる閉形式公式を用いて, エキスパートモデルパラメータの混合を更新する。
確率的定式化の下では
(ii) は、恥ずかしく並列化可能な最小二乗解の形式を認める。
PPOU-Netsは、様々なデータ次元の数値実験において、同等の大きさのベースライン完全接続ニューラルネットワークを一貫して上回っている。
また、PPOU-Netが変動量子回路に関連するコストランドスケープの代理モデルとして機能する量子コンピューティングの応用における提案モデルについても検討する。 We explore the probabilistic partition of unity network (PPOU-Net) model in the context of high-dimensional regression problems and propose a general framework focusing on adaptive dimensionality reduction. With the proposed framework, the target function is approximated by a mixture of experts model on a low-dimensional manifold, where each cluster is associated with a local fixed-degree polynomial. We present a training strategy that leverages the expectation maximization (EM) algorithm. During the training, we alternate between (i) applying gradient descent to update the DNN coefficients; and (ii) using closed-form formulae derived from the EM algorithm to update the mixture of experts model parameters. Under the probabilistic formulation, step (ii) admits the form of embarrassingly parallelizable weighted least-squares solves. The PPOU-Nets consistently outperform the baseline fully-connected neural networks of comparable sizes in numerical experiments of various data dimensions. We also explore the proposed model in applications of quantum computing, where the PPOU-Nets act as surrogate models for cost landscapes associated with variational quantum circuits. | 翻訳日:2023-06-14 02:29:53 公開日:2023-06-11 |
# フラストレーション量子スピン系に対する変圧器変分波動関数 Transformer variational wave functions for frustrated quantum spin systems ( http://arxiv.org/abs/2211.05504v2 ) ライセンス: Link先を確認 | Luciano Loris Viteritti, Riccardo Rende and Federico Becca | (参考訳) トランスフォーマーアーキテクチャは、自然言語処理タスクの最先端モデルとなり、最近ではコンピュータビジョンタスクのモデルにもなり、ビジョントランスフォーマー(ViT)アーキテクチャを定義するようになった。
キーとなる特徴は、いわゆるセルフアテンション機構を通じて、入力シーケンスの要素間の長距離相関を記述する機能である。
本稿では、量子多体系に対する新しい変分ニューラルネットワーク状態、ViT波動関数を定義するために、複雑なパラメータを持つViTアーキテクチャの適応を提案する。
このアイデアを1次元の$j_1$-$j_2$ハイゼンベルクモデルに適用し、比較的単純なパラメトリゼーションがガッピング位相とギャップレス位相の両方において優れた結果が得られることを示した。
この場合、優れたアキュラシーは比較的浅いアーキテクチャで得られ、単一の自己注意層を持つため、元のアーキテクチャを大幅に単純化する。
それでも、より深い構造の最適化が可能であり、より困難なモデル、特に2次元の高度にフラストレーションされたシステムに使用できる。
ViT波動関数の成功は、局所演算と大域演算の混合に依存するため、大規模システムの研究を高精度に行うことができる。 The Transformer architecture has become the state-of-art model for natural language processing tasks and, more recently, also for computer vision tasks, thus defining the Vision Transformer (ViT) architecture. The key feature is the ability to describe long-range correlations among the elements of the input sequences, through the so-called self-attention mechanism. Here, we propose an adaptation of the ViT architecture with complex parameters to define a new class of variational neural-network states for quantum many-body systems, the ViT wave function. We apply this idea to the one-dimensional $J_1$-$J_2$ Heisenberg model, demonstrating that a relatively simple parametrization gets excellent results for both gapped and gapless phases. In this case, excellent accuracies are obtained by a relatively shallow architecture, with a single layer of self-attention, thus largely simplifying the original architecture. Still, the optimization of a deeper structure is possible and can be used for more challenging models, most notably highly-frustrated systems in two dimensions. The success of the ViT wave function relies on mixing both local and global operations, thus enabling the study of large systems with high accuracy. | 翻訳日:2023-06-14 02:21:43 公開日:2023-06-11 |
# 多言語性同一性音声の生成 Generating Multilingual Gender-Ambiguous Text-to-Speech Voices ( http://arxiv.org/abs/2211.00375v3 ) ライセンス: Link先を確認 | Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Georgios Vardaxoglou, Panos Kakoulidis, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis and Spyros Raptis | (参考訳) 音声ユーザインタフェースの性別は、その認識されたアイデンティティの重要な要素である。
近年、女性や男性と明確に識別するよりも、性別があいまいなインターフェースへの関心が高まっている。
本研究は,多話者・多言語環境でのtts音声生成の課題について述べる。
本手法は,提案手法を用いて潜在話者埋め込み空間から効率的にサンプリングすることで実現される。
広範囲な客観評価と主観評価は,本手法が,すべての言語で検討されている基本音声よりも,一貫性があり,性別があいまいな,斬新で多様な音声を効率よく生成できることを示す。
興味深いことに、性別知覚は、リスナーの2つの人口統計学的要因(ネイティブ言語とジェンダー)にまたがって堅牢であることが判明した。
我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。 The gender of any voice user interface is a key element of its perceived identity. Recently, there has been increasing interest in interfaces where the gender is ambiguous rather than clearly identifying as female or male. This work addresses the task of generating novel gender-ambiguous TTS voices in a multi-speaker, multilingual setting. This is accomplished by efficiently sampling from a latent speaker embedding space using a proposed gender-aware method. Extensive objective and subjective evaluations clearly indicate that this method is able to efficiently generate a range of novel, diverse voices that are consistent and perceived as more gender-ambiguous than a baseline voice across all the languages examined. Interestingly, the gender perception is found to be robust across two demographic factors of the listeners: native language and gender. To our knowledge, this is the first systematic and validated approach that can reliably generate a variety of gender-ambiguous voices. | 翻訳日:2023-06-14 02:21:09 公開日:2023-06-11 |
# Variant Parallelism:IoTデバイス上での分散推論のための軽量な深層畳み込みモデル Variant Parallelism: Lightweight Deep Convolutional Models for Distributed Inference on IoT Devices ( http://arxiv.org/abs/2210.08376v2 ) ライセンス: Link先を確認 | Navidreza Asadi, Maziar Goudarzi | (参考訳) リソースに制約のあるiotデバイスにモデルを分散する際に、リアルタイム推論の制限を満たすために一般的に使用される2つの主要なテクニックは、(1)モデル並列性(mp)と(2)クラス並列性(cp)である。
mpでは、デバイス間でかさばる中間データ(入力より桁違いに大きい順序)を送信すると、大きな通信オーバーヘッドがかかる。
CPはこの問題を解くが、サブモデルの数に制限がある。
さらに、どちらのソリューションもフォールトトレラントであり、エッジデバイスにデプロイすると問題が発生する。
本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。
我々は、オリジナルのモデルを中心に、より軽量なモデルのファミリーを設計し、それらを同時に訓練し、単一モデルよりも精度を向上させる。
5.8-7.1倍のパラメータ、4.3-31倍のマルチプリーアキュミュレーション(mac)、2.5-13.2倍の応答時間がmobilenetv2に比べて高い精度で達成できることを示した。
この手法はベースアーキテクチャのいくつかの変種を容易に生成する。
各変種は、MPで要求される浮動小数点値ではなく、トップkクラスを表す1 <= k <= (#classes/2) を出力する。
各変種はフルクラスの予測を提供するため,本手法は故障時にMPやCPと比較して高可用性を維持している。 Two major techniques are commonly used to meet real-time inference limitations when distributing models across resource-constrained IoT devices: (1) model parallelism (MP) and (2) class parallelism (CP). In MP, transmitting bulky intermediate data (orders of magnitude larger than input) between devices imposes huge communication overhead. Although CP solves this problem, it has limitations on the number of sub-models. In addition, both solutions are fault intolerant, an issue when deployed on edge devices. We propose variant parallelism (VP), an ensemble-based deep learning distribution method where different variants of a main model are generated and can be deployed on separate machines. We design a family of lighter models around the original model, and train them simultaneously to improve accuracy over single models. Our experimental results on six common mid-sized object recognition datasets demonstrate that our models can have 5.8-7.1x fewer parameters, 4.3-31x fewer multiply-accumulations (MACs), and 2.5-13.2x less response time on atomic inputs compared to MobileNetV2 while achieving comparable or higher accuracy. Our technique easily generates several variants of the base architecture. Each variant returns only 2k outputs 1 <= k <= (#classes/2), representing Top-k classes, instead of tons of floating point values required in MP. Since each variant provides a full-class prediction, our approach maintains higher availability compared with MP and CP in presence of failure. | 翻訳日:2023-06-14 02:19:27 公開日:2023-06-11 |
# Few-Shot Aspect-Based Sentiment Analysisのためのインストラクションチューニング Instruction Tuning for Few-Shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2210.06629v2 ) ライセンス: Link先を確認 | Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Anna John, Rishita Anubhai, Smaranda Muresan, Dan Roth | (参考訳) Aspect-based Sentiment Analysis (ABSA)は、アスペクト項、アスペクトカテゴリー、意見項、感情極性という4つの要素を含む、きめ細かい感情分析タスクである。
ほとんどの計算手法は、タプル(アスペクト項、感情極性)やトリプレット(アスペクト項、意見項、感情極性)といったABSAのサブタスクの一部に、パイプラインまたはジョイントモデリングアプローチを用いて焦点を当てている。
近年,テキストから4つの要素を1つ以上の四重項として抽出する手法が提案されている。
本研究では、さらに一歩進めてABSAを解くための統一的なフレームワークと、それに関連するサブタスクを提案する。
この目的のために、全てのサブタスクと4次予測タスク全体をカバーするマルチタスク学習方式で、t5モデルをインストラクションプロンプトで微調整する。
複数のベンチマークデータセットを用いた実験では、提案手法により、数ショットの学習環境で性能が向上する(絶対8.29F1)。 Aspect-based Sentiment Analysis (ABSA) is a fine-grained sentiment analysis task which involves four elements from user-generated texts: aspect term, aspect category, opinion term, and sentiment polarity. Most computational approaches focus on some of the ABSA sub-tasks such as tuple (aspect term, sentiment polarity) or triplet (aspect term, opinion term, sentiment polarity) extraction using either pipeline or joint modeling approaches. Recently, generative approaches have been proposed to extract all four elements as (one or more) quadruplets from text as a single task. In this work, we take a step further and propose a unified framework for solving ABSA, and the associated sub-tasks to improve the performance in few-shot scenarios. To this end, we fine-tune a T5 model with instructional prompts in a multi-task learning fashion covering all the sub-tasks, as well as the entire quadruple prediction task. In experiments with multiple benchmark datasets, we show that the proposed multi-task prompting approach brings performance boost (by absolute 8.29 F1) in the few-shot learning setting. | 翻訳日:2023-06-14 02:19:01 公開日:2023-06-11 |
# ロバストicp初期化へのアプローチ An approach to robust ICP initialization ( http://arxiv.org/abs/2212.05332v3 ) ライセンス: Link先を確認 | Alexander Kolpakov, Michael Werman | (参考訳) 本稿では,厳密な変換に伴う乱れのない点群に対応するため,ICPアルゴリズムを初期化する手法を提案する。
この方法は、点の共分散行列で定義される楕円体をマッチングし、有限反射群の要素によって異なる様々な主半軸マッチングをテストする。
ノイズに対するアプローチのロバスト性の境界を導出し,理論的な知見を数値実験により検証した。 In this note, we propose an approach to initialize the Iterative Closest Point (ICP) algorithm to match unlabelled point clouds related by rigid transformations. The method is based on matching the ellipsoids defined by the points' covariance matrices and then testing the various principal half-axes matchings that differ by elements of a finite reflection group. We derive bounds on the robustness of our approach to noise and numerical experiments confirm our theoretical findings. | 翻訳日:2023-06-14 02:02:04 公開日:2023-06-11 |
# 連合型神経話題モデル Federated Neural Topic Models ( http://arxiv.org/abs/2212.02269v2 ) ライセンス: Link先を確認 | Lorena Calvo-Bartolom\'e and Jer\'onimo Arenas-Garc\'ia | (参考訳) 過去数年間、トピックモデリングは、ドキュメントの大きなコレクションを整理しまとめたり、その中の特定のパターンを探すための強力なテクニックとして現れてきた。
しかし、異なるソースからデータをクロスアナライズする場合、プライバシの懸念が生じる可能性がある。
フェデレーションされたトピックモデリングは、データを共有せずに複数のパーティが共同でトピックモデルをトレーニングできるようにすることで、この問題を解決します。
古典的トピックモデルの結合近似はいくつか存在するが、神経的トピックモデルへの応用に関する研究は行われていない。
このギャップを埋めるために,我々は,最先端のニューラルトピックモデリング実装に基づくフェデレーション実装の提案と解析を行い,ノードのドキュメントにまたがるトピックの多様性とジョイントモデルの構築の必要性を示す。
実際には、我々のアプローチは集中型モデルトレーニングに相当するが、ノードのプライバシを保存する。
この連合シナリオの利点は、合成データと実データの両方を使った実験によって示される。 Over the last years, topic modeling has emerged as a powerful technique for organizing and summarizing big collections of documents or searching for particular patterns in them. However, privacy concerns may arise when cross-analyzing data from different sources. Federated topic modeling solves this issue by allowing multiple parties to jointly train a topic model without sharing their data. While several federated approximations of classical topic models do exist, no research has been conducted on their application for neural topic models. To fill this gap, we propose and analyze a federated implementation based on state-of-the-art neural topic modeling implementations, showing its benefits when there is a diversity of topics across the nodes' documents and the need to build a joint model. In practice, our approach is equivalent to a centralized model training, but preserves the privacy of the nodes. Advantages of this federated scenario are illustrated by means of experiments using both synthetic and real data scenarios. | 翻訳日:2023-06-14 02:00:32 公開日:2023-06-11 |
# 介入による線形因果連接 Linear Causal Disentanglement via Interventions ( http://arxiv.org/abs/2211.16467v3 ) ライセンス: Link先を確認 | Chandler Squires, Anna Seigal, Salil Bhate, Caroline Uhler | (参考訳) 因果解離は因果モデルを通して相互に関連する潜伏変数を含むデータの表現を求める。
表現は、潜在モデルと潜在変数から観測変数への変換が一意であるときに識別できる。
本稿では,線形潜在因果モデルの線形変換である観測変数について検討する。
1つの潜在変数が介入を欠いている場合、識別できない異なるモデルが存在することを示す。
逆に,各潜在変数に対する単一の介入は識別性に十分であることを示す。
我々の証明は行列のRQ分解の一般化を用いて、通常の直交条件と上三角条件を行列の行上の部分順序に依存するアナログに置き換え、潜在因果モデルにより部分順序を決定する。
我々は,潜伏因果モデルを正確に復元する因果解離法を用いて理論的結果を相関づける。 Causal disentanglement seeks a representation of data involving latent variables that relate to one another via a causal model. A representation is identifiable if both the latent model and the transformation from latent to observed variables are unique. In this paper, we study observed variables that are a linear transformation of a linear latent causal model. Data from interventions are necessary for identifiability: if one latent variable is missing an intervention, we show that there exist distinct models that cannot be distinguished. Conversely, we show that a single intervention on each latent variable is sufficient for identifiability. Our proof uses a generalization of the RQ decomposition of a matrix that replaces the usual orthogonal and upper triangular conditions with analogues depending on a partial order on the rows of the matrix, with partial order determined by a latent causal model. We corroborate our theoretical results with a method for causal disentanglement that accurately recovers a latent causal model. | 翻訳日:2023-06-14 02:00:17 公開日:2023-06-11 |
# スピノールボース・アインシュタイン凝縮体の位相特性:マヨラナの恒星表現アプローチ Phase characterization of spinor Bose-Einstein condensates: a Majorana stellar representation approach ( http://arxiv.org/abs/2211.16428v3 ) ライセンス: Link先を確認 | E. Serrano-Ens\'astiga, F. Mireles | (参考訳) 回転対称性を持つ相互作用型スピノル系の平均場解に対する変動摂動について検討する。
この目的のために、混合状態と群論に対するマヨラナ星表象に基づくアプローチが導入された。
この手法は摂動の未知の自由度を大幅に減らし、創発的な物理現象をシンプルかつ直接的に探索する。
スピン-1 ボース-アインシュタイン凝縮体の相を特徴づけ、エントロピーでこれらの相の挙動を研究する。
スピン2相図はハートリー・フォック近似でも検討され, 温度による循環・熱的相境界の非線形偏差が予測された。 We study the variational perturbations for the mean-field solution of an interacting spinor system with underlying rotational symmetries. An approach based upon the Majorana stellar representation for mixed states and group theory is introduced to this end. The method reduces significantly the unknown degrees of freedom of the perturbation, allowing us a simplified and direct exploration on emergent physical phenomena. We apply it to characterize the phases of a spin-1 Bose-Einstein condensate and to study the behavior of these phases with entropy. The spin-2 phase diagram was also investigated within the Hartree-Fock approximation, where a non-linear deviation of the cyclic-nematic phase boundary with temperature is predicted. | 翻訳日:2023-06-14 02:00:01 公開日:2023-06-11 |
# 信頼度対応グラフニューラルネットワークによる信頼性評価 Confidence-Aware Graph Neural Networks for Learning Reliability Assessment Commitments ( http://arxiv.org/abs/2211.15755v3 ) ライセンス: Link先を確認 | Seonho Park, Wenbo Chen, Dahye Han, Mathieu Tanneau, and Pascal Van Hentenryck | (参考訳) 信頼度評価コミットメント(RAC)最適化は, 再生可能世代の増加と予測誤差の増加により, グリッド運用においてますます重要になっている。
独立系演算子(isos)はまた、より細かい時間的粒度、より長い時間的地平線、そしてさらなる経済的および信頼性の利益のために確率的定式化を使用することを目標としている。
本論文の目的は, rac定式化の範囲拡大に伴う計算上の課題を解決することである。
本論文は,(1)グラフニューラルネットワーク(gnn)を基盤として,生成者のコミットメントとアクティブラインの制約を予測すること,(2)信頼度値を各コミットメント予測に関連付けること,(3)信頼性の高い予測のサブセットを選択すること,(4)実現可能性のために修復されたこと,(5)実現可能な予測とアクティブ制約を備えた最先端最適化アルゴリズムをシードすることを提案する。
ミドルコンチネント・インディペンデント・システム・オペレーター(MISO)と実際の送信ネットワーク(8965の送信線、6708のバス、1890の発電機、6262の負荷ユニット)が使用する正確なRACの定式化実験の結果、RACLearnフレームワークは、解品質が2~4の要因でRAC最適化を高速化できることが示された。 Reliability Assessment Commitment (RAC) Optimization is increasingly important in grid operations due to larger shares of renewable generations in the generation mix and increased prediction errors. Independent System Operators (ISOs) also aim at using finer time granularities, longer time horizons, and possibly stochastic formulations for additional economic and reliability benefits. The goal of this paper is to address the computational challenges arising in extending the scope of RAC formulations. It presents RACLearn that (1) uses a Graph Neural Network (GNN) based architecture to predict generator commitments and active line constraints, (2) associates a confidence value to each commitment prediction, (3) selects a subset of the high-confidence predictions, which are (4) repaired for feasibility, and (5) seeds a state-of-the-art optimization algorithm with feasible predictions and active constraints. Experimental results on exact RAC formulations used by the Midcontinent Independent System Operator (MISO) and an actual transmission network (8965 transmission lines, 6708 buses, 1890 generators, and 6262 load units) show that the RACLearn framework can speed up RAC optimization by factors ranging from 2 to 4 with negligible loss in solution quality. | 翻訳日:2023-06-14 01:59:49 公開日:2023-06-11 |
# 集積シリコンフォトニクスを用いた資源効率の量子鍵分布 Resource-efficient quantum key distribution with integrated silicon photonics ( http://arxiv.org/abs/2212.12980v2 ) ライセンス: Link先を確認 | Kejin Wei, Xiao Hu, Yongqiang Du, Xin Hua, Zhengeng Zhao, Ye Chen, Chunfeng Huang, and Xi Xiao | (参考訳) 集積フォトニクスは、小型化、堅牢性、スケーラビリティの観点から量子鍵分布(QKD)システムのための有望なプラットフォームを提供する。
統合フォトニクスに基づくQKD作品が報告されている。
それでも、現在のチップベースのqkd実装のほとんどは、量子状態の復調や時間同期や偏光基底追跡などの補助タスクを実行するために、チップ外のハードウェアの追加を必要とする。
本稿では,シリコンベースのエンコーダとデコーダを用いた資源効率の高いBB84QKDのデモンストレーションを報告する。
本方式では,オンチップデバイスが生成する量子状態の生成と測定を頼りに,時間同期と分極補償を実装しているため,追加ハードウェアは不要である。
実験の結果,本手法は6時間連続で0.50\pm 0.02\%$の低固有qberで安定であることが判明した。
さらに、150kmまでの商用ファイバーチャネル上で、866bpsの速度でセキュアな鍵分布を実現することができる。
我々の実証は、低コストでウエハスケールのQKDシステムへの道を開いた。 Integrated photonics provides a promising platform for quantum key distribution (QKD) system in terms of miniaturization, robustness and scalability. Tremendous QKD works based on integrated photonics have been reported. Nonetheless, most current chip-based QKD implementations require additional off-chip hardware to demodulate quantum states or perform auxiliary tasks such as time synchronization and polarization basis tracking. Here, we report a demonstration of resource-efficient chip-based BB84 QKD with a silicon-based encoder and decoder. In our scheme, the time synchronization and polarization compensation are implemented relying on the preparation and measurement of the quantum states generated by on-chip devices, thus no need additional hardware. The experimental tests show that our scheme is highly stable with a low intrinsic QBER of $0.50\pm 0.02\%$ in a 6-h continuous run. Furthermore, over a commercial fiber channel up to 150 km, the system enables realizing secure key distribution at a rate of 866 bps. Our demonstration paves the way for low-cost, wafer-scale manufactured QKD system. | 翻訳日:2023-06-14 01:52:26 公開日:2023-06-11 |
# 整数列の解析を用いた定数上の予想の自動探索 Automated Search for Conjectures on Mathematical Constants using Analysis of Integer Sequences ( http://arxiv.org/abs/2212.09470v2 ) ライセンス: Link先を確認 | Ofir Razon, Yoav Harris, Shahar Gottlieb, Dan Carmon, Ofir David and Ido Kaminer | (参考訳) 基本的な数学的定数を含む公式は、定数の不合理性の証明を補助するなど、科学や数学の様々な分野に大きな影響を与えた。
しかし、そのような公式の発見は歴史的に乏しく、しばしばラマヌジャン、オイラー、ガウスといった偉大な数学者によって数学の天才の行為と見なされる。
ラマヌジャン機械計画のような数学定数の公式の発見を自動化しようとする最近の試みは、徹底的な探索に依存していた。
いくつかの発見にもかかわらず、網羅的な探索は、カバー可能な選択肢の空間と膨大な計算資源の必要性によって制限されている。
本稿では,整数列の解析を通して,数学定数上の予想を探索する基本的な方法を提案する。
本稿では,Berlekamp-Masseyアルゴリズムに基づいて,数式定数を表す整数列のパターンを同定するESMAアルゴリズムを提案する。
esmaアルゴリズムは、e, e^2, tan(1)$, and ratio of value of bessel関数の様々な既知の公式を発見した。
このアルゴリズムはさらに、これらの定数に対する多くの新しい予想を発見し、あるものは単純な表現を提供し、あるものは対応する単純な継続分数よりも高速な数値収束を提供する。
このアルゴリズムとともに,連続分数を操作する数学的ツールを提案する。
これらの接続により、ESMAによってどの定数空間が発見できるかを特徴づけ、特定のシナリオにおいてアルゴリズム上の優位性を定量化できる。
さらに、この研究は、数学的構造を明らかにし、数学的研究を加速するために、コンピュータアルゴリズムによる数学的直観を増強する開発を継続する。 Formulas involving fundamental mathematical constants had a great impact on various fields of science and mathematics, for example aiding in proofs of irrationality of constants. However, the discovery of such formulas has historically remained scarce, often perceived as an act of mathematical genius by great mathematicians such as Ramanujan, Euler, and Gauss. Recent efforts to automate the discovery of formulas for mathematical constants, such as the Ramanujan Machine project, relied on exhaustive search. Despite several successful discoveries, exhaustive search remains limited by the space of options that can be covered and by the need for vast amounts of computational resources. Here we propose a fundamentally different method to search for conjectures on mathematical constants: through analysis of integer sequences. We introduce the Enumerated Signed-continued-fraction Massey Approve (ESMA) algorithm, which builds on the Berlekamp-Massey algorithm to identify patterns in integer sequences that represent mathematical constants. The ESMA algorithm found various known formulas for $e, e^2, tan(1)$, and ratios of values of Bessel functions. The algorithm further discovered a large number of new conjectures for these constants, some providing simpler representations and some providing faster numerical convergence than the corresponding simple continued fractions. Along with the algorithm, we present mathematical tools for manipulating continued fractions. These connections enable us to characterize what space of constants can be found by ESMA and quantify its algorithmic advantage in certain scenarios. Altogether, this work continues in the development of augmenting mathematical intuition by computer algorithms, to help reveal mathematical structures and accelerate mathematical research. | 翻訳日:2023-06-14 01:50:05 公開日:2023-06-11 |
# ブロックチェーンに関するAI倫理: ブロックチェーンセキュリティのためのTwitterデータに関するトピック分析 AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security ( http://arxiv.org/abs/2212.06951v4 ) ライセンス: Link先を確認 | Yihang Fu, Zesen Zhuang, Luyao Zhang | (参考訳) Blockchainは、分散ネットワークを使用してコンピュータシステムをよりセキュアにする権限を与えている。
しかしながら、現在のブロックチェーン設計は、トランザクションオーダの公平性の問題に悩まされている。
鉱夫は、いわゆるmev(miner extractable value)と呼ばれる取引を注文して利益を得ることができる。
既存の研究は、MEVが深刻なセキュリティ問題であると認識し、著名なFlashbotを含む潜在的なソリューションを提案する。
しかし、以前の研究では主にブロックチェーンデータを分析しており、より広範なAI社会におけるMEVの影響を捉えていない可能性がある。
そこで本研究では,MEV上のツイートのトピックを包括的に分析するために自然言語処理(NLP)手法を適用した。
mevとflashbotsのハッシュタグで20000以上のツイートを集め、それらのトピックを分析した。
以上の結果から, このツイートは, セキュリティ, 公平性, 情緒的感情, およびMEVに対するソリューションへの欲求など, 倫理的懸念の深いトピックを議論した。
また、ブロックチェーンやソーシャルメディアプラットフォーム上でのMEV活動のコムーブメントを特定します。
私たちの研究は、ブロックチェーンセキュリティ、MEVソリューション、AI倫理のインターフェースにおける文献に貢献します。 Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with MEV and Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics. | 翻訳日:2023-06-14 01:49:02 公開日:2023-06-11 |
# BCIにおける情報伝達速度 : 高度統合共生を目指して Information Transfer Rate in BCIs: Towards Tightly Integrated Symbiosis ( http://arxiv.org/abs/2301.00488v3 ) ライセンス: Link先を確認 | Suayb S. Arslan and Pawan Sinha | (参考訳) 情報伝達率(ITR、英: information transmission rate)は、SSVEPベースのBrain-Computer (BCI) インタフェースで広く使われている情報計測指標である。
速度と精度を単一値パラメータに組み合わせることで、このメトリックは、異なるbciコミュニティにわたる様々なターゲット識別アルゴリズムの評価と比較に役立つ。
ITRを計算するために、個別のアルファベットサイズでメモリレス、静止、対称な、均一な入力分布と単純化されたチャネルモデルを仮定するのが慣例である。
未来的BCI設計のためのエンド・ツー・エンドの設計を正確に表現するためには、より徹底的な検討とITRの定義が必要である。
再生視覚経路によってホストされる共生通信媒体を離散的なメモリレスチャネルとしてモデル化し,改良されたキャパシティ表現を用いてITRを再定義する。
我々は、有向グラフの結果を利用して、遷移統計学の非対称性と新しい定義によるITRゲインの関係を特徴づけ、データレート性能に潜在的な限界をもたらす。
良く知られた2つのSSVEPデータセットにおいて、2つの最先端ターゲット識別法を比較した。
その結果, DMチャネルの非対称性は入力分布の変化よりも実知覚ITRに大きな影響を与えることがわかった。
さらに,新しい定義の下でのitr利得はチャネル遷移統計学における非対称性と逆相関することを示した。
さらに個々の入力のカスタマイズにより、ITRの性能改善が認められた。
最後に,二分分類の容量を求めるアルゴリズムを提案し,その結果をアンサンブル手法を用いてマルチクラスケースに拡張する検討を行った。 The information transmission rate (ITR), or effective bit rate, is a popular and widely used information measurement metric, particularly popularized for SSVEP-based Brain-Computer (BCI) interfaces. By combining speed and accuracy into a single-valued parameter, this metric aids in the evaluation and comparison of various target identification algorithms across different BCI communities. In order to calculate ITR, it is customary to assume a uniform input distribution and an oversimplified channel model that is memoryless, stationary, and symmetrical in nature with discrete alphabet sizes. To accurately depict performance and inspire an end-to-end design for futuristic BCI designs, a more thorough examination and definition of ITR is therefore required. We model the symbiotic communication medium, hosted by the retinogeniculate visual pathway, as a discrete memoryless channel and use the modified capacity expressions to redefine the ITR. We leverage a result for directed graphs to characterize the relationship between the asymmetry of the transition statistics and the ITR gain due to the new definition, leading to potential bounds on data rate performance. On two well-known SSVEP datasets, we compared two cutting-edge target identification methods. Results indicate that the induced DM channel asymmetry has a greater impact on the actual perceived ITR than the change in input distribution. Moreover, it is demonstrated that the ITR gain under the new definition is inversely correlated with the asymmetry in the channel transition statistics. Individual input customizations are further shown to yield perceived ITR performance improvements. Finally, an algorithm is proposed to find the capacity of binary classification and further discussions are given to extend such results to multi-class case through ensemble techniques. | 翻訳日:2023-06-14 01:40:31 公開日:2023-06-11 |
# Kappa vacua:Unruh温度を高める Kappa vacua: Enhancing the Unruh temperature ( http://arxiv.org/abs/2301.13672v4 ) ライセンス: Link先を確認 | Arash Azizi | (参考訳) 右と左のリンドラーモードと反対の符号ノルムの組み合わせによって発見された、$\kappa$-modeについて詳しく述べる。
熱場二重状態の一般化である異なるkappa vacuaの関係を見いだす。
しかし、$\kappa$-vacuumはリンドラー真空を熱場二重状態として記述することができ、変形したUnruh温度は$T_{\kappa}=\frac{\hbar a}{2\pi c k_B}\,\kappa$である。
その結果、加速度$a$の均一に加速されたオブザーバが$\kappa$-真空に浸漬されると、熱浴を知覚する。
しかし、観測者が経験する温度は、$t_{\kappa}$と表される修正アンルー温度である。
驚くべきことに、unruh温度は任意の係数で$\kappa$で向上することができる。 We elaborate more on $\kappa$-mode, a mode that was found by a combination of Rindler modes in the right and left Rindler wedges with opposite sign norms. We find a relation between different kappa vacua, which is a generalization of the thermofield double state. However, a $\kappa$-vacuum can be written in terms of the Rindler vacuum as the thermofield double state, with a modified Unruh temperature of $T_{\kappa}=\frac{\hbar a}{2\pi c k_B}\,\kappa$. Consequently, when a uniformly accelerated observer with an acceleration $a$ is immersed in a $\kappa$-vacuum, they perceive a thermal bath. However, the temperature experienced by the observer is a modified Unruh temperature denoted as $T_{\kappa}$. Remarkably, the Unruh temperature can be enhanced by an arbitrary factor of $\kappa$. | 翻訳日:2023-06-14 01:32:48 公開日:2023-06-11 |
# 生涯強化学習におけるスケーラブル・ロバスト計画のための最小値等価部分モデル Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning ( http://arxiv.org/abs/2301.10119v2 ) ライセンス: Link先を確認 | Safa Alver, Doina Precup | (参考訳) 純粋な相互作用から環境の学習モデルは、生涯にわたる強化学習エージェントを構築する上で不可欠な要素であると考えられている。
しかし、モデルに基づく強化学習の一般的な実践は、最適な決定を下す上で重要であるかどうかに関わらず、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
本稿では,このようなモデルが,生涯強化学習シナリオにおいてスケーラブルで堅牢な計画実行にはあまり適していないこと,環境の関連する側面のみをモデル化する新たなモデルを提案すること,これを「最小値等価部分モデル」と呼ぶ。
これらのモデルに対して形式的な定義を提供した後、そのようなモデルで計画を行うことのスケーラビリティの利点を示す理論的結果を提供し、理論結果を実証的に示す実験を行う。
次に,これらのモデルをどのようにディープラーニングアーキテクチャで学習するかに関する有用なヒューリスティックスを提供し,分散シフトや複合モデルエラーに頑健な計画を実現するために,このような方法で学習したモデルを実証的に示す。
全体として、理論的および実証的な結果から、生涯強化学習シナリオにおいて、最小の値等価部分モデルがスケーラブルで堅牢な計画を実行する上で大きなメリットをもたらすことを示唆しています。 Learning models of the environment from pure interaction is often considered an essential component of building lifelong reinforcement learning agents. However, the common practice in model-based reinforcement learning is to learn models that model every aspect of the agent's environment, regardless of whether they are important in coming up with optimal decisions or not. In this paper, we argue that such models are not particularly well-suited for performing scalable and robust planning in lifelong reinforcement learning scenarios and we propose new kinds of models that only model the relevant aspects of the environment, which we call "minimal value-equivalent partial models". After providing a formal definition for these models, we provide theoretical results demonstrating the scalability advantages of performing planning with such models and then perform experiments to empirically illustrate our theoretical results. Then, we provide some useful heuristics on how to learn these kinds of models with deep learning architectures and empirically demonstrate that models learned in such a way can allow for performing planning that is robust to distribution shifts and compounding model errors. Overall, both our theoretical and empirical results suggest that minimal value-equivalent partial models can provide significant benefits to performing scalable and robust planning in lifelong reinforcement learning scenarios. | 翻訳日:2023-06-14 01:31:07 公開日:2023-06-11 |
# 敵対的マイノリティ・インフルエンスによる協調型マルチエージェント強化学習 Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence ( http://arxiv.org/abs/2302.03322v2 ) ライセンス: Link先を確認 | Simin Li, Jun Guo, Jingqiao Xiu, Pu Feng, Xin Yu, Aishan Liu, Wenjun Wu, Xianglong Liu | (参考訳) 本研究は,c-MARLが現実世界に導入される前の最悪の性能を示す重要な要因である敵攻撃下での協調型マルチエージェント強化学習(c-MARL)の脆弱性を調査する。
現在の観測ベースの攻撃は、ホワイトボックスの仮定に制約され、c-MARLの複雑なマルチエージェント相互作用と協調目的を見落とし、非現実的かつ限定的な攻撃能力をもたらす。
これらの欠点に対処するために,我々は,c-MARL の実践的で強力な Adversarial Minority Influence (AMI) を提案する。
AMIは実用的なブラックボックス攻撃であり、犠牲者のパラメータを知らずに起動できる。
また、AMIは複雑なマルチエージェントの相互作用とエージェントの協調的目標を考慮し、一方の敵エージェントが一方的に大多数の犠牲者を誤解させ、標的となる最悪の協力を形成することができる。
これは社会心理学における少数派の影響を反映している。
複雑なエージェント間インタラクション下での被害者ポリシーの最大偏差を達成するために,我々の一方的な攻撃は,被害者に対する敵の影響を特徴付け,最大化することを目的としている。
これは、相互情報から引き起こされた一方的なエージェント関係のメトリクスを適応させることで、敵に対する被害者の影響を緩和する。
被害者を共同で有害な状況に導くために, 強化学習エージェントが実施した試行錯誤プロセスを通じて, 被害者を特定の目標に向かって誘導し, 長期的かつ協力的に有害な状況に陥る。
AMIにより,実世界のロボット群に対する最初の攻撃が成功し,シミュレーション環境におけるエージェントを効果的に騙して,Starcraft IIやMulti-agent Mujocoなどの最悪のシナリオに展開する。
ソースコードとデモは、https://github.com/DIG-Beihang/AMIで見ることができる。 This study probes the vulnerabilities of cooperative multi-agent reinforcement learning (c-MARL) under adversarial attacks, a critical determinant of c-MARL's worst-case performance prior to real-world implementation. Current observation-based attacks, constrained by white-box assumptions, overlook c-MARL's complex multi-agent interactions and cooperative objectives, resulting in impractical and limited attack capabilities. To address these shortcomes, we propose Adversarial Minority Influence (AMI), a practical and strong for c-MARL. AMI is a practical black-box attack and can be launched without knowing victim parameters. AMI is also strong by considering the complex multi-agent interaction and the cooperative goal of agents, enabling a single adversarial agent to unilaterally misleads majority victims to form targeted worst-case cooperation. This mirrors minority influence phenomena in social psychology. To achieve maximum deviation in victim policies under complex agent-wise interactions, our unilateral attack aims to characterize and maximize the impact of the adversary on the victims. This is achieved by adapting a unilateral agent-wise relation metric derived from mutual information, thereby mitigating the adverse effects of victim influence on the adversary. To lead the victims into a jointly detrimental scenario, our targeted attack deceives victims into a long-term, cooperatively harmful situation by guiding each victim towards a specific target, determined through a trial-and-error process executed by a reinforcement learning agent. Through AMI, we achieve the first successful attack against real-world robot swarms and effectively fool agents in simulated environments into collectively worst-case scenarios, including Starcraft II and Multi-agent Mujoco. The source code and demonstrations can be found at: https://github.com/DIG-Beihang/AMI. | 翻訳日:2023-06-14 01:23:05 公開日:2023-06-11 |
# 継続的学習に関する包括的調査:理論・方法・応用 A Comprehensive Survey of Continual Learning: Theory, Method and Application ( http://arxiv.org/abs/2302.00487v2 ) ライセンス: Link先を確認 | Liyuan Wang, Xingxing Zhang, Hang Su, Jun Zhu | (参考訳) 現実世界のダイナミクスに対処するためには、インテリジェントエージェントはその生涯を通じてインクリメンタルに知識を取得し、更新し、蓄積し、活用する必要がある。
この能力は連続学習と呼ばれ、AIシステムが適応的に開発するための基盤を提供する。
一般的な意味では、連続学習は破滅的な放棄によって明示的に制限され、新しいタスクの学習は通常、古いタスクの劇的なパフォーマンス低下をもたらす。
この他にも、継続的な学習の理解と応用を大きく広げる多くの進歩が近年現れている。
この方向への関心の高まりは、その現実的な重要性と複雑さを示している。
本研究では,基礎的設定,理論的基礎,代表的方法,実践的応用を橋渡しする継続的学習に関する総合的な調査を行う。
既存の理論的および実証的な結果に基づいて,連続学習の一般的な目的を,資源効率の文脈における適切な安定性・塑性トレードオフと適切なタスク内一般化可能性を保証するものとして要約する。
次に,最先端かつ精巧な分類法を提供し,代表的な戦略が継続的学習をどのように扱うか,それらがどのように様々な応用における特定の課題に適応するかを広範囲に分析する。
将来性のある方向性に関する詳細な議論を通じて、このような全体論的な視点は、この分野以降の探究を大いに促進できると信じている。 To cope with real-world dynamics, an intelligent agent needs to incrementally acquire, update, accumulate, and exploit knowledge throughout its lifetime. This ability, known as continual learning, provides a foundation for AI systems to develop themselves adaptively. In a general sense, continual learning is explicitly limited by catastrophic forgetting, where learning a new task usually results in a dramatic performance degradation of the old tasks. Beyond this, increasingly numerous advances have emerged in recent years that largely extend the understanding and application of continual learning. The growing and widespread interest in this direction demonstrates its realistic significance as well as complexity. In this work, we present a comprehensive survey of continual learning, seeking to bridge the basic settings, theoretical foundations, representative methods, and practical applications. Based on existing theoretical and empirical results, we summarize the general objectives of continual learning as ensuring a proper stability-plasticity trade-off and an adequate intra/inter-task generalizability in the context of resource efficiency. Then we provide a state-of-the-art and elaborated taxonomy, extensively analyzing how representative strategies address continual learning, and how they are adapted to particular challenges in various applications. Through an in-depth discussion of promising directions, we believe that such a holistic perspective can greatly facilitate subsequent exploration in this field and beyond. | 翻訳日:2023-06-14 01:20:49 公開日:2023-06-11 |
# AdaGradをステップサイズとしたSGD:未知パラメータの確率の高い完全適応性、非有界勾配、アフィン変動 SGD with AdaGrad Stepsizes: Full Adaptivity with High Probability to Unknown Parameters, Unbounded Gradients and Affine Variance ( http://arxiv.org/abs/2302.08783v2 ) ライセンス: Link先を確認 | Amit Attia and Tomer Koren | (参考訳) AdaGradをステップサイズとした確率勾配Descentについて検討し,一階確率最適化のための適応型自己調整法を提案する。
十分に研究されているにもかかわらず、この手法の既存の分析には様々な欠点があり、問題パラメータに関するいくつかの知識を仮定するか、強い大域的なリプシッツ条件を課すか、確率の高い境界を与えないかのどちらかである。
我々は,このような制約を伴わない基本手法を包括的に解析し,凸と非凸(平滑)のいずれにおいても,一般の<affine variance'ノイズモデルもサポートし,低雑音と高雑音の両方において収束の急激な速度を提供する。 We study Stochastic Gradient Descent with AdaGrad stepsizes: a popular adaptive (self-tuning) method for first-order stochastic optimization. Despite being well studied, existing analyses of this method suffer from various shortcomings: they either assume some knowledge of the problem parameters, impose strong global Lipschitz conditions, or fail to give bounds that hold with high probability. We provide a comprehensive analysis of this basic method without any of these limitations, in both the convex and non-convex (smooth) cases, that additionally supports a general ``affine variance'' noise model and provides sharp rates of convergence in both the low-noise and high-noise~regimes. | 翻訳日:2023-06-14 01:12:04 公開日:2023-06-11 |
# 最適圧縮に向けて:ジョイントプルーニングと量子化 Towards Optimal Compression: Joint Pruning and Quantization ( http://arxiv.org/abs/2302.07612v2 ) ライセンス: Link先を確認 | Ben Zandonati, Glenn Bucagu, Adrian Alan Pol, Maurizio Pierini, Olya Sirkin, Tal Kopetz | (参考訳) モデル圧縮は、リソース制約のあるハードウェア上でのディープニューラルネットワーク推論の最適化に有効である。
ネットワーク圧縮、すなわち量子化とプルーニングの一般的な手法は、性能のコストで効率を高めることが示されている。
個々の層とパラメータの最も効果的な量子化とプルーニング戦略を決定することは、難題であり、しばしば計算コストが高く、アドホックな数値最適化技術を必要とする。
本稿では,階層的な混合精度量子化と非構造化プルーニングを統一的ヒューリスティック手法を用いて統合するFITCompressを紹介する。
圧縮空間を介してフィッシャー情報メトリクスと経路計画を活用することで、フィフ圧縮は所定の事前訓練されたモデルと圧縮制約に対するプルーニングマスクと混合精度量子化構成の組み合わせを最適に選択する。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法は従来の最先端手法と比較して圧縮性能のトレードオフが優れていることを示した。
FITCompressは、その原則的導出で、タスクやネットワークアーキテクチャを多用し、ニューラルネットワークの最適な圧縮を達成するためのステップである。 Model compression is instrumental in optimizing deep neural network inference on resource-constrained hardware. The prevailing methods for network compression, namely quantization and pruning, have been shown to enhance efficiency at the cost of performance. Determining the most effective quantization and pruning strategies for individual layers and parameters remains a challenging problem, often requiring computationally expensive and ad hoc numerical optimization techniques. This paper introduces FITCompress, a novel method integrating layer-wise mixed-precision quantization and unstructured pruning using a unified heuristic approach. By leveraging the Fisher Information Metric and path planning through compression space, FITCompress optimally selects a combination of pruning mask and mixed-precision quantization configuration for a given pre-trained model and compression constraint. Experiments on computer vision and natural language processing benchmarks demonstrate that our proposed approach achieves a superior compression-performance trade-off compared to existing state-of-the-art methods. FITCompress stands out for its principled derivation, making it versatile across tasks and network architectures, and represents a step towards achieving optimal compression for neural networks. | 翻訳日:2023-06-14 01:10:49 公開日:2023-06-11 |
# 方向多様体の積上のガウス過程 Gaussian Process on the Product of Directional Manifolds ( http://arxiv.org/abs/2303.06799v2 ) ライセンス: Link先を確認 | Ziyu Cao and Kailai Li | (参考訳) 配向多様体の積に対する入力を伴うガウス過程(GP)の確立に関する原理的な研究を紹介する。
円カーネルはフォン・ミセス分布に従って最初に提示される。
そこで, ハイパートロイダルフォン・ミゼス(HvM)カーネルは, 相関円成分を考慮したハイパートリ上でGPを確立するために提案されている。
提案したHvMカーネルは, 固有コリージョン化モデルを用いてハイパートリ上で定義されたベクトル値関数を学習するために, 多出力GP回帰を用いて実証する。
ハイパーパラメータ最適化における解析的デリバティブは、実行時クリティカルなアプリケーションのために提供される。
評価のために,範囲ベースのセンサネットワークを合成し,データ駆動再帰的ローカライズにhvmベースのgpsを用いる。
計算結果から,HvMに基づくGPは,従来のカーネル設計に基づくパラメトリックモデルやGPよりも優れた追跡精度が得られることが示された。 We introduce a principled study on establishing Gaussian processes (GPs) with inputs on the product of directional manifolds. A circular kernel is first presented according to the von Mises distribution. Based thereon, the so-called hypertoroidal von Mises (HvM) kernel is proposed to establish GPs on hypertori with consideration of correlational circular components. The proposed HvM kernel is demonstrated with multi-output GP regression for learning vector-valued functions defined on hypertori using the intrinsic coregionalization model. Analytical derivatives in hyperparameter optimization are provided for runtime-critical applications. For evaluation, we synthesize a ranging-based sensor network and employ the HvM-based GPs for data-driven recursive localization. The numerical results show that the HvM-based GP achieves superior tracking accuracy compared to parametric model and GPs based on conventional kernel designs. | 翻訳日:2023-06-14 01:04:15 公開日:2023-06-11 |
# グルコシンス(GlucoSynth:GlucoSynth:GlucoSynth) GlucoSynth: Generating Differentially-Private Synthetic Glucose Traces ( http://arxiv.org/abs/2303.01621v2 ) ライセンス: Link先を確認 | Josephine Lamp, Mark Derdzinski, Christopher Hannemann, Joost van der Linden, Lu Feng, Tianhao Wang, David Evans | (参考訳) 我々は,高品質でプライベートな合成グルコーストレースを生成するという課題に焦点をあてる。
GAN(Generative Adversarial Networks)のような既存の時系列データ合成手法では、グルコースデータの固有の特性を捉えることができず、合成データの利便性を著しく低下させることなく、正式なプライバシー保証を提供することはできない。
本稿では,合成グルコーストレースを生成するための新しいプライバシ保存ganフレームワークglucosynthを提案する。
このアプローチの背後にある中核的な直感は、時間的ダイナミクスに加えて、トレース内のモチーフ(グルコースイベント)間の関係を保存することである。
我々のフレームワークは、強力な正式なプライバシー保証を提供するために、差分プライバシー機構を組み込んでいる。
glucosynthは、強力なプライバシ保証によって高品質な合成グルコーストレースを生成する能力において、これまでのすべての方法よりも優れています。 We focus on the problem of generating high-quality, private synthetic glucose traces, a task generalizable to many other time series sources. Existing methods for time series data synthesis, such as those using Generative Adversarial Networks (GANs), are not able to capture the innate characteristics of glucose data and cannot provide any formal privacy guarantees without severely degrading the utility of the synthetic data. In this paper we present GlucoSynth, a novel privacy-preserving GAN framework to generate synthetic glucose traces. The core intuition behind our approach is to conserve relationships amongst motifs (glucose events) within the traces, in addition to temporal dynamics. Our framework incorporates differential privacy mechanisms to provide strong formal privacy guarantees. We provide a comprehensive evaluation on the real-world utility of the data using 1.2 million glucose traces; GlucoSynth outperforms all previous methods in its ability to generate high-quality synthetic glucose traces with strong privacy guarantees. | 翻訳日:2023-06-14 01:03:20 公開日:2023-06-11 |
# 線形関数上の静的不偏性進化アルゴリズムのタイトランタイム境界 Tight Runtime Bounds for Static Unary Unbiased Evolutionary Algorithms on Linear Functions ( http://arxiv.org/abs/2302.12338v2 ) ライセンス: Link先を確認 | Carola Doerr and Duri Andrea Janett and Johannes Lengler | (参考訳) 2013年のセミナー論文で、ウィットは、(1+1)進化的アルゴリズムの標準ビット変異は、任意の線型関数の最適値を見つけるのに(1+o(1))n \ln n/p_1$ を必要とし、ちょうど1ビットをフリップする確率 $p_1$ が$\Theta(1)$ であることを示した。
本稿では、この結果が標準ビット突然変異を任意の非バイアス突然変異演算子に置き換えた場合、どのように一般化するかを検討する。
ウィットによる下界に対する確率的支配論はもはや成り立たないので、この状況は特に異なる。
特に、最適に近いところから始めることは必ずしも利点ではなく、onemaxは任意の開始位置に対して最も簡単な関数ではない。
それにもかかわらず、wittの結果は、上限と下限の異なる制約を持つ、$p_1$ が小さすぎる場合と、フリップされたビットの数が有界な期待値が$\chi$ である場合とで引き渡される。
特に、これは高速遺伝アルゴリズムで使われる重く尾の突然変異演算子を含むが、全てではない。
また、unbounded $\chi$のアルゴリズムが最適に近い質的に異なる軌跡を持つことを示す例を示す。 In a seminal paper in 2013, Witt showed that the (1+1) Evolutionary Algorithm with standard bit mutation needs time $(1+o(1))n \ln n/p_1$ to find the optimum of any linear function, as long as the probability $p_1$ to flip exactly one bit is $\Theta(1)$. In this paper we investigate how this result generalizes if standard bit mutation is replaced by an arbitrary unbiased mutation operator. This situation is notably different, since the stochastic domination argument used for the lower bound by Witt no longer holds. In particular, starting closer to the optimum is not necessarily an advantage, and OneMax is no longer the easiest function for arbitrary starting positions. Nevertheless, we show that Witt's result carries over if $p_1$ is not too small, with different constraints for upper and lower bounds, and if the number of flipped bits has bounded expectation~$\chi$. Notably, this includes some of the heavy-tail mutation operators used in fast genetic algorithms, but not all of them. We also give examples showing that algorithms with unbounded $\chi$ have qualitatively different trajectories close to the optimum. | 翻訳日:2023-06-14 01:01:56 公開日:2023-06-11 |
# データ中心の人工知能:調査 Data-centric Artificial Intelligence: A Survey ( http://arxiv.org/abs/2303.10158v3 ) ライセンス: Link先を確認 | Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, Xia Hu | (参考訳) 人工知能(AI)は、ほぼすべての領域で大きな影響を与えています。
その大きな成功の重要な有効要因は、マシンラーニングモデルを構築するための豊富な高品質のデータの提供である。
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
研究者や実践者の関心は、徐々にモデル設計の進展から、データの品質や量の向上へと移りつつある。
本調査では,データ中心型AIの必要性について論じるとともに,データ中心型目標(データ開発,推論データ開発,データ保守)と代表的な手法を総合的に考察する。
また、自動化やコラボレーションの観点から既存の文献を整理し、課題を議論し、さまざまなタスクのベンチマークを集計します。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査であると考えています。
読者がこの分野の全体像を効率的に把握し、aiシステム構築のためのデータを体系的に設計するための技術やさらなる研究アイデアを読者に提供できることを願っている。
データ中心AIリソースのコンパニオンリストは、https://github.com/daochenzha/data-centric-AIで定期的に更新される。 Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI | 翻訳日:2023-06-14 00:52:22 公開日:2023-06-11 |
# 領域一般化における能力領域の探索 Finding Competence Regions in Domain Generalization ( http://arxiv.org/abs/2303.09989v2 ) ライセンス: Link先を確認 | Jens M\"uller, Stefan T. Radev, Robert Schmier, Felix Draxler, Carsten Rother, Ullrich K\"othe | (参考訳) テスト分布がトレーニング分布と異なるドメイン一般化(DG)におけるサイレント障害に対処するための「拒否学習」フレームワークについて検討する。
ゆるやかな分散シフトを仮定すると、モデルの推定能力が信頼できる応答を拒否するたびに、ood(out-of-distribution)データを新しいドメインから受け入れたいと思っています。
信頼度はプロキシ非能率スコアによって予測され、分類器のパフォーマンスと密接に関連している。
本稿では,既存のプロキシスコアを分類の非能率スコアとして総合的に評価し,拒否率と精度向上のトレードオフを明らかにする。
先行研究と組み合わせるために,標準dgベンチマークに着目し,クローズド対オープンワールドにおける異なる学習表現による非能率の測定の効果を検討する。
以上の結果から,不適格スコアの増加は精度の低下を予測し,適格不適格閾値以下では平均精度が有意に向上することが示唆された。
しかし、テスト対象のすべてのドメインで良好な精度/リジェクションのトレードオフを可能にするのに、スコアはまだ十分ではない。
また,DGロバスト性に最適化された分類器は,試験試料が低能力スコアを付与する能力領域において,単純な経験的リスク最小化(ERM)ベースラインを上回りません。 We investigate a "learning to reject" framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data from a new domain whenever a model's estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of existing proxy scores as incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores. | 翻訳日:2023-06-14 00:52:04 公開日:2023-06-11 |
# 変圧器を用いたシンボリック回帰計画 Transformer-based Planning for Symbolic Regression ( http://arxiv.org/abs/2303.06833v4 ) ライセンス: Link先を確認 | Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy | (参考訳) 記号回帰(SR)は、その値に基づいて関数の数学的表現を見つけることを含む機械学習における挑戦的なタスクである。
最近のsrの進歩は、方程式を列として生成することにおける事前訓練されたトランスフォーマーモデルの有効性を実証し、合成データセットの大規模事前トレーニングを活用し、gp法よりも推論時間に関して顕著な利点を提供している。
しかし、これらのモデルは主にテキスト生成から借りた教師付き事前学習の目標と、精度や複雑さといった方程式固有の目的に依存している。
そこで本研究では,モンテカルロ木探索をトランスフォーマ復号処理に組み込んだ,トランスフォーマに基づくシンボリック回帰計画戦略TPSRを提案する。
従来の復号法とは異なり、TPSRは知識の外部源として精度や複雑さなどの非微分可能なフィードバックを変換器ベースの方程式生成プロセスに統合することができる。
様々なデータセットに対する大規模な実験により、我々のアプローチは最先端の手法より優れており、モデルの適合・複雑度トレードオフ、外挿能力、騒音に対する堅牢性を高めていることが示された。 Symbolic regression (SR) is a challenging task in machine learning that involves finding a mathematical expression for a function based on its values. Recent advancements in SR have demonstrated the effectiveness of pretrained transformer-based models in generating equations as sequences, leveraging large-scale pretraining on synthetic datasets and offering notable advantages in terms of inference time over GP-based methods. However, these models primarily rely on supervised pretraining goals borrowed from text generation and overlook equation-specific objectives like accuracy and complexity. To address this, we propose TPSR, a Transformer-based Planning strategy for Symbolic Regression that incorporates Monte Carlo Tree Search into the transformer decoding process. Unlike conventional decoding strategies, TPSR enables the integration of non-differentiable feedback, such as fitting accuracy and complexity, as external sources of knowledge into the transformer-based equation generation process. Extensive experiments on various datasets show that our approach outperforms state-of-the-art methods, enhancing the model's fitting-complexity trade-off, extrapolation abilities, and robustness to noise | 翻訳日:2023-06-14 00:50:34 公開日:2023-06-11 |
# 信頼強化型強化学習を用いた時間知識グラフのファウショット帰納学習の改善 Improving Few-Shot Inductive Learning on Temporal Knowledge Graphs using Confidence-Augmented Reinforcement Learning ( http://arxiv.org/abs/2304.00613v2 ) ライセンス: Link先を確認 | Zifeng Ding, Jingpei Wu, Zongyue Li, Yunpu Ma, Volker Tresp | (参考訳) 時間知識グラフ補完(TKGC)は、時間的knwoledge graph(TKG)におけるエンティティ間の欠落したリンクを予測することを目的としている。
従来のtkgc法は、トレーニングセットに見られるエンティティ間の欠落リンクの予測しか考慮していないが、新しい未発見のエンティティに関するリンク予測において大きな性能を達成できない。
近年,新たなタスクであるoogリンク予測が提案されている。tkgcモデルでは,少数の観測例しか持たない新たに出現したエンティティについて,高いリンク予測性能を実現する必要がある。
本研究では,この課題を解決するために,少数ショット学習と強化学習を組み合わせたTKGC手法FITCARLを提案する。
FITCARLでは、エージェントがTKG全体を横切り、予測応答を検索する。
ポリシネットワークは、トラバースされたパスに基づいて検索プロセスを導くように設計されている。
数ショット設定におけるデータ不足問題に対処するため、各候補アクションの信頼性を計算し、アクション選択のポリシーに統合するモジュールを導入する。
また、エンティティ概念情報を新しい概念正規化器で活用し、モデル性能を向上させる。
実験の結果, fitcarl は tkg 数発 oog リンクの予測において stat-of-the-art 性能を達成した。 Temporal knowledge graph completion (TKGC) aims to predict the missing links among the entities in a temporal knwoledge graph (TKG). Most previous TKGC methods only consider predicting the missing links among the entities seen in the training set, while they are unable to achieve great performance in link prediction concerning newly-emerged unseen entities. Recently, a new task, i.e., TKG few-shot out-of-graph (OOG) link prediction, is proposed, where TKGC models are required to achieve great link prediction performance concerning newly-emerged entities that only have few-shot observed examples. In this work, we propose a TKGC method FITCARL that combines few-shot learning with reinforcement learning to solve this task. In FITCARL, an agent traverses through the whole TKG to search for the prediction answer. A policy network is designed to guide the search process based on the traversed path. To better address the data scarcity problem in the few-shot setting, we introduce a module that computes the confidence of each candidate action and integrate it into the policy for action selection. We also exploit the entity concept information with a novel concept regularizer to boost model performance. Experimental results show that FITCARL achieves stat-of-the-art performance on TKG few-shot OOG link prediction. | 翻訳日:2023-06-14 00:44:33 公開日:2023-06-11 |
# サイバーセキュリティのための説明可能な人工知能に関する調査 A Survey on Explainable Artificial Intelligence for Cybersecurity ( http://arxiv.org/abs/2303.12942v2 ) ライセンス: Link先を確認 | Gaith Rjoub, Jamal Bentahar, Omar Abdel Wahab, Rabeb Mizouni, Alyssa Song, Robin Cohen, Hadi Otrok, and Azzam Mourad | (参考訳) 人工知能(AI)モデルにおけるブラックボックスの性質は、重要な応用に使用する多くの懸念の源となっている。
説明可能な人工知能(XAI)は急速に成長する研究分野であり、決定と行動に対して明確かつ解釈可能な説明を提供する機械学習モデルの構築を目指している。
ネットワークサイバーセキュリティの分野では、サイバー脅威の振る舞いをよりよく理解し、より効果的な防御を設計することで、ネットワークセキュリティへのアプローチ方法に革命をもたらす可能性がある。
本稿では,ネットワークシステムにおけるサイバーセキュリティに関するXAI技術の現状を概観し,この問題に対処するために提案された様々なアプローチについて考察する。
このレビューは、ネットワークによるサイバーセキュリティの脅威と問題の体系的な分類に従っている。
本稿では,サイバーセキュリティにおける現行のxai手法の課題と限界について論じ,今後の展望について概説する。 The black-box nature of artificial intelligence (AI) models has been the source of many concerns in their use for critical applications. Explainable Artificial Intelligence (XAI) is a rapidly growing research field that aims to create machine learning models that can provide clear and interpretable explanations for their decisions and actions. In the field of network cybersecurity, XAI has the potential to revolutionize the way we approach network security by enabling us to better understand the behavior of cyber threats and to design more effective defenses. In this survey, we review the state of the art in XAI for cybersecurity in network systems and explore the various approaches that have been proposed to address this important problem. The review follows a systematic classification of network-driven cybersecurity threats and issues. We discuss the challenges and limitations of current XAI methods in the context of cybersecurity and outline promising directions for future research. | 翻訳日:2023-06-14 00:41:51 公開日:2023-06-11 |
# 十分統計量を用いた一般化データ薄型化 Generalized Data Thinning Using Sufficient Statistics ( http://arxiv.org/abs/2303.12931v2 ) ライセンス: Link先を確認 | Ameer Dharamshi, Anna Neufeld, Keshav Motwani, Lucy L. Gao, Daniela Witten, Jacob Bien | (参考訳) 我々の目標は、未知のパラメータに関する情報を犠牲にすることなく、確率変数$X$を複数の独立確率変数に分解する一般的な戦略を開発することである。
最近の論文では、いくつかのよく知られた自然指数族に対して、$X$ は独立確率変数 $X^{(1)}, \ldots, X^{(K)}$ に "thinned" され、$X = \sum_{k=1}^K X^{(k)}$ となることを示した。
これらの独立した確率変数は、従来のサンプル分割が失敗するコンテキストを含む様々なモデル検証や推論タスクに使用できる。
本稿では、この和の要求を緩和し、独立確率変数の既知の関数が$X$を正確に再構成することを求めることで、それらの手順を一般化する。
この手続きの一般化は2つの目的がある。
第一に、薄型化が可能な分布のファミリーを大きく広げる。
第二に、同じ原理の応用として、表面上は非常に異なるように見えるサンプル分割とデータの薄型化を統一する。
この共有原則は十分である。
この知見を多種多様な家族を対象とした汎用的な薄型化作業に活用する。 Our goal is to develop a general strategy to decompose a random variable $X$ into multiple independent random variables, without sacrificing any information about unknown parameters. A recent paper showed that for some well-known natural exponential families, $X$ can be "thinned" into independent random variables $X^{(1)}, \ldots, X^{(K)}$, such that $X = \sum_{k=1}^K X^{(k)}$. These independent random variables can then be used for various model validation and inference tasks, including in contexts where traditional sample splitting fails. In this paper, we generalize their procedure by relaxing this summation requirement and simply asking that some known function of the independent random variables exactly reconstruct $X$. This generalization of the procedure serves two purposes. First, it greatly expands the families of distributions for which thinning can be performed. Second, it unifies sample splitting and data thinning, which on the surface seem to be very different, as applications of the same principle. This shared principle is sufficiency. We use this insight to perform generalized thinning operations for a diverse set of families. | 翻訳日:2023-06-14 00:41:37 公開日:2023-06-11 |
# Vax-Culture:Twitterでワクチンの談話を学ぶためのデータセット Vax-Culture: A Dataset for Studying Vaccine Discourse on Twitter ( http://arxiv.org/abs/2304.06858v3 ) ライセンス: Link先を確認 | Mohammad Reza Zarei, Michael Christensen, Sarah Everts and Majid Komeili | (参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大に伴い、ワクチン中毒は公衆衛生当局にとって大きな課題となっている。
このため、多くの研究者がワクチンキャンペーンの根本原因を特定し、ソーシャルメディアプラットフォーム上での抗ワクチンの誤情報の増加がこの問題の重要な要素であることを発見した。
われわれはTwitterを誤解を招くコンテンツ源として探求し、ワクチンの誤情報を広める動機となる文化的・政治的信念の重複を抽出した。
そのために、私たちはワクチン関連のツイートのデータセットを収集し、コミュニケーションとジャーナリズムのバックグラウンドを持つアノテータチームの助けを借りて注釈付けしました。
最終的には、これが反ワクチンの信念を持つ個人にリーチするための効果的な公衆衛生コミュニケーション戦略につながることを願っている。
さらに、この情報は、ワクチンの誤情報を自動検出し、悪影響に対処する機械学習モデルの開発に役立つ。
本稿では,ワクチン・ヘシタンシースタンス,ツイート中の誤情報の表示,各ツイートに対する批判とサポート,各ツイートのコミュニケーションメッセージなど,多種多様なアノテーションを伴って,6373個のワクチン関連ツイートからなる,新しいtwitter covid-19データセットであるvax-cultureを提案する。
さらに,4つの分類と1つのシーケンス生成タスクを含む5つの基本タスクを定義し,それらに対する最近のトランスフォーマーモデルの結果を報告する。
データセットとコードはhttps://github.com/mrzarei5/vax-cultureで公開されている。 Vaccine hesitancy continues to be a main challenge for public health officials during the COVID-19 pandemic. As this hesitancy undermines vaccine campaigns, many researchers have sought to identify its root causes, finding that the increasing volume of anti-vaccine misinformation on social media platforms is a key element of this problem. We explored Twitter as a source of misleading content with the goal of extracting overlapping cultural and political beliefs that motivate the spread of vaccine misinformation. To do this, we have collected a data set of vaccine-related Tweets and annotated them with the help of a team of annotators with a background in communications and journalism. Ultimately we hope this can lead to effective and targeted public health communication strategies for reaching individuals with anti-vaccine beliefs. Moreover, this information helps with developing Machine Learning models to automatically detect vaccine misinformation posts and combat their negative impacts. In this paper, we present Vax-Culture, a novel Twitter COVID-19 dataset consisting of 6373 vaccine-related tweets accompanied by an extensive set of human-provided annotations including vaccine-hesitancy stance, indication of any misinformation in tweets, the entities criticized and supported in each tweet and the communicated message of each tweet. Moreover, we define five baseline tasks including four classification and one sequence generation tasks, and report the results of a set of recent transformer-based models for them. The dataset and code are publicly available at https://github.com/mrzarei5/Vax-Culture. | 翻訳日:2023-06-14 00:32:31 公開日:2023-06-11 |
# sfd2: セマンティックガイドによる特徴検出と記述 SFD2: Semantic-guided Feature Detection and Description ( http://arxiv.org/abs/2304.14845v2 ) ライセンス: Link先を確認 | Fei Xue and Ignas Budvytis and Roberto Cipolla | (参考訳) 視覚的ローカライゼーションは、自律運転やロボット工学など、さまざまなアプリケーションの基本課題である。
従来の手法では、局所的に信頼性の高い大量の冗長な特徴の抽出に重点を置いているため、特に困難な状況下での大規模環境での効率と精度は限られている。
その代わりに,検出プロセスと記述プロセスの両方に暗黙的にハイレベルなセマンティクスを埋め込むことで,グローバルに信頼性の高い特徴を抽出することを提案する。
具体的には、semantic-aware detectorは、明示的なセマンティックラベルに頼るのではなく、信頼できるリージョン(例えば、ビルディング、トラヒックレーン)からキーポイントを検出でき、信頼できない領域(例えば、空、車)を暗黙的に抑制できます。
これにより、外観変更に敏感な機能数を減らし、テスト時に追加のセグメンテーションネットワークの必要性を避けることで、キーポイントマッチングの精度を高めることができる。
さらに、ディスクリプタはセマンティクスで強化され、識別能力が強く、テスト時により多くのインレーシを提供する。
特に,Aachen Day-Night と RobotCar-Seasons の長期的視覚的ローカライゼーション実験は,我々のモデルが従来の局所的特徴より優れ,高度なマーカに競争精度を与えるが,それぞれ2k と 4k のキーポイントを使用する場合の約 2 倍高速であることを示す。 Visual localization is a fundamental task for various applications including autonomous driving and robotics. Prior methods focus on extracting large amounts of often redundant locally reliable features, resulting in limited efficiency and accuracy, especially in large-scale environments under challenging conditions. Instead, we propose to extract globally reliable features by implicitly embedding high-level semantics into both the detection and description processes. Specifically, our semantic-aware detector is able to detect keypoints from reliable regions (e.g. building, traffic lane) and suppress unreliable areas (e.g. sky, car) implicitly instead of relying on explicit semantic labels. This boosts the accuracy of keypoint matching by reducing the number of features sensitive to appearance changes and avoiding the need of additional segmentation networks at test time. Moreover, our descriptors are augmented with semantics and have stronger discriminative ability, providing more inliers at test time. Particularly, experiments on long-term large-scale visual localization Aachen Day-Night and RobotCar-Seasons datasets demonstrate that our model outperforms previous local features and gives competitive accuracy to advanced matchers but is about 2 and 3 times faster when using 2k and 4k keypoints, respectively. | 翻訳日:2023-06-14 00:24:59 公開日:2023-06-11 |
# IMP: 適応型プールによる反復的マッチングとポース推定 IMP: Iterative Matching and Pose Estimation with Adaptive Pooling ( http://arxiv.org/abs/2304.14837v2 ) ライセンス: Link先を確認 | Fei Xue and Ignas Budvytis and Roberto Cipolla | (参考訳) 従来の手法では2段階のプロセスを用いて特徴マッチングやポーズ推定を行い、まずマッチングを見つけ、次にポーズを推定する。
2つのタスク間の幾何学的関係を無視するため、マッチの品質向上や潜在的な外れ値のフィルタリングに重点を置いているため、効率や正確性は限られている。
これとは対照的に,2つのタスク間の幾何的接続を利用した反復的マッチングとポーズ推定フレームワーク(IMP)を提案する。
この目的のために我々は,スパースマッチとカメラポーズを共同で出力する幾何学的アレントアレントアレントアテンションベースモジュールを実装した。
具体的には、各イテレーションに対して、まず、ポーズ一貫性の損失を通じて、モジュールに幾何学情報を暗黙的に埋め込む。
第2に,eimpと呼ばれる,冗長な更新を回避し,トランスフォーマの注意計算の二次時間複雑性を著しく低減する,キーポイントを動的に破棄する\textbf{e}fficient impを導入する。
YFCC100m、Scannet、Aachen Day-Nightのデータセットに対する実験により、提案手法は精度と効率の点で従来の手法よりも優れていることが示された。 Previous methods solve feature matching and pose estimation using a two-stage process by first finding matches and then estimating the pose. As they ignore the geometric relationships between the two tasks, they focus on either improving the quality of matches or filtering potential outliers, leading to limited efficiency or accuracy. In contrast, we propose an iterative matching and pose estimation framework (IMP) leveraging the geometric connections between the two tasks: a few good matches are enough for a roughly accurate pose estimation; a roughly accurate pose can be used to guide the matching by providing geometric constraints. To this end, we implement a geometry-aware recurrent attention-based module which jointly outputs sparse matches and camera poses. Specifically, for each iteration, we first implicitly embed geometric information into the module via a pose-consistency loss, allowing it to predict geometry-aware matches progressively. Second, we introduce an \textbf{e}fficient IMP, called EIMP, to dynamically discard keypoints without potential matches, avoiding redundant updating and significantly reducing the quadratic time complexity of attention computation in transformers. Experiments on YFCC100m, Scannet, and Aachen Day-Night datasets demonstrate that the proposed method outperforms previous approaches in terms of accuracy and efficiency. | 翻訳日:2023-06-14 00:24:31 公開日:2023-06-11 |
# 均一暗号を用いたE2E推論のための大規模多項式CNNの訓練 Training Large Scale Polynomial CNNs for E2E Inference over Homomorphic Encryption ( http://arxiv.org/abs/2304.14836v2 ) ライセンス: Link先を確認 | Moran Baruch, Nir Drucker, Gilad Ezov, Yoav Goldberg, Eyal Kushnir, Jenny Lerner, Omri Soceanu and Itamar Zimerman | (参考訳) 推論中にホモモルフィック暗号化(HE)で実行できる大規模なCNNの訓練は、多項式演算のみを使用する必要があるため困難である。
これはHEベースのソリューションの採用を制限する。
本稿では,resnet-152 や convnext モデルなどの大規模多項式 cnn に対する新しい学習法を提供し,imagenet のような大規模データセット上での暗号化サンプルの有望な精度を実現する。
さらに,アクティベーション関数とスキップ接続遅延の影響に関する最適化情報を提供し,HEに基づく評価効率を向上させる。
最後に,提案手法のロバスト性を示すため,CLIPモデルの多項式適応によりゼロショット予測をセキュアにし,HEの交点における前例のない能力を解放し,伝達学習を行う。 Training large-scale CNNs that during inference can be run under Homomorphic Encryption (HE) is challenging due to the need to use only polynomial operations. This limits HE-based solutions adoption. We address this challenge and pioneer in providing a novel training method for large polynomial CNNs such as ResNet-152 and ConvNeXt models, and achieve promising accuracy on encrypted samples on large-scale dataset such as ImageNet. Additionally, we provide optimization insights regarding activation functions and skip-connection latency impacts, enhancing HE-based evaluation efficiency. Finally, to demonstrate the robustness of our method, we provide a polynomial adaptation of the CLIP model for secure zero-shot prediction, unlocking unprecedented capabilities at the intersection of HE and transfer learning. | 翻訳日:2023-06-14 00:24:05 公開日:2023-06-11 |
# ChartSumm: 長文と短文の自動チャート要約のための総合ベンチマーク ChartSumm: A Comprehensive Benchmark for Automatic Chart Summarization of Long and Short Summaries ( http://arxiv.org/abs/2304.13620v3 ) ライセンス: Link先を確認 | Raian Rahman, Rizvi Hasan, Abdullah Al Farhad, Md Tahmid Rahman Laskar, Md. Hamjajul Ashmafee, Abu Raihan Mostofa Kamal | (参考訳) テキスト要約への自動チャートは、視覚障害者に有効なツールであり、自然言語による表データの正確な洞察をユーザに提供します。
大規模で構造化されたデータセットは、データ駆動モデルにとって常に重要な部分です。
本稿では,トータル84,363のチャートからなる大規模ベンチマークデータセットであるchartsummを提案する。
強力なベースラインモデルによる大規模な実験は、これらのモデルが様々な自動評価指標で十分なスコアを達成して流動的で情報的な要約を生成するにもかかわらず、しばしば幻覚に苦しむこと、重要なデータポイントを欠いていること、チャートの複雑な傾向の誤った説明といった問題に直面していることを示している。
また、自動翻訳ツールを用いてChartSummを他の言語に拡張する可能性についても検討した。
これらのデータセットは、将来の研究のための挑戦的なベンチマークになります。 Automatic chart to text summarization is an effective tool for the visually impaired people along with providing precise insights of tabular data in natural language to the user. A large and well-structured dataset is always a key part for data driven models. In this paper, we propose ChartSumm: a large-scale benchmark dataset consisting of a total of 84,363 charts along with their metadata and descriptions covering a wide range of topics and chart types to generate short and long summaries. Extensive experiments with strong baseline models show that even though these models generate fluent and informative summaries by achieving decent scores in various automatic evaluation metrics, they often face issues like suffering from hallucination, missing out important data points, in addition to incorrect explanation of complex trends in the charts. We also investigated the potential of expanding ChartSumm to other languages using automated translation tools. These make our dataset a challenging benchmark for future research. | 翻訳日:2023-06-14 00:23:29 公開日:2023-06-11 |
# (ベクトル)空間は最終フロンティアではない:プログラム合成としての製品探索 (Vector) Space is Not the Final Frontier: Product Search as Program Synthesis ( http://arxiv.org/abs/2304.11473v2 ) ライセンス: Link先を確認 | Jacopo Tagliabue and Ciro Greco | (参考訳) eコマースが成長を続けるにつれ、MLと情報検索のためのNLPへの巨額の投資が続いている。
ベクトル空間モデルは、深層学習の出現とともにベクトル化自体が大きく変化したとしても、製品検索における検索モデルに支配的であるが、プログラム合成は、多くのクエリや市場でかなりの数のプレイヤーに大きな利点をもたらす、というコントラリア的手法で論じている。
提案手法の産業的意義を詳述し,実装の詳細をスケッチし,toosoで同様のシステムを構築した経験から,共通する異論に対処した。 As ecommerce continues growing, huge investments in ML and NLP for Information Retrieval are following. While the vector space model dominated retrieval modelling in product search - even as vectorization itself greatly changed with the advent of deep learning -, our position paper argues in a contrarian fashion that program synthesis provides significant advantages for many queries and a significant number of players in the market. We detail the industry significance of the proposed approach, sketch implementation details, and address common objections drawing from our experience building a similar system at Tooso. | 翻訳日:2023-06-14 00:22:36 公開日:2023-06-11 |
# AI生成マップの倫理 : DALLE 2とカルトグラフィーへの応用 The Ethics of AI-Generated Maps: A Study of DALLE 2 and Implications for Cartography ( http://arxiv.org/abs/2304.10743v3 ) ライセンス: Link先を確認 | Yuhao Kang and Qianheng Zhang and Robert Roth | (参考訳) ChatGPTやDALLE 2といった大規模言語モデルの出現など、人工知能(AI)の急速な進歩は、生産性の向上と倫理的懸念の高まりをもたらす。
本稿では,地図学における人工知能(ai)活用の倫理について,特にdalle 2を用いた地図生成に焦点をあてて検討する。
これを実現するために、まず、さまざまな設定で複数のスケールで合成(AI生成)と実世界の(人間設計)マップを含むオープンソースのデータセットを作成します。
次に, dalle 2 生成地図の特徴, 不正確性, 誤解を招く情報, 予期せぬ特徴, 再現性から生じる4つの潜在的な倫理的懸念について検討した。
次に、AI生成マップを識別する深層学習に基づく倫理検査システムを開発する。
本研究は,地図学におけるAI技術の発展と活用における倫理的配慮の重要性を強調し,信頼性の高い地図の開発に寄与する。
我々は、AI生成マップに関連する潜在的なリスクに対する大衆の認識を高め、将来の利用のための倫理ガイドラインの開発を支援することを目的としている。 The rapid advancement of artificial intelligence (AI) such as the emergence of large language models including ChatGPT and DALLE 2 has brought both opportunities for improving productivity and raised ethical concerns. This paper investigates the ethics of using artificial intelligence (AI) in cartography, with a particular focus on the generation of maps using DALLE 2. To accomplish this, we first create an open-sourced dataset that includes synthetic (AI-generated) and real-world (human-designed) maps at multiple scales with a variety settings. We subsequently examine four potential ethical concerns that may arise from the characteristics of DALLE 2 generated maps, namely inaccuracies, misleading information, unanticipated features, and reproducibility. We then develop a deep learning-based ethical examination system that identifies those AI-generated maps. Our research emphasizes the importance of ethical considerations in the development and use of AI techniques in cartography, contributing to the growing body of work on trustworthy maps. We aim to raise public awareness of the potential risks associated with AI-generated maps and support the development of ethical guidelines for their future use. | 翻訳日:2023-06-14 00:22:25 公開日:2023-06-11 |
# 拡散モデルにおけるNull-text Guidanceは、秘かにカートゥーンスタイルのクリエーターである Null-text Guidance in Diffusion Models is Secretly a Cartoon-style Creator ( http://arxiv.org/abs/2305.06710v2 ) ライセンス: Link先を確認 | Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Huang, Wenjing Yang | (参考訳) 分類器フリーガイダンスは拡散モデルにおいて有効なサンプリング手法であり、広く採用されている。
主な考え方は、モデルをテキストガイダンスの方向に外挿し、nullテキストガイダンスから遠ざかることである。
本稿では,拡散モデルにおけるヌルテキストガイダンスが秘かにマンガスタイルの作者であること,すなわち,ヌルテキストガイダンスを単純に摂動させることで,生成した画像を漫画に効率的に変換できることを実証する。
具体的には,2つの外乱手法,すなわちロールバック障害(Back-D)とイメージ障害(Image-D)を提案し,サンプリングプロセスにおいて,ヌルテキストガイダンスとテキストガイダンスの予測に使用されるノイズ画像と,それぞれ \textbf{null-text noisy image} と \textbf{text noisy image} とを一致させる。
Back-Dは、$x_t$を$x_{t+\Delta t}$に置き換えることで、null-textのノイズレベルを変更することで、漫画化を実現する。
Image-Dは、クリーンな入力画像として$x_t$を定義することにより、高忠実で多様な漫画を生成する。
包括的実験により, ノイズ乱れの原理を考察し, 乱れの有効性は, 雑音画像と音源画像との相関に依存することを明らかにした。
さらに,提案手法は,漫画画像を生成し,特定のものを漫画化することができるため,任意の分類子フリー誘導拡散モデルにおいて,プラグイン・アンド・プレイ・コンポーネントとして容易に統合できる。
プロジェクトページは \url{https://nulltextforcartoon.github.io/} で利用可能である。 Classifier-free guidance is an effective sampling technique in diffusion models that has been widely adopted. The main idea is to extrapolate the model in the direction of text guidance and away from null-text guidance. In this paper, we demonstrate that null-text guidance in diffusion models is secretly a cartoon-style creator, i.e., the generated images can be efficiently transformed into cartoons by simply perturbing the null-text guidance. Specifically, we proposed two disturbance methods, i.e., Rollback disturbance (Back-D) and Image disturbance (Image-D), to construct misalignment between the noisy images used for predicting null-text guidance and text guidance (subsequently referred to as \textbf{null-text noisy image} and \textbf{text noisy image} respectively) in the sampling process. Back-D achieves cartoonization by altering the noise level of null-text noisy image via replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which further improves the incorporation of finer image details. Through comprehensive experiments, we delved into the principle of noise disturbing for null-text and uncovered that the efficacy of disturbance depends on the correlation between the null-text noisy image and the source image. Moreover, our proposed techniques, which can generate cartoon images and cartoonize specific ones, are training-free and easily integrated as a plug-and-play component in any classifier-free guided diffusion model. Project page is available at \url{https://nulltextforcartoon.github.io/}. | 翻訳日:2023-06-14 00:14:37 公開日:2023-06-11 |
# スケーラブル最適マージン分配機 Scalable Optimal Margin Distribution Machine ( http://arxiv.org/abs/2305.04837v4 ) ライセンス: Link先を確認 | Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi and Hai Jin | (参考訳) 最適マージン分布マシン(optimize margin distribution machine、odm)は、新しいマージン理論に根ざした新しく提案された統計学習フレームワークである。
それにもかかわらず、他のカーネルメソッドと同様に計算時間とメモリの両方に関するユビキタスなスケーラビリティの問題に悩まされている。
本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。
非線形カーネルに対しては,各パーティションで訓練されたローカルODMを,グローバルカーネルに高速に収束させる分散対応パーティション法を提案する。
線形カーネルを適用すると、通信効率のよいSVRG法を拡張してトレーニングをさらに加速する。
大規模な実証研究により,提案手法は計算効率が高く,一般化をほとんど悪化させることはなかった。 Optimal margin Distribution Machine (ODM) is a newly proposed statistical learning framework rooting in the novel margin theory, which demonstrates better generalization performance than the traditional large margin based counterparts. Nonetheless, it suffers from the ubiquitous scalability problem regarding both computation time and memory as other kernel methods. This paper proposes a scalable ODM, which can achieve nearly ten times speedup compared to the original ODM training method. For nonlinear kernels, we propose a novel distribution-aware partition method to make the local ODM trained on each partition be close and converge fast to the global one. When linear kernel is applied, we extend a communication efficient SVRG method to accelerate the training further. Extensive empirical studies validate that our proposed method is highly computational efficient and almost never worsen the generalization. | 翻訳日:2023-06-14 00:13:52 公開日:2023-06-11 |
# MGR:マルチジェネレータに基づく合理化 MGR: Multi-generator Based Rationalization ( http://arxiv.org/abs/2305.04492v6 ) ライセンス: Link先を確認 | Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu | (参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。
しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。
2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。
本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。
MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。
実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。
コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。 Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR . | 翻訳日:2023-06-14 00:13:37 公開日:2023-06-11 |
# 可変誤り補正量子ビットによるフルスタック量子コンピューティングの実現 Enabling Full-Stack Quantum Computing with Changeable Error-Corrected Qubits ( http://arxiv.org/abs/2305.07072v2 ) ライセンス: Link先を確認 | Anbang Wu, Keyi Yin, Andrew W. Cross, Ang Li, Yufei Ding | (参考訳) 量子エラー補正(QEC)による量子アプリケーションの実行は、イージン・ニウルの定理によって課されるゲート不等式問題に直面する。
1つのリソース時間効率のソリューションとして、コードスイッチングは論理キュービットのエンコーディングを変更し、普遍論理ゲートを実装する。
残念ながら、変更可能な論理量子ビットに基づいてフルスタックのフォールトトレラント量子コンピューティング(FTQC)を実行する方法はまだ不明である。
特に3つの重要な問題は未解決のままである。
a) 動的論理キュービットをハードウェアに実装する方法
b) 論理キュービットの変化の適切なタイミングを決定する方法
c) 異なる機能を持つプログラムのシステム全体のパフォーマンスを改善する方法。
これらの設計問題を克服するために,変更可能な論理量子ビットに基づくFTQCの大規模設計空間を探索するCECQを提案する。
様々な量子プログラムの実験は、CECQの有効性を示す。 Executing quantum applications with quantum error correction (QEC) faces the gate non-universality problem imposed by the Eastin-Knill theorem. As one resource-time-efficient solution, code switching changes the encoding of logical qubits to implement universal logical gates. Unfortunately, it is still unclear how to perform full-stack fault-tolerant quantum computing (FTQC) based on the changeable logical qubit. Specifically, three critical problems remain unsolved: a) how to implement the dynamic logical qubit on hardware; b) how to determine the appropriate timing for logical qubit varying; c) how to improve the overall system performance for programs of different features. To overcome those design problems, We propose CECQ, to explore the large design space for FTQC based on changeable logical qubits. Experiments on various quantum programs demonstrate the effectiveness of CECQ. | 翻訳日:2023-06-14 00:02:36 公開日:2023-06-11 |
# 一般化p-ラプラシアン正則フレームレットgcnsの再検討:収束、エネルギー動的および非線形拡散によるトレーニング Revisiting Generalized p-Laplacian Regularized Framelet GCNs: Convergence, Energy Dynamic and Training with Non-Linear Diffusion ( http://arxiv.org/abs/2305.15639v2 ) ライセンス: Link先を確認 | Dai Shi, Zhiqi Shao, Yi Guo, Qibin Zhao, Junbin Gao | (参考訳) 本稿では,グラフp-laplacian based framelet network (pl-ufg) の包括的理論的解析を行い,その特性の理解を深める。
まず,フレームレット畳み込み後に統合されたp-ラプラシアン系暗黙的層の収束解析を行い,pl-ufgの漸近的挙動について考察する。
pL-UFGの一般化されたディリクレエネルギーを探索することにより、ディリクレエネルギーは非ゼロのままであり、pL-UFGの収束に近づくにつれて過度に滑らかな問題を避けることが証明される。
さらに,pL-UFGの暗黙的な層がグラフフレームレットと相乗化することで,同好および異好の両データへのモデルの適応性を高めることによる動的エネルギー視点の解明を行う。
驚くべきことに、暗黙的層は一般化された非線形拡散過程として解釈でき、多様なスキームを用いたトレーニングを可能にする。
これらの多面的分析は、pL-UFGの理解と実装に新たな洞察を与える統一的な結論をもたらし、グラフベースのディープラーニングの分野の進歩に寄与する。 This work presents a comprehensive theoretical analysis of graph p-Laplacian based framelet network (pL-UFG) to establish a solid understanding of its properties. We begin by conducting a convergence analysis of the p-Laplacian based implicit layer integrated after the framelet convolution, providing insights into the asymptotic behavior of pL-UFG. By exploring the generalized Dirichlet energy of pL-UFG, we demonstrate that the Dirichlet energy remains non-zero, ensuring the avoidance of over-smoothing issues in pL-UFG as it approaches convergence. Furthermore, we elucidate the dynamic energy perspective through which the implicit layer in pL-UFG synergizes with graph framelets, enhancing the model's adaptability to both homophilic and heterophilic data. Remarkably, we establish that the implicit layer can be interpreted as a generalized non-linear diffusion process, enabling training using diverse schemes. These multifaceted analyses lead to unified conclusions that provide novel insights for understanding and implementing pL-UFG, contributing to advancements in the field of graph-based deep learning. | 翻訳日:2023-06-13 23:54:43 公開日:2023-06-11 |
# オープンリサーチナレッジグラフにおけるオブジェクト予測のためのプロンプトベース質問応答の評価 Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph ( http://arxiv.org/abs/2305.12900v2 ) ライセンス: Link先を確認 | Jennifer D'Souza, Moussab Hrou and S\"oren Auer | (参考訳) 低リソース環境での新しいテキストジャンルのトランスフォーマー言語モデルのプロンプトベーストレーニングに関する最近の調査が数多く行われている。
プロンプトベースのトレーニングアプローチは、リソーススカース設定への転送のための事前訓練または微調整モデルの一般化に有効であることが判明した。
この研究は、初めて、 \textit{scholarly knowledge graph object prediction} にトランスフォーマーのプロンプトベースのトレーニングを採用する成果を報告した。
作品の特色は以下の2点である。
1) 学術知識グラフのオブジェクトを予測するためのエンティティおよび関係抽出パイプラインを提案する他の作品から逸脱する。
2)本手法は一般知識領域に比較的近いテキスト・ジェネラで検証されているが,これらの大規模トランスフォーマー・モデルの言語的・確率的・事実的一般化性をテストするため,学術的知識の分野とは大きく異なる方法を試している。
私たちはそれを見つけ
(i) 期待に応じて、新しいデータ領域でテストされたアウト・オブ・ザ・ボックスのアンダーパフォーマンスのトランスフォーマーモデル。
(ii)緩和された評価設定において、モデルの即興学習は最大40\%の性能向上を達成し、
(iii)低リソース環境において巧妙なトレーニング目標を持っても、まったく異なるドメインでモデルをテストすることは、トランスフォーマーモデルという文脈で学術領域により多くの注意とリソースを投資するための経験的に検証されたインセンティブを提供する、ドメイン知識獲得ギャップを明確にする。 There have been many recent investigations into prompt-based training of transformer language models for new text genres in low-resource settings. The prompt-based training approach has been found to be effective in generalizing pre-trained or fine-tuned models for transfer to resource-scarce settings. This work, for the first time, reports results on adopting prompt-based training of transformers for \textit{scholarly knowledge graph object prediction}. The work is unique in the following two main aspects. 1) It deviates from the other works proposing entity and relation extraction pipelines for predicting objects of a scholarly knowledge graph. 2) While other works have tested the method on text genera relatively close to the general knowledge domain, we test the method for a significantly different domain, i.e. scholarly knowledge, in turn testing the linguistic, probabilistic, and factual generalizability of these large-scale transformer models. We find that (i) per expectations, transformer models when tested out-of-the-box underperform on a new domain of data, (ii) prompt-based training of the models achieve performance boosts of up to 40\% in a relaxed evaluation setting, and (iii) testing the models on a starkly different domain even with a clever training objective in a low resource setting makes evident the domain knowledge capture gap offering an empirically-verified incentive for investing more attention and resources to the scholarly domain in the context of transformer models. | 翻訳日:2023-06-13 23:52:46 公開日:2023-06-11 |
# 安定性、一般化、プライバシ:ランダムおよびNTK機能の精密解析 Stability, Generalization and Privacy: Precise Analysis for Random and NTK Features ( http://arxiv.org/abs/2305.12100v2 ) ライセンス: Link先を確認 | Simone Bombari, Marco Mondelli | (参考訳) ディープラーニングモデルは、リカバリ攻撃やユーザに対するプライバシの懸念の高まりに対して脆弱であり、経験的リスク最小化(ERM)のような広範なアルゴリズムは、安全保証を直接強制しないことが多い。
本稿では,強力なブラックボックス攻撃群に対するERM訓練モデルの安全性について検討する。
当社の分析では、この安全性を2つの異なる用語で定量化しています。
(i)個別のトレーニングサンプルに対するモデルの安定性、
(ii)攻撃者クエリと元のデータとの間の特徴的アライメント。
第1項は学習理論においてよく確立されており、古典的作品における一般化誤差と結びついているが、第2項は、我々の知る限りでは、小説である。
我々の重要な技術的成果は、ランダム特徴(rf)と神経接核(ntk)回帰の2つの原型的設定に対する特徴的アライメントの正確な特徴付けを提供する。
これにより、プライバシは一般化機能の増加とともに強化され、アクティベーション機能の役割も明らかにされる。
数値実験は、RFモデルとNTKモデルだけでなく、標準データセット(MNIST, CIFAR-10)で訓練されたディープニューラルネットワークに対しても、我々の理論と一致した振る舞いを示す。 Deep learning models can be vulnerable to recovery attacks, raising privacy concerns to users, and widespread algorithms such as empirical risk minimization (ERM) often do not directly enforce safety guarantees. In this paper, we study the safety of ERM-trained models against a family of powerful black-box attacks. Our analysis quantifies this safety via two separate terms: (i) the model stability with respect to individual training samples, and (ii) the feature alignment between the attacker query and the original data. While the first term is well established in learning theory and it is connected to the generalization error in classical work, the second one is, to the best of our knowledge, novel. Our key technical result provides a precise characterization of the feature alignment for the two prototypical settings of random features (RF) and neural tangent kernel (NTK) regression. This proves that privacy strengthens with an increase in the generalization capability, unveiling also the role of the activation function. Numerical experiments show a behavior in agreement with our theory not only for the RF and NTK models, but also for deep neural networks trained on standard datasets (MNIST, CIFAR-10). | 翻訳日:2023-06-13 23:52:20 公開日:2023-06-11 |
# 統合畳み込みブロック注意機構を用いたクロスドメイン車検出モデル Cross-Domain Car Detection Model with Integrated Convolutional Block Attention Mechanism ( http://arxiv.org/abs/2305.20055v2 ) ライセンス: Link先を確認 | Haoxuan Xu, Songning Lai, Xianyang Li, Yang Yang | (参考訳) 車の検知は、特にカメラビジョンを通じて、コンピュータビジョンの分野に重点を置いており、広く普及している。
現在の自動車検出システムは良好な検出が可能であるが、車間距離、光強度、環境視認性などの要因により、信頼性の高い検出は依然として困難である。
これらの問題に対処するため,自動走行などの分野での車認識に適用可能な,畳み込みブロック注意機構(CDMA)を備えたクロスドメイン車検出モデルを提案する。
CDMAには、1)完全なクロスドメインターゲット検出フレームワークの構築。
2) 自動車ヘッドライトの特徴を具体的に強調する畳み込み注意機構を組み込んだ非対向目標ドメイン画像生成モジュールの開発。
3) 目標検出フレームワークの損失関数として一般対連合(GIOU)を適応する。
4)双方向畳み込みブロックアテンションモジュール(cbam)を組み込んだ物体検出モデルの設計
5)効果的なデータ拡張方法の活用。
モデルの有効性を評価するため、SSLADデータセットのデータに対して、reduce will resolutionプロセスを実行し、タスクのベンチマークデータセットとして使用しました。
実験の結果,クロスドメインカーターゲット検出モデルの性能は,フレームワークを使わずに40%向上し,クロスドメインカー認識にも大きな影響を与えることがわかった。 Car detection, particularly through camera vision, has become a major focus in the field of computer vision and has gained widespread adoption. While current car detection systems are capable of good detection, reliable detection can still be challenging due to factors such as proximity between the car, light intensity, and environmental visibility. To address these issues, we propose cross-domain Car Detection Model with integrated convolutional block Attention mechanism(CDMA) that we apply to car recognition for autonomous driving and other areas. CDMA includes several novelties: 1)Building a complete cross-domain target detection framework. 2)Developing an unpaired target domain picture generation module with an integrated convolutional attention mechanism which specifically emphasizes the car headlights feature. 3)Adopting Generalized Intersection over Union (GIOU) as the loss function of the target detection framework. 4)Designing an object detection model integrated with two-headed Convolutional Block Attention Module(CBAM). 5)Utilizing an effective data enhancement method. To evaluate the model's effectiveness, we performed a reduced will resolution process on the data in the SSLAD dataset and used it as the benchmark dataset for our task. Experimental results show that the performance of the cross-domain car target detection model improves by 40% over the model without our framework, and our improvements have a significant impact on cross-domain car recognition. | 翻訳日:2023-06-13 23:34:57 公開日:2023-06-11 |
# 部分的因子埋め込み正規化によるGNNの表現性向上 Improving Expressivity of GNNs with Subgraph-specific Factor Embedded Normalization ( http://arxiv.org/abs/2305.19903v3 ) ライセンス: Link先を確認 | Kaixuan Chen and Shunyu Liu and Tongtian Zhu and Tongya Zheng and Haofei Zhang and Zunlei Feng and Jingwen Ye and Mingli Song | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱うための学習アーキテクチャの強力なカテゴリとして登場した。
しかし、既存のGNNはノードが引き起こす部分グラフにおいて重要な構造的特性を無視するため、様々な下流タスクに対する表現性が制限される。
本稿では,各ノードのサブグラフ内の接続内情報を明示的に考慮した,SUbgraph-sPEcific FactoR Embedded Normalization (SuperNorm) と呼ばれる専用プラグアンドプレイ正規化スキームを考案することによって,GNNの代表的機能を強化することを目的とする。
この目的のために、標準BatchNormの開始と終了にサブグラフ固有の要素を埋め込むとともに、グラフインスタンス固有の統計データを組み込んで区別可能な機能を改善する。
一方、精巧化されたSuperNormでは、任意の GNN は非同型グラフを区別する 1-WL テストと同じくらい強力である。
さらに,提案したSuperNormスキームにより,過平滑化現象の緩和が図られた。
8つの人気データセットにおけるグラフ,ノード,リンク特性の予測に関する実験結果は,提案手法の有効性を示している。
コードはhttps://github.com/chenchkx/SuperNorm.comから入手できる。 Graph Neural Networks (GNNs) have emerged as a powerful category of learning architecture for handling graph-structured data. However, existing GNNs typically ignore crucial structural characteristics in node-induced subgraphs, which thus limits their expressiveness for various downstream tasks. In this paper, we strive to strengthen the representative capabilities of GNNs by devising a dedicated plug-and-play normalization scheme, termed as SUbgraph-sPEcific FactoR Embedded Normalization (SuperNorm), that explicitly considers the intra-connection information within each node-induced subgraph. To this end, we embed the subgraph-specific factor at the beginning and the end of the standard BatchNorm, as well as incorporate graph instance-specific statistics for improved distinguishable capabilities. In the meantime, we provide theoretical analysis to support that, with the elaborated SuperNorm, an arbitrary GNN is at least as powerful as the 1-WL test in distinguishing non-isomorphism graphs. Furthermore, the proposed SuperNorm scheme is also demonstrated to alleviate the over-smoothing phenomenon. Experimental results related to predictions of graph, node, and link properties on the eight popular datasets demonstrate the effectiveness of the proposed method. The code is available at https://github.com/chenchkx/SuperNorm. | 翻訳日:2023-06-13 23:34:14 公開日:2023-06-11 |
# DeepfakeArt Challenge: 生成AIアート偽造とデータ中毒検出のためのベンチマークデータセット DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection ( http://arxiv.org/abs/2306.01272v2 ) ライセンス: Link先を確認 | Hossein Aboutalebi, Dayou Mao, Carol Xu, Alexander Wong | (参考訳) 最近の生成型人工知能技術の飛躍的な進歩は、会話エージェントからテキストコンテンツ生成、音声合成、視覚合成まで幅広い応用において、大きな成功と期待をもたらした。
生成AIの台頭と広く採用されている中、悪意のある目的のために生成AIを使用することに対する懸念が高まっている。
生成AIを用いた視覚コンテンツ合成の領域において、重要な関心事は画像偽造(著作権コンテンツを含む画像の生成など)とデータ中毒(敵に汚染された画像の生成)である。
DeepfakeArt Challengeは、生成AIアートの偽造とデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。
様々な生成的偽造およびデータ中毒技術にわたる32,000以上の記録からなり、それぞれのエントリは偽造または逆汚染のどちらかのイメージから成り立っている。
deepfakeart challengeベンチマークデータセットで生成された各イメージは、総合的に品質チェックされている。
deepfakeart challengeは、genai4goodの中核部分であり、機械学習を加速し、生成aiの責任ある作成と展開を促進する、グローバルなオープンソースイニシアチブである。 The tremendous recent advances in generative artificial intelligence techniques have led to significant successes and promise in a wide range of different applications ranging from conversational agents and textual content generation to voice and visual synthesis. Amid the rise in generative AI and its increasing widespread adoption, there has been significant growing concern over the use of generative AI for malicious purposes. In the realm of visual content synthesis using generative AI, key areas of significant concern has been image forgery (e.g., generation of images containing or derived from copyright content), and data poisoning (i.e., generation of adversarially contaminated images). Motivated to address these key concerns to encourage responsible generative AI, we introduce the DeepfakeArt Challenge, a large-scale challenge benchmark dataset designed specifically to aid in the building of machine learning algorithms for generative AI art forgery and data poisoning detection. Comprising of over 32,000 records across a variety of generative forgery and data poisoning techniques, each entry consists of a pair of images that are either forgeries / adversarially contaminated or not. Each of the generated images in the DeepfakeArt Challenge benchmark dataset has been quality checked in a comprehensive manner. The DeepfakeArt Challenge is a core part of GenAI4Good, a global open source initiative for accelerating machine learning for promoting responsible creation and deployment of generative AI for good. | 翻訳日:2023-06-13 23:26:02 公開日:2023-06-11 |
# 拡散自己誘導による制御可能な画像生成 Diffusion Self-Guidance for Controllable Image Generation ( http://arxiv.org/abs/2306.00986v3 ) ライセンス: Link先を確認 | Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski | (参考訳) 大規模生成モデルは詳細なテキスト記述から高品質な画像を生成することができる。
しかし、画像の多くの側面はテキストで伝えるのが困難か不可能である。
本研究では,拡散モデルの内部表現を誘導することで生成画像の制御性を高める自己誘導法を提案する。
これらの表現から物体の形状、位置、外観などの特性を抽出し、サンプリングを制御できることを実証する。
自己誘導は分類器ガイダンスと同様に動作するが、事前訓練されたモデル自身に存在する信号を使用し、追加のモデルや訓練を必要としない。
オブジェクトの位置やサイズを変更したり、ある画像内のオブジェクトの外観を他の画像のレイアウトと融合したり、多数の画像からオブジェクトを1つにまとめたりといった、挑戦的な画像操作を行うために、単純なプロパティセットをどのように構成するかを示す。
また,実画像の編集に自己指導が利用できることを示す。
結果とインタラクティブなデモについては、https://dave.ml/selfguidance/のプロジェクトページを参照してください。 Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/ | 翻訳日:2023-06-13 23:25:22 公開日:2023-06-11 |
# 文脈特異的独立関係下における因果Imitability Causal Imitability Under Context-Specific Independence Relations ( http://arxiv.org/abs/2306.00585v2 ) ライセンス: Link先を確認 | Fateme Jamshidi, Sina Akbari, Negar Kiyavash | (参考訳) 模倣学習を行う際の因果メカニズムを無視する欠点が最近認識されている。
模倣の可能性と因果的共起や因果的誤認を回避するためのいくつかのアプローチが文献で提案されている。
しかし、基礎となる因果構造に関する追加情報の導入による潜在的利益は未検討のままである。
このような見落としられた情報の例としては、コンテキスト固有の独立性(csi)、すなわち特定のコンテキストにのみ保持される独立性がある。
csi関係が知られている場合の因果模倣学習の問題を考える。
この設定における模倣の実現可能性に関する決定問題はNPハードであることを証明する。
さらに,csi下での模倣学習に必要なグラフィカルな基準を提供し,構造的仮定の下では,この基準が十分であることを示す。
最後に,CSI関係とデータを考慮した因果模倣学習のための音響アルゴリズムアプローチを提案する。 Drawbacks of ignoring the causal mechanisms when performing imitation learning have recently been acknowledged. Several approaches both to assess the feasibility of imitation and to circumvent causal confounding and causal misspecifications have been proposed in the literature. However, the potential benefits of the incorporation of additional information about the underlying causal structure are left unexplored. An example of such overlooked information is context-specific independence (CSI), i.e., independence that holds only in certain contexts. We consider the problem of causal imitation learning when CSI relations are known. We prove that the decision problem pertaining to the feasibility of imitation in this setting is NP-hard. Further, we provide a necessary graphical criterion for imitation learning under CSI and show that under a structural assumption, this criterion is also sufficient. Finally, we propose a sound algorithmic approach for causal imitation learning which takes both CSI relations and data into account. | 翻訳日:2023-06-13 23:24:12 公開日:2023-06-11 |
# 事前学習されたモデルを可逆化する:パラメータからメモリ効率の良い微調整へ Make Your Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning ( http://arxiv.org/abs/2306.00477v3 ) ライセンス: Link先を確認 | Baohao Liao, Shaomu Tan, Christof Monz | (参考訳) プレトレーニング言語モデル(PLM)のパラメータ効率細調整(PEFT)は、性能を犠牲にすることなく少数のパラメータのみをトレーニングし、PLMのサイズを増大させるデファクト学習パラダイムとなるという、非常に成功したアプローチとして登場した。
しかし、既存のpeftメソッドは、グラデーション計算のための中間アクティベーションの大部分をキャッシュする必要があるため、メモリ効率は高くない。
アクティベーションメモリを減らす効果的な方法の一つは可逆モデルを適用することであるので、中間のアクティベーションはキャッシュする必要がなく、再計算できる。
しかしながら、PEFT で PLM を可逆的に修正することは、現在の PLM と異なるアーキテクチャを持つため、簡単ではない。
本稿では,既存のPEFT法の成功の鍵となる要因を最初に検討し,PEFT法の初期化においてPLMの開始点を保存することが重要であることを認識した。
そこで本研究では, PLM にアダプタを挿入し, PLM の開始点を保存し, 追加の事前学習なしに可逆化するメモリ効率向上ファインタニング (MEFT) を提案する。
GLUEベンチマークのMEFTとBERT,RoBERTa,BART,OPTの5つのバックボーンを用いた質問応答タスクの評価を行った。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
さらに, MEFT は GLUE のスコアと質問応答タスクのスコアをフル微調整と同等に達成している。 Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant with PEFT is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it's essential to preserve the PLM's starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM's starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning. | 翻訳日:2023-06-13 23:24:01 公開日:2023-06-11 |
# 効率的なシンボリック通信符号の進化 Evolution of Efficient Symbolic Communication Codes ( http://arxiv.org/abs/2306.02383v2 ) ライセンス: Link先を確認 | Anton Kolonin | (参考訳) 本稿では,人間の自然言語構造を対人コミュニケーションコードの進化の産物とみなし,反エントロピー,圧縮係数,F1スコアといった,文化的・言語的指標の最大化を目標としている。
この調査は、教師なし言語学習の取り組みの一環として行われ、上述のメトリクスを最大化することで、"ground truth"言語構造に基づくf1スコアを最大化するハイパーパラメータの領域でメタラーニングを行う。
本稿では,ロシア語,中国語,英語の言語間単語レベルのセグメンテーショントークン化研究と,英語のサブワードセグメンテーションや形態素解析研究の予備結果について述べる。
単語レベルのセグメンテーションやトークン化を形成する言語構造は、これらの指標の全てによって駆動され、反エントロピーは英語とロシア語とより関係があり、一方圧縮係数は中国語に特有である。
英語語彙におけるサブワードのセグメンテーションや形態素解析の研究により、圧縮と圧縮係数の直接関係が明らかになったが、驚くべきことに、反エントロピーとの関係は逆数に変化した。 The paper explores how the human natural language structure can be seen as a product of evolution of inter-personal communication code, targeting maximisation of such culture-agnostic and cross-lingual metrics such as anti-entropy, compression factor and cross-split F1 score. The exploration is done as part of a larger unsupervised language learning effort, the attempt is made to perform meta-learning in a space of hyper-parameters maximising F1 score based on the "ground truth" language structure, by means of maximising the metrics mentioned above. The paper presents preliminary results of cross-lingual word-level segmentation tokenisation study for Russian, Chinese and English as well as subword segmentation or morphological parsing study for English. It is found that language structure form the word-level segmentation or tokenisation can be found as driven by all of these metrics, anti-entropy being more relevant to English and Russian while compression factor more specific for Chinese. The study for subword segmentation or morphological parsing on English lexicon has revealed straight connection between the compression been found to be associated with compression factor, while, surprising, the same connection with anti-entropy has turned to be the inverse. | 翻訳日:2023-06-13 23:13:36 公開日:2023-06-11 |
# 事前学習した視覚言語モデルにおける適応法のロバスト性 Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models ( http://arxiv.org/abs/2306.02080v2 ) ライセンス: Link先を確認 | Shuo Chen, Jindong Gu, Zhen Han, Yunpu Ma, Philip Torr, Volker Tresp | (参考訳) LoRA、プロンプト、アダプタなどの様々な適応手法が提案され、特定の領域における事前学習された視覚言語モデルの性能を向上させる。
これらの分散シフトに対する適応法の堅牢性は研究されていない。
本研究では,4つの視覚言語データセットにまたがる11の適応手法のロバスト性を評価する。
具体的には、異なる適応手法の堅牢性、利用可能な適応例の影響、適応中のトレーニング可能なパラメータサイズの影響を調べるために、96の視覚的および87のテキスト汚職を含む7つのベンチマークデータセットを導入する。
私たちの分析によると、
1)適応手法は視覚的腐敗よりもテキストの腐敗に敏感である。
2) 完全な微調整は、一貫して最も堅牢性を提供しない;代わりに、アダプタは、同等のクリーンな性能で、より優れた堅牢性を達成できる。
3) 予測に反して, 適応データとパラメータの増加は頑健性の向上を保証せず, より低いロバスト性をもたらすことが示唆された。
本研究は,ロバストなマルチモーダル適応法の開発における今後の研究の恩恵を期待する。
この研究で使われているベンチマーク、コード、データセットは、https://adarobustness.github.io.com/でアクセスできる。 Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been studied. In this study, we assess the robustness of 11 widely-used adaptation methods across 4 vision-language datasets under multimodal corruptions. Concretely, we introduce 7 benchmark datasets, including 96 visual and 87 textual corruptions, to investigate the robustness of different adaptation methods, the impact of available adaptation examples, and the influence of trainable parameter size during adaptation. Our analysis reveals that: 1) Adaptation methods are more sensitive to text corruptions than visual corruptions. 2) Full fine-tuning does not consistently provide the highest robustness; instead, adapters can achieve better robustness with comparable clean performance. 3) Contrary to expectations, our findings indicate that increasing the number of adaptation data and parameters does not guarantee enhanced robustness; instead it results in even lower robustness. We hope this study could benefit future research in the development of robust multimodal adaptation methods. The benchmark, code, and dataset used in this study can be accessed at https://adarobustness.github.io . | 翻訳日:2023-06-13 23:13:14 公開日:2023-06-11 |
# 大規模分散学習のための準ニュートン更新 Quasi-Newton Updating for Large-Scale Distributed Learning ( http://arxiv.org/abs/2306.04111v2 ) ライセンス: Link先を確認 | Shuyuan Wu, Danyang Huang, Hansheng Wang | (参考訳) 分散コンピューティングは現代の統計分析において極めて重要である。
本稿では,統計的,計算,通信効率に優れた分散準ニュートン(DQN)フレームワークを開発する。
DQN法では、ヘッセン行列の逆転や通信は不要である。
これにより、提案手法の計算と通信の複雑さが大幅に低減される。
特に、関連する既存の手法は数値収束のみを解析し、収束するイテレーションの数を分散させる必要がある。
しかし,DQN法の統計的特性を考察し,得られた推定値が軽度条件下での少数の反復に対して統計的に効率的であることを理論的に示す。
大規模な数値解析は、有限サンプル性能を示す。 Distributed computing is critically important for modern statistical analysis. Herein, we develop a distributed quasi-Newton (DQN) framework with excellent statistical, computation, and communication efficiency. In the DQN method, no Hessian matrix inversion or communication is needed. This considerably reduces the computation and communication complexity of the proposed method. Notably, related existing methods only analyze numerical convergence and require a diverging number of iterations to converge. However, we investigate the statistical properties of the DQN method and theoretically demonstrate that the resulting estimator is statistically efficient over a small number of iterations under mild conditions. Extensive numerical analyses demonstrate the finite sample performance. | 翻訳日:2023-06-13 23:07:44 公開日:2023-06-11 |
# Quick-Tune: トレーニング済みモデルをファインチューンに学習する Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How ( http://arxiv.org/abs/2306.03828v2 ) ライセンス: Link先を確認 | Sebastian Pineda Arango, Fabio Ferreira, Arlind Kadra, Frank Hutter, Josif Grabocka | (参考訳) トレーニング済みモデルが増え続ける中で、機械学習の実践者は、どのトレーニング済みモデルを使用するか、新しいデータセットのためにそれを微調整する方法を常に直面している。
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索して微調整する手法を提案する。
本手法は,複数のハイパーパラメータ構成を持つ事前学習モデルの性能に関する知識を一連のデータセット上で伝達する。
そこで本研究では,87データセット上の24の事前学習画像分類モデルを微調整し,大規模メタデータセットを生成するために,20k以上のハイパーパラメータ構成を評価した。
我々は、このメタデータセットの学習曲線について多元的性能予測器をメタ学習し、新しいデータセットの高速ハイパーパラメータ最適化に使用する。
提案手法は,新しいデータセットの正確な事前学習モデルと最適なハイパーパラメータを迅速に選択できることを実証的に実証する。 With the ever-increasing number of pretrained models, machine learning practitioners are continuously faced with which pretrained model to use, and how to finetune it for a new dataset. In this paper, we propose a methodology that jointly searches for the optimal pretrained model and the hyperparameters for finetuning it. Our method transfers knowledge about the performance of many pretrained models with multiple hyperparameter configurations on a series of datasets. To this aim, we evaluated over 20k hyperparameter configurations for finetuning 24 pretrained image classification models on 87 datasets to generate a large-scale meta-dataset. We meta-learn a multi-fidelity performance predictor on the learning curves of this meta-dataset and use it for fast hyperparameter optimization on new datasets. We empirically demonstrate that our resulting approach can quickly select an accurate pretrained model for a new dataset together with its optimal hyperparameters. | 翻訳日:2023-06-13 23:05:49 公開日:2023-06-11 |
# 大規模言語モデルにおける上流・下流倫理の推進のための標準の適用 Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models ( http://arxiv.org/abs/2306.03503v2 ) ライセンス: Link先を確認 | Jose Berengueres and Marybeth Sandell | (参考訳) 本稿では、他のコンテンツ制作業界における行動規範や倫理基準から、AIが生成するコンテンツに対する保護を開発する方法について考察する。
これは、Large Language Models (LLMs) に対する倫理的意識の現在の状態に根ざしている。
LLMによるコンテンツ生成のメカニズムを解明することにより、安全ガードを効果的に適用可能な4つのキー領域(上流/下流およびユーザプロンプト/アンサー)を同定する。
これら4つの分野の比較分析は、コスト、有効性、および確立された産業慣行との整合性の観点から、既存の倫理的保護の評価を含む。
論文の重要な論点は、既存のIT関連倫理コードは、従来のITエンジニアリングには適していないが、LCMベースのコンテンツ生成がもたらす課題には不十分であるということである。
ジャーナリズムの確立した実践から,llm生成コンテンツの配布と販売に関わるビジネスの潜在的な標準を提案する。
最後に、上流のデータセットキュレーションと下流の倫理的ベンチマークの間の潜在的な関心の衝突が強調され、単なるアウトプット以上の広範な評価の必要性が強調される。
この研究は、この急速に進化するコンテンツ生成の分野における倫理的意味に関する微妙な議論を促す。 This paper explores how AI-owners can develop safeguards for AI-generated content by drawing from established codes of conduct and ethical standards in other content-creation industries. It delves into the current state of ethical awareness on Large Language Models (LLMs). By dissecting the mechanism of content generation by LLMs, four key areas (upstream/downstream and at user prompt/answer), where safeguards could be effectively applied, are identified. A comparative analysis of these four areas follows and includes an evaluation of the existing ethical safeguards in terms of cost, effectiveness, and alignment with established industry practices. The paper's key argument is that existing IT-related ethical codes, while adequate for traditional IT engineering, are inadequate for the challenges posed by LLM-based content generation. Drawing from established practices within journalism, we propose potential standards for businesses involved in distributing and selling LLM-generated content. Finally, potential conflicts of interest between dataset curation at upstream and ethical benchmarking downstream are highlighted to underscore the need for a broader evaluation beyond mere output. This study prompts a nuanced conversation around ethical implications in this rapidly evolving field of content generation. | 翻訳日:2023-06-13 23:04:44 公開日:2023-06-11 |
# インストラクテヴァール:大規模言語モデルの体系的評価に向けて INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2306.04757v2 ) ライセンス: Link先を確認 | Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria | (参考訳) インストラクションをチューニングした大規模言語モデルは自然言語処理に革命をもたらし、会話エージェントのような応用に大きな可能性を示している。
GPT-4のようなこれらのモデルは、言語を習得するだけでなく、数学、コーディング、医学、法学といった分野で複雑なタスクを解くことができる。
その印象的な能力にもかかわらず、多くのモデルのブラックボックスの性質と全体的評価研究の欠如により、その潜在能力に関する包括的な理解がまだ残っていない。
このような課題に対処するため,我々は,命令調整型大規模言語モデル用に特別に設計された,より包括的な評価スイートinstructevalを提案する。
従来の研究とは異なり、我々の評価は、問題解決、筆記能力、人的価値への適応に基づくモデルの厳密な評価を含む。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
オープンソースモデルは印象的な書き込み能力を示しているが、問題解決とアライメントの改善の余地は十分にある。
オープンソースコミュニティによるモデルの開発は急速に進んでいるが、これらのモデルに関する主張をサポートするための厳格な評価の必要性も強調している。
InSTRUCTEVAL を通じて,インストラクションチューニングモデルとそれらの能力向上のより深い理解を促進することを目的としている。
INSTRUCTEVALはhttps://github.com/declare-lab/instruct-eval.comで公開されている。 Instruction-tuned large language models have revolutionized natural language processing and have shown great potential in applications such as conversational agents. These models, such as GPT-4, can not only master language but also solve complex tasks in areas like mathematics, coding, medicine, and law. Despite their impressive capabilities, there is still a lack of comprehensive understanding regarding their full potential, primarily due to the black-box nature of many models and the absence of holistic evaluation studies. To address these challenges, we present INSTRUCTEVAL, a more comprehensive evaluation suite designed specifically for instruction-tuned large language models. Unlike previous works, our evaluation involves a rigorous assessment of models based on problem-solving, writing ability, and alignment to human values. We take a holistic approach to analyze various factors affecting model performance, including the pretraining foundation, instruction-tuning data, and training methods. Our findings reveal that the quality of instruction data is the most crucial factor in scaling model performance. While open-source models demonstrate impressive writing abilities, there is substantial room for improvement in problem-solving and alignment. We are encouraged by the rapid development of models by the open-source community, but we also highlight the need for rigorous evaluation to support claims made about these models. Through INSTRUCTEVAL, we aim to foster a deeper understanding of instruction-tuned models and advancements in their capabilities. INSTRUCTEVAL is publicly available at https://github.com/declare-lab/instruct-eval. | 翻訳日:2023-06-13 21:20:23 公開日:2023-06-11 |
# 計画の自己モデルとしてのデュアルポリシー Dual policy as self-model for planning ( http://arxiv.org/abs/2306.04440v2 ) ライセンス: Link先を確認 | Jaesung Yoo, Fernanda de la Torre, Guangyu Robert Yang | (参考訳) プランニングはデータ効率の良い意思決定戦略であり、エージェントが潜在的な将来の状態を探索して候補アクションを選択する。
高次元のアクション空間が存在する場合の将来の状態をシミュレートするためには、探索すべきアクションの数を制限するために、自分の意思決定戦略の知識を使わなければならない。
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
自己モデルは世界モデルと協調して行動計画に広く利用されているが、自己モデルがどのように設計されるべきかは定かではない。
現在の強化学習アプローチと神経科学に触発され、蒸留政策ネットワークを自己モデルとして用いる利点と限界を探求する。
このような二重政治エージェントでは、モデルフリーの政策と蒸留された政策がそれぞれモデルフリーの行動と計画された行動に使用される。
本研究は, 自己モデル構築のための蒸留政策ネットワークが訓練を安定させ, モデルフリー政策よりも高速な推論を行い, より優れた探索を行い, モデルフリー政策とは別に新たなネットワークを蒸留するコストで, 自己行動の包括的理解を学べることを示した。 Planning is a data efficient decision-making strategy where an agent selects candidate actions by exploring possible future states. To simulate future states when there is a high-dimensional action space, the knowledge of one's decision making strategy must be used to limit the number of actions to be explored. We refer to the model used to simulate one's decisions as the agent's self-model. While self-models are implicitly used widely in conjunction with world models to plan actions, it remains unclear how self-models should be designed. Inspired by current reinforcement learning approaches and neuroscience, we explore the benefits and limitations of using a distilled policy network as the self-model. In such dual-policy agents, a model-free policy and a distilled policy are used for model-free actions and planned actions, respectively. Our results on a ecologically relevant, parametric environment indicate that distilled policy network for self-model stabilizes training, has faster inference than using model-free policy, promotes better exploration, and could learn a comprehensive understanding of its own behaviors, at the cost of distilling a new network apart from the model-free policy. | 翻訳日:2023-06-13 21:18:42 公開日:2023-06-11 |
# 検索型対話システムのためのテキスト自動エンコーダ ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems ( http://arxiv.org/abs/2306.04357v2 ) ライセンス: Link先を確認 | Zhenpeng Su and Xing Wu and Wei Zhou and Guangyuan Ma and Songlin Hu | (参考訳) 対話応答選択は、与えられたユーザとシステム発話履歴に基づいて、複数の候補から適切な応答を選択することを目的としている。
近年, 学習後の対話応答選択の精度が向上し, 主にナイーブマスク型言語モデリング手法に依拠している。
しかし、最近開発された生成手法は、IRコミュニティにおいて有望なテキスト表現能力を示しており、よりよい対話セマンティクスモデリングにつながる可能性がある。
そこで本稿では,対話応答選択のための自動学習手法であるdialog-mae(dialogue context masking auto-encoder)を提案する。
dial-maeは非対称エンコーダ-デコーダアーキテクチャを使用して、対話の意味を対話型ベクトルに圧縮する。
Dial-MAEのプロセスでは、ディープエンコーダがダイアログのコンテキストに埋め込まれたディープエンコーダを作成し、続いて浅層デコーダが、この埋め込みとマスキングされた応答を使って元の応答を復元する。
実験の結果,dial-maeは2つのベンチマークで最先端の性能を得られた。 Dialogue response selection aims to select an appropriate response from several candidates based on a given user and system utterance history. Recent studies have been improving the accuracy of dialogue response selection through post-training, mostly relying on naive masked language modeling methods. However, the recently developed generative methods have shown promising text representation capabilities in IR community, which could potentially lead to better dialogue semantics modeling. Thus, in this paper, we propose Dial-MAE (Dialogue Contextual Masking Auto-encoder), a straightforward yet effective post-training technique tailored for dialogue response selection. Dial-MAE uses an asymmetric encoder-decoder architecture that learns to better compress the semantics of the dialogue into dialogue-dense vectors. The process of Dial-MAE involves a deep encoder creating a dialogue embedding with the masked dialogue context, followed by a shallow decoder that uses this embedding along with the highly masked response to restore the original response. Our experiments have demonstrated that Dial-MAE is highly effective, achieving state-of-the-art performance on two commonly evaluated benchmarks. | 翻訳日:2023-06-13 21:18:02 公開日:2023-06-11 |
# 確率最適化のためのエンドツーエンド学習:ベイズ的視点 End-to-End Learning for Stochastic Optimization: A Bayesian Perspective ( http://arxiv.org/abs/2306.04174v2 ) ライセンス: Link先を確認 | Yves Rychener, Daniel Kuhn, Tobias Sutter | (参考訳) 確率最適化におけるエンドツーエンド学習の原理的アプローチを開発する。
まず,標準エンドツーエンド学習アルゴリズムはベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
そこで本研究では,実験的リスク最小化と分布的ロバストな最適化問題の解を導出する意思決定マップを訓練するための新しいエンド・ツー・エンド学習アルゴリズムを提案する。
合成ニューズベンダー問題に対する数値的な結果は、代替トレーニングスキームの主な違いを示している。
また,実データに基づく経済派遣問題についても検討し,意思決定地図のニューラルネットワークアーキテクチャがテスト性能に与える影響を明らかにした。 We develop a principled approach to end-to-end learning in stochastic optimization. First, we show that the standard end-to-end learning algorithm admits a Bayesian interpretation and trains a posterior Bayes action map. Building on the insights of this analysis, we then propose new end-to-end learning algorithms for training decision maps that output solutions of empirical risk minimization and distributionally robust optimization problems, two dominant modeling paradigms in optimization under uncertainty. Numerical results for a synthetic newsvendor problem illustrate the key differences between alternative training schemes. We also investigate an economic dispatch problem based on real data to showcase the impact of the neural network architecture of the decision maps on their test performance. | 翻訳日:2023-06-13 21:17:39 公開日:2023-06-11 |
# 因子分析による世界モデル学習 Learning World Models with Identifiable Factorization ( http://arxiv.org/abs/2306.06561v1 ) ライセンス: Link先を確認 | Yu-Ren Liu, Biwei Huang, Zhengmao Zhu, Honglong Tian, Mingming Gong, Yang Yu, Kun Zhang | (参考訳) 安定かつコンパクトな環境表現の抽出は、高次元、雑音、非定常環境における効率的な強化学習に不可欠である。
このような環境で共存する情報の異なるカテゴリ -- 情報を効果的に抽出し、アンタングルする方法は、依然として困難な問題である。
本稿では,行動と報酬の相互作用に基づいて,RLシステム内の情報の様々な側面を捉える潜在状態変数の4つの異なるカテゴリをモデル化する汎用フレームワークであるIFactorを提案する。
本分析は,これらの潜在変数のブロックワイズ同定可能性を確立し,安定かつコンパクトな表現を提供するだけでなく,すべての報酬関連因子が政策学習に重要であることを明らかにする。
さらに,特定可能なブロックで世界モデルを学ぶための実践的なアプローチを提案し,冗長なブロックの除去を保証しつつ,政策最適化のための最小かつ十分な情報を保持する。
合成世界における実験により,本手法は地中潜伏変数を正確に同定し,理論的知見を裏付けるものである。
さらに、DeepMind Control SuiteとRoboDeskの亜種による実験では、ベースラインよりも優れたパフォーマンスを示している。 Extracting a stable and compact representation of the environment is crucial for efficient reinforcement learning in high-dimensional, noisy, and non-stationary environments. Different categories of information coexist in such environments -- how to effectively extract and disentangle these information remains a challenging problem. In this paper, we propose IFactor, a general framework to model four distinct categories of latent state variables that capture various aspects of information within the RL system, based on their interactions with actions and rewards. Our analysis establishes block-wise identifiability of these latent variables, which not only provides a stable and compact representation but also discloses that all reward-relevant factors are significant for policy learning. We further present a practical approach to learning the world model with identifiable blocks, ensuring the removal of redundants but retaining minimal and sufficient information for policy optimization. Experiments in synthetic worlds demonstrate that our method accurately identifies the ground-truth latent variables, substantiating our theoretical findings. Moreover, experiments in variants of the DeepMind Control Suite and RoboDesk showcase the superior performance of our approach over baselines. | 翻訳日:2023-06-13 18:17:11 公開日:2023-06-11 |
# 適応型非同期更新によるストラグラーレジリエント分散学習 Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates ( http://arxiv.org/abs/2306.06559v1 ) ライセンス: Link先を確認 | Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li | (参考訳) 機械学習モデルの大規模トレーニングの需要が高まる中、一般的なパラメータサーバフレームワークに代わるものとして、完全に分散化された最適化手法が最近提案されている。
このパラダイムでは、各ワーカーは最適なパラメータベクトルの局所的な推定を維持し、隣人から得られたすべての推定を待機して平均化することで反復的に更新し、そのローカルデータセットに基づいて修正する。
しかし、同期相はストラグラーに敏感である。
この効果を緩和する効果的な方法は、各ワーカーが確率的勾配を計算し、他のワーカーと自身のペースで通信する非同期更新を検討することである。
残念ながら、完全に非同期な更新はストラグラーのパラメータが停滞する。
これらの制約に対処するため、各労働者が通信する近隣労働者の数を適応的に決定し、適応的な非同期更新を行う完全分散アルゴリズムDSGD-AAUを提案する。
DSGD-AAUは収束の線形スピードアップを達成する(つまり、労働者数に対して収束性能が直線的に増加する)。
理論的な結果を検証するために,データセット群とディープニューラルネットワークモデルに関する実験結果が提供される。 With the increasing demand for large-scale training of machine learning models, fully decentralized optimization methods have recently been advocated as alternatives to the popular parameter server framework. In this paradigm, each worker maintains a local estimate of the optimal parameter vector, and iteratively updates it by waiting and averaging all estimates obtained from its neighbors, and then corrects it on the basis of its local dataset. However, the synchronization phase is sensitive to stragglers. An efficient way to mitigate this effect is to consider asynchronous updates, where each worker computes stochastic gradients and communicates with other workers at its own pace. Unfortunately, fully asynchronous updates suffer from staleness of the stragglers' parameters. To address these limitations, we propose a fully decentralized algorithm DSGD-AAU with adaptive asynchronous updates via adaptively determining the number of neighbor workers for each worker to communicate with. We show that DSGD-AAU achieves a linear speedup for convergence (i.e., convergence performance increases linearly with respect to the number of workers). Experimental results on a suite of datasets and deep neural network models are provided to verify our theoretical results. | 翻訳日:2023-06-13 18:16:53 公開日:2023-06-11 |
# バイモーダル量子ドットマイクロピラーレーザーにおけるノイズ誘起ダイナミクスと光子統計 Noise-induced dynamics and photon statistics in bimodal quantum-dot micropillar lasers ( http://arxiv.org/abs/2306.06556v1 ) ライセンス: Link先を確認 | Yanqiang Guo, Jianfei Zhang, Xiaomin Guo, Stephan Reitzenstein and Liantuan Xiao | (参考訳) 量子ドットマイクロピラーレーザー(QDML)の発光特性は、ナノフォトニクスと非線形ダイナミクスの交点に位置し、古典系と量子系の光学的界面を研究するための理想的なプラットフォームを提供する。
本研究では, 直交二モード出力を持つ雑音誘起バイモーダルQDMLをモデル化し, 非線形力学, 確率モードジャンプ, および確率雑音強度の変動を伴う量子統計量について検討した。
ノイズ誘起効果は、強震モードと弱震モードの2つの強度分岐点の出現につながり、強震モードの最大出力パワーは、雑音強度が増加するにつれて大きくなる。
2つのモードの反相関は、第2の強度分岐点で最大に達する。
デュアルモード確率ジャンプ周波数と有効帯域幅は、ノイズ誘起効果の下で100GHzおよび30GHzを超える。
さらに、両モードの雑音誘起光子相関は、低射出電流領域において同時に超熱的凝集効果(g^{(2)}(0)>2$)を示す。
強モードの$g^{(2)}(0)$-値は、高インジェクション電流領域で6以上に達することができる。
両モードの光子束(g^{(2)}(0)>1$)は幅広いノイズ強度と注入電流で観測される。
ノイズ誘起効果の存在下では、強モードまたは弱モードの光子数分布はボース・アインシュタイン分布とポアソン分布の混合である。
ノイズ強度が増加するにつれて、強モードの光子数分布はボース・アインシュタイン分布に支配され、高射出電流領域ではポアソン分布の割合が増加し、弱モードの光子数が減少する。
本研究は,量子センシング測定の時空間分解能を向上させるための超結合型量子集積光源の開発に寄与する。 Emission characteristics of quantum-dot micropillar lasers (QDMLs) are located at the intersection of nanophotonics and nonlinear dynamics, which provides an ideal platform for studying the optical interface between classical and quantum systems. In this work, a noise-induced bimodal QDML with orthogonal dual-mode outputs is modeled, and nonlinear dynamics, stochastic mode jumping and quantum statistics with the variation of stochastic noise intensity are investigated. Noise-induced effects lead to the emergence of two intensity bifurcation points for the strong and the weak mode, and the maximum output power of the strong mode becomes larger as the noise intensity increases. The anti-correlation of the two modes reaches the maximum at the second intensity bifurcation point. The dual-mode stochastic jumping frequency and effective bandwidth can exceed 100 GHz and 30 GHz under the noise-induced effect. Moreover, the noise-induced photon correlations of both modes simultaneously exhibit super-thermal bunching effects ($g^{(2)}(0)>2$) in the low injection current region. The $g^{(2)}(0)$-value of the strong mode can reach over 6 in the high injection current region. Photon bunching ($g^{(2)}(0)>1$) of both modes is observed over a wide range of noise intensities and injection currents. In the presence of the noise-induced effect, the photon number distribution of the strong or the weak mode is a mixture of Bose-Einstein and Poisson distributions. As the noise intensity increases, the photon number distribution of the strong mode is dominated by the Bose-Einstein distribution, and the proportion of the Poisson distribution is increased in the high injection current region, while that of the weak mode is reduced. Our results contribute to the development preparation of super-bunching quantum integrated light sources for improving the spatiotemporal resolution of quantum sensing measurements. | 翻訳日:2023-06-13 18:16:35 公開日:2023-06-11 |
# 耳のトウモロコシ核計数のためのヒントパイプラインと多変量回帰cnn Hinting Pipeline and Multivariate Regression CNN for Maize Kernel Counting on the Ear ( http://arxiv.org/abs/2306.06553v1 ) ライセンス: Link先を確認 | Felipe Ara\'ujo, Igor Gadelha, Rodrigo Tsukahara, Luiz Pita, Filipe Costa, Igor Vaz, Andreza Santos and Guilherme F\^olego | (参考訳) トウモロコシは、人間や動物の消費やバイオ燃料産業の原料として広く利用される、栄養価の高い穀物である。
これは、季節におけるトウモロコシの穀物生産性を正確に定量化することの重要性を強調し、商業化プロセス、運用化、重要な意思決定を助けている。
本研究では,トウモロコシの核を数えるための手作業コストを考慮し,トウモロコシの核の中心にモデルの注意を誘導し,トウモロコシの耳の片面の画像から深層学習モデルによるより良いパフォーマンスを実現するためのヒント付き前処理パイプラインを提案する。
また,単一回帰結果を上回る多変量cnnレグレッサを提案する。
実験の結果,提案手法は現在のマニュアル推定値に優れ,マニュアル推定値が34.4,r2が0.74,r2が35.38,0.72であった。 Maize is a highly nutritional cereal widely used for human and animal consumption and also as raw material by the biofuels industries. This highlights the importance of precisely quantifying the corn grain productivity in season, helping the commercialization process, operationalization, and critical decision-making. Considering the manual labor cost of counting maize kernels, we propose in this work a novel preprocessing pipeline named hinting that guides the attention of the model to the center of the corn kernels and enables a deep learning model to deliver better performance, given a picture of one side of the corn ear. Also, we propose a multivariate CNN regressor that outperforms single regression results. Experiments indicated that the proposed approach excels the current manual estimates, obtaining MAE of 34.4 and R2 of 0.74 against 35.38 and 0.72 for the manual estimate, respectively. | 翻訳日:2023-06-13 18:16:07 公開日:2023-06-11 |
# アレイ型スパイキングニューラルネットワークにおける効率よく正確なメモリ An Efficient and Accurate Memristive Memory for Array-based Spiking Neural Networks ( http://arxiv.org/abs/2306.06551v1 ) ライセンス: Link先を確認 | Hritom Das, Rocco D. Febbo, SNB Tushar, Nishith N. Chakraborty, Maximilian Liehr, Nathaniel Cady, Garrett S. Rose | (参考訳) memristorは、その大きさと不揮発性のため、ニューロモルフィックコンピューティングにおける重み付けシナプス接続の誘惑的なソリューションを提供する。
しかし、memristorは一般的に使用される電圧パルスベースのプログラミングアプローチでは信頼できないため、プログラミングの失敗を避けるために正確に形づくられたパルスを必要とする。
本稿では,memristive synapsesを読み書きする際に,より予測可能なアナログメモリ動作を提供する,電流リミティングに基づくソリューションを提案する。
提案する設計では、リード電流は1t1r設計に比べて約19倍最適化できる。
さらに,提案した設計は1T1Rに比べて約9倍のエネルギーを節約できる。
また、3T1Rの設計は、MOSFETのプロセス変動やメムリスタ固有の確率的挙動の影響を受けない有望な書き込み動作を示す。
試験に用いられるメムリスタはハフニウム系であり、65nmハイブリッドCMOS-メムリスタプロセスで製造された。
提案設計では, 印加電圧と書き込み動作に対する抵抗の線形特性も示している。
シミュレーションと測定データは、電圧パルスベースのプログラミングと現在のコンプライアンスベースのプログラミングに関して、同様のパターンを示す。
この行動がスパイキングニューラルネットワークなどの神経形態特異的な応用に与える影響をさらに観察した。 Memristors provide a tempting solution for weighted synapse connections in neuromorphic computing due to their size and non-volatile nature. However, memristors are unreliable in the commonly used voltage-pulse-based programming approaches and require precisely shaped pulses to avoid programming failure. In this paper, we demonstrate a current-limiting-based solution that provides a more predictable analog memory behavior when reading and writing memristive synapses. With our proposed design READ current can be optimized by about 19x compared to the 1T1R design. Moreover, our proposed design saves about 9x energy compared to the 1T1R design. Our 3T1R design also shows promising write operation which is less affected by the process variation in MOSFETs and the inherent stochastic behavior of memristors. Memristors used for testing are hafnium oxide based and were fabricated in a 65nm hybrid CMOS-memristor process. The proposed design also shows linear characteristics between the voltage applied and the resulting resistance for the writing operation. The simulation and measured data show similar patterns with respect to voltage pulse-based programming and current compliance-based programming. We further observed the impact of this behavior on neuromorphic-specific applications such as a spiking neural network | 翻訳日:2023-06-13 18:15:48 公開日:2023-06-11 |
# ヒトと大言語モデルにおける帰納的推論 Inductive reasoning in humans and large language models ( http://arxiv.org/abs/2306.06548v1 ) ライセンス: Link先を確認 | Simon J. Han, Keith Ransom, Andrew Perfors, Charles Kemp | (参考訳) 近年の大規模言語モデルのパフォーマンスは、一般の知性モデルとして、あるいは人間の認知と類似する程度に疑問を呈する声が多かった。
本稿では,GPT-3 と GPT-4 を人間誘導推論における古典的問題に適用することにより,この問題に対処する。
2つの実験で、複数のドメインにまたがる様々な特性誘導タスクについて、人間の判断を導き出す。
GPT-3は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4はより成功している。
全体として、この研究は、プロパティインジェクションが人間とマシンインテリジェンスを比較する興味深いスキルであるだけでなく、2つの大きなデータセットも提供し、将来の作業に適したベンチマークとして利用できることを実証している。 The impressive recent performance of large language models has led many to wonder to what extent they can serve as models of general intelligence or are similar to human cognition. We address this issue by applying GPT-3 and GPT-4 to a classic problem in human inductive reasoning known as property induction. Over two experiments, we elicit human judgments on a range of property induction tasks spanning multiple domains. Although GPT-3 struggles to capture many aspects of human behaviour, GPT-4 is much more successful: for the most part, its performance qualitatively matches that of humans, and the only notable exception is its failure to capture the phenomenon of premise non-monotonicity. Overall, this work not only demonstrates that property induction is an interesting skill on which to compare human and machine intelligence, but also provides two large datasets that can serve as suitable benchmarks for future work in this vein. | 翻訳日:2023-06-13 18:15:29 公開日:2023-06-11 |
# グラフニューラルネットワークの局所的・グローバル的展望 Local-to-global Perspectives on Graph Neural Networks ( http://arxiv.org/abs/2306.06547v1 ) ライセンス: Link先を確認 | Chen Cai | (参考訳) 本稿では,グラフニューラルネットワーク(GNN)について,局所的メッセージパッシングニューラルネットワーク(MPNN)とグローバルグラフ変換器(GNN)に分類する。
3つの作品を紹介します
1)グローバルGNNの一種である不変グラフネットワークの収束特性について検討する。
2)ローカルMPNNとグローバルグラフ変換器を接続し、
3) 局所MPNNを用いてグラフの粗大化を行う。 We present a local-to-global perspective on graph neural networks (GNN), which are categorized as local Message Passing Neural Networks (MPNN) and global Graph Transformer. We present three pieces of work: 1) study the convergence property of a type of global GNN, Invariant Graph Networks, 2) connect the local MPNN and global Graph Transformer, and 3) use local MPNN for graph coarsening, a common subroutine used in global modeling. | 翻訳日:2023-06-13 18:15:13 公開日:2023-06-11 |
# RVQGANの改良による高忠実度オーディオ圧縮 High-Fidelity Audio Compression with Improved RVQGAN ( http://arxiv.org/abs/2306.06546v1 ) ライセンス: Link先を確認 | Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar | (参考訳) 言語モデルは、画像、音声、音楽などの自然信号のモデル化に成功している。
これらのモデルの主要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮できる高品質なニューラル圧縮モデルである。
その目的のために,44.1KHzの音声をたった8kbpsの帯域でトークンに約90倍の圧縮を実現する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを導入する。
我々は,高忠実度音声生成の進歩と,画像領域からのベクトル量子化技術の改善と,逆および再構成損失の改善を組み合わせることにより,これを実現する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
競合する音声圧縮アルゴリズムと比較し,本手法の方が優れていた。
すべての設計選択に対して徹底的なアブレーションを行い、オープンソースコードとトレーニングされたモデル重み付けを提供します。
われわれの研究が次世代の高忠実なオーディオモデリングの基礎を築けることを願っている。 Language models have been successfully used to model natural signals, such as images, speech, and music. A key component of these models is a high quality neural compression model that can compress high-dimensional natural signals into lower dimensional discrete tokens. To that end, we introduce a high-fidelity universal neural audio compression algorithm that achieves ~90x compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve this by combining advances in high-fidelity audio generation with better vector quantization techniques from the image domain, along with improved adversarial and reconstruction losses. We compress all domains (speech, environment, music, etc.) with a single universal model, making it widely applicable to generative modeling of all audio. We compare with competing audio compression algorithms, and find our method outperforms them significantly. We provide thorough ablations for every design choice, as well as open-source code and trained model weights. We hope our work can lay the foundation for the next generation of high-fidelity audio modeling. | 翻訳日:2023-06-13 18:15:04 公開日:2023-06-11 |
# モジュール型連続学習のための確率的枠組み A Probabilistic Framework for Modular Continual Learning ( http://arxiv.org/abs/2306.06545v1 ) ライセンス: Link先を確認 | Lazar Valkov, Akash Srivastava, Swarat Chaudhuri, Charles Sutton | (参考訳) モジュールの異なる構成を各問題に適用し,設計を忘れないようにするモジュールアプローチは,連続学習(CL)において有望な方向であることが示されている。
しかしながら、構成物の性能を評価するには、ニューラルネットワークのトレーニングが必要となるため、可能なモジュール構成の大規模で離散的な空間を探索することは困難である。
この課題に対処するために,確率モデルを用いて各構成の適合性を安価に計算し,探索を高速化するモジュール型CLフレームワーク PICLE を開発した。
このモデルは、優れたモジュール構成に関する事前知識とデータセット固有の情報を組み合わせる。
その用途は、検索空間を知覚サブセットや潜在サブセットのようにサブセットに分割することで補完される。
PICLEは,大規模検索空間にスケールしながら,異なるタイプの転送を実現する最初のモジュール型CLアルゴリズムであることを示す。
CL手法のデシラタの異なるデシラタをキャプチャする2つのベンチマークスイートで評価を行った。
これらのベンチマークでは、PICLEは最先端のCLベースラインよりも大幅にパフォーマンスが向上している。 Modular approaches, which use a different composition of modules for each problem and avoid forgetting by design, have been shown to be a promising direction in continual learning (CL). However, searching through the large, discrete space of possible module compositions is a challenge because evaluating a composition's performance requires a round of neural network training. To address this challenge, we develop a modular CL framework, called PICLE, that accelerates search by using a probabilistic model to cheaply compute the fitness of each composition. The model combines prior knowledge about good module compositions with dataset-specific information. Its use is complemented by splitting up the search space into subsets, such as perceptual and latent subsets. We show that PICLE is the first modular CL algorithm to achieve different types of transfer while scaling to large search spaces. We evaluate it on two benchmark suites designed to capture different desiderata of CL techniques. On these benchmarks, PICLE offers significantly better performance than state-of-the-art CL baselines. | 翻訳日:2023-06-13 18:14:48 公開日:2023-06-11 |
# 被覆保証付きニューラルネットワークの高速分布自由予測推定 Fast, Distribution-free Predictive Inference for Neural Networks with Coverage Guarantees ( http://arxiv.org/abs/2306.06582v1 ) ライセンス: Link先を確認 | Yue Gao, Garvesh Raskutti, Rebecca Willet | (参考訳) 本稿では,データへの分布的仮定を必要とせず,既存のニューラルネットワークのブートストラップ型手法よりも高速に計算可能な,計算効率の高い予測推論アルゴリズムを提案する。
具体的には、$n$トレーニングサンプルがある場合、ブートストラップメソッドは、$n$サブサンプルサイズ$n-1$のモデルをトレーニングする必要がある。
これとは対照的に,提案手法では,1つのニューラルネットワークを$(\epsilon, \delta)$-differential privacy (dp) でフルデータセット上でトレーニングし,差分プライベートニューラルネットワーク推定値の線形近似を用いて,各左辺1-outモデルを効率的に近似する。
交換可能なデータを用いることで,プライバシパラメータとニューラルネットワークの安定性に依存する厳密なカバレッジ保証が,データ分布によらず実現可能であることを実証する。
実データを用いたシミュレーションと実験により,本手法はブートストラップ法と比較して計算量を大幅に削減した。 This paper introduces a novel, computationally-efficient algorithm for predictive inference (PI) that requires no distributional assumptions on the data and can be computed faster than existing bootstrap-type methods for neural networks. Specifically, if there are $n$ training samples, bootstrap methods require training a model on each of the $n$ subsamples of size $n-1$; for large models like neural networks, this process can be computationally prohibitive. In contrast, our proposed method trains one neural network on the full dataset with $(\epsilon, \delta)$-differential privacy (DP) and then approximates each leave-one-out model efficiently using a linear approximation around the differentially-private neural network estimate. With exchangeable data, we prove that our approach has a rigorous coverage guarantee that depends on the preset privacy parameters and the stability of the neural network, regardless of the data distribution. Simulations and experiments on real data demonstrate that our method satisfies the coverage guarantees with substantially reduced computation compared to bootstrap methods. | 翻訳日:2023-06-13 18:07:41 公開日:2023-06-11 |
# シンクホーンアルゴリズムにおける重要スパーシフィケーション Importance Sparsification for Sinkhorn Algorithm ( http://arxiv.org/abs/2306.06581v1 ) ライセンス: Link先を確認 | Mengyu Li, Jun Yu, Tao Li, Cheng Meng | (参考訳) シンクホーンアルゴリズムは最適輸送(OT)と不均衡最適輸送(UOT)問題の解を近似するために広く用いられている。
しかし、その実用的応用は高い計算複雑性のために限られている。
計算負荷を軽減するため,エントロピー正規化otおよびuot溶液を効率的に近似するために,spar-sinkと呼ばれる新しい重要スパース化法を提案する。
具体的には,効率的なサンプリング確率を確立するために,未知の最適輸送計画に対して自然上界を用い,各イテレーションの計算コストを$o(n^2)$ から$\widetilde{o}(n)$ に削減して,ダウンホーン反復を高速化するスパースカーネル行列を構築した。
理論的には、正規化OTおよびOT問題に対する提案した推定器は、穏やかな規則性条件下で一貫したものである。
様々な合成データの実験では、Spar-Sinkは推定誤差と速度の両方において、主流の競合より優れていた。
実世界の心エコーデータ分析によれば、spar-sinkは心不全や不整脈を識別できる心周期を効果的に推定し可視化できる。
心臓周期予測の数値的精度を評価するために, エンドダイアソールを用いたエンドシストール時点の予測について検討する。
その結果、Spar-Sinkは古典的なシンクホーンアルゴリズムと同様に、計算時間を大幅に削減することを示した。 Sinkhorn algorithm has been used pervasively to approximate the solution to optimal transport (OT) and unbalanced optimal transport (UOT) problems. However, its practical application is limited due to the high computational complexity. To alleviate the computational burden, we propose a novel importance sparsification method, called Spar-Sink, to efficiently approximate entropy-regularized OT and UOT solutions. Specifically, our method employs natural upper bounds for unknown optimal transport plans to establish effective sampling probabilities, and constructs a sparse kernel matrix to accelerate Sinkhorn iterations, reducing the computational cost of each iteration from $O(n^2)$ to $\widetilde{O}(n)$ for a sample of size $n$. Theoretically, we show the proposed estimators for the regularized OT and UOT problems are consistent under mild regularity conditions. Experiments on various synthetic data demonstrate Spar-Sink outperforms mainstream competitors in terms of both estimation error and speed. A real-world echocardiogram data analysis shows Spar-Sink can effectively estimate and visualize cardiac cycles, from which one can identify heart failure and arrhythmia. To evaluate the numerical accuracy of cardiac cycle prediction, we consider the task of predicting the end-systole time point using the end-diastole one. Results show Spar-Sink performs as well as the classical Sinkhorn algorithm, requiring significantly less computational time. | 翻訳日:2023-06-13 18:07:19 公開日:2023-06-11 |
# 健康データセットと登録の力を解き放つ:研究推進のための機関的・国家的オーナーシップとガバナンス規則の必要性 Unlocking the Power of Health Datasets and Registries: The Need for Urgent Institutional and National Ownership and Governance Regulations for Research Advancement ( http://arxiv.org/abs/2306.06580v1 ) ライセンス: Link先を確認 | Ahmed S. BaHammam | (参考訳) 健康データセットは、研究の進歩を促進し、医療結果を改善する大きな可能性を秘めている。
しかし、この可能性を実現するには、ガバナンスとオーナシップのフレームワークを慎重に検討する必要がある。
この記事では、研究目的の健康データセットの責任と倫理的利用を促進するガバナンスとオーナシップモデルの重要性について検討します。
健康データセットと臨床データレジストリを研究目的に責任と倫理的利用を可能にするガバナンスとオーナシップモデルを採用することの重要性を強調する。
本稿は、研究における健康データ/医療記録の利用に関する地域的および国際的な重要な規制を取り上げ、データアクセス、共有、利用に関する明確な制度的および国家的ガイドライン、透明性、プライバシー、およびデータ保護の確保の必要性を強調する。
堅牢なガバナンス構造を確立し、利害関係者間の所有権を育むことにより、協力、イノベーション、健康データへの公平なアクセスが促進され、最終的には変革的な研究のための全力を開放し、世界的健康結果を改善することができる。 Health datasets have immense potential to drive research advancements and improve healthcare outcomes. However, realizing this potential requires careful consideration of governance and ownership frameworks. This article explores the importance of nurturing governance and ownership models that facilitate responsible and ethical use of health datasets for research purposes. We highlight the importance of adopting governance and ownership models that enable responsible and ethical utilization of health datasets and clinical data registries for research purposes. The article addresses the important local and international regulations related to the utilization of health data/medical records in research, and emphasizes the urgent need for developing clear institutional and national guidelines on data access, sharing, and utilization, ensuring transparency, privacy, and data protection. By establishing robust governance structures and fostering ownership among stakeholders, collaboration, innovation, and equitable access to health data can be promoted, ultimately unlocking its full power for transformative research and improving global health outcomes. | 翻訳日:2023-06-13 18:06:52 公開日:2023-06-11 |
# 頑健で一貫性のある時系列表現の学習:拡張インセプションに基づくアプローチ Learning Robust and Consistent Time Series Representations: A Dilated Inception-Based Approach ( http://arxiv.org/abs/2306.06579v1 ) ライセンス: Link先を確認 | Anh Duy Nguyen, Trang H. Tran, Hieu H. Pham, Phi Le Nguyen, Lam M. Nguyen | (参考訳) 時系列表現学習は何十年にもわたって重要な研究分野である。
基礎モデルの出現以来、このトピックは、幅広い下流タスクを解決するために、対照的な自己監督学習において多くの注目を集めてきた。
しかし、対照的な時系列処理にはいくつかの課題があった。
まず、時系列タスクの有効性に影響を及ぼす重要な要因の一つとしてノイズを考慮する作業はない。
第二に、様々な下流タスクに対して堅牢な情報表現を学習できる効率的な軽量エンコーダアーキテクチャがない。
これらのギャップを埋めるために,自然時系列における雑音の存在下で一貫した表現学習を促進する新しいサンプリング戦略を開始する。
さらに,インセプションブロック内の拡張畳み込みを利用して,広い受容領域を持つスケーラブルでロバストなネットワークアーキテクチャを構築するエンコーダアーキテクチャを提案する。
提案手法は, 予測, 分類, 異常検出タスクにおいて, 常に最先端の手法を上回っており, 分類データセットの3分の2以上を占めており, パラメータの40\%$である。
CoInceptionフレームワークのソースコードはhttps://github.com/anhduy0911/CoInceptionで参照できます。 Representation learning for time series has been an important research area for decades. Since the emergence of the foundation models, this topic has attracted a lot of attention in contrastive self-supervised learning, to solve a wide range of downstream tasks. However, there have been several challenges for contrastive time series processing. First, there is no work considering noise, which is one of the critical factors affecting the efficacy of time series tasks. Second, there is a lack of efficient yet lightweight encoder architectures that can learn informative representations robust to various downstream tasks. To fill in these gaps, we initiate a novel sampling strategy that promotes consistent representation learning with the presence of noise in natural time series. In addition, we propose an encoder architecture that utilizes dilated convolution within the Inception block to create a scalable and robust network architecture with a wide receptive field. Experiments demonstrate that our method consistently outperforms state-of-the-art methods in forecasting, classification, and abnormality detection tasks, e.g. ranks first over two-thirds of the classification UCR datasets, with only $40\%$ of the parameters compared to the second-best approach. Our source code for CoInception framework is accessible at https://github.com/anhduy0911/CoInception. | 翻訳日:2023-06-13 18:06:33 公開日:2023-06-11 |
# 芸術作品の写実的可視化への意味論的対応型マスクサイクルGAN Semantically-aware Mask CycleGAN for Translating Artistic Portraits to Photo-realistic Visualizations ( http://arxiv.org/abs/2306.06577v1 ) ライセンス: Link先を確認 | Zhuohao Yin | (参考訳) 画像から画像への変換(I2I)は、コンテンツ表現の損失や変更を最小限に抑えて、ソースドメイン内の画像をターゲットドメインに転送するコンピュータビジョンタスクとして定義される。
I2Iが様々な革命的生成モデルの発明によって提案されて以来、大きな進歩があった。
その中でも、GANベースのモデルは非常によく機能し、主に特定のドメインやタスク用にカスタマイズされている。
しかし、美術分野の仕立て方を提案する作品はほとんどない。
本稿では,絵画を写実的視覚化に変換できるセマンティック・アウェア・マスクサイクルGAN (SMCycleGAN) アーキテクチャを提案する。
このモデルは、識別者が意味論的にマスキングされた偽のサンプルを供給することにより、現実的な人間の肖像画を生成することができるので、背景など無関係なコンポーネントの類似性を高めることなく、より現実的な人間の肖像画を合成できるように、部分的な情報で識別的決定を強制することができる。
実験により、SMCycleGANはリアリズムを著しく増加させ、コンテンツ表現の損失を最小限に抑える画像を生成することが示された。 Image-to-image translation (I2I) is defined as a computer vision task where the aim is to transfer images in a source domain to a target domain with minimal loss or alteration of the content representations. Major progress has been made since I2I was proposed with the invention of a variety of revolutionary generative models. Among them, GAN-based models perform exceptionally well as they are mostly tailor-made for specific domains or tasks. However, few works proposed a tailor-made method for the artistic domain. In this project, I propose the Semantic-aware Mask CycleGAN (SMCycleGAN) architecture which can translate artistic portraits to photo-realistic visualizations. This model can generate realistic human portraits by feeding the discriminators semantically masked fake samples, thus enforcing them to make discriminative decisions with partial information so that the generators can be optimized to synthesize more realistic human portraits instead of increasing the similarity of other irrelevant components, such as the background. Experiments have shown that the SMCycleGAN generate images with significantly increased realism and minimal loss of content representations. | 翻訳日:2023-06-13 18:06:11 公開日:2023-06-11 |
# 無線ネットワーク評価のための学習可能なディジタルツイン Learnable Digital Twin for Efficient Wireless Network Evaluation ( http://arxiv.org/abs/2306.06574v1 ) ライセンス: Link先を確認 | Boning Li, Timofey Efimov, Abhishek Kumar, Jose Cortes, Gunjan Verma, Ananthram Swami, Santiago Segarra | (参考訳) ネットワークディジタルツインツ(NDT)は、ネットワークを物理的に実装する前にキーパフォーマンスインジケータ(KPI)を推定し、ネットワーク構成の効率的な最適化を可能にする。
本稿では,ネットワークシミュレータのための学習型NDTを提案する。
提案手法は,ノード,エッジ,パス埋め込みを統合することで,無線ネットワークにおける情報フローを総括的に表現する。
このアプローチを通じて、モデルはトレーニングされ、ネットワーク構成を単一のフォワードパスでKPIにマップする。
したがって、従来のシミュレーションベースの方法よりも効率的な代替手段を提供し、迅速な実験と最適化を可能にする。
提案手法は,有線ネットワークや無線ネットワークなど,様々なシナリオにおける包括的実験を通じて広範囲に検証されている。
その結果,ベースライン学習モデルよりも精度と堅牢性が高いことがわかった。
さらに,本手法はシミュレータに匹敵する性能を実現するが,計算効率は著しく向上する。 Network digital twins (NDTs) facilitate the estimation of key performance indicators (KPIs) before physically implementing a network, thereby enabling efficient optimization of the network configuration. In this paper, we propose a learning-based NDT for network simulators. The proposed method offers a holistic representation of information flow in a wireless network by integrating node, edge, and path embeddings. Through this approach, the model is trained to map the network configuration to KPIs in a single forward pass. Hence, it offers a more efficient alternative to traditional simulation-based methods, thus allowing for rapid experimentation and optimization. Our proposed method has been extensively tested through comprehensive experimentation in various scenarios, including wired and wireless networks. Results show that it outperforms baseline learning models in terms of accuracy and robustness. Moreover, our approach achieves comparable performance to simulators but with significantly higher computational efficiency. | 翻訳日:2023-06-13 18:05:50 公開日:2023-06-11 |
# ghosting the machine: recidivism risk assessment instrumentに対する司法抵抗 Ghosting the Machine: Judicial Resistance to a Recidivism Risk Assessment Instrument ( http://arxiv.org/abs/2306.06573v1 ) ライセンス: Link先を確認 | Dasha Pruss | (参考訳) レシディズムリスク評価装置は、刑事司法改革の「明確性に基づく」戦略として提示され、判決の一貫性を高め、現金救済を置き換え、大量収容を減らす方法である。
しかし実際には、AI中心の改革は、官僚システムの汚いラビリンチン機械に、単に別のレイヤを追加するだけで、内部抵抗に対処できる。
ペンシルバニア州の23人の刑事裁判官と他の刑事法務官僚のコミュニティが調査した結果、裁判官は「役に立たない」「役に立たない」「無駄」「時間の無駄」「役に立たない」という最近実装された判決リスク評価手段を圧倒的に無視していることがわかった。
既存の奨学金による説明によると、このアルゴリズムの逆転は、個人がツールや自動化不安に不信感を抱くことによって説明できない。
むしろ、この楽器の非使用は、3つの組織的要因の相互作用の結果である: 事前調査報告に関する郡レベルの規範、長年の公衆および内部の抵抗に応えてペンシルベニア・センテンシング委員会によって楽器に行われた変更、そして情報がどのように裁判官に広められるかの問題である。
これらの発見は、アルゴリズムに対する専門的抵抗に対する組織的影響の重要な役割に新たな光を当て、アルゴリズム中心の改革が望ましい効果を得られない理由を説明するのに役立つ。
この研究はまた、リスクアセスメントツールの使用に対する経験的未定の議論にも貢献している。 Recidivism risk assessment instruments are presented as an 'evidence-based' strategy for criminal justice reform - a way of increasing consistency in sentencing, replacing cash bail, and reducing mass incarceration. In practice, however, AI-centric reforms can simply add another layer to the sluggish, labyrinthine machinery of bureaucratic systems and are met with internal resistance. Through a community-informed interview-based study of 23 criminal judges and other criminal legal bureaucrats in Pennsylvania, I find that judges overwhelmingly ignore a recently-implemented sentence risk assessment instrument, which they disparage as "useless," "worthless," "boring," "a waste of time," "a non-thing," and simply "not helpful." I argue that this algorithm aversion cannot be accounted for by individuals' distrust of the tools or automation anxieties, per the explanations given by existing scholarship. Rather, the instrument's non-use is the result of an interplay between three organizational factors: county-level norms about pre-sentence investigation reports; alterations made to the instrument by the Pennsylvania Sentencing Commission in response to years of public and internal resistance; and problems with how information is disseminated to judges. These findings shed new light on the important role of organizational influences on professional resistance to algorithms, which helps explain why algorithm-centric reforms can fail to have their desired effect. This study also contributes to an empirically-informed argument against the use of risk assessment instruments: they are resource-intensive and have not demonstrated positive on-the-ground impacts. | 翻訳日:2023-06-13 18:05:38 公開日:2023-06-11 |
# オフライン強化学習のためのデータセット制約付きポリシー規則化 Policy Regularization with Dataset Constraint for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.06569v1 ) ライセンス: Link先を確認 | Yuhang Ran, Yi-Chen Li, Fuxiang Zhang, Zongzhang Zhang, Yang Yu | (参考訳) 我々は、オフライン強化学習(rl)と呼ばれる固定データセットから可能な最善のポリシーを学ぶ問題を考える。
既存のオフラインRL作品の一般的な分類法は、通常、学習されたポリシーを行動ポリシーの分布または支持によって制限するポリシー規則化である。
しかし、分配と支援の制約は、それぞれが特定の状態を考える際に行動方針と同じような行動を選択するよう政策に強制するため、過度に保守的である。
特に行動ポリシーが最適ではない場合、学習したポリシーのパフォーマンスを制限する。
本稿では,最も近い状態-作用対に対するポリシーの正則化がより効果的であることから,データセット制約によるポリシー正則化(PRDC)を提案する。
ある状態のポリシーを更新するとき、PRDCは、最も近い状態アクションサンプルのデータセット全体を検索し、このサンプルのアクションでポリシーを制限します。
以前の作業とは異なり、PRDCはデータセットからの適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
よりソフトな制約であるが、配布外行動から十分な保守性を維持する。
実証的な証拠と理論的分析により、prdcはオフラインrlの本質的に困難な値の過大評価問題と境界的なパフォーマンスギャップを緩和できることが示された。
さらに,移動タスクとナビゲーションタスクのセットにおいて,PRDCは従来の手法と比較して最先端のパフォーマンスを実現する。
コードはhttps://github.com/LAMDA-RL/PRDCで入手できる。 We consider the problem of learning the best possible policy from a fixed dataset, known as offline Reinforcement Learning (RL). A common taxonomy of existing offline RL works is policy regularization, which typically constrains the learned policy by distribution or support of the behavior policy. However, distribution and support constraints are overly conservative since they both force the policy to choose similar actions as the behavior policy when considering particular states. It will limit the learned policy's performance, especially when the behavior policy is sub-optimal. In this paper, we find that regularizing the policy towards the nearest state-action pair can be more effective and thus propose Policy Regularization with Dataset Constraint (PRDC). When updating the policy in a given state, PRDC searches the entire dataset for the nearest state-action sample and then restricts the policy with the action of this sample. Unlike previous works, PRDC can guide the policy with proper behaviors from the dataset, allowing it to choose actions that do not appear in the dataset along with the given state. It is a softer constraint but still keeps enough conservatism from out-of-distribution actions. Empirical evidence and theoretical analysis show that PRDC can alleviate offline RL's fundamentally challenging value overestimation issue with a bounded performance gap. Moreover, on a set of locomotion and navigation tasks, PRDC achieves state-of-the-art performance compared with existing methods. Code is available at https://github.com/LAMDA-RL/PRDC | 翻訳日:2023-06-13 18:05:03 公開日:2023-06-11 |
# 磁気フリー非相互構造を用いたガード量子鍵分布 Guarding Quantum Key Distribution with integrated Magnetic-free Nonreciprocal Structures ( http://arxiv.org/abs/2306.06564v1 ) ライセンス: Link先を確認 | Qiang Liu, Yinming Huang, Tingting Luo, Chunfeng Huang, Minming Geng, Zhenrong Zhang and Kejin Wei | (参考訳) アリスとボブの戸口で非相互デバイスを挿入することは量子鍵分布(QKD)システムにおける量子ハッキング攻撃に対して広く知られている対策である。
しかし、通常は磁気光学効果に基づく従来の非相互デバイスは、現在の半導体集積技術との互換性の課題に直面している。
その結果、初期のチップベースのQKDシステムは非相互成分を統合できず、インジェクションタイプの攻撃に対して脆弱であった。
soi統合の実際のパラメータに基づいて, 直接二分探索アルゴリズムを用いた逆設計を行い, 様々なチップ構成設計要件を満たしながら, チップベースのqkdシステムへの統合を容易にした。
設計されたデバイスのサイズはわずか数平方マイクロメートルだが、準アイソレータは27dBを超える分離レベルを達成できる。
QKDの実用性を実証するため、我々はQKDシステムをトロイの木馬攻撃から保護するために設計した装置を使用した。
シミュレーションの結果,提案装置はBB84と測定デバイスに依存しないQKDシステムをトロイの木馬攻撃に対して効果的に確保できることがわかった。 Inserting nonreciprocal devices at the doorways of Alice and Bob is a widely recognized countermeasure against quantum hacking attacks in quantum key distribution (QKD) systems. However, traditional integrated nonreciprocal devices, which are typically based on magneto-optical effects, face challenges in compatibility with current semiconductor integration technology. As a result, earlier chip-based QKD systems were unable to integrate nonreciprocal components and were vulnerable to injecting-type attacks. Based on the actual parameters of SOI integration, we employed the inverse design with the direct binary search algorithm to construct several magnetic-free nonreciprocal devices, facilitating their integration into chip-based QKD systems while meeting various chip configuration design requirements. The designed devices have sizes of only a few square micrometers, yet the quasi-isolator can achieve an isolation level exceeding 27 dB. To demonstrate their practical utility in QKD, we employed the designed devices to safeguard the QKD system against Trojan-horse attacks. The simulation results demonstrate that our proposed devices effectively secure the BB84 and measure-device-independent QKD systems against Trojan-horse attacks. | 翻訳日:2023-06-13 18:04:39 公開日:2023-06-11 |
# 未知の遷移をもつ効率的な逆模倣学習 Provably Efficient Adversarial Imitation Learning with Unknown Transitions ( http://arxiv.org/abs/2306.06563v1 ) ライセンス: Link先を確認 | Tian Xu, Ziniu Li, Yang Yu, Zhi-Quan Luo | (参考訳) 模倣学習(il)は、専門家のデモンストレーションから良いポリシーを学ぶ効果的な方法であることが証明されている。
IL手法のサブセットである Adversarial mimicion Learning (AIL) は特に有望であるが、未知の遷移の存在に関する理論的基礎はまだ完全には開発されていない。
本稿では,環境遷移の確率的かつ不確実性が課題となる環境遷移の理論的基礎を考察する。
適切なポリシーの回復に必要なエキスパートサンプルの複雑さとインタラクションの複雑さについて検討する。
この目的のために、報酬のない探索とAILを結合するフレームワークを構築し、$\widetilde{O} (H^{3/2} |S|/\varepsilon)$と$\widetilde{O} (H^{3} |S|^2 |A|/\varepsilon^2)$の相互作用複雑性を実現するアルゴリズムMB-TAILを提案する。
ここで、$H$ は計画地平線を表し、$|S|$ は状態空間サイズ、$|A|$ は作用空間サイズ、$\varepsilon$ は所望の模倣ギャップである。
MB-TAILは、未知の遷移設定においてこのレベルの専門家サンプル複雑性を達成し、最もよく知られたアルゴリズムであるOALの相互作用複雑性を$O(H)$で改善した最初のアルゴリズムである。
さらに、mb-tail の一般化能力を関数近似設定に拡張し、$|s|$ に依存しない専門的なサンプルと相互作用の複雑さを実現できることを示した。 Imitation learning (IL) has proven to be an effective method for learning good policies from expert demonstrations. Adversarial imitation learning (AIL), a subset of IL methods, is particularly promising, but its theoretical foundation in the presence of unknown transitions has yet to be fully developed. This paper explores the theoretical underpinnings of AIL in this context, where the stochastic and uncertain nature of environment transitions presents a challenge. We examine the expert sample complexity and interaction complexity required to recover good policies. To this end, we establish a framework connecting reward-free exploration and AIL, and propose an algorithm, MB-TAIL, that achieves the minimax optimal expert sample complexity of $\widetilde{O} (H^{3/2} |S|/\varepsilon)$ and interaction complexity of $\widetilde{O} (H^{3} |S|^2 |A|/\varepsilon^2)$. Here, $H$ represents the planning horizon, $|S|$ is the state space size, $|A|$ is the action space size, and $\varepsilon$ is the desired imitation gap. MB-TAIL is the first algorithm to achieve this level of expert sample complexity in the unknown transition setting and improves upon the interaction complexity of the best-known algorithm, OAL, by $O(H)$. Additionally, we demonstrate the generalization ability of MB-TAIL by extending it to the function approximation setting and proving that it can achieve expert sample and interaction complexity independent of $|S|$ | 翻訳日:2023-06-13 18:04:20 公開日:2023-06-11 |
# 無線エッジAIのためのタスク指向統合センシング・計算・通信 Task-Oriented Integrated Sensing, Computation and Communication for Wireless Edge AI ( http://arxiv.org/abs/2306.06603v1 ) ライセンス: Link先を確認 | Hong Xing, Guangxu Zhu, Dongzhu Liu, Haifeng Wen, Kaibin Huang, and Kaishun Wu | (参考訳) 大規模なデータセンシング、分析、推論、および5G(B5G)ネットワークを越えたクリティカルレイテンシを含む、自律運転、デジタルツイン、メタバースなどの新興IoTアプリケーションの出現に伴い、エッジ人工知能(AI)が提案され、従来のクラウドをネットワークエッジまで高速に計算することができる。
近年、特定のエッジAIタスクに対する無線センシング、計算、通信(SC${}^2$)の収束は、これら3つの基本機能のうち、高周波(RF)トランシーバと情報処理パイプラインの(部分的な)共有を可能にし、パラダイムシフトを引き起こしている。
しかし、既存の設計フレームワークの多くは、不要な信号のオーバーヘッドとエネルギーの浪費を伴うこれらの設計を分離しているため、超信頼性と低遅延のエッジインテリジェンス獲得を達成するために、完全に統合されたセンシング、計算、通信(iscc)を進めることが最重要である。
本稿では、タスク指向ISCCの利点を示すエッジAIタスクの2つの具体的なユースケースに続いて、ISCC技術を有効にする原則の概要を説明し、高度なISCCソリューションを用いたエッジAI設計における実践的な課題を指摘した。 With the advent of emerging IoT applications such as autonomous driving, digital-twin and metaverse etc. featuring massive data sensing, analyzing and inference as well critical latency in beyond 5G (B5G) networks, edge artificial intelligence (AI) has been proposed to provide high-performance computation of a conventional cloud down to the network edge. Recently, convergence of wireless sensing, computation and communication (SC${}^2$) for specific edge AI tasks, has aroused paradigm shift by enabling (partial) sharing of the radio-frequency (RF) transceivers and information processing pipelines among these three fundamental functionalities of IoT. However, most existing design frameworks separate these designs incurring unnecessary signaling overhead and waste of energy, and it is therefore of paramount importance to advance fully integrated sensing, computation and communication (ISCC) to achieve ultra-reliable and low-latency edge intelligence acquisition. In this article, we provide an overview of principles of enabling ISCC technologies followed by two concrete use cases of edge AI tasks demonstrating the advantage of task-oriented ISCC, and pointed out some practical challenges in edge AI design with advanced ISCC solutions. | 翻訳日:2023-06-13 17:57:41 公開日:2023-06-11 |
# Wigner-Yanaseスキュー情報に基づく量子チャネルの不確実性関係 Wigner-Yanase skew information-based uncertainty relations for quantum channels ( http://arxiv.org/abs/2306.06602v1 ) ライセンス: Link先を確認 | Qing-Hua Zhang and Shao-ming Fei | (参考訳) Wigner-Yanaseスキュー情報は、保存量と通勤しない可観測物の値に関する情報の不確実性を表す。
wigner-yaaseは情報に基づく不確実性関係を概念ハイゼンベルクの不確実性原理の相補性と見なすことができる。
Wigner-Yanaseスキュー情報に基づく2つの量子チャネルに対する積と和の両方の不確実性関係を示す。
不確実性は既存のものよりも厳密であることを示す。 The Wigner-Yanase skew information stands for the uncertainty about the information on the values of observables not commuting with the conserved quantity. The Wigner-Yanase skew information-based uncertainty relations can be regarded as a complementarity to the conceptual Heisenberg uncertainty principle. We present tight uncertainty relations in both product and summation forms for two quantum channels based on the Wigner-Yanase skew information. We show that our uncertainty inequalities are tighter than the existing ones. | 翻訳日:2023-06-13 17:57:18 公開日:2023-06-11 |
# プロンプト・パラフレーズ対話における感情認識の思考過程の模倣 Mimicking the Thinking Process for Emotion Recognition in Conversation with Prompts and Paraphrasing ( http://arxiv.org/abs/2306.06601v1 ) ライセンス: Link先を確認 | Ting Zhang, Zhuang Chen, Ming Zhong and Tieyun Qian | (参考訳) 近年,すべての発話に対する感情予測を目的とした会話における感情認識が研究の注目を集めている。
一つの発話における感情の認識には、会話的文脈、話者の背景、感情ラベル間の微妙な違いなど、多くの複雑な要因が伴うため、これは難しい課題である。
本稿では,これらの因子をモデル化する際に思考過程を模倣する新しい枠組みを提案する。
具体的には、まず会話コンテキストを履歴指向のプロンプトで理解し、ターゲット発話の前者からの情報を選択的に収集する。
そして、話者のバックグラウンドを経験指向のプロンプトでモデル化し、すべての会話から同様の発話を取り出す。
最後に,内在的なラベル関連知識を導き出すパラフレージング機構を用いて,微妙なラベル意味論を区別する。
3つのベンチマークで広範な実験を行った。
実験により,提案するフレームワークが最先端のベースラインよりも優れていることを示す。 Emotion recognition in conversation, which aims to predict the emotion for all utterances, has attracted considerable research attention in recent years. It is a challenging task since the recognition of the emotion in one utterance involves many complex factors, such as the conversational context, the speaker's background, and the subtle difference between emotion labels. In this paper, we propose a novel framework which mimics the thinking process when modeling these factors. Specifically, we first comprehend the conversational context with a history-oriented prompt to selectively gather information from predecessors of the target utterance. We then model the speaker's background with an experience-oriented prompt to retrieve the similar utterances from all conversations. We finally differentiate the subtle label semantics with a paraphrasing mechanism to elicit the intrinsic label related knowledge. We conducted extensive experiments on three benchmarks. The empirical results demonstrate the superiority of our proposed framework over the state-of-the-art baselines. | 翻訳日:2023-06-13 17:57:11 公開日:2023-06-11 |
# 空間デジタル双子の実現:技術,課題,今後の研究方向 Enabling Spatial Digital Twins: Technologies, Challenges, and Future Research Directions ( http://arxiv.org/abs/2306.06600v1 ) ライセンス: Link先を確認 | Mohammed Eunus Ali, Muhammad Aamir Cheema, Tanzima Hashem, Anwaar Ulhaq, Muhammad Ali Babar | (参考訳) デジタルツイン(Digital Twin, DT)は、物理オブジェクトやシステムの仮想レプリカであり、その動作と特性を監視し、分析し、最適化するために作成される。
空間デジタル双生児(SDT)は、物理的実体の地理空間的側面を強調し、空間環境における包括的理解のために正確な位置と次元特性を取り入れた、特定のタイプのデジタル双生児である。
現在のsdtsの研究は、主に様々なアプリケーションドメインにおける潜在的な影響と機会を分析することに集中している。
sdtの構築は複雑なプロセスであり、様々な空間コンピューティング技術を必要とするため、この多分野の実践者や研究者がsdtの実現技術の基礎となる詳細を理解することは容易ではない。
本稿では,SDTの階層化手法(データ取得から可視化に至るまで)の構築に関連する空間技術について,初めて体系的に解析する。
より具体的には、sdtsの重要なコンポーネントを4つの技術レイヤにまとめます。
i) データ取得
(ii)空間データベース管理・ビッグデータ分析システム
三 GISミドルウェアソフトウェア、マップ \& API、及び
(iv)可視化、クエリ、マイニング、シミュレーション、予測といった重要な機能コンポーネント。
さらに、AI/MLやブロックチェーン、クラウドコンピューティングといった最新の技術が、SDTの有効化と拡張に効果的に活用できる方法について論じる。
最後に、sdtsにおける多くの研究課題と機会を特定する。
この作業は、SDTと従来のDTを明確に区別し、ユニークなアプリケーションを特定し、SDTの本質的な技術コンポーネントを概説し、今後の開発に向けたビジョンと、今後の課題を提示する、SDT研究者や実践者にとって重要なリソースとなる。 A Digital Twin (DT) is a virtual replica of a physical object or system, created to monitor, analyze, and optimize its behavior and characteristics. A Spatial Digital Twin (SDT) is a specific type of digital twin that emphasizes the geospatial aspects of the physical entity, incorporating precise location and dimensional attributes for a comprehensive understanding within its spatial environment. The current body of research on SDTs primarily concentrates on analyzing their potential impact and opportunities within various application domains. As building an SDT is a complex process and requires a variety of spatial computing technologies, it is not straightforward for practitioners and researchers of this multi-disciplinary domain to grasp the underlying details of enabling technologies of the SDT. In this paper, we are the first to systematically analyze different spatial technologies relevant to building an SDT in layered approach (starting from data acquisition to visualization). More specifically, we present the key components of SDTs into four layers of technologies: (i) data acquisition; (ii) spatial database management \& big data analytics systems; (iii) GIS middleware software, maps \& APIs; and (iv) key functional components such as visualizing, querying, mining, simulation and prediction. Moreover, we discuss how modern technologies such as AI/ML, blockchains, and cloud computing can be effectively utilized in enabling and enhancing SDTs. Finally, we identify a number of research challenges and opportunities in SDTs. This work serves as an important resource for SDT researchers and practitioners as it explicitly distinguishes SDTs from traditional DTs, identifies unique applications, outlines the essential technological components of SDTs, and presents a vision for their future development along with the challenges that lie ahead. | 翻訳日:2023-06-13 17:56:57 公開日:2023-06-11 |
# 変動的不均衡回帰 Variational Imbalanced Regression ( http://arxiv.org/abs/2306.06599v1 ) ライセンス: Link先を確認 | Ziyan Wang, Hao Wang | (参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。
本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。
Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation.
いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. | 翻訳日:2023-06-13 17:56:28 公開日:2023-06-11 |
# RoBERTweet: ルーマニアのつぶやきのためのBERT言語モデル RoBERTweet: A BERT Language Model for Romanian Tweets ( http://arxiv.org/abs/2306.06598v1 ) ライセンス: Link先を確認 | Iulian-Marius T\u{a}iatu, Andrei-Marius Avram, Dumitru-Clementin Cercel and Florin Pop | (参考訳) ソーシャルメディア分析のための自然言語処理(NLP)システムの開発は、人工知能研究において重要なトピックである。
この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。
当社のRoBERTweetには,BERTのベースと大規模アーキテクチャの2つのバージョンがあります。
モデルの事前訓練に用いられるコーパスは、2008年から2022年にかけて収集された全ツイートからなるルーマニアのNLPコミュニティの新規性を表している。
実験の結果、RoBERTweetモデルは3つのNLPタスク(感情検出、性差別的言語識別、名前付きエンティティ認識)において、ルーマニア語および多言語言語モデルよりも優れていることが示された。
我々は、モデルと新しく作られたルーマニアのツイートのコーパスを自由に利用できるようにします。 Developing natural language processing (NLP) systems for social media analysis remains an important topic in artificial intelligence research. This article introduces RoBERTweet, the first Transformer architecture trained on Romanian tweets. Our RoBERTweet comes in two versions, following the base and large architectures of BERT. The corpus used for pre-training the models represents a novelty for the Romanian NLP community and consists of all tweets collected from 2008 to 2022. Experiments show that RoBERTweet models outperform the previous general-domain Romanian and multilingual language models on three NLP tasks with tweet inputs: emotion detection, sexist language identification, and named entity recognition. We make our models and the newly created corpus of Romanian tweets freely available. | 翻訳日:2023-06-13 17:56:16 公開日:2023-06-11 |
# 反射場を用いたニューラルプロジェクションマッピング Neural Projection Mapping Using Reflectance Fields ( http://arxiv.org/abs/2306.06595v1 ) ライセンス: Link先を確認 | Yotam Erel, Daisuke Iwai and Amit H. Bermano | (参考訳) 本研究では,高分解能空間適応光源,あるいはプロジェクタを,プロジェクタとフォトリアル光編集の両方を校正可能な神経反射領域に導入する。
投影されたテクスチャは、すべてのシーンパラメータに対して完全に微分可能であり、拡張現実やプロジェクションマッピングの応用に適した外観に最適化することができる。
私たちのニューラルネットワークは3つのニューラルネットワークで構成されています。
解析的BRDFモデルと慎重に選択されたプロジェクションパターンを用いて、我々の取得プロセスは単純で直感的であり、固定された未校正プロジェクションと共位置光源付きハンドヘルドカメラを備えている。
我々が示すように、パイプラインに組み込まれた仮想プロジェクタはシーン理解を改善し、様々なプロジェクションマッピングアプリケーションを可能にする。
新規な視点合成を可能にすることに加え、新しい視点に対する最先端のパフォーマンスプロジェクタ補償、素材およびシーン再構成におけるベースラインの改善、および複数の視点からシーンの外観を連続的に予測する2次元生成モデルの使用を含む、投影画像の最適化を行うシナリオを3つ実装した。
ニューラルプロジェクションマッピングは、シーンとプロジェクションイメージの協調最適化を通じて、新しくエキサイティングな下流タスクへの扉を開くものだと考えています。 We introduce a high resolution spatially adaptive light source, or a projector, into a neural reflectance field that allows to both calibrate the projector and photo realistic light editing. The projected texture is fully differentiable with respect to all scene parameters, and can be optimized to yield a desired appearance suitable for applications in augmented reality and projection mapping. Our neural field consists of three neural networks, estimating geometry, material, and transmittance. Using an analytical BRDF model and carefully selected projection patterns, our acquisition process is simple and intuitive, featuring a fixed uncalibrated projected and a handheld camera with a co-located light source. As we demonstrate, the virtual projector incorporated into the pipeline improves scene understanding and enables various projection mapping applications, alleviating the need for time consuming calibration steps performed in a traditional setting per view or projector location. In addition to enabling novel viewpoint synthesis, we demonstrate state-of-the-art performance projector compensation for novel viewpoints, improvement over the baselines in material and scene reconstruction, and three simply implemented scenarios where projection image optimization is performed, including the use of a 2D generative model to consistently dictate scene appearance from multiple viewpoints. We believe that neural projection mapping opens up the door to novel and exciting downstream tasks, through the joint optimization of the scene and projection images. | 翻訳日:2023-06-13 17:56:04 公開日:2023-06-11 |
# Blocked Cross-Validation:ハイパーパラメータチューニングの高精度かつ効率的な方法 Blocked Cross-Validation: A Precise and Efficient Method for Hyperparameter Tuning ( http://arxiv.org/abs/2306.06591v1 ) ライセンス: Link先を確認 | Giovanni Maria Merola | (参考訳) ハイパーパラメータチューニングは、予測学習者のパフォーマンスを最適化する上で重要な役割を果たす。
クロスバリデーション(CV)は、異なるハイパーパラメータ設定の誤差を推定する手法として広く採用されている。
繰り返しクロスバリデーション(RCV)はCVエラーのばらつきを軽減するために一般的に用いられている。
本稿では,ブロッククロスバリデーション(BCV)と呼ばれる,CVパーティションと学習者のランダムな振る舞いの両方に対して繰り返しをブロックする手法を提案する。
理論的解析と実証実験により、bcvはrcvよりも正確なエラー推定を提供するが、実行回数は大幅に減少している。
ハイパーパラメータチューニングにおけるbcvの有効性と効率を示すために,実世界のデータセットを用いた広範な例を示す。
以上の結果より, BCV は高パラメータチューニングにおいて RCV よりも優れ, 計算精度が低い。 Hyperparameter tuning plays a crucial role in optimizing the performance of predictive learners. Cross--validation (CV) is a widely adopted technique for estimating the error of different hyperparameter settings. Repeated cross-validation (RCV) has been commonly employed to reduce the variability of CV errors. In this paper, we introduce a novel approach called blocked cross-validation (BCV), where the repetitions are blocked with respect to both CV partition and the random behavior of the learner. Theoretical analysis and empirical experiments demonstrate that BCV provides more precise error estimates compared to RCV, even with a significantly reduced number of runs. We present extensive examples using real--world data sets to showcase the effectiveness and efficiency of BCV in hyperparameter tuning. Our results indicate that BCV outperforms RCV in hyperparameter tuning, achieving greater precision with fewer computations. | 翻訳日:2023-06-13 17:55:36 公開日:2023-06-11 |
# Few-Shot分類のための合成プロトタイプネットワーク Compositional Prototypical Networks for Few-Shot Classification ( http://arxiv.org/abs/2306.06584v1 ) ライセンス: Link先を確認 | Qiang Lyu, Weiqiang Wang | (参考訳) 事前学習は, 高いクラス転送性を有する特徴抽出器を提供し, 伝達可能な特徴抽出器を再利用するだけで, 高いクラス一般化を実現することができると仮定した。
本研究の動機は,機能再利用性をさらに向上するために,細粒度で伝達可能なメタ知識を明示的に学習することである。
具体的には、人間が学習した概念やコンポーネントを使って新しいクラスを認識できることに着想を得て、構成的プロトタイプネットワーク(CPN)を提案し、各属性の変換可能なプロトタイプを学習し、それをコンポーネントプロトタイプと呼ぶ。
我々は,学習したコンポーネントプロトタイプが優れたクラス転送性を有し,新規クラスの合成プロトタイプを構築するために再利用できることを実証的に示す。
そして、学習可能な重量発生器を用いて、合成及び視覚プロトタイプを適応的に融合させる。
広範な実験により,本手法は異なるデータセットと設定で最先端の結果が得られることを示した。
パフォーマンス向上は、特に5ウェイ1ショット設定で顕著である。
コードはhttps://github.com/fikry102/cpnで入手できる。 It is assumed that pre-training provides the feature extractor with strong class transferability and that high novel class generalization can be achieved by simply reusing the transferable feature extractor. In this work, our motivation is to explicitly learn some fine-grained and transferable meta-knowledge so that feature reusability can be further improved. Concretely, inspired by the fact that humans can use learned concepts or components to help them recognize novel classes, we propose Compositional Prototypical Networks (CPN) to learn a transferable prototype for each human-annotated attribute, which we call a component prototype. We empirically demonstrate that the learned component prototypes have good class transferability and can be reused to construct compositional prototypes for novel classes. Then a learnable weight generator is utilized to adaptively fuse the compositional and visual prototypes. Extensive experiments demonstrate that our method can achieve state-of-the-art results on different datasets and settings. The performance gains are especially remarkable in the 5-way 1-shot setting. The code is available at https://github.com/fikry102/CPN. | 翻訳日:2023-06-13 17:55:23 公開日:2023-06-11 |
# react2023: 初のマルチモーダル多重適切な顔反応生成チャレンジ REACT2023: the first Multi-modal Multiple Appropriate Facial Reaction Generation Challenge ( http://arxiv.org/abs/2306.06583v1 ) ライセンス: Link先を確認 | Siyang Song, Micol Spitale, Cheng Luo, German Barquero, Cristina Palmero, Sergio Escalera, Michel Valstar, Tobias Baur, Fabien Ringeval, Elisabeth Andre and Hatice Gunes | (参考訳) multi-modal multiple appropriate facial reaction generation challenge (react2023) はマルチメディア処理と機械学習技術の評価に焦点を当てた最初のコンペティションイベントである。
この課題の目的は、マルチモーダル情報処理のための最初のベンチマークテストセットを提供することと、音声、視覚、視覚の情動コンピューティングコミュニティ間のコラボレーションを促進することであり、異なる自発的なdyadic相互作用条件下での適切な顔反応生成に対するアプローチの相対的なメリットを比較することである。
本稿では,
(i)REACT2023チャレンジの新規性、貢献及びガイドライン
(ii)課題で用いられるデータセット
3) 提案した2つのサブチャレンジのベースラインシステムの性能は, それぞれオフライン多重顔反応生成とオンライン複数顔反応生成である。
チャレンジベースラインコードは \url{https://github.com/reactmultimodalchallenge/baseline_react2023} で公開されている。 The Multi-modal Multiple Appropriate Facial Reaction Generation Challenge (REACT2023) is the first competition event focused on evaluating multimedia processing and machine learning techniques for generating human-appropriate facial reactions in various dyadic interaction scenarios, with all participants competing strictly under the same conditions. The goal of the challenge is to provide the first benchmark test set for multi-modal information processing and to foster collaboration among the audio, visual, and audio-visual affective computing communities, to compare the relative merits of the approaches to automatic appropriate facial reaction generation under different spontaneous dyadic interaction conditions. This paper presents: (i) novelties, contributions and guidelines of the REACT2023 challenge; (ii) the dataset utilized in the challenge; and (iii) the performance of baseline systems on the two proposed sub-challenges: Offline Multiple Appropriate Facial Reaction Generation and Online Multiple Appropriate Facial Reaction Generation, respectively. The challenge baseline code is publicly available at \url{https://github.com/reactmultimodalchallenge/baseline_react2023}. | 翻訳日:2023-06-13 17:55:07 公開日:2023-06-11 |
# 中間層とラベルは本当に必要か?
一般言語モデル蒸留法 Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method ( http://arxiv.org/abs/2306.06625v1 ) ライセンス: Link先を確認 | Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Shu Zhao, Peng Zhang, Jie Tang | (参考訳) 事前訓練された言語モデルの大規模化は、これらのモデルを圧縮する方法、特に知識蒸留に重点を置いて、様々なデバイスに展開する上での課題となっている。
しかし、現在の知識蒸留法はモデル中間層の特徴とゴールデンラベル(ハードラベルとも呼ばれる)に依存しており、それぞれ整列モデルアーキテクチャと十分なラベル付きデータを必要とする。
さらに、語彙のパラメータは通常既存の方法で無視される。
これらの問題に対処するために,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。
特にglmdは、中間層とゴールデンラベルの欠如によって、モデル間の次元と構造の制約とラベル付きデータセットの必要性を排除することで、より一般的なアプリケーションシナリオをサポートする。
一方、データ中の単語頻度の長い分布に基づいて、GLMDは次元ではなく語彙サイズを小さくすることで語彙圧縮の戦略を設計する。
実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。 The large scale of pre-trained language models poses a challenge for their deployment on various devices, with a growing emphasis on methods to compress these models, particularly knowledge distillation. However, current knowledge distillation methods rely on the model's intermediate layer features and the golden labels (also called hard labels), which usually require aligned model architecture and enough labeled data respectively. Moreover, the parameters of vocabulary are usually neglected in existing methods. To address these problems, we propose a general language model distillation (GLMD) method that performs two-stage word prediction distillation and vocabulary compression, which is simple and surprisingly shows extremely strong performance. Specifically, GLMD supports more general application scenarios by eliminating the constraints of dimension and structure between models and the need for labeled datasets through the absence of intermediate layers and golden labels. Meanwhile, based on the long-tailed distribution of word frequencies in the data, GLMD designs a strategy of vocabulary compression through decreasing vocabulary size instead of dimensionality. Experimental results show that our method outperforms 25 state-of-the-art methods on the SuperGLUE benchmark, achieving an average score that surpasses the best method by 3%. | 翻訳日:2023-06-13 17:47:32 公開日:2023-06-11 |
# RestGPT: RESTful APIによる大規模言語モデルと実世界のアプリケーションとの接続 RestGPT: Connecting Large Language Models with Real-World Applications via RESTful APIs ( http://arxiv.org/abs/2306.06624v1 ) ライセンス: Link先を確認 | Yifan Song, Weimin Xiong, Dawei Zhu, Cheng Li, Ke Wang, Ye Tian, Sujian Li | (参考訳) ツールによる大規模言語モデル(llm)は、幅広いクエリに取り組み、著しい進歩を遂げています。
しかし、既存の作業はまだ実験段階であり、特に実世界のアプリケーションに対して、拡張性と堅牢性に制限がある。
本稿では、一般的に採用されているRESTソフトウェアアーキテクチャスタイルをWebサービス開発に用いた、LLMとRESTful APIを接続するより現実的なシナリオについて考察する。
計画とAPI利用の実践的な課題に対処するために,LLMを活用してRESTful APIを接続することでユーザ要求を解決するRestGPTを導入する。
具体的には,詳細なオンラインプランニング機構を提案し,計画とAPI選択の能力を高める。
RESTful APIを呼び出す複雑なシナリオのために、パラメータを定式化しAPIレスポンスを解析するAPIエグゼキュータを特別に設計しました。
実験により、RestGPTは複雑なタスクにおいて印象的な結果を得ることができ、強い堅牢性を持ち、AGIへの新たな道を開くことが示されている。 Tool-augmented large language models (LLMs) have achieved remarkable progress in tackling a broad range of queries. However, existing work are still in the experimental stage and has limitations in extensibility and robustness, especially facing the real-world applications. In this paper, we consider a more realistic scenario, connecting LLMs with RESTful APIs, which use the commonly adopted REST software architectural style for web service development. To address the practical challenges of planning and API usage, we introduce RestGPT, which leverages LLMs to solve user requests by connecting with RESTful APIs. Specifically, we propose a coarse-to-fine online planning mechanism to enhance the ability of planning and API selection. For the complex scenario of calling RESTful APIs, we also specially designed an API executor to formulate parameters and parse API responses. Experiments show that RestGPT is able to achieve impressive results in complex tasks and has strong robustness, which paves a new way towards AGI. | 翻訳日:2023-06-13 17:47:12 公開日:2023-06-11 |
# 視覚的質問応答生成の弱さ Weakly Supervised Visual Question Answer Generation ( http://arxiv.org/abs/2306.06622v1 ) ライセンス: Link先を確認 | Charani Alampalle, Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty | (参考訳) 対話エージェントへの関心が高まり、視覚的質問の問合せと回答を含む双方向の人間とコンピュータのコミュニケーションがAI研究の活発な領域となっている。
したがって、視覚的質問応答対の生成は重要かつ困難な課題となる。
この問題に対処するために,与えられた入力画像と関連するキャプションに対して,関連する質問応答対を生成する弱教師付き視覚質問応答生成手法を提案する。
以前の作業の大部分は監督され、注釈付きクェリ・アンワーデータセットに依存している。
本研究では,視覚情報とキャプションから手続き的に質問応答対を合成する弱教師付き手法を提案する。
提案手法は,まず解答語のリストを抽出し,そのキャプションと解答語を用いて合成質問を生成する最寄りの質問生成を行う。
次に、関連する質問生成装置は、最も近い質問を、依存関係解析と順番木トラバースにより関連言語問題に変換し、最後に、問合せペアを最後に生成したVLBERTモデルを微調整する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA法を著しく上回る結果を得た。
また, ベースラインモデルとアブレーション研究の結果も示す。 Growing interest in conversational agents promote twoway human-computer communications involving asking and answering visual questions have become an active area of research in AI. Thus, generation of visual questionanswer pair(s) becomes an important and challenging task. To address this issue, we propose a weakly-supervised visual question answer generation method that generates a relevant question-answer pairs for a given input image and associated caption. Most of the prior works are supervised and depend on the annotated question-answer datasets. In our work, we present a weakly supervised method that synthetically generates question-answer pairs procedurally from visual information and captions. The proposed method initially extracts list of answer words, then does nearest question generation that uses the caption and answer word to generate synthetic question. Next, the relevant question generator converts the nearest question to relevant language question by dependency parsing and in-order tree traversal, finally, fine-tune a ViLBERT model with the question-answer pair(s) generated at end. We perform an exhaustive experimental analysis on VQA dataset and see that our model significantly outperform SOTA methods on BLEU scores. We also show the results wrt baseline models and ablation study. | 翻訳日:2023-06-13 17:46:56 公開日:2023-06-11 |
# ARIST: 効果的なAPI引数推奨アプローチ ARIST: An Effective API Argument Recommendation Approach ( http://arxiv.org/abs/2306.06620v1 ) ライセンス: Link先を確認 | Son Nguyen, Cuong Tran Manh, Kien T. Tran, Tan M. Nguyen, Thu-Trang Nguyen, Kien-Tuan Ngo and Hieu Dinh Vo | (参考訳) APIを使用するための学習と記憶は難しい。
APIを使用する開発者を支援するために、いくつかのテクニックが提案されている。
既存の技術のほとんどは適切なapiメソッドの呼び出しを推奨することに集中しているが、api引数を推奨することにフォーカスする技術はほとんどない。
本稿では,APIメソッドの定義と使用時の開発者の期待を予測して議論を提案する,新たな自動引数レコメンデーションアプローチであるARISTを提案する。
このアイデアをレコメンデーションプロセスで実装するために、aristはプログラム分析(pa)、言語モデル(lms)、および形式パラメータの機能と与えられたコンテキストにおけるコード要素(変数やメソッド呼び出しなど)の位置情報を考慮するレコメンデーションタスクに特化したいくつかの機能を組み合わせている。
ARISTでは、LMと推奨機能を使用して、PAによって特定される有望な候補を提案する。
一方、PAはLMと、構文、アクセシビリティ、および使用中のプログラミング言語によって定義された型互換性制約を満たす有効な候補のセットに作用する機能をナビゲートする。
実世界のプロジェクトの大規模なデータセットを評価した結果、aristは最先端のアプローチをトップ1の精度で19%と18%改善し、頻繁に使われるライブラリの引数を推奨した。
一般的な引数レコメンデーションタスク、すなわちメソッドコール毎に引数を推奨する場合、ARISTは最大125%のトップ-1精度でベースラインアプローチを上回ります。
さらに、新たに発表されたプロジェクトでは、より大きなデータセットで評価すると、ARISTが60%以上のトップ3精度を達成する。
開発者のコーディングプラクティスをキャプチャするパーソナライズされたLMを使って、プロジェクトの作業とメンテナンスのために、ARISTは7/10リクエストで上位1位の引数を生産的にランク付けできる。 Learning and remembering to use APIs are difficult. Several techniques have been proposed to assist developers in using APIs. Most existing techniques focus on recommending the right API methods to call, but very few techniques focus on recommending API arguments. In this paper, we propose ARIST, a novel automated argument recommendation approach which suggests arguments by predicting developers' expectations when they define and use API methods. To implement this idea in the recommendation process, ARIST combines program analysis (PA), language models (LMs), and several features specialized for the recommendation task which consider the functionality of formal parameters and the positional information of code elements (e.g., variables or method calls) in the given context. In ARIST, the LMs and the recommending features are used to suggest the promising candidates identified by PA. Meanwhile, PA navigates the LMs and the features working on the set of the valid candidates which satisfy syntax, accessibility, and type-compatibility constraints defined by the programming language in use. Our evaluation on a large dataset of real-world projects shows that ARIST improves the state-of-the-art approach by 19% and 18% in top-1 precision and recall for recommending arguments of frequently-used libraries. For general argument recommendation task, i.e., recommending arguments for every method call, ARIST outperforms the baseline approaches by up to 125% top-1 accuracy. Moreover, for newly-encountered projects, ARIST achieves more than 60% top-3 accuracy when evaluating on a larger dataset. For working/maintaining projects, with a personalized LM to capture developers' coding practice, ARIST can productively rank the expected arguments at the top-1 position in 7/10 requests. | 翻訳日:2023-06-13 17:46:36 公開日:2023-06-11 |
# 界面活性剤ミセル水溶液における古典力学と量子力学の関係 Relationship between classical and quantum mechanics in micellar aqueous solutions of surfactants ( http://arxiv.org/abs/2306.06618v1 ) ライセンス: Link先を確認 | Partha Ghose and Yuri Mirgorod | (参考訳) イオン性界面活性剤のミセル水溶液は、プロトン脱局在(核量子効果)を示し、水の状態の低密度(LDL)と高密度(HDL)状態の間を一定温度で振動する。
このような現象は、ghose (ghose, 2002) によって提唱された補間式 schr\"odinger の助けを借りて説明できることを示した。
核量子効果は対称二重井戸ポテンシャルにおける調和振動子のトンネル化によって説明でき、調和振動子のアンサンブルはDLL-HDL振動をモデル化することができる。
このような調和振動子の熱力学は、量子と古典的極限の間の連続的な遷移を示す。 Micellar aqueous solutions of ionic surfactants have been observed to exhibit proton delocalization (the nuclear quantum effect) and to oscillate between a low density (LDL) and a high density (HDL) state of water state at a fixed temperature. It is shown in this paper that such phenomena can be explained with the help of the interpolating Schr\"odinger equation proposed by Ghose (Ghose, 2002). The nuclear quantum effect can be described by the tunneling of a harmonic oscillator in a symmetric double-well potential, and an ensemble of harmonic oscillators can model the LDL-HDL oscillations. The thermodynamics of such harmonic oscillators has been worked out showing continuous transitions between the quantum and classical limits. | 翻訳日:2023-06-13 17:46:05 公開日:2023-06-11 |
# 大規模言語モデルを用いた分子キャプション翻訳のための分子探索 Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective ( http://arxiv.org/abs/2306.06615v1 ) ライセンス: Link先を確認 | Jiatong Li, Yunqing Liu, Wenqi Fan, Xiao-Yong Wei, Hui Liu, Jiliang Tang, and Qing Li | (参考訳) 分子発見は様々な科学分野において重要な役割を担い、調整された材料や薬物の設計を進めた。
従来の分子発見法は、時間とコストの両方がかかる試行錯誤プロセスに従っているが、人工知能(AI)のような計算手法は、分子キャプション翻訳のような様々なタスクを高速化するための革命的なツールとして登場した。
分子発見のための分子カプセル翻訳の重要性にもかかわらず、既存の手法の多くはドメインの専門家に大きく依存しており、過剰な計算コストを必要とし、性能の低下に悩まされている。
一方、chatgptのような大規模言語モデル(llm)は、自然言語理解、一般化、推論における強力な能力により、様々なクロスモーダルタスクにおいて顕著な性能を示しており、分子の発見を前進させる前例のない機会を提供している。
そこで本研究では,分子キャプション変換のための新しいLLMベースのフレームワーク(\textbf{MolReGPT})を提案する。
より具体的には、MollReGPTは分子類似性の原理を利用して、類似した分子とそれらのテキスト記述をローカルデータベースから取得し、コンテキスト内数発の分子学習を通じてLLMの生成を基盤とする。
分子理解とテキストベースの分子生成を含む分子キャプション変換によるMollReGPTの有効性を評価する。
実験結果から、MollReGPTは追加トレーニングなしでMollT5ベースのような微調整モデルよりも優れた性能を示した。
私たちの知る限りでは、MollReGPTは分子キャプション翻訳のLLMを分子発見の進歩に活用する最初の研究である。 Molecule discovery plays a crucial role in various scientific fields, advancing the design of tailored materials and drugs. Traditional methods for molecule discovery follow a trial-and-error process, which are both time-consuming and costly, while computational approaches such as artificial intelligence (AI) have emerged as revolutionary tools to expedite various tasks, like molecule-caption translation. Despite the importance of molecule-caption translation for molecule discovery, most of the existing methods heavily rely on domain experts, require excessive computational cost, and suffer from poor performance. On the other hand, Large Language Models (LLMs), like ChatGPT, have shown remarkable performance in various cross-modal tasks due to their great powerful capabilities in natural language understanding, generalization, and reasoning, which provides unprecedented opportunities to advance molecule discovery. To address the above limitations, in this work, we propose a novel LLMs-based framework (\textbf{MolReGPT}) for molecule-caption translation, where a retrieval-based prompt paradigm is introduced to empower molecule discovery with LLMs like ChatGPT without fine-tuning. More specifically, MolReGPT leverages the principle of molecular similarity to retrieve similar molecules and their text descriptions from a local database to ground the generation of LLMs through in-context few-shot molecule learning. We evaluate the effectiveness of MolReGPT via molecule-caption translation, which includes molecule understanding and text-based molecule generation. Experimental results show that MolReGPT outperforms fine-tuned models like MolT5-base without any additional training. To the best of our knowledge, MolReGPT is the first work to leverage LLMs in molecule-caption translation for advancing molecule discovery. | 翻訳日:2023-06-13 17:45:53 公開日:2023-06-11 |
# 強凸関数に対する適応勾配法のパラメータフリーバージョン Parameter-free version of Adaptive Gradient Methods for Strongly-Convex Functions ( http://arxiv.org/abs/2306.06613v1 ) ライセンス: Link先を確認 | Deepak Gouda, Hassan Naveed, Salil Kamath | (参考訳) 適応勾配法を強凸関数に適用する最適学習率はパラメータ {\lambda} と学習率 {\eta} に依存する。
本稿では,メタグレードの行に沿って普遍的なアルゴリズムを適用し,この依存性を解消する。
主なアイデアは、複数の専門家を同時に実行し、予測をマスタアルゴリズムと組み合わせることである。
このマスターは O(d log T) の後悔境界を楽しむ。 The optimal learning rate for adaptive gradient methods applied to {\lambda}-strongly convex functions relies on the parameters {\lambda} and learning rate {\eta}. In this paper, we adapt a universal algorithm along the lines of Metagrad, to get rid of this dependence on {\lambda} and {\eta}. The main idea is to concurrently run multiple experts and combine their predictions to a master algorithm. This master enjoys O(d log T) regret bounds. | 翻訳日:2023-06-13 17:45:20 公開日:2023-06-11 |
# CountSketchにおける位置学習 Learning the Positions in CountSketch ( http://arxiv.org/abs/2306.06611v1 ) ライセンス: Link先を確認 | Yi Li, Honghao Lin, Simin Liu, Ali Vakilian, David P. Woodruff | (参考訳) まず、ランダムなスケッチ行列と乗算してデータを圧縮し、次にそのスケッチを適用して最適化問題(例えば、低ランク近似や回帰)を高速に解く。
~\cite{indyk2019learning}によって提案された学習ベースのスケッチパラダイムでは、ランダムなスパース行列、例えばcountsketchを選択してスケッチ行列を見つけ、その非ゼロエントリの値は、トレーニングデータセット上で勾配降下を実行することで更新される。
このパラダイムへの取り組みが増えているにもかかわらず、注目すべきは、以前のアルゴリズムのゼロでないエントリの位置が固定され、その値のみが学習されたことである。
本研究では,非ゼロエントリの位置を最適化する最初の学習ベースアルゴリズムを提案する。
最初の提案アルゴリズムは欲望アルゴリズムに基づく。
しかし、greedyアルゴリズムの欠点のひとつは、トレーニング時間が遅いことだ。
本稿では,2次最適化のための低ランク近似とヘッセン近似の両方に対するスケッチ行列の学習手法を提案する。
後者は、LASSOや核ノルム制約による行列推定など、様々な制約付き最適化問題に有用である。
どちらのアプローチも高速な実行時間で精度が良い。
さらに,本実験では,訓練行列数が極めて少ない場合でも,アルゴリズムが誤差を大幅に低減できることを示した。 We consider sketching algorithms which first compress data by multiplication with a random sketch matrix, and then apply the sketch to quickly solve an optimization problem, e.g., low-rank approximation and regression. In the learning-based sketching paradigm proposed by~\cite{indyk2019learning}, the sketch matrix is found by choosing a random sparse matrix, e.g., CountSketch, and then the values of its non-zero entries are updated by running gradient descent on a training data set. Despite the growing body of work on this paradigm, a noticeable omission is that the locations of the non-zero entries of previous algorithms were fixed, and only their values were learned. In this work, we propose the first learning-based algorithms that also optimize the locations of the non-zero entries. Our first proposed algorithm is based on a greedy algorithm. However, one drawback of the greedy algorithm is its slower training time. We fix this issue and propose approaches for learning a sketching matrix for both low-rank approximation and Hessian approximation for second order optimization. The latter is helpful for a range of constrained optimization problems, such as LASSO and matrix estimation with a nuclear norm constraint. Both approaches achieve good accuracy with a fast running time. Moreover, our experiments suggest that our algorithm can still reduce the error significantly even if we only have a very limited number of training matrices. | 翻訳日:2023-06-13 17:45:11 公開日:2023-06-11 |
# ベイズ原子時計のロック Bayesian atomic clock locking ( http://arxiv.org/abs/2306.06608v1 ) ライセンス: Link先を確認 | Chengyin Han, Zhu Ma, Yuxiang Qiu, Ruihuan Fang, Jiatao Wu, Chang Zhan, Maojie Li, Jiahao Huang, Bo Lu and Chaohong Lee | (参考訳) 最先端の原子時計は、基礎科学と実用技術の両方において重要な位置を占める。
一般に、それらの安定性は標準量子極限によって制限され、粒子番号$N$または$/\sqrt{T}$の点で1/\sqrt{N}$にスケールする。
一方で、n$のスケールが量子絡み合いを用いることで改善できることはよく知られている。
一方、よく設計されたベイズ推定を用いて、$T$のスケーリングを改善することができる。
本稿では,冷原子コヒーレント分布トラッピングクロックに対する適応ベイズ周波数推定アルゴリズムの設計により,ハイゼンベルク制限感度を実証し,クロック遷移周波数の高精度ロックを実現する。
ハイゼンベルク制限感度の利点により、分数周波数の安定性は従来のロックの6倍の4.2\times10^{-12}/\sqrt{\tau}$に向上した。
我々の研究は原子時計のロックの代替手段を提供するだけでなく、量子磁気計や原子干渉計といった他の量子センサーにも有望な応用を提供する。 State-of-the-art atomic clocks occupy a crucial position in both fundamental science and practical technology. Generally, their stability is limited by the standard quantum limit, which scales as $1/\sqrt{N}$ in terms of the particle number $N$ or $1/\sqrt{T}$ in terms of the interrogation time $T$. On one hand, it is well-known that the scaling in terms of $N$ can be improved by employing quantum entanglement. On the other hand, the scaling in terms of $T$ can be improved by using well-designed Bayesian estimation. Here, by designing an adaptive Bayesian frequency estimation algorithm for a cold-atom coherent-population-trapping clock, we demonstrate the Heisenberg-limited sensitivity and achieve high-precision locking of the clock transition frequency. Benefit from the Heisenberg-limited sensitivity, the fractional frequency stability is improved to $4.2\times10^{-12}/\sqrt{\tau}$, which is 6 times better than that of the conventional locking. Our work not only gives an alternative way to lock atomic clocks, but also provides promising applications in other quantum sensors, such as, quantum magnetometers and atomic interferometers. | 翻訳日:2023-06-13 17:44:48 公開日:2023-06-11 |
# 子どものストーリーブックから多様かつ効果的な質問・回答ペア生成へ向けて Towards Diverse and Effective Question-Answer Pair Generation from Children Storybooks ( http://arxiv.org/abs/2306.06605v1 ) ライセンス: Link先を確認 | Sugyeong Eo, Hyeonseok Moon, Jinsung Kim, Yuna Hur, Jeongwook Kim, Songeun Lee, Changwoo Chun, Sungsoo Park, Heuiseok Lim | (参考訳) QAペア生成(QAG)の最近の進歩は、この技術を教育分野に適用することに関心を寄せている。
しかし,QA型の多様性は,包括的学習や子どもの評価への貢献にもかかわらず,依然として課題である。
本稿では,質問文と暗黙的/明示的回答を生成することにより,QA型の多様性を高めるQAGフレームワークを提案する。
本フレームワークは,QFSベースの応答生成器,繰り返しQA生成器,関連性を考慮したランカを備える。
2つのジェネレータは、様々なタイプをカバーしながら候補数を拡大することを目指している。
文脈内負のサンプルに基づいてトレーニングされたランク付け者は、ランキングスコアに基づいてトップN出力を明確化する。
広範囲な評価と詳細な分析により,本手法は従来の最先端の成果よりも大きなマージンを達成し,多様性と品質の向上を実現していることが示された。
タスク指向のプロセスは現実の需要と一致しており、システムの高い適用性を強調します。 Recent advances in QA pair generation (QAG) have raised interest in applying this technique to the educational field. However, the diversity of QA types remains a challenge despite its contributions to comprehensive learning and assessment of children. In this paper, we propose a QAG framework that enhances QA type diversity by producing different interrogative sentences and implicit/explicit answers. Our framework comprises a QFS-based answer generator, an iterative QA generator, and a relevancy-aware ranker. The two generators aim to expand the number of candidates while covering various types. The ranker trained on the in-context negative samples clarifies the top-N outputs based on the ranking score. Extensive evaluations and detailed analyses demonstrate that our approach outperforms previous state-of-the-art results by significant margins, achieving improved diversity and quality. Our task-oriented processes are consistent with real-world demand, which highlights our system's high applicability. | 翻訳日:2023-06-13 17:44:25 公開日:2023-06-11 |
# Venn-Aber を用いた高い校正確率予測 Well-Calibrated Probabilistic Predictive Maintenance using Venn-Abers ( http://arxiv.org/abs/2306.06642v1 ) ライセンス: Link先を確認 | Ulf Johansson, Tuwe L\"ofstr\"om, and Cecilia S\"onstr\"od | (参考訳) フォールト検出に機械学習を使用する場合、ほとんどのデータセットは非常に不均衡であり、少数派(フォールト)が興味深いという事実が一般的な問題である。
本稿では,venn-abers予測器の使用状況を調査し,マイノリティクラス予測への影響について考察する。
Venn-Abers予測器の鍵となる性質は、よく校正された確率区間を出力することである。
実験では、Venn-Abersキャリブレーションを決定木、ランダム森林、XGBoostモデルに適用し、過信モデルと過信モデルの両方の補正方法を示す。
また,Venn-Abers が生成した確率区間を意思決定支援に用いる利点を示す。
ランダムフォレストやxgboostといった不透明なモデルを生成する手法を使用する場合、各予測はラベルだけでなく、幅が推定の信頼度を示す有効な確率区間も含む。
決定木の上にVenn-Aberを追加することで、モデルのインスペクションと分析が可能になり、両方の基盤となる関係を理解し、モデルが正確かつ/または自信のある機能空間のどの部分かを見つけることができる。 When using machine learning for fault detection, a common problem is the fact that most data sets are very unbalanced, with the minority class (a fault) being the interesting one. In this paper, we investigate the usage of Venn-Abers predictors, looking specifically at the effect on the minority class predictions. A key property of Venn-Abers predictors is that they output well-calibrated probability intervals. In the experiments, we apply Venn-Abers calibration to decision trees, random forests and XGBoost models, showing how both overconfident and underconfident models are corrected. In addition, the benefit of using the valid probability intervals produced by Venn-Abers for decision support is demonstrated. When using techniques producing opaque underlying models, e.g., random forest and XGBoost, each prediction will consist of not only the label, but also a valid probability interval, where the width is an indication of the confidence in the estimate. Adding Venn-Abers on top of a decision tree allows inspection and analysis of the model, to understand both the underlying relationship, and finding out in which parts of feature space that the model is accurate and/or confident. | 翻訳日:2023-06-13 17:38:41 公開日:2023-06-11 |
# Face0: 瞬時に顔にテキスト-画像モデルを設定する Face0: Instantaneously Conditioning a Text-to-Image Model on a Face ( http://arxiv.org/abs/2306.06638v1 ) ライセンス: Link先を確認 | Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan | (参考訳) 提案するface0は,ファインチューニングやインバージョンなどの最適化手順を必要とせず,テキスト対画像生成モデルをサンプル時間に瞬時に条件付けする新しい手法である。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
一度トレーニングすると、システムは基本的に、基礎となるベースモデルと推論時に同一であり、ユーザから供給された顔画像とプロンプトから、わずか数秒で画像を生成することができる。
提案手法は,非常にシンプルで,非常に高速で,テキストによる生成画像制御や入力面埋め込みの直接操作など,基礎となるモデルに新たな機能を備えている。
さらに,ユーザが提供する画像からの顔埋め込みの代わりに固定ランダムベクトルを使用する場合,本手法は画像間の一貫した文字生成の問題を本質的に解決する。
最後に、さらなる研究を要しながら、このモデルのテキストバイアスを顔へのバイアスから分離する手法が、将来のテキスト対画像モデルのバイアス緩和に向けた一歩となることを期待する。 We present Face0, a novel way to instantaneously condition a text-to-image generation model on a face, in sample time, without any optimization procedures such as fine-tuning or inversions. We augment a dataset of annotated images with embeddings of the included faces and train an image generation model, on the augmented dataset. Once trained, our system is practically identical at inference time to the underlying base model, and is therefore able to generate images, given a user-supplied face image and a prompt, in just a couple of seconds. Our method achieves pleasing results, is remarkably simple, extremely fast, and equips the underlying model with new capabilities, like controlling the generated images both via text or via direct manipulation of the input face embeddings. In addition, when using a fixed random vector instead of a face embedding from a user supplied image, our method essentially solves the problem of consistent character generation across images. Finally, while requiring further research, we hope that our method, which decouples the model's textual biases from its biases on faces, might be a step towards some mitigation of biases in future text-to-image models. | 翻訳日:2023-06-13 17:38:18 公開日:2023-06-11 |
# PACER: 完全プッシュフォワード型分散強化学習アルゴリズム PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm ( http://arxiv.org/abs/2306.06637v1 ) ライセンス: Link先を確認 | Wensong Bai, Chao Zhang, Yichao Fu, Lingwei Peng, Hui Qian, Bin Dai | (参考訳) 本稿では,Push-forward-based Actor-Critic EncourageR (PACER) と呼ばれる,Push-forward-based Distributional Reinforcement Learning アルゴリズムを提案する。
具体的には、PACERは確率的効用値ポリシー勾配定理を確立し、アクターと批評家の両方の構築においてプッシュフォワード演算子を同時に活用する。
さらに, 最大平均誤差 (MMD) に基づいて, 探索のインセンティブを高めるために, 新しいサンプルベース促進剤が設計された。
各種連続制御ベンチマークの実験的評価により,最先端のアルゴリズムが優れていることが示された。 In this paper, we propose the first fully push-forward-based Distributional Reinforcement Learning algorithm, called Push-forward-based Actor-Critic EncourageR (PACER). Specifically, PACER establishes a stochastic utility value policy gradient theorem and simultaneously leverages the push-forward operator in the construction of both the actor and the critic. Moreover, based on maximum mean discrepancies (MMD), a novel sample-based encourager is designed to incentivize exploration. Experimental evaluations on various continuous control benchmarks demonstrate the superiority of our algorithm over the state-of-the-art. | 翻訳日:2023-06-13 17:37:58 公開日:2023-06-11 |
# 2次元ssm:視覚トランスフォーマーのための一般空間層 2-D SSM: A General Spatial Layer for Visual Transformers ( http://arxiv.org/abs/2306.06635v1 ) ライセンス: Link先を確認 | Ethan Baron, Itamar Zimerman, Lior Wolf | (参考訳) コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
2次元誘導バイアスのためのデシラタは、2次元位置認識、動的空間的局所性、翻訳と置換不変性を含む。
これらの目的を達成するために,多次元状態空間モデル(SSM)の表現的変動を利用する。
提案手法は,効率的なパラメータ化,高速化計算,適切な正規化スキームを導入する。
ViT(Vision Transformers)の各トランスブロックの先頭に私たちのレイヤを組み込むことで、複数のViTバックボーンとデータセット間のパフォーマンスが大幅に向上する。
新しいレイヤは、追加パラメータと推論時間の無視可能な量でも有効である。
アブレーションの研究と可視化は、層が強い2次元誘導バイアスを持つことを示した。
例えば、我々の層を備えた視覚トランスフォーマは、位置符号化なしでも効果的な性能を示す A central objective in computer vision is to design models with appropriate 2-D inductive bias. Desiderata for 2D inductive bias include two-dimensional position awareness, dynamic spatial locality, and translation and permutation invariance. To address these goals, we leverage an expressive variation of the multidimensional State Space Model (SSM). Our approach introduces efficient parameterization, accelerated computation, and a suitable normalization scheme. Empirically, we observe that incorporating our layer at the beginning of each transformer block of Vision Transformers (ViT) significantly enhances performance for multiple ViT backbones and across datasets. The new layer is effective even with a negligible amount of additional parameters and inference time. Ablation studies and visualizations demonstrate that the layer has a strong 2-D inductive bias. For example, vision transformers equipped with our layer exhibit effective performance even without positional encoding | 翻訳日:2023-06-13 17:37:49 公開日:2023-06-11 |
# メタラーニングによる適応型マルチ教師知識蒸留 Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning ( http://arxiv.org/abs/2306.06634v1 ) ライセンス: Link先を確認 | Hailin Zhang, Defang Chen, Can Wang | (参考訳) マルチ教師の知識蒸留は、学生に様々な情報ソースを持つ複数の事前訓練された教師のさらなる監督を提供する。
既存の方法の多くは、強力なアンサンブル教師を得るための異なる重み付け戦略を探求するが、学習能力の乏しい生徒を無視することは、そのような専門的な知識の恩恵を受けない。
そこで本稿では,メタラーニングによる適応型多教師知識蒸留(MMKD)を提案する。
メタウェイトネットワークの助けを借りて、出力層と中間層における多様な相性のある教師の知識を共同で活用し、生徒のパフォーマンスを向上させる。
複数のベンチマークデータセットに対する大規模な実験は、我々の方法の有効性と柔軟性を検証する。
コードはhttps://github.com/rorozhl/mmkd。 Multi-Teacher knowledge distillation provides students with additional supervision from multiple pre-trained teachers with diverse information sources. Most existing methods explore different weighting strategies to obtain a powerful ensemble teacher, while ignoring the student with poor learning ability may not benefit from such specialized integrated knowledge. To address this problem, we propose Adaptive Multi-teacher Knowledge Distillation with Meta-Learning (MMKD) to supervise student with appropriate knowledge from a tailored ensemble teacher. With the help of a meta-weight network, the diverse yet compatible teacher knowledge in the output layer and intermediate layers is jointly leveraged to enhance the student performance. Extensive experiments on multiple benchmark datasets validate the effectiveness and flexibility of our methods. Code is available: https://github.com/Rorozhl/MMKD. | 翻訳日:2023-06-13 17:37:37 公開日:2023-06-11 |
# 全光神経ネットワークの役割 The role of all-optical neural networks ( http://arxiv.org/abs/2306.06632v1 ) ライセンス: Link先を確認 | Matuszewski Micha{\l}, Prystupiuk Adam, Opala Andrzej | (参考訳) 光コンピューティングと機械学習における最近の業績を踏まえ、エネルギー効率とスケーラビリティの観点から、全光コンピューティングが電子および光電子コンピューティングを上回る条件について考察する。
システム全体としての性能を考慮すると、メモリアクセスとデータ取得のコストは、電子だけでなく、光電子デバイスや全光デバイスでも主要な効率ボトルネックの1つになりがちである。
しかし、大きなニューラルネットワークモデルでは、全光学デバイスが推論において有利になり、生成モデルでは特に有利になると予想する。
また、足跡、非線形性の強さ、光信号劣化、計算精度の制限、量子ノイズを含む全光ニューラルネットワークの限界についても考察する。 In light of recent achievements in optical computing and machine learning, we consider the conditions under which all-optical computing may surpass electronic and optoelectronic computing in terms of energy efficiency and scalability. When considering the performance of a system as a whole, the cost of memory access and data acquisition is likely to be one of the main efficiency bottlenecks not only for electronic, but also for optoelectronic and all-optical devices. However, we predict that all-optical devices will be at an advantage in the case of inference in large neural network models, and the advantage will be particularly large in the case of generative models. We also consider the limitations of all-optical neural networks including footprint, strength of nonlinearity, optical signal degradation, limited precision of computations, and quantum noise. | 翻訳日:2023-06-13 17:37:16 公開日:2023-06-11 |
# 制約付き擬似定置論理の解法 Resolution for Constrained Pseudo-Propositional Logic ( http://arxiv.org/abs/2306.06630v1 ) ライセンス: Link先を確認 | Ahmad-Saher Azizi-Sultan | (参考訳) 本研究は,制約付き擬似命題論理(CPPL)の解決証明システムを実現するために,命題論理のアルファベットに制約の少ない自然数を挿入し,それに応じて下記言語を調整することによって,命題分解を一般化する方法を示す。
有限個の節に制限された CNF の公式の構成とは異なり、拡張された CPPL は対応する集合を有限とする必要はない。
この制限は適用可能であるが、CPPLの一般解法が健全かつ完全であることを示す構成的証明を示す。
余分な結果として、命題分解もまた、無限個の節からなる公式に対して健全で完備であることを意味する。 This work, shows how propositional resolution can be generalized to obtain a resolution proof system for constrained pseudo-propositional logic (CPPL), which is an extension resulted from inserting the natural numbers with few constraints symbols into the alphabet of propositional logic and adjusting the underling language accordingly. Unlike the construction of CNF formulas which are restricted to a finite set of clauses, the extended CPPL does not require the corresponding set to be finite. Although this restriction is made dispensable, this work presents a constructive proof showing that the generalized resolution for CPPL is sound and complete. As a marginal result, this implies that propositional resolution is also sound and complete for formulas with even infinite set of clauses. | 翻訳日:2023-06-13 17:36:52 公開日:2023-06-11 |
# GKD:大規模事前学習型言語モデルのための一般知識蒸留フレームワーク GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model ( http://arxiv.org/abs/2306.06629v1 ) ライセンス: Link先を確認 | Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Yang Yang, Hongyin Tang, Keqing He, Jiahao Liu, Jingang Wang, Shu Zhao, Peng Zhang, Jie Tang | (参考訳) 現在、知識蒸留による大規模事前学習言語モデル(PLM)のパラメータスケールの縮小は、様々なデバイスへの展開を大いに促進している。
しかし、知識蒸留システムの展開は、より大規模なPLM(10B以上)に複雑な蒸留法を応用し、GPU上のメモリや方法の切り替えによって制限される、実世界の産業力の応用において大きな課題に直面している。
これらの課題を克服するために,様々な蒸留法を用いて大規模PLMの蒸留を支援する一般知識蒸留フレームワークGKDを提案する。
GKDを使用することで、開発者はメモリ制限されたGPU上でより大きな蒸留モデルを構築することができ、単一のフレームワーク内で異なる蒸留方法を簡単に切り替えて組み合わせることができる。
実験結果から,GKDは8個のNVIDIA A100 (40GB) GPU上で,少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることが示された。 Currently, the reduction in the parameter scale of large-scale pre-trained language models (PLMs) through knowledge distillation has greatly facilitated their widespread deployment on various devices. However, the deployment of knowledge distillation systems faces great challenges in real-world industrial-strength applications, which require the use of complex distillation methods on even larger-scale PLMs (over 10B), limited by memory on GPUs and the switching of methods. To overcome these challenges, we propose GKD, a general knowledge distillation framework that supports distillation on larger-scale PLMs using various distillation methods. With GKD, developers can build larger distillation models on memory-limited GPUs and easily switch and combine different distillation methods within a single framework. Experimental results show that GKD can support the distillation of at least 100B-scale PLMs and 25 mainstream methods on 8 NVIDIA A100 (40GB) GPUs. | 翻訳日:2023-06-13 17:36:18 公開日:2023-06-11 |
# 不等式制約付き収縮理論 Contraction Theory with Inequality Constraints ( http://arxiv.org/abs/2306.06628v1 ) ライセンス: Link先を確認 | Winfried Lohmiller, Jean-Jacques Slotine | (参考訳) 本稿では非線形力学系の連続収縮理論を非線形不等式制約を持つ系に拡張する。
これは、制約された力学の収縮挙動が元の収縮定理[4]から系の力学の共変微分と活性不等式制約の2番目の共変微分によって与えられることを示している。
現実的な応用としては、操作エンベロープに制約されたコントローラ、動く障害物を伴う軌道制御、量子力学の単一および2つのスリット実験の古典的なラグランジアン解釈などがある。 This paper extends continuous contraction theory of nonlinear dynamical systems to systems with nonlinear inequality constraints. It shows that the contraction behaviour of the constrained dynamics is given by the covariant derivative of the system dynamics from the original contraction theorem [4], plus the second covariant derivative of the active inequality constraint. Practical applications include controllers constrained to an operational envelope, trajectory control with moving obstacles, and a classical Lagrangian interpretation of the single and two slit experiments of quantum mechanics. | 翻訳日:2023-06-13 17:35:59 公開日:2023-06-11 |
# 生成モデルに対する最適確率経路について On Kinetic Optimal Probability Paths for Generative Models ( http://arxiv.org/abs/2306.06626v1 ) ライセンス: Link先を確認 | Neta Shaul, Ricky T. Q. Chen, Maximilian Nickel, Matt Le, Yaron Lipman | (参考訳) 最近の成功した生成モデルは、訓練例にノイズを取り込むa-prioriの定義された確率密度経路にニューラルネットワークを適合させることによって訓練される。
本稿では,拡散経路を例に含むガウス確率経路の空間を考察し,ある有用な意味での最適成分を求める。
特に、経路の運動エネルギー(KE)を最小化することは、粒子の軌道をシンプルにし、サンプリングしやすくし、見当たらないデータやサンプル生成品質の可能性を経験的に改善することが知られている。
運動最適(KO)ガウス経路について検討し、以下の観察結果を示す。
i) KE はガウスパスの空間上で単純化された形式をとっており、そこではデータは 1 次元スカラー関数によってのみ取り込まれ、これは \emph{data separation function} と呼ばれる。
(II) 1次元ODEで KO 解を特徴づける。
3)データ分離関数を近似し,KEを最小化することにより,データ依存の KO 経路を近似する。
(iv) 任意の正規化データセットにおいて、データ分離関数が$n/\sqrt{d}\rightarrow 0$ として$d$次元で$n$ のサンプルからなる場合、$$$ に収束することを証明する。
その結果、条件付き最適輸送路 (cond-ot) は $n/\sqrt{d}\rightarrow 0$ として \emph{kinetic optimal} となる。
我々はimagenetの実証実験により、この理論をさらに支持する。 Recent successful generative models are trained by fitting a neural network to an a-priori defined tractable probability density path taking noise to training examples. In this paper we investigate the space of Gaussian probability paths, which includes diffusion paths as an instance, and look for an optimal member in some useful sense. In particular, minimizing the Kinetic Energy (KE) of a path is known to make particles' trajectories simple, hence easier to sample, and empirically improve performance in terms of likelihood of unseen data and sample generation quality. We investigate Kinetic Optimal (KO) Gaussian paths and offer the following observations: (i) We show the KE takes a simplified form on the space of Gaussian paths, where the data is incorporated only through a single, one dimensional scalar function, called the \emph{data separation function}. (ii) We characterize the KO solutions with a one dimensional ODE. (iii) We approximate data-dependent KO paths by approximating the data separation function and minimizing the KE. (iv) We prove that the data separation function converges to $1$ in the general case of arbitrary normalized dataset consisting of $n$ samples in $d$ dimension as $n/\sqrt{d}\rightarrow 0$. A consequence of this result is that the Conditional Optimal Transport (Cond-OT) path becomes \emph{kinetic optimal} as $n/\sqrt{d}\rightarrow 0$. We further support this theory with empirical experiments on ImageNet. | 翻訳日:2023-06-13 17:35:40 公開日:2023-06-11 |
# 天体物理学による量子コヒーレント光信号 Astrophysically sourced quantum coherent photonic signals ( http://arxiv.org/abs/2306.06676v1 ) ライセンス: Link先を確認 | Arjun Berera, Jaime Calder\'on-Figueroa, Liang Chen, and Thomas W. Kephart | (参考訳) 恒星の放出は強いことが示されている。
ボース強化により、レーザーに似た一色光子の量子状態を生成する。
そのような状態を作る確率は計算される。
太陽コロナから、このような量子状態は、太陽圏外や太陽系内を脱コヒーレンスなしで伝播することを示した。
太陽から地球までの距離にある1ドルの {\rm m}^2$検出器では、数秒間にそのような量子状態の速度を推定するので、潜在的に検出可能である。
同じ過程は、恒星間距離の恒星からもそのような量子状態をもたらすはずである。 Stimulated emission is shown to be robust in stars. Through Bose enhancement this produces quantum states of aligned, monochromatic photons similar to a laser. The probability of creating such states is computed. We show that from the solar corona such quantum states would propagate outside of the solar region and through the Solar System without decoherence. For a $1 {\rm m}^2$ detector at the distance of the Earth from the Sun we estimate rates of such quantum states in the few per second thus potentially detectable. The same process should lead to such quantum states also arriving from stars at interstellar distances. | 翻訳日:2023-06-13 17:27:49 公開日:2023-06-11 |
# 近似制約最適化のための自己教師付きEquality Embedded Deep Lagrange Dual Self-supervised Equality Embedded Deep Lagrange Dual for Approximate Constrained Optimization ( http://arxiv.org/abs/2306.06674v1 ) ライセンス: Link先を確認 | Minsoo kim, Hongseok Kim | (参考訳) 従来の解法はしばしば、特に大規模かつ時間クリティカルな問題において、制約付き最適化のために計算コストがかかる。
これにより、ニューラルネットワーク(NN)を高速な最適解近似器として使用することへの関心が高まっているが、NNに制約を組み込むことは難しい。
そこで本研究では,ラベルを使わずに最適解を見つけることを学ぶフレームワークdeep lagrange dual with equal embedded (deeplde)を提案する。
実現可能なソリューションを確保するため、NNに等価性制約を組み込み、未等式制約を課すために原始双対法を用いてNNを訓練する。
さらに,DeepLDEの収束性を証明し,本手法だけでは等式埋め込みの助けなしには等式制約を保証できないことを示す。
コンベックス,非凸,AC最適電力流(AC-OPF)問題に関するシミュレーション結果から,提案したDeepLDEはNNベースの全アプローチの中で最小の最適性ギャップを達成でき,かつ常に実現可能な解を確保できることを示す。
さらに,制約付き凸,非凸最適化,ac-opfの解法において,提案手法の計算時間はdc3および従来の解法に比べて約5~250倍高速である。 Conventional solvers are often computationally expensive for constrained optimization, particularly in large-scale and time-critical problems. While this leads to a growing interest in using neural networks (NNs) as fast optimal solution approximators, incorporating the constraints with NNs is challenging. In this regard, we propose deep Lagrange dual with equality embedding (DeepLDE), a framework that learns to find an optimal solution without using labels. To ensure feasible solutions, we embed equality constraints into the NNs and train the NNs using the primal-dual method to impose inequality constraints. Furthermore, we prove the convergence of DeepLDE and show that the primal-dual learning method alone cannot ensure equality constraints without the help of equality embedding. Simulation results on convex, non-convex, and AC optimal power flow (AC-OPF) problems show that the proposed DeepLDE achieves the smallest optimality gap among all the NN-based approaches while always ensuring feasible solutions. Furthermore, the computation time of the proposed method is about 5 to 250 times faster than DC3 and the conventional solvers in solving constrained convex, non-convex optimization, and/or AC-OPF. | 翻訳日:2023-06-13 17:27:40 公開日:2023-06-11 |
# 自己監督型学習へのバリアの削減: アカデミックコンピューティングによるHumberT事前学習 Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute ( http://arxiv.org/abs/2306.06672v1 ) ライセンス: Link先を確認 | William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti, Shinji Watanabe | (参考訳) 自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、スケールし続けるにつれて、違法に大きくなる。
現在、SSLモデルを作成することができるリソースを持つグループはごくわずかであり、再現性に悪影響を及ぼす。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
我々はHuBERTをオリジナルの実装とは独立して再現する。
コードとトレーニングの最適化により、SSLはオリジナルの作業で使用されている32ではなく、たった8つのGPUで実現できます。
また、ASRモデルを用いて、最初の事前学習イテレーションをスキップする半教師付き経路についても検討する。
事前トレーニングの1イテレーションで、我々のモデルはいくつかのタスクにおいて HuBERT よりも改善される。
さらに、私たちのHuBERT Large variantは8GPUしか必要とせず、128でトレーニングされたオリジナルと同じようなパフォーマンスを実現しています。
コミュニティへの貢献として、すべてのモデル、構成、コードはespnetでオープンソースにされています。 Self-supervised learning (SSL) has led to great strides in speech processing. However, the resources needed to train these models has become prohibitively large as they continue to scale. Currently, only a few groups with substantial resources are capable of creating SSL models, which harms reproducibility. In this work, we optimize HuBERT SSL to fit in academic constraints. We reproduce HuBERT independently from the original implementation, with no performance loss. Our code and training optimizations make SSL feasible with only 8 GPUs, instead of the 32 used in the original work. We also explore a semi-supervised route, using an ASR model to skip the first pre-training iteration. Within one iteration of pre-training, our models improve over HuBERT on several tasks. Furthermore, our HuBERT Large variant requires only 8 GPUs, achieving similar performance to the original trained on 128. As our contribution to the community, all models, configurations, and code are made open-source in ESPnet. | 翻訳日:2023-06-13 17:27:18 公開日:2023-06-11 |
# TransMRSR:脳MRI超解像に先立つトランスフォーマーを用いた自己拡張型生成 TransMRSR: Transformer-based Self-Distilled Generative Prior for Brain MRI Super-Resolution ( http://arxiv.org/abs/2306.06669v1 ) ライセンス: Link先を確認 | Shan Huang, Xiaohong Liu, Tao Tan, Menghan Hu, Xiaoer Wei, Tingli Chen, Bin Sheng | (参考訳) 磁気共鳴画像(MRI)は低分解能時間とコストで取得される。
脳疾患の早期診断と形態計測研究のための高解像度の要求を満たすには、一方の方向の分解能が不十分である。
1)局所的および大域的解剖学的構造情報の組み合わせ,(2)高分解能(HR)アイソトロピーデータへの高分解能MRI再構成に応用された大規模復元の2つの課題に直面する。
これらの問題に対処するため,脳MRI SR のための新しい2段階ネットワーク TransMRSR を提案する。
TransMRSRは、浅部局所特徴抽出、深部非局所特徴キャプチャ、HR画像再構成の3つのモジュールで構成されている。
第1段階では,深部非局所特徴キャプチャー部のデコーダサブモジュールである生成ネットワーク(GAN)に,様々な先行情報をカプセル化するための生成タスクを実行する。
事前訓練されたGANは、SRタスクの第2段階で使用される。
さらに,2段階のトレーニング戦略によって生じる潜在空間シフトを,自己蒸留式トランケーショントリックにより除去する。
本手法は,パブリックデータセットとプライベートデータセットの両方において,他のSSIR手法よりも優れた性能を示す。
コードはhttps://github.com/goddesshs/transmrsr.gitでリリースされる。 Magnetic resonance images (MRI) acquired with low through-plane resolution compromise time and cost. The poor resolution in one orientation is insufficient to meet the requirement of high resolution for early diagnosis of brain disease and morphometric study. The common Single image super-resolution (SISR) solutions face two main challenges: (1) local detailed and global anatomical structural information combination; and (2) large-scale restoration when applied for reconstructing thick-slice MRI into high-resolution (HR) iso-tropic data. To address these problems, we propose a novel two-stage network for brain MRI SR named TransMRSR based on the convolutional blocks to extract local information and transformer blocks to capture long-range dependencies. TransMRSR consists of three modules: the shallow local feature extraction, the deep non-local feature capture, and the HR image reconstruction. We perform a generative task to encapsulate diverse priors into a generative network (GAN), which is the decoder sub-module of the deep non-local feature capture part, in the first stage. The pre-trained GAN is used for the second stage of SR task. We further eliminate the potential latent space shift caused by the two-stage training strategy through the self-distilled truncation trick. The extensive experiments show that our method achieves superior performance to other SSIR methods on both public and private datasets. Code is released at https://github.com/goddesshs/TransMRSR.git . | 翻訳日:2023-06-13 17:27:04 公開日:2023-06-11 |
# LF-PGVIO:点と測地線を用いた大規模視野カメラのためのビジュアル慣性オドメトリーフレームワーク LF-PGVIO: A Visual-Inertial-Odometry Framework for Large Field-of-View Cameras using Points and Geodesic Segments ( http://arxiv.org/abs/2306.06663v1 ) ライセンス: Link先を確認 | Ze Wang, Kailun Yang, Hao Shi, Yufan Zhang, Fei Gao, Kaiwei Wang | (参考訳) 本稿では,点と測地線を用いた負面を有する大型視野カメラのための視覚慣性オドメトリ(vio)フレームワークlf-pgvioを提案する。
歴史的に、パノラマカメラのFoVが負の半平面に達すると、画像は単一のピンホール画像に展開できない。
また、従来の直線検出法が本来のパノラマ画像に直接適用されている場合、パノラマの歪みが大きいため通常は使用できず、文献に未発見のままである。
このような課題に対処するため,我々は,負面fovを有するカメラにおいても大きなfovを持つカメラにライン制約を与えるlf-pgvioを展開し,全方位画像から全方位カーブセグメントを直接抽出する。
本論文では,パノラマ輪郭画像,魚眼画像,各種パノラマ画像などの歪みが大きい画像に適用可能なカメラモデルと組み合わせた全方位曲線セグメント検出(ocsd)法を提案する。
画像上の各点を球面上に投影し、検出された測地線セグメントと呼ばれる画像の全方位曲線セグメントは、単位球面上の測地線セグメントの基準を満たす必要がある。
検出されたジオデシックセグメントをジオデシックのラディアンに従って複数の直線セグメントにスライスし、デクリプタを分離して再結合して新しいデクリプタを得る。
記述子マッチングに基づいて,複数フレーム間の3次元線分間の制約関係を求める。
我々のVIOシステムでは、点特徴残差、線特徴残差、IMU残差を用いたスライディングウィンドウ最適化を用いる。
提案手法を公開データセット上で評価した結果,LF-PGVIOは精度とロバスト性において最先端の手法よりも優れていた。
コードはhttps://github.com/flysoaryun/lf-pgvioでオープンソース化される。 In this paper, we propose LF-PGVIO, a Visual-Inertial-Odometry (VIO) framework for large Field-of-View (FoV) cameras with a negative plane using points and geodesic segments. Notoriously, when the FoV of a panoramic camera reaches the negative half-plane, the image cannot be unfolded into a single pinhole image. Moreover, if a traditional straight-line detection method is directly applied to the original panoramic image, it cannot be normally used due to the large distortions in the panoramas and remains under-explored in the literature. To address these challenges, we put forward LF-PGVIO, which can provide line constraints for cameras with large FoV, even for cameras with negative-plane FoV, and directly extract omnidirectional curve segments from the raw omnidirectional image. We propose an Omnidirectional Curve Segment Detection (OCSD) method combined with a camera model which is applicable to images with large distortions, such as panoramic annular images, fisheye images, and various panoramic images. Each point on the image is projected onto the sphere, and the detected omnidirectional curve segments in the image named geodesic segments must satisfy the criterion of being a geodesic segment on the unit sphere. The detected geodesic segment is sliced into multiple straight-line segments according to the radian of the geodesic, and descriptors are extracted separately and recombined to obtain new descriptors. Based on descriptor matching, we obtain the constraint relationship of the 3D line segments between multiple frames. In our VIO system, we use sliding window optimization using point feature residuals, line feature residuals, and IMU residuals. Our evaluation of the proposed system on public datasets demonstrates that LF-PGVIO outperforms state-of-the-art methods in terms of accuracy and robustness. Code will be open-sourced at https://github.com/flysoaryun/LF-PGVIO. | 翻訳日:2023-06-13 17:26:37 公開日:2023-06-11 |
# EaSyGuide : 生成型大規模言語モデルの能力を活用したESG問題同定フレームワーク EaSyGuide : ESG Issue Identification Framework leveraging Abilities of Generative Large Language Models ( http://arxiv.org/abs/2306.06662v1 ) ライセンス: Link先を確認 | Hanwool Lee, Jonghyun Choi, Sohyeon Kwon, Sungbum Jung | (参考訳) 本稿では,多言語環境・社会・コーポレートガバナンス問題識別(ML-ESG)におけるFinNLP-2023共有タスクへの参加について述べる。
課題は、MSCI ESG評価ガイドラインで定義された35のESGキー問題に基づいて、ニュース記事の分類を行うことである。
我々のアプローチは英語とフランス語のサブタスクに焦点を当て、cerebrasgpt、opt、pythiaモデルとゼロショットとgpt3mixの強化技術を採用している。
我々は,RoBERTa,DeBERTa,FinBERTなどのエンコーダモデルを用いて,知識蒸留と追加訓練を行う。
F1スコア0.69の英語テキストサブタスクで第1位、F1スコア0.78のフランス語テキストサブタスクで第2位を確保した。
これらの結果は,様々な言語にわたるニュース記事において,ESG問題を特定する手法の有効性を裏付けるものである。
本研究は,ESGトピックの探索に寄与し,ESG問題識別に先進言語モデルを活用する可能性を強調した。 This paper presents our participation in the FinNLP-2023 shared task on multi-lingual environmental, social, and corporate governance issue identification (ML-ESG). The task's objective is to classify news articles based on the 35 ESG key issues defined by the MSCI ESG rating guidelines. Our approach focuses on the English and French subtasks, employing the CerebrasGPT, OPT, and Pythia models, along with the zero-shot and GPT3Mix Augmentation techniques. We utilize various encoder models, such as RoBERTa, DeBERTa, and FinBERT, subjecting them to knowledge distillation and additional training. Our approach yielded exceptional results, securing the first position in the English text subtask with F1-score 0.69 and the second position in the French text subtask with F1-score 0.78. These outcomes underscore the effectiveness of our methodology in identifying ESG issues in news articles across different languages. Our findings contribute to the exploration of ESG topics and highlight the potential of leveraging advanced language models for ESG issue identification. | 翻訳日:2023-06-13 17:26:01 公開日:2023-06-11 |
# VPUFormer: インタラクティブなイメージセグメンテーションのためのVisual Prompt Unified Transformer VPUFormer: Visual Prompt Unified Transformer for Interactive Image Segmentation ( http://arxiv.org/abs/2306.06656v1 ) ライセンス: Link先を確認 | Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li | (参考訳) インタラクティブなイメージセグメンテーションにおけるクリック、スクリブル、ボックスなどの多様な視覚的プロンプトの統合は、ユーザのインタラクションを著しく促進し、インタラクション効率を向上する。
既存の研究のほとんどは、セグメンテーション予測の入力としてプロンプトとイメージを単純に結合することで、単一のタイプのビジュアルプロンプトにフォーカスしている。
本稿では, セグメンテーション性能を高めるために, より深い相互作用を伴う簡潔な統一的なプロンプト表現を導入した, シンプルで効果的なVisual Prompt Unified Transformer (VPUFormer)を提案する。
具体的には,ガウス写像を用いてクリック・ボックス・クリブル・プロンプトの統一的な一次元ベクトルを生成し,ユーザの意図を捉えるとともに,ユーザのプロンプトのより密な表現を提供することにより,プロンプト統一エンコーダ(pue)を設計する。
さらに,p2cl(promply-to-pixel contrastive loss)を提案する。これは,ユーザからのフィードバックを駆使して,候補セマンティクス機能を徐々に洗練し,ユーザプロンプトと類似した機能に画像セマンティクス機能を近づけると同時に,ユーザプロンプトと異なるイメージセマンティクス機能をプッシュすることで,期待から逸脱した結果を補正する。
本手法では,dmaブロックにクエリとしてプロンプト表現を注入することで,画像入力とクエリ入力間のより深いインタラクションを実現する。
7つの挑戦的なデータセットに関する包括的な実験は、提案されているVPUFormerにPuE、DMA、P2CLが一貫した改善を実現し、最先端セグメンテーションのパフォーマンスが得られることを示した。
私たちのコードはhttps://github.com/XuZhang1211/VPUFormer.comで公開されます。 The integration of diverse visual prompts like clicks, scribbles, and boxes in interactive image segmentation could significantly facilitate user interaction as well as improve interaction efficiency. Most existing studies focus on a single type of visual prompt by simply concatenating prompts and images as input for segmentation prediction, which suffers from low-efficiency prompt representation and weak interaction issues. This paper proposes a simple yet effective Visual Prompt Unified Transformer (VPUFormer), which introduces a concise unified prompt representation with deeper interaction to boost the segmentation performance. Specifically, we design a Prompt-unified Encoder (PuE) by using Gaussian mapping to generate a unified one-dimensional vector for click, box, and scribble prompts, which well captures users' intentions as well as provides a denser representation of user prompts. In addition, we present a Prompt-to-Pixel Contrastive Loss (P2CL) that leverages user feedback to gradually refine candidate semantic features, aiming to bring image semantic features closer to the features that are similar to the user prompt, while pushing away those image semantic features that are dissimilar to the user prompt, thereby correcting results that deviate from expectations. On this basis, our approach injects prompt representations as queries into Dual-cross Merging Attention (DMA) blocks to perform a deeper interaction between image and query inputs. A comprehensive variety of experiments on seven challenging datasets demonstrates that the proposed VPUFormer with PuE, DMA, and P2CL achieves consistent improvements, yielding state-of-the-art segmentation performance. Our code will be made publicly available at https://github.com/XuZhang1211/VPUFormer. | 翻訳日:2023-06-13 17:25:41 公開日:2023-06-11 |
# Divide-and-Learnによるソフトウェアパフォーマンスの予測 Predicting Software Performance with Divide-and-Learn ( http://arxiv.org/abs/2306.06651v1 ) ライセンス: Link先を確認 | Jingzhi Gong, Tao Chen | (参考訳) 高度に構成可能なソフトウェアシステムの性能を予測することは、パフォーマンステストと品質保証の基礎となる。
そのために最近の研究は、ソフトウェアのパフォーマンスをモデル化するために、マシン/ディープ学習に依存している。
しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。
本稿では,$DaL$という「分割学習」の概念に基づくアプローチを提案する。
基本的な考え方は、サンプルのスパーシティを扱うために、サンプルを構成ランドスケープから遠くの分割に分割し、それぞれが特徴のスパーシティを扱うための局所モデルとして正規化されたDeep Neural Networkを構築します。
新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。
8つの実世界のシステムと5つのトレーニングデータによる実験結果から、DaL$は最先端のアプローチと比較して、40ケース中33ケース(26ケースが大幅に改善されている)において、最高のシステムよりもパフォーマンスが悪く、精度が最大で1.94\times$改善されていることが明らかになった。
実際に$DaL$は、基礎となるローカルモデルとして使用する際の異なるグローバルモデルも大幅に改善し、柔軟性をさらに強化する。
オープンサイエンスを促進するために、この研究のすべてのデータ、コード、補足的な数字は、私たちのリポジトリでアクセスできます。 Predicting the performance of highly configurable software systems is the foundation for performance testing and quality assurance. To that end, recent work has been relying on machine/deep learning to model software performance. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose an approach based on the concept of 'divide-and-learn', dubbed $DaL$. The basic idea is that, to handle sample sparsity, we divide the samples from the configuration landscape into distant divisions, for each of which we build a regularized Deep Neural Network as the local model to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Experiment results from eight real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, $DaL$ performs no worse than the best counterpart on 33 out of 40 cases (within which 26 cases are significantly better) with up to $1.94\times$ improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. Practically, $DaL$ also considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility. To promote open science, all the data, code, and supplementary figures of this work can be accessed at our repository: https://github.com/ideas-labo/DaL. | 翻訳日:2023-06-13 17:25:07 公開日:2023-06-11 |
# 集束電子ビーム蒸着コバルトナノマグネットの走査型nv磁気測定 Scanning NV magnetometry of focused-electron-beam-deposited cobalt nanomagnets ( http://arxiv.org/abs/2306.06650v1 ) ライセンス: Link先を確認 | Liza \v{Z}aper, Peter Rickhaus, Marcus Wyss, Boris Gross, Martino Poggio, and Floris Braakman | (参考訳) 集束電子ビーム誘起堆積は、スピン量子ビット制御のためのナノマグネットを単一ステップでパターン化するための有望な技術である。
このようなプロセスでコバルトナノ磁性体を作製し、電子ビームリソグラフィーで得られるものと同等以上のコバルト含有量と飽和磁化を得る。
透過型電子顕微鏡を用いてナノマグネットを特徴付け, 走査型nv磁力計を用いてその成層磁場を撮像し, マイクロ磁気シミュレーションとよく一致した。
磁力計は磁区とハロー側膜の存在を明らかにしており、これはこの製造技術に共通している。
最後に,電子スピン量子ビットについて,これらの側方デポジットによる無秩序成層場の存在下での劣化時間を推定する。 Focused-electron-beam-induced deposition is a promising technique for patterning nanomagnets for spin qubit control in a single step. We fabricate cobalt nanomagnets in such a process, obtaining cobalt contents and saturation magnetizations comparable to or higher than those typically obtained using electron-beam lithography. We characterize the nanomagnets using transmission electron microscopy and image their stray magnetic field using scanning NV magnetometry, finding good agreement with micromagnetic simulations. The magnetometry reveals the presence of magnetic domains and halo side-deposits, which are common for this fabrication technique. Finally, we estimate dephasing times for electron spin qubits in the presence of disordered stray fields due to these side-deposits. | 翻訳日:2023-06-13 17:24:38 公開日:2023-06-11 |
# 高次元ミニマックスリスク分類器の効率的な学習 Efficient Learning of Minimax Risk Classifiers in High Dimensions ( http://arxiv.org/abs/2306.06649v1 ) ライセンス: Link先を確認 | Kartheek Bondugula and Santiago Mazuelas and Aritz P\'erez | (参考訳) 高次元データは、医療やゲノム学など、数万の特徴がある複数の領域で一般的である。
このようなシナリオでは、多数の機能が非効率な学習につながることが多い。
制約生成手法によりL1正規化支援ベクトルマシン(SVM)の効率的な学習が可能となった。
本稿では,最近提案されたミニマックスリスク分類器(MRC)の学習効率向上のために,そのような手法を利用する。
提案する反復アルゴリズムは,最悪の場合の誤り確率の系列を提供し,特徴選択を行う。
複数の高次元データセットに対する実験により,提案アルゴリズムは高次元シナリオにおいて効率的であることが示された。
さらに、最悪のエラー確率は分類器の性能に関する有用な情報を提供し、アルゴリズムによって選択された特徴は最先端技術と競合する。 High-dimensional data is common in multiple areas, such as health care and genomics, where the number of features can be tens of thousands. In such scenarios, the large number of features often leads to inefficient learning. Constraint generation methods have recently enabled efficient learning of L1-regularized support vector machines (SVMs). In this paper, we leverage such methods to obtain an efficient learning algorithm for the recently proposed minimax risk classifiers (MRCs). The proposed iterative algorithm also provides a sequence of worst-case error probabilities and performs feature selection. Experiments on multiple high-dimensional datasets show that the proposed algorithm is efficient in high-dimensional scenarios. In addition, the worst-case error probability provides useful information about the classifier performance, and the features selected by the algorithm are competitive with the state-of-the-art. | 翻訳日:2023-06-13 17:24:24 公開日:2023-06-11 |
# quert: 旅行ドメイン検索におけるクエリ理解のための言語モデルの継続的な事前学習 QUERT: Continual Pre-training of Language Model for Query Understanding in Travel Domain Search ( http://arxiv.org/abs/2306.06707v1 ) ライセンス: Link先を確認 | Jian Xie, Yidan Liang, Jingping Liu, Yanghua Xiao, Baohua Wu, Shenghua Ni | (参考訳) プレトレーニング言語モデル(PLM)の成功を踏まえ、汎用PLMの継続的な事前トレーニングがドメイン適応のパラダイムとなっている。
本稿では,旅行ドメイン探索におけるQUERy理解のための継続事前学習型言語モデルQUERTを提案する。
quertは、トラベルドメイン検索におけるクエリの特徴である地理認識マスク予測、ジオハッシュコード予測、ユーザークリック行動学習、フレーズとトークン順序予測の4つの事前学習タスクで共同で訓練されている。
下流タスクとアブレーション実験の性能改善は,提案した事前学習タスクの有効性を示す。
具体的には、ダウンストリームタスクの平均パフォーマンスは、教師なしと教師なしの設定でそれぞれ2.02%と30.93%向上する。
オンラインビジネスにおけるQUERTの改善を確認するため、QUERTをデプロイし、Fliggy APP上でA/Bテストを実施します。
フィードバックの結果,QUERTをエンコーダとして適用した場合,QUERTはユニーククリックスルーレートとページクリックスルーレートを0.89%,1.03%増加させることがわかった。
私たちのコードと下流のタスクデータは、将来の研究のためにリリースされます。 In light of the success of the pre-trained language models (PLMs), continual pre-training of generic PLMs has been the paradigm of domain adaption. In this paper, we propose QUERT, A Continual Pre-trained Language Model for QUERy Understanding in Travel Domain Search. QUERT is jointly trained on four tailored pre-training tasks to the characteristics of query in travel domain search: Geography-aware Mask Prediction, Geohash Code Prediction, User Click Behavior Learning, and Phrase and Token Order Prediction. Performance improvement of downstream tasks and ablation experiment demonstrate the effectiveness of our proposed pre-training tasks. To be specific, the average performance of downstream tasks increases by 2.02% and 30.93% in supervised and unsupervised settings, respectively. To check on the improvement of QUERT to online business, we deploy QUERT and perform A/B testing on Fliggy APP. The feedback results show that QUERT increases the Unique Click-Through Rate and Page Click-Through Rate by 0.89% and 1.03% when applying QUERT as the encoder. Our code and downstream task data will be released for future research. | 翻訳日:2023-06-13 17:18:17 公開日:2023-06-11 |
# 傾斜格子内のボソンと相互作用する不純物に対する非エルゴードダイナミクス Nonergodic dynamics for an impurity interacting with bosons in tilted lattice ( http://arxiv.org/abs/2306.06705v1 ) ライセンス: Link先を確認 | Pedro R. Nic\'acio Falc\~ao and Jakub Zakrzewski | (参考訳) 傾斜格子に局在した他の粒子の浴槽に浸漬して相互作用する単一粒子の運命について検討した。
トンネル速度に匹敵する傾き値については、力学の減速は不純物の明確な局在化を伴わずに観察される。
大きな傾きと強い相互作用では、不純物の運動はクロニッヒ・ペニーポテンシャルに類似している。
動力学は傾斜したボーソンの初期分布に依存する。
傾いたボソンがランダムに分布している場合、正規密度波のような分布と局在の非局在化ダイナミクスを示す。 The fate of the single particle immersed in and interacting with a bath of other particles localized in a tilted lattice is investigated. For tilt values comparable to the tunneling rate a slow-down of the dynamics is observed without, however, a clear localization of the impurity. For large tilt and strong interactions the motion of the impurity resembles that in the Kronig-Penney potential. The dynamics depends on the initial distribution of tilted bosons. They show delocalized dynamics for a regular, density wave like distribution and a localization if tilted bosons are randomly distributed. | 翻訳日:2023-06-13 17:17:56 公開日:2023-06-11 |
# 生体同値研究における信頼区間について On the Confidence Intervals in Bioequivalence Studies ( http://arxiv.org/abs/2306.06698v1 ) ライセンス: Link先を確認 | Kexuan Li, Susie Sinks, Peng Sun, Lingli Yang | (参考訳) 生体等価性研究は、薬物の2つの異なる定式化の生物学的等価性を比較するために設計された臨床試験の一種である。
このような研究は典型的には、ランダムに2つの定式化を受けるように割り当てられた被験者とのコントロールされた臨床環境で行われる。
この2つの製剤は、薬物の吸収、分布、代謝、および除去を包含する薬物動態プロファイルについて比較される。
食品医薬品局 (FDA) の指導のもと、サイズ$\alpha$ bioequivalence test の標準的なアプローチは、100ドル(1-2\alpha)\%$ confidence interval を構築し、信頼区間が臨界領域に該当するかどうかを検証することである。
本研究では,TOSTの2つの片側試験が'equal-tailed'である場合にのみ,100(1-2\alpha)\%$ confidence interval approach がサイズ$\alpha$ test をもたらすことを明らかにする。
さらに,100ドル(1-\alpha)\%$ confidence interval)のアプローチについても検討した。 A bioequivalence study is a type of clinical trial designed to compare the biological equivalence of two different formulations of a drug. Such studies are typically conducted in controlled clinical settings with human subjects, who are randomly assigned to receive two formulations. The two formulations are then compared with respect to their pharmacokinetic profiles, which encompass the absorption, distribution, metabolism, and elimination of the drug. Under the guidance from Food and Drug Administration (FDA), for a size-$\alpha$ bioequivalence test, the standard approach is to construct a $100(1-2\alpha)\%$ confidence interval and verify if the confidence interval falls with the critical region. In this work, we clarify that $100(1-2\alpha)\%$ confidence interval approach for bioequivalence testing yields a size-$\alpha$ test only when the two one-sided tests in TOST are ``equal-tailed''. Furthermore, a $100(1-\alpha)\%$ confidence interval approach is also discussed in the bioequivalence study. | 翻訳日:2023-06-13 17:17:48 公開日:2023-06-11 |
# 分布アライメントの改善による顔の公平な表情認識に向けて Toward Fair Facial Expression Recognition with Improved Distribution Alignment ( http://arxiv.org/abs/2306.06696v1 ) ライセンス: Link先を確認 | Mojtaba Kolahdouzi and Ali Etemad | (参考訳) 本稿では,表情認識モデルにおけるバイアスを軽減する新しい手法を提案する。
本手法は,ferモデルによる埋め込みにおいて,性別,年齢,人種などの属性情報を削減することを目的とする。
我々は、ヒルベルト空間における若さや古さといった、異なる敏感な属性群に関連する埋め込みの分布のカーネル平均を推定するために、カーネル平均縮約推定器を用いる。
この推定を用いて,分布間の最大平均不一致(mmd)距離を算出し,分類器損失と逆損失を併用することで,学習過程を通じて最小化し,分布アライメントを改善する。
本手法は,モデルに対する感度特性の認識を低減し,公平性を促進させる。
さらに、ferモデルにおいて、魅力という概念を重要な感度属性として初めて分析し、FERモデルがより魅力的な顔に対するバイアスを示すことを示す。
このモデルの有効性を証明するために,CelebAとRAF-DBの2つの広く使用されているデータセットに対して,異なる感度特性(新たに提案された魅力属性を含む)に関するバイアスを低減する実験を行った。
その結果, 精度と公平性の観点からは, たいていの場合, 提案手法の有効性が実証された。 We present a novel approach to mitigate bias in facial expression recognition (FER) models. Our method aims to reduce sensitive attribute information such as gender, age, or race, in the embeddings produced by FER models. We employ a kernel mean shrinkage estimator to estimate the kernel mean of the distributions of the embeddings associated with different sensitive attribute groups, such as young and old, in the Hilbert space. Using this estimation, we calculate the maximum mean discrepancy (MMD) distance between the distributions and incorporate it in the classifier loss along with an adversarial loss, which is then minimized through the learning process to improve the distribution alignment. Our method makes sensitive attributes less recognizable for the model, which in turn promotes fairness. Additionally, for the first time, we analyze the notion of attractiveness as an important sensitive attribute in FER models and demonstrate that FER models can indeed exhibit biases towards more attractive faces. To prove the efficacy of our model in reducing bias regarding different sensitive attributes (including the newly proposed attractiveness attribute), we perform several experiments on two widely used datasets, CelebA and RAF-DB. The results in terms of both accuracy and fairness measures outperform the state-of-the-art in most cases, demonstrating the effectiveness of the proposed method. | 翻訳日:2023-06-13 17:17:27 公開日:2023-06-11 |
# 計算言語アセスメント - Open Brain AI Computational Language Assessment: Open Brain AI ( http://arxiv.org/abs/2306.06693v1 ) ライセンス: Link先を確認 | Charalambos Themistocleous | (参考訳) 言語評価は、発達の有無に関わらず、神経原性疾患によって引き起こされる言語・言語・コミュニケーション障害の個人を診断・治療する上で重要な役割を担っている。
しかし、従来の手動評価手法にはいくつかの欠点がある。
彼らはしばしば、管理とスコア付けに苦労し、時間を要するので、追加の患者ストレスを引き起こす。
さらに、貴重な資源を治療から遠ざけている。
これらの課題に対処するために,機械学習や自然言語処理など,革新的なAI技術を活用する計算プラットフォームであるOpen Brain AI(openbrainai.com)を導入し,音声と音声の自動分析を行う。
このプラットフォームは最先端のAI技術を活用し、言語アセスメントの有望な進歩を提供することを目指している。
その信頼性と効率的な測定能力は、診断の精度を高め、言語、言語、コミュニケーション障害のある個人に対する治療戦略を最適化することができる。
さらに、プラットフォームが提供する自動化と客観性は、臨床医の負担を軽減し、ワークフローの合理化と患者ケアのための時間とリソースの割り当てを可能にします。
特に、プラットフォームは自由にアクセスでき、臨床医がデータの批判的な分析を行い、治療と治療の他の重要な側面にもっと注意を向けることができる。 Language assessment plays a crucial role in diagnosing and treating individuals with speech, language, and communication disorders caused by neurogenic conditions, whether developmental or acquired. However, traditional manual assessment methods have several drawbacks. They are often laborious and time-consuming to administer and score, causing additional patient stress. Moreover, they divert valuable resources from treatment. To address these challenges, we introduce Open Brain AI (openbrainai.com), a computational platform that harnesses innovative AI techniques, including machine learning and natural language processing, to automatically analyze spoken and written speech productions. The platform leverages state-of-the-art AI techniques and aims to present a promising advancement in language assessment. Its ability to provide reliable and efficient measurements can enhance the accuracy of diagnoses and optimize treatment strategies for individuals with speech, language, and communication disorders. Furthermore, the automation and objectivity offered by the platform alleviate the burden on clinicians, enabling them to streamline their workflow and allocate more time and resources to direct patient care. Notably, the platform is freely accessible, empowering clinicians to conduct critical analyses of their data and allowing them to allocate more attention to other critical aspects of therapy and treatment. | 翻訳日:2023-06-13 17:17:07 公開日:2023-06-11 |
# 基礎的視覚言語モデルにおけるテキスト画像検索の改善 Self-Enhancement Improves Text-Image Retrieval in Foundation Visual-Language Models ( http://arxiv.org/abs/2306.06691v1 ) ライセンス: Link先を確認 | Yuguang Yang, Yiming Wang, Shupeng Geng, Runqi Wang, Yimi Wang, Sheng Wu, Baochang Zhang | (参考訳) クロスモーダル基礎モデルの出現は,テキスト画像検索を基盤とした多数のアプローチを導入している。
しかし、いくつかのドメイン固有の検索タスクでは、これらのモデルは要求される重要な属性に焦点を合わせない。
この問題に対処するため,我々は,最大のクロスモーダルモデルの一つである clip-vit/g-14 に基づいた自己強化フレームワーク a^{3}r を提案する。
まず、モデル学習の前に、きめ細かな表現のためのテキスト記述を豊かにする属性拡張戦略を実行する。
そこで本研究では,テキストクエリと候補画像の表現空間を統一し,モデル学習後の適応クエリに依存する候補画像を再ランクする適応再ランク手法を提案する。
提案フレームワークは,第1次ファンデーションモデルチャレンジのクロスモーダル画像検索トラックにおいて,ベースラインや他のチームのソリューションよりも優れた改善を実現するために,追加サンプルを導入することなく検証される。
コードは \url{https://github.com/capricornguang/a3r} で入手できる。 The emergence of cross-modal foundation models has introduced numerous approaches grounded in text-image retrieval. However, on some domain-specific retrieval tasks, these models fail to focus on the key attributes required. To address this issue, we propose a self-enhancement framework, A^{3}R, based on the CLIP-ViT/G-14, one of the largest cross-modal models. First, we perform an Attribute Augmentation strategy to enrich the textual description for fine-grained representation before model learning. Then, we propose an Adaption Re-ranking method to unify the representation space of textual query and candidate images and re-rank candidate images relying on the adapted query after model learning. The proposed framework is validated to achieve a salient improvement over the baseline and other teams' solutions in the cross-modal image retrieval track of the 1st foundation model challenge without introducing any additional samples. The code is available at \url{https://github.com/CapricornGuang/A3R}. | 翻訳日:2023-06-13 17:16:47 公開日:2023-06-11 |
# 言語学者対スペシャリスト:多言語移行能力に関する実証的再考 Language Versatilists vs. Specialists: An Empirical Revisiting on Multilingual Transfer Ability ( http://arxiv.org/abs/2306.06688v1 ) ライセンス: Link先を確認 | Jiacheng Ye, Xijia Tao, Lingpeng Kong | (参考訳) 1つのソース言語で微調整されたモデルを他の言語にどの程度適用できるかを反映した多言語伝達能力は、多言語事前学習モデル(例えばブルーム)でよく研究されてきた。
しかし、英語中心のモデル(LLaMAなど)ではそのような能力は研究されていない。
このギャップを埋めるために、以下の研究課題を考察する。
第一に、多言語移動能力は英語中心モデルに存在し、多言語事前学習モデルと比較してどうか。
第二に、英語が英語中心モデルの起源言語である場合にのみ現れるのか?
第三に、異なるタスクでどう違うのか?
我々は、多言語推論能力に着目し、4種類の推論タスクにまたがる広範な実験を行う。
多言語事前学習モデルが必ずしも英語中心モデルを上回るとは限らない。
さらに、英語は適切なソース言語ではなく、英語中心のモデルがスケールアップされると、ソース言語の選択が重要になる。
さらに、異なる種類のタスクは、異なる多言語転送能力を示す。
これらの結果は、英語中心のモデルは多言語伝達能力を持つだけでなく、十分に訓練された場合、多言語事前学習モデルの伝達能力を超えることさえも示している。
強みと弱みを示すことによって、実験は英語中心のモデルに対する多言語推論能力の強化に関する貴重な洞察を与える。 Multilingual transfer ability, which reflects how well the models fine-tuned on one source language can be applied to other languages, has been well studied in multilingual pre-trained models (e.g., BLOOM). However, such ability has not been investigated for English-centric models (e.g., LLaMA). To fill this gap, we study the following research questions. First, does multilingual transfer ability exist in English-centric models and how does it compare with multilingual pretrained models? Second, does it only appears when English is the source language for the English-centric model? Third, how does it vary in different tasks? We take multilingual reasoning ability as our focus and conduct extensive experiments across four types of reasoning tasks. We find that the multilingual pretrained model does not always outperform an English-centric model. Furthermore, English appears to be a less suitable source language, and the choice of source language becomes less important when the English-centric model scales up. In addition, different types of tasks exhibit different multilingual transfer abilities. These findings demonstrate that English-centric models not only possess multilingual transfer ability but may even surpass the transferability of multilingual pretrained models if well-trained. By showing the strength and weaknesses, the experiments also provide valuable insights into enhancing multilingual reasoning abilities for the English-centric models. | 翻訳日:2023-06-13 17:16:33 公開日:2023-06-11 |
# LAMM: 言語支援マルチモーダル命令-チューニングデータセット、フレームワーク、ベンチマーク LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark ( http://arxiv.org/abs/2306.06687v1 ) ライセンス: Link先を確認 | Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang, Jing Shao | (参考訳) 大規模言語モデルは、人工知能の実現への潜在的経路となっている。
マルチモーダル大規模言語モデルに関する最近の研究は、視覚モダリティの処理における効果を実証している。
本研究では,MLLMの研究をポイントクラウドに拡張し,2次元画像と3次元ポイントクラウド理解のためのLAMMデータセットとLAMMベンチマークを示す。
また,MLLMのさらなるモダリティへの拡張を容易にする拡張可能なフレームワークを構築した。
私たちの主な貢献は3倍です。
1) LAMM-Dataset と LAMM-Benchmark について述べる。
広範な実験によって、データセットとベンチマークの有効性が検証されます。
2)mllmのインストラクションチューニングデータセットとベンチマークを構築するための詳細な方法を示し,mllmに関する今後の研究により,他のドメインやタスク,モダリティへのスケールアップと拡張を高速化する。
3)モダリティの拡張に最適化されたMLLMトレーニングフレームワークを提供する。
また、今後の研究を加速するために、ベースラインモデル、総合的な実験観測、分析も提供する。 Large language models have become a potential pathway toward achieving artificial general intelligence. Recent works on multi-modal large language models have demonstrated their effectiveness in handling visual modalities. In this work, we extend the research of MLLMs to point clouds and present the LAMM-Dataset and LAMM-Benchmark for 2D image and 3D point cloud understanding. We also establish an extensible framework to facilitate the extension of MLLMs to additional modalities. Our main contribution is three-fold: 1) We present the LAMM-Dataset and LAMM-Benchmark, which cover almost all high-level vision tasks for 2D and 3D vision. Extensive experiments validate the effectiveness of our dataset and benchmark. 2) We demonstrate the detailed methods of constructing instruction-tuning datasets and benchmarks for MLLMs, which will enable future research on MLLMs to scale up and extend to other domains, tasks, and modalities faster. 3) We provide a primary but potential MLLM training framework optimized for modalities' extension. We also provide baseline models, comprehensive experimental observations, and analysis to accelerate future research. | 翻訳日:2023-06-13 17:16:12 公開日:2023-06-11 |
# 未知のCSIを用いたパッシブ盗聴攻撃に対するUAV軌道とマルチユーザビームフォーミング最適化 UAV Trajectory and Multi-User Beamforming Optimization for Clustered Users Against Passive Eavesdropping Attacks With Unknown CSI ( http://arxiv.org/abs/2306.06686v1 ) ライセンス: Link先を確認 | Aly Sabri Abdalla, Ali Behfarnia, and Vuk Marojevic | (参考訳) 本稿では,攻撃者の位置情報とチャネル状態情報(CSI)が不明な現代無線通信における基本的な盗聴問題に取り組む。
本研究では,地上基地局(GBS)が脆弱な利用者のサブセットを支援するために,移動式航空中継機(AR)として機能する無人航空機(UAV)の配備を提案する。
より正確には,1) 単一アンテナ利用者を2つのグループにクラスタ化してGBSを直接あるいはAR経由で提供し,(2) 直接提供されたユーザに対して最適なマルチユーザビームフォーミングを採用し,(3) ARの3D位置,そのマルチユーザビームフォーミングマトリックスを最適化し,クローズドフォームソリューションと機械学習技術を組み合わせることでパワーを伝達する。
具体的には,基本ビームフォーミングと電力最適化をARの深部強化学習(DRL)アルゴリズムと組み合わせて設計し,その軌道を利用者のセキュリティ最大化のために最適化する。
その結果,複数ユーザによるマルチ入力方式であるmu-miso(single output)システムは,盗聴チャネルを知らずに送信パラメータを最適化したgbsとarに分割することにより,ユーザ数の増加とともに高い機密性を実現していることがわかった。 This paper tackles the fundamental passive eavesdropping problem in modern wireless communications in which the location and the channel state information (CSI) of the attackers are unknown. In this regard, we propose deploying an unmanned aerial vehicle (UAV) that serves as a mobile aerial relay (AR) to help ground base station (GBS) support a subset of vulnerable users. More precisely, our solution (1) clusters the single-antenna users in two groups to be either served by the GBS directly or via the AR, (2) employs optimal multi-user beamforming to the directly served users, and (3) optimizes the AR's 3D position, its multi-user beamforming matrix and transmit powers by combining closed-form solutions with machine learning techniques. Specifically, we design a plain beamforming and power optimization combined with a deep reinforcement learning (DRL) algorithm for an AR to optimize its trajectory for the security maximization of the served users. Numerical results show that the multi-user multiple input, single output (MU-MISO) system split between a GBS and an AR with optimized transmission parameters without knowledge of the eavesdropping channels achieves high secrecy capacities that scale well with increasing the number of users. | 翻訳日:2023-06-13 17:15:55 公開日:2023-06-11 |
# happy people -- 深層生成モデルの離散潜在空間におけるブラックボックス最適化問題としての画像合成 Happy People -- Image Synthesis as Black-Box Optimization Problem in the Discrete Latent Space of Deep Generative Models ( http://arxiv.org/abs/2306.06684v1 ) ライセンス: Link先を確認 | Steffen Jung, Jan Christian Schwedhelm, Claudia Schillings, Margret Keuper | (参考訳) 近年, 薬物設計や画像生成, ニューラルアーキテクチャ探索などのブラックボックス最適化問題に対して, 深層生成モデルの学習潜在空間における最適化が成功している。
これにより、既存のモデルでは、ニューラルネットワークが限られた量のサンプルからデータ分布を学習し、その分布から新しいサンプルを描くことができる。
本研究では, 連続的な定量化特性に対して生成したサンプルを最適化する画像生成手法を提案する。
提案フレームワークの実用上有意義な適用は期待できないが,理論上は原則的であり,トレーニングデータ分布の単なる境界でサンプルを迅速に提案できる。
具体的には,ベクトル量子化vaesの離散的潜在空間上の数学的プログラムとして木に基づくアンサンブルモデルを用いることを提案する。
これらのクエリに対する重み付き再トレーニングは、分散シフトを誘発する。
実際には関連する問題がない場合、視覚的に魅力的なアプリケーションを考える: 幸福な笑顔(トレーニング分布が幸福な人だけを含む)の生成、そして、ベースラインアプローチよりもfidの改善と高い笑顔の度合いの観点から、我々のアプローチの原則的な振る舞いを示す。 In recent years, optimization in the learned latent space of deep generative models has been successfully applied to black-box optimization problems such as drug design, image generation or neural architecture search. Existing models thereby leverage the ability of neural models to learn the data distribution from a limited amount of samples such that new samples from the distribution can be drawn. In this work, we propose a novel image generative approach that optimizes the generated sample with respect to a continuously quantifiable property. While we anticipate absolutely no practically meaningful application for the proposed framework, it is theoretically principled and allows to quickly propose samples at the mere boundary of the training data distribution. Specifically, we propose to use tree-based ensemble models as mathematical programs over the discrete latent space of vector quantized VAEs, which can be globally solved. Subsequent weighted retraining on these queries allows to induce a distribution shift. In lack of a practically relevant problem, we consider a visually appealing application: the generation of happily smiling faces (where the training distribution only contains less happy people) - and show the principled behavior of our approach in terms of improved FID and higher smile degree over baseline approaches. | 翻訳日:2023-06-13 17:15:28 公開日:2023-06-11 |
# 暗号化データのセキュア推論のための効率的なスキップ接続の実現 Efficient Skip Connections Realization for Secure Inference on Encrypted Data ( http://arxiv.org/abs/2306.06736v1 ) ライセンス: Link先を確認 | Nir Drucker and Itamar Zimerman | (参考訳) 準同型暗号(homomorphic encryption, he)は、暗号化下での計算を可能にする暗号化ツールであり、例えば、多くのプライバシ保存機械学習ソリューションが安全な分類を行うために使用している。
現代のディープラーニングアプリケーションは、例えば、多くのスキップ接続を含む画像処理タスクベンチマークにおいて、優れたパフォーマンスをもたらす。
HEの下でモデル推論を実行しようとする場合、後者は非常にコストがかかるように見える。
本稿では、(中期)スキップ接続を(短期)ディラックパラメータ化と(長期)共有ソーススキップ接続に置き換えることで、HEベースのソリューションのスキップ接続負担を低減し、同じ精度でx1.3計算能力の向上を実現したことを示す。 Homomorphic Encryption (HE) is a cryptographic tool that allows performing computation under encryption, which is used by many privacy-preserving machine learning solutions, for example, to perform secure classification. Modern deep learning applications yield good performance for example in image processing tasks benchmarks by including many skip connections. The latter appears to be very costly when attempting to execute model inference under HE. In this paper, we show that by replacing (mid-term) skip connections with (short-term) Dirac parameterization and (long-term) shared-source skip connection we were able to reduce the skip connections burden for HE-based solutions, achieving x1.3 computing power improvement for the same accuracy. | 翻訳日:2023-06-13 17:08:00 公開日:2023-06-11 |
# 半教師付き転校学習への情報理論的アプローチ An information-Theoretic Approach to Semi-supervised Transfer Learning ( http://arxiv.org/abs/2306.06731v1 ) ライセンス: Link先を確認 | Daniel Jakubovitz, David Uliel, Miguel Rodrigues, Raja Giryes | (参考訳) トランスファーラーニングは、特に後者の少数のトレーニング例の場合において、ある"ソースデータセット"から別の"ターゲットデータセット"への情報伝達を可能にするため、ディープラーニングにおいて貴重なツールである。
しかし、ソースとターゲットデータの分布の相違は一般的であり、アルゴリズムの性能に大きな影響を与えることが知られている。
本研究では,トランスファー学習の文脈におけるディープニューラルネットワークの性能分析のための新しい情報理論的手法を提案する。
対象とするデータセットからラベルなしのサンプルが、ソースデータセットのネットワークトレーニング中に利用可能となる半教師あり転送学習のタスクに注目した。
本理論は、相互情報とラウタム情報という情報理論量に基づく対象データに正規化項を組み込むことにより、深層ニューラルネットワークの転送性を向上させる可能性を示唆する。
各種半教師あり移動学習実験において提案手法の有効性を示す。 Transfer learning is a valuable tool in deep learning as it allows propagating information from one "source dataset" to another "target dataset", especially in the case of a small number of training examples in the latter. Yet, discrepancies between the underlying distributions of the source and target data are commonplace and are known to have a substantial impact on algorithm performance. In this work we suggest novel information-theoretic approaches for the analysis of the performance of deep neural networks in the context of transfer learning. We focus on the task of semi-supervised transfer learning, in which unlabeled samples from the target dataset are available during network training on the source dataset. Our theory suggests that one may improve the transferability of a deep neural network by incorporating regularization terms on the target data based on information-theoretic quantities, namely the Mutual Information and the Lautum Information. We demonstrate the effectiveness of the proposed approaches in various semi-supervised transfer learning experiments. | 翻訳日:2023-06-13 17:07:47 公開日:2023-06-11 |
# 次元減少下における恒常化ボトルネック距離の持続図とホモロジー保存 A Normalized Bottleneck Distance on Persistence Diagrams and Homology Preservation under Dimension Reduction ( http://arxiv.org/abs/2306.06727v1 ) ライセンス: Link先を確認 | Bala Krishnamoorthy and Nathan H. May | (参考訳) 永続化図は、多様体からサンプリングされると思われる点雲データのシグネチャとして使われ、そのトポロジーをコンパクトに表現する。
さらに、ボトルネック距離d_Bを用いて、それらの永続化図を直接比較することにより、2つの与えられた点の雲を比較することができる。
しかし、このパイプラインの潜在的な欠点の一つは、トポロジカルに類似した多様体からサンプリングされた点雲は、その間に大きなスケーリングがあるときに、任意に大きなd_B値を持つことができることである。
この状況は、トポロジーの保存も目指している次元縮小フレームワークで典型的である。
正規化ボトルネック距離(d_n)と呼ばれるパーシステンス図間の新しいスケール不変距離を定義し,その性質について検討する。
d_Nを定義する際には、等濃度の有限距離空間を単射と比較するための計量分解と呼ばれるより広範なフレームワークも開発する。
距離分解を利用してd_Nの安定性を証明し、関連する単射写像の歪みに明示的な境界を導出する。
次に、Johnson-Lindenstrauss(JL)プロジェクションとメートル法多次元スケーリング(MDS)という2つの一般的な次元削減手法と、一般的なビリプシッツ写像の第3級について研究する。
我々は、これらの次元還元技術が d_N に関してホモロジーをいかに保存するかの新しい境界を提供する。
入力 X を f(X) に変換する JL 写像 f に対し、d_N(dgm(X),dgm(f(X)) < e, ここで dgm(X) は X のヴィートリス・リップス永続図式であり、0 < e < 1 は f によって対距離が保存されるトレランスであることを示す。
mMDS に対して、X の持続図形とその射影の間の d_B と d_N の新たな境界を共分散行列の固有値の観点から提示する。
また、k-biLipschitz写像に対して、d_N は (k^2-1)/k の積と X と f(X) の直径の比で有界であることを示す。 Persistence diagrams are used as signatures of point cloud data assumed to be sampled from manifolds, and represent their topology in a compact fashion. Further, two given clouds of points can be compared by directly comparing their persistence diagrams using the bottleneck distance, d_B. But one potential drawback of this pipeline is that point clouds sampled from topologically similar manifolds can have arbitrarily large d_B values when there is a large degree of scaling between them. This situation is typical in dimension reduction frameworks that are also aiming to preserve topology. We define a new scale-invariant distance between persistence diagrams termed normalized bottleneck distance, d_N, and study its properties. In defining d_N, we also develop a broader framework called metric decomposition for comparing finite metric spaces of equal cardinality with a bijection. We utilize metric decomposition to prove a stability result for d_N by deriving an explicit bound on the distortion of the associated bijective map. We then study two popular dimension reduction techniques, Johnson-Lindenstrauss (JL) projections and metric multidimensional scaling (mMDS), and a third class of general biLipschitz mappings. We provide new bounds on how well these dimension reduction techniques preserve homology with respect to d_N. For a JL map f that transforms input X to f(X), we show that d_N(dgm(X),dgm(f(X)) < e, where dgm(X) is the Vietoris-Rips persistence diagram of X, and 0 < e < 1 is the tolerance up to which pairwise distances are preserved by f. For mMDS, we present new bounds for both d_B and d_N between persistence diagrams of X and its projection in terms of the eigenvalues of the covariance matrix. And for k-biLipschitz maps, we show that d_N is bounded by the product of (k^2-1)/k and the ratio of diameters of X and f(X). | 翻訳日:2023-06-13 17:07:31 公開日:2023-06-11 |
# $E(2)$-Equivariant Vision Transformer $E(2)$-Equivariant Vision Transformer ( http://arxiv.org/abs/2306.06722v1 ) ライセンス: Link先を確認 | Renjun Xu and Kaifan Yang and Ke Liu and Fengxiang He | (参考訳) Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
しかし、ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にしている。
当初、同変 ViT を設計する試みがあったが、この論文ではいくつかのケースで欠陥があることが証明されている。
この問題に対処するため、我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
GE-ViTは同変ニューラルネットワークの理論的要件をすべて満たしていることを示す。
GE-ViTが非同変自己注意ネットワークを著しく上回ることを示すため、標準ベンチマークデータセットで包括的な実験が行われた。
コードはhttps://github.com/zjucdsyangkaifan/gevitで入手できる。 Vision Transformer (ViT) has achieved remarkable performance in computer vision. However, positional encoding in ViT makes it substantially difficult to learn the intrinsic equivariance in data. Initial attempts have been made on designing equivariant ViT but are proved defective in some cases in this paper. To address this issue, we design a Group Equivariant Vision Transformer (GE-ViT) via a novel, effective positional encoding operator. We prove that GE-ViT meets all the theoretical requirements of an equivariant neural network. Comprehensive experiments are conducted on standard benchmark datasets, demonstrating that GE-ViT significantly outperforms non-equivariant self-attention networks. The code is available at https://github.com/ZJUCDSYangKaifan/GEVit. | 翻訳日:2023-06-13 17:06:51 公開日:2023-06-11 |
# 微分的にプライベートな条件付き独立性テスト Differentially Private Conditional Independence Testing ( http://arxiv.org/abs/2306.06721v1 ) ライセンス: Link先を確認 | Iden Kalemaj, Shiva Prasad Kasiviswanathan, Aaditya Ramdas | (参考訳) 条件独立テスト(CI)は、統計データ分析において広く使われ、例えば、因果グラフ発見のための多くのアルゴリズムの構成要素である。
ciテストの目的は、$x \perp \!というヌル仮説を受け入れたり拒否したりすることです。
\!
\!
\perp Y \mid Z$, where $X \in \mathbb{R}, Y \in \mathbb{R}, Z \in \mathbb{R}^d$。
本研究では,差分プライバシー制約下での条件付き独立試験について検討する。
我々は、ShahとPetersの一般化共分散尺度(2020)とCand\`es et al.(2016)の条件付きランダム化テスト(モデル-X仮定)の2つのプライベートCIテスト手順を設計する。
テストのパフォーマンスを理論的に保証し、実証的に検証します。
これらは$z$が連続する場合の一般的なケースで機能する最初のプライベートciテストである。 Conditional independence (CI) tests are widely used in statistical data analysis, e.g., they are the building block of many algorithms for causal graph discovery. The goal of a CI test is to accept or reject the null hypothesis that $X \perp \!\!\! \perp Y \mid Z$, where $X \in \mathbb{R}, Y \in \mathbb{R}, Z \in \mathbb{R}^d$. In this work, we investigate conditional independence testing under the constraint of differential privacy. We design two private CI testing procedures: one based on the generalized covariance measure of Shah and Peters (2020) and another based on the conditional randomization test of Cand\`es et al. (2016) (under the model-X assumption). We provide theoretical guarantees on the performance of our tests and validate them empirically. These are the first private CI tests that work for the general case when $Z$ is continuous. | 翻訳日:2023-06-13 17:06:38 公開日:2023-06-11 |
# PWR-Align:複合現実感アプリケーションにおけるパートワイドポイントクラウド登録のためのパートホール関係の活用 PWR-Align: Leveraging Part-Whole Relationships for Part-wise Rigid Point Cloud Registration in Mixed Reality Applications ( http://arxiv.org/abs/2306.06717v1 ) ライセンス: Link先を確認 | Manorama Jha, Bhaskar Banerjee | (参考訳) Microsoft HoloLens 2.0 を使用した,高効率で堅牢なポイントクラウド登録 (PCR) ワークフローを提案する。
ポイントクラウド登録(PCR)は拡張現実と混合現実のユースケースにおいて重要な問題であり、非剛性変換の特殊なクラスについて研究する。
一般的に遭遇する物体の多くは、マニピュレータ付きロボットやヒンジ付き機械などの物体全体の非剛性変形を引き起こす関節について互いに相対的に動く剛体部品で構成されている。
提示されたワークフローにより、ポイントクラウドのさまざまな構成でポイントクラウドを登録することができます。 We present an efficient and robust point cloud registration (PCR) workflow for part-wise rigid point cloud alignment using the Microsoft HoloLens 2. Point Cloud Registration (PCR) is an important problem in Augmented and Mixed Reality use cases, and we present a study for a special class of non-rigid transformations. Many commonly encountered objects are composed of rigid parts that move relative to one another about joints resulting in non-rigid deformation of the whole object such as robots with manipulators, and machines with hinges. The workflow presented allows us to register the point cloud with various configurations of the point cloud. | 翻訳日:2023-06-13 17:06:21 公開日:2023-06-11 |
# 行動可能な説明に対するデータセットシフトの影響の最小化について On Minimizing the Impact of Dataset Shifts on Actionable Explanations ( http://arxiv.org/abs/2306.06716v1 ) ライセンス: Link先を確認 | Anna P. Meyer, Dan Ley, Suraj Srinivas, Himabindu Lakkaraju | (参考訳) 説明の権利は、個人がアルゴリズム決定に対して実行可能な説明を要求できる重要な規制原則である。
しかし、そのような実用的な説明を実際に行う際には、いくつかの技術的な課題が生じる。
例えば、モデルは定期的にトレーニングされ、データセットシフトを処理する。
このプロセスは、予め規定された説明の一部を無効にすることで、それらを無効にすることができる。
しかし、そのような無効化がいつ発生し、どの要因が説明の安定性を決定するか、すなわち、データセットシフトによるモデルのリトレーニング中に説明が変わらなければ、不明である。
本稿では、上記のギャップに対処し、説明安定性に影響を及ぼす因子の理論的および実証的な特徴の1つを提供する。
この目的のために, モデル曲率, トレーニング中の重量減衰パラメータ, データセットシフトの大きさが説明の程度を決定する重要な要因であることを示すために, 厳密な理論解析を行った。
実世界のデータセットによる大規模な実験は、我々の理論結果を検証するだけでなく、上記の要因が様々な最先端の手法による説明の安定性に劇的に影響を及ぼすことを示した。 The Right to Explanation is an important regulatory principle that allows individuals to request actionable explanations for algorithmic decisions. However, several technical challenges arise when providing such actionable explanations in practice. For instance, models are periodically retrained to handle dataset shifts. This process may invalidate some of the previously prescribed explanations, thus rendering them unactionable. But, it is unclear if and when such invalidations occur, and what factors determine explanation stability i.e., if an explanation remains unchanged amidst model retraining due to dataset shifts. In this paper, we address the aforementioned gaps and provide one of the first theoretical and empirical characterizations of the factors influencing explanation stability. To this end, we conduct rigorous theoretical analysis to demonstrate that model curvature, weight decay parameters while training, and the magnitude of the dataset shift are key factors that determine the extent of explanation (in)stability. Extensive experimentation with real-world datasets not only validates our theoretical results, but also demonstrates that the aforementioned factors dramatically impact the stability of explanations produced by various state-of-the-art methods. | 翻訳日:2023-06-13 17:06:11 公開日:2023-06-11 |
# FedDec:フェデレーション学習を支援するピアツーピア FedDec: Peer-to-peer Aided Federated Learning ( http://arxiv.org/abs/2306.06715v1 ) ライセンス: Link先を確認 | Marina Costantini, Giovanni Neglia, and Thrasyvoulos Spyropoulos | (参考訳) フェデレーション学習(FL)は、プライバシを損なうことなく、複数のエージェントのデータを活用する機械学習モデルのトレーニングを可能にする。
しかしながら、flは、データの不均一性、部分的デバイス参加、サーバとの通信の頻度の低さに弱いことが知られており、このフレームワークには3つの特徴がある。
最近の文献の多くは、異なるツールを使用してこれらの弱点に取り組んだが、flのパフォーマンスを改善するためにエージェント間通信を利用する可能性についての研究はごくわずかである。
本稿では、FLの局所勾配更新間でのピアツーピア通信とパラメータ平均化(ネットワークにおける分散学習に似ている)をインターリーブするアルゴリズムであるFedDecを提案する。
我々は,FedDecの収束を非IDデータ分布,部分デバイス参加,スムーズかつ強い凸コストの仮定に基づいて分析し,ローカル更新数への依存を減らし,エージェント間通信がサーバとの非頻繁な通信ラウンドの負の影響を軽減し,$O(H^2)$から$O(H)$に還元することを示す。
さらに,本解析により,境界で改良された用語は,エージェント間通信グラフのスペクトルに依存する定数で乗算され,ネットワークがより接続されるほど急速に消失することが明らかとなった。
我々は、FedDecがFedAvgよりも早く収束し、利益が$H$かネットワークの接続性よりも大きいことを示す数値シミュレーションにおいて、我々の理論の予測を確認した。 Federated learning (FL) has enabled training machine learning models exploiting the data of multiple agents without compromising privacy. However, FL is known to be vulnerable to data heterogeneity, partial device participation, and infrequent communication with the server, which are nonetheless three distinctive characteristics of this framework. While much of the recent literature has tackled these weaknesses using different tools, only a few works have explored the possibility of exploiting inter-agent communication to improve FL's performance. In this work, we present FedDec, an algorithm that interleaves peer-to-peer communication and parameter averaging (similar to decentralized learning in networks) between the local gradient updates of FL. We analyze the convergence of FedDec under the assumptions of non-iid data distribution, partial device participation, and smooth and strongly convex costs, and show that inter-agent communication alleviates the negative impact of infrequent communication rounds with the server by reducing the dependence on the number of local updates $H$ from $O(H^2)$ to $O(H)$. Furthermore, our analysis reveals that the term improved in the bound is multiplied by a constant that depends on the spectrum of the inter-agent communication graph, and that vanishes quickly the more connected the network is. We confirm the predictions of our theory in numerical simulations, where we show that FedDec converges faster than FedAvg, and that the gains are greater as either $H$ or the connectivity of the network increase. | 翻訳日:2023-06-13 17:05:53 公開日:2023-06-11 |
# ニューラルアーキテクチャ設計とロバストネス:データセット Neural Architecture Design and Robustness: A Dataset ( http://arxiv.org/abs/2306.06712v1 ) ライセンス: Link先を確認 | Steffen Jung, Jovita Lukasik, Margret Keuper | (参考訳) ディープラーニングモデルは、幅広い機械学習タスクで成功したことが証明されている。
しかし、彼らはしばしば入力データの摂動に非常に敏感で、誤った決定を高い信頼性で導き、実践的なユースケースへのデプロイメントを妨げます。
このように、摂動に対して(より多くの)堅牢なアーキテクチャを見つけることが近年注目を集めている。
クリーンな精度で優れたアーキテクチャを探索するのと同じように、これは通常、退屈な試行錯誤プロセスに1つの課題を伴う。
そこで本稿は,ロバスト性に対する影響,例えば,ロバスト性に対するサーロゲート尺度の評価に関して,建築設計の選択に関するより合理化された研究を促進することを目的とする。
そのため,画像分類のためのニューラルアーキテクチャ探索のための最も一般的な検索空間であるnas-bench-201(6466非同型ネットワーク設計)を借用した。
我々は,これらすべてのネットワークを共通の敵攻撃と腐敗タイプで評価し,ニューラルネットワークの設計とロバスト性評価に関するデータベースを導入する。
さらに、このデータセットの例示的なユースケースを3つ紹介します。
(i)ロバスト性予測性のためのヤコビ行列とヘッセン行列に基づくベンチマークロバスト性測定
(ii)ロバストなアキュラシーのニューラルアーキテクチャ探索を行い、
3) アーキテクチャ設計の選択が堅牢性にどのように影響するかを最初に分析する。
ネットワークのトポロジを慎重に構築することは、そのロバスト性に大きな影響を与え、同じパラメータ数を持つネットワークは、平均対向的ロバスト精度を20%から41%に抑えることができる。
コードとデータはhttp://robustness.vision/で入手できる。 Deep learning models have proven to be successful in a wide range of machine learning tasks. Yet, they are often highly sensitive to perturbations on the input data which can lead to incorrect decisions with high confidence, hampering their deployment for practical use-cases. Thus, finding architectures that are (more) robust against perturbations has received much attention in recent years. Just like the search for well-performing architectures in terms of clean accuracy, this usually involves a tedious trial-and-error process with one additional challenge: the evaluation of a network's robustness is significantly more expensive than its evaluation for clean accuracy. Thus, the aim of this paper is to facilitate better streamlined research on architectural design choices with respect to their impact on robustness as well as, for example, the evaluation of surrogate measures for robustness. We therefore borrow one of the most commonly considered search spaces for neural architecture search for image classification, NAS-Bench-201, which contains a manageable size of 6466 non-isomorphic network designs. We evaluate all these networks on a range of common adversarial attacks and corruption types and introduce a database on neural architecture design and robustness evaluations. We further present three exemplary use cases of this dataset, in which we (i) benchmark robustness measurements based on Jacobian and Hessian matrices for their robustness predictability, (ii) perform neural architecture search on robust accuracies, and (iii) provide an initial analysis of how architectural design choices affect robustness. We find that carefully crafting the topology of a network can have substantial impact on its robustness, where networks with the same parameter count range in mean adversarial robust accuracy from 20%-41%. Code and data is available at http://robustness.vision/. | 翻訳日:2023-06-13 17:05:25 公開日:2023-06-11 |
# 引抜きが科学キャリアに及ぼす影響を特徴づける Characterizing the effect of retractions on scientific careers ( http://arxiv.org/abs/2306.06710v1 ) ライセンス: Link先を確認 | Shahan Ali Memon, Kinga Makovi, Bedoor AlShebli | (参考訳) 論文の妥当性や著者の整合性に疑問が呈される場合、学術論文の削除は品質管理の基本的なツールである。
撤回は記録から論文を完全に排除するわけではないが、撤回された著者やその経歴に広範囲にわたる結果をもたらし、潜在的な侵略の可視的かつ恒久的なシグナルとなる。
これまでの研究では、引用数と共著者の引用に対する撤回の悪影響を強調しているが、これらの効果を駆動する根本的なメカニズムと、これらの伝統的な指標を超える広範な影響は、完全には研究されていない。
Retraction Watchは、リトラクションに関する最も広範なデータセットで、科学出版物とその引用ネットワークの包括的なデータセットであるMicrosoft Academic Graphと、オンラインの科学成果への注意をモニタリングするAltmetricにリンクする。
私たちの調査は
1)撤回後の学術出版を退社する可能性、及び
2)撤回後も出版を続ける著者間のコラボレーションネットワークの進化。
我々の経験的分析により、特に経験の少ない著者は、特にその撤回が広く注目を集める場合には、撤回の余波に科学出版を残さざるを得ない傾向があることが判明した。
さらに,出版活動の活発な著者が,類似の非引用作家に比べてコラボレーションを維持し,確立する傾向のパターンを明らかにする。
学術コミュニティの整合性を維持する上での撤回の役割は欠かせないものであったが,本研究の成果は,より確立されたキャリアを持つ研究者とは対照的に,早期の研究者に課される不均衡な影響を浮き彫りにした。 Retracting academic papers is a fundamental tool of quality control when the validity of papers or the integrity of authors is questioned post-publication. While retractions do not completely eliminate papers from the record, they have far-reaching consequences for retracted authors and their careers, serving as a visible and permanent signal of potential transgressions. Previous studies have highlighted the adverse effects of retractions on citation counts and co-authors' citations; however, the underlying mechanisms driving these effects and the broader impacts beyond these traditional metrics have not been fully explored. We address this gap leveraging Retraction Watch, the most extensive data set on retractions and link it to Microsoft Academic Graph, a comprehensive data set of scientific publications and their citation networks, and Altmetric that monitors online attention to scientific output. Our investigation focuses on: 1) the likelihood of authors exiting scientific publishing following retraction, and 2) the evolution of collaboration networks among authors who continue publishing after retraction. Our empirical analysis reveals that retracted authors, particularly those with less experience, tend to leave scientific publishing in the aftermath of retraction, particularly if their retractions attract widespread attention. Furthermore, we uncover a pattern whereby retracted authors who remain active in publishing tend to maintain and establish more collaborations compared to their similar non-retracted counterparts. Taken together, notwithstanding the indispensable role of retractions in upholding the integrity of the academic community, our findings shed light on the disproportionate impact that retractions impose on early-career researchers as opposed to those with more established careers. | 翻訳日:2023-06-13 17:04:57 公開日:2023-06-11 |
# 深い証拠回帰による感情属性の不確かさの推定 Estimating the Uncertainty in Emotion Attributes using Deep Evidential Regression ( http://arxiv.org/abs/2306.06760v1 ) ライセンス: Link先を確認 | Wen Wu, Chao Zhang, Philip C. Woodland | (参考訳) 自動感情認識(aer)では、異なる人間の注釈者が同じ発話に割り当てるラベルは、感情の固有の複雑さと知覚の主観性のため、しばしば矛盾する。
平均化や投票によって生成される決定論的ラベルはしばしば基礎的真実として用いられるが、一貫性のないラベルによって明らかにされる本質的不確実性を無視している。
本稿では,感情属性の不確かさを推定するために,ベイズ的アプローチであるDeep obviousial emotion regression (DEER)を提案する。
未知のガウス分布から得られた標本として発話の感情属性ラベルを扱い、ガウス確率よりも先に発話固有の正規逆ガンマを配置し、ディープニューラルネットワークモデルを用いてハイパーパラメータを予測する。
情動特性と失語症およびてんかんの不確かさを共同で推定することができる。
広く使われているMSP-PodcastとIEMOCAPデータセットのAER実験では、DERが平均値と感情属性の分布の両方に対して、最先端の結果を生成した。 In automatic emotion recognition (AER), labels assigned by different human annotators to the same utterance are often inconsistent due to the inherent complexity of emotion and the subjectivity of perception. Though deterministic labels generated by averaging or voting are often used as the ground truth, it ignores the intrinsic uncertainty revealed by the inconsistent labels. This paper proposes a Bayesian approach, deep evidential emotion regression (DEER), to estimate the uncertainty in emotion attributes. Treating the emotion attribute labels of an utterance as samples drawn from an unknown Gaussian distribution, DEER places an utterance-specific normal-inverse gamma prior over the Gaussian likelihood and predicts its hyper-parameters using a deep neural network model. It enables a joint estimation of emotion attributes along with the aleatoric and epistemic uncertainties. AER experiments on the widely used MSP-Podcast and IEMOCAP datasets showed DEER produced state-of-the-art results for both the mean values and the distribution of emotion attributes. | 翻訳日:2023-06-13 16:58:55 公開日:2023-06-11 |
# 二重確率点過程の高次元半パラメトリック推論に対するペナルテッド・ポアソン法 A Penalized Poisson Likelihood Approach to High-Dimensional Semi-Parametric Inference for Doubly-Stochastic Point Processes ( http://arxiv.org/abs/2306.06756v1 ) ライセンス: Link先を確認 | Si Cheng, Jon Wakefield, Ali Shojaie | (参考訳) 二重確率点過程は、空間領域上の事象をランダム強度関数の実現を条件とした不均一なポアソン過程としてモデル化する。
空間的不均一性と依存を捉える柔軟なツールである。
しかし、二重論的空間モデルの実装は計算上必要であり、理論的な保証や制限的な仮定に依存することが多い。
本研究では,計算効率が高く,基本強度のパラメトリック形式や定常性を必要としない2重確率点過程における共変量効果を推定するためのペナルタライズド回帰法を提案する。
提案する推定器の整合性と漸近的正規性を確立し,保存的統計的推定手順につながる共分散推定器を開発する。
シミュレーション研究は,データ生成機構の制約の少ない仮定下での手法の有効性を示し,シアトル犯罪データへの適用により,従来の手法と比較して予測精度が向上することを示す。 Doubly-stochastic point processes model the occurrence of events over a spatial domain as an inhomogeneous Poisson process conditioned on the realization of a random intensity function. They are flexible tools for capturing spatial heterogeneity and dependence. However, implementations of doubly-stochastic spatial models are computationally demanding, often have limited theoretical guarantee, and/or rely on restrictive assumptions. We propose a penalized regression method for estimating covariate effects in doubly-stochastic point processes that is computationally efficient and does not require a parametric form or stationarity of the underlying intensity. We establish the consistency and asymptotic normality of the proposed estimator, and develop a covariance estimator that leads to a conservative statistical inference procedure. A simulation study shows the validity of our approach under less restrictive assumptions on the data generating mechanism, and an application to Seattle crime data demonstrates better prediction accuracy compared with existing alternatives. | 翻訳日:2023-06-13 16:58:35 公開日:2023-06-11 |
# 注意、コンパイル、そしてソルバーに基づくシンボリック分析は必要なすべて Attention, Compilation, and Solver-based Symbolic Analysis are All You Need ( http://arxiv.org/abs/2306.06755v1 ) ライセンス: Link先を確認 | Prithwish Jana, Piyush Jha, Haoyang Ju, Gautham Kishore, Aryan Mahajan and Vijay Ganesh | (参考訳) 本稿では,大規模言語モデル(LLM)に基づくJava-to-Python (J2P) とPython-to-Java (P2J) のバック・ツー・バックコード変換手法,およびCoTranと呼ばれる関連ツールを提案する。
提案手法は,LLMの注意機構,コンパイル,シンボリックな実行ベーステスト生成を利用して,入力プログラムと出力プログラムの等価性テストを行う。
より正確には、コンパイラとシンボリック実行損失を組み込むために、典型的なLLMトレーニングループを変更する。
CoTranと他の10のトランスパイラとLLMベースの翻訳ツールを57,000以上のJava-Python等価ペアのベンチマークで比較した広範な実験により、CoTranはコンパイルや実行時同値精度などの関連する指標において、それらよりも優れていることを示した。
例えば、このツールはコンパイル精度97.43%、実行時等価精度49.66%、最も近いツールは96.44%と6.8%である。 In this paper we present a Java-to-Python (J2P) and Python-to-Java (P2J) back-to-back code translation method, and associated tool called CoTran, based on large language models (LLMs). Our method leverages the attention mechanism of LLMs, compilation, and symbolic execution-based test generation for equivalence testing between the input and output programs. More precisely, we modify the typical LLM training loop to incorporate compiler and symbolic execution loss. Via extensive experiments comparing CoTran with 10 other transpilers and LLM-based translation tools over a benchmark of more than 57,000 Java-Python equivalent pairs, we show that CoTran outperforms them on relevant metrics such as compilation and runtime equivalence accuracy. For example, our tool gets 97.43% compilation accuracy and 49.66% runtime equivalence accuracy for J2P translation, whereas the nearest competing tool only gets 96.44% and 6.8% respectively. | 翻訳日:2023-06-13 16:58:20 公開日:2023-06-11 |
# 体験型計画と自己帰納学習を組み合わせたロボット運動計画における強化学習 Reinforcement Learning in Robotic Motion Planning by Combined Experience-based Planning and Self-Imitation Learning ( http://arxiv.org/abs/2306.06754v1 ) ライセンス: Link先を確認 | Sha Luo, Lambert Schomaker | (参考訳) 高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
実際のロボットでは、障害物のある環境での安全上の配慮から、ILのデモンストレーションやRLの経験として十分な資格データを集めることは困難である。
この課題を,計画プラス(silp+)アルゴリズムによる自己模倣学習を提案することで,学習アーキテクチャに経験に基づく計画を効率的に組み込むことにより,データ収集問題を軽減する。
プランナーは、現在のrlポリシーから訪問した状態に基づいてデモを生成し、これらのデモから学習することで、ポリシーが改善される。
このようにして、人間エキスパートオペレーターがilに必要なデモを収集し、rlパフォーマンスを向上させるという要求を緩和します。
様々な実験結果から,silp+は複雑な動作計画作業において,他の手法に比べて高いトレーニング効率とより安定した成功率を達成できることがわかった。
物理ロボットの大規模なテストは、物理環境でのSILP+の有効性を示している。 High-quality and representative data is essential for both Imitation Learning (IL)- and Reinforcement Learning (RL)-based motion planning tasks. For real robots, it is challenging to collect enough qualified data either as demonstrations for IL or experiences for RL due to safety considerations in environments with obstacles. We target this challenge by proposing the self-imitation learning by planning plus (SILP+) algorithm, which efficiently embeds experience-based planning into the learning architecture to mitigate the data-collection problem. The planner generates demonstrations based on successfully visited states from the current RL policy, and the policy improves by learning from these demonstrations. In this way, we relieve the demand for human expert operators to collect demonstrations required by IL and improve the RL performance as well. Various experimental results show that SILP+ achieves better training efficiency higher and more stable success rate in complex motion planning tasks compared to several other methods. Extensive tests on physical robots illustrate the effectiveness of SILP+ in a physical setting. | 翻訳日:2023-06-13 16:57:59 公開日:2023-06-11 |
# pvuw challenge 2023の3位解:ビデオパノミックセグメンテーション 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation ( http://arxiv.org/abs/2306.06753v1 ) ライセンス: Link先を確認 | Jinming Su, Wangwang Yang, Junfeng Luo and Xiaolin Wei | (参考訳) 野生におけるビデオパノプティクスセグメンテーションの課題に対処するために,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
提案手法では,ビデオ汎視的セグメンテーションタスクをセグメンテーションターゲットクエリータスクとみなし,セグメンテーションターゲットとインスタンスターゲットの両方をクエリーの集合として表現し,これらのクエリをニューラルネットワークによって抽出されたビデオ特徴と組み合わせてセグメンテーションマスクを予測する。
解の学習精度と収束速度を改善するため,共同学習のためのビデオセマンティックセグメンテーションとビデオインスタンスセグメンテーションのタスクを追加する。
さらに、セマンティッククラスのパフォーマンスをさらに向上させるために、イメージセマンティックセグメンテーションモデルを追加しました。
さらに、モデルの堅牢性を改善するために、いくつかの追加操作も追加します。
VIPSegデータセットの大規模な実験により,提案手法はVIPSegテストセット上で50.04\%のVPQで最先端のパフォーマンスを達成し,PVUW Challenge 2023のビデオパノプティクスセグメンテーショントラックでは3位となった。 In order to deal with the task of video panoptic segmentation in the wild, we propose a robust integrated video panoptic segmentation solution. In our solution, we regard the video panoptic segmentation task as a segmentation target querying task, represent both semantic and instance targets as a set of queries, and then combine these queries with video features extracted by neural networks to predict segmentation masks. In order to improve the learning accuracy and convergence speed of the solution, we add additional tasks of video semantic segmentation and video instance segmentation for joint training. In addition, we also add an additional image semantic segmentation model to further improve the performance of semantic classes. In addition, we also add some additional operations to improve the robustness of the model. Extensive experiments on the VIPSeg dataset show that the proposed solution achieves state-of-the-art performance with 50.04\% VPQ on the VIPSeg test set, which is 3rd place on the video panoptic segmentation track of the PVUW Challenge 2023. | 翻訳日:2023-06-13 16:57:44 公開日:2023-06-11 |
# AI倫理を実践する - 倫理的要求を理解する Implementing AI Ethics: Making Sense of the Ethical Requirements ( http://arxiv.org/abs/2306.06749v1 ) ライセンス: Link先を確認 | Mamia Agbese, Rahul Mohanani, Arif Ali Khan, and Pekka Abrahamsson | (参考訳) 人工知能(AI)とAI対応システムへの依存度が高まっている社会は、倫理的要件をマネジメントプラクティスの一部にすることで、AI倫理の実施への関与を改善するために、中高年のソフトウェアエンジニアリング(SE)エグゼクティブからのより実践的なアプローチを必要としている。
しかし、SEマネジメントにおける倫理的要件の実施に関する研究のほとんどは、主に技術開発に焦点を当てており、中・高レベルのマネジメントの発見は少ない。
我々は,フィンランドの10人の幹部を中・上級の経営陣にインタビューし,倫理的要件をどう検討し,実施するかを検討する。
私たちは、倫理的要件の基準として、EU(Trustworthy Ethics Guidelines for Trustworthy AI)の倫理的要件と、実装を分析するためのアジャイルポートフォリオ管理フレームワークを使用します。
本研究は,プライバシーとデータガバナンスの倫理的要件を法的要件として考慮し,倫理的要件を考慮しない。
また,リスク要件としての技術的堅牢性,実装の安全性,サステナビリティ要件としての実施に対する社会的・環境的幸福性といった倫理的要件の実践的考察も示した。
我々は,アジャイルポートフォリオ管理フレームワークを用いた倫理的リスク要件スタックを用いて,倫理的要件を実装する実践的アプローチを検討する。 Society's increasing dependence on Artificial Intelligence (AI) and AI-enabled systems require a more practical approach from software engineering (SE) executives in middle and higher-level management to improve their involvement in implementing AI ethics by making ethical requirements part of their management practices. However, research indicates that most work on implementing ethical requirements in SE management primarily focuses on technical development, with scarce findings for middle and higher-level management. We investigate this by interviewing ten Finnish SE executives in middle and higher-level management to examine how they consider and implement ethical requirements. We use ethical requirements from the European Union (EU) Trustworthy Ethics guidelines for Trustworthy AI as our reference for ethical requirements and an Agile portfolio management framework to analyze implementation. Our findings reveal a general consideration of privacy and data governance ethical requirements as legal requirements with no other consideration for ethical requirements identified. The findings also show practicable consideration of ethical requirements as technical robustness and safety for implementation as risk requirements and societal and environmental well-being for implementation as sustainability requirements. We examine a practical approach to implementing ethical requirements using the ethical risk requirements stack employing the Agile portfolio management framework. | 翻訳日:2023-06-13 16:57:19 公開日:2023-06-11 |
# シミュレーションを超えて:組織模倣ファントムを用いたデータ駆動定量的光音響イメージング Moving beyond simulation: data-driven quantitative photoacoustic imaging using tissue-mimicking phantoms ( http://arxiv.org/abs/2306.06748v1 ) ライセンス: Link先を確認 | Janek Gr\"ohl, Thomas R. Else, Lina Hacker, Ellie V. Bunce, Paul W. Sweeney, Sarah E. Bohndiek | (参考訳) 光音響イメージング(PAI)データからの光吸収係数の正確な測定は、分子濃度の直接マッピングを可能にし、重要な臨床的洞察を与える。
吸収係数の回復問題は, シミュレーションと実験の領域差により, 生体系におけるPAIの目標達成を妨げている。
このギャップを埋めるために,実験的に良好な画像ファントムとそのデジタル双生児のコレクションを導入する。
この第1種ファントムデータセットは、吸収係数のピクセルワイズ推定のための実験データに基づくU-Netの教師付きトレーニングを可能にする。
シミュレーションデータに対するトレーニングの結果,推定値のアーチファクトやバイアスが生じ,シミュレーションと実験の間のドメインギャップの存在が強まることが示された。
しかし、実験的に取得したデータのトレーニングにより、光学吸収係数のより正確でロバストな推定が得られた。
この結果とモンテカルロモデルとの比較を材料の基準光学特性から行い, 定量化誤差は約20%である。
トレーニングされたU-Netの血流ファントムへの応用は、模擬データを用いたトレーニングにおいてスペクトルバイアスを示し、マウスモデルへの適用は、両方の学習に基づくアプローチが信号強度の深さ依存性の損失を回復する能力を強調した。
実験ファントムのトレーニングにより,信号振幅の相関関係を再現できることを実証した。
絶対量化誤差は高いままであり,さらなる改善が必要であるが,本研究は量的paiを進めるための深層学習の期待を浮き彫りにする。 Accurate measurement of optical absorption coefficients from photoacoustic imaging (PAI) data would enable direct mapping of molecular concentrations, providing vital clinical insight. The ill-posed nature of the problem of absorption coefficient recovery has prohibited PAI from achieving this goal in living systems due to the domain gap between simulation and experiment. To bridge this gap, we introduce a collection of experimentally well-characterised imaging phantoms and their digital twins. This first-of-a-kind phantom data set enables supervised training of a U-Net on experimental data for pixel-wise estimation of absorption coefficients. We show that training on simulated data results in artefacts and biases in the estimates, reinforcing the existence of a domain gap between simulation and experiment. Training on experimentally acquired data, however, yielded more accurate and robust estimates of optical absorption coefficients. We compare the results to fluence correction with a Monte Carlo model from reference optical properties of the materials, which yields a quantification error of approximately 20%. Application of the trained U-Nets to a blood flow phantom demonstrated spectral biases when training on simulated data, while application to a mouse model highlighted the ability of both learning-based approaches to recover the depth-dependent loss of signal intensity. We demonstrate that training on experimental phantoms can restore the correlation of signal amplitudes measured in depth. While the absolute quantification error remains high and further improvements are needed, our results highlight the promise of deep learning to advance quantitative PAI. | 翻訳日:2023-06-13 16:56:56 公開日:2023-06-11 |
# ニューラルネットワークの精度と一般化ロバスト性証明 Precise and Generalized Robustness Certification for Neural Networks ( http://arxiv.org/abs/2306.06747v1 ) ライセンス: Link先を確認 | Yuanyuan Yuan, Shuai Wang, and Zhendong Su | (参考訳) ニューラルネットワーク(NN)の堅牢性認証の目的は、NNが入力に突然変異が生じたときに予測を変更するかどうかを決定することである。
画像上でのピクセルレベルや幾何レベルやぼやけた操作についての研究は多く行われているが,本研究では,NNの堅牢性を高精度かつ統一的な画像突然変異の形で証明する新しいフレームワークであるGCERTを提案する。
我々は、生成モデルの潜在空間において、ある方向を均一に意味レベルの画像突然変異の包括的集合を定式化する。
独立性と連続性という2つの重要な性質を同定し、潜在空間を正確かつ解析に優しい入力空間表現に変換する。
GCERTは、事実上の完全、不完全、あるいは定量的な認証フレームワークとスムーズに統合できる。
正確な入力空間の表現により、GCERTは、気象フィルタ、スタイル転送、知覚的変化(例えば、開眼/閉眼)などの多様な意味レベルの入力変異の下で、適度なコストでNNの堅牢性認証を初めて行うことができる。
GCERTは、自律運転のような様々な共通かつセキュリティに敏感なシナリオの下で、NNロバスト性を証明することができる。 The objective of neural network (NN) robustness certification is to determine if a NN changes its predictions when mutations are made to its inputs. While most certification research studies pixel-level or a few geometrical-level and blurring operations over images, this paper proposes a novel framework, GCERT, which certifies NN robustness under a precise and unified form of diverse semantic-level image mutations. We formulate a comprehensive set of semantic-level image mutations uniformly as certain directions in the latent space of generative models. We identify two key properties, independence and continuity, that convert the latent space into a precise and analysis-friendly input space representation for certification. GCERT can be smoothly integrated with de facto complete, incomplete, or quantitative certification frameworks. With its precise input space representation, GCERT enables for the first time complete NN robustness certification with moderate cost under diverse semantic-level input mutations, such as weather-filter, style transfer, and perceptual changes (e.g., opening/closing eyes). We show that GCERT enables certifying NN robustness under various common and security-sensitive scenarios like autonomous driving. | 翻訳日:2023-06-13 16:56:29 公開日:2023-06-11 |
# タウトリガーの機械学習モデルの比較 Comparing machine learning models for tau triggers ( http://arxiv.org/abs/2306.06743v1 ) ライセンス: Link先を確認 | Maayan Yaary (1 and 2), Uriel Barron (1), Luis Pascual Dom\'inguez (1), Boping Chen (1), Liron Barak (1), Erez Etzion (1), Raja Giryes (2) ((1) Raymond and Beverly Sackler School of Physics and Astronomy, Tel Aviv University, Tel Aviv, Israel (2) School of Electrical Engineering, Tel Aviv University, Tel Aviv, Israel) | (参考訳) 本稿では,陽子-陽子衝突子におけるハドロン崩壊したタウレプトンのリアルタイム選択(トリガリング)のための新しい教師付き学習手法を提案する。
古典的な機械学習決定木と、マルチ層パーセプトロンや残留NNのような高度なディープラーニングモデルを実装することにより、標準的なタウトリガと比較して、パフォーマンスの目に見える改善が観察される。
このような実装が現在のエネルギー閾値を低下させる可能性を示し、低エネルギーtauレプトンによって分類された陽子-陽子衝突における新しい現象の探索の感度を高める。 This paper introduces novel supervised learning techniques for real-time selection (triggering) of hadronically decaying tau leptons in proton-proton colliders. By implementing classic machine learning decision trees and advanced deep learning models, such as Multi-Layer Perceptron or residual NN, visible improvements in performance compared to standard tau triggers are observed. We show how such an implementation may lower the current energy thresholds, thus contributing to increasing the sensitivity of searches for new phenomena in proton-proton collisions classified by low-energy tau leptons. | 翻訳日:2023-06-13 16:56:08 公開日:2023-06-11 |
# 既約球面テンソル作用素に基づく核励起状態におけるスピンフリップダイナミクス Spin-flip dynamics in core-excited states in the basis of irreducible spherical tensor operators ( http://arxiv.org/abs/2306.06737v1 ) ライセンス: Link先を確認 | Thies Romig, Vladislav Kochetov, and Sergey I. Bokarev | (参考訳) 最近の超高速科学の実験的進歩は、電子時間スケールで発生する異なる過程を数フェムト秒以下に焦点を当てた。
本研究では, 還元不能な球面テンソルに基づく密度行列の変換と伝播が, 鉄心励起遷移金属化合物のサブfew fsスピンフリップダイナミクスの研究に有用であることを示す。
ウィグナー・エッカート定理の助けを借りて、そのような変換は、重要な力学情報を角運動量代数によって支配される幾何学的因子から分離する。
球面テンソルベースを物理的に動機づけた切り離しにより, さらなる削減が可能であることを示す。
特に、コヒーレンスの程度に応じて、超高速ダイナミクスは、与えられたスピンの基底状態の全体集団のみが興味を持つ場合に、特に減少する球面基底において半定量的と考えることができる。
このような切断は、計算コストを大幅に削減するため、高スピン基底状態の数が大きい場合に特に有益である。 Recent experimental advances in ultrafast science put different processes occurring on the electronic timescale below a few femtoseconds in focus. In the present theoretical work, we demonstrate how the transformation and propagation of the density matrix in the basis of irreducible spherical tensors can be conveniently used to study sub-few fs spin-flip dynamics in the core-excited transition metal compounds. With the help of the Wigner-Eckart theorem, such a transformation separates the essential dynamical information from the geometric factors governed by the angular momentum algebra. We show that an additional reduction can be performed by the physically motivated truncation of the spherical tensor basis. In particular, depending on the degree of coherence, the ultrafast dynamics can be considered semi-quantitative in the notably reduced spherical basis when only total populations of the basis states of the given spin are of interest. Such truncation should be especially beneficial when the number of the high-spin basis states is vast, as it substantially reduces computational costs. | 翻訳日:2023-06-13 16:55:58 公開日:2023-06-11 |
# h&eスライドと多重免疫蛍光画像のマルチモーダル病理画像検索 Multimodal Pathology Image Search Between H&E Slides and Multiplexed Immunofluorescent Images ( http://arxiv.org/abs/2306.06780v1 ) ライセンス: Link先を確認 | Amir Hajighasemi, MD Jillur Rahman Saurav, Mohammad S Nasr, Jai Prakash Veerla, Aarti Darji, Parisa Boodaghi Malidarreh, Michael Robben, Helen H Shang, Jacob M Luber | (参考訳) 本稿では,マルチモーダルな病理画像検索のためのアプローチとして,変分オートエンコーダ (VAE) 潜時空間上の動的時間ワープ (DTW) を用いて,クエリH&Eスライドと最もよく似た多重蛍光画像 (mIF) の検索を行う。
VAEのトレーニングとDTWの適用を通じて、mIFとH&Eのスライドを調整および比較する。
本手法は,形態学的H&EデータとmIFからの免疫フェノタイピングを統合することにより,鑑別診断と治療の意思決定を改善する。
これにより、組織サンプルにおける空間的関係の理解が容易になり、診断プロセスに革命をもたらし、精度を高め、パーソナライズされた治療選択を可能にする。
本手法は大腸癌と健康な扁桃腺検体を用いて実現可能性を示す。
mif(multiplexed immunofluorescence)とヘマトキシリン(hematoxylin)およびエオシン(h&e)染色(eosin)の相関関係を探索し,これらの異なる様相を統一ベクトル空間にマッピングする能力を検証するために,検索エンジンを用いて排他的アブレーションを行った。
極端なクラス不均衡にもかかわらず、このシステムは様々なデータ特徴に類似した結果を返却することで頑健さと有用性を示し、マルチモーダル・ヒストロジー・データ分析における将来的な使用の可能性を示している。 We present an approach for multimodal pathology image search, using dynamic time warping (DTW) on Variational Autoencoder (VAE) latent space that is fed into a ranked choice voting scheme to retrieve multiplexed immunofluorescent imaging (mIF) that is most similar to a query H&E slide. Through training the VAE and applying DTW, we align and compare mIF and H&E slides. Our method improves differential diagnosis and therapeutic decisions by integrating morphological H&E data with immunophenotyping from mIF, providing clinicians a rich perspective of disease states. This facilitates an understanding of the spatial relationships in tissue samples and could revolutionize the diagnostic process, enhancing precision and enabling personalized therapy selection. Our technique demonstrates feasibility using colorectal cancer and healthy tonsil samples. An exhaustive ablation study was conducted on a search engine designed to explore the correlation between multiplexed Immunofluorescence (mIF) and Hematoxylin and Eosin (H&E) staining, in order to validate its ability to map these distinct modalities into a unified vector space. Despite extreme class imbalance, the system demonstrated robustness and utility by returning similar results across various data features, which suggests potential for future use in multimodal histopathology data analysis. | 翻訳日:2023-06-13 16:49:02 公開日:2023-06-11 |
# 抽出質問応答のためのデュエルバンディットとしてのマルチソーステスト時間適応 Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering ( http://arxiv.org/abs/2306.06779v1 ) ライセンス: Link先を確認 | Hai Ye, Qizhe Xie, Hwee Tou Ng | (参考訳) 本研究では,ユーザフィードバックによるマルチソーステスト時モデル適応について検討する。
効率的な適応を可能にするため,適応後の最適適応モデルを決定することを目的として,確率的決定過程として問題を提起した。
マルチアーム・バンディット学習とマルチアーム・デュエル・バンディットの2つの枠組みについて論じる。
マルチアームバンディット学習と比較して、このデュエルフレームワークはKモデル間のペアワイズ協調を可能にし、この研究で提案されたCo-UCBという新しい手法によって解決される。
抽出質問応答(QA)の6つのデータセットを用いた実験により,Co-UCBを用いたデュエルフレームワークは,本研究における他の強力なベースラインよりも有効であることが示された。 In this work, we study multi-source test-time model adaptation from user feedback, where K distinct models are established for adaptation. To allow efficient adaptation, we cast the problem as a stochastic decision-making process, aiming to determine the best adapted model after adaptation. We discuss two frameworks: multi-armed bandit learning and multi-armed dueling bandits. Compared to multi-armed bandit learning, the dueling framework allows pairwise collaboration among K models, which is solved by a novel method named Co-UCB proposed in this work. Experiments on six datasets of extractive question answering (QA) show that the dueling framework using Co-UCB is more effective than other strong baselines for our studied problem. | 翻訳日:2023-06-13 16:48:33 公開日:2023-06-11 |
# フェアレンジクラスタリングのための近似アルゴリズム Approximation Algorithms for Fair Range Clustering ( http://arxiv.org/abs/2306.06778v1 ) ライセンス: Link先を確認 | S\`edjro S. Hotegni and Sepideh Mahabadi and Ali Vakilian | (参考訳) 本論文は,データポイントが異なる人口集団から得られるフェアレンジクラスタリング問題について検討し,各グループを最低限のクラスタリングコストで選択することを目的としている。
More precisely, given a set of $n$ points in a metric space $(P,d)$ where each point belongs to one of the $\ell$ different demographics (i.e., $P = P_1 \uplus P_2 \uplus \cdots \uplus P_\ell$) and a set of $\ell$ intervals $[\alpha_1, \beta_1], \cdots, [\alpha_\ell, \beta_\ell]$ on desired number of centers from each group, the goal is to pick a set of $k$ centers $C$ with minimum $\ell_p$-clustering cost (i.e., $(\sum_{v\in P} d(v,C)^p)^{1/p}$) such that for each group $i\in \ell$, $|C\cap P_i| \in [\alpha_i, \beta_i]$.
特に、fair range $\ell_p$-clusteringは、特別なケースとして、fair range $k$-center、$k$-median、$k$-meansをキャプチャする。
本研究では,最大$k+2\ell$センターで選択し,少なくとも$$$という付加項で各人口集団の上限にのみ違反する,フェアレンジの$\ell_p$-clusteringのための$o(1)$近似アルゴリズムを提供する。 This paper studies the fair range clustering problem in which the data points are from different demographic groups and the goal is to pick $k$ centers with the minimum clustering cost such that each group is at least minimally represented in the centers set and no group dominates the centers set. More precisely, given a set of $n$ points in a metric space $(P,d)$ where each point belongs to one of the $\ell$ different demographics (i.e., $P = P_1 \uplus P_2 \uplus \cdots \uplus P_\ell$) and a set of $\ell$ intervals $[\alpha_1, \beta_1], \cdots, [\alpha_\ell, \beta_\ell]$ on desired number of centers from each group, the goal is to pick a set of $k$ centers $C$ with minimum $\ell_p$-clustering cost (i.e., $(\sum_{v\in P} d(v,C)^p)^{1/p}$) such that for each group $i\in \ell$, $|C\cap P_i| \in [\alpha_i, \beta_i]$. In particular, the fair range $\ell_p$-clustering captures fair range $k$-center, $k$-median and $k$-means as its special cases. In this work, we provide an $O(1)$-approximation algorithm for the fair range $\ell_p$-clustering that picks at most $k+2\ell$ centers and may only violate the upper bound of each demographic group by at most an additive term of $2$. | 翻訳日:2023-06-13 16:48:20 公開日:2023-06-11 |
# 説明としての決定木の有効性向上 Improving the Validitity of Decision Trees as Explanations ( http://arxiv.org/abs/2306.06777v1 ) ライセンス: Link先を確認 | Jiri Nemecek and Tomas Pevny and Jakub Marecek | (参考訳) 表データによる分類と予測では、しばしば木に基づくモデルを用いる。
これは、グラフデータ(cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815]上のディープニューラルネットワークと競合し、いくつかの条件下では説明可能である。
説明性は木の深さと木の葉の精度に依存する。
ここでは,葉ノード毎の最大誤分類誤差を最小化することを目的として,低深度木を訓練し,低深度木の各葉からさらに「スペンド」を木ベースモデル(例えば,無限深さ木)とする。
低深度木は簡単に説明できるが、低深度モデルと吊り木モデルの組み合わせによる全体的な統計性能は、古典的手法(例えばCART)を用いて訓練された無限深度の決定木に改善され、最先端の手法(例えば、よく訓練されたXGBoost)に匹敵する。 In classification and forecasting with tabular data, one often utilizes tree-based models. This can be competitive with deep neural networks on tabular data [cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815] and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. Here, we train a low-depth tree with the objective of minimising the maximum misclassification error across each leaf node, and then ``suspend'' further tree-based models (e.g., trees of unlimited depth) from each leaf of the low-depth tree. The low-depth tree is easily explainable, while the overall statistical performance of the combined low-depth and suspended tree-based models improves upon decision trees of unlimited depth trained using classical methods (e.g., CART) and is comparable to state-of-the-art methods (e.g., well-tuned XGBoost). | 翻訳日:2023-06-13 16:47:51 公開日:2023-06-11 |
# 低l$ rydberg状態におけるヘリウム原子のマッター波干渉法について Comment on "Matter-wave interferometry with helium atoms in low-$l$ Rydberg states'' ( http://arxiv.org/abs/2306.06776v1 ) ライセンス: Link先を確認 | D. Z. Chan and J. D. D. Martin | (参考訳) Tommey と Hogan [Phys. A, 104, 033305 (2021)] は、Rydberg の非均一電場を約2000m/sで走行する原子を用いた物質波干渉実験を報告している。
実験の本質物理学を含む単純化されたモデルを用いて、観測された干渉縞によって測定された位相差は、ライドバーグ原子の加速に依存するのではなく、単に不均質な電場を通る原子の均一な運動に依存することを示した。 Tommey and Hogan [Phys. Rev. A, 104, 033305 (2021)] have reported a matter-wave interference experiment using Rydberg atoms traveling through inhomogeneous electric fields at approximately 2000 m/s. Using a simplified model containing the essential physics of their experiment, we show that the phase difference measured by their observed interference fringes does not depend -- in any significant way -- on the acceleration of the Rydberg atoms, but instead simply on the uniform motion of the atoms through the inhomogeneous electric field. | 翻訳日:2023-06-13 16:47:30 公開日:2023-06-11 |
# 肺超音波データセットラベリングの新しいアプローチとしてのゲミファイドクラウドソーシング Gamified Crowdsourcing as a Novel Approach to Lung Ultrasound Dataset Labeling ( http://arxiv.org/abs/2306.06773v1 ) ライセンス: Link先を確認 | Nicole M Duggan, Mike Jin, Maria Alejandra Duran Mendicuti, Stephen Hallisey, Denie Bernier, Lauren A Selame, Ameneh Asgari-Targhi, Chanel E Fischetti, Ruben Lucassen, Anthony E Samir, Erik Duhaime+, Tina Kapur, Andrew J Goldsmith | (参考訳) 研究目的: 機械学習モデルには高度な医療画像処理があり、より高速で正確な診断が可能になる。
利用可能な医療画像データは豊富であるが、モデルトレーニングのための高品質なラベル付きデータは不足している。
評価基準を組み込んだゲーミフィケーションクラウドソーシングプラットフォームが,臨床専門家と同等の肺超音波クリップラベルを作成できるかどうかを検討した。
方法】203例から2,384例の肺超音波検査を行った。
6人の肺超音波の専門家は、これらのクリップのうち393をb線なし、1つ以上の離散b線、または合流b線と分類し、2セットの基準標準ラベル(195のトレーニングセットクリップと198のテストセットクリップ)を作成した。
A)ゲーム化されたクラウドソーシングプラットフォーム上でユーザをトレーニングするために,B) 結果のクラウドラベルの一致を,個々の専門家の基準との一致と比較した。
結果: 8日間に426人のユニークユーザから,2,384個の肺超音波クリップに対する99,238件のクラウドソース意見が収集された。
198の試験セットのクリップでは、基準基準に対する個々の専門家の平均ラベル一致は85.0%+/-2.0(SEM)であり、87.9%のクラウドソースラベル一致(p=0.15)であった。
個々の専門家の意見を多数決で作成された基準基準ラベルと比較すると、群衆の一致度は基準基準に対する専門家の平均一致度よりも高かった(87.4%対80.8%+/-1.6; p<0.001)。
結論: ゲーミフィケーションアプローチによるBライン分類のためのクラウドソースラベルは、エキスパートレベルの品質を達成した。
スケーラブルで高品質なラベル付けアプローチは、機械学習モデル開発のためのトレーニングデータセット作成を容易にする可能性がある。 Study Objective: Machine learning models have advanced medical image processing and can yield faster, more accurate diagnoses. Despite a wealth of available medical imaging data, high-quality labeled data for model training is lacking. We investigated whether a gamified crowdsourcing platform enhanced with inbuilt quality control metrics can produce lung ultrasound clip labels comparable to those from clinical experts. Methods: 2,384 lung ultrasound clips were retrospectively collected from 203 patients. Six lung ultrasound experts classified 393 of these clips as having no B-lines, one or more discrete B-lines, or confluent B-lines to create two sets of reference standard labels (195 training set clips and 198 test set clips). Sets were respectively used to A) train users on a gamified crowdsourcing platform, and B) compare concordance of the resulting crowd labels to the concordance of individual experts to reference standards. Results: 99,238 crowdsourced opinions on 2,384 lung ultrasound clips were collected from 426 unique users over 8 days. On the 198 test set clips, mean labeling concordance of individual experts relative to the reference standard was 85.0% +/- 2.0 (SEM), compared to 87.9% crowdsourced label concordance (p=0.15). When individual experts' opinions were compared to reference standard labels created by majority vote excluding their own opinion, crowd concordance was higher than the mean concordance of individual experts to reference standards (87.4% vs. 80.8% +/- 1.6; p<0.001). Conclusion: Crowdsourced labels for B-line classification via a gamified approach achieved expert-level quality. Scalable, high-quality labeling approaches may facilitate training dataset creation for machine learning model development. | 翻訳日:2023-06-13 16:47:17 公開日:2023-06-11 |
# グラフと注意ネットワークを用いた単語学習におけるサンプル間関係 Between-Sample Relationship in Learning Tabular Data Using Graph and Attention Networks ( http://arxiv.org/abs/2306.06772v1 ) ライセンス: Link先を確認 | Shourav B. Rabbani and Manar D. Samad | (参考訳) 従来の機械学習では、表データのサンプルは独立で同一に分散されていると仮定している。
この仮定は、表現学習におけるサンプル関係内およびサンプル間の有用な情報を見逃す可能性がある。
本稿では,グラフニューラルネットワーク(GNN)を用いて,初めてサンプル間関係を組み込むことにより,表型データ表現を学習するためのi.d仮定を緩和する。
本仮説は,いくつかのgnnと最先端(sota)深層注意モデルを用いて,従来の機械学習手法と比較し,10個の表型データセットのサンプル間関係を学習する。
GNN法は大きな特徴対サンプル比を持つ表データ上で最高の性能を示す。
その結果,5つのデータセット上での従来の機械学習と,3つのデータセット上でのSOTA深層表型学習よりも注目度の高いGNN手法が優れていることがわかった。
GNNとディープ・アテンション・メソッドによるサンプル間学習は10データセットのうち7セットで最高の分類精度が得られる。
これは、i.i.d仮定がほとんどの表型データセットに対して常に成り立つとは限らないことを示唆する。 Traditional machine learning assumes samples in tabular data to be independent and identically distributed (i.i.d). This assumption may miss useful information within and between sample relationships in representation learning. This paper relaxes the i.i.d assumption to learn tabular data representations by incorporating between-sample relationships for the first time using graph neural networks (GNN). We investigate our hypothesis using several GNNs and state-of-the-art (SOTA) deep attention models to learn the between-sample relationship on ten tabular data sets by comparing them to traditional machine learning methods. GNN methods show the best performance on tabular data with large feature-to-sample ratios. Our results reveal that attention-based GNN methods outperform traditional machine learning on five data sets and SOTA deep tabular learning methods on three data sets. Between-sample learning via GNN and deep attention methods yield the best classification accuracy on seven of the ten data sets. This suggests that the i.i.d assumption may not always hold for most tabular data sets. | 翻訳日:2023-06-13 16:46:48 公開日:2023-06-11 |
# エージェント分析によるロボットタスク学習のためのLLMからの知識抽出の改善 Improving Knowledge Extraction from LLMs for Robotic Task Learning through Agent Analysis ( http://arxiv.org/abs/2306.06770v1 ) ライセンス: Link先を確認 | James R. Kirk Robert E. Wray Peter Lindes | (参考訳) 大規模言語モデル(LLM)は、ロボットタスク学習の知識源として、大きな約束を提供する。
プロンプトエンジニアリングはllmから知識を引き出すのに有効であることが示されているが、新しいタスクを学習する具体化ロボットエージェントにとって、関連する、状況に応じた知識を得るには不十分である。
本稿では,ロボットがネイティブ言語能力,具体化,環境,ユーザの嗜好にマッチする新しいタスク知識を身につけることを可能にする,プロンプトエンジニアリングを拡張・補完する認知エージェントアプローチについて述べる。
アプローチは,LSMの応答空間を拡大し,自律ロボット内に埋め込まれた一般的な戦略を展開し,LSMが生成する候補の応答を評価し,修復し,選択することである。
本稿では,ロボットが,llmからの応答の多さを検索し,評価することで,一発学習で75%以上のタスク完了を達成できることを示すアプローチと実験について述べる。
このアプローチは、人間の監視(好みの表示など)が提供されるときに100%のタスク完了を達成すると同時に、人間の監視がどれだけ必要かを大幅に削減する。 Large language models (LLMs) offer significant promise as a knowledge source for robotic task learning. Prompt engineering has been shown to be effective for eliciting knowledge from an LLM but alone is insufficient for acquiring relevant, situationally grounded knowledge for an embodied robotic agent learning novel tasks. We describe a cognitive-agent approach that extends and complements prompt engineering, mitigating its limitations, and thus enabling a robot to acquire new task knowledge matched to its native language capabilities, embodiment, environment, and user preferences. The approach is to increase the response space of LLMs and deploy general strategies, embedded within the autonomous robot, to evaluate, repair, and select among candidate responses produced by the LLM. We describe the approach and experiments that show how a robot, by retrieving and evaluating a breadth of responses from the LLM, can achieve >75% task completion in one-shot learning without user oversight. The approach achieves 100% task completion when human oversight (such as indication of preference) is provided, while greatly reducing how much human oversight is needed. | 翻訳日:2023-06-13 16:46:29 公開日:2023-06-11 |
# ChatGPT と LLM の医療イメージ保有者への影響 : 展望とユースケース The Impact of ChatGPT and LLMs on Medical Imaging Stakeholders: Perspectives and Use Cases ( http://arxiv.org/abs/2306.06767v1 ) ライセンス: Link先を確認 | Jiancheng Yang, Hongwei Bran Li, Donglai Wei | (参考訳) 本研究では,医療画像におけるOpenAI ChatGPTなどの大規模言語モデル(LLM)の変換可能性について検討する。
公衆データの助けを借りて、これらのモデルは優れた言語理解と生成能力を持ち、放射線科医の解釈スキルを増強し、患者と物理学者のコミュニケーションを強化し、臨床ワークフローを合理化する。
本稿では,企業,保険法人,政府,研究機関,病院(通称BIGR-H)など医療画像利害関係者の複雑な相互作用を示すための分析枠組みについて紹介する。
この視点は、詳細な分析、説明的ユースケース、より広範な意味と今後の方向性に関する議論を通じて、AI対応ヘルスケアの時代における戦略的計画と意思決定に関する議論を提起することを目指している。 This study investigates the transformative potential of Large Language Models (LLMs), such as OpenAI ChatGPT, in medical imaging. With the aid of public data, these models, which possess remarkable language understanding and generation capabilities, are augmenting the interpretive skills of radiologists, enhancing patient-physician communication, and streamlining clinical workflows. The paper introduces an analytic framework for presenting the complex interactions between LLMs and the broader ecosystem of medical imaging stakeholders, including businesses, insurance entities, governments, research institutions, and hospitals (nicknamed BIGR-H). Through detailed analyses, illustrative use cases, and discussions on the broader implications and future directions, this perspective seeks to raise discussion in strategic planning and decision-making in the era of AI-enabled healthcare. | 翻訳日:2023-06-13 16:45:57 公開日:2023-06-11 |
# 物理形強化学習による無線ディジタル双生児の汎用無線ナビゲーション Generalizable Wireless Navigation through Physics-Informed Reinforcement Learning in Wireless Digital Twin ( http://arxiv.org/abs/2306.06766v1 ) ライセンス: Link先を確認 | Mingsheng Yin, Tao Li, Haozhe Lei, Yaqi Hu, Sundeep Rangan, and Quanyan Zhu | (参考訳) 無線信号を利用した屋内ロボットナビゲーションへの注目の高まりは、これらの信号が高分解能の角・時間計測を捉える能力に起因している。
しかし,無線屋内ナビゲーション(WIN)にエンドツーエンドの汎用強化学習(RL)を採用することは,一般化能力の限界とサンプル効率の低下から,まだ大きな課題である。
同時に、無線周波数伝搬に基づく純粋にモデルベースのソリューションは単純で一般化可能であるが、複雑な環境で最適な決定を見出すことはできない。
本研究は, 最適軌道に関する物理インフォームド項とともに, 目標間距離に基づく標準コストである新しい物理インフォームドrl(pirl)を提案する。
提案したPIRLは、電磁放射(EM)シミュレーションを付加したAI Habitatデータセットから、屋内環境の大規模なシミュレーションに基づいて構築された無線デジタルツイン(WDT)を用いて評価される。
PIRLは、一般化性と性能の観点から、標準RLと純粋に物理ベースのソリューションの両方で著しく優れていた。
さらに、結果のPIRLポリシーは、物理ヒューリスティックと経験的に一致していると説明できる。 The growing focus on indoor robot navigation utilizing wireless signals has stemmed from the capability of these signals to capture high-resolution angular and temporal measurements. However, employing end-to-end generic reinforcement learning (RL) for wireless indoor navigation (WIN) in initially unknown environments remains a significant challenge, due to its limited generalization ability and poor sample efficiency. At the same time, purely model-based solutions, based on radio frequency propagation, are simple and generalizable, but unable to find optimal decisions in complex environments. This work proposes a novel physics-informed RL (PIRL) were a standard distance-to-target-based cost along with physics-informed terms on the optimal trajectory. The proposed PIRL is evaluated using a wireless digital twin (WDT) built upon simulations of a large class of indoor environments from the AI Habitat dataset augmented with electromagnetic radiation (EM) simulation for wireless signals. It is shown that the PIRL significantly outperforms both standard RL and purely physics-based solutions in terms of generalizability and performance. Furthermore, the resulting PIRL policy is explainable in that it is empirically consistent with the physics heuristic. | 翻訳日:2023-06-13 16:45:31 公開日:2023-06-11 |
# 確率推定フレームワークのための漸近的最適逆戦略 Asymptotically Optimal Adversarial Strategies for the Probability Estimation Framework ( http://arxiv.org/abs/2306.06802v1 ) ライセンス: Link先を確認 | Soumyadip Patra and Peter Bierhorst | (参考訳) 確率推定フレームワークは、測定設定とサイド情報に基づいて、結果の発生確率を直接推定することを含む。
量子非局所性実験におけるランダム性を証明する強力なツールである。
本稿では,本手法の漸近的最適性の自己完結的証明を提案する。
提案手法は,プロトコルに対する最適な敵攻撃のキャラクタリゼーションを向上するために,先行結果を改良する。
これらの結果を (2,2,2) Bell のシナリオに適用し,非シグナリング原理による最適対向攻撃の解析的特性を得るとともに, PEF 法の漸近的ロバスト性を示す。
また、(2,2,2)ベルシナリオにおける量子制限逆数と、より高い$(n,m,k)$ベルシナリオにおける符号なし逆数への解析の拡張についても検討する。 The Probability Estimation Framework involves direct estimation of the probability of occurrences of outcomes conditioned on measurement settings and side information. It is a powerful tool for certifying randomness in quantum non-locality experiments. In this paper, we present a self-contained proof of the asymptotic optimality of the method. Our approach refines earlier results to allow a better characterisation of optimal adversarial attacks on the protocol. We apply these results to the (2,2,2) Bell scenario, obtaining an analytic characterisation of the optimal adversarial attacks bound by no-signalling principles, while also demonstrating the asymptotic robustness of the PEF method to deviations from expected experimental behaviour. We also study extensions of the analysis to quantum-limited adversaries in the (2,2,2) Bell scenario and no-signalling adversaries in higher $(n,m,k)$ Bell scenarios. | 翻訳日:2023-06-13 16:39:28 公開日:2023-06-11 |
# CARNA:学習した多値決定図を用いた心不全リスクとヘモディナミック表現型の特徴 CARNA: Characterizing Advanced heart failure Risk and hemodyNAmic phenotypes using learned multi-valued decision diagrams ( http://arxiv.org/abs/2306.06801v1 ) ライセンス: Link先を確認 | Josephine Lamp, Yuxin Wu, Steven Lamp, Prince Afriyie, Kenneth Bilchick, Lu Feng, Sula Mazimba | (参考訳) 高リスク心不全(HF)患者の早期発見は、救命療法のタイムリーな割り当ての鍵となる。
血行動態評価はリスク階層化を促進し、hf軌道の理解を深める。
しかし、hfのリスクアセスメントは複雑で多面的な意思決定プロセスであり、困難である。
従来のHFのリスクモデルは、侵入血行動態を統合したり、欠落したデータをサポートしたりせず、解釈不可能なバイアスや機械学習の手法による統計手法を用いている。
これらの制約に対処するため,本論文では,機械学習による多値決定図(MVDD)の説明可能性と表現性を利用した,高度HFのための血行性リスク階層化および表現型フレームワークであるCARNAを提案する。
この解釈可能なフレームワークは、患者結果の確率を予測するリスクスコアを学習し、各予測されたリスクスコアを特徴付ける記述型患者表現型(特徴と閾値の集合)を出力する。
CARNAは侵襲的な血行動態を取り入れ、欠落したデータの予測を行う。
carnaモデルは、前回の臨床試験から収集した5つの先進的なhf患者コホートを用いてトレーニングと検証を行い、6つの確立されたhfリスクスコアと3つの従来のmlリスクモデルと比較した。
CARNAは堅牢なリスク階層化を提供する。
先進的なHFに焦点を当てているが、CARNAフレームワークは汎用的であり、他の疾患や医療応用のリスク層化を学ぶのに使用できる。 Early identification of high risk heart failure (HF) patients is key to timely allocation of life-saving therapies. Hemodynamic assessments can facilitate risk stratification and enhance understanding of HF trajectories. However, risk assessment for HF is a complex, multi-faceted decision-making process that can be challenging. Previous risk models for HF do not integrate invasive hemodynamics or support missing data, and use statistical methods prone to bias or machine learning methods that are not interpretable. To address these limitations, this paper presents CARNA, a hemodynamic risk stratification and phenotyping framework for advanced HF that takes advantage of the explainability and expressivity of machine learned Multi-Valued Decision Diagrams (MVDDs). This interpretable framework learns risk scores that predict the probability of patient outcomes, and outputs descriptive patient phenotypes (sets of features and thresholds) that characterize each predicted risk score. CARNA incorporates invasive hemodynamics and can make predictions on missing data. The CARNA models were trained and validated using a total of five advanced HF patient cohorts collected from previous trials, and compared with six established HF risk scores and three traditional ML risk models. CARNA provides robust risk stratification, outperforming all previous benchmarks. Although focused on advanced HF, the CARNA framework is general purpose and can be used to learn risk stratifications for other diseases and medical applications. | 翻訳日:2023-06-13 16:39:13 公開日:2023-06-11 |
# aramus: アラビア語自然言語処理のためのデータとモデルスケールの限界を押し上げる AraMUS: Pushing the Limits of Data and Model Scale for Arabic Natural Language Processing ( http://arxiv.org/abs/2306.06800v1 ) ライセンス: Link先を確認 | Asaad Alghamdi, Xinyu Duan, Wei Jiang, Zhenhai Wang, Yimeng Wu, Qingrong Xia, Zhefeng Wang, Yi Zheng, Mehdi Rezagholizadeh, Baoxing Huai, Peilun Cheng, Abbas Ghaddar | (参考訳) 単言語による大規模事前学習言語モデル(PLM)の開発は自然言語処理(NLP)における様々なタスクの処理に非常に成功している。
本研究では,アラビア語 PLM 最大11B パラメータを持つアラビア語 PLM である AraMUS について述べる。
AraMUSはアラビア語の分類と生成タスクの多様なセットで最先端のパフォーマンスを達成する。
さらに、AraMUSは、最も優れたアラビアPLMと比較して、驚くべき数発の学習能力を示している。 Developing monolingual large Pre-trained Language Models (PLMs) is shown to be very successful in handling different tasks in Natural Language Processing (NLP). In this work, we present AraMUS, the largest Arabic PLM with 11B parameters trained on 529GB of high-quality Arabic textual data. AraMUS achieves state-of-the-art performances on a diverse set of Arabic classification and generative tasks. Moreover, AraMUS shows impressive few-shot learning abilities compared with the best existing Arabic PLMs. | 翻訳日:2023-06-13 16:38:49 公開日:2023-06-11 |
# 3Dポイントクラウド強化学習の有効性について On the Efficacy of 3D Point Cloud Reinforcement Learning ( http://arxiv.org/abs/2306.06799v1 ) ライセンス: Link先を確認 | Zhan Ling, Yunchao Yao, Xuanlin Li, Hao Su | (参考訳) 視覚強化学習(visual RL)の最近の研究は、3次元視覚表現の利用を探求している。
しかしながら、これらの研究は、エージェント・オブジェクト・オブジェクト関係推論の観点から3次元表現と異なるタスク間の2次元表現の有効性を体系的に比較したものではない。
本研究では,3dネイティブ空間で特徴を学習する3dニューラルネットワークが,ビジュアルrlにとって有益な帰納的バイアスとなるかどうか,その疑問に対する答えを求める。
特に、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目します。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
さらに、ミニマリスト合成タスクと複雑なロボット操作タスクの両方において、2D画像と3DポイントクラウドRL法の比較により、3DポイントクラウドRLがエージェントオブジェクト/オブジェクト関係エンコーディングが重要な要素である場合、その2Dよりも大幅に優れていることがわかった。 Recent studies on visual reinforcement learning (visual RL) have explored the use of 3D visual representations. However, none of these work has systematically compared the efficacy of 3D representations with 2D representations across different tasks, nor have they analyzed 3D representations from the perspective of agent-object / object-object relationship reasoning. In this work, we seek answers to the question of when and how do 3D neural networks that learn features in the 3D-native space provide a beneficial inductive bias for visual RL. We specifically focus on 3D point clouds, one of the most common forms of 3D representations. We systematically investigate design choices for 3D point cloud RL, leading to the development of a robust algorithm for various robotic manipulation and control tasks. Furthermore, through comparisons between 2D image vs 3D point cloud RL methods on both minimalist synthetic tasks and complex robotic manipulation tasks, we find that 3D point cloud RL can significantly outperform the 2D counterpart when agent-object / object-object relationship encoding is a key factor. | 翻訳日:2023-06-13 16:38:42 公開日:2023-06-11 |
# Kepler: 高速なパラメトリッククエリ最適化のためのロバスト学習 Kepler: Robust Learning for Faster Parametric Query Optimization ( http://arxiv.org/abs/2306.06798v1 ) ライセンス: Link先を確認 | Lyric Doshi, Vincent Zhuang, Gaurav Jain, Ryan Marcus, Haoyu Huang, Deniz Altinb\"uken, Eugene Brevdo, Campbell Fraser | (参考訳) 既存のパラメトリッククエリ最適化(PQO)技術の多くは、従来のクエリオプティマイザのコストモデルに依存している。
従来のクエリオプティマイザに比べてクエリレイテンシの大幅な高速化を示す,pqoに対するエンドツーエンドの学習ベースのアプローチであるkeplerを提案する。
この手法の中心は,サブプラン濃度空間における摂動に基づく新しいプラン生成アルゴリズムである行数進化 (rce) である。
従来のアプローチでは正確なコストモデルが必要であったが、実際の実行データを介して候補計画を評価し、MLモデルをトレーニングすることで、パラメータバインディング値の最速計画を予測することで、この要件を回避できる。
我々のモデルでは,最近のニューラルネットワークの不確実性を利用して,クエリ性能の回帰を回避しつつ,高速なプランを堅牢に予測している。
実験として、keplerはpostgresql上の複数のデータセットでクエリランタイムを大幅に改善できることを示しました。 Most existing parametric query optimization (PQO) techniques rely on traditional query optimizer cost models, which are often inaccurate and result in suboptimal query performance. We propose Kepler, an end-to-end learning-based approach to PQO that demonstrates significant speedups in query latency over a traditional query optimizer. Central to our method is Row Count Evolution (RCE), a novel plan generation algorithm based on perturbations in the sub-plan cardinality space. While previous approaches require accurate cost models, we bypass this requirement by evaluating candidate plans via actual execution data and training an ML model to predict the fastest plan given parameter binding values. Our models leverage recent advances in neural network uncertainty in order to robustly predict faster plans while avoiding regressions in query performance. Experimentally, we show that Kepler achieves significant improvements in query runtime on multiple datasets on PostgreSQL. | 翻訳日:2023-06-13 16:38:24 公開日:2023-06-11 |
# VBSF-TLD:ドローン検出におけるソフトコンピューティングによるトランスファー学習のための検証に基づくアプローチ VBSF-TLD: Validation-Based Approach for Soft Computing-Inspired Transfer Learning in Drone Detection ( http://arxiv.org/abs/2306.06797v1 ) ライセンス: Link先を確認 | Jaskaran Singh | (参考訳) iot(internet of things, モノのインターネット)の利用が増加し、ドローンが写真、配達、監視などのさまざまなアプリケーションで利用可能になったことで、プライバシーとセキュリティに関する懸念がより顕著になった。
ドローンは機密情報を捕捉し、プライバシーを侵害し、セキュリティリスクを引き起こすことができる。
その結果、ドローン検出を自動化する高度な技術への需要が重要になった。
本稿では,コンピュータビジョンベースモジュールの不可欠な部分を形成し,トランスファー学習を活用して性能を向上させる,トランスファーベースドローン検出スキームに関するプロジェクトを提案する。
関連するドメインから事前学習したモデルの知識を活用することで、限られたトレーニングデータでも結果が向上する。
提案手法の性能を評価するため,Drone-vs-BirdデータセットやUAVDTデータセットなど,ベンチマークデータセットのテストを行った。
特に、このスキームの有効性は、IOUベースの検証結果によって強調され、空港、軍事基地、その他の高セキュリティゾーンなどの重要な領域におけるドローン検出を自動化するためのディープラーニング技術の可能性を示している。 With the increasing utilization of Internet of Things (IoT) enabled drones in diverse applications like photography, delivery, and surveillance, concerns regarding privacy and security have become more prominent. Drones have the ability to capture sensitive information, compromise privacy, and pose security risks. As a result, the demand for advanced technology to automate drone detection has become crucial. This paper presents a project on a transfer-based drone detection scheme, which forms an integral part of a computer vision-based module and leverages transfer learning to enhance performance. By harnessing the knowledge of pre-trained models from a related domain, transfer learning enables improved results even with limited training data. To evaluate the scheme's performance, we conducted tests on benchmark datasets, including the Drone-vs-Bird Dataset and the UAVDT dataset. Notably, the scheme's effectiveness is highlighted by its IOU-based validation results, demonstrating the potential of deep learning-based technology in automating drone detection in critical areas such as airports, military bases, and other high-security zones. | 翻訳日:2023-06-13 16:38:05 公開日:2023-06-11 |
# 大規模言語モデルにおける盲点:超言語的言語情報 A blind spot for large language models: Supradiegetic linguistic information ( http://arxiv.org/abs/2306.06794v1 ) ライセンス: Link先を確認 | Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Jonathan St. Onge, Mikaela Fudolig, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds | (参考訳) ChatGPTのような大きな言語モデル(LLM)は、人工知能の分野における大きな変化を反映しており、驚くべきことに、衝撃的にも人間らしく、言語的な流布を達成している。
彼らの現在の能力と潜在能力の範囲は、科学研究者に限らず活発な調査領域である。
LLMのトレーニングデータを「テキスト」あるいは「言語」としてフレーム化することは一般的である。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
我々は,ChatGPTのようなLCMがどのようなものかを考えると,Nagel氏が言うように,言語訓練データへの露出は,言語に符号化されたダイジェティック情報への露出として生産的に再編成可能であり,その欠陥は,相補的言語情報を含む外的情報の無知として再編成可能であることを示唆する。
相補的言語情報は、ChatGPTのようなLLMがアクセス可能な文脈(頻度、隣接性、近接性、共起性)の1次元関係から導出できない物理的な言語の形の任意の側面で構成されている。
おおまかに言えば、単語のダイジェティック部分は、その機能、その意味を、単語の埋め込みにおける理論ベクトルの情報とみなすことができ、その単語の擬態的な部分は、その文字の形状や音節の音のような形として考えることができる。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。 Large Language Models (LLMs) like ChatGPT reflect profound changes in the field of Artificial Intelligence, achieving a linguistic fluency that is impressively, even shockingly, human-like. The extent of their current and potential capabilities is an active area of investigation by no means limited to scientific researchers. It is common for people to frame the training data for LLMs as "text" or even "language". We examine the details of this framing using ideas from several areas, including linguistics, embodied cognition, cognitive science, mathematics, and history. We propose that considering what it is like to be an LLM like ChatGPT, as Nagel might have put it, can help us gain insight into its capabilities in general, and in particular, that its exposure to linguistic training data can be productively reframed as exposure to the diegetic information encoded in language, and its deficits can be reframed as ignorance of extradiegetic information, including supradiegetic linguistic information. Supradiegetic linguistic information consists of those arbitrary aspects of the physical form of language that are not derivable from the one-dimensional relations of context -- frequency, adjacency, proximity, co-occurrence -- that LLMs like ChatGPT have access to. Roughly speaking, the diegetic portion of a word can be thought of as its function, its meaning, as the information in a theoretical vector in a word embedding, while the supradiegetic portion of the word can be thought of as its form, like the shapes of its letters or the sounds of its syllables. We use these concepts to investigate why LLMs like ChatGPT have trouble handling palindromes, the visual characteristics of symbols, translating Sumerian cuneiform, and continuing integer sequences. | 翻訳日:2023-06-13 16:37:46 公開日:2023-06-11 |
# 自由エネルギー原理のためのニューラルネットワークの実装 A Neural Network Implementation for Free Energy Principle ( http://arxiv.org/abs/2306.06792v1 ) ライセンス: Link先を確認 | Jingwei Liu | (参考訳) フリーエナジー原理(FEP)は、認知科学、神経科学、社会的相互作用、ハーメニューティクスなどの分野における様々な問題を考慮し、包括的枠組みと統合された脳理論として広く応用されている。
数学や統計学に深く根ざした計算モデルとして、FEPは変分ベイズに基づく最適化問題を提唱し、これは動的プログラミングや予測最大化によって解かれる。
しかし、FEPを機械学習に拡張し、ニューラルネットワークでそのようなモデルを実装するにはボトルネックがあるようだ。
本稿では,古典的なニューラルネットワークモデルであるhelmholtz machineを用いて,fepと機械学習を橋渡しする予備的試みを行う。
変動型機械学習モデルとして、ヘルムホルツマシンはfepと同じ目標である自由エネルギーを最小化することで最適化されている。
ヘルムホルツマシンは時間的ではないものの、バニラfepや脳の階層モデルと理想的に平行であり、その下にアクティブな推論と予測符号をコヒーレント的に定式化することができる。
詳細な理論的議論に加えて,仮説を検証するための予備実験も提示した。
アクティブな推論によってトレーニングされたニューラルネットワークを微調整することにより、モデル性能が99\%を超える精度に向上する。
一方、データ分布は、アクティブサンプリングの結果、モデル表現に準拠したサリエンスに連続的に変形する。 The free energy principle (FEP), as an encompassing framework and a unified brain theory, has been widely applied to account for various problems in fields such as cognitive science, neuroscience, social interaction, and hermeneutics. As a computational model deeply rooted in math and statistics, FEP posits an optimization problem based on variational Bayes, which is solved either by dynamic programming or expectation maximization in practice. However, there seems to be a bottleneck in extending the FEP to machine learning and implementing such models with neural networks. This paper gives a preliminary attempt at bridging FEP and machine learning, via a classical neural network model, the Helmholtz machine. As a variational machine learning model, the Helmholtz machine is optimized by minimizing its free energy, the same objective as FEP. Although the Helmholtz machine is not temporal, it gives an ideal parallel to the vanilla FEP and the hierarchical model of the brain, under which the active inference and predictive coding could be formulated coherently. Besides a detailed theoretical discussion, the paper also presents a preliminary experiment to validate the hypothesis. By fine-tuning the trained neural network through active inference, the model performance is promoted to accuracy above 99\%. In the meantime, the data distribution is continuously deformed to a salience that conforms to the model representation, as a result of active sampling. | 翻訳日:2023-06-13 16:37:12 公開日:2023-06-11 |
# ソフトアライメントによるグラフの混合 Graph Mixup with Soft Alignments ( http://arxiv.org/abs/2306.06788v1 ) ライセンス: Link先を確認 | Hongyi Ling, Zhimeng Jiang, Meng Liu, Shuiwang Ji, Na Zou | (参考訳) 本研究では,画像上で有効なmixupによるグラフデータ拡張について検討する。
mixupのキー操作は、一対の入力の凸結合を計算することである。
この操作は、画像のようなグリッドのようなデータでは簡単だが、グラフデータでは難しい。
重要な問題は、異なるグラフが通常異なる数のノードを持つという事実であり、したがってグラフ間のノードレベルの対応が欠けていることである。
本研究では,ソフトアライメントによるグラフ分類のための簡易かつ効果的な混合手法であるS-Mixupを提案する。
具体的には、一対のグラフが与えられたとき、2つのグラフ間のノードにマッチするソフト代入行列を演算することにより、明示的にノードレベルの対応を得る。
ソフトな割り当てに基づいて、1つのグラフの隣接性とノード特徴行列を変換し、変換されたグラフを他のグラフに整列させる。
このようにして、任意のグラフを直接混合して拡張グラフを生成することができる。
我々はS-Mixupがグラフ分類タスクにおけるグラフニューラルネットワーク(GNN)の性能と一般化を向上できることを示すための系統的な実験を行った。
さらに,S-Mixupはノイズラベルに対するGNNの堅牢性を高めることができることを示す。 We study graph data augmentation by mixup, which has been used successfully on images. A key operation of mixup is to compute a convex combination of a pair of inputs. This operation is straightforward for grid-like data, such as images, but challenging for graph data. The key difficulty lies in the fact that different graphs typically have different numbers of nodes, and thus there lacks a node-level correspondence between graphs. In this work, we propose S-Mixup, a simple yet effective mixup method for graph classification by soft alignments. Specifically, given a pair of graphs, we explicitly obtain node-level correspondence via computing a soft assignment matrix to match the nodes between two graphs. Based on the soft assignments, we transform the adjacency and node feature matrices of one graph, so that the transformed graph is aligned with the other graph. In this way, any pair of graphs can be mixed directly to generate an augmented graph. We conduct systematic experiments to show that S-Mixup can improve the performance and generalization of graph neural networks (GNNs) on various graph classification tasks. In addition, we show that S-Mixup can increase the robustness of GNNs against noisy labels. | 翻訳日:2023-06-13 16:36:47 公開日:2023-06-11 |
# Generative AIによるGreybox Fuzzingの拡張 Augmenting Greybox Fuzzing with Generative AI ( http://arxiv.org/abs/2306.06782v1 ) ライセンス: Link先を確認 | Jie Hu (University of California Riverside), Qian Zhang (University of California Riverside), Heng Yin (University of California Riverside) | (参考訳) 構造化された入力を期待する現実世界のプログラムは、しばしばより深いプログラム空間をゲーティングするフォーマット解析段階を持つ。
突然変異ベースのアプローチも生成的なアプローチも、効果的でスケーラブルなソリューションを提供することはできません。
膨大な量の自然言語コーパスで事前訓練された大規模言語モデル(LLM)は、暗黙のフォーマット構文を理解し、フォーマット変換入力を生成するのに有効であることが証明されている。
本稿では、生成AIによって強化されたグレーボックスファッザChatFuzzを提案する。
より具体的には、私たちはfuzzerのシードプールに種を選び、chatgpt生成モデルにバリエーションを与えます。
生成LDMモデルのパワーを収穫するためのベストプラクティスを探るため、広範囲にわたる実験を行った。
実験の結果,3つのよくテストされたベンチマークから12のターゲットプログラムに対して,soma greybox fuzzer (afl++) を12.77\%改善した。
脆弱性検出に関しては、明示的な構文規則を持つプログラムではAFL++と同等かそれ以上の動作が可能であるが、非自明な構文を持つプログラムでは実行できない。 Real-world programs expecting structured inputs often has a format-parsing stage gating the deeper program space. Neither a mutation-based approach nor a generative approach can provide a solution that is effective and scalable. Large language models (LLM) pre-trained with an enormous amount of natural language corpus have proved to be effective for understanding the implicit format syntax and generating format-conforming inputs. In this paper, propose ChatFuzz, a greybox fuzzer augmented by generative AI. More specifically, we pick a seed in the fuzzer's seed pool and prompt ChatGPT generative models to variations, which are more likely to be format-conforming and thus of high quality. We conduct extensive experiments to explore the best practice for harvesting the power of generative LLM models. The experiment results show that our approach improves the edge coverage by 12.77\% over the SOTA greybox fuzzer (AFL++) on 12 target programs from three well-tested benchmarks. As for vulnerability detection, \sys is able to perform similar to or better than AFL++ for programs with explicit syntax rules but not for programs with non-trivial syntax. | 翻訳日:2023-06-13 16:36:29 公開日:2023-06-11 |
# 信号時間論理仕様によるマルチエージェント強化学習 Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic Specifications ( http://arxiv.org/abs/2306.06808v1 ) ライセンス: Link先を確認 | Jiangwei Wang, Shuo Yang, Ziyan An, Songyang Han, Zhili Zhang, Rahul Mangharam, Meiyi Ma, Fei Miao | (参考訳) 深層強化学習(DRL)アルゴリズム設計への関心が高まっており、報酬設計はDRLの重要な要素である。
様々な技術の中で、DRLと統合された形式的手法は、その表現力とエージェントの状態と行動の要件を定義する能力により、かなりの注目を集めている。
しかし,マルチエージェント強化学習(marl)報酬設計における信号時相論理(stl)の文献は限られている。
本稿では,新しいstl誘導型マルチエージェント強化学習アルゴリズムを提案する。
STL仕様は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計されており、STL仕様のロバスト性値を利用して報酬を生成する。
本手法の利点を実証研究により検証する。
実験の結果,STL誘導を伴わないMARLと比較して有意に性能が向上し,マルチエージェントシステム全体の安全性が著しく向上した。 There has been growing interest in deep reinforcement learning (DRL) algorithm design, and reward design is one key component of DRL. Among the various techniques, formal methods integrated with DRL have garnered considerable attention due to their expressiveness and ability to define the requirements for the states and actions of the agent. However, the literature of Signal Temporal Logic (STL) in guiding multi-agent reinforcement learning (MARL) reward design remains limited. In this paper, we propose a novel STL-guided multi-agent reinforcement learning algorithm. The STL specifications are designed to include both task specifications according to the objective of each agent and safety specifications, and the robustness values of the STL specifications are leveraged to generate rewards. We validate the advantages of our method through empirical studies. The experimental results demonstrate significant performance improvements compared to MARL without STL guidance, along with a remarkable increase in the overall safety rate of the multi-agent systems. | 翻訳日:2023-06-13 16:26:10 公開日:2023-06-11 |
# MAgnitude Constrained Optimization を用いた深部ネットワークのアンロック特徴可視化 Unlocking Feature Visualization for Deeper Networks with MAgnitude Constrained Optimization ( http://arxiv.org/abs/2306.06805v1 ) ライセンス: Link先を確認 | Thomas Fel, Thibaut Boissin, Victor Boutin, Agustin Picard, Paul Novello, Julien Colin, Drew Linsley, Tom Rousseau, R\'emi Cad\`ene, Laurent Gardes, Thomas Serre | (参考訳) 機能可視化は、特に2017年のolahらによる影響力のある研究によって、説明可能性の重要なツールとして確立された後、かなりの人気を集めている。
しかしながら、解釈可能なイメージを生成するためのトリックへの依存と、より深いニューラルネットワークにスケールアップする際の課題により、広く採用されているのは限られている。
ここではこれらの欠点に対処するための簡単なアプローチであるMACOについて述べる。
主な考え方は、生成した説明が自然画像の空間に存在することを保証するために、位相スペクトルを最適化して画像を生成することである。
我々のアプローチは(質的にも量的にも)かなり良い結果をもたらし、大規模な最先端ニューラルネットワークの効率的かつ解釈可能な特徴可視化を解き放ちます。
また,我々のアプローチでは,特徴の可視化を空間的重要度で強化できる帰属機構が示されている。
特徴可視化手法を比較するための新しいベンチマークで本手法を検証し、画像Netデータセットの全クラスについてhttps://serre-lab.github.io/Lens/で視覚化する。
全体として、我々のアプローチは、パラメトリックな事前画像モデルに頼ることなく、大規模な最先端のディープニューラルネットワークの可視化を初めて行う。 Feature visualization has gained substantial popularity, particularly after the influential work by Olah et al. in 2017, which established it as a crucial tool for explainability. However, its widespread adoption has been limited due to a reliance on tricks to generate interpretable images, and corresponding challenges in scaling it to deeper neural networks. Here, we describe MACO, a simple approach to address these shortcomings. The main idea is to generate images by optimizing the phase spectrum while keeping the magnitude constant to ensure that generated explanations lie in the space of natural images. Our approach yields significantly better results (both qualitatively and quantitatively) and unlocks efficient and interpretable feature visualizations for large state-of-the-art neural networks. We also show that our approach exhibits an attribution mechanism allowing us to augment feature visualizations with spatial importance. We validate our method on a novel benchmark for comparing feature visualization methods, and release its visualizations for all classes of the ImageNet dataset on https://serre-lab.github.io/Lens/. Overall, our approach unlocks, for the first time, feature visualizations for large, state-of-the-art deep neural networks without resorting to any parametric prior image model. | 翻訳日:2023-06-13 16:25:54 公開日:2023-06-11 |
# アメリカ先住民言語のためのニューラルマシン翻訳:序論 Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction ( http://arxiv.org/abs/2306.06804v1 ) ライセンス: Link先を確認 | Manuel Mager, Rajat Bhatnagar, Graham Neubig, Ngoc Thang Vu, Katharina Kann | (参考訳) ニューラルモデルは、高リソース言語間の機械翻訳技術(mt)の飛躍的な進歩を遂げた。
伝統的に、これらのモデルは大量のトレーニングデータに依存しているが、多くの言語ペアはこれらのリソースを欠いている。
しかし、世界の言語の重要な部分は、この量のデータを持っていません。
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
本稿では,これらの言語のためのMTシステムの構築に関わる基本的な課題,概念,技術について,興味ある読者に紹介する。
最後に,これらの言語におけるNLPコミュニティの関心が高まり,最近の進歩,発見,オープンな疑問について論じる。 Neural models have drastically advanced state of the art for machine translation (MT) between high-resource languages. Traditionally, these models rely on large amounts of training data, but many language pairs lack these resources. However, an important part of the languages in the world do not have this amount of data. Most languages from the Americas are among them, having a limited amount of parallel and monolingual data, if any. Here, we present an introduction to the interested reader to the basic challenges, concepts, and techniques that involve the creation of MT systems for these languages. Finally, we discuss the recent advances and findings and open questions, product of an increased interest of the NLP community in these languages. | 翻訳日:2023-06-13 16:25:30 公開日:2023-06-11 |
# stable remaster: 古いコンテンツと新しいディスプレイのギャップを埋める Stable Remaster: Bridging the Gap Between Old Content and New Displays ( http://arxiv.org/abs/2306.06803v1 ) ライセンス: Link先を確認 | Nathan Paull, Shuvam Keshari, Yian Wong | (参考訳) 現代ディスプレイの発明により、スポーツから映画まで8Kの高精細解像度のコンテンツに対する視聴者体験が向上した。
しかし、crtや初期のプラズマスクリーンtv向けに開発された古いコンテンツは急速に時代遅れになり、現在のアスペクト比や解像度基準を満たしていない。
本稿では,この問題を拡散モデルを用いて,現代的期待に応えるために古いコンテンツに適応できるかどうかを考察する。
我々は、複数の独立したコンピュータビジョンタスクを組み合わせることで、新しいコンテンツがソースから新しいビューアに区別できないように、古いアニメーションコンテンツのアスペクト比を拡大する問題の解決を試みる。
既存の機能には、安定拡散、コンテンツ認識シーン検出、オブジェクト検出、キーポイントマッチングなどがある。
これらのタスクを合理的なアウトプットを生成する方法でうまく結びつけることができましたが、アプリケーションの改善と非アニメーションコンテンツへの拡張には、今後の作業が必要です。 The invention of modern displays has enhanced the viewer experience for any kind of content: ranging from sports to movies in 8K high-definition resolution. However, older content developed for CRT or early Plasma screen TVs has become outdated quickly and no longer meets current aspect ratio and resolution standards. In this paper, we explore whether we can solve this problem with the use of diffusion models to adapt old content to meet contemporary expectations. We explore the ability to combine multiple independent computer vision tasks to attempt to solve the problem of expanding aspect ratios of old animated content such that the new content would be indistinguishable from the source material to a brand-new viewer. These existing capabilities include Stable Diffusion, Content-Aware Scene Detection, Object Detection, and Key Point Matching. We were able to successfully chain these tasks together in a way that generated reasonable outputs, however, future work needs to be done to improve and expand the application to non-animated content as well. | 翻訳日:2023-06-13 16:25:20 公開日:2023-06-11 |
# エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v3 ) ライセンス: Link先を確認 | Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu | (参考訳) 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。
近年の研究では、LLMは高レベルの指示を提供することで、実施環境における複雑な逐次意思決定タスクを解くエージェントを支援することができることが示されている。
しかし、LLMとの対話には時間がかかる場合がある。多くの実践的なシナリオでは、リモートクラウドサーバノードにしかデプロイできない大量のストレージスペースが必要になる。
加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。
本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。
本稿では,目標タスクを達成するためにllmに相談する必要があるタイミングを決定する強化学習型メディエータモデルを提案する。
4つのミニグリッド環境におけるプランニングサブゴールを含む実験により、本手法は、llmとほんの数個の必要なインタラクションだけでターゲットタスクを解くことを学び、ベースライン法と比較してテスト環境でのインタラクションコストを大幅に削減できることが証明された。
また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。 Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an agent in solving complex sequential decision making tasks in embodied environments by providing high-level instructions. However, interacting with LLMs can be time-consuming, as in many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between the agent and an LLM. We propose a reinforcement learning based mediator model that determines when it is necessary to consult LLMs for high-level instructions to accomplish a target task. Experiments on 4 MiniGrid environments that entail planning sub-goals demonstrate that our method can learn to solve target tasks with only a few necessary interactions with an LLM, significantly reducing interaction costs in testing environments, compared with baseline methods. Experimental results also suggest that by learning a mediator model to interact with the LLM, the agent's performance becomes more robust against partial observability of the environment. Our code is available at https://github.com/ZJLAB-AMMI/LLM4RL. | 翻訳日:2023-06-13 11:36:09 公開日:2023-06-11 |
# SAMとDINOに基づく自動画像ブレンディングアルゴリズム Automatic Image Blending Algorithm Based on SAM and DINO ( http://arxiv.org/abs/2306.05382v2 ) ライセンス: Link先を確認 | Haochen Xue, Mingyu Jin, Chong Zhang, Yuxuan Huang, Qian Weng, Xiaobo Jin | (参考訳) 画像ブレンディングの分野は近年、視覚的に素晴らしいコンテンツを作る能力で人気を集めている。
しかし,現在のイメージブレンディングアルゴリズムには,次のような問題がある。
1) 画像ブレンディングマスクのマニュアル作成には,多くの人力と材料資源が必要である。
2) 画像ブレンディングアルゴリズムは, 輝度歪みと低分解能の問題を効果的に解けない。
そこで,提案する飽和損失に基づく2段階反復アルゴリズムと,輝度ゆらぎと低分解能の問題を修正するpanアルゴリズムを併用し,意味的物体検出とセグメンテーションと対応するマスク生成を併用して画像の自動ブレンドを行う新しい画像ブレンディング手法を提案する。
提案手法はPSNRやSSIMなどの様々なパフォーマンス指標において,従来の画像ブレンディングアルゴリズムよりも優れていた。 The field of image blending has gained popularity in recent years for its ability to create visually stunning content. However, the current image blending algorithm has the following problems: 1) The manual creation of the image blending mask requires a lot of manpower and material resources; 2) The image blending algorithm cannot effectively solve the problems of brightness distortion and low resolution. To this end, we propose a new image blending method: it combines semantic object detection and segmentation with corresponding mask generation to automatically blend images, while a two-stage iterative algorithm based on our proposed new saturation loss and PAN algorithm to fix brightness distortion and low resolution issues. Results on publicly available datasets show that our method outperforms many classic image blending algorithms on various performance metrics such as PSNR and SSIM. | 翻訳日:2023-06-13 11:26:27 公開日:2023-06-11 |