このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230613となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Digital Twin as a Service (DTaaS): Digital Twin開発者とユーザのためのプラットフォーム Digital Twin as a Service (DTaaS): A Platform for Digital Twin Developers and Users ( http://arxiv.org/abs/2305.07244v2 ) ライセンス: Link先を確認 | Prasad Talasila, Cl\'audio Gomes, Peter H{\o}gh Mikkelsen, Santiago Gil Arboleda, Eduard Kamburjan, Peter Gorm Larsen | (参考訳) デジタルツインの確立は、特にユーザーがゼロからツインツインを作成する上で大きな課題に直面した場合に、ささいな取り組みではない。
再利用可能なモデル、データ、ツールアセットの可用性は、デジタル双生児の作成と使用に役立つ。
デジタルツインの作成と使用を容易にするために、多くのデジタルツインフレームワークが存在する。
本稿では,デジタルツイン資産を作成,再利用可能な資産からデジタルツイン資産を作成し,デジタルツインを他のユーザに提供するためのデジタルツインフレームワークを提案する。
提案フレームワークは,再利用可能なアセットの管理,ストレージ,計算インフラストラクチャの提供,通信,監視タスクを自動化する。
ユーザはデジタルツインのレベルで動作し、残りの作業をサービスフレームワークとしてディジタルツインに委譲する。 Establishing digital twins is a non-trivial endeavour especially when users face significant challenges in creating them from scratch. Ready availability of reusable models, data and tool assets, can help with creation and use of digital twins. A number of digital twin frameworks exist to facilitate creation and use of digital twins. In this paper we propose a digital twin framework to author digital twin assets, create digital twins from reusable assets and make the digital twins available as a service to other users. The proposed framework automates the management of reusable assets, storage, provision of compute infrastructure, communication and monitoring tasks. The users operate at the level of digital twins and delegate rest of the work to the digital twin as a service framework. | 翻訳日:2023-10-24 08:54:19 公開日:2023-06-13 |
# 文対分類のための数ショット学習とそのソフトウェア工学への応用 Few-shot learning for sentence pair classification and its applications in software engineering ( http://arxiv.org/abs/2306.08058v1 ) ライセンス: Link先を確認 | Robert Kraig Helmeczi, Mucahit Cevik, Savas Y{\i}ld{\i}r{\i}m | (参考訳) GPTやT0のような大規模言語モデルは、少数のラベル付き例へのアクセスによって、多数のタスクにおいて高いパフォーマンスを達成するために実証的に示されているため、自然言語処理(NLP)領域では、限られたデータアクセスでモデルをトレーニングする能力がますます人気を博している。
BERTやその変種のようなより小さな言語モデルもまた、PET(Pattern-Exploiting Training)やSetFit(SetFit)といった数発の学習アルゴリズムと組み合わせることで、ラベル付きサンプルで強力なパフォーマンスを実現している。
この研究の焦点は、bertベースのモデルによる代替の少数ショット学習アプローチのパフォーマンスを調べることである。
特に、バニラファインチューニング、PET、およびSetFitは、トレーニングセットサイズの配列に対して、BERTベースの多数のチェックポイントと比較される。
この調査を容易にするために、ソフトウェア工学において、少数ショット学習の応用が検討されている。
各タスクに対して、詳細な経験分析により、高性能技術とその関連するモデルチェックポイントを特定する。
結果から,PETは強力な数発学習手法として確立し,数百のラベル付きサンプルを用いて,フルサイズのデータセットの微調整に近い性能を達成できることが示唆された。 Few-shot learning-the ability to train models with access to limited data-has become increasingly popular in the natural language processing (NLP) domain, as large language models such as GPT and T0 have been empirically shown to achieve high performance in numerous tasks with access to just a handful of labeled examples. Smaller language models such as BERT and its variants have also been shown to achieve strong performance with just a handful of labeled examples when combined with few-shot learning algorithms like pattern-exploiting training (PET) and SetFit. The focus of this work is to investigate the performance of alternative few-shot learning approaches with BERT-based models. Specifically, vanilla fine-tuning, PET and SetFit are compared for numerous BERT-based checkpoints over an array of training set sizes. To facilitate this investigation, applications of few-shot learning are considered in software engineering. For each task, high-performance techniques and their associated model checkpoints are identified through detailed empirical analysis. Our results establish PET as a strong few-shot learning approach, and our analysis shows that with just a few hundred labeled examples it can achieve performance near that of fine-tuning on full-sized data sets. | 翻訳日:2023-10-24 03:43:35 公開日:2023-06-13 |
# 契約によるコンテキストロボットミッションの正しい構成設計 Correct-by-Construction Design of Contextual Robotic Missions Using Contracts ( http://arxiv.org/abs/2306.08144v1 ) ライセンス: Link先を確認 | Piergiuseppe Mallozzi, Nir Piterman, Pierluigi Nuzzo, Gerardo Schneider, Patrizio Pelliccione | (参考訳) ロボットミッションを効果的に指定し、実装することは、実際の運用環境で様々なアプリケーションシナリオや状況を考慮して、ロボットのハイレベルなタスクを形式化し実行する必要があるため、ロボットシステムのソフトウェアエンジニアリングにいくつかの課題をもたらす。
複数のコンテキストを明示的に考慮した正しいミッション仕様を書くことは、退屈でエラーを起こしやすいタスクです。
さらに、コンテキストの数、すなわち仕様がより複雑になるにつれて、例えば合成法を用いて、正しい構成の実装を生成することができる。
これらの問題に対処するための実行可能なアプローチは、ミッション仕様をより小さなサブミッションに分解することであり、それぞれのサブミッションは特定のコンテキストに対応する。
しかし、このような構成アプローチは、全体的なミッションの正確性を保証する上でも課題となる。
本稿では,前提-保証契約を用いたコンテキストロボットミッションの仕様と実装のための新しい構成フレームワークを提案する。
ミッション仕様は階層的でモジュラーな方法でキャプチャされ、各サブミッションはロボットコントローラとして合成される。
サブミッションコントローラ間の動的切り替えの問題に対処し,一定の条件下での正確性を確保しつつ対処する。 Effectively specifying and implementing robotic missions pose a set of challenges to software engineering for robotic systems, since they require formalizing and executing a robot's high-level tasks while considering various application scenarios and conditions, also known as contexts, in real-world operational environments. Writing correct mission specifications that explicitly account for multiple contexts can be a tedious and error-prone task. Moreover, as the number of context, hence the specification, becomes more complex, generating a correct-by-construction implementation, e.g., by using synthesis methods, can become intractable. A viable approach to address these issues is to decompose the mission specification into smaller sub-missions, with each sub-mission corresponding to a specific context. However, such a compositional approach would still pose challenges in ensuring the overall mission correctness. In this paper, we propose a new, compositional framework for the specification and implementation of contextual robotic missions using assume-guarantee contracts. The mission specification is captured in a hierarchical and modular way and each sub-mission is synthesized as a robot controller. We address the problem of dynamically switching between sub-mission controllers while ensuring correctness under certain conditions. | 翻訳日:2023-10-23 19:47:27 公開日:2023-06-13 |
# ソフトウェア工学教育におけるニューロディバージェント学生の経済的配慮--4科目における介入から- Economical Accommodations for Neurodivergent Students in Software Engineering Education: Experiences from an Intervention in Four Undergraduate Courses ( http://arxiv.org/abs/2306.07643v1 ) ライセンス: Link先を確認 | Grischa Liebel and Steinunn Gr\'oa Sigur{\dh}ard\'ottir | (参考訳) ニューロダイバーシティ(英: neurodiversity)は、注意欠陥多動性障害(adhd)や失読症などを含む個人間の脳機能の変動を記述する包括的用語である。
一般人口では神経多様性が一般的であり、世界人口の5.0%から7.1%、7%がADHDとジスキシアと診断されている。
ニューロディヴァージェント(nd)の個人は、コミュニケーションの困難や、神経定型(nt)の個人に比べて注意力の低下など、特定のタスクで困難を経験することが多い。
しかし、それらは高い創造性や細部への注意といった特定の強みを示す。
そのため、経済的、倫理的、才能的理由からnd個人の導入性の向上が望ましい。
高等教育において、ND学生の闘争は十分に文書化されている。
この分野での一般的な問題は、他の学生やスタッフの意識の欠如、特に一部の学生にとって困難な評価形態、宿泊施設の不足である。
これらの要因は一般的にストレス、不安、究極的には研究から脱落するリスクにつながる。
ND学生の宿泊にはかなりの努力が必要である。
しかし、より小さな変更は、既に大きな影響を与える可能性がある。
本章では,アイスランドのレイキャヴィク大学における4つの学部のコンピュータサイエンスプログラムにおける介入から得られた教訓を,2つの期間にわたって要約する。
異なるND条件に対する関心グループによるアクセシビリティガイドラインに従って,ND観衆に特化されたスライドや課題の形式でコース資料を作成した。
私たちは、最小限の時間投資で教育者が複製できる小さな経済的な変化に注目しました。
本研究は,ND学生とNT学生の総合的な正の反応を示す2つの調査を通して,介入の有効性を評価した。 Neurodiversity is an umbrella term that describes variation in brain function among individuals, including conditions such as Attention deficit hyperactivity disorder (ADHD), or dyslexia. Neurodiversity is common in the general population, with an estimated 5.0% to 7.1% and 7% of the world population being diagnosed with ADHD and dyslexia respectively. Neurodivergent (ND) individuals often experience challenges in specific tasks, such as difficulties in communication or a reduced attention span in comparison to neurotypical (NT) individuals. However, they also exhibit specific strengths, such as high creativity or attention to detail. Therefore, improving the inclusion of ND individuals is desirable for economic, ethical, and for talent reasons. In higher education, struggles of ND students are well-documented. Common issues in this area are a lack of awareness among other students and staff, forms of assessment that are particularly challenging for some students, and a lack of offered accommodations. These factors commonly lead to stress, anxiety, and ultimately a risk of dropping out of the studies. Accommodations for ND students can require substantial effort. However, smaller changes in course material can already have major impact. In this chapter, we summarise the lessons learned from an intervention in four courses in undergraduate computer science programmes at Reykjavik University, Iceland, over a period of two terms. Following accessibility guidelines produced by interest groups for different ND conditions, we created course material in the form of slides and assignments specifically tailored to ND audiences. We focused on small, economical changes that could be replicated by educators with a minimal investment of time. We evaluated the success of our intervention through two surveys, showing an overall positive response among ND students and NT students. | 翻訳日:2023-10-23 19:46:50 公開日:2023-06-13 |
# TRACED: ソースコードのための実行対応事前トレーニング TRACED: Execution-aware Pre-training for Source Code ( http://arxiv.org/abs/2306.07487v1 ) ライセンス: Link先を確認 | Yangruibo Ding, Ben Steenhoek, Kexin Pei, Gail Kaiser, Wei Le, Baishakhi Ray | (参考訳) ソースコードの既存のトレーニング済み言語モデルのほとんどは、静的コードテキストの学習に重点を置いており、通常は静的コード構造(抽象構文木、依存性グラフなど)で拡張されている。
しかし、実際の実行前にプログラムセマンティクスが完全には公開されない。
プログラム実行の理解がなければ、静的に事前訓練されたモデルは、ブランチカバレッジや実行時変数値などの動的なコードプロパティを包括的にキャプチャすることができないため、セマンティッククローンの検索やソフトウェア脆弱性の検出といったコード理解タスクでは効果が低い。
言語モデルの静的な性質とプログラムの動的特性のギャップを埋めるために,ソースコードの実行を意識した事前学習戦略であるTRACEDを導入する。
具体的には,ソースコード,実行可能入力,および対応する実行トレースの組み合わせによる事前学習を行う。
私たちの目標は、事前トレーニング中に複雑な実行ロジックをコードモデルに教えることで、タスク固有の微調整中にコードを繰り返すことなく、動的コードプロパティを静的に推定できるようにすることです。
提案手法の有効性を説明するために,静的実行推定,クローン検索,脆弱性検出という3つの下流タスクのトレースを微調整し,評価した。
実験の結果、TRACEDは静的に事前訓練されたコードモデルを、完全な実行パス予測では12.4%、実行時変数値予測では25.2%改善した。
TRACEDはまた、4つの公開ベンチマークでクローン検索と脆弱性検出において、静的に事前訓練されたモデルよりも大幅に優れている。 Most existing pre-trained language models for source code focus on learning the static code text, typically augmented with static code structures (abstract syntax tree, dependency graphs, etc.). However, program semantics will not be fully exposed before the real execution. Without an understanding of the program execution, statically pre-trained models fail to comprehensively capture the dynamic code properties, such as the branch coverage and the runtime variable values, and they are consequently less effective at code understanding tasks, such as retrieving semantic clones and detecting software vulnerabilities. To close the gap between the static nature of language models and the dynamic characteristics of programs, we introduce TRACED, an execution-aware pre-training strategy for source code. Specifically, we pre-train code language models with a combination of source code, executable inputs, and corresponding execution traces. Our goal is to teach code models the complicated execution logic during the pre-training, enabling the model to statically estimate the dynamic code properties without repeatedly executing code during task-specific fine-tuning. To illustrate the effectiveness of our proposed approach, we fine-tune and evaluate TRACED on three downstream tasks: static execution estimation, clone retrieval, and vulnerability detection. The empirical results show that TRACED relatively improves the statically pre-trained code models by 12.4% for complete execution path prediction and by 25.2% for runtime variable value predictions. TRACED also significantly outperforms statically pre-trained models in clone retrieval and vulnerability detection across four public benchmarks. | 翻訳日:2023-10-23 19:45:54 公開日:2023-06-13 |
# ノーコードがデジタル製品開発に及ぼす影響 The impact of no-code on digital product development ( http://arxiv.org/abs/2307.16717v1 ) ライセンス: Link先を確認 | Simon Heuschkel | (参考訳) ローコードとノーコードプラットフォーム(LCNC)はこれまで以上に人気を博し(Kulkarni, 2021)、ローコードは内部のビジネスプロセスを最適化するために広く採用されている。
スタートアップは、コードなしのプラットフォーム(palios, 2022)を使って、主要なソフトウェア製品を作るようになっている。
本稿では,ソフトウェア製品の構築,ローンチ,スケールアップにノーコードプラットフォームを選択する理由,no-codeが持つメリットと制限,そしてその後にカスタム開発ソリューションに移行する理由について説明する。
成功したプロジェクトと非コードスタートアップの創業者との半構造化インタビューが10回行われた。
結果は、スピード、コスト削減、そしてコーディング知識の欠如が、起業家が最初にノーコードを選んだ主な理由であることを示している。
課題は多様であり、コードなしプラットフォーム、メーカーのスキル、製品に依存しています。
ノコードが確立した製品開発/製品管理フレームワークとメーカーの役割に与える影響について論じる。 Low- and no-code platforms (LCNC) have become more popular than ever (Kulkarni, 2021), with low-code broadly adopted to optimise internal business processes. Increasingly, startups build their primary software product using no-code platforms (Palios, 2022). This paper explores why entrepreneurs choose no-code platforms to build, launch and scale a software product, what benefits and limitations no-code has, and why they might transition to custom-developed solutions later. Ten semi-structured interviews with successful projects and no-code startup founders were conducted. The results show that speed, cost savings and the lack of coding knowledge are the primary reasons entrepreneurs choose no-code initially. Challenges are diverse and depend on the no-code platform, the maker's skill and the product. The impact of no-code on established product development/product management frameworks and the maker's role are discussed. | 翻訳日:2023-10-23 15:50:08 公開日:2023-06-13 |
# 重畳テキストを用いた画像の視覚的質問応答(VQA) Visual Question Answering (VQA) on Images with Superimposed Text ( http://arxiv.org/abs/2307.02489v1 ) ライセンス: Link先を確認 | Venkat Kodali and Daniel Berleant | (参考訳) 重ね合わせのテキストアノテーションは未定だが、ユビキタスであり、有用であり、特に医療画像において重要である。
医療画像はまた、低解像度、ノイズ、重畳されたテキストメタ情報による課題も強調している。
そこで我々は,VQA上の医療画像へのテキストの重ね合わせの影響を調査した。
以上の結果から,VQA性能の重要な指標を著しく劣化させることなく,テキストメタ情報を追加できることが判明した。
我々の発見は、AI技術を用いてVQAタスクを受けた医療画像であっても、画像にテキストを重畳するプラクティスを検証することが重要である。
この研究は、VQA全般、特に医療と医療の分野での理解を深めるのに役立ちます。 Superimposed text annotations have been under-investigated, yet are ubiquitous, useful and important, especially in medical images. Medical images also highlight the challenges posed by low resolution, noise and superimposed textual meta-information. Therefor we probed the impact of superimposing text onto medical images on VQA. Our results revealed that this textual meta-information can be added without severely degrading key measures of VQA performance. Our findings are significant because they validate the practice of superimposing text on images, even for medical images subjected to the VQA task using AI techniques. The work helps advance understanding of VQA in general and, in particular, in the domain of healthcare and medicine. | 翻訳日:2023-07-09 13:42:34 公開日:2023-06-13 |
# 感覚的知識共有によるソーシャルネットワークの抑うつ検出 Detect Depression from Social Networks with Sentiment Knowledge Sharing ( http://arxiv.org/abs/2306.14903v1 ) ライセンス: Link先を確認 | Yan Shi and Yao Tian and Chengwei Tong and Chunyan Zhu and Qianqian Li and Mengzhu Zhang and Wei Zhao and Yong Liao and Pengyuan Zhou | (参考訳) ソーシャルネットワークは、人々の視点、感情、思考、恐怖を広める上で重要な役割を果たす。
新型コロナウイルス(COVID-19)パンデミックのロックダウン期間を経て、うつ病の問題はますます注目され、感情表現の拠点としてソーシャルネットワークを頼りにしている個人もかなりの割合を占めている。
深層学習技術を用いて、うつ病の潜在的な兆候をソーシャルネットワークメッセージから識別することで、精神状態の早期発見が容易になる。
ソーシャルネットワークを通じてうつを検知する現在の取り組みは、典型的にはテキストコンテンツの分析にのみ依存し、他の潜在的な情報を見渡す。
本研究では,抑うつ状態と負の感情状態との間に強い相関関係を明らかにした。
外部知識のような関連性の統合は、うつ病を検出する貴重な洞察を与えることができる。
そこで我々は、共有感情知識を利用して抑うつ検出の有効性を高めるマルチタスクトレーニングフレームワークDeSKを提案する。
中国語と英語の両方のデータセットで実施された実験は、DeSKの言語間効果を示す。 Social network plays an important role in propagating people's viewpoints, emotions, thoughts, and fears. Notably, following lockdown periods during the COVID-19 pandemic, the issue of depression has garnered increasing attention, with a significant portion of individuals resorting to social networks as an outlet for expressing emotions. Using deep learning techniques to discern potential signs of depression from social network messages facilitates the early identification of mental health conditions. Current efforts in detecting depression through social networks typically rely solely on analyzing the textual content, overlooking other potential information. In this work, we conduct a thorough investigation that unveils a strong correlation between depression and negative emotional states. The integration of such associations as external knowledge can provide valuable insights for detecting depression. Accordingly, we propose a multi-task training framework, DeSK, which utilizes shared sentiment knowledge to enhance the efficacy of depression detection. Experiments conducted on both Chinese and English datasets demonstrate the cross-lingual effectiveness of DeSK. | 翻訳日:2023-07-02 13:26:04 公開日:2023-06-13 |
# 深層学習に基づく遅延線検出器の時空間多重イベント再構成 Deep Learning-Based Spatiotemporal Multi-Event Reconstruction for Delay Line Detectors ( http://arxiv.org/abs/2306.09359v1 ) ライセンス: Link先を確認 | Marco Knipfer, Stefan Meier, Jonas Heimerl, Peter Hommelhoff, Sergei Gleyzer | (参考訳) 非常に狭い時間窓の中の2つ以上の粒子の正確な観測は、現代物理学の課題である。
これはハンベリー・ブラウン=トウィス実験のような相関実験の可能性を生み出し、新しい物理的洞察をもたらす。
低エネルギー電子の場合、インシデント粒子ヒットの読み出しに後続の遅延線を持つマイクロチャネルプレートを使用することがあり、これは遅延線検出器と呼ばれる設定である。
複数の粒子の空間座標と時間座標は、デッド半径と呼ばれる領域の外側で完全に再構成することができる。
2つの電子が空間と時間に近接している興味深い事象の場合、電子の個々の位置を決定するには精巧なピーク探索アルゴリズムが必要である。
古典的手法は単一粒子衝突ではうまく機能するが、近接する複数の粒子によって引き起こされる事象を同定し、再構築することができない。
この課題に対処するために,このような多層粒子信号の位置と時刻を同定・再構成する時空間機械学習モデルを提案する。
このモデルでは、近傍の粒子衝突の解像度が従来のアプローチよりも大幅に向上し、いくつかのアーティファクトを取り除き、デッド半径を半分に減らすことができる。
機械学習モデルは遅延線検出器の時空間性能向上に有効であることを示す。 Accurate observation of two or more particles within a very narrow time window has always been a challenge in modern physics. It creates the possibility of correlation experiments, such as the ground-breaking Hanbury Brown-Twiss experiment, leading to new physical insights. For low-energy electrons, one possibility is to use a microchannel plate with subsequent delay lines for the readout of the incident particle hits, a setup called a Delay Line Detector. The spatial and temporal coordinates of more than one particle can be fully reconstructed outside a region called the dead radius. For interesting events, where two electrons are close in space and time, the determination of the individual positions of the electrons requires elaborate peak finding algorithms. While classical methods work well with single particle hits, they fail to identify and reconstruct events caused by multiple nearby particles. To address this challenge, we present a new spatiotemporal machine learning model to identify and reconstruct the position and time of such multi-hit particle signals. This model achieves a much better resolution for nearby particle hits compared to the classical approach, removing some of the artifacts and reducing the dead radius by half. We show that machine learning models can be effective in improving the spatiotemporal performance of delay line detectors. | 翻訳日:2023-06-26 01:53:42 公開日:2023-06-13 |
# ラフエッジの平滑化:自動生成マルチラティス遷移の評価 Smoothing the Rough Edges: Evaluating Automatically Generated Multi-Lattice Transitions ( http://arxiv.org/abs/2306.10055v1 ) ライセンス: Link先を確認 | Martha Baldwin, Nicholas A. Meisel, Christopher McComb | (参考訳) 付加物製造は、複雑な設計要件に対処しながら軽量な部品を製造するのに有利である。
この機能は、単位格子細胞の導入とそれらの細胞の階調によって強化されている。
ローディングが部分によって異なる場合、複数の異なる格子細胞タイプを使用することで、複数の格子構造が得られる。
このような構造では、単位細胞トポロジー間の急激な遷移がストレス集中を引き起こし、単位細胞間の境界が第一の障害点となる。
したがって、これらの領域は部分全体の機能を保証するために慎重に設計する必要がある。
計算設計手法が提案されているが、滑らかな遷移領域は依然として達成しづらい。
本研究は, 変分オートエンコーダを用いた遷移格子細胞生成の自動化方法を示し, 滑らかな遷移に寄与する因子について検討する。
計算実験により, トランジッション領域の滑らかさは, エンドポイントが潜在空間にどれだけ密接かによって強く予測できたが, トランジッション区間の数は唯一の予測因子ではなかった。 Additive manufacturing is advantageous for producing lightweight components while addressing complex design requirements. This capability has been bolstered by the introduction of unit lattice cells and the gradation of those cells. In cases where loading varies throughout a part, it may be beneficial to use multiple, distinct lattice cell types, resulting in multi-lattice structures. In such structures, abrupt transitions between unit cell topologies may cause stress concentrations, making the boundary between unit cell types a primary failure point. Thus, these regions require careful design in order to ensure the overall functionality of the part. Although computational design approaches have been proposed, smooth transition regions are still difficult to achieve, especially between lattices of drastically different topologies. This work demonstrates and assesses a method for using variational autoencoders to automate the creation of transitional lattice cells, examining the factors that contribute to smooth transitions. Through computational experimentation, it was found that the smoothness of transition regions was strongly predicted by how closely the endpoints were in the latent space, whereas the number of transition intervals was not a sole predictor. | 翻訳日:2023-06-26 01:40:00 公開日:2023-06-13 |
# 人工知能による芸術的実践の変化 A Shift In Artistic Practices through Artificial Intelligence ( http://arxiv.org/abs/2306.10054v1 ) ライセンス: Link先を確認 | K{\i}van\c{c} Tatar, Petter Ericson, Kelsey Cotton, Paola Torres N\'u\~nez del Prado, Roser Batlle-Roca, Beatriz Cabrero-Daniel, Sara Ljungblad, Georgios Diapoulis and Jabbar Hussain | (参考訳) 人工知能モデルによって生成されたコンテンツの爆発は、役割が変化し、価値が変化し、慣習が挑戦される芸術、音楽、メディアの文化的な変化を引き起こしている。
簡単に利用できる膨大なインターネットデータセットは、Web上のあらゆるコンテンツでAIモデルをトレーニングするための環境を作成しました。
AIモデルはオープンに共有され、世界中の多くの人々が利用しているので、この新しいパラダイムシフトは芸術的実践における現状にどのように挑戦するのだろうか?
ai技術は音楽、芸術、そして新しいメディアにどのような変化をもたらすのか? The explosion of content generated by Artificial Intelligence models has initiated a cultural shift in arts, music, and media, where roles are changing, values are shifting, and conventions are challenged. The readily available, vast dataset of the internet has created an environment for AI models to be trained on any content on the web. With AI models shared openly, and used by many, globally, how does this new paradigm shift challenge the status quo in artistic practices? What kind of changes will AI technology bring into music, arts, and new media? | 翻訳日:2023-06-26 01:39:42 公開日:2023-06-13 |
# NFTからMARSへ:NFTのためのマルチアテンションレコメンダシステム NFTs to MARS: Multi-Attention Recommender System for NFTs ( http://arxiv.org/abs/2306.10053v1 ) ライセンス: Link先を確認 | Seonmi Kim, Youngbin Lee, Yejin Kim, Joohwan Hong, and Yongjae Lee | (参考訳) レコメンダシステムは,様々なドメインにわたるユーザエクスペリエンス向上に不可欠なツールとなっている。
映画、音楽、電子商取引のレコメンデーターシステムについて広範な研究が行われてきたが、急速に成長し、経済的に重要なノンファンジブル・トークン(NFT)市場はいまだ探索されていない。
NFT市場の特徴と繁栄は、特定のニーズに対応し、その潜在能力を最大限に活用するために、カスタマイズされたレコメンドシステムを開発することの重要性を強調している。
本稿では,NFTの特長を考察し,NFT市場の課題に対処するために設計された最初のレコメンデータシステムを提案する。
具体的には,(1)ユーザとコンテンツの疎結合なインタラクションを扱うグラフ注意,(2)ユーザの特徴的嗜好を取り込むマルチモーダル注意,(3)nftの二重性を考慮したマルチタスク学習,の3つの特徴を持つnft(nft-mars)のためのマルチアテンションレコメンデーションシステムを開発した。
nft-marsの有効性を,ブロックチェーンから直接収集したnftのトランザクションデータを用いて様々なベースラインモデルと比較し,最も人気のあるnftコレクションの4つについて検証した。
ソースコードとデータはhttps://anonymous.4open.science/r/recsys2023-93edで入手できる。 Recommender systems have become essential tools for enhancing user experiences across various domains. While extensive research has been conducted on recommender systems for movies, music, and e-commerce, the rapidly growing and economically significant Non-Fungible Token (NFT) market remains underexplored. The unique characteristics and increasing prominence of the NFT market highlight the importance of developing tailored recommender systems to cater to its specific needs and unlock its full potential. In this paper, we examine the distinctive characteristics of NFTs and propose the first recommender system specifically designed to address NFT market challenges. In specific, we develop a Multi-Attention Recommender System for NFTs (NFT-MARS) with three key characteristics: (1) graph attention to handle sparse user-item interactions, (2) multi-modal attention to incorporate feature preference of users, and (3) multi-task learning to consider the dual nature of NFTs as both artwork and financial assets. We demonstrate the effectiveness of NFT-MARS compared to various baseline models using the actual transaction data of NFTs collected directly from blockchain for four of the most popular NFT collections. The source code and data are available at https://anonymous.4open.science/r/RecSys2023-93ED. | 翻訳日:2023-06-26 01:39:33 公開日:2023-06-13 |
# aiを割り当てる:プロンプトで学生に7つのアプローチ Assigning AI: Seven Approaches for Students, with Prompts ( http://arxiv.org/abs/2306.10052v1 ) ライセンス: Link先を確認 | Ethan Mollick, Lilach Mollick | (参考訳) 本稿では,Large Language Models(LLM)の教育における転換的役割とその学習ツールとしての可能性について検討する。
AI-tutor、AI-coach、AI-mentor、AI-teammate、AI-tool、AI-simulator、AI-studentは、それぞれ異なる教育上のメリットとリスクを持つ。
目的は、AIのアウトプットやエラー、バイアスといったリスクを軽減するために設計された実践的な戦略によって、AIについて学び、学ぶことを支援することである。
これらの戦略は、アクティブな監視、AI出力の批判的評価、および生徒のユニークな洞察とAI能力の相補性を促進する。
学生に「ループの中の人間」にとどまるよう促すことで、AIが代替ではなく支援ツールとして機能することを保証するとともに、学習成果を高めることを目指している。
授業におけるai支援学習の統合をナビゲートする教育者のための枠組みの提案 This paper examines the transformative role of Large Language Models (LLMs) in education and their potential as learning tools, despite their inherent risks and limitations. The authors propose seven approaches for utilizing AI in classrooms: AI-tutor, AI-coach, AI-mentor, AI-teammate, AI-tool, AI-simulator, and AI-student, each with distinct pedagogical benefits and risks. The aim is to help students learn with and about AI, with practical strategies designed to mitigate risks such as complacency about the AI's output, errors, and biases. These strategies promote active oversight, critical assessment of AI outputs, and complementarity of AI's capabilities with the students' unique insights. By challenging students to remain the "human in the loop," the authors aim to enhance learning outcomes while ensuring that AI serves as a supportive tool rather than a replacement. The proposed framework offers a guide for educators navigating the integration of AI-assisted learning in classrooms | 翻訳日:2023-06-26 01:39:06 公開日:2023-06-13 |
# 担保の少ないブロックチェーンローンを許可する Allowing Blockchain Loans with Low Collateral ( http://arxiv.org/abs/2306.11620v1 ) ライセンス: Link先を確認 | Tom Azoulay, Uri Carl, Ori Rottenstreich | (参考訳) 担保は、ローンの返済の担保となる価値の項目である。
ブロックチェーンベースのローンでは、暗号通貨が担保となる。
暗号通貨の高ボラティリティ(英語版)は、担保価値がローンの価値の倍に等しいという共通の慣行による参入の重大な障壁を意味する。
担保として機能する資産はロックされているため、多くの候補者が融資を受けるのを妨げている。
本稿では,融資者のリスクを抑えつつ,より低い担保付きローンを提供することにより,ローンをより使いやすくすることを目的とする。
ブロックチェーンから回収されたデータに基づいてクレジットスコアを使用して、ローンを返済する確率を予測する。
我々のプロトコルは、流動性提供者から与えられた初期金額を危険にさらすものではないが、過去に得られた利子の一部をリスクに晒すだけである。 Collateral is an item of value serving as security for the repayment of a loan. In blockchain-based loans, cryptocurrencies serve as the collateral. The high volatility of cryptocurrencies implies a serious barrier of entry with a common practice that collateral values equal multiple times the value of the loan. As assets serving as collateral are locked, this requirement prevents many candidates from obtaining loans. In this paper, we aim to make loans more accessible by offering loans with lower collateral, while keeping the risk for lenders bound. We use a credit score based on data recovered from the blockchain to predict how likely someone is to repay a loan. Our protocol does not risk the initial amount granted by liquidity providers, but only risks part of the interest yield gained by the protocol in the past. | 翻訳日:2023-06-26 01:19:57 公開日:2023-06-13 |
# ドッキングする分子をデザインするには、最善を尽くす必要がある We Should at Least Be Able to Design Molecules That Dock Well ( http://arxiv.org/abs/2006.16955v5 ) ライセンス: Link先を確認 | Tobiasz Cieplinski, Tomasz Danel, Sabina Podlewska, Stanislaw Jastrzebski | (参考訳) 望ましい性質を持つ化合物を設計することは、創薬過程の重要な要素である。
しかし、現実的な振り返りベンチマークの欠如と、将来的な検証の大幅なコストのため、この分野の進捗の測定は困難だった。
このギャップを埋めるために,タンパク質への分子結合を評価する一般的な計算手法であるドッキングに基づくベンチマークを提案する。
具体的には、人気のあるドッキングソフトウェアであるsminaによって高得点の薬のような分子を作ることが目標だ。
グラフベース生成モデルでは,ドッキングスコアの高い分子を現実的な大きさのトレーニングセットを用いて学習すると生成できないことが観察された。
これは、現在のデ・ノヴォの薬物設計モデルに限界があることを示唆している。
最後に、より単純なスコアリング関数に基づくベンチマークの簡易版を提案し、テストモデルで部分的に解くことができることを示す。
ベンチマークはhttps://github.com/cieplinski-tobiasz/smina-docking-benchmarkで入手可能なパッケージとしてリリースしています。
当社のベンチマークが、将来有望な薬物候補を自動的に生成する目標に向けた足掛かりになることを期待しています。 Designing compounds with desired properties is a key element of the drug discovery process. However, measuring progress in the field has been challenging due to the lack of realistic retrospective benchmarks, and the large cost of prospective validation. To close this gap, we propose a benchmark based on docking, a popular computational method for assessing molecule binding to a protein. Concretely, the goal is to generate drug-like molecules that are scored highly by SMINA, a popular docking software. We observe that popular graph-based generative models fail to generate molecules with a high docking score when trained using a realistically sized training set. This suggests a limitation of the current incarnation of models for de novo drug design. Finally, we propose a simplified version of the benchmark based on a simpler scoring function, and show that the tested models are able to partially solve it. We release the benchmark as an easy to use package available at https://github.com/cieplinski-tobiasz/smina-docking-benchmark. We hope that our benchmark will serve as a stepping stone towards the goal of automatically generating promising drug candidates. | 翻訳日:2023-06-17 04:47:46 公開日:2023-06-13 |
# WARM: 数学語問題解決のための弱い(+Semi)教師付きモデル WARM: A Weakly (+Semi) Supervised Model for Solving Math word Problems ( http://arxiv.org/abs/2104.06722v2 ) ライセンス: Link先を確認 | Oishik Chatterjee, Isha Pandey, Aashish Waikar, Vishwajeet Kumar, Ganesh Ramakrishnan | (参考訳) 数学語問題(MWP)の解法は自然言語処理において重要かつ困難な問題である。
mwp を解く既存のアプローチは、中間方程式の形で完全な監視を必要とする。
しかしながら、すべてのMWPに対応する方程式をラベル付けすることは、時間とコストのかかる作業である。
このような方程式アノテーションの課題に対処するために,最終回答のみを監督として必要とすることで,MWPを解くための弱教師付きモデルを提案する。
本稿では,まず問題記述と最終解を用いて方程式を生成することでこの問題にアプローチし,その後,教師付きMWPソルバの訓練に使用する。
本稿では,問題記述と解答から直接方程式を生成することを学ぶために,様々な弱教師付き手法を提案し,比較する。
広範な実験を通じて,本手法は,標準のmath23kとalarithデータセットを用いて,最先端の弱い教師付きアプローチよりも4.5%と32%の精度向上を達成できることを示した。
さらに、英語とヒンディー語(低リソース言語)でそれぞれ約10万mwpの新しいデータセットをキュレートし、リリースします。
これらのデータセットは、弱い教師付きモデルのトレーニングに適している。
また,半教師付き学習へのウォームの拡張と,結果のさらなる改善と洞察を提供する。 Solving math word problems (MWPs) is an important and challenging problem in natural language processing. Existing approaches to solve MWPs require full supervision in the form of intermediate equations. However, labeling every MWP with its corresponding equations is a time-consuming and expensive task. In order to address this challenge of equation annotation, we propose a weakly supervised model for solving MWPs by requiring only the final answer as supervision. We approach this problem by first learning to generate the equation using the problem description and the final answer, which we subsequently use to train a supervised MWP solver. We propose and compare various weakly supervised techniques to learn to generate equations directly from the problem description and answer. Through extensive experiments, we demonstrate that without using equations for supervision, our approach achieves accuracy gains of 4.5% and 32% over the state-of-the-art weakly supervised approach, on the standard Math23K and AllArith datasets respectively. Additionally, we curate and release new datasets of roughly 10k MWPs each in English and in Hindi (a low resource language).These datasets are suitable for training weakly supervised models. We also present an extension of WARMM to semi-supervised learning and present further improvements on results, along with insights. | 翻訳日:2023-06-17 04:41:38 公開日:2023-06-13 |
# グリーン自動機械学習に向けて:現状と今後の方向 Towards Green Automated Machine Learning: Status Quo and Future Directions ( http://arxiv.org/abs/2111.05850v4 ) ライセンス: Link先を確認 | Tanja Tornede and Alexander Tornede and Jonas Hanselle and Marcel Wever and Felix Mohr and Eyke H\"ullermeier | (参考訳) 自動機械学習(automl)は、機械学習アルゴリズムとそれらの構成の自動設定を、目の前の学習タスク(データセット)に合わせて、全体的な(ソフトウェア)ソリューション – マシンラーニングパイプライン – に置き換えることを目指している。
過去10年間で、AutoMLは数百のコントリビューションを持つ独立した研究分野へと発展してきた。
同時にAutoMLは、多くのアプローチが多くの機械学習パイプラインの(コストがかかる)評価と、多くのデータセットやアプローチにわたる高価な大規模な実験に依存しているため、高いリソース消費を批判されている。
本稿では,グリーンAIに関する最近の研究の精神の中で,AutoMLプロセス全体を環境に優しいものにするためのパラダイムであるGreen AutoMLを提案する。
そこで我々はまず,AutoMLツールの環境フットプリントの定量化について検討する。
その後、AutoMLツールrtを設計し、ベンチマークする方法に関するさまざまな戦略が生まれました。
彼らの「緑」、すなわち持続可能性は要約される。
最後に、環境フットプリントの透明性と、どのような研究インセンティブがコミュニティをより持続可能なAutoML研究の方向性へと導くかについて詳しく説明します。
さらに、Green AutoMLのすべての中核的な側面を特徴とする、すべてのAutoMLペーパーにアタッチされるサステナビリティチェックリストを提案する。 Automated machine learning (AutoML) strives for the automatic configuration of machine learning algorithms and their composition into an overall (software) solution - a machine learning pipeline - tailored to the learning task (dataset) at hand. Over the last decade, AutoML has developed into an independent research field with hundreds of contributions. At the same time, AutoML is being criticised for its high resource consumption as many approaches rely on the (costly) evaluation of many machine learning pipelines, as well as the expensive large scale experiments across many datasets and approaches. In the spirit of recent work on Green AI, this paper proposes Green AutoML, a paradigm to make the whole AutoML process more environmentally friendly. Therefore, we first elaborate on how to quantify the environmental footprint of an AutoML tool. Afterward, different strategies on how to design and benchmark an AutoML tool wrt. their "greenness", i.e. sustainability, are summarized. Finally, we elaborate on how to be transparent about the environmental footprint and what kind of research incentives could direct the community into a more sustainable AutoML research direction. Additionally, we propose a sustainability checklist to be attached to every AutoML paper featuring all core aspects of Green AutoML. | 翻訳日:2023-06-17 04:33:23 公開日:2023-06-13 |
# quantumnat: ノイズ注入,量子化,正規化を用いた量子ノイズアウェアトレーニング QuantumNAT: Quantum Noise-Aware Training with Noise Injection, Quantization and Normalization ( http://arxiv.org/abs/2110.11331v4 ) ライセンス: Link先を確認 | Hanrui Wang, Jiaqi Gu, Yongshan Ding, Zirui Li, Frederic T. Chong, David Z. Pan, Song Han | (参考訳) パラメータ化量子回路(PQC)は、短期量子ハードウェアにおける量子優位性を約束している。
しかし、大きな量子ノイズ(エラー)のため、PQCモデルの性能は実際の量子デバイスで著しく低下する。
量子ニューラルネットワーク(QNN)を例にとると、MNIST-4分類におけるノイズフリーシミュレーションとIBMQ-Yorktownのノイズ結果の精度ギャップは60%以上である。
既存のノイズ緩和法はPQCの特性を活かさない一般的な手法であるが、既存のPQCではノイズ効果を考慮していない。
そこで我々は,学習段階と推論段階の両方において雑音認識最適化を行い,ロバスト性を改善するためのpqc仕様のフレームワークであるquantumnatを提案する。
我々は,PQC測定結果に対する量子ノイズの影響を,スケーリングとシフト係数によるノイズフリー結果からの線形写像として実験的に観察した。
そこで本研究では,ノイズフリーシナリオとノイズフリーシナリオの特徴分布差を軽減するために,測定後の正規化を提案する。
さらに,ノイズに対するロバスト性を向上させるために,量子ハードウェアの現実的なノイズモデルに従ってpqcに量子エラーゲートを挿入することにより,学習プロセスへのノイズ注入を提案する。
最後に、測定結果を離散値に定量化するために測定後の量子化を導入し、復調効果を達成する。
6つの量子デバイスを用いた8つの分類タスクに関する広範な実験により、quantumnatは最大43%の精度を向上し、94%以上の2クラス、80%の4クラス、34%の10クラスの分類精度を実際の量子コンピュータで測定した。
PQCの構築とノイズアウェアトレーニングのコードは、TorchQuantumライブラリで利用可能である。 Parameterized Quantum Circuits (PQC) are promising towards quantum advantage on near-term quantum hardware. However, due to the large quantum noises (errors), the performance of PQC models has a severe degradation on real quantum devices. Take Quantum Neural Network (QNN) as an example, the accuracy gap between noise-free simulation and noisy results on IBMQ-Yorktown for MNIST-4 classification is over 60%. Existing noise mitigation methods are general ones without leveraging unique characteristics of PQC; on the other hand, existing PQC work does not consider noise effect. To this end, we present QuantumNAT, a PQC-specific framework to perform noise-aware optimizations in both training and inference stages to improve robustness. We experimentally observe that the effect of quantum noise to PQC measurement outcome is a linear map from noise-free outcome with a scaling and a shift factor. Motivated by that, we propose post-measurement normalization to mitigate the feature distribution differences between noise-free and noisy scenarios. Furthermore, to improve the robustness against noise, we propose noise injection to the training process by inserting quantum error gates to PQC according to realistic noise models of quantum hardware. Finally, post-measurement quantization is introduced to quantize the measurement outcomes to discrete values, achieving the denoising effect. Extensive experiments on 8 classification tasks using 6 quantum devices demonstrate that QuantumNAT improves accuracy by up to 43%, and achieves over 94% 2-class, 80% 4-class, and 34% 10-class classification accuracy measured on real quantum computers. The code for construction and noise-aware training of PQC is available in the TorchQuantum library. | 翻訳日:2023-06-17 04:32:15 公開日:2023-06-13 |
# 量子部分空間対角化の理論 A theory of quantum subspace diagonalization ( http://arxiv.org/abs/2110.07492v2 ) ライセンス: Link先を確認 | Ethan N. Epperly, Lin Lin, Yuji Nakatsukasa | (参考訳) 量子サブスペース対角化法は、量子コンピュータを用いて大規模な固有値問題を解くためのエキサイティングな新しいアルゴリズムである。
残念なことに、これらの手法は不条件の一般化固有値問題の解を必要とし、マトリクス対は機械精度よりもはるかに高い非無視可能な量のノイズによって崩壊する。
古典的 \rev{worst-case} 摂動理論の悲観的な予測にもかかわらず、一般化された固有値問題を標準的なトラルニケート戦略を用いて解くと、これらの手法は確実に機能する。
行列摂動理論における古典的結果の活用と発展により、この驚くべき現象の理論解析を行い、ある自然条件下では、量子部分空間対角化アルゴリズムが大きなエルミート行列の最小固有値を正確に計算できることを証明する。
我々は,理論の有効性を実証する数値実験を行い,トラルニケートレベルの選択のための実践的なガイダンスを提供する。
我々の新しい結果は、量子計算の文脈外の固有値問題に対して、独立した関心を持つこともできる。 Quantum subspace diagonalization methods are an exciting new class of algorithms for solving large\rev{-}scale eigenvalue problems using quantum computers. Unfortunately, these methods require the solution of an ill-conditioned generalized eigenvalue problem, with a matrix pair corrupted by a non-negligible amount of noise that is far above the machine precision. Despite pessimistic predictions from classical \rev{worst-case} perturbation theories, these methods can perform reliably well if the generalized eigenvalue problem is solved using a standard truncation strategy. By leveraging and advancing classical results in matrix perturbation theory, we provide a theoretical analysis of this surprising phenomenon, proving that under certain natural conditions, a quantum subspace diagonalization algorithm can accurately compute the smallest eigenvalue of a large Hermitian matrix. We give numerical experiments demonstrating the effectiveness of the theory and providing practical guidance for the choice of truncation level. Our new results can also be of independent interest to solving eigenvalue problems outside the context of quantum computation. | 翻訳日:2023-06-17 04:31:45 公開日:2023-06-13 |
# 深層強化学習におけるWhite-Box Adversarial Policies White-Box Adversarial Policies in Deep Reinforcement Learning ( http://arxiv.org/abs/2209.02167v2 ) ライセンス: Link先を確認 | Stephen Casper, Taylor Killian, Gabriel Kreiman, Dylan Hadfield-Menell | (参考訳) 強化学習(RL)では、敵エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することにより、敵ポリシーを開発することができる。
先行研究はこれらの攻撃のブラックボックス版を研究しており、敵は世界状態のみを観察し、ターゲットエージェントを環境の他の部分として扱う。
しかし、これは問題における追加的な構造を考慮に入れていない。
本研究では,ホワイトボックス攻撃に関する文献からインスピレーションを得て,より効果的な敵政策を訓練する。
ホワイトボックスの敵政策を調査し,ターゲットエージェントの内部状態へのアクセスが脆弱性の特定に有用であることを示す。
我々は2つの貢献をした。
1)攻撃者が各タイミングで標的の内的状態と世界的状態の両方を観察するホワイトボックスの敵ポリシーを導入する。
2プレイヤーゲームおよびテキスト生成言語モデルにおけるエージェント攻撃にこれらのポリシーを使用する方法を定式化する。
2)これらのポリシーはブラックボックス制御よりもターゲットエージェントに対する初期的および漸近的性能を向上できることを示す。
コードはhttps://github.com/thestephencasper/lm_white_box_attacksで入手できる。 In reinforcement learning (RL), adversarial policies can be developed by training an adversarial agent to minimize a target agent's rewards. Prior work has studied black-box versions of these attacks where the adversary only observes the world state and treats the target agent as any other part of the environment. However, this does not take into account additional structure in the problem. In this work, we take inspiration from the literature on white-box attacks to train more effective adversarial policies. We study white-box adversarial policies and show that having access to a target agent's internal state can be useful for identifying its vulnerabilities. We make two contributions. (1) We introduce white-box adversarial policies where an attacker observes both a target's internal state and the world state at each timestep. We formulate ways of using these policies to attack agents in 2-player games and text-generating language models. (2) We demonstrate that these policies can achieve higher initial and asymptotic performance against a target agent than black-box controls. Code is available at https://github.com/thestephencasper/lm_white_box_attacks | 翻訳日:2023-06-17 03:43:25 公開日:2023-06-13 |
# SPADE4: エピデミクスのスポーサリティと遅延埋め込みに基づく予測 SPADE4: Sparsity and Delay Embedding based Forecasting of Epidemics ( http://arxiv.org/abs/2211.08277v2 ) ライセンス: Link先を確認 | Esha Saha, Lam Si Tung Ho and Giang Tran | (参考訳) 病気の進化を予測することは、特にデータの可用性が不十分で不完全な場合、難しい。
感染症の流行をモデル化し予測するための最も一般的なツールは、区画モデルである。
彼らは人口を健康状態に応じて区画に階層化し、動的システムを用いてこれらの区画の動態をモデル化する。
しかしながら、これらの事前定義されたシステムは、病気の伝染と人間の相互作用の複雑さのために、流行の真のダイナミクスを捉えない可能性がある。
この欠点を克服するため,疫病予測のためのspersity and Delay Embedding based Forecasting (SPADE4)を提案する。
SPADE4は、他の変数や基礎となるシステムの知識なしに、観測可能な変数の将来の軌跡を予測する。
我々は,データ不足問題を扱うために分散回帰を伴うランダム特徴モデルを使い,観測変数から基礎となるシステムの性質を捉えるために takes の遅延埋め込み定理を用いる。
シミュレーションデータと実データの両方に適用した場合,本手法は区画モデルよりも優れていることを示す。 Predicting the evolution of diseases is challenging, especially when the data availability is scarce and incomplete. The most popular tools for modelling and predicting infectious disease epidemics are compartmental models. They stratify the population into compartments according to health status and model the dynamics of these compartments using dynamical systems. However, these predefined systems may not capture the true dynamics of the epidemic due to the complexity of the disease transmission and human interactions. In order to overcome this drawback, we propose Sparsity and Delay Embedding based Forecasting (SPADE4) for predicting epidemics. SPADE4 predicts the future trajectory of an observable variable without the knowledge of the other variables or the underlying system. We use random features model with sparse regression to handle the data scarcity issue and employ Takens' delay embedding theorem to capture the nature of the underlying system from the observed variable. We show that our approach outperforms compartmental models when applied to both simulated and real data. | 翻訳日:2023-06-17 03:16:31 公開日:2023-06-13 |
# rgb no more:jpeg視覚トランスフォーマーの最小デコード化 RGB no more: Minimally-decoded JPEG Vision Transformers ( http://arxiv.org/abs/2211.16421v2 ) ライセンス: Link先を確認 | Jeongsoo Park, Justin Johnson | (参考訳) コンピュータビジョンのためのほとんどのニューラルネットワークは、RGB画像を使って推論するように設計されている。
しかしながら、これらのRGBイメージはディスクに保存する前にJPEGでエンコードされることが多い。
その代わりに、JPEGの符号化機能から直接ViT(Vision Transformers)をトレーニングすることに重点を置いています。
こうすることで、デコードオーバーヘッドのほとんどを回避し、データのロードを加速できます。
既存の研究はこの側面を研究しているが、それらはCNNに焦点を当てている。
これらの符号化された機能は構造化されているため、CNNはそのようなデータを受け入れるためにアーキテクチャに大幅な変更を必要とする。
ここでは、ViTではそうではないことを示す。
また、これらの符号化された特徴に直接データ拡張に取り組むことで、我々の知る限り、この環境でのトレーニングの深みを探求していない。
これらの2つの改善 -- ViTとデータ拡張 -- により、我々のViT-Tiモデルは、最大39.2%の高速トレーニングと17.9%の高速推論を実現し、RGBと比較して精度が低下することを示した。 Most neural networks for computer vision are designed to infer using RGB images. However, these RGB images are commonly encoded in JPEG before saving to disk; decoding them imposes an unavoidable overhead for RGB networks. Instead, our work focuses on training Vision Transformers (ViT) directly from the encoded features of JPEG. This way, we can avoid most of the decoding overhead, accelerating data load. Existing works have studied this aspect but they focus on CNNs. Due to how these encoded features are structured, CNNs require heavy modification to their architecture to accept such data. Here, we show that this is not the case for ViTs. In addition, we tackle data augmentation directly on these encoded features, which to our knowledge, has not been explored in-depth for training in this setting. With these two improvements -- ViT and data augmentation -- we show that our ViT-Ti model achieves up to 39.2% faster training and 17.9% faster inference with no accuracy loss compared to the RGB counterpart. | 翻訳日:2023-06-17 03:06:03 公開日:2023-06-13 |
# 因果グラフにおけるフロントドア調整のための線形時間アルゴリズム Linear-Time Algorithms for Front-Door Adjustment in Causal Graphs ( http://arxiv.org/abs/2211.16468v3 ) ライセンス: Link先を確認 | Marcel Wien\"obst, Benito van der Zander, Maciej Li\'skiewicz | (参考訳) 観測データから因果効果を推定することは経験科学の基本的な課題である。
保守されていない共同ファウンダーがシステムに関わると、特に困難になる。
本論文は, 観測メディエータを用いて, 未観測のコンバウンドの存在下においても因果関係を識別できる古典的な手法である, 正面調整に焦点を当てたものである。
フロントドア推定の統計的特性はかなりよく理解されているが、アルゴリズム的な側面は長い間解明されていない。
最近、Jeong, Tian, and Barenboim [NeurIPS 2022] は、与えられた有向非巡回グラフ (DAG) におけるフロントドア基準を満たす集合を、$O(n^3(n+m))$ run time で見つけるための最初の多項式時間アルゴリズムを提示した。
我々の研究では、このタスクに対する最初の線形時間、すなわち$O(n+m)$のアルゴリズムを与え、漸近的に最適な時間複雑性に達する。
この結果はすべてのフロントドア調整セットの$o(n(n+m))$遅延列挙アルゴリズムを意味し、jeongらによる以前の作業も$n^3$で改善されている。
さらに, 最小のフロントドア調整セットを求める最初の線形時間アルゴリズムを提案する。
提案するアルゴリズムを複数のプログラミング言語に実装することで,実使用を容易にし,その実現性を実証的に検証する。 Causal effect estimation from observational data is a fundamental task in empirical sciences. It becomes particularly challenging when unobserved confounders are involved in a system. This paper focuses on front-door adjustment -- a classic technique which, using observed mediators allows to identify causal effects even in the presence of unobserved confounding. While the statistical properties of the front-door estimation are quite well understood, its algorithmic aspects remained unexplored for a long time. Recently, Jeong, Tian, and Barenboim [NeurIPS 2022] have presented the first polynomial-time algorithm for finding sets satisfying the front-door criterion in a given directed acyclic graph (DAG), with an $O(n^3(n+m))$ run time, where $n$ denotes the number of variables and $m$ the number of edges of the causal graph. In our work, we give the first linear-time, i.e., $O(n+m)$, algorithm for this task, which thus reaches the asymptotically optimal time complexity. This result implies an $O(n(n+m))$ delay enumeration algorithm of all front-door adjustment sets, again improving previous work by Jeong et al. by a factor of $n^3$. Moreover, we provide the first linear-time algorithm for finding a minimal front-door adjustment set. We offer implementations of our algorithms in multiple programming languages to facilitate practical usage and empirically validate their feasibility, even for large graphs. | 翻訳日:2023-06-17 02:54:03 公開日:2023-06-13 |
# 実雑音下での捕捉イオン量子誤差補正における絡み合いの観察 Witnessing entanglement in trapped-ion quantum error correction under realistic noise ( http://arxiv.org/abs/2212.07479v2 ) ライセンス: Link先を確認 | Andrea Rodriguez-Blanco, Farid Shahandeh, and Alejandro Bermudez | (参考訳) 量子エラー補正(QEC)は論理情報を複数の物理量子ビットに符号化することで冗長性を利用する。
QECの現在の実装では、完全でない2量子エンタングルゲートのシーケンスを使用して、情報を冗長にマルチパーティントエンタングル状態に符号化する。
また、エラーシンドロームを抽出するために、パリティチェック読み出し回路を構築するために、一連の2ビットゲートを使用する。
ノイズゲートの場合、両方のステップを完璧に実行することができず、QECの性能を評価するためにエラーモデルを提供する必要がある。
トラップイオンプラットフォームで使用される2量子光シフトゲートの平均ゲート不忠実度を推定するための詳細な顕微鏡誤差モデルを提案する。
我々は, 現象学的によく用いられる誤り率と, ここから導出される微小ゲート不忠実度を結合する, 顕微鏡パラメータによる先行エラー寄与を解析的に導出した。
次に、この現実的な誤差モデルを適用し、QECビルディングブロックとして機能する回路によって生成される多部絡み合いを定量化する。
我々は,より現実的な微視的雑音の影響を探究することにより,絡み合いの目撃者を用いて,最近の研究を補完する。 Quantum Error Correction (QEC) exploits redundancy by encoding logical information into multiple physical qubits. In current implementations of QEC, sequences of non-perfect two-qubit entangling gates are used to codify the information redundantly into multipartite entangled states. Also, to extract the error syndrome, a series of two-qubit gates are used to build parity-check readout circuits. In the case of noisy gates, both steps cannot be performed perfectly, and an error model needs to be provided to assess the performance of QEC. We present a detailed microscopic error model to estimate the average gate infidelity of two-qubit light-shift gates used in trapped-ion platforms. We analytically derive leading-error contributions in terms of microscopic parameters and present effective error models that connect the error rates typically used in phenomenological accounts to the microscopic gate infidelities hereby derived. We then apply this realistic error model to quantify the multipartite entanglement generated by circuits that act as QEC building blocks. We do so by using entanglement witnesses, complementing in this way the recent studies by exploring the effects of a more realistic microscopic noise. | 翻訳日:2023-06-17 02:43:27 公開日:2023-06-13 |
# 金および薄磁性誘電体板間の反発カシミール力の増強 Enhanced repulsive Casimir forces between gold and thin magnetodielectric plates ( http://arxiv.org/abs/2302.00865v2 ) ライセンス: Link先を確認 | Calum Shelden, Benjamin Spreng, Jeremy N. Munday | (参考訳) 金属板と磁性板の間の反発力を計算するとともに, 磁気板の特性を, 反発のノブのチューニングとして定量的に探究する。
すなわち、板の厚さと低周波誘電率と透過性である。
薄い磁気プレート (\leq 10\,\text{nm}$) の場合、反発は$\mu(0) \geq \epsilon(0)$ まで存在することができる。
また, 温度が引力および引力相互作用間の遷移距離に及ぼす影響についても検討した。
サブミクロン分離条件下での反発を可能にするためにパラメータを調整できることを示し、磁力ファンデルワールス材料を用いた既知の高分解能測定技術が利用できる可能性を示した。 We calculate repulsive Casimir forces between metallic and magnetic plates and quantitatively probe the magnetic plate's properties as tuning knobs for the repulsion. Namely, the plate's thickness and its low-frequency permittivity and permeability. For a thin magnetic plate ($\leq 10\,\text{nm}$), we find that repulsion can exist as long as $\mu(0) \geq \epsilon(0)$. We also explore the effect of temperature on the repulsion and transition distance between attractive and repulsive interactions. We show how the parameters can be tuned to allow repulsion at sub-micron separation regimes, making it potentially accessible to known high-resolution measurement techniques using magnetic van der Waals materials. | 翻訳日:2023-06-17 02:24:53 公開日:2023-06-13 |
# マルチモーダル入力と出力のための画像への接地言語モデル Grounding Language Models to Images for Multimodal Inputs and Outputs ( http://arxiv.org/abs/2301.13823v4 ) ライセンス: Link先を確認 | Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried | (参考訳) 本研究では,事前学習したテキストのみの言語モデルを視覚領域に最適化し,任意にインターリーブされた画像とテキストデータを処理し,検索した画像でインターリーブされたテキストを生成する。
本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。
我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。
これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。
本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。
当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。 We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings. | 翻訳日:2023-06-17 02:24:41 公開日:2023-06-13 |
# ネットワーク上でのモデル非依存連合学習に向けて Towards Model-Agnostic Federated Learning over Networks ( http://arxiv.org/abs/2302.04363v2 ) ライセンス: Link先を確認 | A. Jung, S. Abdurakhmanova, O. Kuznetsova, Y. SarcheshmehPour | (参考訳) 異種データとモデルのネットワークに対するモデルに依存しないフェデレーション学習手法を提案する。
ネットワーク構造は、ローカルデータセットの(統計学)類似性と、関連するローカル("personal")モデルとの類似性を反映する。
提案手法は,データのネットワーク構造から正規化項を導出した経験的リスク最小化の例である。
特に私たちは、共通のテストセットで同様の予測を行うために、よく接続されたローカルモデル、クラスタの形成が必要です。
提案手法は広範囲の局所モデルを可能にする。
これらの局所モデルに対する唯一の制限は、正規化された経験的リスク最小化(training)の効率的な実装を可能にすることである。
幅広いモデルに対して、そのような実装はscikit-learn、keras、pytorchといった高レベルのプログラミングライブラリで利用できる。 We present a model-agnostic federated learning method for networks of heterogeneous data and models. The network structure reflects similarities between the (statistics of) local datasets and, in turn, their associated local("personal") models. Our method is an instance of empirical risk minimization, with the regularization term derived from the network structure of data. In particular, we require well-connected local models, forming clusters, to yield similar predictions on a common test set. The proposed method allows for a wide range of local models. The only restriction on these local models is that they allow for efficient implementation of regularized empirical risk minimization (training). For a wide range of models, such implementations are available in high-level programming libraries including scikit-learn, Keras or PyTorch. | 翻訳日:2023-06-17 02:15:46 公開日:2023-06-13 |
# 条件付き変分オートエンコーダによる多様体次元の学習 Learning Manifold Dimensions with Conditional Variational Autoencoders ( http://arxiv.org/abs/2302.11756v2 ) ライセンス: Link先を確認 | Yijia Zheng, Tong He, Yixuan Qiu, David Wipf | (参考訳) 可変オートエンコーダ (VAE) とその条件拡張 (CVAE) は、複数の領域にわたる最先端の結果が得られるが、その正確な振る舞いは、特に低次元多様体上または近辺にあるデータ(画像など)の文脈において、完全には理解されていない。
例えば、先行研究は、グローバル最適vae解が正しい多様体次元を学習できることを示唆しているが、真のデータ分布からサンプルを生成するのに必要な(しかし十分ではない)条件は、厳密に証明されていない。
さらに、様々な種類の条件変数が導入された場合や、データサポートが多様体の和に拡張された場合(例えば、mnist の桁や関連する場合)、そのような考慮がどう変化するかは、まだ不明である。
本稿では,まずvae大域的ミニマが正しい多様体次元を回復できることを証明し,これらの点について考察する。
次に、この結果をより一般的なCVAEに拡張し、条件変数によってモデルがサンプル間で異なる次元の多様体を適応的に学習できるような実践的なシナリオを示す。
CVAE設計選択の実践的意味を持つ本分析は,合成データセットと実世界のデータセットの数値結果からも裏付けられる。 Although the variational autoencoder (VAE) and its conditional extension (CVAE) are capable of state-of-the-art results across multiple domains, their precise behavior is still not fully understood, particularly in the context of data (like images) that lie on or near a low-dimensional manifold. For example, while prior work has suggested that the globally optimal VAE solution can learn the correct manifold dimension, a necessary (but not sufficient) condition for producing samples from the true data distribution, this has never been rigorously proven. Moreover, it remains unclear how such considerations would change when various types of conditioning variables are introduced, or when the data support is extended to a union of manifolds (e.g., as is likely the case for MNIST digits and related). In this work, we address these points by first proving that VAE global minima are indeed capable of recovering the correct manifold dimension. We then extend this result to more general CVAEs, demonstrating practical scenarios whereby the conditioning variables allow the model to adaptively learn manifolds of varying dimension across samples. Our analyses, which have practical implications for various CVAE design choices, are also supported by numerical results on both synthetic and real-world datasets. | 翻訳日:2023-06-17 02:06:35 公開日:2023-06-13 |
# ピクセルからの混合交通制御と協調 Mixed Traffic Control and Coordination from Pixels ( http://arxiv.org/abs/2302.09167v2 ) ライセンス: Link先を確認 | Michael Villarreal, Bibek Poudel, Jia Pan, Weizi Li | (参考訳) 交通渋滞は社会の永続的な問題である。
既存の交通制御手法は、現在の渋滞レベルを緩和する上で無駄であることが証明されており、道路上での自律性の異なる車両の出現が増加するにつれて、研究者はロボットによるアイデアを探求するようになる。
これにより、ロボット車両が強化学習(RL)を通じて人間駆動車両を規制する交通制御が混在する。
しかし、既存の研究の多くは、環境流出や局所的な情報、すなわち車両の位置や速度などのグローバルな情報を含む正確な観測を用いている。
この情報を得るには、既存の道路インフラを巨大なセンサー環境で更新し、潜在的に望ましくない人間ドライバーと通信する必要がある。
画像観察をrlによる混合交通制御の代替として検討する。
1) 画像は,衛星画像,車載カメラシステム,交通監視システムを通じてユビキタスである。
2)画像は,環境から環境への観測空間の完全な再表示を必要としない。
3)画像は機器への通信のみを必要とする。
本研究では,画像観測を用いたロボット車両が,リング,フィギュア8,交差点,マージ,ボトルネックといった環境の正確な情報を用いて,同様の性能を実現することを示す。
あるシナリオでは、グローバルな交通情報とは対照的に、局所的な交通情報のみを使用しながら、マージ環境における平均車両速度が最大26%増加し、ボトルネック環境におけるアウトフローが6%上昇するなど、高精度な観測を用いて、アプローチがさらに優れています。 Traffic congestion is a persistent problem in our society. Existing methods for traffic control have proven futile in alleviating current congestion levels leading researchers to explore ideas with robot vehicles given the increased emergence of vehicles with different levels of autonomy on our roads. This gives rise to mixed traffic control, where robot vehicles regulate human-driven vehicles through reinforcement learning (RL). However, most existing studies use precise observations that involve global information, such as environment outflow, and local information, i.e., vehicle positions and velocities. Obtaining this information requires updating existing road infrastructure with vast sensor environments and communication to potentially unwilling human drivers. We consider image observations as the alternative for mixed traffic control via RL: 1) images are ubiquitous through satellite imagery, in-car camera systems, and traffic monitoring systems; 2) images do not require a complete re-imagination of the observation space from environment to environment; and 3) images only require communication to equipment. In this work, we show robot vehicles using image observations can achieve similar performance to using precise information on environments, including ring, figure eight, intersection, merge, and bottleneck. In certain scenarios, our approach even outperforms using precision observations, e.g., up to 26% increase in average vehicle velocity in the merge environment and a 6% increase in outflow in the bottleneck environment, despite only using local traffic information as opposed to global traffic information. | 翻訳日:2023-06-17 02:04:49 公開日:2023-06-13 |
# 合成強化学習における最適値関数のバウンダリング Bounding the Optimal Value Function in Compositional Reinforcement Learning ( http://arxiv.org/abs/2303.02557v2 ) ライセンス: Link先を確認 | Jacob Adamczyk and Volodymyr Makarenko and Argenis Arriojas and Stas Tiomkin and Rahul V. Kulkarni | (参考訳) 強化学習(RL)の分野では、エージェントは報酬関数でのみ異なる様々な問題を解くことを任務とすることが多い。
新しい報酬関数で未発見の問題を解決するために、よく使われるアプローチは、以前に解決されたタスクの機能的構成を含む。
しかし、そのような機能的合成を用いた以前の研究は主に、極限仮定が正確なゼロショット合成を許容する構成関数の特定の例に焦点を当てていた。
我々の研究はこれらの例を統一し、標準およびエントロピー規則化RLにおける構成性のより一般的なフレームワークを提供する。
関数の幅広いクラスに対して、興味のある複合タスクの最適解は既知の原始的なタスクの解と関連することが分かる。
具体的には, 最適合成値関数とプリミティブタスクの値関数との関係を, 両面不等式で示す。
また,ゼロショットポリシの使用に対する後悔は,このタイプの関数に限定できることを示した。
導出境界は、トレーニング中に不確実性を減らし、エージェントが新しいタスクに迅速に適応できるように、クリッピングアプローチを開発するのに使うことができる。 In the field of reinforcement learning (RL), agents are often tasked with solving a variety of problems differing only in their reward functions. In order to quickly obtain solutions to unseen problems with new reward functions, a popular approach involves functional composition of previously solved tasks. However, previous work using such functional composition has primarily focused on specific instances of composition functions whose limiting assumptions allow for exact zero-shot composition. Our work unifies these examples and provides a more general framework for compositionality in both standard and entropy-regularized RL. We find that, for a broad class of functions, the optimal solution for the composite task of interest can be related to the known primitive task solutions. Specifically, we present double-sided inequalities relating the optimal composite value function to the value functions for the primitive tasks. We also show that the regret of using a zero-shot policy can be bounded for this class of functions. The derived bounds can be used to develop clipping approaches for reducing uncertainty during training, allowing agents to quickly adapt to new tasks. | 翻訳日:2023-06-17 01:57:46 公開日:2023-06-13 |
# エイリアス付き観測による潜在グラフの高速探索と学習 Fast exploration and learning of latent graphs with aliased observations ( http://arxiv.org/abs/2303.07397v3 ) ライセンス: Link先を確認 | Miguel Lazaro-Gredilla, Ishan Deshpande, Sivaramakrishnan Swaminathan, Meet Dave, Dileep George | (参考訳) 我々は各ノードの観測値が \emph{aliased} であり、遷移が確率的である潜在グラフを復元する問題を考える。
観察は、グラフを横切るエージェントによって収集されます。
エイリアスとは、複数のノードが同じ観測を行うことを意味するため、エージェントはそのノードがどこにあるかを知ることができない。
エージェントは、隠れたトポロジーを可能な限り正確に、最小限のステップで発見する必要があります。
これは、観測確率が知られている部分観測可能なマルコフ決定過程(POMDP)の遷移確率の効率的な回復と等価である。
潜在グラフを効率的に探索(そして最終的に回復)するアルゴリズムを提供する。
我々のアプローチは、無知な体制における既存のベースラインと競合しながらも、観測可能な様々な難解なトポロジにおいて、素早い探索よりも指数関数的に速い。 We consider the problem of recovering a latent graph where the observations at each node are \emph{aliased}, and transitions are stochastic. Observations are gathered by an agent traversing the graph. Aliasing means that multiple nodes emit the same observation, so the agent can not know in which node it is located. The agent needs to uncover the hidden topology as accurately as possible and in as few steps as possible. This is equivalent to efficient recovery of the transition probabilities of a partially observable Markov decision process (POMDP) in which the observation probabilities are known. An algorithm for efficiently exploring (and ultimately recovering) the latent graph is provided. Our approach is exponentially faster than naive exploration in a variety of challenging topologies with aliased observations while remaining competitive with existing baselines in the unaliased regime. | 翻訳日:2023-06-17 01:46:03 公開日:2023-06-13 |
# B-Learner:隠蔽による異種因果効果の準Oracle境界 B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under Hidden Confounding ( http://arxiv.org/abs/2304.10577v2 ) ライセンス: Link先を確認 | Miruna Oprescu, Jacob Dorn, Marah Ghoummaid, Andrew Jesson, Nathan Kallus, Uri Shalit | (参考訳) 観察データから異種治療効果を推定することは、多くの分野において重要な課題であり、政策立案者や意思決定者がより良い行動を取るのを助ける。
近年, 条件平均処理効果(CATE)関数を推定するための頑健かつ効率的な手法が開発されているが, これらの手法は, 観測データに基づく因果推定を任意かつ無作為に偏見できる隠蔽の危険性を考慮していないことが多い。
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
平均治療効果(dorn et al., 2021)の鋭く有効な境界をkallus & oprescu (2023) によって与えられた枠組みに適用し, 条件分布的治療効果のロバストでモデルに依存しない学習を行うことにより, b-learnerを導出する。
B-ラーナーは、ランダム森林やディープニューラルネットワークなどの関数推定器を使用でき、その推定値が有効で、鋭く、効率的であり、既存の手法よりも一般的な条件下で構成推定器に対して準オーラル特性を有することを証明できる。
半合成実験により理論的結果が検証され,実世界のデータを用いて実際にどのように用いられるかを示す。 Estimating heterogeneous treatment effects from observational data is a crucial task across many fields, helping policy and decision-makers take better actions. There has been recent progress on robust and efficient methods for estimating the conditional average treatment effect (CATE) function, but these methods often do not take into account the risk of hidden confounding, which could arbitrarily and unknowingly bias any causal estimate based on observational data. We propose a meta-learner called the B-Learner, which can efficiently learn sharp bounds on the CATE function under limits on the level of hidden confounding. We derive the B-Learner by adapting recent results for sharp and valid bounds of the average treatment effect (Dorn et al., 2021) into the framework given by Kallus & Oprescu (2023) for robust and model-agnostic learning of conditional distributional treatment effects. The B-Learner can use any function estimator such as random forests and deep neural networks, and we prove its estimates are valid, sharp, efficient, and have a quasi-oracle property with respect to the constituent estimators under more general conditions than existing methods. Semi-synthetic experimental comparisons validate the theoretical findings, and we use real-world data to demonstrate how the method might be used in practice. | 翻訳日:2023-06-17 01:18:55 公開日:2023-06-13 |
# 強結合ボースポーラロンの統一理論:反発ポーラロンから非ガウス多体バウンド状態へ A unified theory of strong coupling Bose polarons: From repulsive polarons to non-Gaussian many-body bound states ( http://arxiv.org/abs/2305.00835v3 ) ライセンス: Link先を確認 | Nader Mostaan, Nathan Goldman, Fabian Grusdt | (参考訳) 我々は、フェシュバッハ共鳴を通じて、ホストボース・アインシュタイン凝縮体(BEC)と強く相互作用する移動不純物のボースポーラロン問題に対処する。
強い結合における反発側では、理論的なアプローチは2つの異なるポラロン分岐を誘引性および反発性ポラロンに対応させて予測するが、この2つがどのように関連しているかは定かではない。
これは、弱い反発的(安定)ボソン・ボソン相互作用と強い魅力(不安定)な不純物・ボソン相互作用の競合によるものであり、その相互作用は現代の理論手法では説明が難しい。
ここでは、無限個のボソニック励起を含む不純物-ボソン散乱状態間のガウス相関と、不純物-ボソン結合状態を占めるボソン間の正確な非ガウス相関を結合する強力な変分フレームワークを開発する。
この変分スキームは、共鳴の反発側でフェシュバッハ分子に生じる強い非線形性の完全な処理を可能にする。
この枠組みでは,不純物誘起不安定性とボソン-ボソン相互作用による安定化の相互作用が,誘電体と反発性ポラロンの中間エネルギーにおける準安定多体結合状態の離散的集合をもたらすことを示した。
これらの状態は非ガウス量子相関の形で強い量子統計特性を示し、その特徴づけには平均場以外の摂動性を必要とする。
さらに、これらの多体結合状態は分子スペクトル重みを持ち、分子分光法技術によってアクセス可能である。
この研究は、フェシュバッハ共鳴の反発側における魅力的で反発的なボースポーラロンの統一理論を提供する。 We address the Bose polaron problem of a mobile impurity interacting strongly with a host Bose-Einstein condensate (BEC) through a Feshbach resonance. On the repulsive side at strong couplings, theoretical approaches predict two distinct polaron branches corresponding to attractive and repulsive polarons, but it remains unclear how the two are related. This is partly due to the challenges resulting from a competition of strongly attractive (destabilizing) impurity-boson interactions with weakly repulsive (stabilizing) boson-boson interactions, whose interplay is difficult to describe with contemporary theoretical methods. Here we develop a powerful variational framework that combines Gaussian correlations among impurity-boson scattering states, including up to an infinite number of bosonic excitations, with exact non-Gaussian correlations among bosons occupying an impurity-boson bound state. This variational scheme enables a full treatment of strong nonlinearities arising in the Feshbach molecule on the repulsive side of the resonance. Within this framework, we demonstrate that the interplay of impurity-induced instability and stabilization by repulsive boson-boson interactions results in a discrete set of metastable many-body bound states at intermediate energies between the attractive and repulsive polaron branches. These states exhibit strong quantum statistical characteristics in the form of non-Gaussian quantum correlations, requiring non-perturbative beyond mean-field treatments for their characterization. Furthermore, these many-body bound states have sizable molecular spectral weights, accessible via molecular spectroscopy techniques. This work provides a unified theory of attractive and repulsive Bose polarons on the repulsive side of the Feshbach resonance. | 翻訳日:2023-06-17 01:08:22 公開日:2023-06-13 |
# 説明責任ツールはジェンダーバイアスか?
顔提示攻撃検出に関する事例研究 Are Explainability Tools Gender Biased? A Case Study on Face Presentation Attack Detection ( http://arxiv.org/abs/2304.13419v2 ) ライセンス: Link先を確認 | Marco Huber, Meiling Fang, Fadi Boutros, Naser Damer | (参考訳) 顔認識(fr)システムは日常的に普及し続けており、深層学習を主とするfrシステムの説明可能性や解釈性の向上が求められている。
frシステムにおける集団間のバイアスは既に研究されているが、説明可能性ツールのバイアスはまだ調査されていない。
このようなツールは、さらなる開発を指揮し、コンピュータビジョンの問題をよりよく理解することを目的としているため、その結果にバイアスが存在することは、バイアスのある決定の連鎖につながる可能性がある。
本稿では,顔提示攻撃検出の応用事例を検証し,説明可能性ツールの結果におけるバイアスの存在について検討する。
バイアスレベルの異なるモデル上で2つの異なる説明可能性ツールを利用することで、これらのツールの結果におけるバイアスを調べる。
本研究は、これらのツールが説明の質に性別バイアスの兆候を示すことを示している。 Face recognition (FR) systems continue to spread in our daily lives with an increasing demand for higher explainability and interpretability of FR systems that are mainly based on deep learning. While bias across demographic groups in FR systems has already been studied, the bias of explainability tools has not yet been investigated. As such tools aim at steering further development and enabling a better understanding of computer vision problems, the possible existence of bias in their outcome can lead to a chain of biased decisions. In this paper, we explore the existence of bias in the outcome of explainability tools by investigating the use case of face presentation attack detection. By utilizing two different explainability tools on models with different levels of bias, we investigate the bias in the outcome of such tools. Our study shows that these tools show clear signs of gender bias in the quality of their explanations. | 翻訳日:2023-06-17 01:06:47 公開日:2023-06-13 |
# 環境相違下における視覚に基づく長期変動予測の批判的視点 A Critical View of Vision-Based Long-Term Dynamics Prediction Under Environment Misalignment ( http://arxiv.org/abs/2305.07648v2 ) ライセンス: Link先を確認 | Hanchen Xie, Jiageng Zhu, Mahyar Khayatkhoei, Jiazhi Li, Mohamed E. Hussein, Wael AbdAlmageed | (参考訳) 現在およびそれ以前の状態に基づいてシーンオブジェクトの将来の状態を予測する問題であるダイナミクス予測は、物理学習の例として注目されている。
この問題を解決するために,視覚モデルである地域提案畳み込みインタラクションネットワーク(rpcin)を提案し,長期予測において最先端の性能を達成した。
RPCINは、各オブジェクトのバウンディングボックスやセグメンテーションマスクなど、生の画像と単純なオブジェクト記述のみを入力として取ります。
しかし、その成功にもかかわらず、モデルの性能は環境不整合の条件下で損なわれる可能性がある。
本稿では,これらの課題に対して,SimB-Border,SimB-Split,BlenB-Border,BlenB-Splitの4つのデータセットを提案することで,環境不整合に関する2つの課題について検討する。
データセットは2つのドメインと2つのコンテキストをカバーする。
RPCINをプローブとして、提案したデータセットの組み合わせによる実験により、視覚に基づく長期力学予測モデルの潜在的な弱点が明らかになった。
さらに,提案するデータに対する課題を劇的な緩和として,クロスドメインの課題を軽減し,その方向性を裏付ける具体的な証拠を提供する有望な方向性を提案する。 Dynamics prediction, which is the problem of predicting future states of scene objects based on current and prior states, is drawing increasing attention as an instance of learning physics. To solve this problem, Region Proposal Convolutional Interaction Network (RPCIN), a vision-based model, was proposed and achieved state-of-the-art performance in long-term prediction. RPCIN only takes raw images and simple object descriptions, such as the bounding box and segmentation mask of each object, as input. However, despite its success, the model's capability can be compromised under conditions of environment misalignment. In this paper, we investigate two challenging conditions for environment misalignment: Cross-Domain and Cross-Context by proposing four datasets that are designed for these challenges: SimB-Border, SimB-Split, BlenB-Border, and BlenB-Split. The datasets cover two domains and two contexts. Using RPCIN as a probe, experiments conducted on the combinations of the proposed datasets reveal potential weaknesses of the vision-based long-term dynamics prediction model. Furthermore, we propose a promising direction to mitigate the Cross-Domain challenge and provide concrete evidence supporting such a direction, which provides dramatic alleviation of the challenge on the proposed datasets. | 翻訳日:2023-06-17 00:46:40 公開日:2023-06-13 |
# 化合物相互接続によるマルチbvoc超解像化 Multi-BVOC Super-Resolution Exploiting Compounds Inter-Connection ( http://arxiv.org/abs/2305.14180v2 ) ライセンス: Link先を確認 | Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro | (参考訳) 地球の大気中に地球生態系から放出される生体揮発性有機化合物(BVOC)は大気化学の重要な構成要素である。
測定が不十分なため、BVOCの放射マップの信頼性の向上は、大気化学、気候、大気質のモデルにより密集したデータを提供するのに役立つ。
本研究では, 異なる化合物の寄与を同時に活用し, 粗bvoc排出マップの超解法を提案する。
そこで本研究ではまず,複数のBVOC種間の空間的相互接続を正確に検討する。
そこで,この類似性を生かして,多次元超解像 (misr) システムを構築し,多種多様な化合物に関連したエミッションマップを集約し,超解像 (sr) 性能を向上させる。
種と結合するBVOCの数について異なる構成を比較した。
実験の結果, BVOCsの関係をプロセスに組み込むことで, 超解写像の精度を大幅に向上できることがわかった。
興味深いことに、強い非相関化合物の放出マップを集約すると、最良の結果が得られる。
この特異性は、他のデータドメイン、すなわち結合された非相関情報は、misrのパフォーマンスを高めるために相関した情報よりも有用である。
それでも、提案された研究は、複数の異なる化合物の融合によるbvoc排出の最初の試みである。 Biogenic Volatile Organic Compounds (BVOCs) emitted from the terrestrial ecosystem into the Earth's atmosphere are an important component of atmospheric chemistry. Due to the scarcity of measurement, a reliable enhancement of BVOCs emission maps can aid in providing denser data for atmospheric chemical, climate, and air quality models. In this work, we propose a strategy to super-resolve coarse BVOC emission maps by simultaneously exploiting the contributions of different compounds. To this purpose, we first accurately investigate the spatial inter-connections between several BVOC species. Then, we exploit the found similarities to build a Multi-Image Super-Resolution (MISR) system, in which a number of emission maps associated with diverse compounds are aggregated to boost Super-Resolution (SR) performance. We compare different configurations regarding the species and the number of joined BVOCs. Our experimental results show that incorporating BVOCs' relationship into the process can substantially improve the accuracy of the super-resolved maps. Interestingly, the best results are achieved when we aggregate the emission maps of strongly uncorrelated compounds. This peculiarity seems to confirm what was already guessed for other data-domains, i.e., joined uncorrelated information are more helpful than correlated ones to boost MISR performance. Nonetheless, the proposed work represents the first attempt in SR of BVOC emissions through the fusion of multiple different compounds. | 翻訳日:2023-06-17 00:39:54 公開日:2023-06-13 |
# チャネル状態情報を用いたメタラーニングに基づく屋内定位モデル A Meta-learning based Generalizable Indoor Localization Model using Channel State Information ( http://arxiv.org/abs/2305.13453v2 ) ライセンス: Link先を確認 | Ali Owfi, ChunChih Lin, Linke Guo, Fatemeh Afghah, Jonathan Ashdown, Kurt Turck | (参考訳) 近年、スマートホーム、産業自動化、医療など様々な用途に応用されているため、屋内ローカライズが注目されている。
深層学習に基づくソリューションは、チャネル状態情報(csi)や受信信号強度インジケータ(rssi)などの無線パラメータを用いて屋内環境における無線デバイスの位置を正確に推定する有望な結果を示している。
しかし、深層学習に基づくアプローチが高いローカライゼーション精度を達成することに成功したにもかかわらず、これらのモデルは一般化性の欠如に悩まされ、新しい環境に容易にデプロイしたり、リトレーニングなしに動的環境で操作することができない。
本稿では,従来のdlベースローカライズモデルで継続される一般化可能性の欠如に対処するために,メタラーニングに基づくローカライズモデルを提案する。
さらに, メタ学習アルゴリズムは, 様々なシナリオから多様なデータセットを必要とするため, ローカライゼーションの文脈で収集し難いため, データセットが制限された場合の一般化性向上を目的とした, TB-MAML (Task Biased Model Agnostic Meta Learning) というメタ学習アルゴリズムを設計・提案する。
最後に,TB-MAMLに基づくローカライゼーションモデルと,他のメタ学習アルゴリズムを用いたローカライゼーションの性能評価を行った。 Indoor localization has gained significant attention in recent years due to its various applications in smart homes, industrial automation, and healthcare, especially since more people rely on their wireless devices for location-based services. Deep learning-based solutions have shown promising results in accurately estimating the position of wireless devices in indoor environments using wireless parameters such as Channel State Information (CSI) and Received Signal Strength Indicator (RSSI). However, despite the success of deep learning-based approaches in achieving high localization accuracy, these models suffer from a lack of generalizability and can not be readily-deployed to new environments or operate in dynamic environments without retraining. In this paper, we propose meta-learning-based localization models to address the lack of generalizability that persists in conventionally trained DL-based localization models. Furthermore, since meta-learning algorithms require diverse datasets from several different scenarios, which can be hard to collect in the context of localization, we design and propose a new meta-learning algorithm, TB-MAML (Task Biased Model Agnostic Meta Learning), intended to further improve generalizability when the dataset is limited. Lastly, we evaluate the performance of TB-MAML-based localization against conventionally trained localization models and localization done using other meta-learning algorithms. | 翻訳日:2023-06-17 00:39:00 公開日:2023-06-13 |
# マルチモーダル言語モデルによる画像生成 Generating Images with Multimodal Language Models ( http://arxiv.org/abs/2305.17216v2 ) ライセンス: Link先を確認 | Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov | (参考訳) 本研究では,凍結したテキストのみの大規模言語モデル (LLM) を,事前に訓練した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルは,画像検索,新しい画像生成,マルチモーダル対話など,多様なマルチモーダル機能を示す。
oursは、画像とテキスト入力を任意にインターリーブし、コヒーレントな画像(およびテキスト)出力を生成することができる最初のアプローチである。
画像生成において高い性能を達成するために,LLMをオフザシェルフテキスト・画像生成モデルに接地する効率的なマッピングネットワークを提案する。
このマッピングネットワークは,テキストの隠れ表現を視覚モデルの埋め込み空間に変換することで,LLMの強いテキスト表現を視覚出力に活用する。
我々のアプローチは、より長く複雑な言語でタスクのベースライン生成モデルより優れている。
また,新たな画像生成に加えて,予め指定したデータセットから画像検索を行うことができ,推定時に検索するか生成するかを決定する。
これはLLMの隠された表現を条件とした学習的な決定モジュールによって行われる。
従来のマルチモーダル言語モデルと比較して,我々のモデルは幅広い能力を示す。
画像とテキストの入力を処理し、検索された画像、生成された画像、および生成されたテキストを生成することができる。 We propose a method to fuse frozen text-only large language models (LLMs) with pre-trained image encoder and decoder models, by mapping between their embedding spaces. Our model demonstrates a wide suite of multimodal capabilities: image retrieval, novel image generation, and multimodal dialogue. Ours is the first approach capable of conditioning on arbitrarily interleaved image and text inputs to generate coherent image (and text) outputs. To achieve strong performance on image generation, we propose an efficient mapping network to ground the LLM to an off-the-shelf text-to-image generation model. This mapping network translates hidden representations of text into the embedding space of the visual models, enabling us to leverage the strong text representations of the LLM for visual outputs. Our approach outperforms baseline generation models on tasks with longer and more complex language. In addition to novel image generation, our model is also capable of image retrieval from a prespecified dataset, and decides whether to retrieve or generate at inference time. This is done with a learnt decision module which conditions on the hidden representations of the LLM. Our model exhibits a wider range of capabilities compared to prior multimodal language models. It can process image-and-text inputs, and produce retrieved images, generated images, and generated text -- outperforming non-LLM based generation models across several text-to-image tasks that measure context dependence. | 翻訳日:2023-06-17 00:30:06 公開日:2023-06-13 |
# 島型ランダムダイナミック電圧スケーリングとML強化電源サイドチャネル攻撃 Island-based Random Dynamic Voltage Scaling vs ML-Enhanced Power Side-Channel Attacks ( http://arxiv.org/abs/2306.04859v2 ) ライセンス: Link先を確認 | Dake Chen, Christine Goins, Maxwell Waugaman, Georgios D. Dimou, Peter A. Beerel | (参考訳) 本稿では,島をベースとしたランダムな動的電圧スケーリング(iRDVS)アプローチによる電力サイドチャネル攻撃の回避と解析を行う。
まず, 独立電圧島数が信号対雑音比およびトレースのずれに与える影響を解析した。
そこで我々は,3つ以上の独立電圧を持つシステムにおいて,非教師なし機械学習(ML)による攻撃を効果的に行うことを提案する。
しかし,4つの電圧島を持つ iRDVS は 200k の暗号トレースで破壊できないため,iRDVS が有効である可能性が示唆された。
AES-256アクセラレータの3つの変種を組み込んだ12nm FinFetプロセスでiRDVSテストチップを記述することで講演を終了する。
これには同期コア、保護のない非同期コア、非同期ロジックを使ったirdvs技術を使用したコアが含まれる。
チップからの実験では、2つの未保護変種がテストベクトルリーク評価(TVLA)の安全性試験に失敗し、iRDVSは様々な構成で安全であることが証明された。 In this paper, we describe and analyze an island-based random dynamic voltage scaling (iRDVS) approach to thwart power side-channel attacks. We first analyze the impact of the number of independent voltage islands on the resulting signal-to-noise ratio and trace misalignment. As part of our analysis of misalignment, we propose a novel unsupervised machine learning (ML) based attack that is effective on systems with three or fewer independent voltages. Our results show that iRDVS with four voltage islands, however, cannot be broken with 200k encryption traces, suggesting that iRDVS can be effective. We finish the talk by describing an iRDVS test chip in a 12nm FinFet process that incorporates three variants of an AES-256 accelerator, all originating from the same RTL. This included a synchronous core, an asynchronous core with no protection, and a core employing the iRDVS technique using asynchronous logic. Lab measurements from the chips indicated that both unprotected variants failed the test vector leakage assessment (TVLA) security metric test, while the iRDVS was proven secure in a variety of configurations. | 翻訳日:2023-06-17 00:01:25 公開日:2023-06-13 |
# Zambezi Voice: ザンビア語のための多言語音声コーパス Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages ( http://arxiv.org/abs/2306.04428v2 ) ライセンス: Link先を確認 | Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos | (参考訳) この研究はザンビア語のためのオープンソースの多言語音声リソースであるZambezi Voiceを紹介する。
ラジオニュースとトーク番組の音声録音(160時間以上)とラベル付きデータ(80時間以上)の2つのデータセットが含まれており、公開文学書から得られたテキストから記録された読み上げ音声で構成されている。
データセットは音声認識のために作成されるが、教師なしと教師なしの両方の学習アプローチで多言語音声処理の研究に拡張することができる。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
我々は,wav2vec2.0の大規模多言語事前学習モデルを用いて,ベースラインモデルのためのエンドツーエンド(e2e)音声認識モデルを構築することにより,事前学習と言語間伝達学習を利用する。
データセットはCreative Commons BY-NC-ND 4.0ライセンスで公開されており、https://github.com/unza-speech-lab/zambezi-voiceを通じてアクセスすることができる。 This work introduces Zambezi Voice, an open-source multilingual speech resource for Zambian languages. It contains two collections of datasets: unlabelled audio recordings of radio news and talk shows programs (160 hours) and labelled data (over 80 hours) consisting of read speech recorded from text sourced from publicly available literature books. The dataset is created for speech recognition but can be extended to multilingual speech processing research for both supervised and unsupervised learning approaches. To our knowledge, this is the first multilingual speech dataset created for Zambian languages. We exploit pretraining and cross-lingual transfer learning by finetuning the Wav2Vec2.0 large-scale multilingual pre-trained model to build end-to-end (E2E) speech recognition models for our baseline models. The dataset is released publicly under a Creative Commons BY-NC-ND 4.0 license and can be accessed via https://github.com/unza-speech-lab/zambezi-voice . | 翻訳日:2023-06-17 00:00:41 公開日:2023-06-13 |
# 相対論的重イオン衝突におけるボルン・インフェルド非線形電磁効果 Born-Infeld nonlinear electromagnetism in relativistic heavy ion collisions ( http://arxiv.org/abs/2306.07704v1 ) ライセンス: Link先を確認 | Will Price, Martin Formanek, Johann Rafelski | (参考訳) 荷電粒子散乱のダイナミクスに及ぼすボルン=インフェルド電磁界の磁場強度の影響について検討した。
我々は、ボルン=インフェルド制限場を不変な方法で定式化し、それが場テンソル $f^{\mu\nu}$ の電場支配固有値であることを示す。
特に重イオン衝突は、BI作用に現れる磁場不変量のユニークな大きな値を与え、非線形効果を増幅する。
したがって ``$a$'' は、衝突パラメータの関数としての散乱角を計算するために使用する重イオン間の力に対する支配的な入力である。
このbi効果を評価し, 小さな衝撃パラメータの妥当性を示し, 限界場強度の値依存性を示した。 We study the effect of the limiting field strength of Born-Infeld electromagnetism on the dynamics of charged particle scattering. We formulate the Born-Infeld limiting field in an invariant manner, showing that it is the electric field-dominated eigenvalue `$a$' of the field tensor $F^{\mu\nu}$ which is limited rather than the individual field vectors. Heavy ion collisions in particular provide uniquely large values of the field invariants that appear in the BI action, amplifying nonlinear effects. Thus ``$a$'' is the dominant input into the force between heavy ions that we use to compute the scattering angle as a function of impact parameter. We evaluate the BI effects, showing relevance at small impact parameters and exhibiting their dependence on the value of the limiting field strength. | 翻訳日:2023-06-16 23:40:08 公開日:2023-06-13 |
# 音響シーン分類のための推論時のドメイン情報制御 Domain Information Control at Inference Time for Acoustic Scene Classification ( http://arxiv.org/abs/2306.08010v1 ) ライセンス: Link先を確認 | Shahed Masoudian, Khaled Koutini, Markus Schedl, Gerhard Widmer, Navid Rekabsaz | (参考訳) ドメインシフトは、モデルのパフォーマンスが著しく低下する原因となるため、機械学習の課題と見なされる。
音響シーン分類タスク(ASC)では、ドメインシフトは主に異なる記録装置によって引き起こされる。
既にいくつかの研究は、新しいデバイスなど、未知のドメインにおけるascモデルのパフォーマンスを改善するために、ドメインの一般化を目標としている。
近年,制御可能なゲートアダプタであるConGaterが自然言語処理で提案され,バイアス付きトレーニングデータ問題に対処している。
ConGaterは推論時にデバイアス処理を制御することができる。
ConGaterの主な利点は、推論中にトレーニングされたモデルの連続的かつ選択的デバイアス化である。
本研究では,音響シーン分類タスクにおいて,ConGaterを音響スペクトログラム変換器に適用する。
ConGaterは、学習した表現をレコードデバイスなどのデバイスドメインシフトに不変にするために、選択的に適応するために使用できることを示す。
分析の結果,ConGaterは学習した表現からデバイス情報を段階的に取り除き,特にドメインシフト条件下でのモデル一般化を改善することができることがわかった。
情報除去はデバイスと位置情報の両方に拡張可能であることを示す。
最後に、さらにトレーニングすることなく、特定のデバイスパフォーマンスを向上させるConGaterの能力を実証する。 Domain shift is considered a challenge in machine learning as it causes significant degradation of model performance. In the Acoustic Scene Classification task (ASC), domain shift is mainly caused by different recording devices. Several studies have already targeted domain generalization to improve the performance of ASC models on unseen domains, such as new devices. Recently, the Controllable Gate Adapter ConGater has been proposed in Natural Language Processing to address the biased training data problem. ConGater allows controlling the debiasing process at inference time. ConGater's main advantage is the continuous and selective debiasing of a trained model, during inference. In this work, we adapt ConGater to the audio spectrogram transformer for an acoustic scene classification task. We show that ConGater can be used to selectively adapt the learned representations to be invariant to device domain shifts such as recording devices. Our analysis shows that ConGater can progressively remove device information from the learned representations and improve the model generalization, especially under domain shift conditions (e.g. unseen devices). We show that information removal can be extended to both device and location domain. Finally, we demonstrate ConGater's ability to enhance specific device performance without further training. | 翻訳日:2023-06-16 23:32:14 公開日:2023-06-13 |
# DHBE:Restricted Adversarial Distillationによるディープニューラルネットワークにおけるデータフリーなホロスティックバックドア消去 DHBE: Data-free Holistic Backdoor Erasing in Deep Neural Networks via Restricted Adversarial Distillation ( http://arxiv.org/abs/2306.08009v1 ) ライセンス: Link先を確認 | Zhicong Yan, Shenghong Li, Ruijie Zhao, Yuan Tian, Yuanyuan Zhao | (参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する緊急の脅威として現れており、被害者のDNNは敵が引き起こす可能性のある悪意のあるニューロンを強制的に埋め込んでいる。
バックドア攻撃を防御するために、多くの作業が、被害者のDNNからバックドアを検査、配置、消去するステージドパイプラインを構築している。
しかし、いくつかのクリーンデータにアクセス可能なシナリオでは、そのようなパイプラインは脆弱で、モデル精度を犠牲にすることなくバックドアを完全に消去することはできない。
この問題に対処するため,本稿では,新しいデータフリー・ホリスティック・バックドア消去(DHBE)フレームワークを提案する。
ステージ化されたパイプラインの代わりに、DHBEはバックドア消去タスクを、蒸留とバックドア正則化という2つの異なる競合するプロセスの平衡を求める、統一された対逆手順として扱う。
蒸留では、バックドアDNNはプロキシモデルに蒸留され、クリーンデータに関する知識を伝達するが、バックドアは同時に転送される。
バックドアの正則化では、蒸留から転送されるバックドアの感染を防ぐためにプロキシモデルがホリスティックに正則化される。
これら2つのプロセスは、クリーンで高精度なプロキシモデルが得られるまで、データフリーの逆最適化と共同で進行する。
新たな敵対的デザインにより、我々の枠組みは3つの側面においてその優位性を示す。
1) モデル精度に対する最小限の負担
2)ハイパーパラメータに対する高い耐性、及び
3) クリーンデータの要求がない。
提案フレームワークの有効性を検証するため,様々なバックドア攻撃およびデータセットに関する大規模な実験を行った。
コードは \url{https://github.com/yanzhicong/DHBE} で入手できる。 Backdoor attacks have emerged as an urgent threat to Deep Neural Networks (DNNs), where victim DNNs are furtively implanted with malicious neurons that could be triggered by the adversary. To defend against backdoor attacks, many works establish a staged pipeline to remove backdoors from victim DNNs: inspecting, locating, and erasing. However, in a scenario where a few clean data can be accessible, such pipeline is fragile and cannot erase backdoors completely without sacrificing model accuracy. To address this issue, in this paper, we propose a novel data-free holistic backdoor erasing (DHBE) framework. Instead of the staged pipeline, the DHBE treats the backdoor erasing task as a unified adversarial procedure, which seeks equilibrium between two different competing processes: distillation and backdoor regularization. In distillation, the backdoored DNN is distilled into a proxy model, transferring its knowledge about clean data, yet backdoors are simultaneously transferred. In backdoor regularization, the proxy model is holistically regularized to prevent from infecting any possible backdoor transferred from distillation. These two processes jointly proceed with data-free adversarial optimization until a clean, high-accuracy proxy model is obtained. With the novel adversarial design, our framework demonstrates its superiority in three aspects: 1) minimal detriment to model accuracy, 2) high tolerance for hyperparameters, and 3) no demand for clean data. Extensive experiments on various backdoor attacks and datasets are performed to verify the effectiveness of the proposed framework. Code is available at \url{https://github.com/yanzhicong/DHBE} | 翻訳日:2023-06-16 23:31:57 公開日:2023-06-13 |
# 障害物回避のための深部強化学習における動作空間の動的間隔制限 Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement Learning for Obstacle Avoidance ( http://arxiv.org/abs/2306.08008v1 ) ライセンス: Link先を確認 | Tim Grams | (参考訳) 深層強化学習アルゴリズムは通常、同じアクションセットで動作します。
しかし、これは各ステップで異なるサブセットが利用できる広範囲の現実世界アプリケーションには不十分である。
本稿では,動的障害を伴うパスフィンディングにおいて発生する区間制限の問題について考察する。
衝突につながる作用が回避されると、連続的な作用空間は可変部分に分割される。
最近の研究では、インターバルの数について強い仮定で学習し、凸部分集合に限定され、利用可能なアクションは観測から学習される。
そこで本研究では,パラメータ化強化学習と制約ネットを拡張して任意の間隔を扱うことにより,環境状態とは独立な2つの手法を提案する。
障害物回避タスクにおけるそれらの性能を実証し,その手法をペナルティ,投影,置換,離散的,連続的なマスキングと比較した。
その結果,訓練中に制約が出現しなかった場合,アクション値の個別マスキングが有効な方法であることがわかった。
制約が学習されると、プロジェクション、マスキング、ConstraintNet修正の間の決定は、手元にあるタスクに依存するように思われる。
結果をさまざまな複雑さと比較し、今後の作業の方向性を示します。 Deep reinforcement learning algorithms typically act on the same set of actions. However, this is not sufficient for a wide range of real-world applications where different subsets are available at each step. In this thesis, we consider the problem of interval restrictions as they occur in pathfinding with dynamic obstacles. When actions that lead to collisions are avoided, the continuous action space is split into variable parts. Recent research learns with strong assumptions on the number of intervals, is limited to convex subsets, and the available actions are learned from the observations. Therefore, we propose two approaches that are independent of the state of the environment by extending parameterized reinforcement learning and ConstraintNet to handle an arbitrary number of intervals. We demonstrate their performance in an obstacle avoidance task and compare the methods to penalties, projection, replacement, as well as discrete and continuous masking from the literature. The results suggest that discrete masking of action-values is the only effective method when constraints did not emerge during training. When restrictions are learned, the decision between projection, masking, and our ConstraintNet modification seems to depend on the task at hand. We compare the results with varying complexity and give directions for future work. | 翻訳日:2023-06-16 23:31:29 公開日:2023-06-13 |
# デンドリティック特性を活用した機械学習とニューロインスパイアコンピューティング Leveraging dendritic properties to advance machine learning and neuro-inspired computing ( http://arxiv.org/abs/2306.08007v1 ) ライセンス: Link先を確認 | Michalis Pagkalos, Roman Makarov and Panayiota Poirazi | (参考訳) 脳は驚くほど有能で効率的なシステムです。
最小限のエネルギーで大量のノイズや非構造情報を処理・保存することができる。
対照的に、現在の人工知能(AI)システムでは、生物エージェントにとって簡単なタスクに苦戦しながら、トレーニングに膨大なリソースを必要としている。
このように、脳にインスパイアされたエンジニアリングは、持続可能な次世代AIシステムを設計するための、有望な新しい道として登場した。
ここでは, 生体ニューロンの樹状突起機構が, 多層ネットワークにおけるクレジット割り当て, 破滅的忘れ, 高エネルギー消費といった, 重要なAI問題に対する革新的な解決策にどのように影響したかを述べる。
これらの発見は、既存のアーキテクチャに対するエキサイティングな代替手段を提供し、より強力でエネルギー効率のよい人工知能システムを構築する方法を示す。 The brain is a remarkably capable and efficient system. It can process and store huge amounts of noisy and unstructured information using minimal energy. In contrast, current artificial intelligence (AI) systems require vast resources for training while still struggling to compete in tasks that are trivial for biological agents. Thus, brain-inspired engineering has emerged as a promising new avenue for designing sustainable, next-generation AI systems. Here, we describe how dendritic mechanisms of biological neurons have inspired innovative solutions for significant AI problems, including credit assignment in multilayer networks, catastrophic forgetting, and high energy consumption. These findings provide exciting alternatives to existing architectures, showing how dendritic research can pave the way for building more powerful and energy-efficient artificial learning systems. | 翻訳日:2023-06-16 23:31:13 公開日:2023-06-13 |
# 身体部分によるフレキシブル・モーション・リターゲティングのためのPose-Aware Attention Network Pose-aware Attention Network for Flexible Motion Retargeting by Body Part ( http://arxiv.org/abs/2306.08006v1 ) ライセンス: Link先を確認 | Lei Hu, Zihao Zhang, Chongyang Zhong, Boyuan Jiang, Shihong Xia | (参考訳) モーションリターゲティングはコンピュータグラフィックスとコンピュータビジョンの基本的な問題である。
既存のアプローチは通常、同じ数の関節を持つか、同じトポロジーを共有する必要のあるソースターゲットスケルトンなど、多くの厳密な要件を持つ。
この問題に取り組むために, 構造が異なる骨格は, 関節数の違いにもかかわらず, 体の一部が共通している可能性があることに留意する。
そこで本研究では,新しいフレキシブル・モーション・リターゲティング・フレームワークを提案する。
本手法のキーとなる考え方は,身体の運動を直接的に再ターゲットするのではなく,身体部位を基本的再ターゲット単位とみなすことである。
モーションエンコーダの空間モデリング能力を高めるため,動作符号化フェーズにポーズ認識型アテンションネットワーク(PAN)を導入する。
パンは、入力ポーズに基づいて各本体部内の関節重みを動的に予測し、特徴プーリングにより各本体部の共有潜在空間を構築することができるため、ポーズアウェアである。
広範な実験により,本手法は最新手法よりも質的かつ定量的に運動再ターゲティング結果を生成することができることが示された。
さらに,体部再ターゲティング戦略とpanにより,二足骨と四足骨のリターゲティングなど,より困難な再ターゲティングシナリオにおいても合理的な結果が得られることを示した。
私たちのコードは公開されています。 Motion retargeting is a fundamental problem in computer graphics and computer vision. Existing approaches usually have many strict requirements, such as the source-target skeletons needing to have the same number of joints or share the same topology. To tackle this problem, we note that skeletons with different structure may have some common body parts despite the differences in joint numbers. Following this observation, we propose a novel, flexible motion retargeting framework. The key idea of our method is to regard the body part as the basic retargeting unit rather than directly retargeting the whole body motion. To enhance the spatial modeling capability of the motion encoder, we introduce a pose-aware attention network (PAN) in the motion encoding phase. The PAN is pose-aware since it can dynamically predict the joint weights within each body part based on the input pose, and then construct a shared latent space for each body part by feature pooling. Extensive experiments show that our approach can generate better motion retargeting results both qualitatively and quantitatively than state-of-the-art methods. Moreover, we also show that our framework can generate reasonable results even for a more challenging retargeting scenario, like retargeting between bipedal and quadrupedal skeletons because of the body part retargeting strategy and PAN. Our code is publicly available. | 翻訳日:2023-06-16 23:30:57 公開日:2023-06-13 |
# PVシステムの予防保全を目的とした断層の検出と分類 Detection and classification of faults aimed at preventive maintenance of PV systems ( http://arxiv.org/abs/2306.08004v1 ) ライセンス: Link先を確認 | Edgar Hernando Sep\'ulveda Oviedo (LAAS-DISCO, LAAS-ISGE), Louise Trav\'e-Massuy\`es, Audine Subias, Marko Pavlov, Corinne Alonso | (参考訳) PVシステムの診断は、障害を検出し、発見し、特定することを目的としている。
これらの欠陥を診断することは、エネルギー生産を保証し、PV発電所の寿命を延長するために不可欠である。
文献では、この目的のために複数の機械学習アプローチが提案されている。
しかし、これらの作品のうち、細かな欠陥の検出や、その分類の特徴の抽出と選定の特別なプロセスに特に注意を払っているものはほとんどない。
微妙な欠陥は、健全なパネルと区別が難しい特徴的特徴である。
本稿では,微断層(特にスネールトレイル型)の検出への寄与として,ランダムフォレスト(RF)アルゴリズムに基づく革新的なアプローチを提案する。
このアプローチでは,高精度を維持しつつ,故障分類の計算時間を改善する複雑な特徴抽出と選択手法を用いる。 Diagnosis in PV systems aims to detect, locate and identify faults. Diagnosing these faults is vital to guarantee energy production and extend the useful life of PV power plants. In the literature, multiple machine learning approaches have been proposed for this purpose. However, few of these works have paid special attention to the detection of fine faults and the specialized process of extraction and selection of features for their classification. A fine fault is one whose characteristic signature is difficult to distinguish to that of a healthy panel. As a contribution to the detection of fine faults (especially of the snail trail type), this article proposes an innovative approach based on the Random Forest (RF) algorithm. This approach uses a complex feature extraction and selection method that improves the computational time of fault classification while maintaining high accuracy. | 翻訳日:2023-06-16 23:30:34 公開日:2023-06-13 |
# 太陽光発電モジュールの故障検出のためのDTW k-meansクラスタリング DTW k-means clustering for fault detection in photovoltaic modules ( http://arxiv.org/abs/2306.08003v1 ) ライセンス: Link先を確認 | Edgar Hernando Sep\'ulveda Oviedo (LAAS-DISCO, LAAS-ISGE), Louise Trav\'e-Massuy\`es, Audine Subias, Marko Pavlov, Corinne Alonso | (参考訳) 世界における太陽光発電(PV)エネルギーの利用の増加は、太陽光発電プラントの有用な寿命と維持が、PVプラントの深刻な故障を迅速に検出する能力に直接依存していることを示している。
この検出の問題を解決するために,データに基づく手法が文献で提案されているが,これらの手法は1つないし少数の断層の特定の挙動のみを考慮に入れている。
これらのアプローチのほとんどが監視対象となり、膨大なラベル付け作業(各技術で明確に識別された型)が必要になる。
さらに、そのほとんどはPV細胞または1つのPVモジュールで検証される。
これは、その複雑さを考慮すると、大規模なpvプラントではほとんど適用できない。
あるいは、データに基づく教師なしの既知のアプローチでは、異常の検出を試みるが、障害の種類を正確に特定できないものもある。
これらの手法の最も優れた者は、健全なパネルを効率よくグループ化し、欠陥のあるパネルから分離する。
このように、この記事では、DTW K-meansと呼ばれる教師なしのアプローチを示す。
このアプローチは、dwt(dynamic time warping)メトリックとデータ駆動アプローチとしてのkmeansクラスタリングアルゴリズムの両方の利点を生かしている。
PV文字列におけるこの混合手法の結果は、パネルの視覚検査によって確立された診断ラベルと比較される。 The increase in the use of photovoltaic (PV) energy in the world has shown that the useful life and maintenance of a PV plant directly depend on theability to quickly detect severe faults on a PV plant. To solve this problem of detection, data based approaches have been proposed in the literature.However, these previous solutions consider only specific behavior of one or few faults. Most of these approaches can be qualified as supervised, requiring an enormous labelling effort (fault types clearly identified in each technology). In addition, most of them are validated in PV cells or one PV module. That is hardly applicable in large-scale PV plants considering their complexity. Alternatively, some unsupervised well-known approaches based on data try to detect anomalies but are not able to identify precisely the type of fault. The most performant of these methods do manage to efficiently group healthy panels and separate them from faulty panels. In that way, this article presents an unsupervised approach called DTW K-means. This approach takes advantages of both the dynamic time warping (DWT) metric and the Kmeans clustering algorithm as a data-driven approach. The results of this mixed method in a PV string are compared to diagnostic labels established by visual inspection of the panels. | 翻訳日:2023-06-16 23:30:21 公開日:2023-06-13 |
# アクティブクエリのためのマルコフ形式 A Markovian Formalism for Active Querying ( http://arxiv.org/abs/2306.08001v1 ) ライセンス: Link先を確認 | Sid Ijju | (参考訳) アクティブな学習アルゴリズムは、人工知能の最近の進歩の不可欠な部分である。
しかし、この分野の研究は幅広く変化し、全体の組織的リーンが欠如している。
我々は,能動的学習分野におけるマルコフ形式主義の概要と,提案した形式主義の組織化能力を示す文献の調査を行う。
私たちのフォーマリズムは、アクティブな学習プロセス全体に対して部分的に観察可能なマルコフシステムアプローチを取ります。
具体的には、クエリ、データセットの強化、報酬更新、およびアクティブラーニングの他の側面をマルコフ系におけるメタ状態間の遷移と見なす方法を説明し、アクティブラーニングの他の側面が形式にどのように適合するかを指示します。 Active learning algorithms have been an integral part of recent advances in artificial intelligence. However, the research in the field is widely varying and lacks an overall organizing leans. We outline a Markovian formalism for the field of active learning and survey the literature to demonstrate the organizing capability of our proposed formalism. Our formalism takes a partially observable Markovian system approach to the active learning process as a whole. We specifically outline how querying, dataset augmentation, reward updates, and other aspects of active learning can be viewed as a transition between meta-states in a Markovian system, and give direction into how other aspects of active learning can fit into our formalism. | 翻訳日:2023-06-16 23:30:02 公開日:2023-06-13 |
# ドメイン事前学習言語モデルを用いた低頻度胸部病変のゼロショット検出の改善 Improving Zero-Shot Detection of Low Prevalence Chest Pathologies using Domain Pre-trained Language Models ( http://arxiv.org/abs/2306.08000v1 ) ライセンス: Link先を確認 | Aakash Mishra, Rajat Mittal, Christy Jestin, Kostas Tingos, Pranav Rajpurkar | (参考訳) ゼロショット学習の最近の進歩により、エキスパートアノテートされたデータセットの必要性を置き換えるために、構造化ラベルを置き換えるためにペア画像テキストデータの使用が可能になった。
CLIPベースのCheXzeroのようなモデルは、胸部X線解釈の領域でこれらの進歩を利用する。
CXR-BERT, BlueBERT, ClinicalBERTなどのドメイン事前学習モデルでは、元のモデルのアライメントを損なうコストでBERT重みを置き換えることで、特定のドメイン知識でCLIPのようなモデルの性能を向上させる可能性があると仮定する。
低頻度病変検出のためのドメイン固有の事前訓練によるゼロショット分類モデルの性能評価を行った。
従来のCLIP-BERTの重みは、一般的に見られる病態のモデル性能を低下させるが、事前学習したテキストタワーは、低頻度の疾患に対して非常に優れた性能を示す。
これは、最大パフォーマンスのために異なる訓練された言語モデルを組み合わせた将来のアンサンブルモデルに動機づける。 Recent advances in zero-shot learning have enabled the use of paired image-text data to replace structured labels, replacing the need for expert annotated datasets. Models such as CLIP-based CheXzero utilize these advancements in the domain of chest X-ray interpretation. We hypothesize that domain pre-trained models such as CXR-BERT, BlueBERT, and ClinicalBERT offer the potential to improve the performance of CLIP-like models with specific domain knowledge by replacing BERT weights at the cost of breaking the original model's alignment. We evaluate the performance of zero-shot classification models with domain-specific pre-training for detecting low-prevalence pathologies. Even though replacing the weights of the original CLIP-BERT degrades model performance on commonly found pathologies, we show that pre-trained text towers perform exceptionally better on low-prevalence diseases. This motivates future ensemble models with a combination of differently trained language models for maximal performance. | 翻訳日:2023-06-16 23:29:50 公開日:2023-06-13 |
# デジタル病理学における人工知能の診断検査精度(dta) : 体系的レビュー、メタ分析、品質評価 Diagnostic test accuracy (DTA) of artificial intelligence in digital pathology: a systematic review, meta-analysis and quality assessment ( http://arxiv.org/abs/2306.07999v1 ) ライセンス: Link先を確認 | Clare McGenity, Emily Clarke, Charlotte Jennings, Gillian Matthews, Caroline Cartlidge, Henschel Freduah-Agyemang, Deborah Stocken, Darren Treanor | (参考訳) 臨床使用前のAIモデルの診断性能を保証することが、これらの技術の安全性と成功の鍵となる。
近年,診断目的でデジタル病理画像に適用されたAIを報告する研究が急速に増えている。
本研究の目的は,すべての病理領域のデジタル病理画像におけるaiの診断精度の概観を提供することである。
この体系的なレビューとメタアナリシスは、あらゆる病気のタイプの全スライド画像(wsis)に適用されるあらゆるタイプの人工知能を用いた診断精度の研究を含んでいた。
基準基準は病理組織学的評価と免疫組織化学による診断であった。
2022年6月にPubMed、EMBASE、Centralで調査が行われた。
対象は2976例で,その内100例はレビューに,48例はメタ分析に含まれていた。
quadas-2ツールを用いてバイアスのリスクと適用可能性の懸念を評価した。
2人の研究者がデータ抽出を行い,二変量ランダム効果モデルを用いてメタ分析を行った。
包含物として100の研究が同定され、152,000枚以上のスライド画像 (WSI) に相当し、多くの病型を表わした。
このうち48の研究がメタアナリシスに含まれていた。
これらの研究では、平均感度は96.3%(CI 94.1-97.7)、平均特異度は93.3%(CI 90.5-95.4)であった。
研究設計にはかなりの多様性があり、包含物が特定された100の研究はすべて、バイアスのリスクが高いか不明瞭な領域を少なくとも1つ持っていた。
このレビューは、スライド画像全体におけるアプリケーション間のAIパフォーマンスの広範な概要を提供する。
しかし、研究設計と利用可能なパフォーマンスデータには大きなばらつきがあり、研究の実施状況の詳細と、しばしば欠落するデータセットを構成することができる。
全体として、AIはWSIに適用した場合に適切な精度を提供するが、そのパフォーマンスをより厳格に評価する必要がある。 Ensuring diagnostic performance of AI models before clinical use is key to the safe and successful adoption of these technologies. Studies reporting AI applied to digital pathology images for diagnostic purposes have rapidly increased in number in recent years. The aim of this work is to provide an overview of the diagnostic accuracy of AI in digital pathology images from all areas of pathology. This systematic review and meta-analysis included diagnostic accuracy studies using any type of artificial intelligence applied to whole slide images (WSIs) in any disease type. The reference standard was diagnosis through histopathological assessment and / or immunohistochemistry. Searches were conducted in PubMed, EMBASE and CENTRAL in June 2022. We identified 2976 studies, of which 100 were included in the review and 48 in the full meta-analysis. Risk of bias and concerns of applicability were assessed using the QUADAS-2 tool. Data extraction was conducted by two investigators and meta-analysis was performed using a bivariate random effects model. 100 studies were identified for inclusion, equating to over 152,000 whole slide images (WSIs) and representing many disease types. Of these, 48 studies were included in the meta-analysis. These studies reported a mean sensitivity of 96.3% (CI 94.1-97.7) and mean specificity of 93.3% (CI 90.5-95.4) for AI. There was substantial heterogeneity in study design and all 100 studies identified for inclusion had at least one area at high or unclear risk of bias. This review provides a broad overview of AI performance across applications in whole slide imaging. However, there is huge variability in study design and available performance data, with details around the conduct of the study and make up of the datasets frequently missing. Overall, AI offers good accuracy when applied to WSIs but requires more rigorous evaluation of its performance. | 翻訳日:2023-06-16 23:29:32 公開日:2023-06-13 |
# 局所ダイナミクスとカオス固有状態の構造 Local dynamics and the structure of chaotic eigenstates ( http://arxiv.org/abs/2306.08032v1 ) ライセンス: Link先を確認 | Zhengyan Darius Shi, Shreya Vardhan, and Hong Liu | (参考訳) 局所的な相互作用を持つカオス系のエネルギー固有状態の新しい普遍的性質を同定し,可積分系と非局所カオス系とを区別する。
1+1次元のスピン鎖の族を例示として,全系のエネルギー固有状態と2つの広範なサブシステムのエネルギー固有状態の積との関係について検討した。
2つの基底に関する係数の大きさは、全系固有状態と固有状態の積の間のエネルギー差である$\omega$の関数として単純普遍形式を持つ。
この形式は、熱化中に固有状態の積が自身に戻る確率の時間とともに指数減衰を説明する。
また、係数のある種の新しい統計特性も発見する。
一般に係数は相関しない確率変数であることが期待されているが、ユニタリティが示唆する相関は固有状態の2つの積間の遷移確率と熱分解時の作用素期待値の進化を理解する上で重要である。
さらに、局所性から生じる相関関係が、非相関な確率変数近似によって予測されるものよりも、第2レニイエントロピーの成長が遅くなることがわかった。 We identify new universal properties of the energy eigenstates of chaotic systems with local interactions, which distinguish them both from integrable systems and from non-local chaotic systems. We study the relation between the energy eigenstates of the full system and products of energy eigenstates of two extensive subsystems, using a family of spin chains in (1+1) dimensions as an illustration. The magnitudes of the coefficients relating the two bases have a simple universal form as a function of $\omega$, the energy difference between the full system eigenstate and the product of eigenstates. This form explains the exponential decay with time of the probability for a product of eigenstates to return to itself during thermalization. We also find certain new statistical properties of the coefficients. While it is generally expected that the coefficients are uncorrelated random variables, we point out that correlations implied by unitarity are important for understanding the transition probability between two products of eigenstates, and the evolution of operator expectation values during thermalization. Moreover, we find that there are additional correlations resulting from locality, which lead to a slower growth of the second Renyi entropy than the one predicted by an uncorrelated random variable approximation. | 翻訳日:2023-06-16 23:23:28 公開日:2023-06-13 |
# Floquet (複数形 Floquets) Floquet codes with a twist ( http://arxiv.org/abs/2306.08027v1 ) ライセンス: Link先を確認 | Tyler D. Ellison, Joseph Sullivan, Arpit Dua | (参考訳) 我々はHastingsとHaahのハニカムFloquetコードにツイスト欠陥を作る方法を説明する。
一次元の経路に沿って創発フェルミオンを凝縮して構築した凝縮欠陥の終点にねじれ欠陥を構築する。
我々は、ツイスト欠陥は量子情報のフォールトトレラントな保存と処理に利用することができ、境界を持つシステム上でツイスト欠陥を作成することにより、$\mathbb{z}_2$ floquet符号の平面型が得られることを証明している。
重要な点として, ツイスト欠陥の構成は, 六角格子の連結性を維持し, 2体測定のみを要し, 測定スケジュールの3回周期を保っている。
さらに、ツイスト欠陥を$n$-次元qudits上で定義される$\mathbb{z}_n$ floquet符号に一般化する。
ちなみに、$\mathbb{Z}_N$ フロケ符号と縮合欠陥を用いて、瞬時安定化群が特定のアベリアツイスト量子二重群の位相順序によって特徴づけられるフロケ符号を定義する。 We describe how to create twist defects in the honeycomb Floquet code of Hastings and Haah. We construct twist defects at the endpoints of condensation defects, which are built by condensing emergent fermions along one-dimensional paths. We argue that the twist defects can be used to store and process quantum information fault tolerantly, and demonstrate that, by preparing twist defects on a system with a boundary, we obtain a planar variant of the $\mathbb{Z}_2$ Floquet code. Importantly, our construction of twist defects maintains the connectivity of the hexagonal lattice, requires only 2-body measurements, and preserves the three-round period of the measurement schedule. We furthermore generalize the twist defects to $\mathbb{Z}_N$ Floquet codes defined on $N$-dimensional qudits. As an aside, we use the $\mathbb{Z}_N$ Floquet codes and condensation defects to define Floquet codes whose instantaneous stabilizer groups are characterized by the topological order of certain Abelian twisted quantum doubles. | 翻訳日:2023-06-16 23:23:08 公開日:2023-06-13 |
# 可微分アーキテクチャ探索のためのフレキシブルチャネル次元 Flexible Channel Dimensions for Differentiable Architecture Search ( http://arxiv.org/abs/2306.08021v1 ) ライセンス: Link先を確認 | Ahmet Caner Y\"uz\"ug\"uler and Nikolaos Dimitriadis and Pascal Frossard | (参考訳) 最適なチャネル次元(すなわちDNN層のフィルタ数)を見つけることは、計算資源制約下でよく機能するDNNの設計に不可欠である。
ニューラルアーキテクチャサーチにおける最近の研究は、DNNモデル実装の最適化を自動化することを目的としている。
しかし、既存のニューラルアーキテクチャによるチャネル次元の探索手法は固定された探索空間に依存しているため、効率的かつ完全に自動化されたソリューションの実現を妨げている。
本研究では,チャネル次元の柔軟な探索空間を実現するために,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案フレームワークは,CIFAR-10データセットのタスク精度と推論遅延において,従来の手法と同等のDNNアーキテクチャを,GPU時間で1.3-1.7\times$,アーキテクチャ検索時にメモリ要件で1.5-1.7\times$に改善した。
さらに,提案するフレームワークは,DNNアーキテクチャの完全自動設計に向けた重要なステップである,十分に設計された検索スペースを事前に必要としない。 Finding optimal channel dimensions (i.e., the number of filters in DNN layers) is essential to design DNNs that perform well under computational resource constraints. Recent work in neural architecture search aims at automating the optimization of the DNN model implementation. However, existing neural architecture search methods for channel dimensions rely on fixed search spaces, which prevents achieving an efficient and fully automated solution. In this work, we propose a novel differentiable neural architecture search method with an efficient dynamic channel allocation algorithm to enable a flexible search space for channel dimensions. We show that the proposed framework is able to find DNN architectures that are equivalent to previous methods in task accuracy and inference latency for the CIFAR-10 dataset with an improvement of $1.3-1.7\times$ in GPU-hours and $1.5-1.7\times$ in the memory requirements during the architecture search stage. Moreover, the proposed frameworks do not require a well-engineered search space a priori, which is an important step towards fully automated design of DNN architectures. | 翻訳日:2023-06-16 23:22:47 公開日:2023-06-13 |
# Curatr: 歴史的文学テキストのセマンティック分析とキュレーションのためのプラットフォーム Curatr: A Platform for Semantic Analysis and Curation of Historical Literary Texts ( http://arxiv.org/abs/2306.08020v1 ) ライセンス: Link先を確認 | Susan Leavy, Gerardine Meaney, Karen Wade and Derek Greene | (参考訳) 歴史文学や現代文学のデジタルコレクションの入手が増加し、人文科学の新しい研究の可能性が強まっている。
しかし,このようなコレクションの規模と多様性は,関連コンテンツを特定し,抽出する上で特に課題となる。
本稿では、デジタル人文科学スクープの文脈で設計された、機械学習による意味検索による文学の探索とキュレーションのためのオンラインプラットフォームであるcuratrについて述べる。
このプラットフォームは、ニューラルネットワークの埋め込みとエキスパートドメインの知識を組み合わせたテキストマイニングワークフローを提供し、テーマレキシコンの生成を可能にし、研究が18世紀と19世紀の大きなコーパスから関連するサブコーパスをキュレートできるようにする。 The increasing availability of digital collections of historical and contemporary literature presents a wealth of possibilities for new research in the humanities. The scale and diversity of such collections however, presents particular challenges in identifying and extracting relevant content. This paper presents Curatr, an online platform for the exploration and curation of literature with machine learning-supported semantic search, designed within the context of digital humanities scholarship. The platform provides a text mining workflow that combines neural word embeddings with expert domain knowledge to enable the generation of thematic lexicons, allowing researches to curate relevant sub-corpora from a large corpus of 18th and 19th century digitised texts. | 翻訳日:2023-06-16 23:22:27 公開日:2023-06-13 |
# molインストラクション:大規模言語モデルのための大規模生体分子インストラクションデータセット Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models ( http://arxiv.org/abs/2306.08018v1 ) ライセンス: Link先を確認 | Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, Huajun Chen | (参考訳) 大規模言語モデル(LLM)は、タスクハンドリング能力と革新的な出力を持ち、様々な分野において大きな進歩をもたらした。
しかし、生体分子研究などの専門領域での能力は限られている。
この課題に対処するために,生体分子領域向けに設計した精密にキュレートされた包括的指導データセットであるMoll-Instructionsを導入する。
モルインストラクションは分子指向の指示、タンパク質指向の指示、生体分子のテキスト命令という3つの重要な構成要素から構成され、それぞれが、生体分子の特徴や行動に関するLLMの理解と予測能力を高めるために培養される。
我々は,生体分子研究の複雑な領域における大規模モデルの適応性と認知能力を高めるために,生体分子研究コミュニティの進展を促進するために,代表的llmに関する広範な命令チューニング実験を行った。
モルインストラクションは将来の研究で公開されており、適用性の向上のために継続的に更新される。 Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a meticulously curated, comprehensive instruction dataset expressly designed for the biomolecular realm. Mol-Instructions is composed of three pivotal components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions, each curated to enhance the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on the representative LLM, we underscore the potency of Mol-Instructions to enhance the adaptability and cognitive acuity of large models within the complex sphere of biomolecular studies, thereby promoting advancements in the biomolecular research community. Mol-Instructions is made publicly accessible for future research endeavors and will be subjected to continual updates for enhanced applicability. | 翻訳日:2023-06-16 23:22:15 公開日:2023-06-13 |
# 自由電磁界のスメアフィールド記述 Smeared Field Description of Free Electromagnetic Field ( http://arxiv.org/abs/2306.08016v1 ) ライセンス: Link先を確認 | Jerzy A. Przeszowski | (参考訳) 電荷や電流を持たないマクスウェル方程式を満たす自由電磁場は、複素ベクトル場によって記述できる。
位置と時間に強く依存する場の標準的な定式化では、数学的に不確定な積分を得る。
これは、フィールドの時間発展を記述するのに使われ、古典体のポアソン括弧に現れるマスレス・パウリ=ジョルダン函数に対して起こる。この難しさは、テスト関数を持つ線型汎関数としてスメアフィールドを導入することで解決できる。この方法で、マスレス・パウリ=ジョルダン函数は、ほぼテンパー分布となり、数学的に厳密な解析を可能にする。 Free electromagnetic fields, satisfying Maxwell's equations with no charges and electric currents, can be described by complex vector fields. In the standard formulation with fields sharply dependent on position and time, one obtains integrals that are mathematically ill-defined. This happens for the massless Pauli--Jordan function, which is used to describe the time evolution of fields and appears in the Poisson brackets for classical fields. This difficulty can be solved by introducing smeared fields as linear functionals with test functions. In this way, the massless Pauli--Jordan function becomes a~tempered distribution, allowing a mathematically rigorous analysis. | 翻訳日:2023-06-16 23:21:57 公開日:2023-06-13 |
# 合成能動推論エージェントの実現 : 第1報 認識論的目標とグラフィカル仕様言語 Realising Synthetic Active Inference Agents, Part I: Epistemic Objectives and Graphical Specification Language ( http://arxiv.org/abs/2306.08014v1 ) ライセンス: Link先を確認 | Magnus Koudahl, Thijs van de Laar, Bert de Vries | (参考訳) 自由エネルギー原理(英: Free Energy Principle、FEP)とは、自由エネルギー関数を最小化することによって(知的な)システムがコヒーレントで安定な構造に自己組織化する方法を記述する理論的枠組みである。
アクティブ推論(active inference, aif)は、情報探索コンポーネントを組み込んだ特定の自由エネルギー汎関数を最小化することで、将来(agents)機能をどのように計画できるかを具体的に記述したfepの組織である。
本稿では,自由形式因子グラフ上でAIFの合成版を導出する2つのシリーズの最初のものである。
本稿では,AIF に使用される自由エネルギー関数の局所バージョンを導出することに焦点を当てる。
これにより、任意のグラフィカルモデルやインターフェースに適用可能なAIFのバージョンを、メッセージパッシングアルゴリズムに先立って構築することができる。
得られたメッセージは私たちの共用紙に導出されます。
また、因子グラフに使用される図式表記のギャップも特定した。
因子グラフは生成モデルを表現するのに優れているが、制約を含む完全な最適化問題を特定できなかった。
この問題を解決するために,変分推論対象の完全にグラフィカルな記述を可能にするConstrained Forney-style Factor Graph (CFFG) 表記法を開発した。
次に、cffgがaifの事前アルゴリズムの再構築や新しいアルゴリズムの導出にどのように使えるかを示す。
後者は、AIFエージェントの直接的なポリシー推論を可能にするアルゴリズムを導出し、これまでAIFの工業的利用を妨げてきた長期にわたるスケーリング問題を回避している。
本稿では,従来のT-mazeタスクにアルゴリズムを適用し,AIFの目立った特徴である行動を求める情報を再現することを示す。 The Free Energy Principle (FEP) is a theoretical framework for describing how (intelligent) systems self-organise into coherent, stable structures by minimising a free energy functional. Active Inference (AIF) is a corollary of the FEP that specifically details how systems that are able to plan for the future (agents) function by minimising particular free energy functionals that incorporate information seeking components. This paper is the first in a series of two where we derive a synthetic version of AIF on free form factor graphs. The present paper focuses on deriving a local version of the free energy functionals used for AIF. This enables us to construct a version of AIF which applies to arbitrary graphical models and interfaces with prior work on message passing algorithms. The resulting messages are derived in our companion paper. We also identify a gap in the graphical notation used for factor graphs. While factor graphs are great at expressing a generative model, they have so far been unable to specify the full optimisation problem including constraints. To solve this problem we develop Constrained Forney-style Factor Graph (CFFG) notation which permits a fully graphical description of variational inference objectives. We then proceed to show how CFFG's can be used to reconstruct prior algorithms for AIF as well as derive new ones. The latter is demonstrated by deriving an algorithm that permits direct policy inference for AIF agents, circumventing a long standing scaling issue that has so far hindered the application of AIF in industrial settings. We demonstrate our algorithm on the classic T-maze task and show that it reproduces the information seeking behaviour that is a hallmark feature of AIF. | 翻訳日:2023-06-16 23:21:41 公開日:2023-06-13 |
# TopP\&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法 TopP\&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v1 ) ライセンス: Link先を確認 | Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo | (参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。
Inception Score (IS)、Fr\'echet Inception Distance (FID)、Precision and Recall (P\&R)といった既存のメトリクスは、サンプルの特徴から推定されるサポートに大きく依存している。
しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。
本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp\&r,「topper」と発音する)を提案する。
これにより、TopP\&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。
理論および実験結果から,TopP\&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。
我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。 We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Fr\'echet Inception Distance (FID), and the variants of Precision and Recall (P\&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP\&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP\&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP\&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise. | 翻訳日:2023-06-16 23:21:11 公開日:2023-06-13 |
# 朗読音声と自発音声を分類する新しい手法 A Novel Scheme to classify Read and Spontaneous Speech ( http://arxiv.org/abs/2306.08012v1 ) ライセンス: Link先を確認 | Sunil Kumar Kopparapu | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、遠隔での電話インタビューの利用が増加し、音声録音におけるスクリプト付き音声と自発的音声の区別が重要になった。
本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。
提案手法では,事前学習したDeepSpeechオーディオ・アルファベット認識エンジンを用いて,音声からアルファベット列を生成する。
これらのアルファベットから、読み出しと自発的な音声の区別を可能にする特徴を導出する。
実験結果から,少数の自己説明的特徴でも2種類の音声を効果的に分類できることが示唆された。 The COVID-19 pandemic has led to an increased use of remote telephonic interviews, making it important to distinguish between scripted and spontaneous speech in audio recordings. In this paper, we propose a novel scheme for identifying read and spontaneous speech. Our approach uses a pre-trained DeepSpeech audio-to-alphabet recognition engine to generate a sequence of alphabets from the audio. From these alphabets, we derive features that allow us to discriminate between read and spontaneous speech. Our experimental results show that even a small set of self-explanatory features can effectively classify the two types of speech very effectively. | 翻訳日:2023-06-16 23:20:46 公開日:2023-06-13 |
# 非iidシナリオ下での連合学習に対するプライバシ推論によるステルスバックドア攻撃 Privacy Inference-Empowered Stealthy Backdoor Attack on Federated Learning under Non-IID Scenarios ( http://arxiv.org/abs/2306.08011v1 ) ライセンス: Link先を確認 | Haochen Mei, Gaolei Li, Jun Wu, Longfei Zheng | (参考訳) フェデレーション学習(fl)は、現実世界のシナリオにおけるデータの不均一性の問題に自然に直面しているが、flのセキュリティとプライバシに関する研究によって見過ごされることが多い。
一方、非IIDシナリオでは、FLに対するバックドア攻撃の有効性は著しく低下する可能性がある。
一方、悪意のあるクライアントはプライバシ推論攻撃によってプライベートデータを盗む可能性がある。
したがって、データの異質性、バックドア、プライバシ推論に関する包括的な視点を持つ必要がある。
本稿では,非IIDシナリオ下でのFLのための新しいプライバシ推論型ステルスティバックドアアタック(PI-SBA)手法を提案する。
まず,gans(generative adversarial networks)に基づく多様なデータ再構成機構を提案し,攻撃者のローカルデータ分散を改善し,より洗練されたバックドア攻撃戦略をサポートする追加データセットを作成する。
これに基づいて,ソース特定バックドア学習(ssbl)戦略を実演として設計し,敵がバックドアトリガーの影響を受けやすいクラスを任意に指定できるようにする。
PI-SBAには独立した有毒データ合成プロセスがあるため、既存のバックドア攻撃に統合することで、非IIDシナリオにおける有効性とステルス性を改善することができる。
MNIST, CIFAR10, Youtube Aligned Faceデータセットに基づく大規模な実験により, PI-SBA方式は非IIDFLに対して有効であり, 最先端の防御手法に対するステルス性を示す。 Federated learning (FL) naturally faces the problem of data heterogeneity in real-world scenarios, but this is often overlooked by studies on FL security and privacy. On the one hand, the effectiveness of backdoor attacks on FL may drop significantly under non-IID scenarios. On the other hand, malicious clients may steal private data through privacy inference attacks. Therefore, it is necessary to have a comprehensive perspective of data heterogeneity, backdoor, and privacy inference. In this paper, we propose a novel privacy inference-empowered stealthy backdoor attack (PI-SBA) scheme for FL under non-IID scenarios. Firstly, a diverse data reconstruction mechanism based on generative adversarial networks (GANs) is proposed to produce a supplementary dataset, which can improve the attacker's local data distribution and support more sophisticated strategies for backdoor attacks. Based on this, we design a source-specified backdoor learning (SSBL) strategy as a demonstration, allowing the adversary to arbitrarily specify which classes are susceptible to the backdoor trigger. Since the PI-SBA has an independent poisoned data synthesis process, it can be integrated into existing backdoor attacks to improve their effectiveness and stealthiness in non-IID scenarios. Extensive experiments based on MNIST, CIFAR10 and Youtube Aligned Face datasets demonstrate that the proposed PI-SBA scheme is effective in non-IID FL and stealthy against state-of-the-art defense methods. | 翻訳日:2023-06-16 23:20:34 公開日:2023-06-13 |
# BPKD:セマンティックセグメンテーションのための境界予備知識蒸留 BPKD: Boundary Privileged Knowledge Distillation For Semantic Segmentation ( http://arxiv.org/abs/2306.08075v1 ) ライセンス: Link先を確認 | Liyang Liu, Zihan Wang, Minh Hieu Phan, Bowen Zhang, Yifan Liu | (参考訳) セマンティックセグメンテーションにおける知識蒸留の現在のアプローチは、すべての空間的位置を等しく扱う包括的アプローチを採用する傾向がある。
しかし, 密集予測タスクにおいては, 異なる空間位置の知識表現を異なる方法で検討することが重要である。
さらに、隣接するカテゴリ間のエッジ領域は、特にコンパクトネットワークで顕著なコンテキスト情報漏洩のため、非常に不確実である。
そこで本研究では,境界優先型知識蒸留(BPKD)と呼ばれる新しい手法を提案する。
BPKDは、教師モデルの体とエッジの知識を、コンパクトな学生モデルとは別々に蒸留する。
具体的には2つの異なる損失関数を用いる。
1)エッジ領域における画素レベルの曖昧なクラスを区別することを目的としたエッジ損失。
2) 形状制約を利用し, 内部意味領域に選択的に出席する身体損失
BPKD法は, エッジ領域とボディ領域を広範囲に改良し, 集約する手法であることを示す。
さらに,3つのベンチマークデータセット上でのセマンティックセマンティックセグメンテーションのための最先端蒸留性能を実現し,その有効性と一般化能力を強調した。
BPKDは、様々な軽量セマンティックセグメンテーション構造に対して一貫した改善を示す。
コードは \url{https://github.com/akideliu/bpkd} で入手できる。 Current approaches for knowledge distillation in semantic segmentation tend to adopt a holistic approach that treats all spatial locations equally. However, for dense prediction tasks, it is crucial to consider the knowledge representation for different spatial locations in a different manner. Furthermore, edge regions between adjacent categories are highly uncertain due to context information leakage, which is particularly pronounced for compact networks. To address this challenge, this paper proposes a novel approach called boundary-privileged knowledge distillation (BPKD). BPKD distills the knowledge of the teacher model's body and edges separately from the compact student model. Specifically, we employ two distinct loss functions: 1) Edge Loss, which aims to distinguish between ambiguous classes at the pixel level in edge regions. 2) Body Loss, which utilizes shape constraints and selectively attends to the inner-semantic regions. Our experiments demonstrate that the proposed BPKD method provides extensive refinements and aggregation for edge and body regions. Additionally, the method achieves state-of-the-art distillation performance for semantic segmentation on three popular benchmark datasets, highlighting its effectiveness and generalization ability. BPKD shows consistent improvements over various lightweight semantic segmentation structures. The code is available at \url{https://github.com/AkideLiu/BPKD}. | 翻訳日:2023-06-16 23:12:54 公開日:2023-06-13 |
# DORSal: Scenes $\textit{et al. オブジェクト中心表現の拡散。
}$ DORSal: Diffusion for Object-centric Representations of Scenes $\textit{et al.}$ ( http://arxiv.org/abs/2306.08068v1 ) ライセンス: Link先を確認 | Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf | (参考訳) 最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
結果として、見えないシーンやオブジェクトへの一般化、単一のまたは少数の入力画像からの新規ビューのレンダリング、編集をサポートする制御可能なシーン生成が可能になった。
しかし、多数のシーンでの共同トレーニングは、NeRFのようなシングルシーン最適化モデルと比較してレンダリング品質を損なうのが一般的である。
本稿では,拡散モデルの最近の進歩を利用して,オブジェクトレベルのシーン編集などのメリットを最大限に保ちながら,高忠実度な新規ビューを描画できる3次元シーン表現学習モデルを実現する。
特に,オブジェクト中心のスロットベースのシーン表現に基づく3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
複雑な合成多目的シーンと実世界の大規模ストリートビューデータセットの両方において、DORSalはオブジェクトレベルの編集と既存のアプローチの改善による3Dシーンのスケーラブルなニューラルレンダリングを実現する。 Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches. | 翻訳日:2023-06-16 23:12:32 公開日:2023-06-13 |
# 完全量子テレポーテーションのためのn量子ビット状態条件 Condition on n-Qubit State For Getting Perfect Quantum Teleportation ( http://arxiv.org/abs/2306.08067v1 ) ライセンス: Link先を確認 | Shamiya Javed, Phool Singh Yadav, Ranjana Prakash, Hari Prakash | (参考訳) マルチキュービットリソースを持つ標準量子テレポーテーション(SQT)は、$2+C)/3$となり、そこでは$C$は、キュービットの受信機と他のキュービットの間の二部交絡におけるリソースのコンカレンスである。
完全SQTの場合、明らかに$C=1$である。
一般の3ビット資源に対して、任意の基底状態で表される状態に対して完全 SQT を得る条件を求める。
など。
修正 B 22 2523-2528 (2008)] は、3量子資源を用いて完全 SQT を研究し、Acin 表現の3量子標準形式で与えられるこれらの資源状態に対してのみ完全 SQT の条件を報告した。
より一般化された結果を与える代替の導出可能な表現が存在することを示す。
この2つのスキームの違いを説明するために、Zha などの結果に含まれない完全 SQT を与える3量子交絡状態の例を構築した。 It is shown that standard quantum teleportation (SQT) with multi-qubit resource result in fidelity $(2+C)/3$ where $C$ is concurrence of the resource in bipartite entanglement between qubit going to receiver and rest of the qubits. For perfect SQT, obviously, $C=1$. For a general 3-qubit resource, we find conditions for getting perfect SQT for state expressed in any basis states. Zha et al. [Mod. Phys. Lett. B 22, 2523-2528 (2008)], who studied perfect SQT using 3-qubit resource, reported conditions for perfect SQT for only those resource states which are given in the 3-qubit canonical form of Acin representation. We show that there is an alternative easily derivable representation which gives more generalized results. To illustrate the difference between the two schemes, we build an example of 3-qubit entangled state, giving perfect SQT and not included in Zha et al. results. | 翻訳日:2023-06-16 23:12:13 公開日:2023-06-13 |
# tune as you scale: 効率的なトレーニングのためのハイパーパラメータ最適化 Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training ( http://arxiv.org/abs/2306.08055v1 ) ライセンス: Link先を確認 | Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wr\'oblewski, James B. Simon, Kanjun Qiu | (参考訳) ディープラーニングモデルのハイパーパラメータチューニングは、同じ計算量に対して、桁違いのパフォーマンス向上につながる可能性がある。
それにもかかわらず、システムチューニングは、特に、評価が高価で多くのハイパーパラメータを持つ傾向がある大規模モデルでは珍しく、トレードオフ、予算、探索境界に関する難しい判断要求を必要とする。
これらの問題に対処し,大規模モデルのロバストなチューニング方法を提案するために,性能コストの低いパレートフロンティア周辺を局所的に探索するベイズ最適化アルゴリズムであるCARBSを提案する。
CARBSは、多くのハイパーパラメータを持つ非有界検索空間でもうまく機能し、スケールアップしてもモデルをチューニングできるようにスケール関係を学び、チューニングの「ブラックマジック」の多くを自動化する。
この結果のうち,単純なベースライン(ppo)をチューニングすることによって,progenベンチマーク全体を効果的に解決した。
また,chinchillaプロジェクト(hoffmann et al. 2022)によるモデルサイズとトレーニングトークンのスケーリング結果を再現するとともに,計算量を大幅に削減し,ディープラーニング問題(言語モデルだけでなく)に適用可能な,簡単な自動化プロセスを通じて,他のハイパーパラメータ毎のスケーリング法則を同時に発見する。 Hyperparameter tuning of deep learning models can lead to order-of-magnitude performance gains for the same amount of compute. Despite this, systematic tuning is uncommon, particularly for large models, which are expensive to evaluate and tend to have many hyperparameters, necessitating difficult judgment calls about tradeoffs, budgets, and search bounds. To address these issues and propose a practical method for robustly tuning large models, we present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian optimization algorithm that performs local search around the performance-cost Pareto frontier. CARBS does well even in unbounded search spaces with many hyperparameters, learns scaling relationships so that it can tune models even as they are scaled up, and automates much of the "black magic" of tuning. Among our results, we effectively solve the entire ProcGen benchmark just by tuning a simple baseline (PPO, as provided in the original ProcGen paper). We also reproduce the model size vs. training tokens scaling result from the Chinchilla project (Hoffmann et al. 2022), while simultaneously discovering scaling laws for every other hyperparameter, via an easy automated process that uses significantly less compute and is applicable to any deep learning problem (not just language models). | 翻訳日:2023-06-16 23:11:53 公開日:2023-06-13 |
# 隠れサブグループ量子オートエンコーダによる情報圧縮 Information compression via hidden subgroup quantum autoencoders ( http://arxiv.org/abs/2306.08047v1 ) ライセンス: Link先を確認 | Feiyang Liu, Kaiming Bian, Fei Meng, Wen Zhang and Oscar Dahlsten | (参考訳) 非線形古典情報圧縮のための量子法を設計する。
いわゆる隠れ部分群の対称性に従うデータを圧縮するために、クエリ複雑性の観点から量子アルゴリズムの指数関数的な高速化が証明される。
次に,本手法を変分量子アルゴリズムに一般化し,データベースに格納された時系列データを,隠蔽サブグループの未知の対称性で自動的に圧縮する。
自動圧縮は、隠されたサブグループを演算するエンコーダと、グループ構造を用いてデータを再構成するデコーダを利用する。
したがって、アルゴリズムは隠れたサブグループ量子コンピューティングと量子オートエンコーダの合成と見なすことができる。
このアルゴリズムの出力は、扱いやすい例のための深い古典的オートエンコーダと好適に比較できる。
量子コンピュータは,従来のコンピュータでは効率よく圧縮できないデータの種類を効率的に圧縮できることを示す。
追加の用途として、量子圧縮機を古典的な圧縮機よりも計算能力の利点は、知的エネルギーの収穫における量子のアドバンテージに変換できる。 We design a quantum method for non-linear classical information compression. For compressing data obeying symmetries of the so-called hidden subgroup type, we prove an exponential speedup of quantum algorithm in terms of query complexity. We then generalize the method to a variational quantum algorithm that automatically compresses time-series data stored in a database with a priori unknown symmetries of the hidden subgroup type. The automatic compression exploits an encoder that computes the hidden subgroup and a decoder that reconstructs the data using the group structure. The algorithm can thus be viewed as a synthesis of hidden subgroup quantum computing and quantum autoencoders. The output of our algorithm compares favourably with that of a deep classical autoencoder for a tractable illustrative example. Our results show how quantum computers can efficiently compress certain types of data that cannot be efficiently compressible by classical computers. As an additional application, the computational advantage of the quantum compressor over its classical counterpart can be transformed into a quantum advantage for intelligent energy harvesting. | 翻訳日:2023-06-16 23:11:29 公開日:2023-06-13 |
# 超点変圧器を用いた効率的な3次元意味セグメンテーション Efficient 3D Semantic Segmentation with Superpoint Transformer ( http://arxiv.org/abs/2306.08045v1 ) ライセンス: Link先を確認 | Damien Robert, Hugo Raguet, Loic Landrieu | (参考訳) 大規模3dシーンの効率的なセマンティクスセグメンテーションのための,新しいスーパーポイントに基づくトランスフォーマーアーキテクチャを提案する。
提案手法では,点雲を階層的なスーパーポイント構造に分割する高速アルゴリズムを導入し,既存のスーパーポイントベース手法の7倍の高速化を実現している。
さらに、複数のスケールでスーパーポイント間の関係をキャプチャする自己注意機構を活用し、S3DIS (76.0% mIoU 6-fold validation)、KITTI-360 (63.5% on Val)、DAALES (79.6%)の3つの挑戦的なベンチマークデータセット上で、最先端のパフォーマンスを実現した。
212kのパラメータしか持たないので、同様の性能を維持しつつ、他の最先端モデルよりも200倍もコンパクトです。
さらに、我々のモデルはS3DISデータセットの折りたたみに3時間で1つのGPUでトレーニングすることができる。
私たちのコードとモデルはgithub.com/drprojects/superpoint_transformerからアクセスできます。 We introduce a novel superpoint-based transformer architecture for efficient semantic segmentation of large-scale 3D scenes. Our method incorporates a fast algorithm to partition point clouds into a hierarchical superpoint structure, which makes our preprocessing 7 times times faster than existing superpoint-based approaches. Additionally, we leverage a self-attention mechanism to capture the relationships between superpoints at multiple scales, leading to state-of-the-art performance on three challenging benchmark datasets: S3DIS (76.0% mIoU 6-fold validation), KITTI-360 (63.5% on Val), and DALES (79.6%). With only 212k parameters, our approach is up to 200 times more compact than other state-of-the-art models while maintaining similar performance. Furthermore, our model can be trained on a single GPU in 3 hours for a fold of the S3DIS dataset, which is 7x to 70x fewer GPU-hours than the best-performing methods. Our code and models are accessible at github.com/drprojects/superpoint_transformer. | 翻訳日:2023-06-16 23:11:15 公開日:2023-06-13 |
# 信頼政策への道を開く: 批判的ケアに対する多目的深いQ-Learningアプローチ Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care ( http://arxiv.org/abs/2306.08044v1 ) ライセンス: Link先を確認 | Ali Shirali, Alexander Schubert, Ahmed Alaa | (参考訳) ほとんどの医療上の決定は自然界で順次行われる。
したがって、強化学習によって正確なデータ駆動治療計画を定式化できるという大きな期待がある。
しかし、この分野のほとんどのアプリケーションにとって重要な課題は、主に死亡率に基づく報酬関数の欠如であり、オフライン推定の安定性が低下する。
本研究では,より信頼性の高いクリティカルケアポリシを実現するためのQ-ラーニングアプローチを提案する。
この方法は、関心の主な結果(例えば、患者生存)の最適化を損なうことなく、関連するがノイズの多い中間バイオマーカー信号を報酬仕様に統合する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
アクションプルーニングによる正確で近似的な報酬を解消することにより、学習プロセスを導くことのできる中間信号から貴重な情報を抽出することができるとともに、主目的の潜在的な歪みを最小化する。
本手法は,集中治療室の患者をシミュレーションした環境と実際の健康記録を用いて,オフラインとオフラインの両方で評価する。
実験の結果,プルーニングは医師の行動とほぼ一致しながら,動作空間を著しく縮小し,現在最先端のオフライン強化学習法である保守的Q-ラーニングよりも優れていた。
私たちの仕事は、データ集約的クリティカルケア環境で利用可能な情報の豊富な活用によって、信頼できるポリシーを開発するための一歩です。 Most medical treatment decisions are sequential in nature. Hence, there is substantial hope that reinforcement learning may make it possible to formulate precise data-driven treatment plans. However, a key challenge for most applications in this field is the sparse nature of primarily mortality-based reward functions, leading to decreased stability of offline estimates. In this work, we introduce a deep Q-learning approach able to obtain more reliable critical care policies. This method integrates relevant but noisy intermediate biomarker signals into the reward specification, without compromising the optimization of the main outcome of interest (e.g. patient survival). We achieve this by first pruning the action set based on all available rewards, and second training a final model based on the sparse main reward but with a restricted action set. By disentangling accurate and approximated rewards through action pruning, potential distortions of the main objective are minimized, all while enabling the extraction of valuable information from intermediate signals that can guide the learning process. We evaluate our method in both off-policy and offline settings using simulated environments and real health records of patients in intensive care units. Our empirical results indicate that pruning significantly reduces the size of the action space while staying mostly consistent with the actions taken by physicians, outperforming the current state-of-the-art offline reinforcement learning method conservative Q-learning. Our work is a step towards developing reliable policies by effectively harnessing the wealth of available information in data-intensive critical care environments. | 翻訳日:2023-06-16 23:10:55 公開日:2023-06-13 |
# FLamE: 自然言語の説明から学ぶ FLamE: Few-shot Learning from Natural Language Explanations ( http://arxiv.org/abs/2306.08042v1 ) ライセンス: Link先を確認 | Yangqiaoyu Zhou, Yiming Zhang, and Chenhao Tan | (参考訳) 自然言語の説明は、原則としてモデル推論を導く豊富な情報を提供する可能性がある。
しかし、lampinen et al. (2022) による最近の研究は、分類を改善するために自然言語の説明が限られていることを示している。
説明から効果的に学ぶために,まずgpt-3を用いて説明を生成し,生成した説明を用いてより小さなモデル(例えばroberta)を微調整する,二段階の少数ショット学習フレームワーク flame を提案する。
本実験は,GPT-3バベッジよりも17.6%,GPT-3Davinciよりも5.7%,強いベースラインよりも有効であることを示す。
分類性能の改善にもかかわらず、人的評価は、生成した説明の大多数が適切に分類決定を正当化していないことを驚くほど明らかにしている。
さらなる分析は、生成された説明においてラベル固有の手がかり(中性ラベルの「知らない」など)の重要な役割を指摘する。 Natural language explanations have the potential to provide rich information that in principle guides model reasoning. Yet, recent work by Lampinen et al. (2022) has shown limited utility of natural language explanations in improving classification. To effectively learn from explanations, we present FLamE, a two-stage few-shot learning framework that first generates explanations using GPT-3, and then finetunes a smaller model (e.g., RoBERTa) with generated explanations. Our experiments on natural language inference demonstrate effectiveness over strong baselines, increasing accuracy by 17.6% over GPT-3 Babbage and 5.7% over GPT-3 Davinci in e-SNLI. Despite improving classification performance, human evaluation surprisingly reveals that the majority of generated explanations does not adequately justify classification decisions. Additional analyses point to the important role of label-specific cues (e.g., "not know" for the neutral label) in generated explanations. | 翻訳日:2023-06-16 23:10:27 公開日:2023-06-13 |
# ナッシュ平衡のフェーキングについて On Faking a Nash Equilibrium ( http://arxiv.org/abs/2306.08041v1 ) ライセンス: Link先を確認 | Young Wu, Jeremy McMahan, Xiaojin Zhu, Qiaomin Xie | (参考訳) 我々は,マルチエージェント強化学習(marl)におけるオフラインデータ中毒攻撃を特徴付ける。攻撃者は(潜在的に架空の)ユニークなマルコフ完全nash平衡をインストールするためにデータセットを変更する可能性がある。
我々は、一意なナッシュ集合、すなわち、そのQ関数によって指定されるゲームの集合を提案し、特定の合同ポリシーが一意なナッシュ均衡である。
ユニークなナッシュセットは、攻撃が成功し、データ中毒が内部のすべてのもっともらしいゲームを押し込む場合に限り、攻撃の中心となる。
ユニークなナッシュ集合は、MARLへの逆強化学習でよく使われる報酬ポリトープを一般化する。
ゼロサムマルコフゲームでは、逆ナッシュ集合とデータによって引き起こされる可算ゲームの集合はともにq関数空間のポリトープである。
最適な中毒攻撃を効率的に計算するための線形プログラムを示す。
我々の研究は、より堅牢なMARLアルゴリズムを設計するために必要なステップであるオフラインMARLに対するデータ中毒攻撃の構造に光を当てています。 We characterize offline data poisoning attacks on Multi-Agent Reinforcement Learning (MARL), where an attacker may change a data set in an attempt to install a (potentially fictitious) unique Markov-perfect Nash equilibrium. We propose the unique Nash set, namely the set of games, specified by their Q functions, with a specific joint policy being the unique Nash equilibrium. The unique Nash set is central to poisoning attacks because the attack is successful if and only if data poisoning pushes all plausible games inside it. The unique Nash set generalizes the reward polytope commonly used in inverse reinforcement learning to MARL. For zero-sum Markov games, both the inverse Nash set and the set of plausible games induced by data are polytopes in the Q function space. We exhibit a linear program to efficiently compute the optimal poisoning attack. Our work sheds light on the structure of data poisoning attacks on offline MARL, a necessary step before one can design more robust MARL algorithms. | 翻訳日:2023-06-16 23:10:09 公開日:2023-06-13 |
# 強結合型ハイブリッドスピンシステムによる暗黒物質探索 Dark matter search with a strongly-coupled hybrid spin system ( http://arxiv.org/abs/2306.08039v1 ) ライセンス: Link先を確認 | Kai Wei, Zitong Xu, Yuxuan He, Xiaolin Ma, Xing Heng, Xiaofei Huang, Wei Quan, Wei Ji, Jia Liu, Xiaoping Wang, Jiancheng Fang, Dmitry Budker | (参考訳) 観測上の証拠は、宇宙に約84.4 %の物質を含む暗黒物質(DM)の存在を示唆している。
テーブルトップ量子センサ技術の最近の進歩により、DMの非重力相互作用の探索が可能になった。
ChangEという実験では、Coupled Hot Atom eNsemblesを使って liGht dark mattEr と新しい物理を探索しています。
我々は,高感度を維持しながら,$^{21}$Ne核スピンの帯域幅を3桁に拡大する強結合ハイブリッドスピン共鳴(HSR)機構を同定した。
低周波用自己補償モード(sc)と組み合わせて,[0.01, 1000]$ hzの範囲でコンプトン周波数を持つアクシオン様ダークマターの包括的広帯域探索を行う。
我々は, 中性子と陽子とのdm相互作用に新たな制約を課し, 確率効果を考慮した。
axion-neutron結合では、周波数範囲の[0.02 , 4]$ hz が天体物理学上の限界を超え、[10, 100]$ hz の範囲で最強の実験室の制約を与えるために、|g_{ann}|\le 3\times 10^{-10}$ という低い値が得られる。
axion-proton結合では、100hz未満の周波数に対する最高の地上制約を提供する。 Observational evidence suggests the existence of dark matter (DM), which comprises approximately $84.4\%$ of matter in the universe. Recent advances in tabletop quantum sensor technology have enabled searches for nongravitational interactions of DM. Our experiment named ChangE utilizes Coupled Hot Atom eNsembles to search for liGht dark mattEr and new physics. We identify a strongly-coupled hybrid spin-resonance (HSR) regime that enhances the bandwidth of $^{21}$Ne nuclear spin by three orders of magnitude while maintaining high sensitivity. In combination with a self-compensating mode (SC) for low frequencies, we present a comprehensive broadband search for axion-like dark matter with Compton frequencies in the range of $[0.01, 1000]$ Hz. We set new constraints on the DM interactions with neutrons and protons, accounting for the stochastic effect. For the axion-neutron coupling, our results reach a low value of $|g_{ann}|\le 3\times 10^{-10}$ in the frequency range $[0.02 , 4]$ Hz surpassing astrophysical limits and provide the strongest laboratory constraints in the $[10, 100]$ Hz range. For the axion-proton coupling, we offer the best terrestrial constraints for the frequency below 100 Hz. | 翻訳日:2023-06-16 23:09:51 公開日:2023-06-13 |
# 部分強対流下における深層ニューラルネットワークのネステロフ運動量の加速収束 Accelerated Convergence of Nesterov's Momentum for Deep Neural Networks under Partial Strong Convexity ( http://arxiv.org/abs/2306.08109v1 ) ライセンス: Link先を確認 | Fangshuo Liao, Anastasios Kyrillidis | (参考訳) ニューラルネットワークの学習における勾配降下の収束に関する最近の解析は、polyak-lojaciewicz (pl)条件や制限された強い凸性といった損失景観の特性を特徴付けることに焦点を当てている。
勾配降下はそのような条件下で線形に収束するが、ネステロフの運動量も同様の設定や仮定の下で加速収束を楽しむかどうかには疑問が残る。
この研究において、パラメータのサブセットだけが強い凸性を満たす新しい目的関数のクラスを考え、この目的クラスの理論においてネステロフの運動量が加速を達成することを示す。
我々は、問題クラスの2つの実現法を提供し、そのうちの1つはディープ ReLU ネットワークであり、それは、私たちの知る限りでは、この研究を、非自明なニューラルネットワークアーキテクチャに対する加速収束率を証明する最初のものである。 Current state-of-the-art analyses on the convergence of gradient descent for training neural networks focus on characterizing properties of the loss landscape, such as the Polyak-Lojaciewicz (PL) condition and the restricted strong convexity. While gradient descent converges linearly under such conditions, it remains an open question whether Nesterov's momentum enjoys accelerated convergence under similar settings and assumptions. In this work, we consider a new class of objective functions, where only a subset of the parameters satisfies strong convexity, and show Nesterov's momentum achieves acceleration in theory for this objective class. We provide two realizations of the problem class, one of which is deep ReLU networks, which --to the best of our knowledge--constitutes this work the first that proves accelerated convergence rate for non-trivial neural network architectures. | 翻訳日:2023-06-16 23:04:49 公開日:2023-06-13 |
# 次世代セルポジショニングのための量子フィンガープリントアルゴリズム A Quantum Fingerprinting Algorithm for Next Generation Cellular Positioning ( http://arxiv.org/abs/2306.08108v1 ) ライセンス: Link先を確認 | Yousef Zook, Ahmed Shokry, Moustafa Youssef | (参考訳) 第3世代のパートナーシッププロジェクトであるRelease 17のリリースでは、計算のレイテンシを低減したサブメーターセル位置決めの精度が求められている。
受信信号強度(rss)を利用して、現在及び将来の機器におけるユビキタスな可用性を測位する。
RSSフィンガープリントに基づく技術は、屋内環境と屋外環境の両方で高い精度を提供する大きな可能性を示している。
しかし、指紋に基づく位置決めは、世界規模でスケール可能な高速マッチングアルゴリズムを提供するという課題に直面している。
本稿では,次世代の5Gネットワークや6Gネットワークと統合可能な指紋による高精度な位置決めを可能にするコサイン類似性に基づく量子アルゴリズムを提案する。
テストrssベクトルと指紋rssベクトルを絡み合わせることで、提案された量子アルゴリズムは、ストレージ空間と実行時間の両方において、従来のバージョンや最先端の量子指紋位置決めシステムよりも指数関数的に優れた複雑さを持つ。
提案した量子アルゴリズムを実装し,実際のIBM量子マシン上での細胞テストベッドで評価する。
その結果,従来のフィンガープリント技術や最先端の量子アルゴリズムと同等の位置決め精度を維持しつつ,提案した量子アルゴリズムの時間と空間の指数的節約効果を示した。 The recent release of the third generation partnership project, Release 17, calls for sub-meter cellular positioning accuracy with reduced latency in calculation. To provide such high accuracy on a worldwide scale, leveraging the received signal strength (RSS) for positioning promises ubiquitous availability in the current and future equipment. RSS Fingerprint-based techniques have shown a great potential for providing high accuracy in both indoor and outdoor environments. However, fingerprint-based positioning faces the challenge of providing a fast matching algorithm that can scale worldwide. In this paper, we propose a cosine similarity-based quantum algorithm for enabling fingerprint-based high accuracy and worldwide positioning that can be integrated with the next generation of 5G and 6G networks and beyond. By entangling the test RSS vector with the fingerprint RSS vectors, the proposed quantum algorithm has a complexity that is exponentially better than its classical version as well as the state-of-the-art quantum fingerprint positioning systems, both in the storage space and the running time. We implement the proposed quantum algorithm and evaluate it in a cellular testbed on a real IBM quantum machine. Results show the exponential saving in both time and space for the proposed quantum algorithm while keeping the same positioning accuracy compared to the traditional classical fingerprinting techniques and the state-of-the-art quantum algorithms. | 翻訳日:2023-06-16 23:04:22 公開日:2023-06-13 |
# 大規模言語モデル時代のAutoML:現在の課題、将来の可能性、リスク AutoML in the Age of Large Language Models: Current Challenges, Future Opportunities and Risks ( http://arxiv.org/abs/2306.08107v1 ) ライセンス: Link先を確認 | Alexander Tornede, Difan Deng, Theresa Eimer, Joseph Giovanelli, Aditya Mohan, Tim Ruhkopf, Sarah Segel, Daphne Theodorakopoulos, Tanja Tornede, Henning Wachsmuth, Marius Lindauer | (参考訳) 自然言語処理(NLP)と自動機械学習(Automated Machine Learning)の両方の分野は、ここ数年で顕著な成果を上げてきた。
NLPでは、特にLarge Language Models (LLM) は、最近、急激なブレークスルーを経験している。
2つのフィールドが緊密な統合によって相互の境界を根本的に押し付けることができると私たちは考えています。
このビジョンを実証するために、AutoMLとLLMの共生関係の可能性を探り、相互に利益をもたらす方法について光を当てる。
特に、異なる視点からLLMでAutoMLアプローチを強化する機会と、LLMをさらに改善するためにAutoMLを活用することの課題について検討する。
この目的のために、既存の作業を調査し、リスクを批判的に評価する。
2つのフィールドの統合は、NLPとAutoMLの両方のフィールドをディスラプトする可能性があると強く信じています。
認識可能な相乗効果だけでなくリスクも強調することにより、AutoMLとLCMの交差点でのさらなる探索を促進することを目指している。 The fields of both Natural Language Processing (NLP) and Automated Machine Learning (AutoML) have achieved remarkable results over the past years. In NLP, especially Large Language Models (LLMs) have experienced a rapid series of breakthroughs very recently. We envision that the two fields can radically push the boundaries of each other through tight integration. To showcase this vision, we explore the potential of a symbiotic relationship between AutoML and LLMs, shedding light on how they can benefit each other. In particular, we investigate both the opportunities to enhance AutoML approaches with LLMs from different perspectives and the challenges of leveraging AutoML to further improve LLMs. To this end, we survey existing work, and we critically assess risks. We strongly believe that the integration of the two fields has the potential to disrupt both fields, NLP and AutoML. By highlighting conceivable synergies, but also risks, we aim to foster further exploration at the intersection of AutoML and LLMs. | 翻訳日:2023-06-16 23:03:42 公開日:2023-06-13 |
# クラウドネットワークを用いたモデルフリー市場リスクヘッジ Model-Free Market Risk Hedging Using Crowding Networks ( http://arxiv.org/abs/2306.08105v1 ) ライセンス: Link先を確認 | Vadim Zlotnikov, Jiayu Liu, Igor Halperin, Fei He, Lisa Huang | (参考訳) 群集はポートフォリオ戦略を設計する上で最も重要なリスク要因の1つだと考えられている。
本稿では,株式の集団化スコアの計算に使用されるファンド保有のネットワーク分析を用いて,株式の集団化分析を行う。
これらのスコアは、ヘッジファンドポートフォリオの望ましい特性を持つ数値最適化を使わずに、分散フリー(モデルフリー)で計算されたコストのないロングショートポートフォリオを構築するために使用される。
より具体的には、これらのロングショートポートフォリオは、市場との負の相関と市場のリターンの関数としての正の凸性のために、小規模および大規模な市場価格変動の保護を提供する。
従来の60/40ポートフォリオのようなベースラインポートフォリオにロングショートポートフォリオを追加することで、オプションベースの戦略や複雑な数値最適化を必要としないテールリスクを含む、ヘッジファンドポートフォリオリスクの代替手段を提供します。
このようなヘッジの総コストは、ヘッジファンドポートフォリオの再バランスの総コストに相当します。 Crowding is widely regarded as one of the most important risk factors in designing portfolio strategies. In this paper, we analyze stock crowding using network analysis of fund holdings, which is used to compute crowding scores for stocks. These scores are used to construct costless long-short portfolios, computed in a distribution-free (model-free) way and without using any numerical optimization, with desirable properties of hedge portfolios. More specifically, these long-short portfolios provide protection for both small and large market price fluctuations, due to their negative correlation with the market and positive convexity as a function of market returns. By adding our long-short portfolio to a baseline portfolio such as a traditional 60/40 portfolio, our method provides an alternative way to hedge portfolio risk including tail risk, which does not require costly option-based strategies or complex numerical optimization. The total cost of such hedging amounts to the total cost of rebalancing the hedge portfolio. | 翻訳日:2023-06-16 23:02:59 公開日:2023-06-13 |
# 拡散モデルに3次元幾何制御を加える Adding 3D Geometry Control to Diffusion Models ( http://arxiv.org/abs/2306.08103v1 ) ライセンス: Link先を確認 | Wufei Ma, Qihao Liu, Jiahao Wang, Angtian Wang, Yaoyao Liu, Adam Kortylewski, Alan Yuille | (参考訳) 拡散モデルは様々な分野にわたる生成的モデリングの強力な方法として登場し、自然言語記述から素晴らしいフォトリアリスティックな画像を生成することができる。
しかし、これらのモデルは生成された画像内のオブジェクトの3d構造に対する明示的な制御を欠いている。
本稿では,3次元形状制御を拡散モデルに組み込むことで,よりリアルで多様な画像を生成する手法を提案する。
そこで本手法では,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
3次元形状リポジトリ(ShapeNetやObjaverseなど)から取得した3Dオブジェクトの画像を生成し、さまざまなポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用して、現実的な画像を生成する。
明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。
これにより、生成した画像を用いて、分類や3Dポーズ推定といった多くの視覚タスクを、分配内(ID)と分配外(OOD)の両方の設定で改善することができる。
我々は,ImageNet-50, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CVデータセットの広範な実験により,提案手法の有効性を実証した。
その結果,提案手法は複数のベンチマークにおいて既存手法よりも有意に優れていた(例えば,ImageNet-50では4.6ポイント,PASCAL3D+では3.5ポイント,NeMoではObjectNet3Dでは3.5ポイント)。 Diffusion models have emerged as a powerful method of generative modeling across a range of fields, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure of the objects in the generated images. In this paper, we propose a novel method that incorporates 3D geometry control into diffusion models, making them generate even more realistic and diverse images. To achieve this, our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of 3D objects taken from a 3D shape repository (e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to use the generated images to improve a lot of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-50, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV datasets. The results show that our method significantly outperforms existing methods across multiple benchmarks (e.g., 4.6 percentage points on ImageNet-50 using ViT and 3.5 percentage points on PASCAL3D+ and ObjectNet3D using NeMo). | 翻訳日:2023-06-16 23:02:27 公開日:2023-06-13 |
# 光コヒーレンストモグラフィノイズ低減のためのドメインアウェア・マイノショット学習 Domain-Aware Few-Shot Learning for Optical Coherence Tomography Noise Reduction ( http://arxiv.org/abs/2306.08102v1 ) ライセンス: Link先を確認 | Deborah Pereg | (参考訳) スペックルノイズは医用画像において長年にわたって広く研究されてきた問題である。
近年,ノイズ低減のための深層学習手法の活用が大きな進歩を遂げている。
それでも、教師付き学習モデルの未確認領域への適応は難しい問題である。
具体的には、計算イメージングタスクのために訓練されたディープニューラルネットワーク(DNN)は、取得システムの物理的パラメータの変化(サンプリングスペース、解像度、コントラスト)に対して脆弱である。
同じ取得システム内であっても、パフォーマンスは異なる生物学的組織のデータセット間で低下する。
そこで本研究では,光コヒーレンストモグラフィ(oct)ノイズ低減のための数発教師付き学習フレームワークを提案する。
さらに,OCT多元画像システムにおける領域シフト問題を定式化し,非特定学習モデルの出力分解能がソース領域分解能によって決定されることを示す。
また、治療も行っています。
提案手法は, 適用性, 堅牢性, 計算効率の検証と比較を行う。
以上の結果から, サンプル複雑性, 一般化, 時間効率の向上, 教師付き学習モデルによるコヒーレント・非コヒーレントノイズ低減, その他のリアルタイムコンピュータビジョンアプリケーションにも活用できる可能性が示唆された。 Speckle noise has long been an extensively studied problem in medical imaging. In recent years, there have been significant advances in leveraging deep learning methods for noise reduction. Nevertheless, adaptation of supervised learning models to unseen domains remains a challenging problem. Specifically, deep neural networks (DNNs) trained for computational imaging tasks are vulnerable to changes in the acquisition system's physical parameters, such as: sampling space, resolution, and contrast. Even within the same acquisition system, performance degrades across datasets of different biological tissues. In this work, we propose a few-shot supervised learning framework for optical coherence tomography (OCT) noise reduction, that offers a dramatic increase in training speed and requires only a single image, or part of an image, and a corresponding speckle suppressed ground truth, for training. Furthermore, we formulate the domain shift problem for OCT diverse imaging systems, and prove that the output resolution of a despeckling trained model is determined by the source domain resolution. We also provide possible remedies. We propose different practical implementations of our approach, verify and compare their applicability, robustness, and computational efficiency. Our results demonstrate significant potential for generally improving sample complexity, generalization, and time efficiency, for coherent and non-coherent noise reduction via supervised learning models, that can also be leveraged for other real-time computer vision applications. | 翻訳日:2023-06-16 23:01:56 公開日:2023-06-13 |
# 相対位相の巻線からの特殊エッジモードの位相的特徴 Topological characterization of special edge modes from the winding of relative phase ( http://arxiv.org/abs/2306.08100v1 ) ライセンス: Link先を確認 | Sudarshan Saha, Tanay Nag, Saptarshi Mandal | (参考訳) 対称性に制約のある位相不変量は、システムが離散対称性を保たないときの特別なエッジモードの出現を説明するのに失敗する。
反転対称性またはカイラル対称性が破れたSSHモデルは、開鎖の一端に有限エネルギーの一方の辺状態が現れるような系の例である。
この特殊エッジモードが位相的起源であるか否かを調べるために、二成分スピノルの成分間の相対位相の概念を導入し、この相対位相を1次元ブリルアンゾーン上で変化させることで巻数を定義する。
相対位相は、バルク境界対応を推定する片側エッジモードの存在(吸収)に応じて、非自明に(自明に)回転する。
我々はこの解析を、ブリルアンゾーンの特定の軸に沿った相対位相の巻線によって、ギャップ付き片側エッジモードをホストする非自明な位相を特徴付ける2次元のケースに拡張する。
基礎となる下次元射影が原点を含むか否かによって位相が決定される間、一般的なパラメトリック表現から上記のすべての知見を実証する。
そこで本研究では, 今後の研究に向けて, 対称性破壊位相の新しいパラダイムを明らかにする。 The symmetry-constrained topological invariant fails to explain the emergence of the special edge modes when system does not preserve discrete symmetries. The inversion or chiral symmetry broken SSH model is an example of one such system where one-sided edge state with finite energy appears at one end of the open chain. To investigate whether this special edge mode is of topological origin or not, we introduce a concept of relative phase between the components of a two-component spinor and define a winding number by the change of this relative phase over the one-dimensional Brillouin zone. The relative phase winds non-trivially (trivially) in accord with the presence (absence) of the one-sided edge mode inferring the bulk boundary correspondence. We extend this analysis to a two dimensional case where we characterize the non-trivial phase, hosting gapped one-sided edge mode, by the winding in relative phase only along a certain axis in the Brillouin zone. We demonstrate all the above findings from a generic parametric representation while topology is essentially determined by whether the underlying lower-dimensional projection includes or excludes the origin. Our study thus reveals a new paradigm of symmetry broken topological phases for future studies. | 翻訳日:2023-06-16 23:01:34 公開日:2023-06-13 |
# ChatGPTは可能なのか?
強化学習による混在交通制御の事例 Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning ( http://arxiv.org/abs/2306.08094v1 ) ライセンス: Link先を確認 | Michael Villarreal, Bibek Poudel, Weizi Li | (参考訳) インテリジェントトランスポーテーションシステム(ITS)における強化学習(RL)アプリケーションの増加は、その成長に寄与し、重要な課題を強調している。
しかし、交通制御と管理タスクにおけるRLエージェントの目的の定義や、マルコフ決定プロセス(MDP)の効果的な定式化によるポリシーの整合は困難であり、RLとITSの両方のドメインエキスパートを必要とすることが多い。
gpt-4のような大規模言語モデル(llm)の最近の進歩は、その幅広い一般的な知識、推論能力、様々なドメインにおける共通性優先性を強調している。
そこで本研究では,70名の参加者を対象とした大規模ユーザ調査を行い,初心者が複雑な混合交通制御問題に対してchatgptを活用できるかどうかを検討する。
リングロード、ボトルネック、交差点を含む3つの環境がテストされている。
ChatGPTには様々な結果がある。
交点とボトルネックのために、chatgptは、初心者の能力よりも150%と136%の成功ポリシーの数を増加させ、そのうちのいくつかは専門家を上回っている。
しかし、ChatGPTはすべてのシナリオで一貫した改善を提供していない。 The surge in Reinforcement Learning (RL) applications in Intelligent Transportation Systems (ITS) has contributed to its growth as well as highlighted key challenges. However, defining objectives of RL agents in traffic control and management tasks, as well as aligning policies with these goals through an effective formulation of Markov Decision Process (MDP), can be challenging and often require domain experts in both RL and ITS. Recent advancements in Large Language Models (LLMs) such as GPT-4 highlight their broad general knowledge, reasoning capabilities, and commonsense priors across various domains. In this work, we conduct a large-scale user study involving 70 participants to investigate whether novices can leverage ChatGPT to solve complex mixed traffic control problems. Three environments are tested, including ring road, bottleneck, and intersection. We find ChatGPT has mixed results. For intersection and bottleneck, ChatGPT increases number of successful policies by 150% and 136% compared to solely beginner capabilities, with some of them even outperforming experts. However, ChatGPT does not provide consistent improvements across all scenarios. | 翻訳日:2023-06-16 23:01:14 公開日:2023-06-13 |
# ニューラルネットワークの安全な利用 Safe Use of Neural Networks ( http://arxiv.org/abs/2306.08086v1 ) ライセンス: Link先を確認 | George Redinbo | (参考訳) 現代の通信システムにおけるニューラルネットワークは、内部の数値誤差の影響を受けやすいため、決定結果に大きな影響を及ぼす可能性がある。
このような構造は、一般に重み付け操作と活性化関数評価を含む多くのセクションで構成されている。
安全な使用法は、ネットワークの処理ステップで算術誤差を検出できる数値ベースのコードを使用する方法に由来する。
各操作セットは、2つの方法でコードによって規定されるパリティ値を生成する。
1組のパリティは1つのセクションの出力から得られ、2つめの同等のセットは元の入力から直接開発される。
活性化関数を保護するパリティ値は、活性化関数にテイラー級数近似を含む。
我々は,データセットのサイズが大きいため,長い数値に基づく畳み込み符号の使用に注目する。
コードは離散フーリエ変換カーネルをベースにしており、多くの設計オプションがある。
プログラムシミュレーションにより,誤差検出手法は効率的かつ効率的であることが示されている。 Neural networks in modern communication systems can be susceptible to internal numerical errors that can drastically effect decision results. Such structures are composed of many sections each of which generally contain weighting operations and activation function evaluations. The safe use comes from methods employing number based codes that can detect arithmetic errors in the network's processing steps. Each set of operations generates parity values dictated by a code in two ways. One set of parities is obtained from a section's outputs while a second comparable set is developed directly from the original inputs. The parity values protecting the activation functions involve a Taylor series approximation to the activation functions. We focus on using long numerically based convolutional codes because of the large size of data sets. The codes are based on Discrete Fourier Transform kernels and there are many design options available. Mathematical program simulations show our error-detecting techniques are effective and efficient. | 翻訳日:2023-06-16 23:00:53 公開日:2023-06-13 |
# 分布外一般化のためのグラフ構造と特徴補間 Graph Structure and Feature Extrapolation for Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.08076v1 ) ライセンス: Link先を確認 | Xiner Li, Shurui Gui, Youzhi Luo, Shuiwang Ji | (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、テスト分布がトレーニング分布からシフトする一般的な学習シナリオを扱う。
アプリケーション要求の増大と固有の複雑さにより、グラフOOD問題は特殊なソリューションを必要とします。
データ中心の手法は、多くの汎用機械学習タスクのパフォーマンス向上を示すが、グラフOODの一般化に適したデータ拡張手法が特に存在しない。
本研究では,非ユークリッド空間線型外挿法の設計により,グラフOOD一般化を実現することを提案する。
提案手法は,OODグラフデータを生成するために,構造空間と特徴空間の両方を外挿する。
我々の設計は、根底にある因果機構を損なうことなく、OODサンプルを特定のシフトのために調整する。
理論解析と実験の結果から, 対象シフトの解法の有効性が示され, 様々なグラフoodタスクにおいて有意かつ定常的に改善がみられた。 Out-of-distribution (OOD) generalization deals with the prevalent learning scenario where test distribution shifts from training distribution. With rising application demands and inherent complexity, graph OOD problems call for specialized solutions. While data-centric methods exhibit performance enhancements on many generic machine learning tasks, there is a notable absence of data augmentation methods tailored for graph OOD generalization. In this work, we propose to achieve graph OOD generalization with the novel design of non-Euclidean-space linear extrapolation. The proposed augmentation strategy extrapolates both structure and feature spaces to generate OOD graph data. Our design tailors OOD samples for specific shifts without corrupting underlying causal mechanisms. Theoretical analysis and empirical results evidence the effectiveness of our method in solving target shifts, showing substantial and constant improvements across various graph OOD tasks. | 翻訳日:2023-06-16 23:00:41 公開日:2023-06-13 |
# 相対論的シナリオにおける量子相補性トレードオフの提示 Unveiling quantum complementarity trade-offs in relativistic scenarios ( http://arxiv.org/abs/2306.08136v1 ) ライセンス: Link先を確認 | Marcos L. W. Basso, Ismael L. Paiva, Pedro R. Dieguez | (参考訳) 補完性は量子理論の基盤であり、様々な量子現象の分析と理解を支援する。
この概念は相対論的レジームの理論研究にも応用されている。
そこで,本研究では,内部スピンを持つ系で走行する2つの一般化遅延干渉計について検討する。
この2つの設定において完全相補関係が実際にどのように適用され、この関係における量、すなわち経路コヒーレンス、フォン・ノイマン予測可能性、エントロピーの間のトレードオフが、任意の時空における特殊および一般時間拡張によってどのように影響を受けるかを示す。
これらの修正は、スピンを系の外部の自由度に結合し、時計として作用するスピンに依存しないウィグナー回転に由来する。
相補性のトレードオフは違っていますが、どちらのアレンジも私たちが披露したように、干渉視認性は同じです。
具体例として、これらの結果のニュートン極限を分析する。 Complementarity is a cornerstone of quantum theory, assisting in the analysis and understanding of various quantum phenomena. This concept has even been assumed in theoretical studies in relativistic regimes. Here, we conduct a study of two generalized delayed-choice interferometers traveled by a system with an internal spin. We show how a complete complementarity relation can be indeed applied in these two setups and how the trade-off between the quantities in this relation, namely, path coherence, von Neumann predictability, and entropy of entanglement, is affected by special and general time dilation in an arbitrary spacetime. These modifications originate from Wigner rotations, which couple the spin to the external degrees of freedom of the system and do not rely on the spin acting as a clock. Despite having different complementarity trade-offs, both arrangements have the same interferometric visibility, as we unveil. To give a concrete example, we analyze the Newtonian limit of these results. | 翻訳日:2023-06-16 22:53:02 公開日:2023-06-13 |
# 長期データに基づく大規模言語モデル再構成 Large-scale Language Model Rescoring on Long-form Data ( http://arxiv.org/abs/2306.08133v1 ) ライセンス: Link先を確認 | Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley | (参考訳) 本研究では,大規模言語モデル(LLM)がYouTubeビデオの自動音声認識(ASR)に与える影響について検討する。
米国英語(en-us)およびコードスイッチインド英語(en-in)の長文asrテストセットにおける単語エラーイート(wer)の最大8-%の相対的削減と,最大エントロピーベースの言語モデルを用いた強固なファーストパスベースライン上でのsalient term error rate(ster)に対する最大30-%の削減を実証した。
適切な(木を含まない)グラフトポロジーを持つ格子と、前のセグメントの1-best仮説からのコンテキストを持つ格子処理の改善により、LLMによる再描画において大きな勝利をもたらす。
また,大量の利用可能なデータ(例えば C4 など)を学習した LLM と従来のニューラル LM の併用による性能向上は付加的であり,最大エントロピー LM で強いファーストパスベースラインを著しく上回ることがわかった。 In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM. | 翻訳日:2023-06-16 22:52:46 公開日:2023-06-13 |
# avis: 大規模言語モデルによる自律的な視覚情報探索 AVIS: Autonomous Visual Information Seeking with Large Language Models ( http://arxiv.org/abs/2306.08129v1 ) ライセンス: Link先を確認 | Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi | (参考訳) 本稿では,視覚的質問応答フレームワークAVISを提案する。
提案手法は,外部ツールの利用を動的に階層化し,それらのアウトプットを調査するための大規模言語モデル(llm)を活用する。
外部の知識を必要とする視覚的な質問に対して,“このイメージに描かれた建物で記念されるイベント”というような質問は,複雑な作業である。
このタスクは、apiの起動、応答の分析、インフォームドな意思決定など、一連のアクションを必要とする組合せ検索スペースを提供する。
この課題に直面すると,人間の意思決定のさまざまな事例を収集するために,ユーザ調査を実施します。
このデータは、次に使用するツールを動的に決定するLLMベースのプランナ、ツール出力からキー情報を分析して抽出するLLMベースの推論器、取得した情報をプロセスを通して保持するワーキングメモリコンポーネントの3つのコンポーネントで構成されるシステムの設計に使用される。
収集したユーザの振る舞いは、2つの重要な方法でシステムのガイドとなります。
まず,ユーザによる意思決定の順序を解析し,遷移グラフを作成する。
このグラフは、異なる状態を示し、各状態で利用できる一連のアクションを限定する。
第2に、ユーザ意思決定の例を用いて、LLMを利用するプランナーと推論者に関連するコンテキストインスタンスを提供し、情報的な意思決定を行う能力を高める。
AVISは、InfoseekやOK-VQAなどの知識集約型視覚質問応答ベンチマークにおいて、最先端の結果が得られることを示す。 In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA. | 翻訳日:2023-06-16 22:52:20 公開日:2023-06-13 |
# 空間的・低レベルを考慮した自己監督型深度ハイパースペクトル塗装 Self-supervised Deep Hyperspectral Inpainting with the Sparsity and Low-Rank Considerations ( http://arxiv.org/abs/2306.08128v1 ) ライセンス: Link先を確認 | Shuo Li, Mehrdad Yaghoobi | (参考訳) ハイパースペクトル画像は通常、数百の狭く連続したスペクトル帯域で構成され、それぞれが撮影されたシーンの素材構成に関する情報を含んでいる。
しかし、これらの画像は様々なノイズ、歪み、データ損失の影響を受け、品質や有用性を著しく低下させる可能性がある。
これらの問題に対処するために、低ランクとスパシティ制約プラグ・アンド・プレイ(LRS-PnP)という2つの新しい自己監督型ハイパースペクトル画像(HSI)インペイントアルゴリズムと、強力な学習能力を特徴とする拡張LSS-PnP-DIPを導入する。
我々は,アルゴリズムの収束を保証する軽微な仮定の下で安定性解析を行う。
これは特に実用的な応用に非常に役立ちます。
広汎な実験により,提案手法は視覚的,定性的に優れた塗装結果が得られることを示した。
結果を再現するためのコードは \url{https://github.com/shuoli0708/LRS-PnP-DIP} で公開されている。 Hyperspectral images are typically composed of hundreds of narrow and contiguous spectral bands, each containing information about the material composition of the imaged scene. However, these images can be affected by various sources of noise, distortions, or data losses, which can significantly degrade their quality and usefulness. To address these problems, we introduce two novel self-supervised Hyperspectral Images (HSI) inpainting algorithms: Low Rank and Sparsity Constraint Plug-and-Play (LRS-PnP), and its extension LRS-PnP-DIP, which features the strong learning capability, but is still free of external training data. We conduct the stability analysis under some mild assumptions which guarantees the algorithm to converge. It is specifically very helpful for the practical applications. Extensive experiments demonstrate that the proposed solution is able to produce visually and qualitatively superior inpainting results, achieving state-of-the-art performance. The code for reproducing the results is available at \url{https://github.com/shuoli0708/LRS-PnP-DIP}. | 翻訳日:2023-06-16 22:51:53 公開日:2023-06-13 |
# ペルソナPKT:パラメータ効率を考慮した対話エージェントの構築 PersonaPKT: Building Personalized Dialogue Agents via Parameter-efficient Knowledge Transfer ( http://arxiv.org/abs/2306.08126v1 ) ライセンス: Link先を確認 | Xu Han, Bin Guo, Yoon Jung, Benjamin Yao, Yu Zhang, Xiaohu Liu, Chenlei Guo | (参考訳) パーソナライズされた対話エージェント(DA)は、大きな事前訓練された言語モデル(PLM)によって駆動される。
しかし、そのような記述が常に利用可能であるとは限らないし、プライバシーの懸念を生じさせることもある。
このボトルネックに取り組むため,我々はペルソナ一貫性のある対話モデルを構築するための軽量なトランスファー学習手法であるpersonapktを紹介する。
ペルソナを連続ベクトルとして表現することにより、ペルソナが生成する少数の対話サンプルから直接暗黙のペルソナ特有の特徴を学習し、PLMバックボーン上のペルソナごとに0.1%未満のトレーニングパラメータを追加する。
実験の結果,ペルソナ一貫性の面では,高いストレージ効率でパーソナライズされたdasを効果的に構築し,優れた応答生成品質を維持しつつ,さまざまなベースラインを上回った。
さらに、明示的なペルソナ記述を避けることにより、プライバシー保護を強化する。
全体として、personapktはユーザーのプライバシーを尊重するパーソナライズされたdasを作成するための効果的なソリューションである。 Personalized dialogue agents (DAs) powered by large pre-trained language models (PLMs) often rely on explicit persona descriptions to maintain personality consistency. However, such descriptions may not always be available or may pose privacy concerns. To tackle this bottleneck, we introduce PersonaPKT, a lightweight transfer learning approach that can build persona-consistent dialogue models without explicit persona descriptions. By representing each persona as a continuous vector, PersonaPKT learns implicit persona-specific features directly from a small number of dialogue samples produced by the same persona, adding less than 0.1% trainable parameters for each persona on top of the PLM backbone. Empirical results demonstrate that PersonaPKT effectively builds personalized DAs with high storage efficiency, outperforming various baselines in terms of persona consistency while maintaining good response generation quality. In addition, it enhances privacy protection by avoiding explicit persona descriptions. Overall, PersonaPKT is an effective solution for creating personalized DAs that respect user privacy. | 翻訳日:2023-06-16 22:51:32 公開日:2023-06-13 |
# 重み付きSGDを訓練した過パラメータニューラルネットワークのインシシット圧縮性 Implicit Compressibility of Overparametrized Neural Networks Trained with Heavy-Tailed SGD ( http://arxiv.org/abs/2306.08125v1 ) ライセンス: Link先を確認 | Yijun Wan, Abdellatif Zaidi, Umut Simsekli | (参考訳) ニューラルネットワークの圧縮は、圧縮可能性と一般化誤差の間に明らかな関係があるため、計算要件の削減と理論的意味合いの面での実用的な意味合いから、ますます重要になっている。
近年の研究では、確率勾配降下(SGD)のハイパーパラメータの選択が、学習パラメータベクトルの圧縮性に影響を及ぼすことが示されている。
これらの結果は、圧縮性よりもトレーニングダイナミクスの役割に光を当てているが、それらは検証不可能な仮定に依存しており、その結果理論はその暗黙性のために実践的な指針を提供していない。
本研究では,アルゴリズムの出力が非自明な仮定をすることなく確実に圧縮可能となるように,sgdの簡単な修正を提案する。
我々は,SGDで訓練した一層ニューラルネットワークを考察し,各繰り返しの繰り返しに付加的な重み付きノイズを注入する。
すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように、過パラメトリゼーションのレベル(すなわち隠れた単位の数)が存在することを示す。
この結果を達成するために、私たちは2つの主要な技術貢献をします。
i) 確率解析の最近の研究に基づいて、重み付き確率微分方程式のクラスに対する改善率による「カオスの伝播」の結果を証明し、
(II)Euler離散化の強い誤差推定を導出する。
実験結果から, 提案手法は, トレーニングとテストの誤差から若干の妥協を伴って圧縮性を達成できることが示唆された。 Neural network compression has been an increasingly important subject, due to its practical implications in terms of reducing the computational requirements and its theoretical implications, as there is an explicit connection between compressibility and the generalization error. Recent studies have shown that the choice of the hyperparameters of stochastic gradient descent (SGD) can have an effect on the compressibility of the learned parameter vector. Even though these results have shed some light on the role of the training dynamics over compressibility, they relied on unverifiable assumptions and the resulting theory does not provide a practical guideline due to its implicitness. In this study, we propose a simple modification for SGD, such that the outputs of the algorithm will be provably compressible without making any nontrivial assumptions. We consider a one-hidden-layer neural network trained with SGD and we inject additive heavy-tailed noise to the iterates at each iteration. We then show that, for any compression rate, there exists a level of overparametrization (i.e., the number of hidden units), such that the output of the algorithm will be compressible with high probability. To achieve this result, we make two main technical contributions: (i) we build on a recent study on stochastic analysis and prove a 'propagation of chaos' result with improved rates for a class of heavy-tailed stochastic differential equations, and (ii) we derive strong-error estimates for their Euler discretization. We finally illustrate our approach on experiments, where the results suggest that the proposed approach achieves compressibility with a slight compromise from the training and test error. | 翻訳日:2023-06-16 22:51:11 公開日:2023-06-13 |
# ブラックボックスaiによる盗作検出を超えて: 文単位から文書レベルへ Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to Document Level ( http://arxiv.org/abs/2306.08122v1 ) ライセンス: Link先を確認 | Mujahid Ali Quidwai, Chunhui Li, Parijat Dube | (参考訳) 学術著作における大規模言語モデル(llm)への依存の増大は、盗作主義の高まりにつながった。
既存のai生成テキスト分類器は精度が低く、しばしば偽陽性となる。
本研究では,自然言語処理(NLP)技術を用いた新しい手法を提案する。
提案手法は多面的アプローチを用いて,与えられた質問の複数のパラフレーズ付きバージョンを生成し,LLMに入力して回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
我々の手法は、人間とAIのテキストの分類において最大94%の精度を達成し、学術的な環境での盗作検出のための堅牢で適応可能なソリューションを提供する。
この方法はLLMの進歩によって改善され、新しいモデルトレーニングや再構成の必要性が軽減され、AI生成したテキストを評価し検出するより透過的な方法を提供する。 The increasing reliance on large language models (LLMs) in academic writing has led to a rise in plagiarism. Existing AI-generated text classifiers have limited accuracy and often produce false positives. We propose a novel approach using natural language processing (NLP) techniques, offering quantifiable metrics at both sentence and document levels for easier interpretation by human evaluators. Our method employs a multi-faceted approach, generating multiple paraphrased versions of a given question and inputting them into the LLM to generate answers. By using a contrastive loss function based on cosine similarity, we match generated sentences with those from the student's response. Our approach achieves up to 94% accuracy in classifying human and AI text, providing a robust and adaptable solution for plagiarism detection in academic settings. This method improves with LLM advancements, reducing the need for new model training or reconfiguration, and offers a more transparent way of evaluating and detecting AI-generated text. | 翻訳日:2023-06-16 22:50:45 公開日:2023-06-13 |
# セマンティックIDによるより良い一般化:勧告のランク付けを事例として Better Generalization with Semantic IDs: A case study in Ranking for Recommendations ( http://arxiv.org/abs/2306.08121v1 ) ライセンス: Link先を確認 | Anima Singh, Trung Vu, Raghunandan Keshavan, Nikhil Mehta, Xinyang Yi, Lichan Hong, Lukasz Heldt, Li Wei, Ed Chi, Maheswaran Sathiamoorthy | (参考訳) 推奨モデルでは、優れた表現をトレーニングすることが重要です。
通常、アイテムはユニークなランダムに生成されたIDに割り当てられ、通常、ランダムIDの値に対応する埋め込みを学習することによって表現される。
広く使われているが、現実のレコメンデーションシステムの典型的な特徴である、アイテムの数が大きく、アイテムが分散型である場合に制限がある。
これにより、モデルが尾部や以前に見つからなかった項目に対して信頼できる推論を行うことができない、アイテムのコールドスタート問題が発生する。
これらのid機能と学習した埋め込みを取り除き、コールドスタート問題に対処することで、レコメンデーションの品質が格段に低下する。
コンテンツベースのアイテム埋め込みは信頼性が高いが、特に過去のアイテムインタラクションシーケンスの保存と使用には費用がかかる。
本稿では,RQ-VAEを用いてコンテンツ埋め込みから学習したコンパクトな離散アイテム表現であるSemantic IDを用いて概念階層を抽出する。
本稿では,産業規模のビデオ共有プラットフォームで使用される資源制約付きランキングモデルにおいて,アイテムIDの代替として使用する方法を紹介する。
さらに,トップレベルのメトリクスを犠牲にすることなく,セマンティックidがシステムの一般化能力をいかに改善するかを示す。 Training good representations for items is critical in recommender models. Typically, an item is assigned a unique randomly generated ID, and is commonly represented by learning an embedding corresponding to the value of the random ID. Although widely used, this approach have limitations when the number of items are large and items are power-law distributed -- typical characteristics of real-world recommendation systems. This leads to the item cold-start problem, where the model is unable to make reliable inferences for tail and previously unseen items. Removing these ID features and their learned embeddings altogether to combat cold-start issue severely degrades the recommendation quality. Content-based item embeddings are more reliable, but they are expensive to store and use, particularly for users' past item interaction sequence. In this paper, we use Semantic IDs, a compact discrete item representations learned from content embeddings using RQ-VAE that captures hierarchy of concepts in items. We showcase how we use them as a replacement of item IDs in a resource-constrained ranking model used in an industrial-scale video sharing platform. Moreover, we show how Semantic IDs improves the generalization ability of our system, without sacrificing top-level metrics. | 翻訳日:2023-06-16 22:50:28 公開日:2023-06-13 |
# CipherSniffer: 暗号型を分類する CipherSniffer: Classifying Cipher Types ( http://arxiv.org/abs/2306.08116v1 ) ライセンス: Link先を確認 | Brendan Artley, Greg Mehdiyev | (参考訳) 暗号は通信を暗号化する強力なツールである。
様々な種類の暗号が存在するため、ブルート力を用いて暗号を解くのに計算コストがかかる。
本稿では,復号化タスクを分類問題とする。
まず、変換、置換、テキスト反転、単語反転、文シフト、暗号化されていないテキストのデータセットを作成します。
そして,本課題における各種トークン化器モデルの組み合わせの性能評価を行った。 Ciphers are a powerful tool for encrypting communication. There are many different cipher types, which makes it computationally expensive to solve a cipher using brute force. In this paper, we frame the decryption task as a classification problem. We first create a dataset of transpositions, substitutions, text reversals, word reversals, sentence shifts, and unencrypted text. Then, we evaluate the performance of various tokenizer-model combinations on this task. | 翻訳日:2023-06-16 22:50:09 公開日:2023-06-13 |
# プライバシラベルのアンパック: googleのデータ安全セクションにおける測定と開発者視点 Unpacking Privacy Labels: A Measurement and Developer Perspective on Google's Data Safety Section ( http://arxiv.org/abs/2306.08111v1 ) ライセンス: Link先を確認 | Rishabh Khandelwal, Asmit Nayak, Paul Chung, and Kassem Fawaz | (参考訳) Googleは、データ収集と共有のプラクティスの透明性を高めるために、Data Safety Sections (DSS)を使用することを開発者に義務付けている。
本稿では,定量的および定性的手法を用いて,Googleのデータ安全セクション(DSS)の包括的解析を行う。
われわれはAndroid Play Store(n=1.1M)のアプリを用いてDSSの大規模測定を行った。
報告されたプラクティスには内部的な矛盾があることが分かります。
dsssでは、オーバーとアンダーレポートの両方のプラクティスの傾向も見られます。
次に,dssの縦断的な調査を行い,報告されたプラクティスが時間とともにどのように進化するかを調査し,開発者がまだプラクティスを調整できていることを確認する。
これらの発見を文脈化するために、我々は開発者調査を行い、アプリケーション開発者がdssで作業するプロセスを明らかにする。
私たちは、DSS申請で開発者が直面した課題と戦略、DSSの変更に寄与する要因を強調します。
当社の研究は、プライバシラベルの実装とメンテナンスの複雑さに関する貴重な洞察を提供し、開発者を支援するためのより良いリソース、ツール、ガイドラインの必要性を強調しています。
この理解は、プライバシラベルの正確性と信頼性が、その効果に直接影響を与えるため、重要である。 Google has mandated developers to use Data Safety Sections (DSS) to increase transparency in data collection and sharing practices. In this paper, we present a comprehensive analysis of Google's Data Safety Section (DSS) using both quantitative and qualitative methods. We conduct the first large-scale measurement study of DSS using apps from Android Play store (n=1.1M). We find that there are internal inconsistencies within the reported practices. We also find trends of both over and under-reporting practices in the DSSs. Next, we conduct a longitudinal study of DSS to explore how the reported practices evolve over time, and find that the developers are still adjusting their practices. To contextualize these findings, we conduct a developer study, uncovering the process that app developers undergo when working with DSS. We highlight the challenges faced and strategies employed by developers for DSS submission, and the factors contributing to changes in the DSS. Our research contributes valuable insights into the complexities of implementing and maintaining privacy labels, underlining the need for better resources, tools, and guidelines to aid developers. This understanding is crucial as the accuracy and reliability of privacy labels directly impact their effectiveness. | 翻訳日:2023-06-16 22:50:02 公開日:2023-06-13 |
# INT2.1:低ランク適応による誤り訂正を伴う微細可変量子化大言語モデルを目指して INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error Correction through Low-Rank Adaptation ( http://arxiv.org/abs/2306.08162v1 ) ライセンス: Link先を確認 | Yuji Chai, John Gkountouras, Glenn G. Ko, David Brooks, Gu-Yeon Wei | (参考訳) 本稿では,vramの微調整を劇的に削減し,量子化誤差を定量化する手法を提案する。
まず,低ランク適応法(lora)を用いた量子化モデルのメモリ効率の高い微調整法(emef)を開発し,その上で,量子化過程による誤差を最小限に抑えるように設計された誤り訂正アルゴリズムを構築する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
同時に,lora層を付加して量子化モデルと浮動小数点間のギャップを改善する低ランク誤差補正(lrec)法を提案する。
我々の誤り訂正フレームワークは、コヒーレントな英語テキストを生成する能力を備えた、完全に機能的なINT2量子化LLMにつながる。
私たちの知る限りでは、このようなパフォーマンスに到達できたのは、これが初めてのINT2 Large Language Modelです。
提案手法のオーバーヘッドは, モデルサイズが1.05倍大きくなるだけで, INT2.1の精度が向上する。
また, int3, int4, int8などの他の量子化標準に容易に一般化し, モデル量子化の分野で重要なマイルストーンとなる性能を回復する。
本稿では、量子化モデルの今後の発展と最適化に有望な意味を持ち、低リソースの機械学習計算のランドスケープにおける重要な変化を示す。 We introduce a method that dramatically reduces fine-tuning VRAM requirements and rectifies quantization errors in quantized Large Language Models. First, we develop an extremely memory-efficient fine-tuning (EMEF) method for quantized models using Low-Rank Adaptation (LoRA), and drawing upon it, we construct an error-correcting algorithm designed to minimize errors induced by the quantization process. Our method reduces the memory requirements by up to 5.6 times, which enables fine-tuning a 7 billion parameter Large Language Model (LLM) on consumer laptops. At the same time, we propose a Low-Rank Error Correction (LREC) method that exploits the added LoRA layers to ameliorate the gap between the quantized model and its float point counterpart. Our error correction framework leads to a fully functional INT2 quantized LLM with the capacity to generate coherent English text. To the best of our knowledge, this is the first INT2 Large Language Model that has been able to reach such a performance. The overhead of our method is merely a 1.05 times increase in model size, which translates to an effective precision of INT2.1. Also, our method readily generalizes to other quantization standards, such as INT3, INT4, and INT8, restoring their lost performance, which marks a significant milestone in the field of model quantization. The strategies delineated in this paper hold promising implications for the future development and optimization of quantized models, marking a pivotal shift in the landscape of low-resource machine learning computations. | 翻訳日:2023-06-16 22:44:59 公開日:2023-06-13 |
# h2ogpt: 大きな言語モデルの民主化 h2oGPT: Democratizing Large Language Models ( http://arxiv.org/abs/2306.08161v1 ) ライセンス: Link先を確認 | Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati | (参考訳) gpt-4のような大規模言語モデル(llm)の基盤は、自然言語処理ではなく現実世界のアプリケーションのためにaiに革命をもたらす。
しかし、それらはまた、偏りのある、プライベートな、または有害なテキストの存在や、著作権のある素材の無許可包含など、多くの重大なリスクをもたらしている。
我々は、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づくLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリであるh2oGPTを紹介する。
このプロジェクトの目的は、クローズドソースgptsの世界で最高のオープンソース代替物を作ることです。
7億から40億のパラメータの微調整されたh2oGPTモデルをオープンソースとして公開し、完全に寛容なApache 2.0ライセンスの下で商用利用できるようにしました。
リリースには自然言語による100%プライベートドキュメント検索が含まれています。
オープンソースの言語モデルは、AI開発を促進し、よりアクセシビリティと信頼性を高めるのに役立つ。
参入ハードルを低くし、人々やグループがこれらのモデルをニーズに合わせて調整できるようにします。
この開放性はイノベーション、透明性、公平性を高める。
オープンソース戦略は、AIのメリットを公平に共有するために必要であり、H2O.aiはAIとLLMの民主化を継続する。 Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their real-world applications though natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of Large Language Models (LLMs) based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source GPTs. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs. | 翻訳日:2023-06-16 22:44:31 公開日:2023-06-13 |
# 自然言語処理におけるソシオドモグラフィーバイアスの実態調査 Survey on Sociodemographic Bias in Natural Language Processing ( http://arxiv.org/abs/2306.08158v1 ) ライセンス: Link先を確認 | Vipul Gupta, Pranav Narayanan Venkit, Shomir Wilson, Rebecca J. Passonneau | (参考訳) ディープニューラルネットワークは、トレーニング中に意図しないバイアスを学習することが多い。
本稿では,nlpモデルにおけるバイアスに関する209の論文を調査した。
バイアスと現実世界の害の区別をよりよく理解するために、心理学や行動経済学の考え方に転換し、社会的な偏見の定義を提案する。
NLPバイアス研究の主なカテゴリは、バイアスの種類、定量化バイアス、偏りの3つである。
バイアスの定量化に関する現在のアプローチは信頼性の問題に直面し、バイアス指標の多くは現実世界のバイアスとは無関係であり、現在のデバイアス技術は表面的でバイアスを除去するよりも隠れている、と結論付けている。
最後に、今後の仕事について推奨する。 Deep neural networks often learn unintended biases during training, which might have harmful effects when deployed in real-world settings. This paper surveys 209 papers on bias in NLP models, most of which address sociodemographic bias. To better understand the distinction between bias and real-world harm, we turn to ideas from psychology and behavioral economics to propose a definition for sociodemographic bias. We identify three main categories of NLP bias research: types of bias, quantifying bias, and debiasing. We conclude that current approaches on quantifying bias face reliability issues, that many of the bias metrics do not relate to real-world biases, and that current debiasing techniques are superficial and hide bias rather than removing it. Finally, we provide recommendations for future work. | 翻訳日:2023-06-16 22:44:13 公開日:2023-06-13 |
# 動的ベイズネットワークを用いた暗号通貨の価格方向の因果的特徴工学 Causal Feature Engineering of Price Directions of Cryptocurrencies using Dynamic Bayesian Networks ( http://arxiv.org/abs/2306.08157v1 ) ライセンス: Link先を確認 | Rasoul Amirzadeh, Asef Nazari, Dhananjay Thiruvady, and Mong Shan Ee | (参考訳) 暗号通貨は様々な分野、特に金融と投資で人気を博している。
この人気は、プライバシ、分散化、追跡不能など、ブロックチェーン関連の特性に由来する独自の仕様による部分がある。
仮想通貨の人気は上昇しているが、価格のボラティリティと不確実性のため、暗号通貨はリスクの高い投資のままである。
暗号通貨価格の固有のボラティリティと、内部の暗号通貨関連要因と外部の影響力のあるグローバル経済要因が組み合わさって、その価格と価格運動の方向を予測するのが困難である。
それでも、暗号通貨価格の方向性を予測することで得られる知識は、投資家が情報的投資決定を行う上で貴重なガイダンスを提供することができる。
そこで本稿では,多変量構成の複雑なシステムをモデル化する動的ベイズネットワーク(dbn)手法を提案し,次の取引日における5つの人気のあるaltcoin(bitcoin以外の暗号)の価格移動方向の予測を行う。
暗号通貨価格方向予測における提案モデルの有効性を2つの視点から評価した。
まず,提案手法を2つのベースラインモデル,すなわち自己回帰的統合移動平均とサポートベクトル回帰と比較した。
第2に,機能工学の観点からは,DBNの予測性能に対する23の異なる特徴が4つのカテゴリに分けた影響について検討した。
実験の結果,DBNはベースラインモデルよりも有意に優れていた。
さらに、特徴群の中で、技術的指標が暗号通貨価格の方向性の最も効果的な予測因子であることが判明した。 Cryptocurrencies have gained popularity across various sectors, especially in finance and investment. The popularity is partly due to their unique specifications originating from blockchain-related characteristics such as privacy, decentralisation, and untraceability. Despite their growing popularity, cryptocurrencies remain a high-risk investment due to their price volatility and uncertainty. The inherent volatility in cryptocurrency prices, coupled with internal cryptocurrency-related factors and external influential global economic factors makes predicting their prices and price movement directions challenging. Nevertheless, the knowledge obtained from predicting the direction of cryptocurrency prices can provide valuable guidance for investors in making informed investment decisions. To address this issue, this paper proposes a dynamic Bayesian network (DBN) approach, which can model complex systems in multivariate settings, to predict the price movement direction of five popular altcoins (cryptocurrencies other than Bitcoin) in the next trading day. The efficacy of the proposed model in predicting cryptocurrency price directions is evaluated from two perspectives. Firstly, our proposed approach is compared to two baseline models, namely an auto-regressive integrated moving average and support vector regression. Secondly, from a feature engineering point of view, the impact of twenty-three different features, grouped into four categories, on the DBN's prediction performance is investigated. The experimental results demonstrate that the DBN significantly outperforms the baseline models. In addition, among the groups of features, technical indicators are found to be the most effective predictors of cryptocurrency price directions. | 翻訳日:2023-06-16 22:43:59 公開日:2023-06-13 |
# (増幅)Banded Matrix Factorization:プライベートトレーニングへの統一的アプローチ (Amplified) Banded Matrix Factorization: A unified approach to private training ( http://arxiv.org/abs/2306.08153v1 ) ライセンス: Link先を確認 | Christopher A. Choquette-Choo, Arun Ganesh, Ryan McKenna, H. Brendan McMahan, Keith Rush, Abhradeep Guha Thakurta, and Zheng Xu | (参考訳) 差分プライバシ(DP)のための行列分解(MF)メカニズムは、さまざまなシナリオでMLアプリケーションのプライバシ・ユーティリティ・コンピューティングトレードオフの最先端性を大幅に改善しましたが、集中型とフェデレーション型の両方の設定では、MFが簡単に適用できない場合や、他のアルゴリズムがよりよいトレードオフを提供する場合があります(通常、$\epsilon$が小さくなるにつれて)。
本稿では,mfが,すべてのプライバシ予算にまたがって,フェデレーショントレーニングと集中トレーニングの両方において,事前の最先端アルゴリズムをどのように組み込むかを示す。
鍵となる技術は、帯状行列を用いたMF機構の構築である。
クロスデバイスフェデレーション学習(fl)では、実際のflインフラストラクチャと互換性のある、緩和されたデバイス参加スキーマによる複数参加が可能になる。
集中的な設定では、バンド化された行列はユビキタスなDP-SGDアルゴリズムと同じプライバシー増幅結果を楽しむが、ほとんどのシナリオで厳格に優れたパフォーマンスを提供できることを証明します。
最後に、$\hat{b}$-banded行列は、ステップごとのノイズ生成のメモリと時間の複雑さを、一般的なmfメカニズムと比較して、$\mathcal{o}(n)$, $n$ から定数 $\mathcal{o}(\hat{b})$ へと実質的に削減する。 Matrix factorization (MF) mechanisms for differential privacy (DP) have substantially improved the state-of-the-art in privacy-utility-computation tradeoffs for ML applications in a variety of scenarios, but in both the centralized and federated settings there remain instances where either MF cannot be easily applied, or other algorithms provide better tradeoffs (typically, as $\epsilon$ becomes small). In this work, we show how MF can subsume prior state-of-the-art algorithms in both federated and centralized training settings, across all privacy budgets. The key technique throughout is the construction of MF mechanisms with banded matrices. For cross-device federated learning (FL), this enables multiple-participations with a relaxed device participation schema compatible with practical FL infrastructure (as demonstrated by a production deployment). In the centralized setting, we prove that banded matrices enjoy the same privacy amplification results as for the ubiquitous DP-SGD algorithm, but can provide strictly better performance in most scenarios -- this lets us always at least match DP-SGD, and often outperform it even at $\epsilon\ll2$. Finally, $\hat{b}$-banded matrices substantially reduce the memory and time complexity of per-step noise generation from $\mathcal{O}(n)$, $n$ the total number of iterations, to a constant $\mathcal{O}(\hat{b})$, compared to general MF mechanisms. | 翻訳日:2023-06-16 22:43:39 公開日:2023-06-13 |
# QFactor - 量子回路インスティファイションのためのドメイン特化最適化器 QFactor -- A Domain-Specific Optimizer for Quantum Circuit Instantiation ( http://arxiv.org/abs/2306.08152v1 ) ライセンス: Link先を確認 | Alon Kukliansky, Ed Younis, Lukasz Cincio, Costin Iancu | (参考訳) 本稿では,量子回路のインスタンス化,合成,コンパイルに使用される数値最適化演算のためのドメイン固有アルゴリズムを提案する。
QFactorは解析手法とともにテンソルネットワークの定式化と反復局所最適化アルゴリズムを用いて問題パラメータの数を削減する。
最適化プロセスの調整に加えて、フォーミュレーションはCPUとGPUアーキテクチャ間のポータブル並列化に適しており、一般的には汎用最適化(GPO)では難しい。
いくつかのGPOと比較して,本アルゴリズムは最適化成功率で指数メモリと性能の節約を実現している。
GPOは最大6キュービットの直接回路を処理できるが、QFactorは12キュービット以上の回路を処理できる。
BQSKit最適化フレームワークでは、ゲート削除アルゴリズムを用いて100以上のキュービット回路を最適化し、GPU環境でのコンパイルに割り当てられたハードウェアリソースと線形にスケールアウトする。 We introduce a domain-specific algorithm for numerical optimization operations used by quantum circuit instantiation, synthesis, and compilation methods. QFactor uses a tensor network formulation together with analytic methods and an iterative local optimization algorithm to reduce the number of problem parameters. Besides tailoring the optimization process, the formulation is amenable to portable parallelization across CPU and GPU architectures, which is usually challenging in general purpose optimizers (GPO). Compared with several GPOs, our algorithm achieves exponential memory and performance savings with similar optimization success rates. While GPOs can handle directly circuits of up to six qubits, QFactor can process circuits with more than 12 qubits. Within the BQSKit optimization framework, we enable optimizations of 100+ qubit circuits using gate deletion algorithms to scale out linearly with the hardware resources allocated for compilation in GPU environments. | 翻訳日:2023-06-16 22:43:04 公開日:2023-06-13 |
# 非線形パーソナライズド予測のためのニューラルミックス効果 Neural Mixed Effects for Nonlinear Personalized Predictions ( http://arxiv.org/abs/2306.08149v1 ) ライセンス: Link先を確認 | Torsten W\"ortwein, Nicholas Allen, Lisa B. Sheeber, Randy P. Auerbach, Jeffrey F. Cohn, Louis-Philippe Morency | (参考訳) パーソナライズド予測(パーソナライズドプロファイリング)は、過去のラベル付き観測に基づいて人の将来の観察を予測する機械学習アプローチであり、例えば、日々の気分評価を予測するために、シーケンシャルなタスクに一般的に使用される。
パーソナライズされた予測を行う場合、モデルは2種類のトレンドを組み合わせることができる。
(a)週末に幸福になるなど、人為的な傾向など、人間で共有される傾向
(b)各個人、すなわちストレスの多い週次会議などの個人固有の傾向に対する独自の傾向。
混合効果モデル(mixed effect model)は、人為的パラメータと人固有のパラメータを組み合わせることにより、両方の傾向を研究する一般的な統計モデルである。
ニューラルネットワークと統合することで、線形混合効果モデルが機械学習で人気を集めているが、これらの統合は現在、非線形な個人固有のトレンドを除外する線形個人固有のパラメータに限られている。
本論文では,ニューラルネットワークの任意の場所において,非線形な個人固有のパラメータをスケーラブルに最適化するニューラル・ミックスド・エフェクト(NME)モデルを提案する。
NMEはニューラルネットワーク最適化の効率と非線形混合効果モデリングを組み合わせた。
経験的に、NMEは、毎日の気分を予測するスマートフォンデータセットや、母親と思春期のデータセットを含む6つの単一・マルチモーダルデータセットのパフォーマンスを改善し、母親の半分が抑うつ症状を少なくとも中等度に経験する情緒的状態シーケンスを予測する。
さらに、ニューラル条件ランダムフィールド(CRF)を含む2つのモデルアーキテクチャのNMEを評価し、CRFが感情状態間の非線形な個人固有の時間遷移を学習する情動状態列を予測する。
母親の抑うつ症状に関連する解釈可能な傾向を示す母親・思春期データセット上のこれらの人固有の推移の分析。 Personalized prediction is a machine learning approach that predicts a person's future observations based on their past labeled observations and is typically used for sequential tasks, e.g., to predict daily mood ratings. When making personalized predictions, a model can combine two types of trends: (a) trends shared across people, i.e., person-generic trends, such as being happier on weekends, and (b) unique trends for each person, i.e., person-specific trends, such as a stressful weekly meeting. Mixed effect models are popular statistical models to study both trends by combining person-generic and person-specific parameters. Though linear mixed effect models are gaining popularity in machine learning by integrating them with neural networks, these integrations are currently limited to linear person-specific parameters: ruling out nonlinear person-specific trends. In this paper, we propose Neural Mixed Effect (NME) models to optimize nonlinear person-specific parameters anywhere in a neural network in a scalable manner. NME combines the efficiency of neural network optimization with nonlinear mixed effects modeling. Empirically, we observe that NME improves performance across six unimodal and multimodal datasets, including a smartphone dataset to predict daily mood and a mother-adolescent dataset to predict affective state sequences where half the mothers experience at least moderate symptoms of depression. Furthermore, we evaluate NME for two model architectures, including for neural conditional random fields (CRF) to predict affective state sequences where the CRF learns nonlinear person-specific temporal transitions between affective states. Analysis of these person-specific transitions on the mother-adolescent dataset shows interpretable trends related to the mother's depression symptoms. | 翻訳日:2023-06-16 22:42:49 公開日:2023-06-13 |
# 強化学習による再生可能エネルギーを用いたマルチマーケットエネルギー最適化 Multi-market Energy Optimization with Renewables via Reinforcement Learning ( http://arxiv.org/abs/2306.08147v1 ) ライセンス: Link先を確認 | Lucien Werner and Peeyush Kumar | (参考訳) 本稿では,再生可能エネルギーと貯蔵量を組み合わせた発電プラントの運転を最適化するための深層強化学習(RL)フレームワークを提案する。
エネルギー市場からの収益を最大化し、ストレージの劣化コストと再生可能量削減を最小化する。
このフレームワークは、ストレージデバイスによる時間結合、再生可能エネルギーとエネルギー価格の不確実性、非線形ストレージモデルなどの複雑さを扱う。
本研究は,この問題を階層的マルコフ決定プロセス (mdp) として扱い,ストレージにコンポーネントレベルのシミュレータを用いる。
複雑なストレージモデルを統合するためにRLを使用し、凸と微分可能なコンポーネントモデルを必要とする最適化ベースのメソッドの制限を克服する。
このアプローチの重要な側面は、安全な状態アクションセットに潜在的に不可能なアクションを投影する新しい方法によって達成される、システムの制約をポリシーアクションが尊重することである。
本稿は,米国およびインド電力市場のデータを用いて,学習したRLポリシーをベースライン制御ポリシと振り返り最適制御ポリシと比較し,本手法の有効性を実証する。
学習フレームワークの様々なストレージモデルによる適応性を検証するとともに、マルチマーケット入札、確率予測、正確なストレージコンポーネントモデルの観点から、複雑なエネルギー最適化設定におけるRLの有効性を示す。 This paper introduces a deep reinforcement learning (RL) framework for optimizing the operations of power plants pairing renewable energy with storage. The objective is to maximize revenue from energy markets while minimizing storage degradation costs and renewable curtailment. The framework handles complexities such as time coupling by storage devices, uncertainty in renewable generation and energy prices, and non-linear storage models. The study treats the problem as a hierarchical Markov Decision Process (MDP) and uses component-level simulators for storage. It utilizes RL to incorporate complex storage models, overcoming restrictions of optimization-based methods that require convex and differentiable component models. A significant aspect of this approach is ensuring policy actions respect system constraints, achieved via a novel method of projecting potentially infeasible actions onto a safe state-action set. The paper demonstrates the efficacy of this approach through extensive experiments using data from US and Indian electricity markets, comparing the learned RL policies with a baseline control policy and a retrospective optimal control policy. It validates the adaptability of the learning framework with various storage models and shows the effectiveness of RL in a complex energy optimization setting, in the context of multi-market bidding, probabilistic forecasts, and accurate storage component models. | 翻訳日:2023-06-16 22:42:18 公開日:2023-06-13 |
# 絡み合った光子を用いた衛星による同期時計:相対速度が精度に及ぼす影響 Synchronizing clocks via satellites using entangled photons: Effect of relative velocity on precision ( http://arxiv.org/abs/2306.08146v1 ) ライセンス: Link先を確認 | Stav Haldar, Ivan Agullo, James E. Troupe | (参考訳) a 107, 022615 (2023)] では, [proc. spie 10547 (2018) で開発された量子クロック同期 (qcs) プロトコルに基づいて, 地上局間のクロック同期を行うための衛星ベースの方式が提案されている。
このようなスキームは、ピコ秒レベルまで数千kmの距離で同期することができる。
しかしながら、このQCSプロトコルの実装は、多くの現実的なシナリオと同様に、衛星速度を無視できない状況において実験的に実証されていない。
本研究では,衛星と地上局の相対速度がqcsプロトコルの成功に与える影響を調べるための解析的および数値的なツールを開発した。
我々は、データ取得ウィンドウを適切に選択すれば、プロトコルはうまく動作すると結論づける。
実演として、leo軌道上の1つの衛星、低コストの絡み合い源、可搬型原子時計、雪崩検出器を用いて、米国大陸の都市の同期結果をシミュレーションする。
相対運動の影響を含め、サブナノ秒からピコ秒レベルの精度は、距離スケール$\approx 4000$kmsで達成できると結論付けている。
このような高精度な同期は現在、GPSを含む標準的な古典的手法で長距離(100 km$)で達成できない。
本研究で開発されたシミュレーションツールは、量子インターネットや分散量子センシング、量子GPSといった将来の量子ネットワークの基礎となるであろう、絡み合った光子を用いてクロックを同期する他の方法に適用できる。 A satellite-based scheme to perform clock synchronization between ground stations spread across the globe using quantum resources was proposed in [Phys. Rev. A 107, 022615 (2023)], based on the quantum clock synchronization (QCS) protocol developed in [Proc. SPIE 10547 (2018)]. Such a scheme could achieve synchronization up to the picosecond level over distances of thousands of kilometers. Nonetheless, the implementation of this QCS protocol is yet to be demonstrated experimentally in situations where the satellite velocities cannot be neglected, as is the case in many realistic scenarios. In this work, we develop analytical and numerical tools to study the effect of the relative velocity between the satellite and ground stations on the success of the QCS protocol. We conclude that the protocol can still run successfully if the data acquisition window is chosen appropriately. As a demonstration, we simulate the synchronization outcomes for cities across the continental United States using a single satellite in a LEO orbit, low-cost entanglement sources, portable atomic clocks, and avalanche detectors. We conclude that, after including the effect of relative motion, sub-nanosecond to picosecond level precision can still be achieved over distance scales of $\approx 4000$ kms. Such high precision synchronization is currently not achievable over long distances ($\gtrsim 100 km$) with standard classical techniques including the GPS. The simulation tools developed in this work are in principle applicable to other means of synchronizing clocks using entangled photons, which are expected to form the basis of future quantum networks like the Quantum Internet, distributed quantum sensing and Quantum GPS. | 翻訳日:2023-06-16 22:41:57 公開日:2023-06-13 |
# ArtWhisperer:芸術創造における人間とAIのインタラクションを特徴付けるデータセット ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations ( http://arxiv.org/abs/2306.08141v1 ) ライセンス: Link先を確認 | Kailas Vodrahalli and James Zou | (参考訳) 生成的AIがより普及するにつれて、人間がそのようなモデルとどのように相互作用するかを研究することが重要である。
本研究では,テキストから画像へのモデルを用いて目標画像を生成する方法について検討する。
このインタラクションを研究するために,artwhispererを開発した。artwhispererは,ユーザがターゲットイメージを与えられるオンラインゲームで,ターゲットと同じようなイメージを生成するプロンプトを反復的に発見する作業を行う。
このゲームを通じて5万以上の人間-aiインタラクションを記録し,それぞれのインタラクションは,ユーザが生成した1つのテキストプロンプトと対応する画像に対応する。
その多くは、ユーザがターゲットイメージの最良のプロンプトを見つけるために反復的なインタラクションであり、これは人間とAIのコラボレーションを研究するためのユニークなシーケンシャルデータセットである。
本データセットの初期分析では,迅速なインタラクションとユーザ戦略のいくつかの特徴を同定する。
人々は多様なプロンプトを提出し、類似した画像を生成するさまざまなテキスト記述を発見できる。
興味深いことに、ユーザがより良いプロンプトを見つけるため、迅速な多様性は低下しない。
さらに、我々のデータセットを用いたAIのステアビリティの研究のための新しい指標を提案する。
我々は、タスクを適切に完了するために必要な相互作用の期待数として、ステアビリティを定義する。
この値は、各目標タスクにマルコフ連鎖を適合させ、マルコフ連鎖の適切なスコアに到達するための期待時間を計算することで推定する。
我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。
これらの知見は、AIとAIの相互作用に関する洞察を与え、AIのステアビリティを評価する具体的な方法を示し、ArtWhispererデータセットの汎用性を実証する。 As generative AI becomes more prevalent, it is important to study how human users interact with such models. In this work, we investigate how people use text-to-image models to generate desired target images. To study this interaction, we created ArtWhisperer, an online game where users are given a target image and are tasked with iteratively finding a prompt that creates a similar-looking image as the target. Through this game, we recorded over 50,000 human-AI interactions; each interaction corresponds to one text prompt created by a user and the corresponding generated image. The majority of these are repeated interactions where a user iterates to find the best prompt for their target image, making this a unique sequential dataset for studying human-AI collaborations. In an initial analysis of this dataset, we identify several characteristics of prompt interactions and user strategies. People submit diverse prompts and are able to discover a variety of text descriptions that generate similar images. Interestingly, prompt diversity does not decrease as users find better prompts. We further propose to a new metric the study the steerability of AI using our dataset. We define steerability as the expected number of interactions required to adequately complete a task. We estimate this value by fitting a Markov chain for each target task and calculating the expected time to reach an adequate score in the Markov chain. We quantify and compare AI steerability across different types of target images and two different models, finding that images of cities and natural world images are more steerable than artistic and fantasy images. These findings provide insights into human-AI interaction behavior, present a concrete method of assessing AI steerability, and demonstrate the general utility of the ArtWhisperer dataset. | 翻訳日:2023-06-16 22:41:30 公開日:2023-06-13 |
# 強誘電体における非線形フォノンホール効果:その存在と不揮発性電気制御 Nonlinear phonon Hall effects in ferroelectrics: its existence and non-volatile electrical control ( http://arxiv.org/abs/2306.08177v1 ) ライセンス: Link先を確認 | W. Luo, J. Y. Ji, P. Chen, Y. Xu, L. F. Zhang, H. J. Xiang and L. Bellaiche | (参考訳) 非線形ホール効果は電子系の非セントロ対称系において以前にも研究されてきた。
しかし、それらは金属系にのみ存在し、これらが絶縁体であるため強誘電体と互換性がないため、応用が制限される。
一方、強誘電体は自然に反転対称性を破り、非零ベリー曲率を誘導することができる。
ここでは, 非線形フォノンホール効果により熱電流の非揮発性電界制御を実現することができることを示す。
より正確には、緩和時間近似の下でボルツマン方程式に基づいて非線形フォノンホール効果の方程式を導出し、さらに非線形フォノン(ボソン)ホール効果の挙動が電子に対する非線形ホール効果とは大きく異なることを示す(フェルミオン)。
本研究は強誘電体における熱ホール電流の電界制御のための経路を提供する。 Nonlinear Hall effects have been previously investigated in non-centrosymmetric systems for electronic systems. However, they only exist in metallic systems and are not compatible with ferroelectrics since these latter are insulators, hence limiting their applications. On the other hand, ferroelectrics naturally break inversion symmetry and can induce a non-zero Berry curvature. Here, we show that a non-volatile electric-field control of heat current can be realized in ferroelectrics through the nonlinear phonon Hall effects. More precisely, based on Boltzmann equation under the relaxation-time approximation, we derive the equation for nonlinear phonon Hall effects, and further show that the behaviors of nonlinear phonon (Boson) Hall effects are very different from nonlinear Hall effects for electrons (Fermion). Our work provides a route for electric-field control of thermal Hall current in ferroelectrics. | 翻訳日:2023-06-16 20:55:28 公開日:2023-06-13 |
# DCTX-Conformer:低レイテンシ統合ストリーミングと非ストリーミングコンフォーマーのための動的コンテキストの搬送 DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ( http://arxiv.org/abs/2306.08175v1 ) ライセンス: Link先を確認 | Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff | (参考訳) コンフォーメータベースのエンドツーエンドモデルは最近普及しており、ストリーミングおよび非ストリーミング自動音声認識(asr)の両方で一般的に使用されている。
デュアルモードや動的チャンクトレーニングのような技術は、ストリーミングと非ストリーミングシステムを統合するのに役立った。
しかし、完全な過去のコンテキストと限られたコンテキストのストリーミングには、パフォーマンスのギャップが残っている。
そこで本研究では,SOTA統合ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案するdynamic context conformer(dctx-conformer)は,チャンクの左コンテキストと先行する1つ以上のコンテキスト埋め込みの両方を考慮した,重複しないコンテクストキャリーオーバー機構を採用している。
sotaを25.0%の単語誤り率で上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。 Conformer-based end-to-end models have become ubiquitous these days and are commonly used in both streaming and non-streaming automatic speech recognition (ASR). Techniques like dual-mode and dynamic chunk training helped unify streaming and non-streaming systems. However, there remains a performance gap between streaming with a full and limited past context. To address this issue, we propose the integration of a novel dynamic contextual carry-over mechanism in a state-of-the-art (SOTA) unified ASR system. Our proposed dynamic context Conformer (DCTX-Conformer) utilizes a non-overlapping contextual carry-over mechanism that takes into account both the left context of a chunk and one or more preceding context embeddings. We outperform the SOTA by a relative 25.0% word error rate, with a negligible latency impact due to the additional context embeddings. | 翻訳日:2023-06-16 20:55:13 公開日:2023-06-13 |
# マルチモーダルaiにおけるデータ保護: クリップトレーニングにおける差分プライベートアプローチ Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training ( http://arxiv.org/abs/2306.08173v1 ) ライセンス: Link先を確認 | Alyssa Huang, Peihan Liu, Ryumei Nakada, Linjun Zhang, Wanrong Zhang | (参考訳) マルチモーダルAIの成功は、視覚・言語タスクにおけるデータのプライバシに関する懸念を引き起こしている。
CLIPは画像とテキストのジョイントトレーニングを通じてマルチモーダル学習に革命をもたらしたが、機密情報を意図せずに開示する可能性は、プライバシー保護機構の統合を必要とする。
本稿では,CLIP(Contrastive Language- Image Pretraining)モデルに差分的適応を導入し,精度を維持しつつ,プライバシー問題に効果的に対処する。
提案手法であるdp-clipは,画像分類や視覚的質問応答などの多様な視覚言語タスクを包含するベンチマークデータセット上で厳格に評価されている。
提案手法は標準の非プライベートCLIPモデルと同等の性能を維持していることを示す。
さらに,提案アルゴリズムを線形表現環境下で解析する。
我々は,本アルゴリズムの収束率を導出し,dp-sgd解析用文献に仮定した平滑性条件を損失関数が満たさない場合の実用性とプライバシのトレードオフを示す。 The surge in multimodal AI's success has sparked concerns over data privacy in vision-and-language tasks. While CLIP has revolutionized multimodal learning through joint training on images and text, its potential to unintentionally disclose sensitive information necessitates the integration of privacy-preserving mechanisms. We introduce a differentially private adaptation of the Contrastive Language-Image Pretraining (CLIP) model that effectively addresses privacy concerns while retaining accuracy. Our proposed method, Dp-CLIP, is rigorously evaluated on benchmark datasets encompassing diverse vision-and-language tasks such as image classification and visual question answering. We demonstrate that our approach retains performance on par with the standard non-private CLIP model. Furthermore, we analyze our proposed algorithm under linear representation settings. We derive the convergence rate of our algorithm and show a trade-off between utility and privacy when gradients are clipped per-batch and the loss function does not satisfy smoothness conditions assumed in the literature for the analysis of DP-SGD. | 翻訳日:2023-06-16 20:54:56 公開日:2023-06-13 |
# サイバーセキュリティの美学: ユーザはそれをどのように認識するか? The aesthetics of cyber security: How do users perceive them? ( http://arxiv.org/abs/2306.08171v1 ) ライセンス: Link先を確認 | Mark Quinlan, Aaron Cross, Andrew Simpson | (参考訳) 特定の審美哲学は文化によって異なるかもしれないが、すべての人間社会はコミュニケーションと学習を支援するために審美学を使っている。
ユーザビリティとユーザビリティの分野では,学生のeラーニング体験の向上やユーザインターフェース設計の最適化など,さまざまな目的で美学が展開されている。
本稿では,サイバーセキュリティ情報に付随する視覚的アセットを個々のユーザがどのように認識するか,また,これらの視覚的アセットとユーザ認識が,それぞれ異なる「emph{cyber security aesthetic}」を下書きするかを理解する。
1)個人ユーザの視点から,サイバーセキュリティの美学を構成するものは何か?
2)これらの美学は,サイバーセキュリティの原則を非公式に学習する上で,ユーザの自己効力感にどのように影響するのだろうか?
これらの質問に答えるために、サイバーセキュリティのweb記事からイメージセットをコンパイルし、イメージの視覚的特性と感情を分析します。 While specific aesthetic philosophies may differ across cultures, all human societies have used aesthetics to support communication and learning. Within the fields of usability and usable security, aesthetics have been deployed for such diverse purposes as enhancing students' e-learning experiences and optimising user interface design. In this paper, we seek to understand how individual users perceive the visual assets that accompany cyber security information, and how these visual assets and user perceptions underwrite a distinct \emph{cyber security aesthetic}. We ask, (1) What constitutes cyber security aesthetics, from the perspective of an individual user? and (2) How might these aesthetics affect users' perceived self-efficacy as they informally learn cyber security precepts? To begin answering these questions, we compile an image-set from cyber security web articles and analyse the distinct visual properties and sentiments of these images. | 翻訳日:2023-06-16 20:54:38 公開日:2023-06-13 |
# 私のモデルはどこで不適合か?
スライス発見アルゴリズムの人間による評価 Where Does My Model Underperform? A Human Evaluation of Slice Discovery Algorithms ( http://arxiv.org/abs/2306.08167v1 ) ライセンス: Link先を確認 | Nari Johnson, \'Angel Alexander Cabrera, Gregory Plumb, Ameet Talwalkar | (参考訳) 平均精度の高い機械学習(ML)モデルは、データのセマンティックコヒーレントなサブセット(すなわち「スライス」)ではまだ性能が低い。
この行動は、デプロイメントにおけるモデルの安全性やバイアスに重大な社会的影響をもたらす可能性があるが、特に実践者がデータの一貫性のあるサブセットを定義するためにグループアノテーションにアクセスできないドメインにおいて、これらの不適切なスライスを特定することは、実際は困難である。
これらの課題に動機づけられたmlの研究者は、データのコヒーレントとハイエラーのサブセットをグループ化することを目的とした、新しいスライス発見アルゴリズムを開発した。
しかしながら、これらのツールが人間の正しい仮説形成に役立てるかどうか(どのグループにとって)についてはほとんど評価されていない。
制御されたユーザスタディ(N = 15)を行い、2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに提示し、オブジェクト検出モデルが動作しない場所に関する仮説を作成する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
MLとHCI研究者のための設計の機会について論じる。
スライス発見のための新しいツールの設計と評価において,ユーザ中心の重要性が指摘された。 Machine learning (ML) models that achieve high average accuracy can still underperform on semantically coherent subsets (i.e. "slices") of data. This behavior can have significant societal consequences for the safety or bias of the model in deployment, but identifying these underperforming slices can be difficult in practice, especially in domains where practitioners lack access to group annotations to define coherent subsets of their data. Motivated by these challenges, ML researchers have developed new slice discovery algorithms that aim to group together coherent and high-error subsets of data. However, there has been little evaluation focused on whether these tools help humans form correct hypotheses about where (for which groups) their model underperforms. We conduct a controlled user study (N = 15) where we show 40 slices output by two state-of-the-art slice discovery algorithms to users, and ask them to form hypotheses about where an object detection model underperforms. Our results provide positive evidence that these tools provide some benefit over a naive baseline, and also shed light on challenges faced by users during the hypothesis formation step. We conclude by discussing design opportunities for ML and HCI researchers. Our findings point to the importance of centering users when designing and evaluating new tools for slice discovery. | 翻訳日:2023-06-16 20:54:22 公開日:2023-06-13 |
# 高速注意に基づくポイントクラウドアライメントによる強化学習型リンカー設計 Reinforcement Learning-Driven Linker Design via Fast Attention-based Point Cloud Alignment ( http://arxiv.org/abs/2306.08166v1 ) ライセンス: Link先を確認 | Rebecca M. Neeser, Mehmet Akdel, Daniel Kovtun, Luca Naef | (参考訳) Proteolysis-Targeting Chimeras (PROTACs) は、E3リガーゼと疾患関連タンパク質の橋渡しとして機能し、その後の分解を促進するために設計された新規な小分子のクラスである。
PROTACは2つのタンパク質結合性ドメインからなり、「リンカー」ドメインと結合している。
リンカードメインの設計は、その相互作用によって与えられる幾何学的および化学的制約と、薬物類似性を最大化する必要性のために困難である。
このような課題に対処するために,我々はShapeLinkerを紹介した。
自己回帰SMILESジェネレータ上で強化学習を用いてフラグメントリンクを行う。
関連する物理化学的特性と、新しい注意に基づくポイントクラウドアライメントスコアとを組み合わせた複合スコアを最適化する。
提案手法は,関連する2次元および3次元要件を満足するリンカの生成に成功し,目標リンカのコンフォーメーションを仮定して新たなリンカを生成できる。
これにより、より合理的で効率的な PROTAC の設計と最適化が可能になる。
コードとデータはhttps://github.com/aivant/shapelinkerで入手できる。 Proteolysis-Targeting Chimeras (PROTACs) represent a novel class of small molecules which are designed to act as a bridge between an E3 ligase and a disease-relevant protein, thereby promoting its subsequent degradation. PROTACs are composed of two protein binding "active" domains, linked by a "linker" domain. The design of the linker domain is challenging due to geometric and chemical constraints given by its interactions, and the need to maximize drug-likeness. To tackle these challenges, we introduce ShapeLinker, a method for de novo design of linkers. It performs fragment-linking using reinforcement learning on an autoregressive SMILES generator. The method optimizes for a composite score combining relevant physicochemical properties and a novel, attention-based point cloud alignment score. This new method successfully generates linkers that satisfy both relevant 2D and 3D requirements, and achieves state-of-the-art results in producing novel linkers assuming a target linker conformation. This allows for more rational and efficient PROTAC design and optimization. Code and data are available at https://github.com/aivant/ShapeLinker. | 翻訳日:2023-06-16 20:54:00 公開日:2023-06-13 |
# 行列積状態における有限絡み合いスケーリングからの創発的等角境界 Emergent conformal boundaries from finite-entanglement scaling in matrix product states ( http://arxiv.org/abs/2306.08163v1 ) ライセンス: Link先を確認 | Rui-Zhen Huang, Long Zhang, Andreas M. L\"auchli, Jutho Haegeman, Frank Verstraete, and Laurens Vanderstraeten | (参考訳) 行列積状態(mps)を用いた有限絡み合いスケーリングは、1+1次元臨界格子理論、特に創発的共形対称性を研究する上で重要な道具となっている。
有限絡み合いは、臨界理論に関連する変形をもたらすと主張する。
結果として、MPSから定義される二部交絡ハミルトニアンは、物理的および絡み合い境界を持つ境界共形場理論として理解することができる。
物理共形境界条件を設計するためにMPSの対称性特性を利用することができる。
一方、絡み合い境界はコンクリート格子モデルと関連しており、この関連する摂動の下では不変である。
Ising, Potts, and free compact boson CFTs によって記述された臨界格子モデルを用いて、交絡スペクトルの対称性と関連する変形が共形境界に与える影響を説明する。 The use of finite entanglement scaling with matrix product states (MPS) has become a crucial tool for studying 1+1d critical lattice theories, especially those with emergent conformal symmetry. We argue that finite entanglement introduces a relevant deformation in the critical theory. As a result, the bipartite entanglement Hamiltonian defined from the MPS can be understood as a boundary conformal field theory with a physical and an entanglement boundary. We are able to exploit the symmetry properties of the MPS to engineer the physical conformal boundary condition. The entanglement boundary, on the other hand, is related to the concrete lattice model and remains invariant under this relevant perturbation. Using critical lattice models described by the Ising, Potts, and free compact boson CFTs, we illustrate the influence of the symmetry and the relevant deformation on the conformal boundaries in the entanglement spectrum. | 翻訳日:2023-06-16 20:53:38 公開日:2023-06-13 |
# MolCAP:分子化学反応性の事前学習と分子表現学習の促進 MolCAP: Molecular Chemical reActivity pretraining and prompted-finetuning enhanced molecular representation learning ( http://arxiv.org/abs/2306.09187v1 ) ライセンス: Link先を確認 | Yu Wang, JingJie Zhang, Junru Jin, and Leyi Wei | (参考訳) 分子表現学習(MRL)は薬物発見の基本的な課題である。
しかし、従来の深層学習(DL)手法は、様々な分子特性予測タスクの決定因子として実証された豊富な化学反応性分子関係を無視して、マスク支配事前学習フレームワークによる堅牢な分子内表現の学習に過度に重点を置いていた。
ここでは,化学反応性(IMR)の知識に基づくグラフ事前学習型トランスフォーマーであるMRLの促進を目的としたMolCAPを提案する。
以上の結果から,MolCAPは従来の分子前訓練フレームワークに基づく比較手法よりも,生物医学的タスクの多様性にまたがる13の公開分子データセットの方が優れていた。
MolCAPが提案した基本的なグラフニューラルネットワークでさえ、従来のモデルを上回る驚くべきパフォーマンスを達成でき、MRLに反応性情報を適用する見込みがあることを示している。
さらに、手動で設計された分子のアステレットは、データセットのバイアスを明らかにする可能性がある。
全体として、私たちのMolCAPは、薬物発見の全プロセスにおいて、より化学的に有意義な洞察を得られることを期待しています。 Molecular representation learning (MRL) is a fundamental task for drug discovery. However, previous deep-learning (DL) methods focus excessively on learning robust inner-molecular representations by mask-dominated pretraining framework, neglecting abundant chemical reactivity molecular relationships that have been demonstrated as the determining factor for various molecular property prediction tasks. Here, we present MolCAP to promote MRL, a graph pretraining Transformer based on chemical reactivity (IMR) knowledge with prompted finetuning. Results show that MolCAP outperforms comparative methods based on traditional molecular pretraining framework, in 13 publicly available molecular datasets across a diversity of biomedical tasks. Prompted by MolCAP, even basic graph neural networks are capable of achieving surprising performance that outperforms previous models, indicating the promising prospect of applying reactivity information for MRL. In addition, manual designed molecular templets are potential to uncover the dataset bias. All in all, we expect our MolCAP to gain more chemical meaningful insights for the entire process of drug discovery. | 翻訳日:2023-06-16 14:15:58 公開日:2023-06-13 |
# 硬質コアbose-hubbard格子のエネルギースペクトルの絡み合いの検出 Probing entanglement across the energy spectrum of a hard-core Bose-Hubbard lattice ( http://arxiv.org/abs/2306.02571v3 ) ライセンス: Link先を確認 | Amir H. Karamlou, Ilan T. Rosen, Sarah E. Muschinske, Cora N. Barrett, Agustin Di Paolo, Leon Ding, Patrick M. Harrington, Max Hays, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Simon Gustavsson, Yariv Yanay, Jeffrey A. Grover, and William D. Oliver | (参考訳) 絡み合いとその伝播は、量子系の様々な物理的性質を理解する中心である。
特に、閉量子多体系では、絡み合いは創発的な熱力学的挙動をもたらすと考えられているが、多くの大規模量子系の非可積分性と計算の難解性のため、普遍的な理解は依然として困難である。
量子ハードウェアプラットフォームは、相互作用する多体システムにおける絡み合いの形成とスケーリングを研究する手段を提供する。
ここでは、制御可能な4 \times 4$の超伝導量子ビット配列を用いて、2次元ハードコアボース・ハバード格子をエミュレートする。
我々は、全ての格子サイトを同時に駆動して重畳状態を生成し、その多体エネルギースペクトルの相関長と絡み合いエントロピーを抽出する。
スペクトルの中心にある状態の体積則絡み合いスケーリングと、その辺付近での面積則スケーリングの開始へのクロスオーバーを観察した。 Entanglement and its propagation are central to understanding a multitude of physical properties of quantum systems. Notably, within closed quantum many-body systems, entanglement is believed to yield emergent thermodynamic behavior, yet a universal understanding remains challenging due to the non-integrability and computational intractability of most large-scale quantum systems. Quantum hardware platforms provide a means to study the formation and scaling of entanglement in interacting many-body systems. Here, we use a controllable $4 \times 4$ array of superconducting qubits to emulate a two-dimensional hard-core Bose-Hubbard lattice. We generate superposition states by simultaneously driving all lattice sites and extract correlation lengths and entanglement entropy across its many-body energy spectrum. We observe volume-law entanglement scaling for states at the center of the spectrum and a crossover to the onset of area-law scaling near its edges. | 翻訳日:2023-06-16 11:09:43 公開日:2023-06-13 |
# 未知のCSIを用いたパッシブ盗聴攻撃に対するUAV軌道とマルチユーザビームフォーミング最適化 UAV Trajectory and Multi-User Beamforming Optimization for Clustered Users Against Passive Eavesdropping Attacks With Unknown CSI ( http://arxiv.org/abs/2306.06686v2 ) ライセンス: Link先を確認 | Aly Sabri Abdalla, Ali Behfarnia, and Vuk Marojevic | (参考訳) 本稿では,攻撃者の位置情報とチャネル状態情報(CSI)が不明な現代無線通信における基本的な盗聴問題に取り組む。
本研究では,地上基地局(GBS)が脆弱な利用者のサブセットを支援するために,移動式航空中継機(AR)として機能する無人航空機(UAV)の配備を提案する。
より正確には,1) 単一アンテナ利用者を2つのグループにクラスタ化してGBSを直接あるいはAR経由で提供し,(2) 直接提供されたユーザに対して最適なマルチユーザビームフォーミングを採用し,(3) ARの3D位置,そのマルチユーザビームフォーミングマトリックスを最適化し,クローズドフォームソリューションと機械学習技術を組み合わせることでパワーを伝達する。
具体的には,基本ビームフォーミングと電力最適化をARの深部強化学習(DRL)アルゴリズムと組み合わせて設計し,その軌道を利用者のセキュリティ最大化のために最適化する。
その結果,複数ユーザによるマルチ入力方式であるmu-miso(single output)システムは,盗聴チャネルを知らずに送信パラメータを最適化したgbsとarに分割することにより,ユーザ数の増加とともに高い機密性を実現していることがわかった。 This paper tackles the fundamental passive eavesdropping problem in modern wireless communications in which the location and the channel state information (CSI) of the attackers are unknown. In this regard, we propose deploying an unmanned aerial vehicle (UAV) that serves as a mobile aerial relay (AR) to help ground base station (GBS) support a subset of vulnerable users. More precisely, our solution (1) clusters the single-antenna users in two groups to be either served by the GBS directly or via the AR, (2) employs optimal multi-user beamforming to the directly served users, and (3) optimizes the AR's 3D position, its multi-user beamforming matrix and transmit powers by combining closed-form solutions with machine learning techniques. Specifically, we design a plain beamforming and power optimization combined with a deep reinforcement learning (DRL) algorithm for an AR to optimize its trajectory for the security maximization of the served users. Numerical results show that the multi-user multiple input, single output (MU-MISO) system split between a GBS and an AR with optimized transmission parameters without knowledge of the eavesdropping channels achieves high secrecy capacities that scale well with increasing the number of users. | 翻訳日:2023-06-16 11:01:58 公開日:2023-06-13 |
# 多項式核回帰のモデル選択 Model selection of polynomial kernel regression ( http://arxiv.org/abs/1503.02143v2 ) ライセンス: Link先を確認 | Shaobo Lin, Xingping Sun, Zongben Xu, Jinshan Zeng | (参考訳) 多項式カーネル回帰は、標準および最先端の学習戦略の1つである。
しかしながら、よく知られたように、多項式核の次数と正規化パラメータの選択はモデル選択の領域において依然として開いている。
本稿の第一の目的は,これらのパラメータを選択する戦略を開発することである。
一方,最悪の場合の学習率分析に基づいて,多項式核回帰における正規化項は不要であることを示す。
言い換えると、多項式核の次数が適当に調整されると、正規化パラメータは任意に小さくなる。
一方,アルゴリズムの実装を考慮すれば,正規化項が必要である。
同様に、多項式カーネル回帰における正規化項の効果は、カーネル行列の「条件」を回避しているだけである。
本研究の目的は,新しいモデル選択戦略を提案し,効率的な学習アルゴリズムを設計することである。
理論的および実験的分析は、新しい戦略が以前の戦略より優れていることを示している。
理論的には、回帰関数が滑らかであれば、新しい学習戦略がほぼ最適であることを示す。
実験により,新しい手法は一般化能力を失うことなく計算量を大幅に削減できることを示した。 Polynomial kernel regression is one of the standard and state-of-the-art learning strategies. However, as is well known, the choices of the degree of polynomial kernel and the regularization parameter are still open in the realm of model selection. The first aim of this paper is to develop a strategy to select these parameters. On one hand, based on the worst-case learning rate analysis, we show that the regularization term in polynomial kernel regression is not necessary. In other words, the regularization parameter can decrease arbitrarily fast when the degree of the polynomial kernel is suitable tuned. On the other hand,taking account of the implementation of the algorithm, the regularization term is required. Summarily, the effect of the regularization term in polynomial kernel regression is only to circumvent the " ill-condition" of the kernel matrix. Based on this, the second purpose of this paper is to propose a new model selection strategy, and then design an efficient learning algorithm. Both theoretical and experimental analysis show that the new strategy outperforms the previous one. Theoretically, we prove that the new learning strategy is almost optimal if the regression function is smooth. Experimentally, it is shown that the new strategy can significantly reduce the computational burden without loss of generalization capability. | 翻訳日:2023-06-14 19:17:11 公開日:2023-06-13 |
# l^q$正規化学習の一般化性能は$q$に依存するか?
否定的な例 Does generalization performance of $l^q$ regularization learning depend on $q$? A negative example ( http://arxiv.org/abs/1307.6616v2 ) ライセンス: Link先を確認 | Shaobo Lin, Chen Xu, Jingshan Zeng, Jian Fang | (参考訳) $l^q$-regularizationは、機械学習と統計モデリングにおいて魅力的なテクニックであることが示されている。
それは、その係数を適切に縮小することで、機械(モデル)の一般化(予測)能力を改善する。
l^q$ 推定子の形状は、正規化順序$q$の様々な選択において異なる。
特に$l^1$はLASSO推定につながり、$l^{2}$は滑らかなリッジ回帰に対応する。
これにより、$q$がアプリケーションの潜在的なチューニングパラメータになります。
我々は,$l^{q}$-regularizationの使用を容易にするために,$q$のエラボレーティブな選択が避けられるようなモデリング戦略を模索する。
この精神の中で、我々はサンプル依存仮説空間 (sdhs) の下で、l^{q}$-正規化カーネル学習の一般的な枠組みに調査を配置する。
指定されたカーネル関数のクラスに対して、$0< q < \infty$ に対するすべての $l^{q}$ 推定器が同様の一般化誤差境界を得ることを示す。
これらの推定境界は対数係数まで、上界と下界は漸近的に同一であるという意味でほぼ最適である。
この発見は、あるモデリングの文脈において、$q$の選択が一般化能力に強い影響を与えることはないことを暫定的に示している。
この観点から、$q$ は任意に指定するか、単に滑らかさ、計算複雑性、スパーシティなど他の一般化基準で指定することができる。 $l^q$-regularization has been demonstrated to be an attractive technique in machine learning and statistical modeling. It attempts to improve the generalization (prediction) capability of a machine (model) through appropriately shrinking its coefficients. The shape of a $l^q$ estimator differs in varying choices of the regularization order $q$. In particular, $l^1$ leads to the LASSO estimate, while $l^{2}$ corresponds to the smooth ridge regression. This makes the order $q$ a potential tuning parameter in applications. To facilitate the use of $l^{q}$-regularization, we intend to seek for a modeling strategy where an elaborative selection on $q$ is avoidable. In this spirit, we place our investigation within a general framework of $l^{q}$-regularized kernel learning under a sample dependent hypothesis space (SDHS). For a designated class of kernel functions, we show that all $l^{q}$ estimators for $0< q < \infty$ attain similar generalization error bounds. These estimated bounds are almost optimal in the sense that up to a logarithmic factor, the upper and lower bounds are asymptotically identical. This finding tentatively reveals that, in some modeling contexts, the choice of $q$ might not have a strong impact in terms of the generalization capability. From this perspective, $q$ can be arbitrarily specified, or specified merely by other no generalization criteria like smoothness, computational complexity, sparsity, etc.. | 翻訳日:2023-06-14 19:16:55 公開日:2023-06-13 |
# 不完全なターゲットドメインによるドメイン適応 Domain Adaptation with Incomplete Target Domains ( http://arxiv.org/abs/2012.01606v2 ) ライセンス: Link先を確認 | Zhenpeng Li, Jianan Jiang, Yuhong Guo, Tiantian Tang, Chengxiang Zhuo, Jieping Ye | (参考訳) ドメイン適応は、既存のラベル付きデータを補助ソースドメインに活用することにより、対象ドメインのアノテーションコストを低減させるタスクとして、研究コミュニティで注目されている。
しかし、標準的なドメイン適応は両方のドメインで完全に観測されたデータを想定しているが、現実のアプリケーションでは欠落データの存在が一般的である。
本稿では、部分的に観測されたデータを持つ不完全なターゲットドメインを持つドメイン適応シナリオに挑戦する。
本稿では、この新たなドメイン適応問題に対処するために、不完全データインプットに基づく Adversarial Network (IDIAN) モデルを提案する。
提案するモデルでは,対象領域における部分的観測に基づいて欠落する特徴値を満たすためのデータインプテーションモジュールを設計し,その2つの領域を深い逆適応によって整合させる。
我々は、クロスドメインベンチマークタスクと、不完全なターゲットドメインを用いた実世界適応タスクの両方で実験を行う。
実験の結果,提案手法の有効性が示された。 Domain adaptation, as a task of reducing the annotation cost in a target domain by exploiting the existing labeled data in an auxiliary source domain, has received a lot of attention in the research community. However, the standard domain adaptation has assumed perfectly observed data in both domains, while in real world applications the existence of missing data can be prevalent. In this paper, we tackle a more challenging domain adaptation scenario where one has an incomplete target domain with partially observed data. We propose an Incomplete Data Imputation based Adversarial Network (IDIAN) model to address this new domain adaptation challenge. In the proposed model, we design a data imputation module to fill the missing feature values based on the partial observations in the target domain, while aligning the two domains via deep adversarial adaption. We conduct experiments on both cross-domain benchmark tasks and a real world adaptation task with imperfect target domains. The experimental results demonstrate the effectiveness of the proposed method. | 翻訳日:2023-06-14 19:13:14 公開日:2023-06-13 |
# 深部強化学習による単線列車スケジューリング問題の解法 Solving the single-track train scheduling problem via Deep Reinforcement Learning ( http://arxiv.org/abs/2009.00433v2 ) ライセンス: Link先を確認 | Valerio Agasucci, Giorgio Grani, Leonardo Lamorgese | (参考訳) 鉄道は毎日、ネットワークと艦隊側の両方で、鉄道交通の安定性に影響を及ぼす混乱や混乱を経験している。
引き起こされる遅延はネットワークを通じて伝播し、需要のミスマッチと商品や乗客の供給、そしてサービス品質の損失につながる。
このような場合、交通への影響を最小限に抑えるため、いわゆる派遣者である人的交通管制官が最善を尽くす義務がある。
しかし、ディスペンサーは必然的に、その決定のノックオン効果に対する認識の限界、特に直接制御外にあるネットワークの領域にどのように影響するかを認識できる。
近年、意思決定科学における多くの研究が、この問題を自動的に解決し、ディスペンサーを支援する方法の開発に費やされている。
本稿では,この問題を解決するための機械学習に基づく手法について検討し,二つの異なるQ-Learning手法を提案する。
数値計算の結果,行列に基づく古典的線形Q-Learningに対して,これらの手法の優位性を示した。
さらに, 集中型手法とMILPの定式化を比較し, 興味深い結果を得た。
この実験は、アメリカのクラス1鉄道が提供するデータにインスパイアされている。 Every day, railways experience disturbances and disruptions, both on the network and the fleet side, that affect the stability of rail traffic. Induced delays propagate through the network, which leads to a mismatch in demand and offer for goods and passengers, and, in turn, to a loss in service quality. In these cases, it is the duty of human traffic controllers, the so-called dispatchers, to do their best to minimize the impact on traffic. However, dispatchers inevitably have a limited depth of perception of the knock-on effect of their decisions, particularly how they affect areas of the network that are outside their direct control. In recent years, much work in Decision Science has been devoted to developing methods to solve the problem automatically and support the dispatchers in this challenging task. This paper investigates Machine Learning-based methods for tackling this problem, proposing two different Deep Q-Learning methods(Decentralized and Centralized). Numerical results show the superiority of these techniques with respect to the classical linear Q-Learning based on matrices. Moreover, the Centralized approach is compared with a MILP formulation showing interesting results. The experiments are inspired by data provided by a U.S. Class 1 railroad. | 翻訳日:2023-06-14 19:12:35 公開日:2023-06-13 |
# 量子非局所性を特徴づける効果的な方法 An Effective Way of Characterizing the Quantum Nonlocality ( http://arxiv.org/abs/2008.06393v2 ) ライセンス: Link先を確認 | Ma-Cheng Yang, Jun-Li Li, Cong-Feng Qiao | (参考訳) 非局所性は、何十年にもわたって研究されてきた量子理論の特徴的な特徴である。
不確実性原理は量子力学の非局所性を決定する。
ここでは、相関系における様々な非局所性の次数は、可観測物の相互依存による相補性に起因する一般化された不確実性原理によって特徴づけられることを示す。
依存の順序が異なる非古典現象の具体例を示す。
3階の `skewness nonlocality' を得ると、ベルの非局所性は単に 'skewness nonlocality'' の二階の`skewness nonlocality' であると判明し、4階の依存は交換子平方形を含む。
一般化不確実性原理のさらなる応用が期待される。 Nonlocality is a distinctive feature of quantum theory, which has been extensively studied for decades. It is found that the uncertainty principle determines the nonlocality of quantum mechanics. Here we show that various degrees of nonlocalities in correlated system can be characterized by the generalized uncertainty principle, by which the complementarity is attributed to the mutual dependence of observables. Concrete examples for different kinds of non-classical phenomena pertaining to different orders of dependence are presented. We obtain the third order ``skewness nonlocality'', and find that the Bell nonlocality turns out to be merely the second order ``variance nonlocality'' and the forth order dependence contains the commutator squares, which hence is related to the quantum contextuality. More applications of the generalized uncertainty principle are expected. | 翻訳日:2023-06-14 19:12:16 公開日:2023-06-13 |
# I-priorsを用いた付加的相互作用モデリング Additive interaction modelling using I-priors ( http://arxiv.org/abs/2007.15766v4 ) ライセンス: Link先を確認 | Wicher Bergsma and Haziq Jamil | (参考訳) 相互作用を伴う加法回帰モデルは、スプラインやガウス過程回帰のような手法を用いて、文献で広く研究されている。
しかし、これらの手法は、多くの平滑化パラメータの存在と適切な基準の欠如により、推定とモデル選択に困難をもたらす可能性がある。
我々は、I-prior 方法論(Bergsma, 2020)を多次元の複数の共変量に拡張することで、これらの課題に対処することを提案する。
I-プライアー法は、ガウス過程回帰やティホノフ正則化など、理論的にも実用的にも他の方法よりもいくつかの利点がある。
特に、i-prior は適切な pre であり、最小の仮定に基づいており、許容される後方平均を与え、単純な e と m ステップの em アルゴリズムを用いてスケール(または平滑化)パラメータの推定を行うことができる。
さらに,2つの利点がある相互作用を伴うモデルの包括的仕様を導入する。
(i)スケールパラメータの数を減らし、相互作用のあるモデルの推定を容易にし、
(ii)限界確率に基づいて簡単なモデル選択(異なる相互作用を持つモデル)を可能にする。 Additive regression models with interactions are widely studied in the literature, using methods such as splines or Gaussian process regression. However, these methods can pose challenges for estimation and model selection, due to the presence of many smoothing parameters and the lack of suitable criteria. We propose to address these challenges by extending the I-prior methodology (Bergsma, 2020) to multiple covariates, which may be multidimensional. The I-prior methodology has some advantages over other methods, such as Gaussian process regression and Tikhonov regularization, both theoretically and practically. In particular, the I-prior is a proper prior, is based on minimal assumptions, yields an admissible posterior mean, and estimation of the scale (or smoothing) parameters can be done using an EM algorithm with simple E and M steps. Moreover, we introduce a parsimonious specification of models with interactions, which has two benefits: (i) it reduces the number of scale parameters and thus facilitates the estimation of models with interactions, and (ii) it enables straightforward model selection (among models with different interactions) based on the marginal likelihood. | 翻訳日:2023-06-14 19:12:02 公開日:2023-06-13 |
# カーネルに基づく勾配降下アルゴリズムの適応停止規則 Adaptive Stopping Rule for Kernel-based Gradient Descent Algorithms ( http://arxiv.org/abs/2001.02879v2 ) ライセンス: Link先を確認 | Xiangyu Chang, Shao-Bo Lin | (参考訳) 本稿では,カーネルベース勾配降下(KGD)アルゴリズムに対する適応的停止則を提案する。
我々は、KGDにおける反復の増分を定量化するための経験的有効次元を導入し、実装可能な早期停止戦略を導出する。
学習理論の枠組みにおける適応的停止規則の性能を解析する。
最近開発された積分演算子アプローチを用いて、この規則を具備したKGDの最適学習率を示すことで、適応停止則の最適性を厳格に証明する。
さらに,提案する早期停止規則を満たしたkgdの反復数に対する鋭い境界も与えて,その計算上の優位性を実証する。 In this paper, we propose an adaptive stopping rule for kernel-based gradient descent (KGD) algorithms. We introduce the empirical effective dimension to quantify the increments of iterations in KGD and derive an implementable early stopping strategy. We analyze the performance of the adaptive stopping rule in the framework of learning theory. Using the recently developed integral operator approach, we rigorously prove the optimality of the adaptive stopping rule in terms of showing the optimal learning rates for KGD equipped with this rule. Furthermore, a sharp bound on the number of iterations in KGD equipped with the proposed early stopping rule is also given to demonstrate its computational advantage. | 翻訳日:2023-06-14 19:11:34 公開日:2023-06-13 |
# Fischer-Schultz講義:ランダム化実験における異種治療効果の遺伝的機械学習推論とインドにおける免疫への応用 Fischer-Schultz Lecture: Generic Machine Learning Inference on Heterogenous Treatment Effects in Randomized Experiments, with an Application to Immunization in India ( http://arxiv.org/abs/1712.04802v7 ) ライセンス: Link先を確認 | Victor Chernozhukov, Mert Demirer, Esther Duflo, and Iv\'an Fern\'andez-Val | (参考訳) ランダム化実験における異種効果の重要な特徴を推定し,推定する手法を提案する。
これらの重要な特徴には、機械学習プロキシを使用した効果の最良の線形予測子、インパクトグループによってソートされた平均効果、最も影響の少ないユニットの平均特性が含まれる。
このアプローチは高次元の設定で有効であり、その効果は予測的および因果的機械学習手法によってプロキシされる(必ずしも常に推定されない)。
私たちはこれらのプロキシを主要な特徴の見積に後処理します。
私たちのアプローチは汎用的で、ペナルティ化された方法、ニューラルネットワーク、ランダムフォレスト、ブーストツリー、アンサンブルメソッドと組み合わせて、予測と因果の両方で使用できます。
推定と推測は、過度な適合を避け、有効性を達成するために繰り返しデータ分割に基づいている。
特に、p値の中央値と中央値の中央値と、信頼区間のその他の定量値を取る。
分位集約は,単一の分割手続きに対する推定リスクを低減し,その主推論特性を確立する。
最後に、分析により、因果学習による機械学習プロキシの構築方法が明らかになった。 効果の最良の線形予測器を構築するために開発した客観的関数を使用して、最初のステップでより良い機械学習プロキシを得ることができる。
本研究では,インドにおける予防接種需要を刺激するナッジの組み合わせを評価するランダムフィールド実験において,推論ツールと因果学習者の両方の使用について述べる。 We propose strategies to estimate and make inference on key features of heterogeneous effects in randomized experiments. These key features include best linear predictors of the effects using machine learning proxies, average effects sorted by impact groups, and average characteristics of most and least impacted units. The approach is valid in high dimensional settings, where the effects are proxied (but not necessarily consistently estimated) by predictive and causal machine learning methods. We post-process these proxies into estimates of the key features. Our approach is generic, it can be used in conjunction with penalized methods, neural networks, random forests, boosted trees, and ensemble methods, both predictive and causal. Estimation and inference are based on repeated data splitting to avoid overfitting and achieve validity. We use quantile aggregation of the results across many potential splits, in particular taking medians of p-values and medians and other quantiles of confidence intervals. We show that quantile aggregation lowers estimation risks over a single split procedure, and establish its principal inferential properties. Finally, our analysis reveals ways to build provably better machine learning proxies through causal learning: we can use the objective functions that we develop to construct the best linear predictors of the effects, to obtain better machine learning proxies in the initial step. We illustrate the use of both inferential tools and causal learners with a randomized field experiment that evaluates a combination of nudges to stimulate demand for immunization in India. | 翻訳日:2023-06-14 19:10:55 公開日:2023-06-13 |
# パラメトリック最適制御問題の予備解析のための拡張物理情報ニューラルネットワーク An extended physics informed neural network for preliminary analysis of parametric optimal control problems ( http://arxiv.org/abs/2110.13530v2 ) ライセンス: Link先を確認 | Nicola Demo, Maria Strazzullo and Gianluigi Rozza | (参考訳) 本研究では,パラメトリック偏微分方程式に対する教師付き学習戦略の拡張を提案する。
実際、もし後者が多くのアプリケーションで不可分に有用であるとしても、そのほとんどがリアルタイムおよびマルチクエリ環境で計算的に高価である。
したがって、我々の主な目標は、短時間でパラメトリゼーション現象をシミュレートする物理学的インフォームド学習パラダイムを提供することです。
物理情報は、損失関数(標準物理学インフォームドニューラルネットワーク)、追加入力(極端な特徴雇用)、ニューラルネットワーク(物理インフォームドアーキテクチャ)の効果的な構造を構築するためのガイドラインとして、様々な方法で活用される。
これら3つの側面を組み合わせることで、より高速なトレーニングフェーズとより正確なパラメトリック予測が可能になる。
この手法はいくつかの方程式や最適制御フレームワークでテストされている。 In this work we propose an extension of physics informed supervised learning strategies to parametric partial differential equations. Indeed, even if the latter are indisputably useful in many applications, they can be computationally expensive most of all in a real-time and many-query setting. Thus, our main goal is to provide a physics informed learning paradigm to simulate parametrized phenomena in a small amount of time. The physics information will be exploited in many ways, in the loss function (standard physics informed neural networks), as an augmented input (extra feature employment) and as a guideline to build an effective structure for the neural network (physics informed architecture). These three aspects, combined together, will lead to a faster training phase and to a more accurate parametric prediction. The methodology has been tested for several equations and also in an optimal control framework. | 翻訳日:2023-06-14 19:04:34 公開日:2023-06-13 |
# GANにおける変圧器導入の栄養とボルト The Nuts and Bolts of Adopting Transformer in GANs ( http://arxiv.org/abs/2110.13107v3 ) ライセンス: Link先を確認 | Rui Xu, Xiangyu Xu, Kai Chen, Bolei Zhou, Chen Change Loy | (参考訳) トランスフォーマーはコンピュータビジョン、特にハイレベルなビジョンタスクで普及する。
しかし、generative adversarial network(gan)フレームワークにおけるtransformerの採用は、まだオープンだが困難な問題である。
本稿では,高忠実度画像合成のためのGANにおけるトランスフォーマーの特性について,総合的研究を行った。
画像生成における特徴的局所性の重要性を強調し,再確認するが,局所性は分類課題においてよく知られている。
さらに興味深いのは、トランスフォーマーベースの識別器と条件付きジェネレータを学習するのに有害な自己注意層内の残余の接続があることである。
我々は,影響を慎重に検討し,悪影響を軽減する効果的な方法を提案する。
本研究では,STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANのトランスフォーマーを新たに設計し,非条件画像生成と条件画像生成の両面で競合する結果を得た。
Transformerベースの識別器であるSTrans-Dは、CNNベースの識別器とのギャップを大幅に減らす。 Transformer becomes prevalent in computer vision, especially for high-level vision tasks. However, adopting Transformer in the generative adversarial network (GAN) framework is still an open yet challenging problem. In this paper, we conduct a comprehensive empirical study to investigate the properties of Transformer in GAN for high-fidelity image synthesis. Our analysis highlights and reaffirms the importance of feature locality in image generation, although the merits of the locality are well known in the classification task. Perhaps more interestingly, we find the residual connections in self-attention layers harmful for learning Transformer-based discriminators and conditional generators. We carefully examine the influence and propose effective ways to mitigate the negative impacts. Our study leads to a new alternative design of Transformers in GAN, a convolutional neural network (CNN)-free generator termed as STrans-G, which achieves competitive results in both unconditional and conditional image generations. The Transformer-based discriminator, STrans-D, also significantly reduces its gap against the CNN-based discriminators. | 翻訳日:2023-06-14 19:04:19 公開日:2023-06-13 |
# open-world feature extrapolationに向けて: インダクティブグラフ学習アプローチ Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach ( http://arxiv.org/abs/2110.04514v2 ) ライセンス: Link先を確認 | Qitian Wu, Chenxiao Yang, Junchi Yan | (参考訳) 我々は、入力データの特徴空間が拡張を経た場合のオープンワールド機能外挿問題と、部分的に観察された特徴を訓練したモデルが、さらなる再トレーニングなしにテストデータの新機能を扱う必要がある。
問題は、異なるフィールドから漸進的に収集された機能を扱う上で、非常に重要である。
そこで我々は,グラフ表現と学習を用いた新しい学習パラダイムを提案する。
私たちのフレームワークには2つのモジュールがあります。
1) 下位モデルとしてのバックボーンネットワーク(例えば、フィードフォワードニューラルネット)は、特徴を入力として、予測ラベルを出力する。
2) 上位モデルとしてのグラフニューラルネットワークは,観測データから構築された特徴データグラフ上のメッセージパッシングを通じて,新機能の埋め込みを外挿することを学ぶ。
フレームワークに基づいて,自己教師型アプローチと帰納学習アプローチという2つのトレーニング戦略を設計し,外挿能力を備えたモデルの実現と,機能レベルの過剰適合を軽減する。
また、新しい特徴を持つテストデータに対する一般化誤差の理論解析を行い、一般化性能に対するトレーニング特徴やアルゴリズムの影響を判別する。
複数の分類データセットと大規模広告クリック予測データセットを用いた実験により,本モデルが未発見の機能に対して効果的な埋め込みを生成し,knと局所アグリゲーションを採用するベースラインメソッドを著しく上回ることを示した。 We target open-world feature extrapolation problem where the feature space of input data goes through expansion and a model trained on partially observed features needs to handle new features in test data without further retraining. The problem is of much significance for dealing with features incrementally collected from different fields. To this end, we propose a new learning paradigm with graph representation and learning. Our framework contains two modules: 1) a backbone network (e.g., feedforward neural nets) as a lower model takes features as input and outputs predicted labels; 2) a graph neural network as an upper model learns to extrapolate embeddings for new features via message passing over a feature-data graph built from observed data. Based on our framework, we design two training strategies, a self-supervised approach and an inductive learning approach, to endow the model with extrapolation ability and alleviate feature-level over-fitting. We also provide theoretical analysis on the generalization error on test data with new features, which dissects the impact of training features and algorithms on generalization performance. Our experiments over several classification datasets and large-scale advertisement click prediction datasets demonstrate that our model can produce effective embeddings for unseen features and significantly outperforms baseline methods that adopt KNN and local aggregation. | 翻訳日:2023-06-14 19:04:01 公開日:2023-06-13 |
# ニューラルネットワークを用いたmonge-amp\`ere方程式のディリクレ問題の解法 Solving the Dirichlet problem for the Monge-Amp\`ere equation using neural networks ( http://arxiv.org/abs/2110.03310v3 ) ライセンス: Link先を確認 | Kaj Nystr\"om, Matias Vestberg | (参考訳) Monge-Amp\`ere 方程式は解析、幾何学、応用科学において基本的な重要性を持つ完全非線形偏微分方程式(PDE)である。
本稿では,ニューラルネットワークを用いたmonge-amp\`ere方程式に関連するディリクレ問題を解き,ディープ入力凸ニューラルネットワークを用いたansatzを用いて一意な凸解を求めることができることを示す。
解析の一環として,情報源関数における特異性,不連続性,雑音の影響について検討し,非自明な領域を考察し,高次元での手法の効果について検討した。
本研究は,安定度に基づく数値的収束と誤差推定について検討する。
また,本手法を標準フィードフォワードネットワークと,凸性の欠如を罰する損失関数を併用した代替手法と比較した。 The Monge-Amp\`ere equation is a fully nonlinear partial differential equation (PDE) of fundamental importance in analysis, geometry and in the applied sciences. In this paper we solve the Dirichlet problem associated with the Monge-Amp\`ere equation using neural networks and we show that an ansatz using deep input convex neural networks can be used to find the unique convex solution. As part of our analysis we study the effect of singularities, discontinuities and noise in the source function, we consider nontrivial domains, and we investigate how the method performs in higher dimensions. We investigate the convergence numerically and present error estimates based on a stability result. We also compare this method to an alternative approach in which standard feed-forward networks are used together with a loss function which penalizes lack of convexity. | 翻訳日:2023-06-14 19:03:39 公開日:2023-06-13 |
# 確率座標変換とロバスト機械学習への応用 Stochastic coordinate transformations with applications to robust machine learning ( http://arxiv.org/abs/2110.01729v3 ) ライセンス: Link先を確認 | Julio Enrique Castrillon-Candas, Dingning Liu, Sicheng Yang, Mark Kon | (参考訳) 本稿では,Karhunen-Loeve展開を用いた入力データの確率的挙動の同定のための新しい特徴セットを提案する。
これらの新しい特徴は, 異常検出のための最近の関数データ解析理論に基づく座標変換を適用したものである。
関連する信号分解は、有限次元函数空間を持つ確率過程(ランダム場)を近似するための既知の最適性を持つ正確な階層的テンソル積展開である。
原則として、これらの低次元空間は与えられた名目クラスにおける 'underlying signal' の確率的挙動のほとんどを捉えることができ、確率的異常として代替クラスにおける信号を削除することができる。
名目クラスの階層的有限次元展開を用いて、異常信号成分を検出するために一連の直交ネスト付き部分空間を構築する。
これらの部分空間における入力データの投影係数は機械学習(ML)分類器の訓練に使用される。
しかし、信号が名目および異常な射影成分に分割されるため、クラスのより明確な分離面が生じる。
実際、名目クラスの共分散構造を十分に正確に推定することで、鋭い分類が得られることを示す。
これは、大きなアンバランスデータセットを持つ状況において特に有利である。
この概念を定式化し、多数の高次元データセット上で実証する。
このアプローチは、元の特徴データを使用するmlメソッドよりも大幅に精度が向上する。
アルツハイマー病のadniデータセットに関するテストでは、精度が48%から89%に劇的に向上しています。
さらに,GCMデータから生成したアンバランスな半合成データセットの試験により,データセットのアンバランス化が進むにつれて精度が向上した。 In this paper we introduce a set of novel features for identifying underlying stochastic behavior of input data using the Karhunen-Loeve expansion. These novel features are constructed by applying a coordinate transformation based on the recent Functional Data Analysis theory for anomaly detection. The associated signal decomposition is an exact hierarchical tensor product expansion with known optimality properties for approximating stochastic processes (random fields) with finite dimensional function spaces. In principle these low dimensional spaces can capture most of the stochastic behavior of `underlying signals' in a given nominal class, and can reject signals in alternative classes as stochastic anomalies. Using a hierarchical finite dimensional expansion of the nominal class, a series of orthogonal nested subspaces is constructed for detecting anomalous signal components. Projection coefficients of input data in these subspaces are then used to train a Machine Learning (ML) classifier. However, due to the split of the signal into nominal and anomalous projection components, clearer separation surfaces of the classes arise. In fact we show that with a sufficiently accurate estimation of the covariance structure of the nominal class, a sharp classification can be obtained. This is particularly advantageous for situations with large unbalanced datasets. We formulate this concept and demonstrate it on a number of high-dimensional datasets. This approach yields significant increases in accuracy over ML methods that use the original feature data. Our tests on the Alzheimer's Disease ADNI dataset shows a dramatic increase in accuracy (from 48% to 89% accuracy). Furthermore, tests from unbalanced semi-synthetic datasets created from the GCM data confirmed increased accuracy as the dataset becomes more unbalanced. | 翻訳日:2023-06-14 19:03:24 公開日:2023-06-13 |
# 重なり合うテキスト間の文脈的意味距離 Contextualized Semantic Distance between Highly Overlapped Texts ( http://arxiv.org/abs/2110.01176v3 ) ライセンス: Link先を確認 | Letian Peng, Zuchao Li and Hai Zhao | (参考訳) テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
重複した文間の意味的距離のより良い評価は、言語システムの理解と生成のガイドに役立つ。
従来の意味的メトリクスは単語表現に基づいているため、同様の表現を持つ重複したコンポーネントの乱れに対して脆弱である。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本研究では,隣接する単語として最長共通列 (LCS) の単語を扱い,事前学習言語モデル (PLM) からマスク付き言語モデリング (MLM) を用いて,それらの位置の分布を予測する。
我々の計量であるNDD(Neighboring Distribution Divergence)は、重なり合う部分の分布間のばらつきを計算することによって意味距離を表す。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
この発見に基づき,テキスト圧縮のための教師なし,訓練不要の手法を更に実装し,従来のパープレキシティに基づく方法を大幅に改善した。
我々の手法のスケーラビリティが高いため、NDDはドメイン適応における教師付き状態よりも大きなマージンで優れている。
構文解析および意味解析に関するさらなる実験は、内部文構造の認識を検証し、さらなる研究のためのNDDの可能性を示す。 Overlapping frequently occurs in paired texts in natural language processing tasks like text editing and semantic similarity evaluation. Better evaluation of the semantic distance between the overlapped sentences benefits the language system's understanding and guides the generation. Since conventional semantic metrics are based on word representations, they are vulnerable to the disturbance of overlapped components with similar representations. This paper aims to address the issue with a mask-and-predict strategy. We take the words in the longest common sequence (LCS) as neighboring words and use masked language modeling (MLM) from pre-trained language models (PLMs) to predict the distributions on their positions. Our metric, Neighboring Distribution Divergence (NDD), represent the semantic distance by calculating the divergence between distributions in the overlapped parts. Experiments on Semantic Textual Similarity show NDD to be more sensitive to various semantic differences, especially on highly overlapped paired texts. Based on the discovery, we further implement an unsupervised and training-free method for text compression, leading to a significant improvement on the previous perplexity-based method. The high scalability of our method even enables NDD to outperform the supervised state-of-the-art in domain adaption by a huge margin. Further experiments on syntax and semantics analyses verify the awareness of internal sentence structures, indicating the high potential of NDD for further studies. | 翻訳日:2023-06-14 19:02:58 公開日:2023-06-13 |
# WildWood:新しいランダムフォレストアルゴリズム WildWood: a new Random Forest algorithm ( http://arxiv.org/abs/2109.08010v2 ) ライセンス: Link先を確認 | St\'ephane Ga\"iffas and Ibrahim Merad and Yiyang Yu | (参考訳) 本研究では、ランダムフォレスト(RF)タイプの教師あり学習のための新しいアンサンブルアルゴリズムWildWood(WW)を紹介する。
標準的なrfアルゴリズムはbootstrap out-of-bagのスコアを計算するのにbootstrap out-of-bagのサンプルを使用するが、wwはこれらのサンプルを使用して、森林で育てられた各木で可能な全てのサブツリーの予測を集約することで得られる予測を改善した。
これは、コンテキストツリー重み付けと呼ばれるアルゴリズムによって正確に、非常に効率的に計算される、バッグ外のサンプルで計算された指数重みによる集約によって達成される。
この改良は、分割探索を加速するヒストグラム戦略と組み合わさって、標準RFや極端な勾配促進アルゴリズムといった他の確立されたアンサンブル法と比較して、WWを高速かつ競争的にする。 We introduce WildWood (WW), a new ensemble algorithm for supervised learning of Random Forest (RF) type. While standard RF algorithms use bootstrap out-of-bag samples to compute out-of-bag scores, WW uses these samples to produce improved predictions given by an aggregation of the predictions of all possible subtrees of each fully grown tree in the forest. This is achieved by aggregation with exponential weights computed over out-of-bag samples, that are computed exactly and very efficiently thanks to an algorithm called context tree weighting. This improvement, combined with a histogram strategy to accelerate split finding, makes WW fast and competitive compared with other well-established ensemble methods, such as standard RF and extreme gradient boosting algorithms. | 翻訳日:2023-06-14 19:02:35 公開日:2023-06-13 |
# バンドイットの最も速い変更点検出 Bandit Quickest Changepoint Detection ( http://arxiv.org/abs/2107.10492v3 ) ライセンス: Link先を確認 | Aditya Gopalan, Venkatesh Saligrama and Braghadeesh Lakshminarayanan | (参考訳) 多くの産業およびセキュリティアプリケーションは、時間的行動パターンの突然の変化を検出するために一連のセンサーを使用している。
これらの急激な変化は、通常、局所的に現れ、センサーの小さなサブセットだけが情報をもたらす。
各センサの連続監視は、リソースの制約によりコストがかかり、センサ動作(またはセンサ)が順次選択され、選択された動作に対応する測定のみが観察される、最短の切換点検出問題に対するモチベーションとなる。
有限パラメータ化確率分布の一般クラスにおける検出遅延に関する情報理論的下界を導出する。
そこで我々は,異なる検知オプションの探索と質問行動の活用をシームレスにバランスさせる,計算効率のよいオンラインセンシング手法を提案する。
我々は,提案手法の遅延境界を導出し,提案手法の最適性を確立するために,情報理論下限を低い誤警報率で一致させることを示す。
次に,提案手法の有効性を示す合成データと実データについて実験を行った。 Many industrial and security applications employ a suite of sensors for detecting abrupt changes in temporal behavior patterns. These abrupt changes typically manifest locally, rendering only a small subset of sensors informative. Continuous monitoring of every sensor can be expensive due to resource constraints, and serves as a motivation for the bandit quickest changepoint detection problem, where sensing actions (or sensors) are sequentially chosen, and only measurements corresponding to chosen actions are observed. We derive an information-theoretic lower bound on the detection delay for a general class of finitely parameterized probability distributions. We then propose a computationally efficient online sensing scheme, which seamlessly balances the need for exploration of different sensing options with exploitation of querying informative actions. We derive expected delay bounds for the proposed scheme and show that these bounds match our information-theoretic lower bounds at low false alarm rates, establishing optimality of the proposed method. We then perform a number of experiments on synthetic and real datasets demonstrating the effectiveness of our proposed method. | 翻訳日:2023-06-14 19:02:07 公開日:2023-06-13 |
# はっきりした特徴を学ぶことは Learning distinct features helps, provably ( http://arxiv.org/abs/2106.06012v3 ) ライセンス: Link先を確認 | Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj | (参考訳) 最小二乗損失で学習した2層ニューラルネットワークによって得られた特徴の多様性について検討した。
隠れ層特徴間の平均$L_2$-distanceで多様性を測定し,非冗長な特徴の学習がネットワークの性能に与える影響を理論的に検討する。
そのため、そのようなネットワークに対するRademacher複雑性に基づいた特徴量による新しい一般化境界を導出する。
我々の分析は、隠れた層内のネットワークユニットのより異なる特徴がより一般化につながることを証明している。
また、結果をより深いネットワークや異なる損失に拡張する方法も示しています。 We study the diversity of the features learned by a two-layer neural network trained with the least squares loss. We measure the diversity by the average $L_2$-distance between the hidden-layer features and theoretically investigate how learning non-redundant distinct features affects the performance of the network. To do so, we derive novel generalization bounds depending on feature diversity based on Rademacher complexity for such networks. Our analysis proves that more distinct features at the network's units within the hidden layer lead to better generalization. We also show how to extend our results to deeper networks and different losses. | 翻訳日:2023-06-14 19:01:52 公開日:2023-06-13 |
# 20モードユニバーサル量子フォトニックプロセッサ 20-Mode Universal Quantum Photonic Processor ( http://arxiv.org/abs/2203.01801v4 ) ライセンス: Link先を確認 | Caterina Taballione, Malaquias Correa Anguita, Michiel de Goede, Pim Venderbosch, Ben Kassenberg, Henk Snijders, Narasimhan Kannan, Ward L. Vleeshouwers, Devin Smith, J\"orn P. Epping, Reinier van der Meer, Pepijn W. H. Pinkse, Hans van den Vlekkert, Jelmer J. Renema | (参考訳) 集積フォトニクスは光量子コンピューティングに不可欠な技術である。
universal, phase-stable, reconfigurable multimode interferometers (quantum photonic processor) はフォトニック量子状態の操作を可能にし、様々なアーキテクチャにおけるフォトニック量子コンピュータの主要なコンポーネントの一つである。
本稿では,これまでで最大の量子フォトニックプロセッサの実現について報告する。
プロセッサは20個の入力モードにおいて任意のユニタリ変換を可能とし、振幅忠実度は$f_{\text{haar}} = 97.4\%$と$f_{\text{perm}} = 99.5\%$ for haar-random と置換行列に対して、それぞれ2.9 dbの光学損失と$v_{\text{hom}}=98\%$の高可視性量子干渉を持つ。
プロセッサは$\mathrm{Si_3N_4}$導波路で実現され、ペルチェ素子によって積極的に冷却される。 Integrated photonics is an essential technology for optical quantum computing. Universal, phase-stable, reconfigurable multimode interferometers (quantum photonic processors) enable manipulation of photonic quantum states and are one of the main components of photonic quantum computers in various architectures. In this paper, we report the realization of the largest quantum photonic processor to date. The processor enables arbitrary unitary transformations on its 20 input modes with an amplitude fidelity of $F_{\text{Haar}} = 97.4\%$ and $F_{\text{Perm}} = 99.5\%$ for Haar-random and permutation matrices, respectively, an optical loss of 2.9 dB averaged over all modes, and high-visibility quantum interference with $V_{\text{HOM}}=98\%$. The processor is realized in $\mathrm{Si_3N_4}$ waveguides and is actively cooled by a Peltier element. | 翻訳日:2023-06-14 18:54:24 公開日:2023-06-13 |
# プライベート信頼集合に対するランダム化応答の非パラメトリック拡張 Nonparametric extensions of randomized response for private confidence sets ( http://arxiv.org/abs/2202.08728v3 ) ライセンス: Link先を確認 | Ian Waudby-Smith, Zhiwei Steven Wu, Aaditya Ramdas | (参考訳) この研究は、局所微分プライバシー(ldp)の制約の下で人口平均に対する非パラメトリック、非漸近的統計推論を行う手法を導出する。
有界観測$(X_1, \dots, X_n)$ 平均$\mu^\star$ が、プリミティブ化されたデータへのアクセスのみを与えられるときのみ、$(Z_1, \dots, Z_n)$ と Time-uniform confidence sequences (CS) が与えられる。
これを実現するために、ワーナーの有名な ‘randomized response'' 機構の非パラメトリックかつ逐次的な一般化を導入し、任意の有界な確率変数に対するldpを満たし、その結果の民営化された観測へのアクセスを与えられた手段に対してcisとcssを提供する。
例えば、我々の結果は固定時間と時間一様の双方においてホッフィングの不等式をプライベートに類似させる。
我々は,これらのHoeffding型CSを拡張して,時間変化のある(静止しない)手段をキャプチャし,これらの手法がオンラインA/Bテストのプライベートな実施にどのように使用できるかを説明する。 This work derives methods for performing nonparametric, nonasymptotic statistical inference for population means under the constraint of local differential privacy (LDP). Given bounded observations $(X_1, \dots, X_n)$ with mean $\mu^\star$ that are privatized into $(Z_1, \dots, Z_n)$, we present confidence intervals (CI) and time-uniform confidence sequences (CS) for $\mu^\star$ when only given access to the privatized data. To achieve this, we introduce a nonparametric and sequentially interactive generalization of Warner's famous ``randomized response'' mechanism, satisfying LDP for arbitrary bounded random variables, and then provide CIs and CSs for their means given access to the resulting privatized observations. For example, our results yield private analogues of Hoeffding's inequality in both fixed-time and time-uniform regimes. We extend these Hoeffding-type CSs to capture time-varying (non-stationary) means, and conclude by illustrating how these methods can be used to conduct private online A/B tests. | 翻訳日:2023-06-14 18:54:02 公開日:2023-06-13 |
# 量子チャネル動物園のプラティプス The platypus of the quantum channel zoo ( http://arxiv.org/abs/2202.08380v2 ) ライセンス: Link先を確認 | Felix Leditzky and Debbie Leung and Vikesh Siddhu and Graeme Smith and John A. Smolin | (参考訳) 量子チャネルとそれらの容量の奇妙な振る舞いを理解することは、量子情報理論の重要な目的である。
ここでは、エキゾチックな量子情報理論を持つ、驚くほど単純で低次元の単一パラメータの量子チャネル群について研究する。
このファミリーの最も単純な例は、単純な分解可能なチャンネルと全く役に立たないqubitチャンネルをハイブリッド化して直感的に得られるqutrit-to-qutritチャネルである。
このようなハイブリッド化は、チャネルの容量を様々な興味深い方法で振る舞う。
例えば、このチャネルのプライベートな容量と古典的な容量は一致し、そのチャネルは、基礎となる情報量が付加物であることが分かっているいかなるクラスにも属さないにもかかわらず、明示的に計算することができる。
さらに、明快で説得力のある予想が成り立つと、チャネルの量子容量を明示的に計算することができる。
この「スピンアライメント予想」は独立した興味を持つかもしれないが、特定の特別な場合において証明され、その妥当性に関する追加の数値的証拠が提供される。
最後に、qutritチャネルを2つの方法で一般化し、得られたチャネルとそのキャパシティも同様にリッチな振る舞いを示す。
関連論文 [phys. rev. lett. 130, 200801 (2023); arxiv:2202.08377] では、量子情報を様々な補助チャネルと共同で送信する場合、量子チャネルがスーパー付加性を示すことが以前には知られていなかった。 Understanding quantum channels and the strange behavior of their capacities is a key objective of quantum information theory. Here we study a remarkably simple, low-dimensional, single-parameter family of quantum channels with exotic quantum information-theoretic features. As the simplest example from this family, we focus on a qutrit-to-qutrit channel that is intuitively obtained by hybridizing together a simple degradable channel and a completely useless qubit channel. Such hybridizing makes this channel's capacities behave in a variety of interesting ways. For instance, the private and classical capacity of this channel coincide and can be explicitly calculated, even though the channel does not belong to any class for which the underlying information quantities are known to be additive. Moreover, the quantum capacity of the channel can be computed explicitly, given a clear and compelling conjecture is true. This "spin alignment conjecture," which may be of independent interest, is proved in certain special cases and additional numerical evidence for its validity is provided. Finally, we generalize the qutrit channel in two ways, and the resulting channels and their capacities display similarly rich behavior. In the companion paper [Phys. Rev. Lett. 130, 200801 (2023); arXiv:2202.08377], we further show that the qutrit channel demonstrates superadditivity when transmitting quantum information jointly with a variety of assisting channels, in a manner unknown before. | 翻訳日:2023-06-14 18:53:35 公開日:2023-06-13 |
# 単純チャネルにおける量子容量の汎用的非付加性 Generic nonadditivity of quantum capacity in simple channels ( http://arxiv.org/abs/2202.08377v2 ) ライセンス: Link先を確認 | Felix Leditzky and Debbie Leung and Vikesh Siddhu and Graeme Smith and John A. Smolin | (参考訳) 量子チャネルの容量を決定することは、量子情報理論の基本的な問題である。
量子チャネルにまたがる情報のフローを定量化する厳密な符号化定理があるにもかかわらず、それらの能力は超加法効果のために理解されていない。
これらの現象を研究することは、量子情報の理解を深めるために重要であるが、超加法チャネルの単純でクリーンな例は少ない。
ここでは, platypus channel というチャネル群について検討する。
その最も単純な構成であるqutritチャネルは、様々なqubitチャネルと組み合わせて使用すると、コヒーレント情報の超付加性を示す。
高次元の族は消去チャネルと共に量子容量の超加法を示す。
共用論文 (IEEE Trans. Inf. Theory 69(6), pp. 3825-3849, 2023; arXiv:2202.08380] で導入された「スピン配向予想」に従えば、量子容量の超付加性に関する我々の研究結果は、より低次元のチャネルやより大きなパラメータ範囲にまで拡張される。
特に、super-additivityは、前の結果とは対照的に、それぞれが容量が大きい2つの弱い加法的チャネルの間で発生する。
注目すべきは、単一の新しい伝送戦略が全ての例において超添加性を達成することである。
以上の結果から, 過敏性は従来考えられていたよりもはるかに多いことが示唆された。
どちらのチャネルも大きな量子容量を持つ場合でも、様々なチャネルにまたがって発生することがある。 Determining capacities of quantum channels is a fundamental question in quantum information theory. Despite having rigorous coding theorems quantifying the flow of information across quantum channels, their capacities are poorly understood due to super-additivity effects. Studying these phenomena is important for deepening our understanding of quantum information, yet simple and clean examples of super-additive channels are scarce. Here we study a family of channels called platypus channels. Its simplest member, a qutrit channel, is shown to display super-additivity of coherent information when used jointly with a variety of qubit channels. Higher-dimensional family members display super-additivity of quantum capacity together with an erasure channel. Subject to the "spin-alignment conjecture" introduced in the companion paper [IEEE Trans. Inf. Theory 69(6), pp. 3825-3849, 2023; arXiv:2202.08380], our results on super-additivity of quantum capacity extend to lower-dimensional channels as well as larger parameter ranges. In particular, super-additivity occurs between two weakly additive channels each with large capacity on their own, in stark contrast to previous results. Remarkably, a single, novel transmission strategy achieves super-additivity in all examples. Our results show that super-additivity is much more prevalent than previously thought. It can occur across a wide variety of channels, even when both participating channels have large quantum capacity. | 翻訳日:2023-06-14 18:53:07 公開日:2023-06-13 |
# ディープリニアネットワークの厳密解 Exact Solutions of a Deep Linear Network ( http://arxiv.org/abs/2202.04777v7 ) ライセンス: Link先を確認 | Liu Ziyin, Botao Li, Xiangming Meng | (参考訳) この研究は、ニューラルネットワークの風景を理解するための基礎モデルである、重崩壊と確率ニューロンを持つディープ線形ネットワークの大域的ミニマの解析的表現を発見する。
この結果は, 非線形現象が出現する深層ニューラルネットワークの損失景観において, 起源が特別な点であることを示唆している。
重みの減衰はモデルアーキテクチャと強く相互作用し、わずか1ドルの隠れ層しか持たないネットワークと質的に異なる1ドル以上の隠れ層を持つネットワークにおいて、ゼロで悪いミニマを生成できることを示します。
その結果,一般的なディープラーニング初期化手法では,ニューラルネットワークの最適化が容易でないことがわかった。 This work finds the analytical expression of the global minima of a deep linear network with weight decay and stochastic neurons, a fundamental model for understanding the landscape of neural networks. Our result implies that the origin is a special point in deep neural network loss landscape where highly nonlinear phenomenon emerges. We show that weight decay strongly interacts with the model architecture and can create bad minima at zero in a network with more than $1$ hidden layer, qualitatively different from a network with only $1$ hidden layer. Practically, our result implies that common deep learning initialization methods are insufficient to ease the optimization of neural networks in general. | 翻訳日:2023-06-14 18:52:42 公開日:2023-06-13 |
# 中心線からの脳動脈ネットワークのモデリングとヘキサヘドラルメッシュ化 Modeling and hexahedral meshing of cerebral arterial networks from centerlines ( http://arxiv.org/abs/2201.08279v2 ) ライセンス: Link先を確認 | M\'eghane Decroocq, Carole Frindel, Pierre Roug\'e, Makoto Ohta and Guillaume Lavou\'e | (参考訳) 計算流体力学(CFD)シミュレーションは血管形状からの血流に関する貴重な情報を提供する。
しかし、低解像度の医療画像から動脈の正確なモデルを抽出する必要がある。
中心線に基づく表現は、幾何学的および位相的情報をエンコードし、手作業による編集を容易にするため、小さな血管で大きな血管ネットワークをモデル化するために広く用いられている。
本研究では,中心線から直接CFDに適した構造を持つヘキサヘドラルメッシュを自動生成する手法を提案する。
モデリングとメッシュ処理の両方に対処しました。
我々は,音や空間といった中心表現に固有の制約を克服するために,ペナル化スプラインに基づく容器モデルを提案した。
分岐は平面n-分岐に拡張した解剖に基づくパラメトリックモデルを用いて再構成される。
最後に, 提案した血管網モデルを用いて, 構造, ヘキサヘドラル, フロー指向のセルを有する体積メッシュを作製する手法を開発した。
提案手法は,センタラインの共通欠陥に対するロバスト性が向上し,最先端手法と比較してメッシュ品質が向上する。
中心線のみに依存するため、血管の形状とトポロジーが血行動態に与える影響を研究するために、血管モデルの編集を無力に行うことができる。
我々は60の脳血管網のデータセットを網羅し,本手法の有効性を実証した。
入力データの難易度にもかかわらず、船の92%と分岐の83%は手動で介入する必要なくメッシュ化された。
ソースコードは公開されている。 Computational fluid dynamics (CFD) simulation provides valuable information on blood flow from the vascular geometry. However, it requires extracting precise models of arteries from low-resolution medical images, which remains challenging. Centerline-based representation is widely used to model large vascular networks with small vessels, as it encodes both the geometric and topological information and facilitates manual editing. In this work, we propose an automatic method to generate a structured hexahedral mesh suitable for CFD directly from centerlines. We addressed both the modeling and meshing tasks. We proposed a vessel model based on penalized splines to overcome the limitations inherent to the centerline representation, such as noise and sparsity. The bifurcations are reconstructed using a parametric model based on the anatomy that we extended to planar n-furcations. Finally, we developed a method to produce a volume mesh with structured, hexahedral, and flow-oriented cells from the proposed vascular network model. The proposed method offers better robustness to the common defects of centerlines and increases the mesh quality compared to state-of-the-art methods. As it relies on centerlines alone, it can be applied to edit the vascular model effortlessly to study the impact of vascular geometry and topology on hemodynamics. We demonstrate the efficiency of our method by entirely meshing a dataset of 60 cerebral vascular networks. 92% of the vessels and 83% of the bifurcations were meshed without defects needing manual intervention, despite the challenging aspect of the input data. The source code is released publicly. | 翻訳日:2023-06-14 18:52:29 公開日:2023-06-13 |
# 交通予測のための時空間ジョイントグラフ畳み込みネットワーク Spatio-Temporal Joint Graph Convolutional Networks for Traffic Forecasting ( http://arxiv.org/abs/2111.13684v3 ) ライセンス: Link先を確認 | Chuanpan Zheng, Xiaoliang Fan, Shirui Pan, Haibing Jin, Zhaopeng Peng, Zonghan Wu, Cheng Wang, Philip S. Yu | (参考訳) 最近の研究は、時空間グラフモデリング問題として、交通予測の定式化に焦点を移している。
通常、彼らは各時間ステップで静的な空間グラフを構築し、各ノードと隣接する時間ステップの間を接続して時空間グラフを作成する。
しかし、このアプローチは異なる時間ステップで異なるノード間の相関を明示的に反映できず、グラフニューラルネットワークの学習能力を制限した。
これらのモデルでは、異なる時間ステップで同じ隣接行列を用いて、ノード間の動的時空間相関を見逃していた。
これらの制約に対処するため,道路網上での正確な交通予測を行うために,時空間共同グラフ畳み込みネットワーク (STJGCN) と呼ばれる新しい手法を提案する。
具体的には,包括的および動的時空間相関を表す2つの時間ステップ間の事前定義と適応時空間ジョイントグラフ(stjgs)の構成について述べる。
さらに,STJG上に拡張因果時空間グラフ畳み込み層を導入し,複数の範囲の異なる視点から時空間依存性を捉える。
異なる範囲の情報を集約するために,多範囲注意機構を提案する。
最後に, 提案手法を5つのパブリックトラフィックデータセットで評価し, 実験結果から, STJGCNは計算効率だけでなく, 11の最先端のベースライン法よりも優れていることを示した。 Recent studies have shifted their focus towards formulating traffic forecasting as a spatio-temporal graph modeling problem. Typically, they constructed a static spatial graph at each time step and then connected each node with itself between adjacent time steps to create a spatio-temporal graph. However, this approach failed to explicitly reflect the correlations between different nodes at different time steps, thus limiting the learning capability of graph neural networks. Additionally, those models overlooked the dynamic spatio-temporal correlations among nodes by using the same adjacency matrix across different time steps. To address these limitations, we propose a novel approach called Spatio-Temporal Joint Graph Convolutional Networks (STJGCN) for accurate traffic forecasting on road networks over multiple future time steps. Specifically, our method encompasses the construction of both pre-defined and adaptive spatio-temporal joint graphs (STJGs) between any two time steps, which represent comprehensive and dynamic spatio-temporal correlations. We further introduce dilated causal spatio-temporal joint graph convolution layers on the STJG to capture spatio-temporal dependencies from distinct perspectives with multiple ranges. To aggregate information from different ranges, we propose a multi-range attention mechanism. Finally, we evaluate our approach on five public traffic datasets and experimental results demonstrate that STJGCN is not only computationally efficient but also outperforms 11 state-of-the-art baseline methods. | 翻訳日:2023-06-14 18:51:53 公開日:2023-06-13 |
# LASSOによるMARS MARS via LASSO ( http://arxiv.org/abs/2111.11694v2 ) ライセンス: Link先を確認 | Dohyeong Ki, Billy Fang, Adityanand Guntuboyina | (参考訳) 多変量適応回帰スプライン(MARS)は、1991年にフリードマンによって導入された非パラメトリック回帰の一般的な方法である。
MARSは単純な非線形および非付加的な関数を回帰データに適合させる。
我々はMARS法の自然なラッソ変種を提案し,研究する。
本手法は,MARSに基づく関数の無限次元線形結合を考慮し,変動に基づく複雑性制約を課すことにより得られる関数の凸クラスに対する最小二乗推定に基づく。
この推定器は有限次元凸最適化によって計算できるが、無限次元最適化問題の解として定義される。
いくつかの標準的な設計仮定の下で、我々の推定器は次元に対数的にのみ依存する収束率を達成し、従ってある程度に次元性の通常の呪いを避ける。
また,本手法はスムーズ性制約に基づく非パラメトリック推定手法と自然に結びついていることを示す。
本手法は,パラメータ選択のためのクロスバリデーション方式を用いて実装し,様々なシミュレーションや実データ設定において通常のMARS法と比較する。 Multivariate adaptive regression splines (MARS) is a popular method for nonparametric regression introduced by Friedman in 1991. MARS fits simple nonlinear and non-additive functions to regression data. We propose and study a natural lasso variant of the MARS method. Our method is based on least squares estimation over a convex class of functions obtained by considering infinite-dimensional linear combinations of functions in the MARS basis and imposing a variation based complexity constraint. Our estimator can be computed via finite-dimensional convex optimization, although it is defined as a solution to an infinite-dimensional optimization problem. Under a few standard design assumptions, we prove that our estimator achieves a rate of convergence that depends only logarithmically on dimension and thus avoids the usual curse of dimensionality to some extent. We also show that our method is naturally connected to nonparametric estimation techniques based on smoothness constraints. We implement our method with a cross-validation scheme for the selection of the involved tuning parameter and compare it to the usual MARS method in various simulation and real data settings. | 翻訳日:2023-06-14 18:51:29 公開日:2023-06-13 |
# DAPPER:不均一なモバイルセンシングのためのパーソナライズ後のラベルなし性能推定 DAPPER: Label-Free Performance Estimation after Personalization for Heterogeneous Mobile Sensing ( http://arxiv.org/abs/2111.11053v2 ) ライセンス: Link先を確認 | Taesik Gong, Yewon Kim, Adiba Orzikulova, Yunxin Liu, Sung Ju Hwang, Jinwoo Shin, Sung-Ju Lee | (参考訳) 多くのアプリケーションはモバイルデバイスのセンサーと機械学習を使って新しいサービスを提供している。
しかし、異なるユーザ、デバイス、環境などの様々な要因がアプリケーションの性能に影響を与えるため、ドメインシフト(トレーニングドメインとターゲットドメイン間の分散シフト)がモバイルセンシングにおいて重要な問題となる。
この困難な問題を解決しようとするドメイン適応の試みにもかかわらず、それらの性能は様々な要因の複雑な相互作用のために信頼できない。
原則として、基幹トラスラベルによる性能検証により、性能の不確実性を識別し、再評価することができる。
しかし、すべてのユーザが高品質で十分なラベル付きデータを収集することは不可能である。
この問題に対処するために,対象領域における適応性能をラベルなしのターゲットデータのみを用いて推定するdapper(domain adaptation performance estimator)を提案する。
我々のキーとなる考え方は、モデル入力と対応する出力の相互情報に基づいてモデル性能を近似することである。
6つのベースラインと比較した4つの実世界のセンシングデータセットによる評価から、DAPPERは平均して、最先端のベースラインを39.8%上回っている。
さらに、デバイス上での実験では、DAPPERはベースラインに比べて計算オーバーヘッドが最大で396倍少ないことが示されている。 Many applications utilize sensors in mobile devices and machine learning to provide novel services. However, various factors such as different users, devices, and environments impact the performance of such applications, thus making the domain shift (i.e., distributional shift between the training domain and the target domain) a critical issue in mobile sensing. Despite attempts in domain adaptation to solve this challenging problem, their performance is unreliable due to the complex interplay among diverse factors. In principle, the performance uncertainty can be identified and redeemed by performance validation with ground-truth labels. However, it is infeasible for every user to collect high-quality, sufficient labeled data. To address the issue, we present DAPPER (Domain AdaPtation Performance EstimatoR) that estimates the adaptation performance in a target domain with only unlabeled target data. Our key idea is to approximate the model performance based on the mutual information between the model inputs and corresponding outputs. Our evaluation with four real-world sensing datasets compared against six baselines shows that on average, DAPPER outperforms the state-of-the-art baseline by 39.8% in estimation accuracy. Moreover, our on-device experiment shows that DAPPER achieves up to 396X less computation overhead compared with the baselines. | 翻訳日:2023-06-14 18:51:12 公開日:2023-06-13 |
# 集中型ゲームにおけるコミットに対する最適プライベートペイオフ操作 Optimal Private Payoff Manipulation against Commitment in Extensive-form Games ( http://arxiv.org/abs/2206.13119v2 ) ライセンス: Link先を確認 | Yurong Chen, Xiaotie Deng, Yuhao Li | (参考訳) 戦略のコミットメント(ゲームプレイの有用な戦術)を利用するには、リーダーはフォロワーの支払い機能に関する十分な情報を学ぶ必要がある。
しかし、これはフォロワーにフェイク情報を提供し、最終ゲーム結果に影響を与える機会を与える。
学習リーダーに誤って報告された注意深い報酬関数を通じて、フォロワーは、真に振る舞うときと比較して、より多くの利益をもたらす結果を引き起こす可能性がある。
広義のゲームにおいて,このような戦略行動を通じて従者の最適操作について検討する。
フォロワーの異なる態度が考慮される。
楽観的なフォロワーは、あるペイオフ関数によって引き起こされる全てのゲーム結果の中で、彼の真の有用性を最大化する。
悲観的なフォロワーは、ユニークなゲーム結果をもたらす誤報のペイオフ機能のみを考慮する。
本稿では,本論文で考慮したすべての設定に対して,成功に導出可能なゲーム結果をすべて特徴付ける。
従者が自己の個人的報酬情報を誤報する最適な方法を見つけることは,多項式時間にかかわることを示す。
我々の研究は、広義のゲームツリー上のこの追従者の最適操作問題を完全に解決する。 To take advantage of strategy commitment, a useful tactic of playing games, a leader must learn enough information about the follower's payoff function. However, this leaves the follower a chance to provide fake information and influence the final game outcome. Through a carefully contrived payoff function misreported to the learning leader, the follower may induce an outcome that benefits him more, compared to the ones when he truthfully behaves. We study the follower's optimal manipulation via such strategic behaviors in extensive-form games. Followers' different attitudes are taken into account. An optimistic follower maximizes his true utility among all game outcomes that can be induced by some payoff function. A pessimistic follower only considers misreporting payoff functions that induce a unique game outcome. For all the settings considered in this paper, we characterize all the possible game outcomes that can be induced successfully. We show that it is polynomial-time tractable for the follower to find the optimal way of misreporting his private payoff information. Our work completely resolves this follower's optimal manipulation problem on an extensive-form game tree. | 翻訳日:2023-06-14 18:44:25 公開日:2023-06-13 |
# 自己監督学習の成功の背後にあるイメージパッチのバグ Bag of Image Patch Embedding Behind the Success of Self-Supervised Learning ( http://arxiv.org/abs/2206.08954v2 ) ライセンス: Link先を確認 | Yubei Chen, Adrien Bardes, Zengyi Li, Yann LeCun | (参考訳) 自己教師付き学習(SSL)は近年,画像表現の学習において極めて経験的な進歩を遂げている。
しかし、そのような表現を学習する背景にある原則に対する我々の理解はまだ限られている。
この研究は、SSLアプローチが主にイメージパッチの表現を学習していることを示している。
このような共起モデルへの接続は正式に確立することができ、一般的な不変性の観点から補うことができる。
画像表現がベースラインメソッドと同等あるいはそれ以上の結果が得られるように,固定規模のパッチの表現を学習し,局所的なパッチ表現を集約できることを実証的に示す。
このプロセスをBagSSLと表現します。
32x32パッチの表現であっても、BagSSLはImageNet上で62%のトップ1線形探索精度を達成した。
一方,マルチスケール事前学習モデルでは,画像全体の埋め込みは局所的なパッチ埋め込みの平均値であることがわかった。
SSL表現はグローバルスケールでは比較的不変であるが,ローカルパッチレベルの表現にズームインすると局所性が保存されることを示す。
さらに,パッチ表現アグリゲーションは,様々なSOTAベースライン手法を大きなマージンで改善できることを示す。
パッチ表現は理解し易く、この研究は自己教師ありの表現学習を解き明かすための一歩となる。 Self-supervised learning (SSL) has recently achieved tremendous empirical advancements in learning image representation. However, our understanding of the principle behind learning such a representation is still limited. This work shows that joint-embedding SSL approaches primarily learn a representation of image patches, which reflects their co-occurrence. Such a connection to co-occurrence modeling can be established formally, and it supplements the prevailing invariance perspective. We empirically show that learning a representation for fixed-scale patches and aggregating local patch representations as the image representation achieves similar or even better results than the baseline methods. We denote this process as BagSSL. Even with 32x32 patch representation, BagSSL achieves 62% top-1 linear probing accuracy on ImageNet. On the other hand, with a multi-scale pretrained model, we show that the whole image embedding is approximately the average of local patch embeddings. While the SSL representation is relatively invariant at the global scale, we show that locality is preserved when we zoom into local patch-level representation. Further, we show that patch representation aggregation can improve various SOTA baseline methods by a large margin. The patch representation is considerably easier to understand, and this work makes a step to demystify self-supervised representation learning. | 翻訳日:2023-06-14 18:44:11 公開日:2023-06-13 |
# 背景知識に整合したマルコフ等価非巡回グラフの計数 Counting Markov Equivalent Directed Acyclic Graphs Consistent with Background Knowledge ( http://arxiv.org/abs/2206.06744v2 ) ライセンス: Link先を確認 | Vidya Sagar Sharma | (参考訳) マルコフ同値類における有向非巡回グラフの数を計算する多項式時間正確なアルゴリズムは、最近Wien\obst, Bannach, Li\'skiewicz (AAAI 2021) によって与えられた。
本稿では,マルコフ同値類における有向非巡回グラフの数を数えるというより一般的な問題について考察する(例えば,介入データが部分的に利用可能である場合など)。
この問題は、初期の研究で複雑性理論上難しいことが示されている。
対照的に、この問題は興味深いインスタンスのクラスにおいて、 ``fixed-parameter tractable'' であることを示すことによって、トラクタブルであることが示される。
特に、我々のカウントアルゴリズムは、多項式の次数が入力として提供される追加エッジの数に依存するようなグラフの大きさの多項式によって境界付けられた時間で実行される。 A polynomial-time exact algorithm for counting the number of directed acyclic graphs in a Markov equivalence class was recently given by Wien\"obst, Bannach, and Li\'skiewicz (AAAI 2021). In this paper, we consider the more general problem of counting the number of directed acyclic graphs in a Markov equivalence class when the directions of some of the edges are also fixed (this setting arises, for example, when interventional data is partially available). This problem has been shown in earlier work to be complexity-theoretically hard. In contrast, we show that the problem is nevertheless tractable in an interesting class of instances, by establishing that it is ``fixed-parameter tractable''. In particular, our counting algorithm runs in time that is bounded by a polynomial in the size of the graph, where the degree of the polynomial does \emph{not} depend upon the number of additional edges provided as input. | 翻訳日:2023-06-14 18:43:50 公開日:2023-06-13 |
# 時間依存型Schr\"{o}ディンガー方程式に対する正確な五角形行列解 An Accurate Pentadiagonal Matrix Solution for the Time-Dependent Schr\"{o}dinger Equation ( http://arxiv.org/abs/2205.13467v3 ) ライセンス: Link先を確認 | Ankit Kumar, and P. Arumugam | (参考訳) 量子力学的時間進化作用素のユニタリ形式の一つはケイリーの近似によって与えられる。
同様の数値的な実装は、ハミルトニアンの第二導関数を三点公式に置き換えることであり、これは線型方程式の三対角系へと繋がる。
本研究では,精度の高い5点ステンシルを用いて,暗黙の五角形クランク・ニコルソンスキームに波動関数を識別する。
結果解は標準解よりはるかに正確であることが証明された。
また, 2成分のウェーブパック力学の解法と, 実験室の観点からの製品状態が, 質量中心から見て製品状態のままであるような条件の導出についても論じた。
これは複雑な二成分力学を2つの独立した単粒子問題に分離するための深い応用である。 One of the unitary forms of the quantum mechanical time evolution operator is given by Cayley's approximation. A numerical implementation of the same involves the replacement of second derivatives in Hamiltonian with the three-point formula, which leads to a tridiagonal system of linear equations. In this work, we invoke the highly accurate five-point stencil to discretize the wave function onto an Implicit-Explicit pentadiagonal Crank-Nicolson scheme. It is demonstrated that the resultant solutions are significantly more accurate than the standard ones. We also discuss the resolution of bipartite wavepacket dynamics and derive conditions under which a product state from the laboratory perspective remains a product state from the center-of-mass point of view. This has profound applications for decoupling complicated bipartite dynamics into two independent single-particle problems. | 翻訳日:2023-06-14 18:43:32 公開日:2023-06-13 |
# 一般化Wigner-Yanaseスキュー情報とアフィリエイト不等式 Generalized Wigner-Yanase Skew Information and the Affiliated Inequality ( http://arxiv.org/abs/2205.06988v2 ) ライセンス: Link先を確認 | Ma-Cheng Yang and Cong-Feng Qiao | (参考訳) 有名なWigner-Yanaseスキュー情報と量子フィッシャー情報とを特別な場合として、スキュー情報量の一群を得る。
一般化されたスキュー情報の凸性の透明な証明が与えられ、ウィグナー・ヤネーゼ・ダイソン予想の単純な証明となる。
本研究では、不確実性関係の情報に対応するものとして、量子ビット系における正確な歪情報不等式を見いだす。
任意の次元における一対の不整合可観測体の一般化スキュー情報に対する下界と、キュービット系に対する上界とを達成する。 A family of skew information quantities is obtained, in which the well-known Wigner-Yanase skew information and quantum Fisher information stand as special cases. A transparent proof of convexity of the generalized skew information is given, implying a simple proof of the Wigner-Yanase-Dyson conjecture. We find in this work an exact skew information inequality for qubit system, which may regard as the information counterpart of the uncertainty relation. A lower bound for generalized skew information of a pair of incompatible observables in arbitrary dimension and also the upper bound for qubit system are achieved. | 翻訳日:2023-06-14 18:43:18 公開日:2023-06-13 |
# 境界トランスフォーマによる任意形状テキスト検出 Arbitrary Shape Text Detection via Boundary Transformer ( http://arxiv.org/abs/2205.05320v3 ) ライセンス: Link先を確認 | Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Xu-Cheng Yin | (参考訳) 任意の形状のテキスト検出では、正確なテキスト境界の特定が困難かつ自明である。
既存の方法は間接的なテキスト境界モデリングや複雑な後処理に悩まされることが多い。
本稿では,任意の形状のテキスト検出のための境界学習による統一された粗粒度フレームワークを体系的に提案する。この方法では,革新的反復的境界変換器を用いてテキスト境界を粗粒度にモデル化する。
このようにして、本手法はテキスト境界を直接取得し、複雑な後処理を放棄して効率を向上することができる。
具体的には,主に特徴抽出バックボーン,境界提案モジュール,反復的に最適化された境界変圧器モジュールから構成される。
多層拡張畳み込みからなる境界提案モジュールは、境界トランスフォーマの最適化を導いながら粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。
境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。
事前情報のガイダンスにより、境界変圧器モジュールは、反復的な境界変形を通じて、粗い境界提案を徐々に洗練する。
さらに, エネルギー最小化制約とエネルギー単調減少制約を導入する新しい境界エネルギー損失(bel)を提案し, 境界細分化の学習をさらに最適化し, 安定化する。
公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。 In arbitrary shape text detection, locating accurate text boundaries is challenging and non-trivial. Existing methods often suffer from indirect text boundary modeling or complex post-processing. In this paper, we systematically present a unified coarse-to-fine framework via boundary learning for arbitrary shape text detection, which can accurately and efficiently locate text boundaries without post-processing.In our method, we explicitly model the text boundary via an innovative iterative boundary transformer in a coarse-to-fine manner. In this way, our method can directly gain accurate text boundaries and abandon complex post-processing to improve efficiency. Specifically, our method mainly consists of a feature extraction backbone, a boundary proposal module, and an iteratively optimized boundary transformer module. The boundary proposal module consisting of multi-layer dilated convolutions will compute important prior information (including classification map, distance field, and direction field) for generating coarse boundary proposals while guiding the boundary transformer's optimization. The boundary transformer module adopts an encoder-decoder structure, in which the encoder is constructed by multi-layer transformer blocks with residual connection while the decoder is a simple multi-layer perceptron network (MLP). Under the guidance of prior information, the boundary transformer module will gradually refine the coarse boundary proposals via iterative boundary deformation. Furthermore, we propose a novel boundary energy loss (BEL) which introduces an energy minimization constraint and an energy monotonically decreasing constraint to further optimize and stabilize the learning of boundary refinement. Extensive experiments on publicly available and challenging datasets demonstrate the state-of-the-art performance and promising efficiency of our method. | 翻訳日:2023-06-14 18:43:06 公開日:2023-06-13 |
# 産業画像の教師なし異常検出アルゴリズムに関する調査研究 A Survey on Unsupervised Anomaly Detection Algorithms for Industrial Images ( http://arxiv.org/abs/2204.11161v4 ) ライセンス: Link先を確認 | Yajie Cui, Zhaoxiang Liu and Shiguo Lian | (参考訳) 産業4.0の発展に伴い、表面欠陥検出・異常検出は産業分野の話題となっている。
近年, 深層学習に基づくアルゴリズムが従来の視覚検査法よりも優れており, 効率の向上, 省力化, 省力化が課題となっている。
既存のディープラーニングベースのアルゴリズムは教師付き学習に偏っているが、これは大量のラベル付きデータと人間の労働を必要とするだけでなく、非効率性と制限をもたらす。
対照的に、最近の研究では、教師なし学習は、上記の視覚産業異常検出の欠点に取り組む上で大きな可能性を秘めている。
本稿では,最近の課題を概説し,イノベーションポイントとフレームワークを詳述した5つのカテゴリをカバーする視覚産業異常検出のための教師なしアルゴリズムについて概説する。
一方,産業的異常検出のための公開データセットも導入されている。
異なる手法のクラスを比較することにより、異常検出アルゴリズムの利点と欠点を要約する。
現在の研究枠組みに基づいて,解決すべき核となる課題を指摘し,さらなる改善の方向性を示す。
一方,最新の技術動向を踏まえ,今後の研究動向について考察する。
より広範かつクロスドメインな視点で研究コミュニティと産業の両方を支援することが期待されている。 In line with the development of Industry 4.0, surface defect detection/anomaly detection becomes a topical subject in the industry field. Improving efficiency as well as saving labor costs has steadily become a matter of great concern in practice, where deep learning-based algorithms perform better than traditional vision inspection methods in recent years. While existing deep learning-based algorithms are biased towards supervised learning, which not only necessitates a huge amount of labeled data and human labor, but also brings about inefficiency and limitations. In contrast, recent research shows that unsupervised learning has great potential in tackling the above disadvantages for visual industrial anomaly detection. In this survey, we summarize current challenges and provide a thorough overview of recently proposed unsupervised algorithms for visual industrial anomaly detection covering five categories, whose innovation points and frameworks are described in detail. Meanwhile, publicly available datasets for industrial anomaly detection are introduced. By comparing different classes of methods, the advantages and disadvantages of anomaly detection algorithms are summarized. Based on the current research framework, we point out the core issue that remains to be resolved and provide further improvement directions. Meanwhile, based on the latest technological trends, we offer insights into future research directions. It is expected to assist both the research community and industry in developing a broader and cross-domain perspective. | 翻訳日:2023-06-14 18:42:04 公開日:2023-06-13 |
# 量子光学から見た動的量子相転移 Dynamical quantum phase transitions from quantum optics perspective ( http://arxiv.org/abs/2204.09454v2 ) ライセンス: Link先を確認 | Jakub Zakrzewski | (参考訳) ロシミト速度特異点の特異点として観測される動的量子相転移は、2レベル系の力学から知られている標準ラビ振動とよく似ていることが示されている。
いくつかの多体系では、この類似性はさらに発展し、例えば、横イジングチェーンで観察される挙動は、そのような単純なダイナミクスに直接マッピングすることができる。
ロシミトエコー特異点と量子スカーとの単純な結びつきが示唆される理由が説明されている。 It is shown that dynamical quantum phase transitions observed as singularities in the Loschmidt rate singularities bear close resemblance to standard Rabi oscillations known from dynamics of two-level systems. For some many-body systems this analogy may go even further and the behaviour observed for e.g. transverse Ising chain can be directly mapped to such simple dynamics. It is explained why A simple link between Loschmidt echo singularities and quantum scars is suggested. | 翻訳日:2023-06-14 18:41:43 公開日:2023-06-13 |
# ベイジアンニューラルネットワークとラベル分布学習を用いた音声認識における終端ラベルの不確かさのモデル化 End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning ( http://arxiv.org/abs/2209.15449v2 ) ライセンス: Link先を確認 | Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkman | (参考訳) 覚醒とヴァレンスの観点から感情表現を予測するために機械学習アルゴリズムをトレーニングするには、注釈付きデータセットが必要である。
しかし、異なる人々が他者の感情表現を異なる形で知覚するので、その注釈は主観的である。
このため、アノテーションは通常、複数のアノテーションから収集され、平均して接頭辞のラベルを取得する。
しかし、この平均的な根拠に基づいてのみ訓練された場合、このモデルは感情表現に固有の主観性に無関係である。
そこで本研究では,主観性に基づくラベルの不確かさを捉えるために,アノテーションの分布を訓練することが可能なエンドツーエンドベイズニューラルネットワークを提案する。
gaussianの代わりに、我々は、利用可能なアノテーションの数も考慮しているstudentのt-distributionを使ってアノテーション分布をモデル化する。
対応するkullback-leiblerの分岐損失を導出し、それを用いて、平均と不確かさを推定できるアノテーション分布の推定子を訓練する。
提案手法は,2つのアプリ内データセットを用いて検証する。
提案手法は,音声感情認識において最先端の不確実性モデリング結果を達成し,企業間評価においても一貫した結果が得られることを示す。
さらに, ガウス分布に対するt分布の利点は, アノテーション間相関の増大と, 利用可能なアノテーション数の減少とともに増大することが明らかとなった。 To train machine learning algorithms to predict emotional expressions in terms of arousal and valence, annotated datasets are needed. However, as different people perceive others' emotional expressions differently, their annotations are subjective. To account for this, annotations are typically collected from multiple annotators and averaged to obtain ground-truth labels. However, when exclusively trained on this averaged ground-truth, the model is agnostic to the inherent subjectivity in emotional expressions. In this work, we therefore propose an end-to-end Bayesian neural network capable of being trained on a distribution of annotations to also capture the subjectivity-based label uncertainty. Instead of a Gaussian, we model the annotation distribution using Student's t-distribution, which also accounts for the number of annotations available. We derive the corresponding Kullback-Leibler divergence loss and use it to train an estimator for the annotation distribution, from which the mean and uncertainty can be inferred. We validate the proposed method using two in-the-wild datasets. We show that the proposed t-distribution based approach achieves state-of-the-art uncertainty modeling results in speech emotion recognition, and also consistent results in cross-corpora evaluations. Furthermore, analyses reveal that the advantage of a t-distribution over a Gaussian grows with increasing inter-annotator correlation and a decreasing number of annotations available. | 翻訳日:2023-06-14 18:34:31 公開日:2023-06-13 |
# ソフトバリアによるハード制約の強化:未知確率環境における安全強化学習 Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments ( http://arxiv.org/abs/2209.15090v3 ) ライセンス: Link先を確認 | Yixuan Wang, Simon Sinong Zhan, Ruochen Jiao, Zhilu Wang, Wanxin Jin, Zhuoran Yang, Zhaoran Wang, Chao Huang, Qi Zhu | (参考訳) システム状態が特定の非安全領域に到達しないことを要求される厳しい制約の下で、未知の確率環境における強化学習(rl)エージェントの安全性を確保することは極めて困難である。
CMDP(Constrained Markov Decision Process)パラダイムに基づくような、多くの一般的な安全なRL手法は、コスト関数の安全性違反を定式化し、しきい値の下で累積コストの期待を制限しようとする。
しかし,このような安全侵害コストの制約を間接的に受け継いで,難到達性に基づく安全制約を効果的に捉えて実施することは困難である。
本研究では,厳密な安全性制約を明示的にエンコードするためにバリア関数という概念を活用し,環境が未知であることを考慮し,それらを \emph{generative-model-based soft barrier function} の設計に緩和する。
このようなソフトバリアに基づき,安全確率最適化により安全でない領域を効果的に回避しつつ,環境を学習し,制御ポリシーを最適化できる安全なrl手法を提案する。
一連の実験により,本手法は安全制約を効果的に適用し,CMDPベースのベースライン法をシミュレーションにより測定したシステム安全率で著しく上回っていることが示された。 It is quite challenging to ensure the safety of reinforcement learning (RL) agents in an unknown and stochastic environment under hard constraints that require the system state not to reach certain specified unsafe regions. Many popular safe RL methods such as those based on the Constrained Markov Decision Process (CMDP) paradigm formulate safety violations in a cost function and try to constrain the expectation of cumulative cost under a threshold. However, it is often difficult to effectively capture and enforce hard reachability-based safety constraints indirectly with such constraints on safety violation costs. In this work, we leverage the notion of barrier function to explicitly encode the hard safety constraints, and given that the environment is unknown, relax them to our design of \emph{generative-model-based soft barrier functions}. Based on such soft barriers, we propose a safe RL approach that can jointly learn the environment and optimize the control policy, while effectively avoiding unsafe regions with safety probability optimization. Experiments on a set of examples demonstrate that our approach can effectively enforce hard safety constraints and significantly outperform CMDP-based baseline methods in system safe rate measured via simulations. | 翻訳日:2023-06-14 18:34:07 公開日:2023-06-13 |
# 拡散に基づく生成モデルによる音声強調とデバーベレーション Speech Enhancement and Dereverberation with Diffusion-based Generative Models ( http://arxiv.org/abs/2208.05830v2 ) ライセンス: Link先を確認 | Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann | (参考訳) 本稿では,これまでの論文をもとに,拡散型生成モデルを用いて音声強調を行う。
本稿では,確率微分方程式に基づく拡散過程の詳細な概観と,その意義に関する広範な理論的考察について述べる。
通常の条件生成タスクに対して、純粋なガウス雑音から逆処理を開始するのではなく、うるさい音声とガウス雑音の混合から始める。
これは、漂流語を含むことによって、清潔な音声から騒々しい音声へと移動する我々の前処理と一致する。
この手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
ネットワークアーキテクチャを適応させることで、音声強調性能を大幅に改善することができ、フォーマリズムではなくネットワークが元のアプローチの主な限界であったことを示す。
広範なクロスデータセット評価において,改良された手法は,近年の識別モデルと競合し,訓練用と異なるコーパス上で評価する場合の一般化が向上することを示す。
提案手法は,実世界のノイズ記録を用いたインストゥルメンタル評価と,提案手法が最良であるリスニング実験で補完する。
逆過程を解くために異なるサンプル構成を調べることで,提案手法の性能と計算速度のバランスをとることができる。
さらに,提案手法は残響の除去にも適しており,付加的な背景雑音除去に限らないことを示す。
コードとオーディオの例はオンラインで入手できる(https://github.com/sp-uhh/sgmse)。 In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse | 翻訳日:2023-06-14 18:33:13 公開日:2023-06-13 |
# 開量子系の制御における非ユニタリ対ユニタリ最適化 Non-unitary versus unitary optimization in the control of open quantum systems ( http://arxiv.org/abs/2208.03114v2 ) ライセンス: Link先を確認 | Marllos E. Fonseca, Felipe F. Fanchini, Emanuel F. de Lima, and Leonardo K. Castelano | (参考訳) 本研究では,開量子システムにおけるkrotov法の性能と閉量子システムにおけるkrotov法(ユニタリ最適化)との比較を行い,クビットやクトリットを環境下で操作するための最適制御について検討した。
ユニタリ最適化の場合、krotov法は、環境との相互作用を無視する量子システムに適用され、その後、環境ノイズとともにシステムを操作するために制御が使用される。
我々は、与えられた初期状態からの目標状態の準備と量子ゲートの実装の2つの異なる制御問題を考える。
状態準備のために、[ have ] は、非ユニタリ最適化から得られる制御の性能が、ユニタリ最適化から得られる制御よりも優れていることを見出した。
しかし、量子ゲートの実装の場合、ユニタリ進化から得られる最適制御は、非ユニタリ進化から得られるものと同様の平均忠実性を示すことが判明した。
ユニタリ最適化は減衰率や特定のノイズには依存しないため、計算量が少なくなるため、オープン量子システムにおいて量子ゲートを実装するための現在のベストプラクティスはユニタリ最適化を採用することであることが示唆された。 In this work, we compare the performance of the Krotov method for open quantum systems (non-unitary optimization) with the Krotov method for closed quantum systems (unitary optimization) in finding optimal controls aimed at manipulating qubits and qutrits in the presence of the environment. In the case of unitary optimization, the Krotov method is applied to quantum system neglecting its interaction with the environment, afterwards the resulting controls are used to manipulate the system along with the eviromental noise. We consider two distinct control problems: target-state preparation from a given initial state and quantum gate implementation. For the state preparation, we {have found that the performance of the controls obtained from the non-unitary optimization outperform that of the controls obtained from the unitary optimization}. {However, in the case of the implementation of quantum gates, we have found that the optimal controls obtained from the unitary evolution exhibit a mean fidelity similar to that obtained from the non-unitary evolution. Since unitary optimization does not depend on decay rates nor on specific kinds of noise, besides being less computationally demanding, our results suggest that the best current practice to implement quantum gates in open quantum systems is to employ unitary optimization. | 翻訳日:2023-06-14 18:32:49 公開日:2023-06-13 |
# 課題の生涯における知識の再利用と構成方法:連続学習と機能構成に関する調査 How to Reuse and Compose Knowledge for a Lifetime of Tasks: A Survey on Continual Learning and Functional Composition ( http://arxiv.org/abs/2207.07730v2 ) ライセンス: Link先を確認 | Jorge A. Mendez and Eric Eaton | (参考訳) 人工知能(AI)の主な目標は、世界の一般的な理解を得ることができるエージェントを作ることである。
そのようなエージェントは、新しい経験に遭遇すると、その知識を継続的に蓄積し、構築する能力を必要とします。
生涯的あるいは継続的な学習はこの設定に対処し、エージェントは継続的な問題の流れに直面し、遭遇する各新しいタスクの解決に必要な知識を捉えなければならない。
エージェントが何らかの構成表現の形で知識を蓄積できるならば、関連する知識を選択的に再利用し、組み合わせて新しいソリューションを構築することができる。
この単純なアイデアの直感的な魅力にもかかわらず、生涯学習と作曲学習に関する文学はほとんど別々に進んできた。
本稿は,両分野間の橋渡しの進展を促進するため,それぞれの研究景観を調査し,その現状と今後の関係について考察する。 A major goal of artificial intelligence (AI) is to create an agent capable of acquiring a general understanding of the world. Such an agent would require the ability to continually accumulate and build upon its knowledge as it encounters new experiences. Lifelong or continual learning addresses this setting, whereby an agent faces a continual stream of problems and must strive to capture the knowledge necessary for solving each new task it encounters. If the agent is capable of accumulating knowledge in some form of compositional representation, it could then selectively reuse and combine relevant pieces of knowledge to construct novel solutions. Despite the intuitive appeal of this simple idea, the literatures on lifelong learning and compositional learning have proceeded largely separately. In an effort to promote developments that bridge between the two fields, this article surveys their respective research landscapes and discusses existing and future connections between them. | 翻訳日:2023-06-14 18:32:05 公開日:2023-06-13 |
# UIILD:Intelligent Tutoringシステムのための統合解釈可能な知能学習診断フレームワーク UIILD: A Unified Interpretable Intelligent Learning Diagnosis Framework for Intelligent Tutoring Systems ( http://arxiv.org/abs/2207.03122v3 ) ライセンス: Link先を確認 | Zhifeng Wang, Wenxing Yan, Chunyan Zeng, Shi Dong | (参考訳) 知的学習診断は知的学習システムの重要なエンジンであり、学習者の現在の知識熟達状態を推定し、将来の学習性能を予測することを目的としている。
従来の学習診断法における重要な課題は、診断精度と解釈可能性のバランスが取れないことである。
既存の心理計測に基づく学習診断手法は認知パラメータによるいくつかのドメイン解釈を提供するが、大規模学習データのための浅い構造を持つモデリング能力が不十分である。
深層学習に基づく学習診断手法は、学習性能予測の精度を向上させる一方で、その固有のブラックボックス特性は、解釈可能性の欠如を招き、その結果を教育的応用には信頼できないものにしている。
この問題を解決するため,深層学習の強力な表現学習能力と心理メトリクスの解釈可能性の恩恵を受ける統合的解釈可能な知的学習診断(UIILD)フレームワークは,学習予測の優れた性能を実現し,認知パラメータ,学習者-資源応答ネットワーク,自己認識機構の重みという3つの側面から解釈可能性を提供する。
本稿では,2チャンネル学習診断機構 LDM-ID と3チャンネル学習診断機構 LDM-HMI を提案する。
実世界の2つのデータセットとシミュレーションデータセットを用いた実験により,本手法は,最先端モデルと比較して学習者のパフォーマンス予測において高い精度を示し,知的学習システムにおける正確な学習資源推薦やパーソナライズされた学習指導といった応用に有用な教育的解釈性を提供することができる。 Intelligent learning diagnosis is a critical engine of intelligent tutoring systems, which aims to estimate learners' current knowledge mastery status and predict their future learning performance. The significant challenge with traditional learning diagnosis methods is the inability to balance diagnostic accuracy and interpretability. Although the existing psychometric-based learning diagnosis methods provide some domain interpretation through cognitive parameters, they have insufficient modeling capability with a shallow structure for large-scale learning data. While the deep learning-based learning diagnosis methods have improved the accuracy of learning performance prediction, their inherent black-box properties lead to a lack of interpretability, making their results untrustworthy for educational applications. To settle the above problem, the proposed unified interpretable intelligent learning diagnosis (UIILD) framework, which benefits from the powerful representation learning ability of deep learning and the interpretability of psychometrics, achieves a better performance of learning prediction and provides interpretability from three aspects: cognitive parameters, learner-resource response network, and weights of self-attention mechanism. Within the proposed framework, this paper presents a two-channel learning diagnosis mechanism LDM-ID as well as a three-channel learning diagnosis mechanism LDM-HMI. Experiments on two real-world datasets and a simulation dataset show that our method has higher accuracy in predicting learners' performances compared with the state-of-the-art models, and can provide valuable educational interpretability for applications such as precise learning resource recommendation and personalized learning tutoring in intelligent tutoring systems. | 翻訳日:2023-06-14 18:31:40 公開日:2023-06-13 |
# コード生成モデルにおけるオフラインメトリクスと人的価値判断の整合 Aligning Offline Metrics and Human Judgments of Value for Code Generation Models ( http://arxiv.org/abs/2210.16494v2 ) ライセンス: Link先を確認 | Victor Dibia, Adam Fourney, Gagan Bansal, Forough Poursabzi-Sangdeh, Han Liu and Saleema Amershi | (参考訳) 大規模な言語モデルは、プログラマがコードを生成するのを助ける素晴らしい可能性を示しています。
このような人間とAIのペアプログラミングのシナリオでは、生成されたコードは機能的正確性(例えば、世代が単体テストに合格するかどうか)の観点から最もよく評価されるが、正確性は、これらのモデルが提供する生産性の向上を十分に捉えていない(例えば、過小評価されるかもしれない)ことを実証的に示す。
N = 49の経験豊富なプログラマによるユーザスタディを通じて、正確さは高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを評価する。
最後に,機能的正しさと構文的類似性を組み合わせたハイブリッドメトリクスを提案し,価値と14%の相関性を実現し,モデルの評価と比較において実世界の利益をよりよく表現できることを示す。 Large language models have demonstrated great potential to assist programmers in generating code. For such human-AI pair programming scenarios, we empirically demonstrate that while generated code is most often evaluated in terms of their functional correctness (i.e., whether generations pass available unit tests), correctness does not fully capture (e.g., may underestimate) the productivity gains these models may provide. Through a user study with N = 49 experienced programmers, we show that while correctness captures high-value generations, programmers still rate code that fails unit tests as valuable if it reduces the overall effort needed to complete a coding task. Finally, we propose a hybrid metric that combines functional correctness and syntactic similarity and show that it achieves a 14% stronger correlation with value and can therefore better represent real-world gains when evaluating and comparing models. | 翻訳日:2023-06-14 18:26:11 公開日:2023-06-13 |
# SGDの最適高速化のためのフレッター高速スケーリングモーメント Flatter, faster: scaling momentum for optimal speedup of SGD ( http://arxiv.org/abs/2210.16400v2 ) ライセンス: Link先を確認 | Aditya Cowsik, Tankut Can and Paolo Glorioso | (参考訳) 一般的な最適化アルゴリズムは、良い一般化と速い訓練時間の間のトレードオフを示すことが多い。
例えば、確率勾配降下(SGD)は良い一般化をする傾向があるが、適応勾配法はより優れた訓練時間を持つ。
モメンタムはSGDでのトレーニングを加速するのに役立つが、今のところ運動量ハイパーパラメータを選択するための原則的な方法はない。
本稿では,過パラメータニューラルネットワークの学習におけるラベル雑音と運動量との相互作用から生じるトレーニングダイナミクスについて検討する。
学習速度で1-\beta$の運動量ハイパーパラメータを最大2/3ドルのパワーにスケールすることは、一般化を犠牲にすることなく、トレーニングを最大加速する。
この結果を分析的に導出するため、我々はアーキテクチャ非依存の枠組みを開発し、大域的最小値の退化多様体の存在を主前提とした。
トレーニングダイナミクスは、ハイパーパラメータのジェネリック値によく分離された2つの特徴的なタイムスケールの出現を表示する。
これら2つのタイムスケールが一致すると、トレーニングの最大加速が達成され、その結果、我々が提案するスケーリング制限が決定される。
我々は、合成回帰問題(行列センシングと教師-学生パラダイム)のスケーリングルールと現実的なデータセットの分類(CIFAR10のResNet-18、FashionMNISTの6層MLP)を確認し、アーキテクチャやデータセットの変動に対するスケーリングルールの堅牢性を提案する。 Commonly used optimization algorithms often show a trade-off between good generalization and fast training times. For instance, stochastic gradient descent (SGD) tends to have good generalization; however, adaptive gradient methods have superior training times. Momentum can help accelerate training with SGD, but so far there has been no principled way to select the momentum hyperparameter. Here we study training dynamics arising from the interplay between SGD with label noise and momentum in the training of overparametrized neural networks. We find that scaling the momentum hyperparameter $1-\beta$ with the learning rate to the power of $2/3$ maximally accelerates training, without sacrificing generalization. To analytically derive this result we develop an architecture-independent framework, where the main assumption is the existence of a degenerate manifold of global minimizers, as is natural in overparametrized models. Training dynamics display the emergence of two characteristic timescales that are well-separated for generic values of the hyperparameters. The maximum acceleration of training is reached when these two timescales meet, which in turn determines the scaling limit we propose. We confirm our scaling rule for synthetic regression problems (matrix sensing and teacher-student paradigm) and classification for realistic datasets (ResNet-18 on CIFAR10, 6-layer MLP on FashionMNIST), suggesting the robustness of our scaling rule to variations in architectures and datasets. | 翻訳日:2023-06-14 18:25:53 公開日:2023-06-13 |
# 部分集合被覆問題の量子セキュリティ Quantum security of subset cover problems ( http://arxiv.org/abs/2210.15396v2 ) ライセンス: Link先を確認 | Samuel Bouaziz--Ermann, Alex B. Grilo and Damien Vergnaud | (参考訳) k \geq 1$ハッシュ関数に対する部分被覆問題は、衝突問題の延長と見なすことができ、2002年にレイジンとレイジンによってハッシュ関数に基づく署名スキームHORSの安全性を解析するために導入された。
多くのハッシュベースのシグネチャスキームのセキュリティはこの問題またはこの問題の変種に依存する(例えば、HORS、SPHINCS、SPHINCS+、$\dots$)。
近年,Yuan,Tibouchi,Abe (2022) は,制限部分被覆と呼ばれる部分被覆問題の変種を導入し,この問題に対する量子アルゴリズムを提案した。
この研究では、任意の量子アルゴリズムが$\omega\left((k+1)^{-\frac{2^{k}}{2^{k+1}-1}}\cdot n^{\frac{2^{k}-1}{2^{k+1}-1}}\right)$ n^{\frac{2^{k}-1}{2^{k+1}-1}}\cdot n^{\frac{2^{k}-1}{2^{k+1}-1}}\cdot n^{\frac{2^{k}-1}{2^{k+1}-1}}\right) を、制限付き部分被覆問題を解くために$n$ とすることを証明する。
また、一般的な$(r,k)$-subsetカバー問題のセキュリティも分析する。これは、$r$-chosenメッセージアタック($r \geq 1$)下でのHORSの偽造性を示す根底にある問題である。
一般的な量子アルゴリズムでは、基礎となるハッシュ関数に対して$\Omega\left(N^{k/5}\right)$クエリを行い、1,k)$-subsetのカバーを見つける必要がある。
また、$(r,k)$-subset 被覆を見つけ、$o\left(n^{k/(2+2r)}\right)$クエリを$k$ハッシュ関数に生成する量子アルゴリズムを提案する。 The subset cover problem for $k \geq 1$ hash functions, which can be seen as an extension of the collision problem, was introduced in 2002 by Reyzin and Reyzin to analyse the security of their hash-function based signature scheme HORS. The security of many hash-based signature schemes relies on this problem or a variant of this problem (e.g. HORS, SPHINCS, SPHINCS+, $\dots$). Recently, Yuan, Tibouchi and Abe (2022) introduced a variant to the subset cover problem, called restricted subset cover, and proposed a quantum algorithm for this problem. In this work, we prove that any quantum algorithm needs to make $\Omega\left((k+1)^{-\frac{2^{k}}{2^{k+1}-1}}\cdot N^{\frac{2^{k}-1}{2^{k+1}-1}}\right)$ queries to the underlying hash functions with codomain size $N$ to solve the restricted subset cover problem, which essentially matches the query complexity of the algorithm proposed by Yuan, Tibouchi and Abe. We also analyze the security of the general $(r,k)$-subset cover problem, which is the underlying problem that implies the unforgeability of HORS under a $r$-chosen message attack (for $r \geq 1$). We prove that a generic quantum algorithm needs to make $\Omega\left(N^{k/5}\right)$ queries to the underlying hash functions to find a $(1,k)$-subset cover. We also propose a quantum algorithm that finds a $(r,k)$-subset cover making $O\left(N^{k/(2+2r)}\right)$ queries to the $k$ hash functions. | 翻訳日:2023-06-14 18:25:25 公開日:2023-06-13 |
# 注意に基づく物理システムのモデリング--潜在表現の改善 Attention-based Modeling of Physical Systems: Improved Latent Representations ( http://arxiv.org/abs/2210.11269v5 ) ライセンス: Link先を確認 | Arnaud Pannatier, Kyle Matoba, Fran\c{c}ois Fleuret | (参考訳) 本稿では,様々な場所における関連する測定値に基づく任意の空間点における量の注意に基づくモデル化を提案する。
提案手法では,コンバータエンコーダを用いて計測と読み出し位置の処理を行う。
注意に基づくモデルはドメイン間で優れたパフォーマンスを示し、空間で不規則にサンプリングされたデータをモデリングする興味深い候補となる。
計測と読み出しの位置に同じ変換を適用する新しい符号化戦略を導入し, 2つの異なるマッピングに依存するのではなく, 符号化された測定値と組み合わせる。
不規則な空間データから入出力マッピングを効率的に学習することは、物理現象のモデリングにおける基本的な課題である。
本モデルの有効性を評価するため,高高度風速流,2日間の天気予報,流体力学,熱拡散などの諸問題領域の実験を行った。
我々の注意に基づくモデルは、不規則にサンプリングされたデータをモデリングするために、グラフ要素ネットワークや条件付きニューラルプロセスのような最先端モデルよりも一貫して優れている。
特に,風速計の根平均二乗誤差(RMSE)を低減し,9.24から7.98に改善し,熱拡散タスクを.126から.084に改善した。
この優れた性能は、潜在表現の柔軟性の向上と改良されたデータエンコーディング技術に起因すると仮定した。
仮説を支持するために,代替モデルの潜在表現における過度なボトルネックを明らかにする合成実験を設計し,情報利用を阻害し,学習を阻害する。 We propose attention-based modeling of quantities at arbitrary spatial points conditioned on related measurements at different locations. Our approach adapts a transformer-encoder to process measurements and read-out positions together. Attention-based models exhibit excellent performance across domains, which makes them an interesting candidate for modeling data irregularly sampled in space. We introduce a novel encoding strategy that applies the same transformation to the measurements and read-out positions, after which they are combined with encoded measurement values instead of relying on two different mappings. Efficiently learning input-output mappings from irregularly-spaced data is a fundamental challenge in modeling physical phenomena. To evaluate the effectiveness of our model, we conduct experiments on diverse problem domains, including high-altitude wind nowcasting, two-days weather forecasting, fluid dynamics, and heat diffusion. Our attention-based model consistently outperforms state-of-the-art models, such as Graph Element Networks and Conditional Neural Processes, for modeling irregularly sampled data. Notably, our model reduces root mean square error (RMSE) for wind nowcasting, improving from 9.24 to 7.98 and for a heat diffusion task from .126 to .084. We hypothesize that this superior performance can be attributed to the enhanced flexibility of our latent representation and the improved data encoding technique. To support our hypothesis, we design a synthetic experiment that reveals excessive bottlenecking in the latent representations of alternative models, which hinders information utilization and impedes training. | 翻訳日:2023-06-14 18:24:22 公開日:2023-06-13 |
# コミュニティ検出におけるインプシットモデル,潜伏圧縮,内在バイアス,安価なランチ Implicit models, latent compression, intrinsic biases, and cheap lunches in community detection ( http://arxiv.org/abs/2210.09186v6 ) ライセンス: Link先を確認 | Tiago P. Peixoto, Alec Kirkley | (参考訳) ネットワークをノードのクラスタに分割して大規模構造を要約することを目的としたコミュニティ検出のタスクは、さまざまな目的を持った多くの競合するアルゴリズムの開発を生み出した。
いくつかのコミュニティ検出手法は予測的であり、確率的生成モデルを通じてクラスタリングの目的を明示的に導出するが、他の手法は記述的であり、特定のアプリケーションによって動機づけられた目的に従ってネットワークを分割する。
本稿では,コミュニティ検出対象,推論対象,記述対象と,それに対応する暗黙的ネットワーク生成モデルとを関連付ける。
これにより、任意の目的の下でネットワークとその分割の記述長を計算し、異なるアルゴリズムのパフォーマンスを「基底真理」ラベルなしで比較するための原則的尺度を提供する。
提案手法は,任意のアルゴリズムに最適なコミュニティ検出問題の事例にもアクセス可能であり,この方法では,一般的な記述手法における固有のバイアスを明らかにし,過度に適合する傾向を説明する。
本フレームワークを用いて,500以上の構造的多様な経験的ネットワークのコーパスと,人工ネットワーク上でのコミュニティ検出手法を比較した。
より表現力のあるコミュニティ検出手法は、より特殊なアルゴリズムが最適に動作する少数の状況において、性能を低下させることなく、構造化データインスタンス上で一貫して優れた圧縮性能を示す。
本研究の結果は,非構造化データインスタンスに限定されているため,概念的にも現実的にも,コミュニティ検出における「無料ランチ」定理の意義を損なうものである。 The task of community detection, which aims to partition a network into clusters of nodes to summarize its large-scale structure, has spawned the development of many competing algorithms with varying objectives. Some community detection methods are inferential, explicitly deriving the clustering objective through a probabilistic generative model, while other methods are descriptive, dividing a network according to an objective motivated by a particular application, making it challenging to compare these methods on the same scale. Here we present a solution to this problem that associates any community detection objective, inferential or descriptive, with its corresponding implicit network generative model. This allows us to compute the description length of a network and its partition under arbitrary objectives, providing a principled measure to compare the performance of different algorithms without the need for "ground truth" labels. Our approach also gives access to instances of the community detection problem that are optimal to any given algorithm, and in this way reveals intrinsic biases in popular descriptive methods, explaining their tendency to overfit. Using our framework, we compare a number of community detection methods on artificial networks, and on a corpus of over 500 structurally diverse empirical networks. We find that more expressive community detection methods exhibit consistently superior compression performance on structured data instances, without having degraded performance on a minority of situations where more specialized algorithms perform optimally. Our results undermine the implications of the "no free lunch" theorem for community detection, both conceptually and in practice, since it is confined to unstructured data instances, unlike relevant community detection problems which are structured by requirement. | 翻訳日:2023-06-14 18:23:58 公開日:2023-06-13 |
# 統一バングラ多クラス感情コーパスのトランスフォーマーによるテキスト分類 Transformer-based Text Classification on Unified Bangla Multi-class Emotion Corpus ( http://arxiv.org/abs/2210.06405v3 ) ライセンス: Link先を確認 | Md Sakib Ullah Sourav, Huidong Wang, Mohammad Sultan Mahmud, Hua Zheng | (参考訳) 本研究では,バングラ語テキストから感情を識別し抽出する手法の完全セットを提案する。
我々は,近年,特に高資源言語において,トランスフォーマーモデルを用いたバングラ語の怒り,嫌悪感,恐怖,悲しみ,驚きの6つのクラスに対する感情分類器を提供する。
統一バングラ・マルチクラス感情コーパス(ubmec)は,モデルの性能を評価するために用いられる。
UBMECは、6つの感情クラスにBanglaコメントの2つの手動ラベル付きデータセットと、私たちが開発した手動ラベル付きBanglaコメントを組み合わせたものだ。
この作業で使用したコーパスデータセットとコードは、公開されています。 In this research, we propose a complete set of approaches for identifying and extracting emotions from Bangla texts. We provide a Bangla emotion classifier for six classes: anger, disgust, fear, joy, sadness, and surprise, from Bangla words using transformer-based models, which exhibit phenomenal results in recent days, especially for high-resource languages. The Unified Bangla Multi-class Emotion Corpus (UBMEC) is used to assess the performance of our models. UBMEC is created by combining two previously released manually labeled datasets of Bangla comments on six emotion classes with fresh manually labeled Bangla comments created by us. The corpus dataset and code we used in this work are publicly available. | 翻訳日:2023-06-14 18:23:30 公開日:2023-06-13 |
# 時変有向ネットワーク上の分散超勾配計算 Decentralized Hyper-Gradient Computation over Time-Varying Directed Networks ( http://arxiv.org/abs/2210.02129v3 ) ライセンス: Link先を確認 | Naoyuki Terashita, Satoshi Hara | (参考訳) 本稿では,分散化フェデレーション学習(FL)における過度勾配推定時の通信問題に対処する。
分散flにおける超勾配は、グローバル共有最適モデルの性能がクライアントのハイパーパラメータの摂動によってどのように影響を受けるかを定量化する。
以前の仕事において、クライアントは静的な無向ネットワーク上のヘッセン行列の通信を通してこの影響を追跡し、その結果、
(i)過度の通信コスト及び
(II)より効率的で堅牢なネットワーク、すなわち時間変化のある有向ネットワークを利用できないこと。
これらの問題を解決するために,モデルパラメータと勾配の平均演算を用いたflの代替最適条件を提案する。
次に,時間変動有向ネットワークのコンセンサス最適化手法である平均演算としてpush-sumを用いる。
その結果、最適条件から導かれる過勾配推定器は2つの望ましい特性を享受できる。
(i)ベクトルのプッシュサム通信のみを必要とする。
(ii)時間変動有向ネットワーク上で動作可能である。
我々は理論上,経験上ともに真のハイパーグレードへの推定器の収束を確認し,時間変動ネットワーク上での分散的影響推定とパーソナライズという2つの新しい応用を可能にすることをさらに実証する。 This paper addresses the communication issues when estimating hyper-gradients in decentralized federated learning (FL). Hyper-gradients in decentralized FL quantifies how the performance of globally shared optimal model is influenced by the perturbations in clients' hyper-parameters. In prior work, clients trace this influence through the communication of Hessian matrices over a static undirected network, resulting in (i) excessive communication costs and (ii) inability to make use of more efficient and robust networks, namely, time-varying directed networks. To solve these issues, we introduce an alternative optimality condition for FL using an averaging operation on model parameters and gradients. We then employ Push-Sum as the averaging operation, which is a consensus optimization technique for time-varying directed networks. As a result, the hyper-gradient estimator derived from our optimality condition enjoys two desirable properties; (i) it only requires Push-Sum communication of vectors and (ii) it can operate over time-varying directed networks. We confirm the convergence of our estimator to the true hyper-gradient both theoretically and empirically, and we further demonstrate that it enables two novel applications: decentralized influence estimation and personalization over time-varying networks. | 翻訳日:2023-06-14 18:22:51 公開日:2023-06-13 |
# SPARF:スパースと雑音場からの神経放射場 SPARF: Neural Radiance Fields from Sparse and Noisy Poses ( http://arxiv.org/abs/2211.11738v3 ) ライセンス: Link先を確認 | Prune Truong and Marie-Julie Rakotosaona and Fabian Manhardt and Federico Tombari | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は近年,フォトリアリスティック・ノベルビューを合成するための強力な表現として登場した。
印象的なパフォーマンスを示す一方で、高い精度のカメラポーズを備えた高密度のインプットビューの可用性に依存しているため、実際のシナリオでの応用は制限される。
本研究ではSPARF(Sparse Pose Adjusting Radiance Field)を導入し,ノイズの多いカメラポーズを付加した広帯域入力画像(以下3以下)の新規ビュー合成の課題に対処する。
本手法では,多視点幾何制約を生かしてnerfを学習し,カメラポーズを洗練する。
入力ビュー間で抽出された画素マッチングを頼りにすることで、多視点対応の目的は最適化シーンを強制し、カメラのポーズをグローバルかつ幾何学的に正確な解に収束させる。
私たちの奥行きの一貫性の喪失は、再構築されたシーンをあらゆる視点から一貫することをさらに促します。
われわれのアプローチは、複数の挑戦的なデータセットに基づいてスパースビュー体制における新しい技術状況を設定する。 Neural Radiance Field (NeRF) has recently emerged as a powerful representation to synthesize photorealistic novel views. While showing impressive performance, it relies on the availability of dense input views with highly accurate camera poses, thus limiting its application in real-world scenarios. In this work, we introduce Sparse Pose Adjusting Radiance Field (SPARF), to address the challenge of novel-view synthesis given only few wide-baseline input images (as low as 3) with noisy camera poses. Our approach exploits multi-view geometry constraints in order to jointly learn the NeRF and refine the camera poses. By relying on pixel matches extracted between the input views, our multi-view correspondence objective enforces the optimized scene and camera poses to converge to a global and geometrically accurate solution. Our depth consistency loss further encourages the reconstructed scene to be consistent from any viewpoint. Our approach sets a new state of the art in the sparse-view regime on multiple challenging datasets. | 翻訳日:2023-06-14 18:14:22 公開日:2023-06-13 |
# 関係対称構造に基づく知識グラフコントラスト学習 Knowledge Graph Contrastive Learning Based on Relation-Symmetrical Structure ( http://arxiv.org/abs/2211.10738v4 ) ライセンス: Link先を確認 | Ke Liang, Yue Liu, Sihang Zhou, Wenxuan Tu, Yi Wen, Xihong Yang, Xiangjun Dong, Xinwang Liu | (参考訳) 知識グラフ埋め込み(KGE)は、強力な表現を学習して様々な人工知能アプリケーションに役立てることを目的としている。
一方、コントラスト学習は、グラフ学習において、学習表現の識別能力を高める効果的なメカニズムとして広く活用されている。
しかし、KG の複素構造は、適切な対照的なペアを構築するのを難しくする。
KGEと対照的な学習戦略を統合する試みはわずかである。
しかし、そのほとんどはグラフ構造に基づく完全なマイニング情報ではなく、対照的なペア構築のために言語モデル(例えばバート)に依存しており、表現能力を妨げる。
驚くべきことに、関係対称構造内の実体は通常類似し相関している。
そこで本研究では,KGEモデルの識別能力を高めるために,KG内の対称構造情報をマイニングするKGE-SymCLを用いた知識グラフ比較学習フレームワークを提案する。
具体的には、関係対称位置の実体を正の対とするプラグアンドプレイ手法を提案する。
さらに、自己教師付きアライメント損失は、正のペアをまとめるように設計されている。
リンク予測とエンティティ分類データセットによる実験結果から,KGE-SymCLは様々なKGEモデルに容易に適用でき,性能が向上することが示された。
さらに、広範な実験により、我々のモデルが他の最先端のベースラインを上回ることができることを示した。 Knowledge graph embedding (KGE) aims at learning powerful representations to benefit various artificial intelligence applications. Meanwhile, contrastive learning has been widely leveraged in graph learning as an effective mechanism to enhance the discriminative capacity of the learned representations. However, the complex structures of KG make it hard to construct appropriate contrastive pairs. Only a few attempts have integrated contrastive learning strategies with KGE. But, most of them rely on language models ( e.g., Bert) for contrastive pair construction instead of fully mining information underlying the graph structure, hindering expressive ability. Surprisingly, we find that the entities within a relational symmetrical structure are usually similar and correlated. To this end, we propose a knowledge graph contrastive learning framework based on relation-symmetrical structure, KGE-SymCL, which mines symmetrical structure information in KGs to enhance the discriminative ability of KGE models. Concretely, a plug-and-play approach is proposed by taking entities in the relation-symmetrical positions as positive pairs. Besides, a self-supervised alignment loss is designed to pull together positive pairs. Experimental results on link prediction and entity classification datasets demonstrate that our KGE-SymCL can be easily adopted to various KGE models for performance improvements. Moreover, extensive experiments show that our model could outperform other state-of-the-art baselines. | 翻訳日:2023-06-14 18:14:02 公開日:2023-06-13 |
# 逆調和振動子の古典量子対応 Classical-quantum correspondence for inverted harmonic oscillator ( http://arxiv.org/abs/2211.10078v2 ) ライセンス: Link先を確認 | Shangyun Wang, Songbai Chen and Jiliang Jing | (参考訳) 逆調和振動子(IHO)系における古典量子対応について検討する。
初期状態がIHO系の任意の位置にある時間外相関器(OTOC)は、サドル点でのEGRと同じ指数的成長速度(EGR)を有し、それらのEGRはサドル点の古典的リアプノフ指数(CLE)の2倍である。
平均光子数とオトックの時間発展を通じて、iho系における古典量子対応は初期系光子数に依存するだけでなく、位相空間における初期状態の中心位置にも依存することを示した。
さらに,フシミQ関数を用いて,OTOCが指数関数的に増大する際の量子ウェーブパケットを可視化する。 We investigate the classical-quantum correspondence in the inverted harmonic oscillator (IHO) system. It is shown that the out-of-time-order correlators (OTOCs) which the initial states are located at any position in the IHO system possess the same exponential growth rates (EGRs) as that at the saddle point, and their EGRs are twice the classical lyapunov exponent (CLE) of the saddle point. Through the time evolution of mean photon number and the OTOCs, we exhibit that the classical-quantum correspondence in the IHO system not only depends on the initial system photon number, but also on the central positions of the initial states in the phase space. Moreover, we use the Husimi Q function to visualize the quantum wave packets during the OTOCs grow exponentially. | 翻訳日:2023-06-14 18:13:42 公開日:2023-06-13 |
# 量子ハードウェア上での繰り返し測定による部分的および無限温度熱化の観測 Observation of partial and infinite-temperature thermalization induced by repeated measurements on a quantum hardware ( http://arxiv.org/abs/2211.07444v2 ) ライセンス: Link先を確認 | Alessandro Santini, Andrea Solfanelli, Stefano Gherardini and Guido Giachetti | (参考訳) 量子超伝導プロセッサ上では、ユニタリ(ハミルトニアン)進化によって交差する反復量子射影観測のシーケンスによって引き起こされる部分的および無限温度の熱化を観測する。
具体的には、量子ビット系と2量子ビット系において、ハミルトニアンの非可換性と測定可観測性に応じて、多数の量子測定の限界内で監視された量子系の状態収束をテストする。
ハミルトニアンとオブザーバブルが可換でないとき、収束は無限温度状態に向かって一様である。
逆に、2つの作用素がスペクトル分解において1つ以上の固有ベクトルを持つとき、観測された系の状態は測定可能な固有状態によって広がる部分空間に異なる収束する。
その結果、収束は完全な混合状態(無限温度)ではなく、観測可能な基底のブロック対角状態となり、各測定部分空間において有限有効温度となることが示された。
最後に,量子チャネルを非分極化することにより,量子ハードウェアノイズがデータに与える影響をモデル化することで定量化する。 On a quantum superconducting processor we observe partial and infinite-temperature thermalization induced by a sequence of repeated quantum projective measurements, interspersed by a unitary (Hamiltonian) evolution. Specifically, on a qubit and two-qubit systems, we test the state convergence of a monitored quantum system in the limit of a large number of quantum measurements, depending on the non-commutativity of the Hamiltonian and the measurement observable. When the Hamiltonian and observable do not commute, the convergence is uniform towards the infinite-temperature state. Conversely, whenever the two operators have one or more eigenvectors in common in their spectral decomposition, the state of the monitored system converges differently in the subspaces spanned by the measurement observable eigenstates. As a result, we show that the convergence does not tend to a completely mixed (infinite-temperature) state, but to a block-diagonal state in the observable basis, with a finite effective temperature in each measurement subspace. Finally, we quantify the effects of the quantum hardware noise on the data by modelling them by means of depolarizing quantum channels. | 翻訳日:2023-06-14 18:13:26 公開日:2023-06-13 |
# ハイパーグラフに基づく機械学習アンサンブルネットワーク侵入検知システム A Hypergraph-Based Machine Learning Ensemble Network Intrusion Detection System ( http://arxiv.org/abs/2211.03933v2 ) ライセンス: Link先を確認 | Zong-Zhi Lin, Thomas D. Pike, Mark M. Bailey, Nathaniel D. Bastian | (参考訳) 悪意のある攻撃を検出するネットワーク侵入検知システム(NIDS)は、引き続き課題に対処している。
nidは、自動生成されたポートスキャンの浸透の試みに直面している間にオフラインで開発されることが多い。
これらの課題に対処するために、インターネットプロトコルアドレスと宛先ポートに焦点を当てたハイパーグラフを使用して、ポートスキャン攻撃の進化パターンをキャプチャします。
派生したhypergraphベースのメトリクスセットは、アンサンブル機械学習(ml)ベースのnidをトレーニングするために使用され、ポートスキャンアクティビティの監視と検出、他のタイプの攻撃、高精度、正確性、リコールパフォーマンスの逆侵入のリアルタイム適応を可能にする。
このML適応型NIDSは,(1)侵入事例,(2)NIDS更新規則,(3)NIDS再トレーニング要求を起動するための攻撃しきい値選択,(4)ネットワークトラフィックの性質を事前に把握していない生産環境の組み合わせによって開発された。
40のシナリオが自動生成され、3つのツリーベースモデルからなるMLアンサンブルNIDSを評価する。
結果のML Ensemble NIDSは拡張され、CIC-IDS2017データセットで評価された。
その結果、更新全nidルール(特に3つのモデルを同じnid再トレーニング要求で再トレーニングおよび更新する)のモデル設定下で、提案されたmlアンサンブルnidはインテリジェントに進化し、シミュレーションを通して100%近い検出性能を持つ最高の結果を生み出した。 Network intrusion detection systems (NIDS) to detect malicious attacks continue to meet challenges. NIDS are often developed offline while they face auto-generated port scan infiltration attempts, resulting in a significant time lag from adversarial adaption to NIDS response. To address these challenges, we use hypergraphs focused on internet protocol addresses and destination ports to capture evolving patterns of port scan attacks. The derived set of hypergraph-based metrics are then used to train an ensemble machine learning (ML) based NIDS that allows for real-time adaption in monitoring and detecting port scanning activities, other types of attacks, and adversarial intrusions at high accuracy, precision and recall performances. This ML adapting NIDS was developed through the combination of (1) intrusion examples, (2) NIDS update rules, (3) attack threshold choices to trigger NIDS retraining requests, and (4) a production environment with no prior knowledge of the nature of network traffic. 40 scenarios were auto-generated to evaluate the ML ensemble NIDS comprising three tree-based models. The resulting ML Ensemble NIDS was extended and evaluated with the CIC-IDS2017 dataset. Results show that under the model settings of an Update-ALL-NIDS rule (specifically retrain and update all the three models upon the same NIDS retraining request) the proposed ML ensemble NIDS evolved intelligently and produced the best results with nearly 100% detection performance throughout the simulation. | 翻訳日:2023-06-14 18:13:08 公開日:2023-06-13 |
# グループカウント確率を用いたgbs量子コンピュータの検証試験 Validation tests for GBS quantum computers using grouped count probabilities ( http://arxiv.org/abs/2211.03480v4 ) ライセンス: Link先を確認 | Alexander S. Dellios, Bogdan Opanchuk, Margaret D. Reid and Peter D. Drummond | (参考訳) 計算の検証は全ての大規模量子コンピュータにとって不可欠である。
高速で正確なコンピュータが必要だ。
ここでは,大規模ガウスボソンサンプリング(GBS)量子コンピュータのデータに対して,高精度でスケーラブルで高次な統計的テストを適用する。
これらのテストは、そのような技術の出力結果を検証するために使用することができる。
本手法は、精度と量子アドバンテージの検証を可能にする。
このような問題は、これまで詳しくは調査されていない。
高度にスケーラブルな手法は線形ボソニックネットワークの他の応用にも応用できる。
我々は、多モードデータ検証のための指紋として、グループカウント確率(GCP)の正P位相空間シミュレーションを利用する。
これはサンプリングエラーがはるかに少ないため、他の位相空間法よりも指数関数的に効率的である。
指数関数的に多くの高次グループカウントテストからランダムにテストを生成する。
これらのそれぞれを効率的に測定し、シミュレートし、古典的に複製できない量子検証法を提供する。
理論を144チャンネルのgbs実験と詳細に比較し,最大値までの相関を分類した。
偽データを無効にする方法を示し、これを古典的なカウントアルゴリズムに適用する。
分布の忠実度と計算複雑性を評価するための複数の距離測度がある。
これらを計算して説明する。
データに最も適しているのは部分的に熱化されたガウスモデルであり、これは理想的なケースでも古典的に計算可能な数を与えるモデルでもない。
熱処理モデルを用いても,幾らかの$\chi^{2}$テストからZ>100$の差が見られ,パラメータ推定誤差が示唆された。
総数分布は古典モデルよりも熱化された量子モデルに非常に近いため、量子計算の利点を部分的に証明した。 Computational validation is vital for all large-scale quantum computers. One needs computers that are both fast and accurate. Here we apply precise, scalable, high order statistical tests to data from large Gaussian boson sampling (GBS) quantum computers that claim quantum computational advantage. These tests can be used to validate the output results for such technologies. Our method allows investigation of accuracy as well as quantum advantage. Such issues have not been investigated in detail before. Our highly scalable technique is also applicable to other applications of linear bosonic networks. We utilize positive-P phase-space simulations of grouped count probabilities (GCP) as a fingerprint for verifying multi-mode data. This is exponentially more efficient than other phase-space methods, due to much lower sampling errors. We randomly generate tests from exponentially many high-order, grouped count tests. Each of these can be efficiently measured and simulated, providing a quantum verification method that is non-trivial to replicate classically. We give a detailed comparison of theory with a 144-channel GBS experiment, including grouped correlations up to the largest order measured. We show how one can disprove faked data, and apply this to a classical count algorithm. There are multiple distance measures for evaluating the fidelity and computational complexity of a distribution. We compute these and explain them. The best fit to the data is a partly thermalized Gaussian model, which is neither the ideal case, nor the model that gives classically computable counts. Even with a thermalized model, discrepancies of $Z>100$ were observed from some $\chi^{2}$ tests, indicating likely parameter estimation errors. Total count distributions were much closer to a thermalized quantum model than the classical model, giving partial evidence for quantum computational advantage. | 翻訳日:2023-06-14 18:12:39 公開日:2023-06-13 |
# 不均一因果効果推定のためのモデル選択の実証分析 Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation ( http://arxiv.org/abs/2211.01939v2 ) ライセンス: Link先を確認 | Divyat Mahajan, Ioannis Mitliagkas, Brady Neal, Vasilis Syrgkanis | (参考訳) 因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果が観察されないため、クロスバリデーションの完全な類似は存在しない。
これに向けて,本論文では,観測データから推定される補助ニュアンスモデル(確率スコアモデル,結果回帰モデル)に依存する,さまざまなプロキシ指標が提案されている。
しかしながら、これらの指標の有効性は、合成データセット上でのみ研究されており、それらに対する反事実データにアクセスすることができる。
文献で導入したこれらの指標と,本研究で導入した新しい指標のパフォーマンスを判定するために,広範な実証分析を行い,生成モデルの最新技術を活用して,複数の現実的データセットを組み込む。
本稿では,CATE推定器の注意的ハイパーパラメータチューニングと因果アンサンブルに基づく新しいモデル選択手法を提案する。 We study the problem of model selection in causal inference, specifically for the case of conditional average treatment effect (CATE) estimation under binary treatments. Unlike model selection in machine learning, there is no perfect analogue of cross-validation as we do not observe the counterfactual potential outcome for any data point. Towards this, there have been a variety of proxy metrics proposed in the literature, that depend on auxiliary nuisance models estimated from the observed data (propensity score model, outcome regression model). However, the effectiveness of these metrics has only been studied on synthetic datasets as we can access the counterfactual data for them. We conduct an extensive empirical analysis to judge the performance of these metrics introduced in the literature, and novel ones introduced in this work, where we utilize the latest advances in generative modeling to incorporate multiple realistic datasets. Our analysis suggests novel model selection strategies based on careful hyperparameter tuning of CATE estimators and causal ensembling. | 翻訳日:2023-06-14 18:12:16 公開日:2023-06-13 |
# SoK: 解釈可能性、信頼性、ユーザビリティのためのセキュリティ分析における説明可能性のモデリング SoK: Modeling Explainability in Security Analytics for Interpretability, Trustworthiness, and Usability ( http://arxiv.org/abs/2210.17376v2 ) ライセンス: Link先を確認 | Dipkamal Bhusal, Rosalyn Shin, Ajay Ashok Shewale, Monish Kumar Manikya Veerabhadran, Michael Clifford, Sara Rampazzi, Nidhi Rastogi | (参考訳) 解釈性、信頼性、ユーザビリティは、特にディープラーニングモデルを利用する場合において、高度なセキュリティアプリケーションにおいて重要な考慮事項である。
これらのモデルは高い精度で知られているが、分類や予測につながる重要な特徴や要因を特定するブラックボックスとして振る舞うことは困難である。
これは不確実性と不信感につながり、特に誤った予測が深刻な結果をもたらす場合である。
このように説明手法は、ディープラーニングモデルの内部動作に関する洞察を提供することを目的としている。
しかし、ほとんどの説明法は矛盾した説明を提供し、忠実度は低く、敵の操作に敏感であり、モデルの信頼性を低下させる。
本稿では,システムログを用いた異常検出,マルウェアの予測,敵画像の検出という3つの異なるセキュリティ応用において,説明可能な手法の総合的解析を行い,その効果を実証する。
我々の量的および質的な分析は、3つの応用すべてにおいて最先端の説明手法の重大な限界と懸念を明らかにする。
セキュリティアプリケーションの説明方法は,信頼性,忠実性,堅牢性,ユーザビリティなど,異なる特性を必要とすることを示し,信頼性の高い説明方法の前提条件として概説する。 Interpretability, trustworthiness, and usability are key considerations in high-stake security applications, especially when utilizing deep learning models. While these models are known for their high accuracy, they behave as black boxes in which identifying important features and factors that led to a classification or a prediction is difficult. This can lead to uncertainty and distrust, especially when an incorrect prediction results in severe consequences. Thus, explanation methods aim to provide insights into the inner working of deep learning models. However, most explanation methods provide inconsistent explanations, have low fidelity, and are susceptible to adversarial manipulation, which can reduce model trustworthiness. This paper provides a comprehensive analysis of explainable methods and demonstrates their efficacy in three distinct security applications: anomaly detection using system logs, malware prediction, and detection of adversarial images. Our quantitative and qualitative analysis reveals serious limitations and concerns in state-of-the-art explanation methods in all three applications. We show that explanation methods for security applications necessitate distinct characteristics, such as stability, fidelity, robustness, and usability, among others, which we outline as the prerequisites for trustworthy explanation methods. | 翻訳日:2023-06-14 18:12:02 公開日:2023-06-13 |
# 1つの$\lambda$-type atomにおける単一光子ストレージの限界 Limits of single-photon storage in a single $\Lambda$-type atom ( http://arxiv.org/abs/2301.01559v3 ) ライセンス: Link先を確認 | Zhi-Lei Zhang and Li-Ping Yang | (参考訳) 理論上は、1つの$\lambda$型原子における単一光子ストレージの限界、特にストレージ効率とストレージ速度のトレードオフを調査した。
制御フィールドは,効率を低下させることなく,保存プロセスを高速化できることを示す。
しかし、貯蔵速度は最終的に、関連する励起状態の総崩壊速度によって制限される。
通常の1次元導波路で伝播する単一光子パルスに対して、記憶効率は50 \%$の上限を持つ。
完全な単一光子貯蔵は、カイラル導波路またはサニャック干渉計を用いて達成できる。
フォック状態とコヒーレント状態パルスの貯蔵効率を比較することで、光の量子統計が光子レベルの光子貯蔵に与える影響を明らかにする。 We theoretically investigate the limits of single-photon storage in a single $\Lambda$-type atom, specifically the trade-off between storage efficiency and storage speed. We show that a control field can accelerate the storage process without degrading efficiency too much. However, the storage speed is ultimately limited by the total decay rate of the involved excited state. For a single-photon pulse propagating in a regular one-dimensional waveguide, the storage efficiency has an upper limit of $50 \%$. Perfect single-photon storage can be achieved by using a chiral waveguide or the Sagnac interferometry. By comparing the storage efficiencies of Fock-state and coherent-state pulses, we reveal the influence of quantum statistics of light on photon storage at the single-photon level. | 翻訳日:2023-06-14 18:06:43 公開日:2023-06-13 |
# グラフ畳み込みネットワークにおけるホモフィリーは二重降下一般化を変調する Homophily modulates double descent generalization in graph convolution networks ( http://arxiv.org/abs/2212.13069v2 ) ライセンス: Link先を確認 | Cheng Shi, Liming Pan, Hong Hu and Ivan Dokmani\'c | (参考訳) グラフニューラルネットワークは、メタボリック、トランスポーテーション、ソーシャルネットワークといったリレーショナルデータセットでもっとも成功した機械学習モデルのひとつです。
しかし、データにエンコードされた多様な相互作用に対する強い一般化の要因はよく分かっていない。
統計的学習理論の手法は、二重降下や相互作用の性質へのリスクの依存のような創発的な現象を説明できない。
統計物理学とランダム行列理論の分析ツールを用いて,文脈確率ブロックモデル上の単純なグラフ畳み込みネットワークの一般化を正確に特徴付ける。
導出曲線は表現学的に豊富であり、同好および異好の学習の区別を説明し、GNNの存在が近年の研究で疑問視されている二重降下を予測する。
グラフ内のノイズ,特徴のノイズ,トレーニングに使用されるノードの割合との相互作用にリスクが依存することを示す。
本分析は,スタイリッシュなグラフ学習モデルだけでなく,乱雑な実世界のデータセット上での複雑なgnnに対する質的行動を予測する。
実例では,ヘテロフィリと自己ループの符号に関するこれらの分析的知見を用いて,負の自己ループフィルタをシンプルに付加することにより,複数のヘテロフィリグラフ畳み込みネットワークの性能を向上させる。 Graph neural networks are among the most successful machine learning models for relational datasets like metabolic, transportation, and social networks. Yet the determinants of their strong generalization for diverse interactions encoded in the data are not well understood. Methods from statistical learning theory do not explain emergent phenomena such as double descent or the dependence of risk on the nature of interactions. We use analytical tools from statistical physics and random matrix theory to precisely characterize generalization in simple graph convolution networks on the contextual stochastic block model. The derived curves are phenomenologically rich: they explain the distinction between learning on homophilic and heterophilic and they predict double descent whose existence in GNNs has been questioned by recent work. We show how risk depends on the interplay between the noise in the graph, noise in the features, and the proportion of nodes used for training. Our analysis predicts qualitative behavior not only of a stylized graph learning model but also to complex GNNs on messy real-world datasets. As a case in point, we use these analytic insights about heterophily and self-loop signs to improve performance of state-of-the-art graph convolution networks on several heterophilic benchmarks by a simple addition of negative self-loop filters. | 翻訳日:2023-06-14 18:06:31 公開日:2023-06-13 |
# 大規模言語モデルは教師に反する Large Language Models Are Reasoning Teachers ( http://arxiv.org/abs/2212.10071v2 ) ライセンス: Link先を確認 | Namgyu Ho, Laura Schmid, and Se-Young Yun | (参考訳) 最近の研究は、チェーン・オブ・シント(CoT)が言語モデルに複雑な推論タスクを段階的に解くことを示唆している。
しかし、プロンプトベースのCoT法は大規模展開を禁止しているGPT-3 175Bのような非常に大きなモデルに依存している。
本稿では,これらの大規模モデルを教員の推論に活用し,小規模モデルにおける複雑な推論を可能にし,モデルサイズ要件を数桁削減する。
超大型教師モデルからファインチューン小型モデルへの推論サンプルを生成するファインチューンCoTを提案する。
提案手法は多種多様な公開モデルと複雑なタスクで評価する。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
さらに,本手法は,原サンプル毎に複数の異なる有理性を生成する教師モデルの能力を活用して拡張する。
このような多様な推論で微調整データを豊かにすることで、非常に小さなモデルであっても、データセット全体のパフォーマンスが大幅に向上する。
学生モデルの推論能力の出現を理解するために,アブレーションやサンプル研究を実施している。
コードの実装とデータはhttps://github.com/itsnamgyu/reasoning-teacherで入手できます。 Recent works have shown that chain-of-thought (CoT) prompting can elicit language models to solve complex reasoning tasks, step-by-step. However, prompt-based CoT methods are dependent on very large models such as GPT-3 175B which are prohibitive to deploy at scale. In this paper, we use these large models as reasoning teachers to enable complex reasoning in smaller models and reduce model size requirements by several orders of magnitude. We propose Fine-tune-CoT, a method that generates reasoning samples from very large teacher models to fine-tune smaller models. We evaluate our method on a wide range of public models and complex tasks. We find that Fine-tune-CoT enables substantial reasoning capability in small models, far outperforming prompt-based baselines and even the teacher model in many tasks. Additionally, we extend our method by leveraging the teacher model's ability to generate multiple distinct rationales for each original sample. Enriching the fine-tuning data with such diverse reasoning results in a substantial performance boost across datasets, even for very small models. We conduct ablations and sample studies to understand the emergence of reasoning capabilities of student models. Our code implementation and data are available at https://github.com/itsnamgyu/reasoning-teacher. | 翻訳日:2023-06-14 18:06:09 公開日:2023-06-13 |
# フルフィールド変位データを用いた材料モデル校正のための物理インフォームドニューラルネットワーク Physics-Informed Neural Networks for Material Model Calibration from Full-Field Displacement Data ( http://arxiv.org/abs/2212.07723v2 ) ライセンス: Link先を確認 | David Anton, Henning Wessels | (参考訳) 構成的モデルで生じる物質パラメータの同定は、実際には幅広い応用がある。
これらの応用の1つは、材料パラメータが外部の影響に対する構造物の抵抗を直接反映するため、インフラビルの実態の監視と評価である。
近年,逆問題の解法として物理情報ニューラルネットワーク(PINN)が登場している。
この方法の利点は、観測データの直接的包含である。
最小二乗有限要素法(ls-fem)のようなグリッドベースの手法とは異なり、計算格子やデータの補間は不要である。
本研究では,線形弾性の例として,実環境下でのフルフィールド変位と大域力データから構成モデルのキャリブレーションを行うピンを提案する。
実世界の応用において,最適化問題の条件付けと修正が重要な役割を担っていることを示す。
そこで本研究では,初期推定値から材料パラメータを同定し,損失関数の個々の項のバランスをとる。
変位近似における局所誤差に対する同定された材料パラメータの依存性を減少させるために, 応力境界条件ではなく, 内部および外部作業のグローバルバランスに基づいて同定を行う。
提案手法は,実験的な一次元データと実環境における合成フルフィールド変位データの両方から材料パラメータを同定できることを示す。
例えば、デジタル画像相関(DIC)システムによって測定された変位データはノイズが多いため、異なるレベルのノイズに対する手法の堅牢性についても検討する。 The identification of material parameters occurring in constitutive models has a wide range of applications in practice. One of these applications is the monitoring and assessment of the actual condition of infrastructure buildings, as the material parameters directly reflect the resistance of the structures to external impacts. Physics-informed neural networks (PINNs) have recently emerged as a suitable method for solving inverse problems. The advantages of this method are a straightforward inclusion of observation data. Unlike grid-based methods, such as the least square finite element method (LS-FEM) approach, no computational grid and no interpolation of the data is required. In the current work, we propose PINNs for the calibration of constitutive models from full-field displacement and global force data in a realistic regime on the example of linear elasticity. We show that conditioning and reformulation of the optimization problem play a crucial role in real-world applications. Therefore, among others, we identify the material parameters from initial estimates and balance the individual terms in the loss function. In order to reduce the dependency of the identified material parameters on local errors in the displacement approximation, we base the identification not on the stress boundary conditions but instead on the global balance of internal and external work. We demonstrate that the enhanced PINNs are capable of identifying material parameters from both experimental one-dimensional data and synthetic full-field displacement data in a realistic regime. Since displacement data measured by, e.g., a digital image correlation (DIC) system is noisy, we additionally investigate the robustness of the method to different levels of noise. | 翻訳日:2023-06-14 18:05:22 公開日:2023-06-13 |
# モデル予測のクリッピングによる雑音ラベルの記憶の緩和 Mitigating Memorization of Noisy Labels by Clipping the Model Prediction ( http://arxiv.org/abs/2212.04055v3 ) ライセンス: Link先を確認 | Hongxin Wei, Huiping Zhuang, Renchunzi Xie, Lei Feng, Gang Niu, Bo An, Yixuan Li | (参考訳) ノイズラベルの存在下では、深いニューラルネットワークの一般化性能を確保するためにロバストな損失関数の設計が重要である。
クロスエントロピー(CE)の損失は、その非有界性のため、ノイズの多いラベルに対して堅牢ではないことが示されている。
この問題を緩和するために、既存の作品は通常、対称条件で特に堅牢な損失を設計し、通常は不適合の問題に繋がる。
本稿では,ロジットレベルでの損失を誘導し,既存の損失のノイズロバスト性を高めることを目的とする。
具体的には、logitベクトルのノルムをクランプして、それが定数によって上界であることを保証するlogitクリップ(logitclip)を提案する。
このように、我々のLogitClip法によるCE損失を効果的に有界化し、ノイズのあるラベルを持つ例への過度な適合を緩和する。
さらに,LogitClipの耐雑音性を証明する理論的解析を行った。
大規模な実験により、LogitClipはCE損失のノイズロバスト性を著しく向上するだけでなく、一般的なロバスト損失の一般化性能を広く向上させることが示された。 In the presence of noisy labels, designing robust loss functions is critical for securing the generalization performance of deep neural networks. Cross Entropy (CE) loss has been shown to be not robust to noisy labels due to its unboundedness. To alleviate this issue, existing works typically design specialized robust losses with the symmetric condition, which usually lead to the underfitting issue. In this paper, our key idea is to induce a loss bound at the logit level, thus universally enhancing the noise robustness of existing losses. Specifically, we propose logit clipping (LogitClip), which clamps the norm of the logit vector to ensure that it is upper bounded by a constant. In this manner, CE loss equipped with our LogitClip method is effectively bounded, mitigating the overfitting to examples with noisy labels. Moreover, we present theoretical analyses to certify the noise-tolerant ability of LogitClip. Extensive experiments show that LogitClip not only significantly improves the noise robustness of CE loss, but also broadly enhances the generalization performance of popular robust losses. | 翻訳日:2023-06-14 18:04:28 公開日:2023-06-13 |
# リレーショナルメッセージパッシングニューラルネットワークを用いた不均一シーングラフ生成 Unbiased Heterogeneous Scene Graph Generation with Relation-aware Message Passing Neural Network ( http://arxiv.org/abs/2212.00443v3 ) ライセンス: Link先を確認 | Kanghoon Yoon, Kibum Kim, Jinyoung Moon, Chanyoung Park | (参考訳) 最近のシーングラフ生成(SGG)フレームワークは、画像内の複数のオブジェクト間の複雑な関係を学習することに焦点を当てている。
オブジェクトとその隣接するオブジェクト間の高次相互作用をモデル化するメッセージパッシングニューラルネットワーク(MPNN)の性質のおかげで、SGGの代表的な表現学習モジュールとなっている。
しかし、既存のMPNNベースのフレームワークはシーングラフを均質なグラフとみなし、オブジェクト間の視覚的関係の文脈認識を制限する。
つまり、関係が関連している対象に大きく依存する傾向があるという事実を、彼らは見落としている。
本稿では,メッセージパッシングニューラルネットワークを用いて関係認識コンテキストをキャプチャする不偏不均一シーングラフ生成(hetsgg)フレームワークを提案する。
本稿では,オブジェクト間の述語型を考慮した画像の文脈情報を集約する,rmp(relation-aware message passing neural network)と呼ばれる新しいメッセージパッシング層を考案する。
以上の結果から,HetSGGは最先端の手法,特に尾部述語クラスでは性能に優れていた。 Recent scene graph generation (SGG) frameworks have focused on learning complex relationships among multiple objects in an image. Thanks to the nature of the message passing neural network (MPNN) that models high-order interactions between objects and their neighboring objects, they are dominant representation learning modules for SGG. However, existing MPNN-based frameworks assume the scene graph as a homogeneous graph, which restricts the context-awareness of visual relations between objects. That is, they overlook the fact that the relations tend to be highly dependent on the objects with which the relations are associated. In this paper, we propose an unbiased heterogeneous scene graph generation (HetSGG) framework that captures relation-aware context using message passing neural networks. We devise a novel message passing layer, called relation-aware message passing neural network (RMP), that aggregates the contextual information of an image considering the predicate type between objects. Our extensive evaluations demonstrate that HetSGG outperforms state-of-the-art methods, especially outperforming on tail predicate classes. | 翻訳日:2023-06-14 18:04:07 公開日:2023-06-13 |
# ノード分類のための分布自由予測セット Distribution Free Prediction Sets for Node Classification ( http://arxiv.org/abs/2211.14555v2 ) ライセンス: Link先を確認 | Jase Clarkson | (参考訳) グラフニューラルネットワーク(gnns)は、多くの重要な実世界のデータセットにおいて高い分類精度を達成できるが、予測の不確かさの厳密な概念を提供していない。
グラフ構造によって誘導されるデータポイント間の依存のため,GNNモデルの信頼性の定量化は困難である。
我々は、共形予測の最近の進歩を活用し、帰納学習シナリオにおけるノード分類のための予測セットを構築する。
我々は, コンフォメーション分類の既存のアプローチを, textit{exchangeable}データに依存して, ネットワーク構造を反映するためにコンフォメーションスコアを適切に重み付けして修正することで実現している。
我々は、一般的なGNNモデルを用いた標準ベンチマークデータセットの実験を通して、共形予測の単純適用よりも厳密でより良い校正された予測セットを提供することを示す。 Graph Neural Networks (GNNs) are able to achieve high classification accuracy on many important real world datasets, but provide no rigorous notion of predictive uncertainty. Quantifying the confidence of GNN models is difficult due to the dependence between datapoints induced by the graph structure. We leverage recent advances in conformal prediction to construct prediction sets for node classification in inductive learning scenarios. We do this by taking an existing approach for conformal classification that relies on \textit{exchangeable} data and modifying it by appropriately weighting the conformal scores to reflect the network structure. We show through experiments on standard benchmark datasets using popular GNN models that our approach provides tighter and better calibrated prediction sets than a naive application of conformal prediction. | 翻訳日:2023-06-14 18:03:09 公開日:2023-06-13 |
# 単一運動拡散 Single Motion Diffusion ( http://arxiv.org/abs/2302.05905v2 ) ライセンス: Link先を確認 | Sigal Raab, Inbal Leibovitch, Guy Tevet, Moab Arar, Amit H. Bermano, and Daniel Cohen-Or | (参考訳) 人間、動物、さらには想像上の生き物のリアルなアニメーションを合成することは、アーティストやコンピュータグラフィックスの専門家にとって長年の目標だった。
利用可能なデータセットが豊富にある画像領域と比較して、動き領域のデータインスタンスの数は限られており、特にユニークな骨格と動きパターンを持つ動物やエキゾチックな生物(例えばドラゴン)のアニメーションに限られている。
本研究では,SinMDMと呼ばれる単一運動拡散モデルを提案する。これは,任意の位相を持つ単一運動列の内部モチーフを学習し,それらに忠実な任意の長さの運動を合成するモデルである。
拡散モデルのパワーを活用し,単一の入力動作から学習するタスクを明示的に設計した分節ネットワークを提案する。
SinMDMは軽量なアーキテクチャとして設計されており、局所的な注意層を持つ浅いネットワークを用いて、受容野を狭め、動きの多様性を促進することで過度な適合を避ける。
SinMDMは、空間的および時間的相互関係、運動拡大、スタイル転送、群衆アニメーションなど、様々な状況に適用できる。
以上の結果から,SinMDMは品質と時間空間効率の両方で既存手法よりも優れていた。
さらに、現在のアプローチでは、異なるアプリケーションのための追加のトレーニングが必要ですが、私たちの作業は推論時にこれらのアプリケーションを容易にします。
私たちのコードとトレーニングされたモデルはhttps://sinmdm.github.io/sinmdm-pageで利用可能です。 Synthesizing realistic animations of humans, animals, and even imaginary creatures, has long been a goal for artists and computer graphics professionals. Compared to the imaging domain, which is rich with large available datasets, the number of data instances for the motion domain is limited, particularly for the animation of animals and exotic creatures (e.g., dragons), which have unique skeletons and motion patterns. In this work, we present a Single Motion Diffusion Model, dubbed SinMDM, a model designed to learn the internal motifs of a single motion sequence with arbitrary topology and synthesize motions of arbitrary length that are faithful to them. We harness the power of diffusion models and present a denoising network explicitly designed for the task of learning from a single input motion. SinMDM is designed to be a lightweight architecture, which avoids overfitting by using a shallow network with local attention layers that narrow the receptive field and encourage motion diversity. SinMDM can be applied in various contexts, including spatial and temporal in-betweening, motion expansion, style transfer, and crowd animation. Our results show that SinMDM outperforms existing methods both in quality and time-space efficiency. Moreover, while current approaches require additional training for different applications, our work facilitates these applications at inference time. Our code and trained models are available at https://sinmdm.github.io/SinMDM-page. | 翻訳日:2023-06-14 17:55:07 公開日:2023-06-13 |
# スペクトル物理学インフォームドニューラルネットワークを用いた多様体上のPDEの数値解法 Numerical Methods For PDEs Over Manifolds Using Spectral Physics Informed Neural Networks ( http://arxiv.org/abs/2302.05322v2 ) ライセンス: Link先を確認 | Yuval Zelig and Shai Dekel | (参考訳) 本稿では,アーキテクチャがスペクトル法に適合する物理インフォームドニューラルネットワークを用いて,多様体上のpdesの解法を提案する。
ネットワークは、初期条件、タイムスタンプ、多様体上のポイント(s)の入力サンプルとして入力し、所定の時間とポイントで解の値を出力するように訓練される。
本稿では,間隔における熱方程式の方法の証明と,球面およびトーラス上の非線形方程式に適応するユニークなネットワークアーキテクチャの例を示す。
また、スペクトルにインスパイアされたニューラルネットワークアーキテクチャは、標準的な物理情報アーキテクチャよりも優れていることを示す。
我々は,初期条件のテストデータセットをトレーニングセットよりもはるかに広い空間からランダムにサンプリングする一般化研究を含む広い実験結果を得た。 We introduce an approach for solving PDEs over manifolds using physics informed neural networks whose architecture aligns with spectral methods. The networks are trained to take in as input samples of an initial condition, a time stamp and point(s) on the manifold and then output the solution's value at the given time and point(s). We provide proofs of our method for the heat equation on the interval and examples of unique network architectures that are adapted to nonlinear equations on the sphere and the torus. We also show that our spectral-inspired neural network architectures outperform the standard physics informed architectures. Our extensive experimental results include generalization studies where the testing dataset of initial conditions is randomly sampled from a significantly larger space than the training set. | 翻訳日:2023-06-14 17:54:46 公開日:2023-06-13 |
# 拡散モデルをどのように信頼するか:共形リスク制御への凸最適化アプローチ How to Trust Your Diffusion Model: A Convex Optimization Approach to Conformal Risk Control ( http://arxiv.org/abs/2302.03791v2 ) ライセンス: Link先を確認 | Jacopo Teneggi, Matthew Tivnan, J. Webster Stayman, Jeremias Sulam | (参考訳) スコアベースの生成モデリングは、非公式に拡散モデルと呼ばれ、いくつかの重要なドメインやタスクで人気を高め続けている。
実験的な分布から高品質で多様なサンプルを提供する一方で、重要なシナリオにおけるこれらのサンプリング手順の信頼性と信頼性について重要な疑問が残る。
コンフォーマル予測は、ブラックボックス予測器に対して有限サンプルで分布のない不確実性を保証するための現代的なツールである。
本研究では、画像から画像への回帰タスクに焦点をあて、リスク制御予測セット(RCPS)の手順を一般化し、$K$-RCPSと呼ぶ。
(i)$は、任意の拡散モデルの将来のサンプルについてエントリーワイドな調整間隔を提供し、$
(ii)最小平均間隔の基底真理像に対するリスクの特定の概念を$に制御する。
既存の共形リスク制御手法と異なり,提案手法は平均区間長を最小化しつつ,多次元リスク制御を可能にする新しい凸最適化手法に依存している。
本研究は, 顔の自然画像と腹部のctスキャンの2つの実世界の画像特徴量問題に対するアプローチについて紹介する。 Score-based generative modeling, informally referred to as diffusion models, continue to grow in popularity across several important domains and tasks. While they provide high-quality and diverse samples from empirical distributions, important questions remain on the reliability and trustworthiness of these sampling procedures for their responsible use in critical scenarios. Conformal prediction is a modern tool to construct finite-sample, distribution-free uncertainty guarantees for any black-box predictor. In this work, we focus on image-to-image regression tasks and we present a generalization of the Risk-Controlling Prediction Sets (RCPS) procedure, that we term $K$-RCPS, which allows to $(i)$ provide entrywise calibrated intervals for future samples of any diffusion model, and $(ii)$ control a certain notion of risk with respect to a ground truth image with minimal mean interval length. Differently from existing conformal risk control procedures, ours relies on a novel convex optimization approach that allows for multidimensional risk control while provably minimizing the mean interval length. We illustrate our approach on two real-world image denoising problems: on natural images of faces as well as on computed tomography (CT) scans of the abdomen, demonstrating state of the art performance. | 翻訳日:2023-06-14 17:54:33 公開日:2023-06-13 |
# Zero3D:Semantic-Driven Multi-Category 3D Shape Generation Zero3D: Semantic-Driven Multi-Category 3D Shape Generation ( http://arxiv.org/abs/2301.13591v4 ) ライセンス: Link先を確認 | Bo Han, Yitong Fu, Yixuan Shen | (参考訳) 意味駆動型3d形状生成は、テキストに基づく3dオブジェクトの生成を目的としている。
以前の作業では、単一カテゴリの生成、低周波の3D詳細、トレーニングのために多数のペアデータセットを必要とする問題に直面していた。
これらの課題に取り組むために,多カテゴリー条件拡散モデルを提案する。
具体的には
1) 大規模ペアデータ不足の問題を緩和するために, 事前学習したCLIPモデルに基づいてテキスト, 2次元画像, 3次元形状をブリッジし,
2) マルチカテゴリの3次元形状特徴を得るため,CLIP埋め込みに条件付き3次元形状ベクトルを生成する条件フローモデルを適用した。
3) マルチカテゴリ3次元形状を生成するために, 多カテゴリ形状ベクトルに条件付き隠れ層拡散モデルを用い, トレーニング時間とメモリ消費を大幅に削減する。 Semantic-driven 3D shape generation aims to generate 3D objects conditioned on text. Previous works face problems with single-category generation, low-frequency 3D details, and requiring a large number of paired datasets for training. To tackle these challenges, we propose a multi-category conditional diffusion model. Specifically, 1) to alleviate the problem of lack of large-scale paired data, we bridge the text, 2D image and 3D shape based on the pre-trained CLIP model, and 2) to obtain the multi-category 3D shape feature, we apply the conditional flow model to generate 3D shape vector conditioned on CLIP embedding. 3) to generate multi-category 3D shape, we employ the hidden-layer diffusion model conditioned on the multi-category shape vector, which greatly reduces the training time and memory consumption. | 翻訳日:2023-06-14 17:54:13 公開日:2023-06-13 |
# 時空間ゴーストイメージング Time-to-space ghost imaging ( http://arxiv.org/abs/2301.09184v3 ) ライセンス: Link先を確認 | Dmitri B. Horoshko | (参考訳) 時間的ゴーストイメージングは、2つの光ビームの時間的相関に基づいており、光検出器の解像度時間によって基本的に制限され、最近の実験では55psに達する時間的物体の時間的画像を形成することを目的としている。
時間分解能のさらなる向上のために、2つの光ビームの強い時間空間相関に依存する時間物体の空間ゴースト画像を作成することを提案した。
このような相関は、タイプiパラメトリックダウンコンバージョンで発生する2つの絡み合ったビームの間に存在することが知られている。
サブピコ秒スケールの時間分解能は、絡み合った光子の現実的な源によってアクセス可能である。 Temporal ghost imaging is based on the temporal correlations of two optical beams and aims at forming a temporal image of a temporal object with a resolution, fundamentally limited by the photodetector resolution time and reaching 55 ps in a recent experiment. For further improvement of the temporal resolution, it is suggested to form a spatial ghost image of a temporal object relying on strong temporal-spatial correlations of two optical beams. Such correlations are known to exist between two entangled beams generated in type-I parametric downconversion. It is shown that a sub-picosecond-scale temporal resolution is accessible with a realistic source of entangled photons. | 翻訳日:2023-06-14 17:53:58 公開日:2023-06-13 |
# 量子力学の時空スケーリング限界におけるトポロジー Topology in the space-time scaling limit of quantum dynamics ( http://arxiv.org/abs/2301.07752v2 ) ライセンス: Link先を確認 | Lorenzo Rossi, Jan Carl Budich, Fabrizio Dolcini | (参考訳) 本研究では,量子クエンチ力学の時空スケーリング限界におけるトポロジーの役割について検討する。
そこで,局所ユニタリ変換に依拠する標準的な位相的特徴付けが不明確になる一方で,ベリー相の磁束に対する線形応答をエンコードする動的巻線数によってトポロジーの異なる動的概念が自然に生じることを示す。
具体的には, 局所的に見えない一定磁束の存在は, トポロジカルに定量化された台地が, 焼成ライス・ミールモデルの時空スケーリング限界を特徴づけるベリー相の動的階段挙動によって明らかにされる。
これらのベリー相のジャンプは、直流電流演算子のバンド間要素と関連していることも示されている。
有限系の予測現象を観測するための実験プラットフォームについて概説する。 We investigate the role of topology in the space-time scaling limit of quantum quench dynamics, where both time and system size tend to infinity at a constant ratio. There, while the standard topological characterization relying on local unitary transformations becomes ill defined, we show how a different dynamical notion of topology naturally arises through a dynamical winding number encoding the linear response of the Berry phase to a magnetic flux. Specifically, we find that the presence of a locally invisible constant magnetic flux is revealed by a dynamical staircase behavior of the Berry phase, whose topologically quantized plateaus characterize the space-time scaling limit of a quenched Rice-Mele model. These jumps in the Berry phase are also shown to be related to the interband elements of the DC current operator. We outline possible experimental platforms for observing the predicted phenomena in finite systems. | 翻訳日:2023-06-14 17:53:45 公開日:2023-06-13 |
# 反射赤外光信号による手のジェスチャー認識 Hand Gesture Recognition through Reflected Infrared Light Wave Signals ( http://arxiv.org/abs/2301.05955v2 ) ライセンス: Link先を確認 | Md Zobaer Islam, Li Yu, Hisham Abuella, John F. O'Hara, Christopher Crick, Sabit Ekin | (参考訳) 本研究では,人体から反射される非コヒーレント光波信号のみを用いた無線(非接触)ジェスチャー認識手法を提案する。
既存のレーダー、光影、音響、カメラベースのセンシングシステムと比べ、この技術は安価でユビキタスな光源(例えば赤外線LED)を使って被験者の手の動きに光を送り、反射光は光センサー(例えば光検出器)によって収集される。
20〜35cmの範囲で受信した光強度の変化から異なるジェスチャーを認識する。
手のジェスチャー認識の結果は平均で96%の精度を示した。
開発システムは、低コストで非接触なジェスチャー認識技術として、多数のヒューマンコンピュータインタラクション(HCI)アプリケーションで利用することができる。 In this study, we present a wireless (non-contact) gesture recognition method using only incoherent light wave signals reflected from a human subject. In comparison to existing radar, light shadow, sound and camera-based sensing systems, this technology uses a low-cost ubiquitous light source (e.g., infrared LED) to send light towards the subject's hand performing gestures and the reflected light is collected by a light sensor (e.g., photodetector). This light wave sensing system recognizes different gestures from the variations of the received light intensity within a 20-35cm range. The hand gesture recognition results demonstrate up to 96% accuracy on average. The developed system can be utilized in numerous Human-computer Interaction (HCI) applications as a low-cost and non-contact gesture recognition technology. | 翻訳日:2023-06-14 17:53:06 公開日:2023-06-13 |
# ハイブリッド量子システムにおけるトリガー超輝度とインバージョンストレージ Triggered Superradiance and Inversion Storage in a Hybrid Quantum System ( http://arxiv.org/abs/2301.04100v2 ) ライセンス: Link先を確認 | Wenzel Kersten, Nikolaus de Zordo, Oliver Diekmann, Tobias Reiter, Matthias Zens, Andrew N. Kanagin, Stefan Rotter, J\"org Schmiedmayer, and Andreas Angerer | (参考訳) 超伝導空洞に強く結合した逆スピンアンサンブルの超ラジアント放出について検討した。
高速な反転の後、スピンを空洞から切り離し、数十ミリ秒間反転を保存し、残りの横スピン成分は消滅する。
共鳴に切り替えることにより、スーパーラジアンスの発生を研究できる。
数百光子の弱いトリガーパルスは、スーパーラジアントバーストを早期にシフトさせ、その位相を放出された放射に印加する。
長い保持時間の間、インバージョンは自然発振のしきい値以下に減少する。
そこで、アンサンブルに蓄えられたエネルギーは、キャビティを通過するマイクロ波パルスの増幅に使用できる。 We study the superradiant emission of an inverted spin ensemble strongly coupled to a superconducting cavity. After fast inversion, we detune the spins from the cavity and store the inversion for tens of milliseconds, during which the remaining transverse spin components disappear. Switching back on resonance enables us to study the onset of superradiance. A weak trigger pulse of a few hundred photons shifts the superradiant burst to earlier times and imprints its phase onto the emitted radiation. For long hold times, the inversion decreases below the threshold for spontaneous superradiance. There, the energy stored in the ensemble can be used to amplify microwave pulses passing through the cavity. | 翻訳日:2023-06-14 17:52:44 公開日:2023-06-13 |
# SHAP-IQ:任意の順序共有相互作用の統一近似 SHAP-IQ: Unified Approximation of any-order Shapley Interactions ( http://arxiv.org/abs/2303.01179v2 ) ライセンス: Link先を確認 | Fabian Fumagalli, Maximilian Muschalik, Patrick Kolpaczki, Eyke H\"ullermeier, Barbara Hammer | (参考訳) 主に、説明可能な人工知能(XAI)の研究において、シャープリー値(SV)を用いて、ブラックボックスモデルの特徴的重要性のスコアを決定する。
シェープな相互作用指標はSVを拡張し、任意の順序の特徴相互作用スコアを定義する。
ユニークなシャプリー相互作用指数の定義は、オープンリサーチの問題であり、これまで3つの定義が提案されてきたが、これは公理の選択によって異なる。
さらに、各定義には特定の近似技術が必要である。
本稿では,任意の基数相互作用指標(CII)に対するシャプリー相互作用を効率よく計算するためのサンプリングベース近似であるSHAPley Interaction Quantification (SHAP-IQ)を提案する。
SHAP-IQは、新しい表現に基づいており、既存の手法とは対照的に、近似品質の理論的保証と点推定の分散の推定を提供する。
SVの特殊な場合,本手法はSVの新規な表現を明らかにし,Unbiased KernelSHAPに対応して計算を単純化する。
本稿では,言語,画像分類,高次元合成モデルを説明することにより,計算効率と有効性を説明する。 Predominately in explainable artificial intelligence (XAI) research, the Shapley value (SV) is applied to determine feature importance scores for any black box model. Shapley interaction indices extend the SV to define any-order feature interaction scores. Defining a unique Shapley interaction index is an open research question and, so far, three definitions have been proposed, which differ by their choice of axioms. Moreover, each definition requires a specific approximation technique. Here, we propose SHAPley Interaction Quantification (SHAP-IQ), an efficient sampling-based approximator to compute Shapley interactions for arbitrary cardinal interaction indices (CII), i.e. interaction indices that satisfy the linearity, symmetry and dummy axiom. SHAP-IQ is based on a novel representation and, in contrast to existing methods, we provide theoretical guarantees for its approximation quality, as well as estimates for the variance of the point estimates. For the special case of SV, our approach reveals a novel representation of the SV and corresponds to Unbiased KernelSHAP with a greatly simplified calculation. We illustrate the computational efficiency and effectiveness by explaining language, image classification and high-dimensional synthetic models. | 翻訳日:2023-06-14 17:46:31 公開日:2023-06-13 |
# 入力の簡易化による量子クエリ複雑性の向上 Improved Quantum Query Complexity on Easier Inputs ( http://arxiv.org/abs/2303.00217v2 ) ライセンス: Link先を確認 | Noel T. Anderson, Jay-U Chung, Shelby Kimmel, Da-Yeon Koh, Xiaohan Ye | (参考訳) 関数評価のための量子スパンプログラムアルゴリズムは、入力が一定の構造を持つことを約束すると、クエリの複雑さを減少させることがある。
我々は、これらの改善が事前の約束なしにも持続することを示すために修正スパンプログラムアルゴリズムを設計し、このアプローチをより一般的な状態変換問題に拡張する。
その結果,複数の探索問題に対する平均クエリ複雑性において指数関数的かつ超多項的量子優位性が証明され,モンタナロの探索をアドバイスで一般化した [montanaro, tqc 2010]。 Quantum span program algorithms for function evaluation sometimes have reduced query complexity when promised that the input has a certain structure. We design a modified span program algorithm to show these improvements persist even without a promise ahead of time, and we extend this approach to the more general problem of state conversion. As an application, we prove exponential and superpolynomial quantum advantages in average query complexity for several search problems, generalizing Montanaro's Search with Advice [Montanaro, TQC 2010]. | 翻訳日:2023-06-14 17:46:10 公開日:2023-06-13 |
# 深部強化学習における休眠性ニューロン現象 The Dormant Neuron Phenomenon in Deep Reinforcement Learning ( http://arxiv.org/abs/2302.12902v2 ) ライセンス: Link先を確認 | Ghada Sokar, Rishabh Agarwal, Pablo Samuel Castro, Utku Evci | (参考訳) 本研究では,エージェントのネットワークが不活性ニューロンの増加に苦しむ深層強化学習における休眠ニューロン現象を同定し,ネットワークの表現性に影響を及ぼす。
我々は,様々なアルゴリズムや環境にまたがるこの現象の存在を実証し,その学習への影響を強調する。
この問題に対処するために,学習中に休眠ニューロンをリサイクルする簡便で効果的な手法(redo)を提案する。
実験により、ReDoは休眠ニューロン数を減らし、ネットワークの表現力を維持し、性能を向上することを示した。 In this work we identify the dormant neuron phenomenon in deep reinforcement learning, where an agent's network suffers from an increasing number of inactive neurons, thereby affecting network expressivity. We demonstrate the presence of this phenomenon across a variety of algorithms and environments, and highlight its effect on learning. To address this issue, we propose a simple and effective method (ReDo) that Recycles Dormant neurons throughout training. Our experiments demonstrate that ReDo maintains the expressive power of networks by reducing the number of dormant neurons and results in improved performance. | 翻訳日:2023-06-14 17:46:00 公開日:2023-06-13 |
# 非保存拡散過程の非平衡ダイナミクス Nonequilibrium dynamics of nonconservative diffusion processes ( http://arxiv.org/abs/2302.10154v3 ) ライセンス: Link先を確認 | P. Garbaczewski, M. \.Zaba | (参考訳) 非保存的ドリフト場を持つ拡散過程のフォッカー・プランク作用素は次元$N\geq 2$で、非エルミート電磁型ハミルトン運動発生器と直接関連付けられる。
確率密度の誘導非平衡力学は、フォッカー・プランク方程式の経路積分解の問題に向けられ、量子プロパゲータの既知の正確な経路積分式を実時間とユークリッド時間に再検討し、これらをフォッカー・プランクが引き起こす遷移確率密度関数に含める。
以下では、確率拡散過程のダイナミクスに対する磁気的(または磁気的に見える)影響の形式的かつ概念的に異なる実装に遭遇する、$n=3$の「磁気糸」に従う。
That includes the "magnetic affinity" of nonconservative diffusion processes, the classic Brownian motion of charged particles in the (electro)magnetic field, so-called Euclidean quantum mechanics involving non-Hermitian magnetic-type Hamiltonians, and path integral evaluation of integral kernels of Schr\"{o}dinger semigroups with a minimal electromagnetic coupling (encoded in their Hermitian generators). Our main objective is to go beyond the lore of magnetic analogies/affinities. We aim at detecting deeper interrelations between "magnetically affine" approaches, while clearly discriminating between the classic Lorentz or magnetic forcing in the Brownian motion of charged particles, quantum methods of incorporating electromagnetism, and potentially useful electromagnetic analogies ("surrogate magnetism") in the dynamics of diffusion processes. Fokker-Planck operators of diffusion processes with nonconservative drift fields, in dimension $N\geq 2$, can be directly related with non-Hermitian electromagnetic-type Hamiltonian generators of motion. The induced nonequilibrium dynamics of probability densities points towards an issue of path integral solutions of the Fokker-Planck equation, and calls for revisiting links between known exact path integral formulas for quantum propagators in real and Euclidean time, with these for Fokker-Planck-induced transition probability density functions. In below we shall follow the $N=3$ "magnetic thread", within which one encounters formally and conceptually distinct implementations of the magnetic (or magnetic-looking) impact on the dynamics of stochastic diffusion processes. That includes the "magnetic affinity" of nonconservative diffusion processes, the classic Brownian motion of charged particles in the (electro)magnetic field, so-called Euclidean quantum mechanics involving non-Hermitian magnetic-type Hamiltonians, and path integral evaluation of integral kernels of Schr\"{o}dinger semigroups with a minimal electromagnetic coupling (encoded in their Hermitian generators). Our main objective is to go beyond the lore of magnetic analogies/affinities. We aim at detecting deeper interrelations between "magnetically affine" approaches, while clearly discriminating between the classic Lorentz or magnetic forcing in the Brownian motion of charged particles, quantum methods of incorporating electromagnetism, and potentially useful electromagnetic analogies ("surrogate magnetism") in the dynamics of diffusion processes. | 翻訳日:2023-06-14 17:45:49 公開日:2023-06-13 |
# 磁気キャビティにおける1次光子凝縮:2脚ラダーモデル First-order photon condensation in magnetic cavities: A two-leg ladder model ( http://arxiv.org/abs/2302.09901v4 ) ライセンス: Link先を確認 | Zeno Bacciconi, Gian Marcello Andolina, Titas Chanda, Giuliano Chiriac\`o, Marco Schir\'o, Marcello Dalmonte | (参考訳) ピエルス置換により非一様キャビティモードに結合したラダー幾何学における自由フェルミオンのモデルを考える。
キャビティモードは磁場を生成するため、自発的光子凝縮に関するno-go定理は適用されず、有限循環電流によって特徴づけられる光子凝縮相への位相遷移を観察する。
正方形および三角形のはしご幾何学を考察し、系のエネルギー構造、光物質絡み、光子モードの特性、キラル電流の研究により遷移を特徴づける。
遷移は1次であり、フェルミ点の数だけでなくフェルミイオンバンド構造の急激な変化に対応する。
擬1次元幾何学により,大規模密度行列再正規化群シミュレーションに対するキャビティ・マッター分離の精度を検証した。
有限サイズでの物質特性の補正と正しい光子状態の記述には,光物質の絡み合いが不可欠であることがわかった。
後者は、通常相と光子凝縮相の両方で熱力学的極限においてガウス的のままである。 We consider a model of free fermions in a ladder geometry coupled to a nonuniform cavity mode via Peierls substitution. Since the cavity mode generates a magnetic field, no-go theorems on spontaneous photon condensation do not apply, and we indeed observe a phase transition to a photon condensed phase characterized by finite circulating currents, alternatively referred to as the equilibrium superradiant phase. We consider both square and triangular ladder geometries, and characterize the transition by studying the energy structure of the system, light-matter entanglement, the properties of the photon mode, and chiral currents. The transition is of first order and corresponds to a sudden change in the fermionic band structure as well as the number of its Fermi points. Thanks to the quasi-one dimensional geometry we scrutinize the accuracy of (mean field) cavity-matter decoupling against large scale density-matrix renormalization group simulations. We find that light-matter entanglement is essential for capturing corrections to matter properties at finite sizes and for the description of the correct photon state. The latter remains Gaussian in the the thermodynamic limit both in the normal and photon condensed phases. | 翻訳日:2023-06-14 17:45:25 公開日:2023-06-13 |
# 相互作用するカオス小体量子系における普遍スペクトル相関 Universal spectral correlations in interacting chaotic few-body quantum systems ( http://arxiv.org/abs/2302.08983v3 ) ライセンス: Link先を確認 | Felix Fritzsch and Maximilian F. I. Kieler | (参考訳) 相互作用量子系におけるランダム行列スペクトル相関の出現は、量子カオスの定義的特徴である。
このような相関関係をカオス的数体および多体系の相互作用におけるスペクトル形状係数の観点から検討し、適切なランダム行列アンサンブルでモデル化し、ヒルベルト空間次元の正確な結果を得る。
非相互作用から強く相互作用するケースへのスペクトル形成因子の遷移は、これらの2つの制限されたケースの単純な組み合わせとして説明できる。
この遷移は単一のスケーリングパラメータによって普遍的に制御される。
さらに,本手法は実際の物理系におけるスペクトル相関を正確に把握し,組み合わせたキックローターについて実証する。 The emergence of random matrix spectral correlations in interacting quantum systems is a defining feature of quantum chaos. We study such correlations in terms of the spectral form factor in interacting chaotic few- and many-body systems, modeled by suitable random-matrix ensembles, and obtain exact results for large Hilbert space dimensions. The transition of the spectral form factor from the non-interacting to the strongly interacting case can be described as a simple combination of these two limiting cases, which we confirm by extensive numerical studies in few-body systems. This transition is universally governed by a single scaling parameter. Moreover, our approach accurately captures spectral correlations in actual physical system, which we demonstrate for coupled kicked rotors. | 翻訳日:2023-06-14 17:45:06 公開日:2023-06-13 |
# 実世界の治療最適化アプリケーションのための深部オフライン強化学習 Deep Offline Reinforcement Learning for Real-world Treatment Optimization Applications ( http://arxiv.org/abs/2302.07549v2 ) ライセンス: Link先を確認 | Milashini Nambiar and Supriyo Ghosh and Priscilla Ong and Yu En Chan and Yong Mong Bee and Pavitra Krishnaswamy | (参考訳) 多くの慢性疾患管理やクリティカルケアのアプリケーションにおいて最適な治療戦略を推奨するデータ駆動アプローチへの関心が高まっている。
強化学習方法は、このシーケンシャルな意思決定問題に適しているが、オンラインの直接探索が安全で実現不可能であるため、振り返りの医療記録データセットでのみ訓練され、評価されなければならない。
この要求にもかかわらず、ほとんどの処理最適化研究は、純粋なオフライン環境では性能が良くないことが知られている、非政治的なRL法(Double Deep Q Networks (DDQN)など)を使用している。
保守的なQ-Learning(CQL)など、オフラインRLの最近の進歩は、適切な代替手段を提供する。
しかし、これらのアプローチを現実のアプリケーションに適用する上での課題は、サブ最適例がレトロスペクティブデータセットを支配し、厳格な安全制約を満たす必要があることだ。
本研究では,オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症の治療最適化のための2つの実世界のタスクを広範囲に実験し,提案手法の性能を著明なオフ・ポリシーとオフラインのrlベースライン(ddqnとcql)と比較した。
提案手法は, 原則的, 臨床的に関連のある指標にまたがって, 適切な実践と安全ガイドラインに従って, 期待される健康成果を実質的に改善できることを示す。 There is increasing interest in data-driven approaches for recommending optimal treatment strategies in many chronic disease management and critical care applications. Reinforcement learning methods are well-suited to this sequential decision-making problem, but must be trained and evaluated exclusively on retrospective medical record datasets as direct online exploration is unsafe and infeasible. Despite this requirement, the vast majority of treatment optimization studies use off-policy RL methods (e.g., Double Deep Q Networks (DDQN) or its variants) that are known to perform poorly in purely offline settings. Recent advances in offline RL, such as Conservative Q-Learning (CQL), offer a suitable alternative. But there remain challenges in adapting these approaches to real-world applications where suboptimal examples dominate the retrospective dataset and strict safety constraints need to be satisfied. In this work, we introduce a practical and theoretically grounded transition sampling approach to address action imbalance during offline RL training. We perform extensive experiments on two real-world tasks for diabetes and sepsis treatment optimization to compare performance of the proposed approach against prominent off-policy and offline RL baselines (DDQN and CQL). Across a range of principled and clinically relevant metrics, we show that our proposed approach enables substantial improvements in expected health outcomes and in accordance with relevant practice and safety guidelines. | 翻訳日:2023-06-14 17:44:54 公開日:2023-06-13 |
# KLディバージェンスにおける離散分布推定のための濃度境界 Concentration Bounds for Discrete Distribution Estimation in KL Divergence ( http://arxiv.org/abs/2302.06869v2 ) ライセンス: Link先を確認 | Cl\'ement L. Canonne and Ziteng Sun and Ananda Theertha Suresh | (参考訳) 我々はKL分散における離散分布推定の問題について検討し、ラプラス推定器に濃度境界を与える。
平均スケールからの偏差が$\sqrt{k}/n$とすると、$n \ge k$は$k/n$の最良の事前結果を改善する。
我々はまた、我々の境界が多対数因子に密接であることを示す一致する下限を確立する。 We study the problem of discrete distribution estimation in KL divergence and provide concentration bounds for the Laplace estimator. We show that the deviation from mean scales as $\sqrt{k}/n$ when $n \ge k$, improving upon the best prior result of $k/n$. We also establish a matching lower bound that shows that our bounds are tight up to polylogarithmic factors. | 翻訳日:2023-06-14 17:44:33 公開日:2023-06-13 |
# 熱力学AIと揺らぎフロンティア Thermodynamic AI and the fluctuation frontier ( http://arxiv.org/abs/2302.06584v3 ) ライセンス: Link先を確認 | Patrick J. Coles, Collin Szczepanski, Denis Melanson, Kaelan Donatella, Antonio J. Martinez, Faris Sbahi | (参考訳) 多くの人工知能(AI)アルゴリズムは物理学にインスパイアされ、確率的ゆらぎを用いる。
これらの物理にインスパイアされたAIアルゴリズムを、私たちがThermodynamic AIと呼ぶ単一の数学的フレームワークの下に統一することで接続する。
例えば、(1)生成拡散モデル、(2)ベイズニューラルネットワーク、(3)モンテカルロサンプリング、(4)シミュレートアニールなどである。
このようなサーモダイナミックAIアルゴリズムは現在、デジタルハードウェア上で実行されており、究極的にはスケーラビリティと全体的なポテンシャルを制限している。
確率的ゆらぎは物理的熱力学系で自然に起こり、そのようなゆらぎは計算資源と見なすことができる。
そこで我々は,ソフトウェアとハードウェアが分離不能となる新しいコンピューティングパラダイムを提案する。
我々のアルゴリズム統一により、そのようなアルゴリズムを加速できる熱力学AIハードウェアを含む単一のフルスタックパラダイムを特定できる。
ノイズがリソースではなくロードブロックである量子コンピューティングと、熱力学aiハードウェアを対比する。
熱力学AIハードウェアは、新しい基本的なビルディングブロックを使用するため、コンピューティングの新たな形態と見なすことができる。
離散的かつ連続的な熱力学AIハードウェア構築ブロックとして、確率ビット(sビット)と確率モード(sモード)を識別する。
これらの確率的ユニットに加えて、Thermodynamic AIハードウェアはマクスウェルのデーモンデバイスを使用してシステムを誘導し、非自明な状態を生成する。
これらのデバイスを構築するためのシンプルな物理アーキテクチャを提供し、ゲートシーケンスを介してハードウェアをプログラミングするためのフォーマリズムを開発する。
この新しいコンピューティングパラダイムに関する議論を刺激したいと思っています。
加速以外にも、ハードウェアとアルゴリズムの設計にも影響を与え、物理とインテリジェンスの関係についてより深く理解していくと信じています。 Many Artificial Intelligence (AI) algorithms are inspired by physics and employ stochastic fluctuations. We connect these physics-inspired AI algorithms by unifying them under a single mathematical framework that we call Thermodynamic AI. Seemingly disparate algorithmic classes can be described by this framework, for example, (1) Generative diffusion models, (2) Bayesian neural networks, (3) Monte Carlo sampling and (4) Simulated annealing. Such Thermodynamic AI algorithms are currently run on digital hardware, ultimately limiting their scalability and overall potential. Stochastic fluctuations naturally occur in physical thermodynamic systems, and such fluctuations can be viewed as a computational resource. Hence, we propose a novel computing paradigm, where software and hardware become inseparable. Our algorithmic unification allows us to identify a single full-stack paradigm, involving Thermodynamic AI hardware, that could accelerate such algorithms. We contrast Thermodynamic AI hardware with quantum computing where noise is a roadblock rather than a resource. Thermodynamic AI hardware can be viewed as a novel form of computing, since it uses a novel fundamental building block. We identify stochastic bits (s-bits) and stochastic modes (s-modes) as the respective building blocks for discrete and continuous Thermodynamic AI hardware. In addition to these stochastic units, Thermodynamic AI hardware employs a Maxwell's demon device that guides the system to produce non-trivial states. We provide a few simple physical architectures for building these devices and we develop a formalism for programming the hardware via gate sequences. We hope to stimulate discussion around this new computing paradigm. Beyond acceleration, we believe it will impact the design of both hardware and algorithms, while also deepening our understanding of the connection between physics and intelligence. | 翻訳日:2023-06-14 17:44:24 公開日:2023-06-13 |
# 密度ソフトマックス:分布シフトによる拡張性と校正不確かさ推定 Density-Softmax: Scalable and Calibrated Uncertainty Estimation under Distribution Shifts ( http://arxiv.org/abs/2302.06495v2 ) ライセンス: Link先を確認 | Ha Manh Bui, Anqi Liu | (参考訳) 決定論的深層学習モデルは、分布シフトの下でかなりの過信に悩まされる。
確率論的アプローチはこの問題を軽減できるが、計算効率に苦慮する。
本稿では,密度関数とソフトマックス層の組み合わせによる校正不確かさ推定を改善するために,高速かつ軽量な決定法である密度-ソフトマックスを提案する。
潜在表現の確率値を用いて,テストサンプルがトレーニングサンプルから離れている場合,本手法はより不確実な予測を導出する。
理論的には、密度-ソフトマックスは、ミニマックスの不確実性リスクの解であり、距離認識であるため、ニューラルネットワークによる高品質な不確実性推定が可能であることが示される。
実験的に,本手法は,現代のディープラーニングアーキテクチャにおいて,移動した玩具,視覚,言語データセット上での標準ソフトマックスと,単一の前方通過決定論的に類似した計算効率を享受する。
特に、dentity-SoftmaxはDeep Ensemblesの4倍のパラメータとRanc-1 Bayesian Neural Networkの6倍のレイテンシを使用し、分散シフト時の競合予測性能と低いキャリブレーション誤差を得る。 Prevalent deterministic deep-learning models suffer from significant over-confidence under distribution shifts. Probabilistic approaches can reduce this problem but struggle with computational efficiency. In this paper, we propose Density-Softmax, a fast and lightweight deterministic method to improve calibrated uncertainty estimation via a combination of density function with the softmax layer. By using the latent representation's likelihood value, our approach produces more uncertain predictions when test samples are distant from the training samples. Theoretically, we show that Density-Softmax can produce high-quality uncertainty estimation with neural networks, as it is the solution of minimax uncertainty risk and is distance-aware, thus reducing the over-confidence of the standard softmax. Empirically, our method enjoys similar computational efficiency as a single forward pass deterministic with standard softmax on the shifted toy, vision, and language datasets across modern deep-learning architectures. Notably, Density-Softmax uses 4 times fewer parameters than Deep Ensembles and 6 times lower latency than Rank-1 Bayesian Neural Network, while obtaining competitive predictive performance and lower calibration errors under distribution shifts. | 翻訳日:2023-06-14 17:43:58 公開日:2023-06-13 |
# 任意深部1次元ニューラルネットワークの固定点 Fixed points of arbitrarily deep 1-dimensional neural networks ( http://arxiv.org/abs/2303.12814v2 ) ライセンス: Link先を確認 | Andrew Cook, Andy Hammerlindl and Warwick Tucker | (参考訳) 本稿では,ある種のニューラルネットワークが持つことのできる固定点数に対して,鋭い上限を確立する。
研究中のネットワーク(オートエンコーダ)は、アクティベーション関数の選択によって非線形性が与えられる離散力学系と見なすことができる。
この目的のために、合成下で閉じられ、例えばロジスティックなシグモイド関数を含む新しいクラス $\mathcal{f}$ of $c^1$ を導入する。
このクラスを用いて、$\mathcal{f}$ の活性化関数を持つ任意の深さの1次元ニューラルネットワークが、少なくとも3つの不動点を持つことを示す。
このようなネットワークの単純な性質のため、我々はそれらの固定点を完全に理解することができ、深層ニューラルネットワークのアプリケーションと理論の間の非常に必要な接続の基礎となる。 In this paper, we establish a sharp upper bound on the the number of fixed points a certain class of neural networks can have. The networks under study (autoencoders) can be viewed as discrete dynamical systems whose nonlinearities are given by the choice of activation functions. To this end, we introduce a new class $\mathcal{F}$ of $C^1$ activation functions that is closed under composition, and contains e.g. the logistic sigmoid function. We use this class to show that any 1-dimensional neural network of arbitrary depth with activation functions in $\mathcal{F}$ has at most three fixed points. Due to the simple nature of such networks, we are able to completely understand their fixed points, providing a foundation to the much needed connection between application and theory of deep neural networks. | 翻訳日:2023-06-14 17:36:34 公開日:2023-06-13 |
# 文脈付き大規模言語モデルによる法的文書の理解 Understand Legal Documents with Contextualized Large Language Models ( http://arxiv.org/abs/2303.12135v2 ) ライセンス: Link先を確認 | Xin Jin, Yuchen Wang | (参考訳) インドなど、人口の多い国における未解決の訴訟の成長は大きな問題となっている。
法律文書の処理・理解に有効な手法を開発することは,この問題の解決に極めて有用である。
本稿では,SemEval-2023タスク6における法文理解システムについて述べる(Modi et al., 2023)。
具体的には、まず、文内と文間の両方の包括的文脈情報を考察し、修辞的役割(サブタスクA)を予測する法-BERT-HSLNモデルを開発し、法-コンテキスト化およびエンティティ認識の法-LUKEモデルを訓練し、法的実体(サブタスクB)を認識する。
私たちの設計モデルはベースラインよりも正確であること,例えばサブタスクBでは15.0%,タスクリーダボードでは0.834マイクロF1スコア,サブタスクAでは27チーム中5位など,優れたパフォーマンスを実現しています。 The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A. | 翻訳日:2023-06-14 17:36:20 公開日:2023-06-13 |
# クラス属性推論攻撃:拡散に基づく属性操作による感性クラス情報の推測 Class Attribute Inference Attacks: Inferring Sensitive Class Information by Diffusion-Based Attribute Manipulations ( http://arxiv.org/abs/2303.09289v2 ) ライセンス: Link先を確認 | Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack, Patrick Schramowski, Kristian Kersting | (参考訳) ニューラルネットワークベースのイメージ分類器は、コンピュータビジョンタスクのための強力なツールであるが、クラスに関する機密属性情報を不注意に明らかにし、プライバシに関する懸念を提起する。
このプライバシー漏洩を調査するため,本研究では,テキスト・ツー・イメージ合成における最近の進歩を活用して,関連するホワイトボックス攻撃と競合しながら,個々のクラスの機密属性をブラックボックス設定で推測する最初のクラス属性推論攻撃(CAIA)を導入する。
顔認証領域での広範な実験により、CAIAはトレーニングラベルには含まれない個人の髪の色、性別、人種的外観など、未公表の機密属性を正確に推測できることがわかった。
興味深いことに、敵対的なロバストモデルが、標準モデルよりもプライバシーリークに対してさらに脆弱であることを示し、ロバスト性とプライバシのトレードオフが存在することを示している。 Neural network-based image classifiers are powerful tools for computer vision tasks, but they inadvertently reveal sensitive attribute information about their classes, raising concerns about their privacy. To investigate this privacy leakage, we introduce the first Class Attribute Inference Attack (CAIA), which leverages recent advances in text-to-image synthesis to infer sensitive attributes of individual classes in a black-box setting, while remaining competitive with related white-box attacks. Our extensive experiments in the face recognition domain show that CAIA can accurately infer undisclosed sensitive attributes, such as an individual's hair color, gender, and racial appearance, which are not part of the training labels. Interestingly, we demonstrate that adversarial robust models are even more vulnerable to such privacy leakage than standard models, indicating that a trade-off between robustness and privacy exists. | 翻訳日:2023-06-14 17:35:27 公開日:2023-06-13 |
# 強弱障害XXZモデルにおける最も遅い、かつ高速な情報スクランブル Slowest and Fastest Information Scrambling in the Strongly Disordered XXZ Model ( http://arxiv.org/abs/2303.08801v2 ) ライセンス: Link先を確認 | Myeonghyeon Kim, Dong-Hee Kim | (参考訳) 深部多体局在状態における強弱乱れハイゼンベルクXXZモデルにおいて、時間外順序相関を計算するための摂動法を提案する。
固有状態全体にわたる情報伝達の離散構造を特徴とし,本システムで利用可能な最も遅くて速いスクランブルを表わす厳密な対数上界と下界に閉じ込められた高度に構造化された光円錐を明らかにした。
これらの境界を、最も遅いスクランブルの効果的な相互作用の閉形式表現を導出し、最速スクランブルの半長さの有効モデルを構築して説明する。
我々は、低次摂動式を高次元に拡張し、対数上層と下層光円錐は、強い乱れと弱いホッピングの限界において有限の2次元系で持続する可能性を示唆する。 We present a perturbation method to compute the out-of-time-ordered correlator in the strongly disordered Heisenberg XXZ model in the deep many-body localized regime. We characterize the discrete structure of the information propagation across the eigenstates, revealing a highly structured light cone confined by the strictly logarithmic upper and lower bounds representing the slowest and fastest scrambling available in this system. We explain these bounds by deriving the closed-form expression of the effective interaction for the slowest scrambling and by constructing the effective model of a half-length for the fastest scrambling. We extend our lowest-order perturbation formulations to the higher dimensions, proposing that the logarithmic upper and lower light cones may persist in a finite two-dimensional system in the limit of strong disorder and weak hopping. | 翻訳日:2023-06-14 17:35:09 公開日:2023-06-13 |
# フォールトトレラント量子コンピュータにおける短深さ量子回路を用いた多重固有値の同時推定 Simultaneous estimation of multiple eigenvalues with short-depth quantum circuit on early fault-tolerant quantum computers ( http://arxiv.org/abs/2303.05714v3 ) ライセンス: Link先を確認 | Zhiyan Ding and Lin Lin | (参考訳) 初期のフォールトトレラント量子コンピュータ上で量子ハミルトニアンの複数の固有値を同時に推定するマルチモーダル・マルチレベル量子複素指数最小二乗法(MM-QCELS)を提案する。
理論的解析により,このアルゴリズムは回路深さと総コストの点でハイゼンベルク制限スケーリングを示すことを示した。
特に、提案された量子回路は1アンシラ量子ビットのみを使用し、適切な初期状態条件により量子位相推定(qpe)に基づく回路に比べて回路深度がかなり短い。
数値結果は、qpeと比較して、ある量子系の基底状態と励起状態エネルギーを推定するためのいくつかの設定の下で、回路の深さを約2桁小さくできることを示唆している。 We introduce a multi-modal, multi-level quantum complex exponential least squares (MM-QCELS) method to simultaneously estimate multiple eigenvalues of a quantum Hamiltonian on early fault-tolerant quantum computers. Our theoretical analysis demonstrates that the algorithm exhibits Heisenberg-limited scaling in terms of circuit depth and total cost. Notably, the proposed quantum circuit utilizes just one ancilla qubit, and with appropriate initial state conditions, it achieves significantly shorter circuit depths compared to circuits based on quantum phase estimation (QPE). Numerical results suggest that compared to QPE, the circuit depth can be reduced by around two orders of magnitude under several settings for estimating ground-state and excited-state energies of certain quantum systems. | 翻訳日:2023-06-14 17:34:27 公開日:2023-06-13 |
# MACARONS: RGBオンラインセルフスーパービジョンによるマッピングとカバレッジ予測 MACARONS: Mapping And Coverage Anticipation with RGB Online Self-Supervision ( http://arxiv.org/abs/2303.03315v2 ) ライセンス: Link先を確認 | Antoine Gu\'edon, Tom Monnier, Pascal Monasse and Vincent Lepetit | (参考訳) カラー画像のみから,新たな大規模環境の探索と3次元再構成を同時に行う方法を提案する。
これはNext Best View問題(NBV)と密接に関係しており、未知のシーンのカバレッジを改善するために、カメラの移動先を特定する必要がある。
しかし、現在のNBV手法のほとんどは深度センサーに依存しており、3Dの監視や大規模なシーンへのスケーリングは必要ではない。
私たちの方法はカラーカメラだけで、3D監視は不要です。
これは同時に自己教師方式で学習し、カラー画像から「体積占有場」を予測し、このフィールドからnbvを予測する。
このアプローチにより,本手法はトレーニング3Dデータに偏りがないため,新しいシーンでうまく機能する。
様々な3Dシーンからなる最近のデータセットでこれを実証し、近年の深度センサーを必要とする手法よりも優れた性能を示し、これは飛行ドローンで撮影する屋外シーンの現実的な仮定ではない。 We introduce a method that simultaneously learns to explore new large environments and to reconstruct them in 3D from color images only. This is closely related to the Next Best View problem (NBV), where one has to identify where to move the camera next to improve the coverage of an unknown scene. However, most of the current NBV methods rely on depth sensors, need 3D supervision and/or do not scale to large scenes. Our method requires only a color camera and no 3D supervision. It simultaneously learns in a self-supervised fashion to predict a "volume occupancy field" from color images and, from this field, to predict the NBV. Thanks to this approach, our method performs well on new scenes as it is not biased towards any training 3D data. We demonstrate this on a recent dataset made of various 3D scenes and show it performs even better than recent methods requiring a depth sensor, which is not a realistic assumption for outdoor scenes captured with a flying drone. | 翻訳日:2023-06-14 17:34:12 公開日:2023-06-13 |
# xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval ( http://arxiv.org/abs/2303.03004v3 ) ライセンス: Link先を確認 | Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi Wang, Md Rizwan Parvez, Shafiq Joty | (参考訳) 問題に対する解決策としてコードを作成したり、開発者がコードを書くのを助けるAIシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。
近年、事前訓練された大規模言語モデルでは、自然言語記述からコードを生成する能力、バギーコードの修正、言語間のコード変換、関連するコードセグメントの検索が印象的になっている。
しかしながら、これらのモデルの評価は、1つまたは2つの特定のタスクだけに分散して行われ、いくつかの言語では、部分的な粒度(例えば関数)レベルで行われ、多くの場合、適切なトレーニングデータを持たない。
さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は、実際の実行ではなく、参照コードと単なる語彙的に重複しているという点である。
これまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。25万のドキュメントレベルコーディング例(16.5Bトークン)は、実行レベル並列性を持つ11のプログラミング言語をカバーする7.5Kのユニークな問題から成り立っている。
コード理解、生成、翻訳、検索を含む合計7つのタスクが特徴である。
xCodeEvalは実行ベースの評価を採用し、11言語すべてでユニットテストベースの実行をサポートする多言語コード実行エンジンであるExecEvalを提供する。
バリデーション/テストセットにおける複数の属性に対するテキストコードサンプルの分散化の課題に対処するため,さらに,幾何学平均とグラフ理論に基づく新しいデータ分割とデータ選択スキーマを提案する。
すべてのタスクと言語の実験的結果から、xCodeEvalは、現在の言語モデルの進歩と同様に、有望だが挑戦的なベンチマークであることがわかる。 AI systems that can create codes as solutions to problems or assist developers in writing codes can increase productivity and make programming more accessible. Recently, pre-trained large language models have shown impressive abilities in generating codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level, and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap with a reference code rather than actual execution. We introduce xCodeEval, the largest executable multilingual multitask benchmark to date consisting of 25M document-level coding examples (16.5B tokens) from about 7.5K unique problems covering up to 11 programming languages with execution-level parallelism. It features a total of seven tasks involving code understanding, generation, translation and retrieval. xCodeEval adopts an execution-based evaluation and offers a multilingual code execution engine, ExecEval that supports unit test based execution in all the 11 languages. To address the challenge of balancing the distributions of text-code samples over multiple attributes in validation/test sets, we further propose a novel data splitting and a data selection schema based on the geometric mean and graph-theoretic principle. Experimental results on all the tasks and languages show xCodeEval is a promising yet challenging benchmark as per the current advancements in language models. | 翻訳日:2023-06-14 17:33:55 公開日:2023-06-13 |
# 平帯局在と相互作用誘起光子の非局在化 Flat-band localization and interaction-induced delocalization of photons ( http://arxiv.org/abs/2303.02170v2 ) ライセンス: Link先を確認 | Jeronimo G.C. Martinez, Christie S. Chiu, Basil M. Smitham, Andrew A. Houck | (参考訳) 量子工学の進歩により、合成凝縮体系の設計、測定、精密制御が可能となった。
超伝導回路のプラットフォームは、様々な格子ジオメトリーを可能にする回路要素の柔軟な接続と、強く相互作用する物理へのアクセスを提供する回路非線形性という2つの機能を提供している。
それとは別に、これらの特徴は曲線空間格子の作成と、強相関位相と1次元鎖と正方格子のダイナミクスの実現を可能にした。
この一連のシミュレーションの欠如は、分散のないフラットバンドのようなユニークなバンド分散を持つ格子への相互作用粒子の同時結合である。
フラットバンド物理学のための理想的なビルディングブロックは、アハラノフ・ボームケージ(Aharonov-Bohm cage)である。
ここでは、アハロノフ・ボームケージを実験的に構築し、全バンドフラット物理学の要点である単一光子の局在を観測する。
相互作用結合した光子対をケージに配置すると、アハラノフ・ボーム・カイジングからの脱出を示す非局在のウォークが現れる。
さらに,ケージの反対側に初期化された2つの粒子に対して,カウジングの変動が持続することがわかった。
これらの結果は、相互作用によって非局在化され、強い相互作用を持つフラットバンド格子ダイナミクスの研究のために超伝導回路を確立する量子ウォークの最初の実験的観察を示す。 Advances in quantum engineering have enabled the design, measurement, and precise control of synthetic condensed matter systems. The platform of superconducting circuits offers two particular capabilities: flexible connectivity of circuit elements that enables a variety of lattice geometries, and circuit nonlinearity that provides access to strongly interacting physics. Separately, these features have allowed for the creation of curved-space lattices and the realization of strongly correlated phases and dynamics in one-dimensional chains and square lattices. Missing in this suite of simulations is the simultaneous integration of interacting particles into lattices with unique band dispersions, such as dispersionless flat bands. An ideal building block for flat-band physics is the Aharonov-Bohm cage: a single plaquette of a lattice whose band structure consists entirely of flat bands. Here, we experimentally construct an Aharonov-Bohm cage and observe the localization of a single photon, the hallmark of all-bands-flat physics. Upon placing an interaction-bound photon pair into the cage, we see a delocalized walk indicating an escape from Aharonov-Bohm caging. We further find that a variation of caging persists for two particles initialized on opposite sites of the cage. These results mark the first experimental observation of a quantum walk that becomes delocalized due to interactions and establish superconducting circuits for studies of flat-band-lattice dynamics with strong interactions. | 翻訳日:2023-06-14 17:33:29 公開日:2023-06-13 |
# 双対性ツイスト境界条件をもつ非可積分フロケイジングモデル Non-integrable Floquet Ising model with duality twisted boundary conditions ( http://arxiv.org/abs/2304.05488v3 ) ライセンス: Link先を確認 | Aditi Mitra, Hsiu-Chung Yeh, Fei Yan, and Achim Rosch | (参考訳) 双対性ツイスト境界条件を持つフロッケイジング鎖に対して, 4-フェルミオン相互作用の形での弱可積分性の破れの役割を考慮に入れて, 結果が示される。
可積分の場合、単一の孤立マヨラナ零モードが存在し、これはフロケユニタリとフロケユニタリの$Z_2$対称性の両方で可換であるという意味で対称性である。
積分性が弱く、ともに$Z_2$対称性を保存または破る方法で破られるとき、マヨラナ零モードは小さなシステムサイズで保存される。
これは無限温度自己相関関数のダイナミクスに反映され、積分可能性破断項の強さによって制御される初期過渡関数の後、時間とともに崩壊しない台地に近づく。
高原の高さは、数値的に構築された保存量と一致し、システムサイズの増加とともに減少する。
台地の存在とより大きなシステムサイズに対する消滅は、積分可能性と破壊的相互作用によって引き起こされるフォック空間の局所的非局在化遷移と密接に関連していると論じられている。 Results are presented for a Floquet Ising chain with duality twisted boundary conditions, taking into account the role of weak integrability breaking in the form of four-fermion interactions. In the integrable case, a single isolated Majorana zero mode exists which is a symmetry in the sense that it commutes both with the Floquet unitary and the $Z_2$ symmetry of the Floquet unitary. When integrability is weakly broken, both in a manner so as to preserve or break the $Z_2$ symmetry, the Majorana zero mode is still found to be conserved for small system sizes. This is reflected in the dynamics of an infinite temperature autocorrelation function which, after an initial transient that is controlled by the strength of the integrability breaking term, approaches a plateau that does not decay with time. The height of the plateau agrees with a numerically constructed conserved quantity, and is found to decrease with increasing system sizes. It is argued that the existence of the plateau and its vanishing for larger system sizes is closely related to a localization-delocalization transition in Fock space triggered by the integrability-breaking interactions. | 翻訳日:2023-06-14 17:27:49 公開日:2023-06-13 |
# Co-MLを用いた家族による協調型機械学習モデルの構築 Collaborative Machine Learning Model Building with Families Using Co-ML ( http://arxiv.org/abs/2304.05444v2 ) ライセンス: Link先を確認 | Tiffany Tseng, Jennifer King Chen, Mona Abdelrahman, Mary Beth Kery, Fred Hohman, Adriana Hilliard, R. Benjamin Shapiro | (参考訳) 既存の初心者フレンドリーな機械学習(ml)モデリングツールは、単一のユーザエクスペリエンスを中心に、単一のユーザが自身のデータのみを収集してモデルを構築する。
しかし、単体モデリングの経験は、学習者が一緒に働くときに起こりうる代替のアイデアやアプローチに遭遇する貴重な機会を制限している。
この問題に対処するため、私たちはco-mlを開発した。これはタブレットベースのアプリで、学習者がエンドツーエンドの反復的なモデル構築プロセスを通じてmlイメージ分類器を共同構築する。
本稿では,家庭内導入型ml活動にco-mlを用いた家族(11歳,14歳,11歳,11歳)の詳細なケーススタディを行い,協調モデリングの実現可能性と潜在的豊かさについて述べる。
我々は、Co-MLシステム設計を共有し、コラボレーティブアクティビティにおけるCo-MLの使用によって、初心者がデータ多様性、クラス不均衡、データ品質といった以前の作業で不足していたデータセット設計の考察をまとめて行うことができるかについて議論する。
個人が異なるモデル構築責任を負う分散協調プロセスが、子供や大人がMLデータセット設計を学ぶためのリッチなコンテキストを提供する方法について論じる。 Existing novice-friendly machine learning (ML) modeling tools center around a solo user experience, where a single user collects only their own data to build a model. However, solo modeling experiences limit valuable opportunities for encountering alternative ideas and approaches that can arise when learners work together; consequently, it often precludes encountering critical issues in ML around data representation and diversity that can surface when different perspectives are manifested in a group-constructed data set. To address this issue, we created Co-ML -- a tablet-based app for learners to collaboratively build ML image classifiers through an end-to-end, iterative model-building process. In this paper, we illustrate the feasibility and potential richness of collaborative modeling by presenting an in-depth case study of a family (two children 11 and 14-years-old working with their parents) using Co-ML in a facilitated introductory ML activity at home. We share the Co-ML system design and contribute a discussion of how using Co-ML in a collaborative activity enabled beginners to collectively engage with dataset design considerations underrepresented in prior work such as data diversity, class imbalance, and data quality. We discuss how a distributed collaborative process, in which individuals can take on different model-building responsibilities, provides a rich context for children and adults to learn ML dataset design. | 翻訳日:2023-06-14 17:27:29 公開日:2023-06-13 |
# 半教師付きリレーショナルコントラスト学習 Semi-Supervised Relational Contrastive Learning ( http://arxiv.org/abs/2304.05047v2 ) ライセンス: Link先を確認 | Attiano Purpura-Pontoniere, Demetri Terzopoulos, Adam Wang, Abdullah-Al-Zubaer Imran | (参考訳) 教師付き学習による医療画像からの疾患診断は、通常、医療専門家による退屈でエラーを起こしやすい画像ラベリングに依存する。
あるいは、半教師付き学習と自己教師付き学習は、容易に利用可能なラベル付き画像から貴重な洞察を得ることによって有効性を提供する。
自己教師付きコントラスト損失とサンプル関係一貫性を利用した,ラベルなしデータのより有意義で効果的な活用のための,新しい半教師付きコントラスト学習モデルsrclを提案する。
SRCLモデルを用いた実験では,事前学習と事前学習(コントラスト学習)と下流学習(診断的分類)の両方を探索する。
我々は,ISIC 2018 Challengeベンチマーク皮膚病変分類データセットに対して検証を行い,各種ラベル付きデータに対する半教師あり手法の有効性を実証した。 Disease diagnosis from medical images via supervised learning is usually dependent on tedious, error-prone, and costly image labeling by medical experts. Alternatively, semi-supervised learning and self-supervised learning offer effectiveness through the acquisition of valuable insights from readily available unlabeled images. We present Semi-Supervised Relational Contrastive Learning (SRCL), a novel semi-supervised learning model that leverages self-supervised contrastive loss and sample relation consistency for the more meaningful and effective exploitation of unlabeled data. Our experimentation with the SRCL model explores both pre-train/fine-tune and joint learning of the pretext (contrastive learning) and downstream (diagnostic classification) tasks. We validate against the ISIC 2018 Challenge benchmark skin lesion classification dataset and demonstrate the effectiveness of our semi-supervised method on varying amounts of labeled data. | 翻訳日:2023-06-14 17:27:03 公開日:2023-06-13 |
# Rewardsは意味を正当化するのか?
マチャイアヴェリベンチマークにおける報酬と倫理的行動のトレードオフの測定 Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark ( http://arxiv.org/abs/2304.03279v4 ) ライセンス: Link先を確認 | Alexander Pan, Jun Shern Chan, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks | (参考訳) 人工エージェントは伝統的に報酬を最大化するために訓練されており、これは言語モデル(lms)における次の予測が毒性をインセンティブ化するのと同様に、パワーシーキングとデセプションにインセンティブを与える可能性がある。
エージェントは自然にMachiavellianになることを学ぶのか?
gpt-4のような汎用モデルではどのように振舞いを測定するのか?
これらの質問に答えるために,社会意思決定を中心とした50万以上のリッチで多様なシナリオを含む134のChoose-Your-Own-AdventureゲームのベンチマークであるMaCHIAVELLIを紹介した。
シナリオラベリングは、人間のアノテーションよりも高性能なLMで自動化される。
我々は、数十の有害な行為を分類し、私たちのアノテーションを使用して、エージェントのパワー探索傾向を評価し、不使用を引き起こし、倫理的違反を犯す。
報酬の最大化と倫理的行動の緊張関係を観察する。
このトレードオフを改善するため, 有害な行為を抑えるため, LMを用いたエージェントの操舵法について検討した。
以上の結果から,エージェントは有能かつ道徳的に行動できるため,安全と能力の両立が容易な機械倫理設計エージェントにおいて,現在具体的進展が期待できることがわかった。 Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents' tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents' towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics--designing agents that are Pareto improvements in both safety and capabilities. | 翻訳日:2023-06-14 17:26:46 公開日:2023-06-13 |
# 2次元レイリー対流の効果的制御:不変多エージェント強化学習は必要なすべてである Effective control of two-dimensional Rayleigh--B\'enard convection: invariant multi-agent reinforcement learning is all you need ( http://arxiv.org/abs/2304.02370v2 ) ライセンス: Link先を確認 | Colin Vignon, Jean Rabault, Joel Vasanth, Francisco Alc\'antara-\'Avila, Mikael Mortensen, Ricardo Vinuesa | (参考訳) レイリー・b・エナード対流(rayleigh-b\'enard convection, rbc)は、いくつかの工業的・地学的な流れにおける再帰現象であり、基本的な流体力学の観点からよく研究されたシステムである。
しかし、例えば、標準RBC構成における底板加熱の空間分布を調節することでRBCを制御することは、古典的な制御理論法では難しいトピックである。
本研究では,RBC制御に深部強化学習(DRL)を適用した。
広チャネル内のRBCフローに固有の局所性と翻訳的不変性を生かした,不変なマルチエージェント強化学習(MARL)を活用することで,有効なRBC制御が得られることを示す。
RBCに適用されたMARLフレームワークは、DRLアクションサイズ寸法の単純な増加に起因する次元性の呪いに遭遇することなく、制御セグメントの数を増やすことができる。
これは、RBCドメインの異なる部分で生成された知識を再利用するMARL機能によって実現されている。
そこで本研究では,mall drlが自発的なrbc二重細胞パターンを不安定化させ,隣接する対流細胞を結合させることでrbcのトポロジーを変化させる高度な制御戦略を見いだし,その結果得られる合体細胞を積極的に制御し,新たな安定した構成へと導くことができることを示す。
この変化した流れは対流熱伝達を減少させ、いくつかの産業プロセスで有用である。
そこで本研究は,大規模RBCシステムを制御するためのMARL DRLの可能性を示すとともに,RBC構成を異なる位相構成間で移動させ,好適な熱伝達特性をもたらす戦略をDRLが発見できる可能性を示す。
これらの結果は、RBCの本質的な性質のさらなる理解と産業応用の開発に有用である。 Rayleigh-B\'enard convection (RBC) is a recurrent phenomenon in several industrial and geoscience flows and a well-studied system from a fundamental fluid-mechanics viewpoint. However, controlling RBC, for example by modulating the spatial distribution of the bottom-plate heating in the canonical RBC configuration, remains a challenging topic for classical control-theory methods. In the present work, we apply deep reinforcement learning (DRL) for controlling RBC. We show that effective RBC control can be obtained by leveraging invariant multi-agent reinforcement learning (MARL), which takes advantage of the locality and translational invariance inherent to RBC flows inside wide channels. The MARL framework applied to RBC allows for an increase in the number of control segments without encountering the curse of dimensionality that would result from a naive increase in the DRL action-size dimension. This is made possible by the MARL ability for re-using the knowledge generated in different parts of the RBC domain. We show in a case study that MARL DRL is able to discover an advanced control strategy that destabilizes the spontaneous RBC double-cell pattern, changes the topology of RBC by coalescing adjacent convection cells, and actively controls the resulting coalesced cell to bring it to a new stable configuration. This modified flow configuration results in reduced convective heat transfer, which is beneficial in several industrial processes. Therefore, our work both shows the potential of MARL DRL for controlling large RBC systems, as well as demonstrates the possibility for DRL to discover strategies that move the RBC configuration between different topological configurations, yielding desirable heat-transfer characteristics. These results are useful for both gaining further understanding of the intrinsic properties of RBC, as well as for developing industrial applications. | 翻訳日:2023-06-14 17:26:13 公開日:2023-06-13 |
# 修正フェルミの黄金律率表現 Modified Fermi's golden rule rate expressions ( http://arxiv.org/abs/2304.00572v2 ) ライセンス: Link先を確認 | Seogjoo J. Jang and Young Min Rhee | (参考訳) フェルミの黄金律(FGR)は、分光観測可能量や量子遷移率の多くの表現の基礎となっている。
FGRの有用性は何十年にもわたって実験的に確認されてきた。
しかし、fgr率の評価が曖昧か不明確な場合にも重要なケースが残っている。
例としては、最終状態の密度のスパース性や系のハミルトニアンの時間依存揺らぎによる分散項がある。
厳密に言えば、FGR の仮定はそのような場合ではもはや有効ではない。
しかし、有効なレートとして有用な修正FGRレート式を定義することは依然として可能である。
修正されたFGRレート表現は、FGRの使用でしばしば遭遇する長時間のあいまいさを解消し、一般的なレートプロセスのモデル化のためのより信頼性の高い方法を提供する。
単純なモデル計算は、新しいレート式の有用性と意味を示している。 Fermi's golden rule (FGR) serves as the basis for many expressions of spectroscopic observables and quantum transition rates. The utility of FGR has been demonstrated through decades of experimental confirmation. However, there still remain important cases where the evaluation of a FGR rate is ambiguous or ill-defined. Examples are cases where the rate has divergent terms due to the sparsity in the density of final states or time dependent fluctuations of system Hamiltonians. Strictly speaking, assumptions of FGR are no longer valid for such cases. However, it is still possible to define modified FGR rate expressions that are useful as effective rates. The resulting modified FGR rate expressions resolve a long standing ambiguity often encountered in using FGR and offer more reliable ways to model general rate processes. Simple model calculations illustrate the utility and implications of new rate expressions. | 翻訳日:2023-06-14 17:25:37 公開日:2023-06-13 |
# 病理画像の大規模事前トレーニングによる小診断基準の微調整 Large-scale pretraining on pathological images for fine-tuning of small pathological benchmarks ( http://arxiv.org/abs/2303.15693v2 ) ライセンス: Link先を確認 | Masataka Kawai, Noriaki Ota, Shinsuke Yamaoka | (参考訳) 大規模な画像データセット上でディープラーニングモデルを事前トレーニングすることは、小さなターゲットデータセット上でモデルを微調整する標準的なステップである。
大きなデータセットは通常一般的なイメージ(例: imagenet2012)であり、小さなデータセットは大きなデータセットとは異なる分布を持つ特殊なデータセットである。
しかし、この「大規模から小規模な」戦略は、大きなデータセットが特殊化され、小さなデータセットに類似した分布を持つ場合、十分に検証されない。
我々は新たに3つのヘマトキシリンとエオシンに安定な画像データセット,1つの大きなPTCGA200と2つの倍率調整された小さなデータセット(PCam200とsegPANDA200)をコンパイルした。
主要なディープラーニングモデルは、教師付きおよび自己教師付き学習法で訓練され、腫瘍分類および組織分割ベンチマークのための小さなデータセットを微調整した。
MoCov2、SimCLR、BYOLで事前訓練されたResNet50は、PTCGA200で微調整されたときのイメージネット2012より優れていた(それぞれ83.94%、86.41%、84.91%、82.72%)。
mocov2でptcga200で事前トレーニングされたresnet50は、cocotrain2017でトレーニングされたベースラインを上回り、resnet50では組織分割ベンチマーク(miouは63.53%と63.22%)で最高であった。
PTCGA200のダウンストリームベンチマークでは,イメージネット事前学習モデル (ResNet50, BiT-M-R50x1, ViT-S/16) が改良された。 Pretraining a deep learning model on large image datasets is a standard step before fine-tuning the model on small targeted datasets. The large dataset is usually general images (e.g. imagenet2012) while the small dataset can be specialized datasets that have different distributions from the large dataset. However, this 'large-to-small' strategy is not well-validated when the large dataset is specialized and has a similar distribution to small datasets. We newly compiled three hematoxylin and eosin-stained image datasets, one large (PTCGA200) and two magnification-adjusted small datasets (PCam200 and segPANDA200). Major deep learning models were trained with supervised and self-supervised learning methods and fine-tuned on the small datasets for tumor classification and tissue segmentation benchmarks. ResNet50 pretrained with MoCov2, SimCLR, and BYOL on PTCGA200 was better than imagenet2012 pretraining when fine-tuned on PTCGA200 (accuracy of 83.94%, 86.41%, 84.91%, and 82.72%, respectively). ResNet50 pre-trained on PTCGA200 with MoCov2 exceeded the COCOtrain2017-pretrained baseline and was the best in ResNet50 for the tissue segmentation benchmark (mIoU of 63.53% and 63.22%). We found re-training imagenet-pretrained models (ResNet50, BiT-M-R50x1, and ViT-S/16) on PTCGA200 improved downstream benchmarks. | 翻訳日:2023-06-14 17:25:22 公開日:2023-06-13 |
# 調和振動子検出器間の相対論的量子通信 Relativistic quantum communication between harmonic oscillator detectors ( http://arxiv.org/abs/2303.13162v2 ) ライセンス: Link先を確認 | Alessio Lapponi, Dimitris Moustos, David Edward Bruschi, Stefano Mancini | (参考訳) ミンコフスキー時空のスカラー場を介して相互作用する2つの高調波発振器検出器を用いた通信モデルを提案する。
このように、スカラー場は量子チャネル、すなわちボソニック・ガウスチャネルの役割を担っている。
通信チャネルの古典的および量子的容量は、検出器の空間次元が距離に対して無視できると仮定して発見される。
特に、検出器-フィールド相互作用が様々な検出器の周波数と磁場との結合強度に切り替わってからの古典的容量の進化について検討する。
その結果、これらのパラメータの有限値が古典的メッセージの通信を最適化することがわかった。
代わりに、量子メッセージの信頼できる通信は、常に阻害されることが判明した。 We propose a model of communication employing two harmonic oscillator detectors interacting through a scalar field in a background Minkowski spacetime. In this way, the scalar field plays the role of a quantum channel, namely a Bosonic Gaussian channel. The classical and quantum capacities of the communication channel are found, assuming that the detectors' spatial dimensions are negligible compared to their distance. In particular, we study the evolution in time of the classical capacity after the detectors-field interaction is switched on for various detectors' frequencies and coupling strengths with the field. As a result, we find a finite value of these parameters optimizing the communication of classical messages. Instead, a reliable communication of quantum messages turns out to be always inhibited. | 翻訳日:2023-06-14 17:24:50 公開日:2023-06-13 |
# ライドバーグ原子アレイにおけるフロケ・リンド工学によるグリーンベルガー・ホルン・ザイリンガーと$W$状態の高忠実変換 High-fidelity interconversion between Greenberger-Horne-Zeilinger and $W$ states through Floquet-Lindblad engineering in Rydberg atom arrays ( http://arxiv.org/abs/2303.13039v2 ) ライセンス: Link先を確認 | X. Q. Shao, F. Liu, X. W. Xue, W. L. Mu, Weibin Li | (参考訳) Greenberger-Horne-Zeilinger および W 状態は、局所的な操作や古典的な通信によって互いに変換できない真の三部構造を持つ。
ここでは,グリーンベルガー・ホルン・ザイリンガーとW状態の3つの中性$^{87}$Rb原子間の決定論的相互変換の散逸的プロトコルを2次元アレイの等辺三角形に配置する。
リードベルク原子の3つの原子準位と対角ファンデルワールス相互作用により、周期光学ポンプと散逸工学を通して、三部体の絡み合った状態間の相互変換をフロケ・リンドブラッドの枠組みで効率的に行うことができる。
現在の中性原子プラットフォームにアクセスできる実験パラメータを用いて,既存の方法論の有効性を評価する。
本手法は,レーザー位相ノイズや原子配列の幾何学的欠陥など,典型的な雑音に対して頑健であることがわかった。
さらに,本手法はガウスソフト量子制御手法と統合でき,全体的な変換時間を更に短縮し,タイミングエラーや原子間距離の変動に対する回復力を高める。
高忠実で堅牢な三部結合変換プロトコルは、物理資源を節約し、中立原子配列によって形成される量子ネットワークの計算効率を高める経路を提供する。 Greenberger-Horne-Zeilinger and W states feature genuine tripartite entanglement that cannot be converted into each other by local operations and classical communication. Here, we present a dissipative protocol for deterministic interconversion between Greenberger-Horne-Zeilinger and W states of three neutral $^{87}$Rb atoms arranged in an equilateral triangle of a two-dimensional array. With three atomic levels and diagonal van der Waals interactions of Rydberg atoms, the interconversion between tripartite entangled states can be efficiently accomplished in the Floquet-Lindblad framework through the periodic optical pump and dissipation engineering. We evaluate the feasibility of the existing methodology using the experimental parameters accessible to current neutral-atom platforms. We find that our scheme is robust against typical noises, such as laser phase noise and geometric imperfections of the atom array. In addition, our scheme can integrate the Gaussian soft quantum control technique, which further reduces the overall conversion time and increases the resilience to timing errors and interatomic distance fluctuations. The high-fidelity and robust tripartite entanglement interconversion protocol provides a route to save physical resources and enhance the computational efficiency of quantum networks formed by neutral-atom arrays. | 翻訳日:2023-06-14 17:24:39 公開日:2023-06-13 |
# DELTA: CTR予測のための微調整意識を用いた動的埋め込み学習 DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for CTR Prediction ( http://arxiv.org/abs/2305.04891v2 ) ライセンス: Link先を確認 | Chen Zhu, Liang Du, Hong Chen, Shuang Zhao, Zixun Sun, Xin Wang, Wenwu Zhu | (参考訳) CTR(Click-Through Rate)予測は製品とコンテンツの推奨において重要なタスクであり、効果的な機能の埋め込みを学ぶことが非常に重要である。
しかし、伝統的な手法は通常、文脈情報に従って特徴表現を動的に精錬することなく固定的な特徴表現を学習し、最適な性能をもたらす。
最近のアプローチでは、ビット単位の重み付けや特徴表現のための拡張埋め込みを学習することでこの問題に対処しようとしているが、文脈において非形式的あるいは冗長な特徴に苦しめられている。
意識処理におけるグローバルワークスペース理論(Global Workspace Theory)に着想を得て、製品の特徴の特定のサブセットのみに関係があり、残りはノイズがあり、人間のクリック行動に有害である、と仮定し、CTRモデルを提案する。
DELTAには2つの重要な要素がある: (I) 意識的トランケーションモジュール (CTM) カリキュラム学習を利用して、注意重みに適応的トランケーションを適用して、コンテキスト内で最も重要な特徴を選択する (II) 明示的埋め込み最適化 (EEO) 学習中に補助的なタスクを適用し、損失層から埋め込み層への勾配を直接かつ独立に伝播し、線形的特徴交差を介して明示的に埋め込みを最適化する。
5つの挑戦的CTRデータセットに対する大規模な実験は、DELTAが現在のCTR手法で新しい最先端性能を達成することを示した。 Click-Through Rate (CTR) prediction is a pivotal task in product and content recommendation, where learning effective feature embeddings is of great significance. However, traditional methods typically learn fixed feature representations without dynamically refining feature representations according to the context information, leading to suboptimal performance. Some recent approaches attempt to address this issue by learning bit-wise weights or augmented embeddings for feature representations, but suffer from uninformative or redundant features in the context. To tackle this problem, inspired by the Global Workspace Theory in conscious processing, which posits that only a specific subset of the product features are pertinent while the rest can be noisy and even detrimental to human-click behaviors, we propose a CTR model that enables Dynamic Embedding Learning with Truncated Conscious Attention for CTR prediction, termed DELTA. DELTA contains two key components: (I) conscious truncation module (CTM), which utilizes curriculum learning to apply adaptive truncation on attention weights to select the most critical feature in the context; (II) explicit embedding optimization (EEO), which applies an auxiliary task during training that directly and independently propagates the gradient from the loss layer to the embedding layer, thereby optimizing the embedding explicitly via linear feature crossing. Extensive experiments on five challenging CTR datasets demonstrate that DELTA achieves new state-of-art performance among current CTR methods. | 翻訳日:2023-06-14 17:17:16 公開日:2023-06-13 |
# マルチモーダルGPT:人との対話のためのビジョンと言語モデル MultiModal-GPT: A Vision and Language Model for Dialogue with Humans ( http://arxiv.org/abs/2305.04790v3 ) ライセンス: Link先を確認 | Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen | (参考訳) 本稿では,マルチモーダルgptというビジョンと言語モデルを提案する。
マルチモーダルGPTは、詳細なキャプションの作成、興味のあるオブジェクトの数を数え、ユーザからの一般的な質問に答えるなど、人間からのさまざまな指示に従うことができる。
MultiModal-GPTはOpenFlamingoからパラメータ効率よく微調整され、言語モデルのクロスアテンション部分と自己アテンション部分にローランクアダプタ(LoRA)が追加された。
まず,マルチモダリティ・インストラクション・チューニングのための視覚と言語データを用いたインストラクションテンプレートを構築し,モデルが人間の指示を理解し従わせるようにした。
学習データの品質は対話のパフォーマンスに不可欠であり、短い回答を含むデータが少ないと、モデルがどんな指示にもすぐに反応する可能性がある。
マルチモーダルGPTの人間とチャットする能力をさらに強化するために,言語のみの指示追従データを用いて,マルチモーダルGPTを共同で訓練する。
emph{same} 命令テンプレートによる言語のみおよび視覚言語命令の併用訓練は,対話性能を効果的に向上させる。
様々なデモでは、マルチモーダルGPTと人間との連続的な対話能力を示している。
コード、データセット、デモはhttps://github.com/open-mmlab/multimodal-gpt We present a vision and language model named MultiModal-GPT to conduct multi-round dialogue with humans. MultiModal-GPT can follow various instructions from humans, such as generating a detailed caption, counting the number of interested objects, and answering general questions from users. MultiModal-GPT is parameter-efficiently fine-tuned from OpenFlamingo, with Low-rank Adapter (LoRA) added both in the cross-attention part and the self-attention part of the language model. We first construct instruction templates with vision and language data for multi-modality instruction tuning to make the model understand and follow human instructions. We find the quality of training data is vital for the dialogue performance, where few data containing short answers can lead the model to respond shortly to any instructions. To further enhance the ability to chat with humans of the MultiModal-GPT, we utilize language-only instruction-following data to train the MultiModal-GPT jointly. The joint training of language-only and visual-language instructions with the \emph{same} instruction template effectively improves dialogue performance. Various demos show the ability of continuous dialogue of MultiModal-GPT with humans. Code, dataset, and demo are at https://github.com/open-mmlab/Multimodal-GPT | 翻訳日:2023-06-14 17:16:46 公開日:2023-06-13 |
# pgb:異種ネットワーク表現学習のためのpubmed graphベンチマーク PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation Learning ( http://arxiv.org/abs/2305.02691v2 ) ライセンス: Link先を確認 | Eric W Lee, Joyce C Ho | (参考訳) 生物医学文献の急激な発展が見られたが、これらの論文の書誌情報の異質性は比較的調査されていない。
ヘテロジニアスなグラフニューラルネットワークによるグラフマイニングの研究が中心的だが、これらのアプローチが3300万以上の記事を含む巨大なデジタルリポジトリであるpubmedデータベースの多様性を捉えているかどうかは不明だ。
バイオメディカル文献のための異種グラフ埋め込みを評価するためのベンチマークデータセットであるPubMed Graph Benchmark (PGB)を紹介する。
PGBは、これまでで最大の異種ネットワークの1つで、3000万の英語記事で構成されている。
ベンチマークには、抽象、著者、引用、MeSH用語、MeSH階層、その他の情報を含む豊富なメタデータが含まれている。
ベンチマークには、体系的なレビュー、ノード分類、ノードクラスタリングを含む3つの異なる評価タスクが含まれている。
PGBでは、PubMedのバイオメディカル記事に関連するメタデータを統一したソースに集約し、将来の作業でベンチマークを公開します。 There has been a rapid growth in biomedical literature, yet capturing the heterogeneity of the bibliographic information of these articles remains relatively understudied. Although graph mining research via heterogeneous graph neural networks has taken center stage, it remains unclear whether these approaches capture the heterogeneity of the PubMed database, a vast digital repository containing over 33 million articles. We introduce PubMed Graph Benchmark (PGB), a new benchmark dataset for evaluating heterogeneous graph embeddings for biomedical literature. PGB is one of the largest heterogeneous networks to date and consists of 30 million English articles. The benchmark contains rich metadata including abstract, authors, citations, MeSH terms, MeSH hierarchy, and some other information. The benchmark contains three different evaluation tasks encompassing systematic reviews, node classification, and node clustering. In PGB, we aggregate the metadata associated with the biomedical articles from PubMed into a unified source and make the benchmark publicly available for any future works. | 翻訳日:2023-06-14 17:16:24 公開日:2023-06-13 |
# FormNetV2:フォーム文書情報抽出のためのマルチモーダルグラフコントラスト学習 FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction ( http://arxiv.org/abs/2305.02549v2 ) ライセンス: Link先を確認 | Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister | (参考訳) 近年、自己指導型事前学習技術が出現し、形式文書理解におけるマルチモーダル学習の利用が急増している。
しかしながら、マスク言語モデリングを他のモダリティに拡張する既存のアプローチでは、注意深いマルチタスクチューニング、複雑な再構築ターゲット設計、追加の事前トレーニングデータが必要である。
我々は,FormNetV2において,一損失におけるすべてのモダリティに対する自己教師付き事前学習を統一する,集中型マルチモーダルグラフコントラスト学習戦略を導入する。
グラフの対比的目的は多様表現の合意を最大化し、特別なカスタマイズなしにすべてのモダリティに対する自然な相互作用を提供する。
さらに,グラフエッジで接続された一対のトークンと結合するバウンディングボックス内の画像の特徴を抽出し,高度で個別に訓練された画像埋め込み装置をロードすることなく,より標的となる視覚的手がかりをキャプチャする。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。 The recent advent of self-supervised pre-training techniques has led to a surge in the use of multimodal learning in form document understanding. However, existing approaches that extend the mask language modeling to other modalities require careful multi-task tuning, complex reconstruction target designs, or additional pre-training data. In FormNetV2, we introduce a centralized multimodal graph contrastive learning strategy to unify self-supervised pre-training for all modalities in one loss. The graph contrastive objective maximizes the agreement of multimodal representations, providing a natural interplay for all modalities without special customization. In addition, we extract image features within the bounding box that joins a pair of tokens connected by a graph edge, capturing more targeted visual cues without loading a sophisticated and separately pre-trained image embedder. FormNetV2 establishes new state-of-the-art performance on FUNSD, CORD, SROIE and Payment benchmarks with a more compact model size. | 翻訳日:2023-06-14 17:16:00 公開日:2023-06-13 |
# 見ることは必ずしも信じるものではない:ai生成画像の人間とモデル知覚のベンチマーク Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images ( http://arxiv.org/abs/2304.13023v2 ) ライセンス: Link先を確認 | Zeyu Lu, Di Huang, Lei Bai, Jingjing Qu, Chengyue Wu, Xihui Liu, Wanli Ouyang | (参考訳) 写真は、人間が日常生活で何を経験したかを記録するための手段であり、しばしば信頼できる情報源と見なされる。
しかし、人工知能(AI)技術の進歩が偽の写真を生み出し、写真に対する混乱と信頼の低下を引き起こすのではないかという懸念が高まっている。
本研究の目的は、最先端のAI生成視覚コンテンツを識別するためのエージェントを包括的に評価することである。
我々の研究は、大規模なフェイク画像データセットFake2Mを用いて、人間の能力と最先端のフェイク画像検出AIアルゴリズムをベンチマークした。
HPBenchと題された人間の知覚評価では、人間が実際の写真をAI生成したものと区別するのに苦労し、誤分類率は38.7%であることがわかった。
これに伴い,ai生成画像検出評価mpbenchとmpbenchのtop-performingモデルのモデル能力は,人間評価と同じ条件下で13%の故障率を達成する。
我々の研究は、AI生成画像の潜在的なリスクに対する認識を高め、偽情報の拡散を防止するためにさらなる研究を促進することを願っている。
詳細はhttps://github.com/inf-imagine/sentryを参照。 Photos serve as a way for humans to record what they experience in their daily lives, and they are often regarded as trustworthy sources of information. However, there is a growing concern that the advancement of artificial intelligence (AI) technology may produce fake photos, which can create confusion and diminish trust in photographs. This study aims to comprehensively evaluate agents for distinguishing state-of-the-art AI-generated visual content. Our study benchmarks both human capability and cutting-edge fake image detection AI algorithms, using a newly collected large-scale fake image dataset Fake2M. In our human perception evaluation, titled HPBench, we discovered that humans struggle significantly to distinguish real photos from AI-generated ones, with a misclassification rate of 38.7%. Along with this, we conduct the model capability of AI-Generated images detection evaluation MPBench and the top-performing model from MPBench achieves a 13% failure rate under the same setting used in the human evaluation. We hope that our study can raise awareness of the potential risks of AI-generated images and facilitate further research to prevent the spread of false information. More information can refer to https://github.com/Inf-imagine/Sentry. | 翻訳日:2023-06-14 17:14:49 公開日:2023-06-13 |
# 確率過程学習のための条件生成モデル Conditional Generative Models for Learning Stochastic Processes ( http://arxiv.org/abs/2304.10382v3 ) ライセンス: Link先を確認 | Salvatore Certo, Anh Pham, Nicolas Robles, Andrew Vlasic | (参考訳) マルチモーダル分布を学習するための枠組みが提案され、条件付き量子生成逆逆ネットワーク (c-qgan) と呼ばれる。
ニューラルネットワークの構造は厳密に量子回路内にあり、その結果、現在の方法よりも効率的な状態準備手順を示すことが示される。
この手法はモンテカルロ解析のようなアルゴリズムを高速化する可能性がある。
特に、学習課題におけるネットワークの有効性を実証した後、アジアオプションデリバティブの価格設定に適用し、他の経路に依存した選択肢についてさらなる研究を行う基盤を提供する。 A framework to learn a multi-modal distribution is proposed, denoted as the Conditional Quantum Generative Adversarial Network (C-qGAN). The neural network structure is strictly within a quantum circuit and, as a consequence, is shown to represent a more efficient state preparation procedure than current methods. This methodology has the potential to speed-up algorithms, such as Monte Carlo analysis. In particular, after demonstrating the effectiveness of the network in the learning task, the technique is applied to price Asian option derivatives, providing the foundation for further research on other path-dependent options. | 翻訳日:2023-06-14 17:14:06 公開日:2023-06-13 |
# 確率過程からの量子力学 Quantum Mechanics from Stochastic Processes ( http://arxiv.org/abs/2304.07524v2 ) ライセンス: Link先を確認 | Folkert Kuipers | (参考訳) 我々は、非相対論的確率過程とシュロディンガー方程式の解と、相対論的確率過程とクライン・ゴルドン方程式の解の間の一対一対応を構築する。
この同値性の存在は、ローレンツの経路積分がイオ積分として定義できることを示唆している。
さらに、結果は量子論の確率的解釈を意味する。 We construct an explicit one-to-one correspondence between non-relativistic stochastic processes and solutions of the Schrodinger equation and between relativistic stochastic processes and solutions of the Klein-Gordon equation. The existence of this equivalence suggests that the Lorentzian path integral can be defined as an Ito integral, similar to the definition of the Euclidean path integral in terms of the Wiener integral. Moreover, the result implies a stochastic interpretation of quantum theories. | 翻訳日:2023-06-14 17:13:55 公開日:2023-06-13 |
# PaCE: プログレッシブ・コンポジションエキスパートによるマルチモーダル対話事前学習 PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts ( http://arxiv.org/abs/2305.14839v2 ) ライセンス: Link先を確認 | Yunshui Li, Binyuan Hui, ZhiChao Yin, Min Yang, Fei Huang and Yongbin Li | (参考訳) マルチモーダル情報の知覚と人間との対話の実現は、人工知能の長期的な目標である。
プレトレーニングは、一般的にマルチモーダル対話の効果的なアプローチと見なされる。
しかし、マルチモーダル対話データの入手が限られているため、マルチモーダル対話事前学習に関する研究はいまだに少ない。
しかし、他の興味深い課題は、様々なモダリティやタスクを含むマルチモーダル対話の包含性から生まれる。
さらに、新しいタスクの形式は、将来予測不可能なポイントで生まれる可能性がある。
したがって,マルチモーダル対話モデルでは,このようなシナリオに十分な柔軟性を持たせることが不可欠である。
本稿では,統一的,構造化,構成的多モーダル対話事前学習フレームワークである \textbf{pace} を提案する。
複数の対話関連タスクに対応するために、いくつかの基本的な専門家を組み合わせており、限られた対話と広範な非対話マルチモーダルデータを用いて事前訓練することができる。
さらに,過去の古参の専門家が,その能力拡大を促進するために,新しい専門家を支援できるプログレッシブトレーニング手法を提案する。
実験の結果,PaCEは8つのマルチモーダルダイアログベンチマークで最先端の結果を得ることができた。 Perceiving multi-modal information and fulfilling dialogues with humans is a long-term goal of artificial intelligence. Pre-training is commonly regarded as an effective approach for multi-modal dialogue. However, due to the limited availability of multi-modal dialogue data, there is still scarce research on multi-modal dialogue pre-training. Yet another intriguing challenge emerges from the encompassing nature of multi-modal dialogue, which involves various modalities and tasks. Moreover, new forms of tasks may arise at unpredictable points in the future. Hence, it is essential for designed multi-modal dialogue models to possess sufficient flexibility to adapt to such scenarios. This paper proposes \textbf{PaCE}, a unified, structured, compositional multi-modal dialogue pre-training framework. It utilizes a combination of several fundamental experts to accommodate multiple dialogue-related tasks and can be pre-trained using limited dialogue and extensive non-dialogue multi-modal data. Furthermore, we propose a progressive training method where old experts from the past can assist new experts, facilitating the expansion of their capabilities. Experimental results demonstrate that PaCE achieves state-of-the-art results on eight multi-modal dialog benchmarks. | 翻訳日:2023-06-14 17:08:30 公開日:2023-06-13 |
# ChatGPTのユーザ視点を探る:AI統合教育への応用, 知覚, 含意 Exploring User Perspectives on ChatGPT: Applications, Perceptions, and Implications for AI-Integrated Education ( http://arxiv.org/abs/2305.13114v2 ) ライセンス: Link先を確認 | Reza Hadi Mogavi, Chao Deng, Justin Juho Kim, Pengyuan Zhou, Young D. Kwon, Ahmed Hosny Saleh Metwally, Ahmed Tlili, Simone Bassanelli, Antonio Bucchiarone, Sujit Gujar, Lennart E. Nacke, and Pan Hui | (参考訳) 教育における人工知能(AI)のユーザ視点を理解することは、教育的に効果的で倫理的に責任のあるAI統合学習環境を構築するために不可欠である。
本稿では,4つの主要ソーシャルメディアプラットフォーム(twitter, reddit, youtube, linkedin)の質的コンテンツ分析を行い,様々な教育分野におけるチャットボット技術であるchatgptに対するアーリーアダプターのユーザエクスペリエンス(ux)と視点について検討する。
教育におけるchatgptの応用(rq1)と技術認識(rq2)について検討した。
以上の結果から,ChatGPTは高等教育(24.18%),K-12教育(22.09%),実践スキル学習(15.28%)の文脈で広く用いられている。
ソーシャルメディアプラットフォームでは、ChatGPTに関する最も頻繁に議論されるトピックは生産性、効率、倫理である。
一部のアーリーアダプターは、ChatGPTが生徒の自己効力と学習意欲を高める可能性を持つ革命的技術であると見なす一方で、AIシステムへの過度な依存は表面的な学習習慣を促進し、生徒の社会的・批判的な思考スキルを損なう可能性があることを懸念している。
本研究は,ChatGPTを教育環境に取り入れることに関心のある教育者や学習者に対して,クラウドソースによる知識に基づく推薦を行う。
さらに,ChatGPTの教育への応用に関する継続的な調査の基盤となる今後の研究のための研究課題を提案する。 Understanding user perspectives on Artificial Intelligence (AI) in education is essential for creating pedagogically effective and ethically responsible AI-integrated learning environments. In this paper, we conduct an extensive qualitative content analysis of four major social media platforms (Twitter, Reddit, YouTube, and LinkedIn) to explore the user experience (UX) and perspectives of early adopters toward ChatGPT-an AI Chatbot technology-in various education sectors. We investigate the primary applications of ChatGPT in education (RQ1) and the various perceptions of the technology (RQ2). Our findings indicate that ChatGPT is most popularly used in the contexts of higher education (24.18%), K-12 education (22.09%), and practical-skills learning (15.28%). On social media platforms, the most frequently discussed topics about ChatGPT are productivity, efficiency, and ethics. While some early adopters lean toward seeing ChatGPT as a revolutionary technology with the potential to boost students' self-efficacy and motivation to learn, others express concern that overreliance on the AI system may promote superficial learning habits and erode students' social and critical thinking skills. Our study contributes to the broader discourse on Human-AI Interaction and offers recommendations based on crowd-sourced knowledge for educators and learners interested in incorporating ChatGPT into their educational settings. Furthermore, we propose a research agenda for future studies that sets the foundation for continued investigation into the application of ChatGPT in education. | 翻訳日:2023-06-14 17:07:56 公開日:2023-06-13 |
# ハイゼンベルク画像におけるテンソルネットワークによるガウスボソンサンプリングのシミュレーション Simulating Gaussian Boson Sampling with Tensor Networks in the Heisenberg picture ( http://arxiv.org/abs/2305.11215v2 ) ライセンス: Link先を確認 | Dario Cilluffo, Nicola Lorenzoni, Martin B. Plenio | (参考訳) Schr\\odinger と Heisenberg の画像は量子力学の2つの等価な定式化であるが、一方を選択したシミュレーションは問題を解くのに必要な計算資源に大きな影響を与える。
ここでは,量子コンピューティングにおける中心的な問題であるガウス・ボーソンサンプリングにおいて,表現のよい選択が,実現可能かつ実現不可能な数値シミュレーション可能性の境界をシフトできることを実証する。
そこで本研究では,ハイゼンベルク画像におけるテンソルネットワークの時間発展に基づくボゾンサンプリングの確率分布を計算する新しい手法を提案する。
このアプローチは既存の方法の限界を克服し、例えば不均一光子損失の影響を受ける現実的なセットアップのシミュレーションを可能にする。
本研究では,本手法の有効性と量子コンピューティング研究の進展の可能性を示す。 Although the Schr\"odinger and Heisenberg pictures are two equivalent formulations of quantum mechanics, simulations performed choosing one over the other can greatly impact the computational resources required to solve a problem. Here we demonstrate that in Gaussian boson sampling, a central problem in quantum computing, a good choice of representation can shift the boundary between feasible and infeasible numerical simulability. To achieve this, we introduce a novel method for computing the probability distribution of boson sampling based on the time evolution of tensor networks in the Heisenberg picture. This approach overcomes limitations of existing methods and enables, for example, simulations of realistic setups affected by non-uniform photon losses. Our results demonstrate the effectiveness of the method and its potential to advance quantum computing research. | 翻訳日:2023-06-14 17:07:24 公開日:2023-06-13 |
# データ重み付けを超えた推定:モーメントのカーネル法 Estimation Beyond Data Reweighting: Kernel Method of Moments ( http://arxiv.org/abs/2305.10898v2 ) ライセンス: Link先を確認 | Heiner Kremer, Yassine Nemmour, Bernhard Sch\"olkopf, Jia-Jie Zhu | (参考訳) モーメント制限とその条件付き制約は、因果推論から強化学習まで、機械学習と統計学の多くの分野に現れる。
一般にモーメントの方法と呼ばれるこれらのタスクの見積もりには、最近因果推論に注目が集まっている顕著な一般化モーメントの方法(GMM)が含まれる。
GMMは、経験的分布に$\varphi$-divergenceを最小化することで、人口分布を近似する経験的可能性推定器のより広いファミリーの特殊なケースである。
しかし、$\varphi$-divergencesの使用は、候補分布をデータサンプルの再重み付けに効果的に制限する。
この長期的制限を解除し、データ再重み付けを超えたモーメントの方法を提供します。
これは、モーメントのカーネル法(KMM)と呼ばれる最大平均誤差に基づいて、経験的確率推定器を定義することで達成される。
条件付きモーメント制約に対する推定器の変種を提供し,そのような問題に対して漸近的に最適であることを示す。
最後に,複数の条件モーメント制限タスクにおいて,本手法が競合性能を達成することを示す。 Moment restrictions and their conditional counterparts emerge in many areas of machine learning and statistics ranging from causal inference to reinforcement learning. Estimators for these tasks, generally called methods of moments, include the prominent generalized method of moments (GMM) which has recently gained attention in causal inference. GMM is a special case of the broader family of empirical likelihood estimators which are based on approximating a population distribution by means of minimizing a $\varphi$-divergence to an empirical distribution. However, the use of $\varphi$-divergences effectively limits the candidate distributions to reweightings of the data samples. We lift this long-standing limitation and provide a method of moments that goes beyond data reweighting. This is achieved by defining an empirical likelihood estimator based on maximum mean discrepancy which we term the kernel method of moments (KMM). We provide a variant of our estimator for conditional moment restrictions and show that it is asymptotically first-order optimal for such problems. Finally, we show that our method achieves competitive performance on several conditional moment restriction tasks. | 翻訳日:2023-06-14 17:07:10 公開日:2023-06-13 |
# TextDiffuser: テキストペイントとしての拡散モデル TextDiffuser: Diffusion Models as Text Painters ( http://arxiv.org/abs/2305.10855v4 ) ライセンス: Link先を確認 | Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei | (参考訳) 拡散モデルは印象的な生成能力で注目を集めているが、現在は正確で一貫性のあるテキストのレンダリングに苦戦している。
この問題に対処するために,テキストディフューザを導入し,背景に忠実な視覚的魅力のあるテキストによる画像生成に焦点を当てた。
TextDiffuserは、まず、Transformerモデルがテキストプロンプトから抽出されたキーワードのレイアウトを生成し、次に拡散モデルがテキストプロンプトと生成されたレイアウトに条件付き画像を生成する。
さらに,文字認識や検出,文字レベルのセグメンテーションアノテーションを含む1000万のイメージテキストペアを含む,ocrアノテーションを備えた最初の大規模テキストイメージデータセットであるmario-10mをコントリビュートする。
我々はさらにMARIO-Evalベンチマークを収集し、テキストのレンダリング品質を評価する包括的なツールとして機能する。
実験とユーザスタディにより,テキストプロンプトだけで高品質なテキスト画像を作成し,テキストテンプレート画像と併用し,不完全な画像の再構築を行う,柔軟性と制御性を示す。
コード、モデル、データセットは \url{https://aka.ms/textdiffuser} で入手できる。 Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}. | 翻訳日:2023-06-14 17:06:54 公開日:2023-06-13 |
# Catch-Up Distillation: サンプリングの高速化のために一度だけトレーニングする Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling ( http://arxiv.org/abs/2305.10769v4 ) ライセンス: Link先を確認 | Shitong Shao, Xu Dai, Shouyi Yin, Lujun Li, Huanran Chen, Yang Hu | (参考訳) Diffusion Probability Models (DPM) は、さまざまな機械学習領域で目覚ましい進歩を遂げている。
しかし、高品質な合成サンプルを達成するには、通常、多数のサンプリングステップを実行する必要がある。
知識蒸留による従来の高速化サンプリングアルゴリズムは、事前訓練されたモデル重量と離散的な時間ステップシナリオに依存し、目標を達成するために追加のトレーニングセッションを必要とする。
これらの問題に対処するため、我々は、速度推定モデル ``catch up' の現在のモーメント出力を前回のモーメント出力で促進するCatch-Up Distillation (CUD)を提案する。
具体的には、元の常微分方程式(ode)トレーニング目的を調整して、現在のモーメント出力をグランド・真実ラベルと前回のモーメント出力の両方に調整し、ランゲ・クッタベースの多段階アライメント蒸留を用いて、非同期更新を防止しつつ正確なode推定を行う。
さらに,連続時間ステップシナリオにおけるcudの設計空間を調査し,適切な戦略を決定する方法について分析する。
cudの有効性を示すために,cifar-10,mnist,imagenet-64の比較実験を行った。
CIFAR-10では、ワンセッショントレーニングの15ステップでサンプリングした2.80のFIDと、追加トレーニングの1ステップでサンプリングした3.37の新たな最先端FIDを得る。
後者の結果は、バッチサイズ256の2100kのイテレーションを必要とするConsistency Distillationとは対照的に、バッチサイズ128の620kのイテレーションしか必要としなかった。
私たちのコードはhttps://anonymous.4open.science/r/Catch-Up-Distillation-E31Fで公開されています。 Diffusion Probability Models (DPMs) have made impressive advancements in various machine learning domains. However, achieving high-quality synthetic samples typically involves performing a large number of sampling steps, which impedes the possibility of real-time sample synthesis. Traditional accelerated sampling algorithms via knowledge distillation rely on pre-trained model weights and discrete time step scenarios, necessitating additional training sessions to achieve their goals. To address these issues, we propose the Catch-Up Distillation (CUD), which encourages the current moment output of the velocity estimation model ``catch up'' with its previous moment output. Specifically, CUD adjusts the original Ordinary Differential Equation (ODE) training objective to align the current moment output with both the ground truth label and the previous moment output, utilizing Runge-Kutta-based multi-step alignment distillation for precise ODE estimation while preventing asynchronous updates. Furthermore, we investigate the design space for CUDs under continuous time-step scenarios and analyze how to determine the suitable strategies. To demonstrate CUD's effectiveness, we conduct thorough ablation and comparison experiments on CIFAR-10, MNIST, and ImageNet-64. On CIFAR-10, we obtain a FID of 2.80 by sampling in 15 steps under one-session training and the new state-of-the-art FID of 3.37 by sampling in one step with additional training. This latter result necessitated only 620k iterations with a batch size of 128, in contrast to Consistency Distillation, which demanded 2100k iterations with a larger batch size of 256. Our code is released at https://anonymous.4open.science/r/Catch-Up-Distillation-E31F. | 翻訳日:2023-06-14 17:06:31 公開日:2023-06-13 |
# 任意ハイブリッド気象条件下での1歩の復元画像 Restoring Images Captured in Arbitrary Hybrid Adverse Weather Conditions in One Go ( http://arxiv.org/abs/2305.09996v2 ) ライセンス: Link先を確認 | Ye-Cong Wan, Ming-Wen Shao, Yuan-Shuo Cheng, Yue-Xian Liu, Zhi-Yuan Bao | (参考訳) 逆条件は通常、確率的なハイブリッド気象の劣化(雨や曇りの夜など)に悩まされるが、既存の画像復元アルゴリズムでは、気象の悪化は独立して起こるので、現実の複雑なシナリオに対処できない可能性がある。
さらに、ハイブリッド条件を特徴付ける包括的なペアデータセットがないため、教師付きトレーニングは実現不可能である。
この目的のために、前述の制限をフレームワークとデータという2つの戦略で進めました。
まず,任意のハイブリッド気象条件を1回で復元する,rahcと呼ばれる新しい統一フレームワークを提案する。
具体的には,マルチヘッドアグリゲーションアーキテクチャを活用して,複数の分解表現部分空間を学習し,出力空間における識別機構を通じて,複数のハイブリッドな悪天候を柔軟に扱うようにネットワークを制約する。
さらに,再構成のための補助視覚コンテンツを提供するための再構成ベクター支援スキームを考案し,残りの画像構成が不十分なハイブリッドシナリオを快適に扱えるようにした。
第2に、任意のハイブリッド逆条件の復元を学習し、ベンチマークするための新しいデータセット、HACを構築した。
hacには5つの一般的な天気の組み合わせからなる31のシナリオがあり、合計で316kの悪天候/クリーンペアがある。
広範な実験によって優れた結果が得られ、hacと従来のデータセットの両方で最新の結果が確立される。 Adverse conditions typically suffer from stochastic hybrid weather degradations (e.g., rainy and hazy night), while existing image restoration algorithms envisage that weather degradations occur independently, thus may fail to handle real-world complicated scenarios. Besides, supervised training is not feasible due to the lack of a comprehensive paired dataset to characterize hybrid conditions. To this end, we have advanced the aforementioned limitations with two tactics: framework and data. First, we present a novel unified framework, dubbed RAHC, to Restore Arbitrary Hybrid adverse weather Conditions in one go. Specifically, our RAHC leverages a multi-head aggregation architecture to learn multiple degradation representation subspaces and then constrains the network to flexibly handle multiple hybrid adverse weather in a unified paradigm through a discrimination mechanism in the output space. Furthermore, we devise a reconstruction vectors aided scheme to provide auxiliary visual content cues for reconstruction, thus can comfortably cope with hybrid scenarios with insufficient remaining image constituents. Second, we construct a new dataset, termed HAC, for learning and benchmarking arbitrary Hybrid Adverse Conditions restoration. HAC contains 31 scenarios composed of an arbitrary combination of five common weather, with a total of ~316K adverse-weather/clean pairs. Extensive experiments yield superior results and establish new state-of-the-art results on both HAC and conventional datasets. | 翻訳日:2023-06-14 17:05:57 公開日:2023-06-13 |
# ハイブリッドネット:VLSI混雑予測のための幾何学的・位相的視点のデュアルブランチ融合 HybridNet: Dual-Branch Fusion of Geometrical and Topological Views for VLSI Congestion Prediction ( http://arxiv.org/abs/2305.05374v2 ) ライセンス: Link先を確認 | Yuxiang Zhao, Zhuomin Chai, Yibo Lin, Runsheng Wang, Ru Huang | (参考訳) 正確な早期混雑予測は、ルーティングステージでの不快なサプライズを防止し、設計者がvlsi設計サイクルを高速化するのを助ける重要な役割を果たす。
本稿では,回路のトポロジカルな特徴と幾何学的特徴を,ネットワークアーキテクチャの重要な設計手法として取り入れる手法を提案する。
より具体的に言うと、異なるエッジ構成スキームを持つ2つの個別グラフ(ジオメトリグラフ、トポロジーグラフ)を構成する。
次に,各経路に異なるエンコーダ層を持つデュアルブランチネットワークと,高度な融合戦略を持つアグリゲート表現を提案する。
われわれのネットワークであるHybridNetは、セルの幾何学的相互作用を捉えるための単純かつ効果的な方法を提供するだけでなく、ネットリストにおける元のトポロジ的関係も保存する。
ISPD2015ベンチマーク実験の結果,従来の手法と比較して10.9%の改善が得られた。 Accurate early congestion prediction can prevent unpleasant surprises at the routing stage, playing a crucial character in assisting designers to iterate faster in VLSI design cycles. In this paper, we introduce a novel strategy to fully incorporate topological and geometrical features of circuits by making several key designs in our network architecture. To be more specific, we construct two individual graphs (geometry-graph, topology-graph) with distinct edge construction schemes according to their unique properties. We then propose a dual-branch network with different encoder layers in each pathway and aggregate representations with a sophisticated fusion strategy. Our network, named HybridNet, not only provides a simple yet effective way to capture the geometric interactions of cells, but also preserves the original topological relationships in the netlist. Experimental results on the ISPD2015 benchmarks show that we achieve an improvement of 10.9% compared to previous methods. | 翻訳日:2023-06-14 17:05:05 公開日:2023-06-13 |
# シリコンフォトニックチップ上の量子状態の忠実度推定 Fidelity estimation of quantum states on a silicon photonic chip ( http://arxiv.org/abs/2306.01068v2 ) ライセンス: Link先を確認 | Sabine Wollmann, Xiaogang Qiang, Sam Pallister, Ashley Montanaro, Noah Linden, and Jonathan C.F. Matthews | (参考訳) 2つの量子状態の「近接性」の尺度として、忠実性は量子情報理論において基本的な役割を果たす。
忠実度推定プロトコルは、実験から得られた情報と、その実装の効率のバランスを、プロトコルが消費する状態の数の観点から取ろうとする。
ここでは、2量子状態の忠実度推定のために、以前に報告された最適状態検証プロトコル(Phys. Rev. 120, 170502, 2018)を適用する。
完全プログラム可能なシリコンフォトニック2量子ビットチップを用いて実験を行った。
提案プロトコルは、他の広く使われている推定プロトコルと比較して、ポイント推定の誤差バーを著しく小さくし、実用的な装置によって生成された量子状態の忠実度を推定する能力の明確な進歩を示す。 As a measure of the 'closeness' of two quantum states, fidelity plays a fundamental role in quantum information theory. Fidelity estimation protocols try to strike a balance between information gleaned from an experiment, and the efficiency of its implementation, in terms of the number of states consumed by the protocol. Here we adapt a previously reported optimal state verification protocol (Phys. Rev. Lett. 120, 170502, 2018) for fidelity estimation of two-qubit states. We demonstrate the protocol experimentally using a fully-programmable silicon photonic two-qubit chip. Our protocol outputs significantly smaller error bars of its point estimate in comparison with another widely-used estimation protocol, showing a clear step forward in the ability to estimate the fidelity of quantum states produced by a practical device. | 翻訳日:2023-06-14 16:57:42 公開日:2023-06-13 |
# 集団崩壊を伴う原子性ガス中の無選択測定誘起相転移 Post-selection-free Measurement-Induced Phase Transition in Driven Atomic Gases with Collective Decay ( http://arxiv.org/abs/2306.00841v2 ) ライセンス: Link先を確認 | Gianluca Passarelli, Xhek Turkeshi, Angelo Russomanno, Procolo Lucignano, Marco Schir\`o, Rosario Fazio | (参考訳) レーザー磁場により駆動される原子の観測アンサンブルの性質と集合崩壊の存在について検討した。
外部駆動の強度を変化させることで、原子雲は2つの位相を分離して測定誘起相転移を行い、エントロピーはシステムサイズに比例して拡大する。
臨界点は超放射能自然放出への移行と一致する。
我々の装置は現在の光物質相互作用デバイスで実装可能であり、特に、監視されたダイナミクスは、不完全なモニタリングであっても、選択後の測定問題から解放される。 We study the properties of a monitored ensemble of atoms driven by a laser field and in the presence of collective decay. By varying the strength of the external drive, the atomic cloud undergoes a measurement-induced phase transition separating two phases with entanglement entropy scaling sub-extensively with the system size. The critical point coincides with the transition to a superradiant spontaneous emission. Our setup is implementable in current light-matter interaction devices, and most notably, the monitored dynamics is free from the post-selection measurement problem, even in the case of imperfect monitoring. | 翻訳日:2023-06-14 16:57:27 公開日:2023-06-13 |
# マスク画像モデリングによる自己教師付き学習フレームワークに基づく新しいドライバ抽出行動検出 A Novel Driver Distraction Behavior Detection Based on Self-Supervised Learning Framework with Masked Image Modeling ( http://arxiv.org/abs/2306.00543v2 ) ライセンス: Link先を確認 | Yingzhi Zhang, Taiguo Li, Chao Li and Xinghong Zhou | (参考訳) ドライバーの気晴らしは毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。
現在、商用車両の自動化のレベルは完全に無人ではなく、ドライバーは依然として車両の操作と制御において重要な役割を担っている。
そのため,道路安全には運転者の注意散らし行動検出が不可欠である。
現在、ドライバーの注意散逸検出は主に従来の畳み込みニューラルネットワーク(cnn)と教師付き学習方法に依存している。
しかし、ラベル付きデータセットの高コスト、高レベルのセマンティック情報をキャプチャする能力の制限、一般化性能の低下など、依然として課題がある。
そこで本研究では,ドライバの注意散逸行動検出のためのマスク画像モデルに基づく自己教師付き学習手法を提案する。
まず,マスク付き画像モデリング(MIM)のための自己教師型学習フレームワークを導入し,データセットのラベル付けによる人的・物質的消費の問題を解決する。
次に、Swin Transformerがエンコーダとして使用される。
Swin Transformerブロックを再構成し、ウィンドウマルチヘッド自己アテンション(W-MSA)とシフトウィンドウマルチヘッド自己アテンション(SW-MSA)検出ヘッドの分布を全ステージにわたって調整することで、より軽量化を実現する。
最後に、モデルの認識と一般化能力を強化するために、様々なデータ拡張戦略と最適なランダムマスキング戦略が使用される。
大規模運転注意散逸行動データセットの試験結果から,本論文で提案した自己教師学習法は99.60%の精度で,高度な教師付き学習法の優れた性能を近似する。 Driver distraction causes a significant number of traffic accidents every year, resulting in economic losses and casualties. Currently, the level of automation in commercial vehicles is far from completely unmanned, and drivers still play an important role in operating and controlling the vehicle. Therefore, driver distraction behavior detection is crucial for road safety. At present, driver distraction detection primarily relies on traditional Convolutional Neural Networks (CNN) and supervised learning methods. However, there are still challenges such as the high cost of labeled datasets, limited ability to capture high-level semantic information, and weak generalization performance. In order to solve these problems, this paper proposes a new self-supervised learning method based on masked image modeling for driver distraction behavior detection. Firstly, a self-supervised learning framework for masked image modeling (MIM) is introduced to solve the serious human and material consumption issues caused by dataset labeling. Secondly, the Swin Transformer is employed as an encoder. Performance is enhanced by reconfiguring the Swin Transformer block and adjusting the distribution of the number of window multi-head self-attention (W-MSA) and shifted window multi-head self-attention (SW-MSA) detection heads across all stages, which leads to model more lightening. Finally, various data augmentation strategies are used along with the best random masking strategy to strengthen the model's recognition and generalization ability. Test results on a large-scale driver distraction behavior dataset show that the self-supervised learning method proposed in this paper achieves an accuracy of 99.60%, approximating the excellent performance of advanced supervised learning methods. | 翻訳日:2023-06-14 16:57:17 公開日:2023-06-13 |
# DyGen: ダイナミクス強化ジェネレーティブモデリングによるノイズラベルからの学習 DyGen: Learning from Noisy Labels via Dynamics-Enhanced Generative Modeling ( http://arxiv.org/abs/2305.19395v2 ) ライセンス: Link先を確認 | Yuchen Zhuang, Yue Yu, Lingkai Kong, Xiang Chen, Chao Zhang | (参考訳) ノイズの多いラベルからの学習は、トレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの現実世界アプリケーションで発生する課題である。
ノイズラベルを持つ言語モデルの微調整を行うと、モデルがラベルノイズをオーバーフィットし、パフォーマンスが低下する。
ノイズの多いラベルから学習するほとんどの方法は静的な入力機能を使ってノイズを識別するが、これらの方法は真のラベル分布で提供できる情報によって制限され、バイアスや誤った予測をもたらす可能性がある。
本研究では,言語モデルの微調整過程における埋め込み空間の動的パターンを用いて雑音ラベル予測を改善するDynamics-Enhanced Generative Model (DyGen)を提案する。
DyGenは変分自動エンコーディングフレームワークを使用して、ノイズラベルとトレーニングダイナミクスから真のラベルの後方分布を推測する。
さらに、潜在的に騒がしいラベルやプリエントの影響を最小限に抑えるために、共レギュライゼーション機構が使用される。
DyGenは2つの合成ノイズデータセットの平均精度を3.10%改善し、3つの実世界のノイズデータセットで1.48%改善した。
大規模な実験と分析は、DyGenの各コンポーネントの有効性を示している。
私たちのコードはgithubで再現可能です。 Learning from noisy labels is a challenge that arises in many real-world applications where training data can contain incorrect or corrupted labels. When fine-tuning language models with noisy labels, models can easily overfit the label noise, leading to decreased performance. Most existing methods for learning from noisy labels use static input features for denoising, but these methods are limited by the information they can provide on true label distributions and can result in biased or incorrect predictions. In this work, we propose the Dynamics-Enhanced Generative Model (DyGen), which uses dynamic patterns in the embedding space during the fine-tuning process of language models to improve noisy label predictions. DyGen uses the variational auto-encoding framework to infer the posterior distributions of true labels from noisy labels and training dynamics. Additionally, a co-regularization mechanism is used to minimize the impact of potentially noisy labels and priors. DyGen demonstrates an average accuracy improvement of 3.10% on two synthetic noise datasets and 1.48% on three real-world noise datasets compared to the previous state-of-the-art. Extensive experiments and analyses show the effectiveness of each component in DyGen. Our code is available for reproducibility on GitHub. | 翻訳日:2023-06-14 16:56:48 公開日:2023-06-13 |
# 確率論理プログラミングシステムfusemateにおけるボトムアップグラウンド Bottom-Up Grounding in the Probabilistic Logic Programming System Fusemate ( http://arxiv.org/abs/2305.18924v2 ) ライセンス: Link先を確認 | Peter Baumgartner, Elena Tartaglia | (参考訳) 本稿では,Fusemate確率論理プログラミングシステムを紹介する。
fusemateの推論エンジンは、確率的推論のための接地成分と変数除去方法を含む。
Fusemateは他のシステムと異なり、一般的なトップダウン方式ではなくボトムアップ方式でプログラムを基盤にしている。
ボトムアップのグラウンドングは、様々なサポートサイズの分布を動的に生成するなど、いくつかの理由から魅力的だが、グラウンド節の生成量を制御するのが難しくなる。
本稿では,クエリに不整合な規則を呈示するクエリ誘導関連テストと接点を交互に行うことで,この問題に対処する。
本手法を詳細に紹介し,(隠れ)マルコフモデルのような"時間"を伴う例を示す。
本実験は,最先端の確率論理プログラミングシステム,特に高分岐問題と比較して,競合性や優れた性能を示す。 This paper introduces the Fusemate probabilistic logic programming system. Fusemate's inference engine comprises a grounding component and a variable elimination method for probabilistic inference. Fusemate differs from most other systems by grounding the program in a bottom-up way instead of the common top-down way. While bottom-up grounding is attractive for a number of reasons, e.g., for dynamically creating distributions of varying support sizes, it makes it harder to control the amount of ground clauses generated. We address this problem by interleaving grounding with a query-guided relevance test which prunes rules whose bodies are inconsistent with the query. We present our method in detail and demonstrate it with examples that involve "time", such as (hidden) Markov models. Our experiments demonstrate competitive or better performance compared to a state-of-the art probabilistic logic programming system, in particular for high branching problems. | 翻訳日:2023-06-14 16:56:26 公開日:2023-06-13 |
# LM-CPPF:コントラストプロンプトに基づくFew-Shotファインチューニングのためのパラフレージングガイドデータ拡張 LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning ( http://arxiv.org/abs/2305.18169v2 ) ライセンス: Link先を確認 | Amirhossein Abaskohi, Sascha Rothe, Yadollah Yaghoobzadeh | (参考訳) 近年,NLPのための事前学習言語モデルの開発が著しく進展している。
しかし、これらのモデルは小さなデータセットを微調整する際にしばしば苦労する。
この問題に対処するため、研究者は様々な適応アプローチを提案している。
プロンプトベースのチューニングは、特に大型モデルにおいて、間違いなく最も一般的な方法である。
これまでの研究では、プロンプトベースの微調整にコントラスト学習を加えることは、モデルがクラス間でより識別可能な埋め込みを生成するのに役立つため効果的であり、モデルがポジティブな例とネガティブな例から同時に学ぶことにより、サンプル効率も向上することを示している。
コントラスト学習の最も重要な要素の1つはデータ拡張であるが、コンピュータビジョンとは異なり、nlpの効果的なデータ拡張は依然として困難である。
本稿では,生成言語モデル,特に GPT-3 や OPT-175B のような大規模言語モデルを用いて,プロンプトに基づく言語モデルの微調整を行う LM-CPPF を提案する。
複数のテキスト分類ベンチマークを用いた実験により,この拡張手法が,データ拡張,バック翻訳,複数テンプレートなど他の手法よりも優れていることが示された。 In recent years, there has been significant progress in developing pre-trained language models for NLP. However, these models often struggle when fine-tuned on small datasets. To address this issue, researchers have proposed various adaptation approaches. Prompt-based tuning is arguably the most common way, especially for larger models. Previous research shows that adding contrastive learning to prompt-based fine-tuning is effective as it helps the model generate embeddings that are more distinguishable between classes, and it can also be more sample-efficient as the model learns from positive and negative examples simultaneously. One of the most important components of contrastive learning is data augmentation, but unlike computer vision, effective data augmentation for NLP is still challenging. This paper proposes LM-CPPF, Contrastive Paraphrasing-guided Prompt-based Fine-tuning of Language Models, which leverages prompt-based few-shot paraphrasing using generative language models, especially large language models such as GPT-3 and OPT-175B, for data augmentation. Our experiments on multiple text classification benchmarks show that this augmentation method outperforms other methods, such as easy data augmentation, back translation, and multiple templates. | 翻訳日:2023-06-14 16:56:09 公開日:2023-06-13 |
# ボールオルタナティブが欠如する一様性に対する離散分布ヒストグラムの試験におけるミニマックスリスク The minimax risk in testing the histogram of discrete distributions for uniformity under missing ball alternatives ( http://arxiv.org/abs/2305.18111v2 ) ライセンス: Link先を確認 | Alon Kipnis | (参考訳) 我々は,多くのカテゴリからカテゴリ上の一様分布への離散的サンプルの適合性をテストする問題を考える。
代替仮説のクラスとして、半径$\epsilon$ の $\ell_p$ の球を、$p \leq 2$ の均一レート列の周りに取り除くことを考える。
標本の数と次元の数が無限になるに従って$\epsilon \to 0$のとき、漸近的ミニマックスのリスクを鋭く特徴づけ、発生のヒストグラム(不在のカテゴリ、シングルトン、衝突、...)に基づいてテストする。
例えば、$p=1$ と、期待されるサンプル数の制限で$n$ は、カテゴリー数$n$ (別名 "sub-linear" regime) と比較して、minimax リスク $r^*_\epsilon$ asymptotes to $2 \bar{\phi}\left(n \epsilon^2/\sqrt{8n}\right) $, with $\bar{\phi}(x)$ は通常の生存関数である。
種々の問題パラメータに関する実証的な研究により、この推定は有限標本において正確であり、我々のテストは衝突のみを用いるチフタッドテストやテストよりもはるかに優れていることが示された。
本解析は,ヒストグラム順序の漸近正規性,ミニマックス設定とベイズ設定の等価性,多次元最適化問題の1次元問題への還元に基づく。 We consider the problem of testing the fit of a discrete sample of items from many categories to the uniform distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball of radius $\epsilon$ around the uniform rate sequence for $p \leq 2$. We deliver a sharp characterization of the asymptotic minimax risk when $\epsilon \to 0$ as the number of samples and number of dimensions go to infinity, for testing based on the occurrences' histogram (number of absent categories, singletons, collisions, ...). For example, for $p=1$ and in the limit of a small expected number of samples $n$ compared to the number of categories $N$ (aka "sub-linear" regime), the minimax risk $R^*_\epsilon$ asymptotes to $2 \bar{\Phi}\left(n \epsilon^2/\sqrt{8N}\right) $, with $\bar{\Phi}(x)$ the normal survival function. Empirical studies over a range of problem parameters show that this estimate is accurate in finite samples, and that our test is significantly better than the chisquared test or a test that only uses collisions. Our analysis is based on the asymptotic normality of histogram ordinates, the equivalence between the minimax setting to a Bayesian one, and the reduction of a multi-dimensional optimization problem to a one-dimensional problem. | 翻訳日:2023-06-14 16:55:46 公開日:2023-06-13 |
# cvpr 2023 vandワークショップトラック1&2:ゼロショット広告1位, 少数ショット広告4位におけるゼロショット・アノマリー分類とセグメンテーション手法 A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD ( http://arxiv.org/abs/2305.17382v2 ) ライセンス: Link先を確認 | Xuhai Chen, Yue Han, Jiangning Zhang | (参考訳) 本報告では,視覚異常と新奇性検出(vand)2023チャレンジのゼロ/フェーショットトラックの解法を簡潔に紹介する。
産業用視覚検査では、通常の参照画像がなければ、あるいはわずか数個の参照画像で、多数のカテゴリに迅速に適応できる単一のモデルを構築することが、有望な研究方向である。
これは主に製品タイプが多種多様であるためである。
ゼロショットトラックでは、余分な線形層を追加してCLIPモデルに基づく解を提案する。
これらのレイヤーは画像特徴をジョイント埋め込み空間にマッピングするために使用され、テキスト特徴と比較して異常マップを生成することができる。
さらに、参照画像が利用可能である場合には、複数のメモリバンクを使用して、それらの特徴を格納し、テストフェーズにおけるテスト画像の特徴と比較する。
この課題において,本手法はゼロショットトラックにおいて,特にセグメンテーションに優れ,F1スコアは第2ランクの参加者よりも0.0489向上した。
さらに,全参加チームの中ではF1のスコアが0.8687で,第4位を総合的に確保した。 In this technical report, we briefly introduce our solution for the Zero/Few-shot Track of the Visual Anomaly and Novelty Detection (VAND) 2023 Challenge. For industrial visual inspection, building a single model that can be rapidly adapted to numerous categories without or with only a few normal reference images is a promising research direction. This is primarily because of the vast variety of the product types. For the zero-shot track, we propose a solution based on the CLIP model by adding extra linear layers. These layers are used to map the image features to the joint embedding space, so that they can compare with the text features to generate the anomaly maps. Besides, when the reference images are available, we utilize multiple memory banks to store their features and compare them with the features of the test images during the testing phase. In this challenge, our method achieved first place in the zero-shot track, especially excelling in segmentation with an impressive F1 score improvement of 0.0489 over the second-ranked participant. Furthermore, in the few-shot track, we secured the fourth position overall, with our classification F1 score of 0.8687 ranking first among all participating teams. | 翻訳日:2023-06-14 16:55:12 公開日:2023-06-13 |
# 最大カット問題に対する量子スピードアップ Quantum Speedup for the Maximum Cut Problem ( http://arxiv.org/abs/2305.16644v2 ) ライセンス: Link先を確認 | Weng-Long Chang, Renata Wong, Wen-Yu Chung, Yu-Hao Chen, Ju-Chin Chen, Athanasios V. Vasilakos | (参考訳) n$の頂点と$m$の辺を持つ非方向の非重み付きグラフが与えられたとき、最大のカット問題は、$n$の頂点の分割を、それらの間のエッジの数が可能な限り大きいような非連結部分集合に分割することである。
古典的にはNP完全問題であり、回路レイアウト設計、統計物理学、コンピュータビジョン、機械学習、ネットワーク科学、クラスタリングなど、潜在的な応用がある。
本稿では,従来のグラフに対して,時間的および空間的複雑さをそれぞれ$O(\sqrt{2^n/r})$と$O(m^2)$に減らした2次スピードアップを持つ任意のグラフに対して,最大カット問題を解く量子アルゴリズムを提案する。
NP完全問題に対するオラクル関連量子アルゴリズムについて,本アルゴリズムを最適とみなす。
さらに,提案アルゴリズムの有効性を正当化するために,ibm の量子コンピュータ上で実験を行い,頂点が3つ,辺が2つあるグラフの最大カット問題を解くことに成功した。 Given an undirected, unweighted graph with $n$ vertices and $m$ edges, the maximum cut problem is to find a partition of the $n$ vertices into disjoint subsets $V_1$ and $V_2$ such that the number of edges between them is as large as possible. Classically, it is an NP-complete problem, which has potential applications ranging from circuit layout design, statistical physics, computer vision, machine learning and network science to clustering. In this paper, we propose a quantum algorithm to solve the maximum cut problem for any graph $G$ with a quadratic speedup over its classical counterparts, where the temporal and spatial complexities are reduced to, respectively, $O(\sqrt{2^n/r})$ and $O(m^2)$. With respect to oracle-related quantum algorithms for NP-complete problems, we identify our algorithm as optimal. Furthermore, to justify the feasibility of the proposed algorithm, we successfully solve a typical maximum cut problem for a graph with three vertices and two edges by carrying out experiments on IBM's quantum computer. | 翻訳日:2023-06-14 16:54:46 公開日:2023-06-13 |
# 診断推論のためのドメイン内言語モデルを用いたマルチタスクトレーニング Multi-Task Training with In-Domain Language Models for Diagnostic Reasoning ( http://arxiv.org/abs/2306.04551v2 ) ライセンス: Link先を確認 | Brihat Sharma, Yanjun Gao, Timothy Miller, Matthew M. Churpek, Majid Afshar and Dmitriy Dligach | (参考訳) 生成型人工知能(ai:generative artificial intelligence)は、臨床診断の意思決定支援を強化し、診断エラーを減らすための有望な方向性である。
臨床AIシステムの開発をさらに進めるため、診断推論ベンチマーク(DR.BENCH)は、臨床推論において重要な要素を表す6つのタスクからなる総合的な生成AIフレームワークとして導入された。
本稿では,bench博士(gao et al., 2023)における問題要約タスクに着目し,ドメイン内言語モデルとドメイン外言語モデル,マルチタスクとシングルタスクトレーニングの比較分析を行う。
マルチタスク, 臨床訓練型言語モデルでは, 汎用ドメインモデルよりも大きな差があり, ROUGE-Lスコアが28.55である新しい最先端パフォーマンスが確立されている。
この研究は、臨床診断推論タスクを最適化するためのドメイン特化トレーニングの価値を強調するものだ。 Generative artificial intelligence (AI) is a promising direction for augmenting clinical diagnostic decision support and reducing diagnostic errors, a leading contributor to medical errors. To further the development of clinical AI systems, the Diagnostic Reasoning Benchmark (DR.BENCH) was introduced as a comprehensive generative AI framework, comprised of six tasks representing key components in clinical reasoning. We present a comparative analysis of in-domain versus out-of-domain language models as well as multi-task versus single task training with a focus on the problem summarization task in DR.BENCH (Gao et al., 2023). We demonstrate that a multi-task, clinically trained language model outperforms its general domain counterpart by a large margin, establishing a new state-of-the-art performance, with a ROUGE-L score of 28.55. This research underscores the value of domain-specific training for optimizing clinical diagnostic reasoning tasks. | 翻訳日:2023-06-14 16:48:30 公開日:2023-06-13 |
# PromptBench: 対向的プロンプトにおける大規模言語モデルのロバスト性評価に向けて PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts ( http://arxiv.org/abs/2306.04528v2 ) ライセンス: Link先を確認 | Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie | (参考訳) 学界や業界全体にわたる大規模言語モデル(llm)への依存の高まりは、プロンプトに対する強固さを包括的に理解する必要がある。
この重要なニーズに応えて、LLMの反発性を測定するために設計された堅牢性ベンチマークであるPromptBenchを紹介する。
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
これらのプロンプトは、感情分析、自然言語推論、読み理解、機械翻訳、数学の問題解決といった様々なタスクで使用される。
本研究は,8つのタスクと13のデータセットに対して,合計567,084個のサンプルを用いて,4,032個の逆のプロンプトを生成する。
以上の結果より,現代のLDMは敵のプロンプトに弱いことが示唆された。
さらに,素早い堅牢性と伝達性の背後にあるミステリーを理解するため,包括的解析を行った。
そして、洞察に富んだロバストネス分析と、プロンプト・コンポジションのための実用的なレコメンデーションを提供し、研究者と日々のユーザの両方に有益です。
私たちはコード、プロンプト、方法論を使って、敵のプロンプトを公にアクセスできるようにし、この重要な分野における協調的な探索を可能にし、促進します。 The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench. | 翻訳日:2023-06-14 16:48:15 公開日:2023-06-13 |
# fair column subset のセレクション Fair Column Subset Selection ( http://arxiv.org/abs/2306.04489v2 ) ライセンス: Link先を確認 | Antonis Matakos, Bruno Ordozgoiti, Suhas Thejaswi | (参考訳) 公平な列部分集合の選択の問題を考える。
特に、2つの群がデータ内に存在すると仮定し、選択された列部分集合は、それぞれのランクk近似に対して両者に良い近似を与える必要がある。
既知の結果を拡張するためには、元の方法の2倍の列を単に選択するという、簡単な解決策以上のことはできない。
我々は、決定論的レバレッジスコアサンプリングに基づく既知のアプローチを採用し、適切なサイズのサブセットをサンプリングするだけで、2つのグループが存在する場合、NPハードとなることを示す。
所望のサイズの2倍のサブセットを見つけることは自明だが、基本的にその1.5倍の大きさで同じ保証を達成する効率的なアルゴリズムを提供する。
本手法は実世界データに対する広範囲な実験を通して検証する。 We consider the problem of fair column subset selection. In particular, we assume that two groups are present in the data, and the chosen column subset must provide a good approximation for both, relative to their respective best rank-k approximations. We show that this fair setting introduces significant challenges: in order to extend known results, one cannot do better than the trivial solution of simply picking twice as many columns as the original methods. We adopt a known approach based on deterministic leverage-score sampling, and show that merely sampling a subset of appropriate size becomes NP-hard in the presence of two groups. Whereas finding a subset of two times the desired size is trivial, we provide an efficient algorithm that achieves the same guarantees with essentially 1.5 times that size. We validate our methods through an extensive set of experiments on real-world data. | 翻訳日:2023-06-14 16:47:53 公開日:2023-06-13 |
# 有限次元ステインスプリング曲線はどんなダイナミクスも近似できる Finite-Dimensional Stinespring Curves Can Approximate Any Dynamics ( http://arxiv.org/abs/2306.03667v2 ) ライセンス: Link先を確認 | Frederik vom Ende | (参考訳) 我々は、すべての解析的量子力学が時間依存ハミルトニアンによって生成されるユニタリダイナミクスの還元として正確に表現できるという最近の結果を一般化する。
より正確には、ユニタリ解析経路上の部分的トレースが任意のリプシッツ連続量子力学を任意に近似できることを示す。
これらの結果の潜在的な改善と一般化、その限界、そしてシステム環境の量と力学を関連付けようとする際に克服しなければならない一般的な課題について論じる。 We generalize the recent result that all analytic quantum dynamics can be represented exactly as the reduction of unitary dynamics generated by a time-dependent Hamiltonian. More precisely, we prove that the partial trace over analytic paths of unitaries can approximate any Lipschitz-continuous quantum dynamics arbitrarily well. We conclude by discussing potential improvements and generalizations of these results, their limitations, and the general challenges one has to overcome when trying to relate dynamics to quantities on the system-environment level. | 翻訳日:2023-06-14 16:47:40 公開日:2023-06-13 |
# PolyVoice:音声から音声への翻訳のための言語モデル PolyVoice: Language Models for Speech to Speech Translation ( http://arxiv.org/abs/2306.02982v2 ) ライセンス: Link先を確認 | Qianqian Dong, Zhiying Huang, Qiao Tian, Chen Xu, Tom Ko, Yunlong Zhao, Siyuan Feng, Tang Li, Kexin Wang, Xuxin Cheng, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang | (参考訳) 音声合成システム(S2ST)のための言語モデルに基づくフレームワークであるPolyVoiceを提案する。
本フレームワークは,翻訳言語モデルと音声合成言語モデルという2つの言語モデルから構成される。
私たちは、完全に教師なしの方法で生成された離散化された音声ユニットを使用し、このフレームワークは、未記述言語に使用できる。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
これにより、我々のフレームワークは、原音声の音声特性と話し方を保存することができる。
我々は中国語の$\rightarrow$ Englishと英語の$\rightarrow$ Spanish pairsについて検討する。
実験の結果,本システムは高い翻訳品質と音声品質を持つ音声を生成することができた。
音声サンプルはhttps://speechtranslation.github.io/polyvoiceで入手できる。 We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese $\rightarrow$ English and English $\rightarrow$ Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice. | 翻訳日:2023-06-14 16:46:59 公開日:2023-06-13 |
# Gen-IR @ SIGIR 2023: The First Workshop on Generative Information Retrieval Gen-IR @ SIGIR 2023: The First Workshop on Generative Information Retrieval ( http://arxiv.org/abs/2306.02887v2 ) ライセンス: Link先を確認 | Gabriel B\'en\'edict, Ruqing Zhang, Donald Metzler | (参考訳) 生成的情報検索(ir)は、複数の研究コミュニティ(情報検索、コンピュータビジョン、自然言語処理、機械学習など)でかなりの成長を遂げており、大衆の報道で注目されている。
理論的、実証的、実際のユーザ向け製品がリリースされ、(生成を介して)文書を検索したり、入力要求に応じて直接回答を生成する。
エンド・ツー・エンドの生成モデルが単なるトレンドなのか、それともIRのパラダイム変更なのかを調査したい。
これは新しいメトリクス、理論的基盤、評価方法、タスク定義、モデル、ユーザーインターフェイスなどを必要とする。
このワークショップ(https://coda.io/@sigir/gen-ir)の目標は、ドキュメント検索や直接グラウンドドアンサージェネレーションのような、以前に検討されたジェネレーティブIR技術に焦点を当てると同時に、レコメンデーションシステムや要約システムといった新しいドメインに対して、ジェネレーティブIRをどのように適用できるかに関する議論と調査の場を提供することである。
ワークショップの形式は、ラウンドテーブルや基調講演を含むインタラクティブで、ミニ会議の一方的な対話を避ける傾向がある。 Generative information retrieval (IR) has experienced substantial growth across multiple research communities (e.g., information retrieval, computer vision, natural language processing, and machine learning), and has been highly visible in the popular press. Theoretical, empirical, and actual user-facing products have been released that retrieve documents (via generation) or directly generate answers given an input request. We would like to investigate whether end-to-end generative models are just another trend or, as some claim, a paradigm change for IR. This necessitates new metrics, theoretical grounding, evaluation methods, task definitions, models, user interfaces, etc. The goal of this workshop (https://coda.io/@sigir/gen-ir) is to focus on previously explored Generative IR techniques like document retrieval and direct Grounded Answer Generation, while also offering a venue for the discussion and exploration of how Generative IR can be applied to new domains like recommendation systems, summarization, etc. The format of the workshop is interactive, including roundtable and keynote sessions and tends to avoid the one-sided dialogue of a mini-conference. | 翻訳日:2023-06-14 16:46:47 公開日:2023-06-13 |
# OWQ:大規模言語モデルにおける重み量子化のためのアクティベーション・アウトリーから学んだ教訓 OWQ: Lessons learned from activation outliers for weight quantization in large language models ( http://arxiv.org/abs/2306.02272v2 ) ライセンス: Link先を確認 | Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park | (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、タスク固有の微調整を必要とせずに、単純なプロンプトチューニングと少数ショット例を使用して、様々な言語タスクで印象的な結果を示す。
しかし、その巨大なサイズは推論にも複数のサーバグレードのGPUを必要とし、大きなコスト障壁を生み出します。
この制限に対処するため, 最小品質劣化の重みに対するポストトレーニング量子化法を提案する。
アクティベーション・アウトレイアは, アクティベーション・量子化において問題となることが知られているが, 理論解析により, アクティベーション・アウトレイアを考慮すれば, 重み量子化誤差に寄与する要因を同定できることが示唆された。
我々は,脆弱性のある重みを識別し,高い精度を付与する,outlier-aware weight quantization(owq)と呼ばれる革新的なptqスキームを提案する。
OWQが生成する3.01ビットモデルは,OPTQが生成する4ビットモデルに匹敵する品質を示した。 Large language models (LLMs) with hundreds of billions of parameters show impressive results across various language tasks using simple prompt tuning and few-shot examples, without the need for task-specific fine-tuning. However, their enormous size requires multiple server-grade GPUs even for inference, creating a significant cost barrier. To address this limitation, we introduce a novel post-training quantization method for weights with minimal quality degradation. While activation outliers are known to be problematic in activation quantization, our theoretical analysis suggests that we can identify factors contributing to weight quantization errors by considering activation outliers. We propose an innovative PTQ scheme called outlier-aware weight quantization (OWQ), which identifies vulnerable weights and allocates high-precision to them. Our extensive experiments demonstrate that the 3.01-bit models produced by OWQ exhibit comparable quality to the 4-bit models generated by OPTQ. | 翻訳日:2023-06-14 16:46:23 公開日:2023-06-13 |
# ランダムプロジェクションとサインランダムプロジェクションによる差分プライバシー Differential Privacy with Random Projections and Sign Random Projections ( http://arxiv.org/abs/2306.01751v2 ) ライセンス: Link先を確認 | Ping Li and Xiaoyun Li | (参考訳) 本稿では,機械学習,データマイニング,情報検索における一般応用のための,ランダムプロジェクション(RP)のファミリから,一連の差分プライバシ(DP)アルゴリズムを開発する。
提案アルゴリズムのうち,iDP-SignRP は,符号ランダム予測(SignRP)に基づく 'individual differential privacy'' (iDP) の設定において極めて有効である。
また、DP-SignOPORP は '`one permutation + one random projection'' (OPORP) を用いて、文献における既存のアルゴリズムを大幅に改善する。
DP-RPファミリーの中では、DP-OPORPが最高のパフォーマンスを達成する。
DP-RPの改善の鍵となる考え方は、投影されたデータの符号、すなわち$sign(x_j) = sign\left(\sum_{i=1}^p u_i w_{ij}\right)$のみを取ることである。
直観的には、元のデータ(u$)が小さな変更(DPの `neighbor' の定義による)を示すとき、記号はしばしば変化しない。
言い換えれば、集約と量子化操作自体が優れたプライバシー保護を提供する。
我々は,SignRPの直感的なプライバシー保護を取り入れた 'smooth flipping probability' と呼ばれる手法を開発し,標準DPビットフリップ戦略を改善した。
この手法に基づき、厳密なDPを満たすDP-SignOPORPを提案し、特に$\epsilon$があまり大きくない場合(例えば$\epsilon = 5\sim10$)、SignRP(およびRP)に基づく他のDP変種よりも優れている。
さらに、アプリケーションシナリオが個々のDPを受け入れた場合、直ちにiDP-SignRPというアルゴリズムが得られ、小額の$\epsilon$(例えば$\epsilon<0.5$)でも優れたユーティリティを実現する。 In this paper, we develop a series of differential privacy (DP) algorithms from a family of random projections (RP) for general applications in machine learning, data mining, and information retrieval. Among the presented algorithms, iDP-SignRP is remarkably effective under the setting of ``individual differential privacy'' (iDP), based on sign random projections (SignRP). Also, DP-SignOPORP considerably improves existing algorithms in the literature under the standard DP setting, using ``one permutation + one random projection'' (OPORP), where OPORP is a variant of the celebrated count-sketch method with fixed-length binning and normalization. Without taking signs, among the DP-RP family, DP-OPORP achieves the best performance. Our key idea for improving DP-RP is to take only the signs, i.e., $sign(x_j) = sign\left(\sum_{i=1}^p u_i w_{ij}\right)$, of the projected data. The intuition is that the signs often remain unchanged when the original data ($u$) exhibit small changes (according to the ``neighbor'' definition in DP). In other words, the aggregation and quantization operations themselves provide good privacy protections. We develop a technique called ``smooth flipping probability'' that incorporates this intuitive privacy benefit of SignRPs and improves the standard DP bit flipping strategy. Based on this technique, we propose DP-SignOPORP which satisfies strict DP and outperforms other DP variants based on SignRP (and RP), especially when $\epsilon$ is not very large (e.g., $\epsilon = 5\sim10$). Moreover, if an application scenario accepts individual DP, then we immediately obtain an algorithm named iDP-SignRP which achieves excellent utilities even at small~$\epsilon$ (e.g., $\epsilon<0.5$). | 翻訳日:2023-06-14 16:46:00 公開日:2023-06-13 |
# emo: 少数のメタラーニングのためのエピソディクスメモリ最適化 EMO: Episodic Memory Optimization for Few-Shot Meta-Learning ( http://arxiv.org/abs/2306.05189v2 ) ライセンス: Link先を確認 | Yingjun Du, Jiayi Shen, Xiantong Zhen, Cees G.M. Snoek | (参考訳) タスク毎のトレーニングサンプル数が限られているため、勾配勾配勾配最適化の課題は少ない。
この問題に対処するために,我々は,脳の記憶から過去の学習経験を思い出す人間の能力に触発された,メタラーニングのためのエピソディックメモリ最適化を提案する。
EMOは過去の経験豊富なタスクの勾配履歴を外部メモリに保持し、メモリ拡張された方法で数ショットの学習を可能にする。
過去のトレーニングタスクの学習プロセスの保持とリコールを学習することにより、EMOは、限られた数のサンプルによって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。
理論的には、このアルゴリズムは滑らかで強い凸目的に対して収束する。
EMOは汎用的で柔軟性があり、モデルに依存しないため、既存の最適化ベースの数ショットメタ学習アプローチにシームレスに組み込むことのできる、シンプルなプラグアンドプレイオプティマイザである。
実験の結果,emoは最小ショット分類ベンチマークのほとんどによく適合し,最適化に基づくメタ学習手法の性能が向上し,収束が促進された。 Few-shot meta-learning presents a challenge for gradient descent optimization due to the limited number of training samples per task. To address this issue, we propose an episodic memory optimization for meta-learning, we call \emph{EMO}, which is inspired by the human ability to recall past learning experiences from the brain's memory. EMO retains the gradient history of past experienced tasks in external memory, enabling few-shot learning in a memory-augmented way. By learning to retain and recall the learning process of past training tasks, EMO nudges parameter updates in the right direction, even when the gradients provided by a limited number of examples are uninformative. We prove theoretically that our algorithm converges for smooth, strongly convex objectives. EMO is generic, flexible, and model-agnostic, making it a simple plug-and-play optimizer that can be seamlessly embedded into existing optimization-based few-shot meta-learning approaches. Empirical results show that EMO scales well with most few-shot classification benchmarks and improves the performance of optimization-based meta-learning methods, resulting in accelerated convergence. | 翻訳日:2023-06-14 16:36:47 公開日:2023-06-13 |
# FLEdge:エッジコンピューティングシステムにおけるフェデレーション機械学習アプリケーションのベンチマーク FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems ( http://arxiv.org/abs/2306.05172v2 ) ライセンス: Link先を確認 | Herbert Woisetschl\"ager, Alexander Isenko, Ruben Mayer, Hans-Arno Jacobsen | (参考訳) 近年,federated machine learning (fl) が注目されている。
FLベンチマークはシミュレーションシステムまたはデータセンター環境で主に研究されており、エッジコンピューティングと密接に結びついている実世界のシステムのセットアップを無視している。
我々は、エッジコンピューティングシステムにおけるFLワークロードをターゲットにしたベンチマークであるFLEdgeを導入することで、この研究ギャップを埋める。
ハードウェアの不均一性,トレーニング中のエネルギー効率,およびFLシステムのトレーニングに対する各種差分プライバシーレベルの影響を系統的に研究した。
このベンチマークを現実世界のシナリオに適用するために,我々は,クライアントのドロップアウトが最先端fl戦略に与える影響を50%まで評価する。
FLEdgeは、古いGPUアクセラレーションされた組み込みデバイス上での最先端のFLワークロードのトレーニングが、現代のサーバグレードのGPUよりも最大3倍エネルギー効率が高いという、新たな洞察を提供する。 Federated Machine Learning (FL) has received considerable attention in recent years. FL benchmarks are predominantly explored in either simulated systems or data center environments, neglecting the setups of real-world systems, which are often closely linked to edge computing. We close this research gap by introducing FLEdge, a benchmark targeting FL workloads in edge computing systems. We systematically study hardware heterogeneity, energy efficiency during training, and the effect of various differential privacy levels on training in FL systems. To make this benchmark applicable to real-world scenarios, we evaluate the impact of client dropouts on state-of-the-art FL strategies with failure rates as high as 50%. FLEdge provides new insights, such as that training state-of-the-art FL workloads on older GPU-accelerated embedded devices is up to 3x more energy efficient than on modern server-grade GPUs. | 翻訳日:2023-06-14 16:36:27 公開日:2023-06-13 |
# 英雄による文エンコーダ評価の盲点を明らかにする Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS ( http://arxiv.org/abs/2306.05083v2 ) ライセンス: Link先を確認 | Cheng-Han Chiang, Yung-Sung Chuang, James Glass, Hung-yi Lee | (参考訳) 既存の文テキスト類似性ベンチマークデータセットは、文エンコーダの判断がいかに人間に類似しているかを要約するために、単一の番号のみを使用する。
しかし, 文エンコーダ (SE) がどのような文対を類似とみなすかは明らかでない。
また、既存のseベンチマークでは、語彙重なりの低い文対を主に考慮しており、2つの文が語彙重なりが高い場合、sesがどのように振る舞うかは明らかではない。
高品質なSE診断データセットHEROSを導入する。
heros は、ある規則に基づいて元の文を新しい文に変換して \textit{minimal pair} を形成することで構成され、最小のペアは語彙の重なりが高い。
規則には、単語をシノニム、対義語、タイプポ、ランダムな単語に置き換え、元の文を否定に変換することが含まれる。
異なる規則はHEROSの異なる部分集合を生成する。
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
SEをトレーニングするために使用されるデータセットが、SEが類似していると考える文ペアの主決定要因であることがわかった。
また、2つのSEがSTSベンチマークで類似した性能を持つ場合でも、HEROS上での挙動が全く異なることを示す。
この結果から,SEの評価において従来のSTSベンチマークの盲点が明らかとなった。 Existing sentence textual similarity benchmark datasets only use a single number to summarize how similar the sentence encoder's decision is to humans'. However, it is unclear what kind of sentence pairs a sentence encoder (SE) would consider similar. Moreover, existing SE benchmarks mainly consider sentence pairs with low lexical overlap, so it is unclear how the SEs behave when two sentences have high lexical overlap. We introduce a high-quality SE diagnostic dataset, HEROS. HEROS is constructed by transforming an original sentence into a new sentence based on certain rules to form a \textit{minimal pair}, and the minimal pair has high lexical overlaps. The rules include replacing a word with a synonym, an antonym, a typo, a random word, and converting the original sentence into its negation. Different rules yield different subsets of HEROS. By systematically comparing the performance of over 60 supervised and unsupervised SEs on HEROS, we reveal that most unsupervised sentence encoders are insensitive to negation. We find the datasets used to train the SE are the main determinants of what kind of sentence pairs an SE considers similar. We also show that even if two SEs have similar performance on STS benchmarks, they can have very different behavior on HEROS. Our result reveals the blind spot of traditional STS benchmarks when evaluating SEs. | 翻訳日:2023-06-14 16:36:14 公開日:2023-06-13 |
# 長期連続予測は複雑な注意と余剰長期入力を必要とするか? Does Long-Term Series Forecasting Need Complex Attention and Extra Long Inputs? ( http://arxiv.org/abs/2306.05035v2 ) ライセンス: Link先を確認 | Daojun Liang, Haixia Zhang, Dongfeng Yuan, Xiaoyan Ma, Dongyang Li and Minggao Zhang | (参考訳) 変圧器ベースのモデルが様々な時系列タスクで印象的な性能を発揮しているため、ltsf(long-term series forecasting)のタスクも近年広く注目を集めている。
しかし、Transformerベースの手法を要求される計算の複雑さと長いシーケンスのため、LTSFタスクへの適用には、さらに検討が必要な2つの大きな問題がある。
1) これらの方法によって設計される注意の分散機構が実際に実際のデバイス上での実行時間を減少させるかどうか。
2)これらのモデルは、性能を保証するために、さらに長い入力シーケンスを必要とするか?
本論文の回答は否定的である。
そこで本稿では,これら2つの課題をよりよく再現するために,周期性による長期サブシリーズの集約と,近接処理による短期サブシリーズの更新を行う軽量な周期アテンション機構(Periodformer)を設計する。
一方、ガティング機構を周期フォーマに埋め込み、アテンションモジュールが予測結果に与える影響を調節する。
さらに,高速なハイパーパラメータ最適化のためのGPUを最大限活用するために,ベイズ最適化(MABO)に基づくマルチGPU非同期並列アルゴリズムを提案する。
MABOはキュー機構を介して各GPUにプロセスを割り当て、非同期並列検索のために一度に複数の試行を生成する。
最新の手法と比較すると,多変量予測では13%,不定値予測では26%の予測誤差が減少した。
さらにMABOは平均検索時間を46%削減し、ハイパーパラメータも改善した。
結論として、LTSFは複雑な注意と余分な長い入力シーケンスを必要としない可能性がある。
コードはgithubでオープンソース公開されている。 As Transformer-based models have achieved impressive performance on various time series tasks, Long-Term Series Forecasting (LTSF) tasks have also received extensive attention in recent years. However, due to the inherent computational complexity and long sequences demanding of Transformer-based methods, its application on LTSF tasks still has two major issues that need to be further investigated: 1) Whether the sparse attention mechanism designed by these methods actually reduce the running time on real devices; 2) Whether these models need extra long input sequences to guarantee their performance? The answers given in this paper are negative. Therefore, to better copy with these two issues, we design a lightweight Period-Attention mechanism (Periodformer), which renovates the aggregation of long-term subseries via explicit periodicity and short-term subseries via built-in proximity. Meanwhile, a gating mechanism is embedded into Periodformer to regulate the influence of the attention module on the prediction results. Furthermore, to take full advantage of GPUs for fast hyperparameter optimization (e.g., finding the suitable input length), a Multi-GPU Asynchronous parallel algorithm based on Bayesian Optimization (MABO) is presented. MABO allocates a process to each GPU via a queue mechanism, and then creates multiple trials at a time for asynchronous parallel search, which greatly reduces the search time. Compared with the state-of-the-art methods, the prediction error of Periodformer reduced by 13% and 26% for multivariate and univariate forecasting, respectively. In addition, MABO reduces the average search time by 46% while finding better hyperparameters. As a conclusion, this paper indicates that LTSF may not need complex attention and extra long input sequences. The code has been open sourced on Github. | 翻訳日:2023-06-14 16:35:50 公開日:2023-06-13 |
# テスト時間スタイルシフト:ドメイン一般化における任意スタイルの扱い Test-Time Style Shifting: Handling Arbitrary Styles in Domain Generalization ( http://arxiv.org/abs/2306.04911v2 ) ライセンス: Link先を確認 | Jungwuk Park, Dong-Jun Han, Soyeong Kim, Jaekyun Moon | (参考訳) ドメイン一般化(DG)では、モデルがトレーニングされている時点でターゲットドメインが不明であり、トレーニングされたモデルは、推論中に任意の(そしておそらく見えない)ターゲットドメインでうまく動作するべきである。
これは難しい問題であり、近年の活発な研究にもかかわらず、依然として大きな課題である。
本稿では,この問題に対処するために,シンプルながら効果的なアプローチをとる。
我々は,テストサンプルのスタイル(ソースドメインとのスタイルギャップが大きい)を,モデルがすでに慣れ親しんでいる最寄りのソースドメインに変換し,予測を行うテストタイムスタイルシフトを提案する。
この戦略により、テスト時に追加のモデルを更新することなく、任意のスタイル統計でターゲットドメインを処理できる。
さらに,dg固有の不均衡問題に対処することで,テスト時のスタイルシフトの利点を最大化する優れたプラットフォームを提供するスタイルバランシングを提案する。
提案したアイデアは実装が容易であり、他の様々なDGスキームと連携してうまく機能する。
異なるデータセットにおける実験結果は,提案手法の有効性を示す。 In domain generalization (DG), the target domain is unknown when the model is being trained, and the trained model should successfully work on an arbitrary (and possibly unseen) target domain during inference. This is a difficult problem, and despite active studies in recent years, it remains a great challenge. In this paper, we take a simple yet effective approach to tackle this issue. We propose test-time style shifting, which shifts the style of the test sample (that has a large style gap with the source domains) to the nearest source domain that the model is already familiar with, before making the prediction. This strategy enables the model to handle any target domains with arbitrary style statistics, without additional model update at test-time. Additionally, we propose style balancing, which provides a great platform for maximizing the advantage of test-time style shifting by handling the DG-specific imbalance issues. The proposed ideas are easy to implement and successfully work in conjunction with various other DG schemes. Experimental results on different datasets show the effectiveness of our methods. | 翻訳日:2023-06-14 16:35:22 公開日:2023-06-13 |
# 生成ネットワークコンプレックスを用いたオピオイド使用障害治療のための多目的分子最適化 Multi-objective Molecular Optimization for Opioid Use Disorder Treatment Using Generative Network Complex ( http://arxiv.org/abs/2306.07484v1 ) ライセンス: Link先を確認 | Hongsong Feng, Rui Wang, Chang-Guo Zhan, Guo-Wei Wei | (参考訳) オピオイド使用障害(OUD)は、複雑な多面的状態を伴う、世界的な公衆衛生問題として浮上している。
様々な病態に対する効果的な治療オプションが欠如しているため、新しい薬物の発見が迫られている。
本研究では,確率微分方程式(sde)に基づく拡散モデルと事前学習されたオートエンコーダモデルの潜在空間を組み合わせた深部生成モデルを提案する。
分子発生装置は、複数の標的、特にmu、kappa、デルタオピオイド受容体に有効な分子の効率的な生成を可能にする。
さらに, 生成分子のADMET特性(吸収, 分布, 代謝, 排ガス, 毒性)を評価し, 薬物様化合物を同定した。
いくつかの鉛化合物の薬物動態性を高めるために, 分子最適化アプローチを用いる。
我々は多種多様な薬物様分子を得る。
自動エンコーダ埋め込み、トランスフォーマー埋め込み、トポロジカルラプラシアンに由来する分子指紋を高度な機械学習アルゴリズムで統合し、結合親和性予測器を構築する。
これらの薬様化合物のオード処理に対する薬理学的効果を評価するには、さらなる実験的研究が必要である。
私たちの機械学習プラットフォームは、oudに対処するための効果的な分子の設計と最適化に有用なツールとして役立ちます。 Opioid Use Disorder (OUD) has emerged as a significant global public health issue, with complex multifaceted conditions. Due to the lack of effective treatment options for various conditions, there is a pressing need for the discovery of new medications. In this study, we propose a deep generative model that combines a stochastic differential equation (SDE)-based diffusion modeling with the latent space of a pretrained autoencoder model. The molecular generator enables efficient generation of molecules that are effective on multiple targets, specifically the mu, kappa, and delta opioid receptors. Furthermore, we assess the ADMET (absorption, distribution, metabolism, excretion, and toxicity) properties of the generated molecules to identify drug-like compounds. To enhance the pharmacokinetic properties of some lead compounds, we employ a molecular optimization approach. We obtain a diverse set of drug-like molecules. We construct binding affinity predictors by integrating molecular fingerprints derived from autoencoder embeddings, transformer embeddings, and topological Laplacians with advanced machine learning algorithms. Further experimental studies are needed to evaluate the pharmacological effects of these drug-like compounds for OUD treatment. Our machine learning platform serves as a valuable tool in designing and optimizing effective molecules for addressing OUD. | 翻訳日:2023-06-14 15:31:34 公開日:2023-06-13 |
# 自己教師付きクラスタリングによる半教師付き学習 Semi-supervised learning made simple with self-supervised clustering ( http://arxiv.org/abs/2306.07483v1 ) ライセンス: Link先を確認 | Enrico Fini and Pietro Astolfi and Karteek Alahari and Xavier Alameda-Pineda and Julien Mairal and Moin Nabi and Elisa Ricci | (参考訳) 自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
しかし、多くの現実世界のシナリオでは、ラベルが部分的に利用可能であり、自己教師付き原則に触発された半教師付きメソッドに関する最近の一連の作業が動機となっている。
本稿では,SwaVやDINOなどのクラスタリングに基づく自己教師型手法を半教師型学習者に変換する,概念的にシンプルだが実証的に強力な手法を提案する。
より正確には、単一のクロスエントロピー損失を伴うクラスタリング割り当てに依存する、基底ラベルと自己教師付き目標を用いて教師付き目標をマージするマルチタスクフレームワークを導入する。
このアプローチは、クラスタセントロイドをクラスプロトタイプと解釈することができる。
その単純さにもかかわらず、我々のアプローチは極めて効果的であり、CIFAR100とImageNetで最先端のパフォーマンスを達成するという実証的な証拠を提供する。 Self-supervised learning models have been shown to learn rich visual representations without requiring human annotations. However, in many real-world scenarios, labels are partially available, motivating a recent line of work on semi-supervised methods inspired by self-supervised principles. In this paper, we propose a conceptually simple yet empirically powerful approach to turn clustering-based self-supervised methods such as SwAV or DINO into semi-supervised learners. More precisely, we introduce a multi-task framework merging a supervised objective using ground-truth labels and a self-supervised objective relying on clustering assignments with a single cross-entropy loss. This approach may be interpreted as imposing the cluster centroids to be class prototypes. Despite its simplicity, we provide empirical evidence that our approach is highly effective and achieves state-of-the-art performance on CIFAR100 and ImageNet. | 翻訳日:2023-06-14 15:31:11 公開日:2023-06-13 |
# オンラインレコメンダシステムにおける高品質コンテンツへのインセンティブ Incentivizing High-Quality Content in Online Recommender Systems ( http://arxiv.org/abs/2306.07479v1 ) ライセンス: Link先を確認 | Xinyan Hu, Meena Jagadeesan, Michael I. Jordan, and Jacob Steinhard | (参考訳) TikTokやYouTubeのようなコンテンツレコメンデーターシステムでは、プラットフォームの決定アルゴリズムがコンテンツ制作者のインセンティブを形成し、コンテンツ制作者がコンテンツの品質にどれだけの努力を払っているかが分かる。
多くのプラットフォームがオンライン学習を採用しており、今日のコンテンツは将来のコンテンツの推奨に影響を与えるため、時間的インセンティブを生み出している。
本稿では,オンライン学習から生じるインセンティブについて検討し,nash平衡で生成するコンテンツの質を分析した。
hedgeやexp3のような古典的なオンライン学習アルゴリズムは、残念ながら生産者に低品質のコンテンツを制作するインセンティブを与えている。
特に、コンテンツの品質は学習率の観点から上界にあり、典型的な学習率スケジュールに対してゼロに近づきます。
このネガティブな結果に動機づけられて、私たちは異なる学習アルゴリズム -- 低品質のコンテンツを作るプロデューサーを罰する - をデザインし、プロデューサに高品質なコンテンツを作るインセンティブを正しく与えます。
概念レベルでは、我々の研究は、プラットフォームの学習アルゴリズムがコンテンツの品質に与えうる意図しない影響を示し、高品質コンテンツの作成にインセンティブを与えるプラットフォーム学習アルゴリズムの設計への扉を開く。 For content recommender systems such as TikTok and YouTube, the platform's decision algorithm shapes the incentives of content producers, including how much effort the content producers invest in the quality of their content. Many platforms employ online learning, which creates intertemporal incentives, since content produced today affects recommendations of future content. In this paper, we study the incentives arising from online learning, analyzing the quality of content produced at a Nash equilibrium. We show that classical online learning algorithms, such as Hedge and EXP3, unfortunately incentivize producers to create low-quality content. In particular, the quality of content is upper bounded in terms of the learning rate and approaches zero for typical learning rate schedules. Motivated by this negative result, we design a different learning algorithm -- based on punishing producers who create low-quality content -- that correctly incentivizes producers to create high-quality content. At a conceptual level, our work illustrates the unintended impact that a platform's learning algorithm can have on content quality and opens the door towards designing platform learning algorithms that incentivize the creation of high-quality content. | 翻訳日:2023-06-14 15:30:55 公開日:2023-06-13 |
# AniFaceDrawing: スケッチ中のアニメのポートレート AniFaceDrawing: Anime Portrait Exploration during Your Sketching ( http://arxiv.org/abs/2306.07476v1 ) ライセンス: Link先を確認 | Zhengyu Huang, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata | (参考訳) 本稿では,ユーザによるアニメ肖像画作成を支援する人工知能(AI)の活用,すなわちスケッチ作成過程において,粗いスケッチをアニメ肖像画に変換することに焦点を当てる。
入力は、ストロークによって徐々に洗練される不完全なフリーハンドスケッチのシーケンスであり、出力は、入力スケッチに対応する高品質なアニメ肖像画のシーケンスである。
近年のGANは高品質な画像を生成することができるが、条件付き画像生成における問題により、低い完成度でスケッチから生成された画像の品質を維持することは難しい問題である。
最新のスケッチ・ツー・イメージ(S2I)技術であっても、アニメのスタイルが現実的なスタイルよりも抽象的な傾向があるため、不完全で粗いスケッチから高品質な画像を作成することは依然として困難である。
この問題に対処するため、我々は2段階のトレーニング戦略を持つStyleGANの潜航空間探索を採用した。
我々は,手書きスケッチの入力ストロークを,StyleGANの潜在構造コードにおけるエッジ情報関連属性に対応するものとみなし,ストロークとこれらの属性のアンタングメントの一致を表現した。
まず,教師エンコーダとして,事前学習したStyleGANモデルを用いて画像エンコーダを訓練した。
第2段階では、追加データ(ラベル)無しで生成された画像の描画プロセスをシミュレートし、不完全なプログレッシブスケッチのためにスケッチエンコーダを訓練し、教師エンコーダ内の不等角表現に合わせた高品質なポートレート画像を生成する。
提案するプログレッシブs2iシステムを質的および定量的に評価し,不完全なプログレッシブスケッチから高品質なアニメポートレートを得た。
本研究は,アニメスタイルにおけるアート制作支援における効果を実証した。 In this paper, we focus on how artificial intelligence (AI) can be used to assist users in the creation of anime portraits, that is, converting rough sketches into anime portraits during their sketching process. The input is a sequence of incomplete freehand sketches that are gradually refined stroke by stroke, while the output is a sequence of high-quality anime portraits that correspond to the input sketches as guidance. Although recent GANs can generate high quality images, it is a challenging problem to maintain the high quality of generated images from sketches with a low degree of completion due to ill-posed problems in conditional image generation. Even with the latest sketch-to-image (S2I) technology, it is still difficult to create high-quality images from incomplete rough sketches for anime portraits since anime style tend to be more abstract than in realistic style. To address this issue, we adopt a latent space exploration of StyleGAN with a two-stage training strategy. We consider the input strokes of a freehand sketch to correspond to edge information-related attributes in the latent structural code of StyleGAN, and term the matching between strokes and these attributes stroke-level disentanglement. In the first stage, we trained an image encoder with the pre-trained StyleGAN model as a teacher encoder. In the second stage, we simulated the drawing process of the generated images without any additional data (labels) and trained the sketch encoder for incomplete progressive sketches to generate high-quality portrait images with feature alignment to the disentangled representations in the teacher encoder. We verified the proposed progressive S2I system with both qualitative and quantitative evaluations and achieved high-quality anime portraits from incomplete progressive sketches. Our user study proved its effectiveness in art creation assistance for the anime style. | 翻訳日:2023-06-14 15:30:32 公開日:2023-06-13 |
# ボクセル格子による3次元分子生成 3D molecule generation by denoising voxel grids ( http://arxiv.org/abs/2306.07473v1 ) ライセンス: Link先を確認 | Pedro O. Pinheiro, Joshua Rackers, Joseph Kleinhenz, Michael Maser, Omar Mahmood, Andrew Martin Watkins, Stephen Ra, Vishnu Sresht, Saeed Saremi | (参考訳) 正規格子上に原子密度を表す3次元分子を生成するための新しいスコアベース手法を提案する。
まず,ノイズの多い分子の滑らかな分布から実際の分子の分布にマップすることを学ぶ,分断ニューラルネットワークを訓練する。
次に、神経経験的ベイズフレームワーク(saremi and hyvarinen, 2019)に従い、2つのステップで分子を生成します。
(i)弱減衰したランジュバンマルコフ連鎖モンテカルロを経由する平滑な分布からの雑音密度格子のサンプルおよび
(i)ノイズ格子を1ステップで denoizingして ``clean'' 分子を回収する。
我々の方法であるVoxMolは、現在の技術の状態(すなわち原子点雲に適用される拡散モデル)と根本的に異なる方法で分子を生成する。
データ表現、ノイズモデル、ネットワークアーキテクチャ、生成モデリングアルゴリズムの点で異なる。
VoxMolは、非条件の3D分子生成技術と同等の結果を得ると同時に、より訓練しやすく、より速く分子を生成することができる。 We propose a new score-based approach to generate 3D molecules represented as atomic densities on regular grids. First, we train a denoising neural network that learns to map from a smooth distribution of noisy molecules to the distribution of real molecules. Then, we follow the neural empirical Bayes framework [Saremi and Hyvarinen, 2019] and generate molecules in two steps: (i) sample noisy density grids from a smooth distribution via underdamped Langevin Markov chain Monte Carlo, and (ii) recover the ``clean'' molecule by denoising the noisy grid with a single step. Our method, VoxMol, generates molecules in a fundamentally different way than the current state of the art (i.e., diffusion models applied to atom point clouds). It differs in terms of the data representation, the noise model, the network architecture and the generative modeling algorithm. VoxMol achieves comparable results to state of the art on unconditional 3D molecule generation while being simpler to train and faster to generate molecules. | 翻訳日:2023-06-14 15:29:59 公開日:2023-06-13 |
# 分子配座生成のためのvon mises混合分布 Von Mises Mixture Distributions for Molecular Conformation Generation ( http://arxiv.org/abs/2306.07472v1 ) ライセンス: Link先を確認 | Kirk Swanson, Jake Williams, Eric Jonas | (参考訳) 分子はしばしばグラフとして表されるが、基礎となる3次元分子幾何学(原子の位置)は最終的にほとんどの分子特性を決定する。
しかし、ほとんどの分子は静的ではなく、室温では様々なジオメトリーや$\textit{conformations}$を採用する。
結果として得られる$p(x)$ 上の分布はボルツマン分布と呼ばれ、多くの分子的性質はこの分布の下で計算される。
したがってボルツマン分布から正確なサンプルを生成することは、これらの期待を正確に計算するのに必須である。
従来のサンプリングベースのメソッドは計算コストが高く、最近の機械学習ベースのメソッドでは、真の$\textit{samples}$を生成するのではなく、$\textit{modes}$を特定することに重点を置いている。
このようなサンプルを生成するにはコンフォメーションの変動性が必要であり、分子のコンフォメーションの変動性の大部分はロタブル結合から生じることが広く認識されている。
本稿では、フォン・ミセス分布の混合として、回転可能なボンドねじれ角の変動近似を用いてコンフォメーション変動を捉える新しいグラフニューラルネットワークであるVonMisesNetを提案する。
VonMisesNetは、ボルツマン分布と既存のサンプリング法よりもはるかに高速に、物理的に正確な方法で任意の分子のコンフォメーションを生成することができることを示した。 Molecules are frequently represented as graphs, but the underlying 3D molecular geometry (the locations of the atoms) ultimately determines most molecular properties. However, most molecules are not static and at room temperature adopt a wide variety of geometries or $\textit{conformations}$. The resulting distribution on geometries $p(x)$ is known as the Boltzmann distribution, and many molecular properties are expectations computed under this distribution. Generating accurate samples from the Boltzmann distribution is therefore essential for computing these expectations accurately. Traditional sampling-based methods are computationally expensive, and most recent machine learning-based methods have focused on identifying $\textit{modes}$ in this distribution rather than generating true $\textit{samples}$. Generating such samples requires capturing conformational variability, and it has been widely recognized that the majority of conformational variability in molecules arises from rotatable bonds. In this work, we present VonMisesNet, a new graph neural network that captures conformational variability via a variational approximation of rotatable bond torsion angles as a mixture of von Mises distributions. We demonstrate that VonMisesNet can generate conformations for arbitrary molecules in a way that is both physically accurate with respect to the Boltzmann distribution and orders of magnitude faster than existing sampling methods. | 翻訳日:2023-06-14 15:29:43 公開日:2023-06-13 |
# ビールを醸造する資源:再現可能な参照モデルと公式のリーダーボード Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard ( http://arxiv.org/abs/2306.07471v1 ) ライセンス: Link先を確認 | Ehsan Kamalloo, Nandan Thakur, Carlos Lassance, Xueguang Ma, Jheng-Hong Yang, Jimmy Lin | (参考訳) BEIRは18種類のドメイン/タスクの組み合わせにわたる情報検索モデルのゼロショット評価のためのベンチマークデータセットである。
近年,検索モデル構築における表現学習手法の普及がみられ,教師付き環境では予め訓練されたトランスフォーマーを用いることが多い。
これらのモデルは、トレーニングデータとは異なるクエリやドキュメントを提示するときに、どの程度効果的か?
例えば、異なるドメイン(例えば、医学または法的なテキスト)の検索や、異なるタイプのクエリ(例えば、キーワード対よく表現された質問)がある。
BEIRはこれらの質問に答えるために設計されたものだが、我々の研究はベンチマークが完全な潜在能力を達成するのを防ぐ2つの欠点に対処している。
この目的のために、我々は2つの主要なアプローチのクラスをカバーする再現可能な参照実装を提供する。
第二に、BEIR上で異なるモデルの有効性を報告するための単一の信頼できるネクサスが存在しておらず、異なる方法を比較するのが困難になっている。
そこで本稿では,検索モデルの公平かつ一貫した比較を行うセルフサービスBEIRリーダーボードを提案する。
両方の欠点に対処することで、BEIRが実現している様々な興味深い研究課題において、今後の探索を促進することができる。 BEIR is a benchmark dataset for zero-shot evaluation of information retrieval models across 18 different domain/task combinations. In recent years, we have witnessed the growing popularity of a representation learning approach to building retrieval models, typically using pretrained transformers in a supervised setting. This naturally begs the question: How effective are these models when presented with queries and documents that differ from the training data? Examples include searching in different domains (e.g., medical or legal text) and with different types of queries (e.g., keywords vs. well-formed questions). While BEIR was designed to answer these questions, our work addresses two shortcomings that prevent the benchmark from achieving its full potential: First, the sophistication of modern neural methods and the complexity of current software infrastructure create barriers to entry for newcomers. To this end, we provide reproducible reference implementations that cover the two main classes of approaches: learned dense and sparse models. Second, there does not exist a single authoritative nexus for reporting the effectiveness of different models on BEIR, which has led to difficulty in comparing different methods. To remedy this, we present an official self-service BEIR leaderboard that provides fair and consistent comparisons of retrieval models. By addressing both shortcomings, our work facilitates future explorations in a range of interesting research questions that BEIR enables. | 翻訳日:2023-06-14 15:29:15 公開日:2023-06-13 |
# 視覚変換器のシフト等価性回復 Reviving Shift Equivariance in Vision Transformers ( http://arxiv.org/abs/2306.07470v1 ) ライセンス: Link先を確認 | Peijian Ding, Davit Soselia, Thomas Armstrong, Jiahao Su, and Furong Huang | (参考訳) シフト均等性(Shift equivariance)は、我々が世界をどのように知覚するかを決定する基本的な原理である。
トランスフォーマーは言語と視覚の両方に効果があるため、大きな人気を集めている。
視覚変換器(ViT)における自己アテンション演算子は、置換同変であり、したがってシフト同変、パッチ埋め込み、位置符号化、およびサブサンプリングされた注意が、この特性を破壊し、小さなシフト摂動の下でも一貫性のない予測をもたらす。
畳み込みニューラルネットワーク(CNN)の帰納バイアスを視覚変換器に組み込む傾向が増加しているが、その問題を完全に解決するものではない。
本稿では,視覚変換器モデルにシームレスに統合して,パッチ埋め込みやサブサンプリングアテンションモジュール(ウィンドウアテンションやグローバルサブサンプリングアテンションなど)のシフト等価性を確保する適応型多相アンカーアルゴリズムを提案する。
さらに,奥行き畳み込みを利用して位置情報を符号化する。
提案アルゴリズムは,入力シフトに対して100%整合性を達成し,トリミング,フリップ,アフィン変換に対する堅牢性を証明し,Twins の精度を 80.57% から 62.40% に下げた数ピクセルで平均で 20 パーセンテージのポイントが失われても,一貫した予測を維持できる。 Shift equivariance is a fundamental principle that governs how we perceive the world - our recognition of an object remains invariant with respect to shifts. Transformers have gained immense popularity due to their effectiveness in both language and vision tasks. While the self-attention operator in vision transformers (ViT) is permutation-equivariant and thus shift-equivariant, patch embedding, positional encoding, and subsampled attention in ViT variants can disrupt this property, resulting in inconsistent predictions even under small shift perturbations. Although there is a growing trend in incorporating the inductive bias of convolutional neural networks (CNNs) into vision transformers, it does not fully address the issue. We propose an adaptive polyphase anchoring algorithm that can be seamlessly integrated into vision transformer models to ensure shift-equivariance in patch embedding and subsampled attention modules, such as window attention and global subsampled attention. Furthermore, we utilize depth-wise convolution to encode positional information. Our algorithms enable ViT, and its variants such as Twins to achieve 100% consistency with respect to input shift, demonstrate robustness to cropping, flipping, and affine transformations, and maintain consistent predictions even when the original models lose 20 percentage points on average when shifted by just a few pixels with Twins' accuracy dropping from 80.57% to 62.40%. | 翻訳日:2023-06-14 15:28:53 公開日:2023-06-13 |
# PaVa:新しいパスベースのバレー探索クラスタリングアルゴリズム PaVa: a novel Path-based Valley-seeking clustering algorithm ( http://arxiv.org/abs/2306.07503v1 ) ライセンス: Link先を確認 | Lin Ma and Conan Liu and Tiefeng Ma and Shuangzhe Liu | (参考訳) クラスタリング手法は、クラスタの形状が任意である傾向にある、より複雑なデータセットを含む幅広いシナリオに適用されている。
本稿では,任意の形状のクラスタに対して,新しい経路に基づくバレーシーキングクラスタリングアルゴリズムを提案する。
この研究は、クラスタ間の谷を探し、個別にクラスタを抽出することを目的としている。
このアルゴリズムでは3つの重要な技術が使われている。
第一に、経路距離 (minmax distance) を用いて、密度の谷であるクラスタ間の不規則な境界を完全な球形シェルに変換する。
第二に、最小スパンニング木を調整するために、適度な密度測定である$k$-distanceを用いて、ロバストミンマックス距離を計算した。
第三に、その中心と半径を決定することで、変形した密度の谷を求める。
まず、遠方変換後の球状殻にクラスターを包み、任意の形状のクラスターであっても抽出過程を効率よく行う。
第2に、調整された最小スパンディングツリーは、異なる種類の雑音下でのminmax距離のロバスト性を高める。
最後に、個々の抽出プロセスのため、クラスタの数を手動で入力したり決定したりする必要はない。
提案アルゴリズムをいくつかの一般的な合成データセットに適用した結果,経路に基づくバレーシーキングアルゴリズムは正確かつ効率的であることが判明した。
このアルゴリズムはオブジェクトの相似性に基づいており、幅広いフィールドに適用することができる。
実世界のデータセットのパフォーマンスは、その汎用性を示している。 Clustering methods are being applied to a wider range of scenarios involving more complex datasets, where the shapes of clusters tend to be arbitrary. In this paper, we propose a novel Path-based Valley-seeking clustering algorithm for arbitrarily shaped clusters. This work aims to seek the valleys among clusters and then individually extract clusters. Three vital techniques are used in this algorithm. First, path distance (minmax distance) is employed to transform the irregular boundaries among clusters, that is density valleys, into perfect spherical shells. Second, a suitable density measurement, $k$-distance, is employed to make adjustment on Minimum Spanning Tree, by which a robust minmax distance is calculated. Third, we seek the transformed density valleys by determining their centers and radius. First, the clusters are wrapped in spherical shells after the distance transformation, making the extraction process efficient even with clusters of arbitrary shape. Second, adjusted Minimum Spanning Tree enhances the robustness of minmax distance under different kinds of noise. Last, the number of clusters does not need to be inputted or decided manually due to the individual extraction process. After applying the proposed algorithm to several commonly used synthetic datasets, the results indicate that the Path-based Valley-seeking algorithm is accurate and efficient. The algorithm is based on the dissimilarity of objects, so it can be applied to a wide range of fields. Its performance on real-world datasets illustrates its versatility. | 翻訳日:2023-06-14 15:20:30 公開日:2023-06-13 |
# 高度なチャットボットにguardrailsを追加 Adding guardrails to advanced chatbots ( http://arxiv.org/abs/2306.07500v1 ) ライセンス: Link先を確認 | Yanchen Wang, Lisa Singh | (参考訳) 生成AIモデルは、引き続き強力である。
2022年11月のChatGPTのローンチは、AIの新しい時代を後押しした。
ChatGPTや同様のチャットボットは、学生の宿題の質問に答えたり、音楽やアートを作ったりできる。
すでに、人間がさまざまな仕事のためにチャットボットに置き換えられるのではないかという懸念がある。
さまざまなデータチャットボットが構築されているため、人間のエラーや人間のバイアスが組み込まれていることが分かっています。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
チャットボット応答の長所と短所を理解するために,ChatGPTの異なる利用事例を探索し,回答する質問の種類と改善が必要な質問の種類を判定する位置紙を提案する。
ChatGPTは私たちがテストしたタスクのための公正な検索エンジンであることがわかったが、テキスト生成とコード生成の両方に偏っている。
ChatGPTは、小さな変化がフェアネスのレベルの違いにつながるプロンプトの変化に非常に敏感であることがわかった。
これは、これらのシステムの公平性を改善するために、直ちに「修正」または緩和戦略を実装する必要があることを示唆している。
我々はチャットボットを改善するための異なる戦略を提案し、またモデルのパラメーターにアクセスして異なる種類のバイアスのレベルを測定し、より差別的で正確である応答に向かうセーフガードを推奨する公平なレビューパネルを提唱する。 Generative AI models continue to become more powerful. The launch of ChatGPT in November 2022 has ushered in a new era of AI. ChatGPT and other similar chatbots have a range of capabilities, from answering student homework questions to creating music and art. There are already concerns that humans may be replaced by chatbots for a variety of jobs. Because of the wide spectrum of data chatbots are built on, we know that they will have human errors and human biases built into them. These biases may cause significant harm and/or inequity toward different subpopulations. To understand the strengths and weakness of chatbot responses, we present a position paper that explores different use cases of ChatGPT to determine the types of questions that are answered fairly and the types that still need improvement. We find that ChatGPT is a fair search engine for the tasks we tested; however, it has biases on both text generation and code generation. We find that ChatGPT is very sensitive to changes in the prompt, where small changes lead to different levels of fairness. This suggests that we need to immediately implement "corrections" or mitigation strategies in order to improve fairness of these systems. We suggest different strategies to improve chatbots and also advocate for an impartial review panel that has access to the model parameters to measure the levels of different types of biases and then recommends safeguards that move toward responses that are less discriminatory and more accurate. | 翻訳日:2023-06-14 15:20:10 公開日:2023-06-13 |
# ラベル誤り検出と上書きによる意見に基づく質問応答システムの改善 Improving Opinion-based Question Answering Systems Through Label Error Detection and Overwrite ( http://arxiv.org/abs/2306.07499v1 ) ライセンス: Link先を確認 | Xiao Yang, Ahmed K. Mohamed, Shashank Jain, Stanislav Peshterliev, Debojeet Chatterjee, Hanwen Zha, Nikita Bhalla, Gagan Aneja and Pranab Mohanty | (参考訳) ラベルエラーは注釈付きデータにおけるユビキタスな問題である。
大量のラベルエラーは、ディープラーニングモデルの品質を著しく低下させる。
ラベルエラー問題に対処する既存の方法は、主に分類タスクに焦点を当てており、タスク固有のアーキテクチャに依存するか、あるいは非自明な追加計算を必要とする。
本稿では,ラベル誤り検出とオーバーライトのためのモデルに依存しない,効率的なフレームワーク LEDO を提案する。
LEDOはモンテカルロ・ドロップアウトと不確実性メトリクスを組み合わせており、複数のタスクやデータセットに簡単に一般化できる。
LEDOを業界意見に基づく質問応答システムに適用することは、すべてのコアモデルの精度を向上させるのに有効であることを示す。
具体的には、ledoは検索モデルに1.1%のmrゲイン、機械読解モデルに1.5%のpr auc改善、大規模なソーシャルメディアデータセットを備えた強力なベースラインに加えて、ランチャーの平均精度が0.9%向上する。
重要な点として、LEDOは損失関数の変更を必要とする方法と比較して計算効率が良く、結果として得られるデータが同じ連続的なトレーニングパイプラインで生産に使用できるため、コスト効率が良い。
さらに分析した結果、これらの成果はトレーニングデータに存在したラベルエラーを取り除いた後の判断境界の改善によるものであることが判明した。 Label error is a ubiquitous problem in annotated data. Large amounts of label error substantially degrades the quality of deep learning models. Existing methods to tackle the label error problem largely focus on the classification task, and either rely on task specific architecture or require non-trivial additional computations, which is undesirable or even unattainable for industry usage. In this paper, we propose LEDO: a model-agnostic and computationally efficient framework for Label Error Detection and Overwrite. LEDO is based on Monte Carlo Dropout combined with uncertainty metrics, and can be easily generalized to multiple tasks and data sets. Applying LEDO to an industry opinion-based question answering system demonstrates it is effective at improving accuracy in all the core models. Specifically, LEDO brings 1.1% MRR gain for the retrieval model, 1.5% PR AUC improvement for the machine reading comprehension model, and 0.9% rise in the Average Precision for the ranker, on top of the strong baselines with a large-scale social media dataset. Importantly, LEDO is computationally efficient compared to methods that require loss function change, and cost-effective as the resulting data can be used in the same continuous training pipeline for production. Further analysis shows that these gains come from an improved decision boundary after cleaning the label errors existed in the training data. | 翻訳日:2023-06-14 15:19:50 公開日:2023-06-13 |
# 非弾性散乱の単純なモデルにおける相補性と絡み合い Complementarity and entanglement in a simple model of inelastic scattering ( http://arxiv.org/abs/2306.07498v1 ) ライセンス: Link先を確認 | David Kordahl | (参考訳) 1次元ビーム粒子と1次元調和振動子を結合した簡易モデルを用いて相補性と絡み合いを探索する。
非弾性散乱文学でよく知られるこのモデルは、3つの異なる概念的アプローチの下で提示され、それぞれに解析的および数値的手法が議論されている。
純粋に古典的なアプローチでは、発振器の最終振幅は初期条件から直接見つけることができる。
古典的なビームと量子発振器による部分的に量子的アプローチでは、発振器の最初の励起状態の量子力学的振幅の最終等級は発振器の古典的な振動振幅と直接比例する。
ほぼ同じ一階遷移確率は、部分的および完全な量子的アプローチにおいて現れるが、概念的な違いが生じる。
2粒子散乱波動関数はこれらの違いを明らかにし、量子絡み合いの結果を探索することができる。 A simple model coupling a one-dimensional beam particle to a one-dimensional harmonic oscillator is used to explore complementarity and entanglement. This model, well-known in the inelastic scattering literature, is presented under three different conceptual approaches, with both analytical and numerical techniques discussed for each. In a purely classical approach, the final amplitude of the oscillator can be found directly from the initial conditions. In a partially quantum approach, with a classical beam and a quantum oscillator, the final magnitude of the quantum-mechanical amplitude for the oscillator's first excited state is directly proportional to the oscillator's classical amplitude of vibration. Nearly the same first-order transition probabilities emerge in the partially and fully quantum approaches, but conceptual differences emerge. The two-particle scattering wavefunction clarifies these differences and allows the consequences of quantum entanglement to be explored. | 翻訳日:2023-06-14 15:19:27 公開日:2023-06-13 |
# gqfedwavg: エッジコンピューティングシステムにおける最適化に基づく量子化連合学習 GQFedWAvg: Optimization-Based Quantized Federated Learning in General Edge Computing Systems ( http://arxiv.org/abs/2306.07497v1 ) ライセンス: Link先を確認 | Yangchen Li, Ying Cui, and Vincent Lau | (参考訳) 実用エッジコンピューティングシステムにおけるフェデレートラーニング(FL)の最適実装は際立った問題であった。
本稿では,汎用エッジコンピューティングシステムに対して,作業者の一様あるいは非一様計算と通信資源を適切に適合させることができる最適化に基づく量子化flアルゴリズムを提案する。
具体的には,まず新しいランダム量子化スキームを示し,その性質を解析した。
そこで我々はGQFedWAvgという一般量子化FLアルゴリズムを提案する。
具体的には、GQFedWAvgが提案した量子化スキームを適用して、適切に選択されたモデル更新関連ベクトルを定量化し、グローバルモデルアグリゲーションにおける平均局所モデル更新を重み付けした一般化されたミニバッチ確率勾配勾配(SGD)法を採用する。
さらに、GQFedWAvgには、サーバやワーカのコンピューティングおよび通信リソースに柔軟に適応する、いくつかの調整可能なアルゴリズムパラメータがある。
また、GQFedWAvgの収束も解析する。
次に,gqfedwavgのアルゴリズムパラメータを最適化し,時間およびエネルギー制約下での収束誤差を最小化する。
我々は、一般内積近似(GIA)と複数の微妙なトリックを用いて、難解な非凸問題に取り組むことに成功した。
最後に, gqfedwavg の関数原理を解釈し, 計算結果を用いて既存の fl アルゴリズムに対するその有意な向上を示す。 The optimal implementation of federated learning (FL) in practical edge computing systems has been an outstanding problem. In this paper, we propose an optimization-based quantized FL algorithm, which can appropriately fit a general edge computing system with uniform or nonuniform computing and communication resources at the workers. Specifically, we first present a new random quantization scheme and analyze its properties. Then, we propose a general quantized FL algorithm, namely GQFedWAvg. Specifically, GQFedWAvg applies the proposed quantization scheme to quantize wisely chosen model update-related vectors and adopts a generalized mini-batch stochastic gradient descent (SGD) method with the weighted average local model updates in global model aggregation. Besides, GQFedWAvg has several adjustable algorithm parameters to flexibly adapt to the computing and communication resources at the server and workers. We also analyze the convergence of GQFedWAvg. Next, we optimize the algorithm parameters of GQFedWAvg to minimize the convergence error under the time and energy constraints. We successfully tackle the challenging non-convex problem using general inner approximation (GIA) and multiple delicate tricks. Finally, we interpret GQFedWAvg's function principle and show its considerable gains over existing FL algorithms using numerical results. | 翻訳日:2023-06-14 15:19:13 公開日:2023-06-13 |
# グラフェンを添加した単一イオン検出器によるダイヤモンド内ドパント固定 Graphene-Enhanced Single Ion Detectors for Deterministic Near-Surface Dopant Implantation in Diamond ( http://arxiv.org/abs/2306.07496v1 ) ライセンス: Link先を確認 | Nicholas F. L. Collins, Alexander M. Jakob, Simon G. Robson, Shao Qi Lim, Paul R\"acke, Brett C. Johnson, Boqing Lui, Yurei Lu, Daniel Spemann, Jeffrey C. McCallum, David N. Jamieson | (参考訳) ダイヤモンドのカラーセンターアンサンブルは、量子通信のための単一光子源、光学入力と出力による量子計算、ナノスケールへの磁場感知など、多くの応用において集中的に研究されている。
これらのアプリケーションのいくつかは、チップ内の単一中心またはランダムに分散したアンサンブルで実現されているが、大規模量子コンピュータの最も要求の高いアプリケーションは、順序付き配列を必要とするだろう。
電荷感電素子に接続されたバイアスド表面グラフェン電極により電子グレードダイヤモンド基板を構成することにより、典型的な確率的イオン源から30〜130nmの深さで停止するイオンに対する決定論的単一イオン注入を示すことができる。
イオン注入からの電子-ホール対のドリフトによって誘導される電荷パルスにより、注入イベントが信号される。
イオン注入部位はAFMナノステンシルまたは集束イオンビームで局在する。
これにより、モノリシックデバイスにおける決定論的色中心ネットワーク構築の道を開く、関連する色中心を持つ単一原子の順序づけられた配列を構築することができる。 Colour centre ensembles in diamond have been the subject of intensive investigation for many applications including single photon sources for quantum communication, quantum computation with optical inputs and outputs, and magnetic field sensing down to the nanoscale. Some of these applications are realised with a single centre or randomly distributed ensembles in chips, but the most demanding application for a large-scale quantum computer will require ordered arrays. By configuring an electronic-grade diamond substrate with a biased surface graphene electrode connected to charge-sensitive electronics, it is possible to demonstrate deterministic single ion implantation for ions stopping between 30 and 130~nm deep from a typical stochastic ion source. An implantation event is signalled by a charge pulse induced by the drift of electron-hole pairs from the ion implantation. The ion implantation site is localised with an AFM nanostencil or a focused ion beam. This allows the construction of ordered arrays of single atoms with associated colour centres that paves the way for the fabrication of deterministic colour center networks in a monolithic device. | 翻訳日:2023-06-14 15:18:48 公開日:2023-06-13 |
# トップダウンビューにおけるグラウンドドイメージキャプション Grounded Image Captioning in Top-down View ( http://arxiv.org/abs/2306.07490v1 ) ライセンス: Link先を確認 | Chen Cai, Suchen Wang, Kim-hui Yap | (参考訳) 弱教師付き接地画像キャプション (WSGIC) は, 境界ボックスの監督を使わずに, 入力画像中の字幕と接地予測対象語を生成することを目的としている。
最近の2段階のソリューションはボトムアップパイプラインを主に適用している。(1)まず、入力画像を複数の領域にエンコードするためにオフザシェルフオブジェクト検出器を適用し、(2)キャプションとグラウンドニングにソフトアテンション機構を活用する。
しかし、オブジェクト検出器は主にオブジェクトのセマンティクス(すなわちオブジェクトのカテゴリ)を抽出するように設計されている。
さらに、構造イメージを個々の提案の断片に分解する。
その結果、後続の接地キャプタは、オブジェクト間の関係(例えば、その人が何をしているのか)を見落とし、接地のための互換性のない提案領域を選択する一方で、正しい対象語を見つけるために過度に適合することが多い。
これらの課題に対処するため,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド化を行う一段弱教師付き接地キャプタを提案する。
さらに,関係モジュールを1段階のフレームワークに明示的に注入し,多ラベル分類による関係理解を促進する。
関係セマンティクスは、キャプション内の関係語の予測を支援する。
より正確なキャプションを生成する際に,関係語が接地キャプタを支援するだけでなく,接地性能も向上する。
提案手法の有効性を2つの挑戦的データセット(Flick30k EntitiesキャプションとMSCOCOキャプション)で検証した。
実験により,本手法が最先端の接地性能を実現することを示す。 Weakly supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions mostly apply a bottom-up pipeline: (1) first apply an off-the-shelf object detector to encode the input image into multiple region features; (2) and then leverage a soft-attention mechanism for captioning and grounding. However, object detectors are mainly designed to extract object semantics (i.e., the object category). Besides, they break down the structural images into pieces of individual proposals. As a result, the subsequent grounded captioner is often overfitted to find the correct object words, while overlooking the relation between objects (e.g., what is the person doing?), and selecting incompatible proposal regions for grounding. To address these difficulties, we propose a one-stage weakly supervised grounded captioner that directly takes the RGB image as input to perform captioning and grounding at the top-down image level. In addition, we explicitly inject a relation module into our one-stage framework to encourage the relation understanding through multi-label classification. The relation semantics aid the prediction of relation words in the caption. We observe that the relation words not only assist the grounded captioner in generating a more accurate caption but also improve the grounding performance. We validate the effectiveness of our proposed method on two challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The experimental results demonstrate that our method achieves state-of-the-art grounding performance. | 翻訳日:2023-06-14 15:18:29 公開日:2023-06-13 |
# PauseSpeech: 事前学習言語モデルによる自然な音声合成とポーズに基づく韻律モデリング PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling ( http://arxiv.org/abs/2306.07489v1 ) ライセンス: Link先を確認 | Ji-Sang Hwang, Sang-Hoon Lee, and Seong-Whan Lee | (参考訳) text-to-speech (tts) システムは大幅に改善されているが、ほとんどのttsシステムは適切なフラージングによる音声合成に制限がある。
自然音声合成においては,単語を意味情報に基づいてフレーズに分類するフレーズ構造を合成することが重要である。
本稿では,事前学習型言語モデルとポーズベース韻律モデルを用いた音声合成システムであるPuaseSpeechを提案する。
まず,事前学習した言語モデルからの文脈表現を利用した表現構造エンコーダを提案する。
phrasing structure encoderでは、話者に依存した構文表現をコンテキスト表現から抽出し、入力テキストを句に分割するポーズシーケンスを予測します。
さらに,ポーズシーケンスに基づく単語レベルの韻律をモデル化するための単語エンコーダを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
さらに, 客観的評価の観点からは, 提案手法が基礎音声と合成音声間の距離を減少させるのに役立つことを示す。
オーディオサンプルはhttps://jisang93.github.io/pausespeech-demo/で入手できる。 Although text-to-speech (TTS) systems have significantly improved, most TTS systems still have limitations in synthesizing speech with appropriate phrasing. For natural speech synthesis, it is important to synthesize the speech with a phrasing structure that groups words into phrases based on semantic information. In this paper, we propose PuaseSpeech, a speech synthesis system with a pre-trained language model and pause-based prosody modeling. First, we introduce a phrasing structure encoder that utilizes a context representation from the pre-trained language model. In the phrasing structure encoder, we extract a speaker-dependent syntactic representation from the context representation and then predict a pause sequence that separates the input text into phrases. Furthermore, we introduce a pause-based word encoder to model word-level prosody based on pause sequence. Experimental results show PauseSpeech outperforms previous models in terms of naturalness. Furthermore, in terms of objective evaluations, we can observe that our proposed methods help the model decrease the distance between ground-truth and synthesized speech. Audio samples are available at https://jisang93.github.io/pausespeech-demo/. | 翻訳日:2023-06-14 15:18:00 公開日:2023-06-13 |
# 知識推進型推定器:説明可能な機械翻訳評価の新しいアプローチ Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine Translation Assessment ( http://arxiv.org/abs/2306.07486v1 ) ライセンス: Link先を確認 | Hao Yang, Min Zhang, Shimin Tao, Minghan Wang, Daimeng Wei, Yanfei Jiang | (参考訳) 言語間機械翻訳(mt)の品質推定は、翻訳性能を評価する上で重要な役割を果たす。
GEMBAは、Large Language Models (LLMs) に基づく最初のMT品質評価尺度であり、システムレベルのMT品質評価において最先端(SOTA)を達成するために一段階のプロンプトを用いるが、セグメントレベルの分析は欠いている。
対照的に、Chain-of-Thought(CoT)は、推論と説明可能性の改善を提供することで、ワンステップのプロンプトより優れている。
本稿では,難易度,トークンレベルの類似度,文レベルの類似度を含む3つのワンステッププロンプト技術を組み合わせたCoTプロンプト手法であるKPE(Knowledge-Prompted Estimator)を提案する。
本手法は,従来のディープラーニングモデルやワンステッププロンシング手法と比較してセグメントレベルの推定性能が向上する。
さらに, 単語レベルの可視化アライメントに関する補足実験により, KPE法は従来のモデルと比較してトークンアライメントを著しく改善し, MT品質評価に優れた解釈性を提供することを示した。
コードは出版時に公開される。 Cross-lingual Machine Translation (MT) quality estimation plays a crucial role in evaluating translation performance. GEMBA, the first MT quality assessment metric based on Large Language Models (LLMs), employs one-step prompting to achieve state-of-the-art (SOTA) in system-level MT quality estimation; however, it lacks segment-level analysis. In contrast, Chain-of-Thought (CoT) prompting outperforms one-step prompting by offering improved reasoning and explainability. In this paper, we introduce Knowledge-Prompted Estimator (KPE), a CoT prompting method that combines three one-step prompting techniques, including perplexity, token-level similarity, and sentence-level similarity. This method attains enhanced performance for segment-level estimation compared with previous deep learning models and one-step prompting approaches. Furthermore, supplementary experiments on word-level visualized alignment demonstrate that our KPE method significantly improves token alignment compared with earlier models and provides better interpretability for MT quality estimation. Code will be released upon publication. | 翻訳日:2023-06-14 15:17:42 公開日:2023-06-13 |
# 合成最適化による非正規化統計モデルの学習 Learning Unnormalized Statistical Models via Compositional Optimization ( http://arxiv.org/abs/2306.07485v1 ) ライセンス: Link先を確認 | Wei Jiang, Jiayu Qin, Lingyu Wu, Changyou Chen, Tianbao Yang, Lijun Zhang | (参考訳) 非正規化統計モデル(例えばエネルギーベースモデル)の学習は、分割関数を扱う複雑さのために計算的に困難である。
この複雑さを補うために、実データのロジスティックな損失と人工ノイズとして目的を定式化したノイズコントラスト推定~(NCE)が提案されている。
しかし、以前の作品に見られるように、nceは平坦な損失の風景と緩やかな収束のため、多くのタスクで性能が低下する可能性がある。
本稿では,合成最適化の観点から非正規化モデルの負のログ様相を最適化する直接的アプローチについて検討する。
分割関数に対処するために、対数分割関数を確率的なサンプルを用いて内部関数を推定できる構成関数として書けるようにノイズ分布を導入する。
したがって、目的は確率的合成最適化アルゴリズムによって最適化できる。
Despite being a simple method, we demonstrate that it is more favorable than NCE by (1) establishing a fast convergence rate and quantifying its dependence on the noise distribution through the variance of stochastic estimators; (2) developing better results for one-dimensional Gaussian mean estimation by showing our objective has a much favorable loss landscape and hence our method enjoys faster convergence; (3) demonstrating better performance on multiple applications, including density estimation, out-of-distribution detection, and real image generation. Learning unnormalized statistical models (e.g., energy-based models) is computationally challenging due to the complexity of handling the partition function. To eschew this complexity, noise-contrastive estimation~(NCE) has been proposed by formulating the objective as the logistic loss of the real data and the artificial noise. However, as found in previous works, NCE may perform poorly in many tasks due to its flat loss landscape and slow convergence. In this paper, we study it a direct approach for optimizing the negative log-likelihood of unnormalized models from the perspective of compositional optimization. To tackle the partition function, a noise distribution is introduced such that the log partition function can be written as a compositional function whose inner function can be estimated with stochastic samples. Hence, the objective can be optimized by stochastic compositional optimization algorithms. Despite being a simple method, we demonstrate that it is more favorable than NCE by (1) establishing a fast convergence rate and quantifying its dependence on the noise distribution through the variance of stochastic estimators; (2) developing better results for one-dimensional Gaussian mean estimation by showing our objective has a much favorable loss landscape and hence our method enjoys faster convergence; (3) demonstrating better performance on multiple applications, including density estimation, out-of-distribution detection, and real image generation. | 翻訳日:2023-06-14 15:17:22 公開日:2023-06-13 |
# Facebook上の求人広告による画像選択による識別 Discrimination through Image Selection by Job Advertisers on Facebook ( http://arxiv.org/abs/2306.07527v1 ) ライセンス: Link先を確認 | Varun Nagaraj Rao, Aleksandra Korolova | (参考訳) ターゲット広告プラットフォームは、求職者が潜在的な従業員にリーチするために広く利用されているため、表面化したターゲットによる差別の問題が広く注目を集めている。
広告主はターゲティングツールを誤用して、性別、人種、場所、その他の保護された属性に基づいて、求人広告を見ることを排除できる。
法的措置に反応して、facebookは雇用を含むいくつかの広告カテゴリーの多くの属性に基づく明示的なターゲティング機能を無効にした。
これは正しい方向への一歩であるが、以前の研究は、差別はプラットフォームの明示的なターゲティングツールのためだけでなく、偏りのある広告配信アルゴリズムの影響によるものであることを示している。
したがって、明確なターゲティングツールのレンズを通してではなく、より広い範囲で差別の可能性を見極める必要がある。
本研究では,職業広告画像における特定の人口階層の非正規表現や排除を通じて,ターゲティングとデリバリーを両立させた求人広告における新たな差別手段の出現状況について検討する。
1) 1つの認識された性別の人の広告画像を使用して多くのキャンペーンを実行している広告主の証拠、2トラック運転手と看護師の現在の広告キャンペーンにおける性別表現の体系的分析、3性別による広告キャンペーン利用の経時的分析、および一部の広告主の人種による広告キャンペーン利用の経時的分析。
求人広告画像中の人物の選択による差別と,広告配信アルゴリズムによるスキューのアルゴリズムによる増幅が即時に懸念されていることを確認し,それに対処するためのアプローチと課題について考察する。 Targeted advertising platforms are widely used by job advertisers to reach potential employees; thus issues of discrimination due to targeting that have surfaced have received widespread attention. Advertisers could misuse targeting tools to exclude people based on gender, race, location and other protected attributes from seeing their job ads. In response to legal actions, Facebook disabled the ability for explicit targeting based on many attributes for some ad categories, including employment. Although this is a step in the right direction, prior work has shown that discrimination can take place not just due to the explicit targeting tools of the platforms, but also due to the impact of the biased ad delivery algorithm. Thus, one must look at the potential for discrimination more broadly, and not merely through the lens of the explicit targeting tools. In this work, we propose and investigate the prevalence of a new means for discrimination in job advertising, that combines both targeting and delivery -- through the disproportionate representation or exclusion of people of certain demographics in job ad images. We use the Facebook Ad Library to demonstrate the prevalence of this practice through: (1) evidence of advertisers running many campaigns using ad images of people of only one perceived gender, (2) systematic analysis for gender representation in all current ad campaigns for truck drivers and nurses, (3) longitudinal analysis of ad campaign image use by gender and race for select advertisers. After establishing that the discrimination resulting from a selective choice of people in job ad images, combined with algorithmic amplification of skews by the ad delivery algorithm, is of immediate concern, we discuss approaches and challenges for addressing it. | 翻訳日:2023-06-14 15:12:40 公開日:2023-06-13 |
# 物理力学系の拡散モデルにおけるユーザ定義イベントサンプリングと不確実性定量化 User-defined Event Sampling and Uncertainty Quantification in Diffusion Models for Physical Dynamical Systems ( http://arxiv.org/abs/2306.07526v1 ) ライセンス: Link先を確認 | Marc Finzi, Anudhyan Boral, Andrew Gordon Wilson, Fei Sha, Leonardo Zepeda-N\'u\~nez | (参考訳) 拡散モデルは確率的生成モデルの一種であり、テキスト条件生成やインパインティングといった画像処理タスクに先立って広く用いられてきた。
これらのモデルは,カオス力学系の予測や不確実性定量化に適応可能であることを示す。
これらのアプリケーションでは、拡散モデルは、異常値や極端な事象に関する知識を暗黙的に表現することができるが、条件付きサンプリングや確率測定による知識のクエリは驚くほど難しい。
既存の条件付きサンプリングの方法は、主に、分布の統計と一致したり、選択した事象の確率を計算するのに不十分な制約を強制することを目的としている。
これらの目的を達成するために、最適に条件スコア関数を使うが、計算は通常難解である。
本研究では,雑音レベルが低下するにつれて実分布に確実に収束する条件付きスコア関数の確率的近似法を開発する。
このスキームにより、推定時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングしてもデータ統計にマッチする。 Diffusion models are a class of probabilistic generative models that have been widely used as a prior for image processing tasks like text conditional generation and inpainting. We demonstrate that these models can be adapted to make predictions and provide uncertainty quantification for chaotic dynamical systems. In these applications, diffusion models can implicitly represent knowledge about outliers and extreme events; however, querying that knowledge through conditional sampling or measuring probabilities is surprisingly difficult. Existing methods for conditional sampling at inference time seek mainly to enforce the constraints, which is insufficient to match the statistics of the distribution or compute the probability of the chosen events. To achieve these ends, optimally one would use the conditional score function, but its computation is typically intractable. In this work, we develop a probabilistic approximation scheme for the conditional score function which provably converges to the true distribution as the noise level decreases. With this scheme we are able to sample conditionally on nonlinear userdefined events at inference time, and matches data statistics even when sampling from the tails of the distribution. | 翻訳日:2023-06-14 15:11:47 公開日:2023-06-13 |
# 深層強化学習に基づく逆ペデストリアンモデリングにおける衝突モーメントの利用 Using Collision Momentum in Deep Reinforcement Learning Based Adversarial Pedestrian Modeling ( http://arxiv.org/abs/2306.07525v1 ) ライセンス: Link先を確認 | Dianwei Chen, Ekim Yurtsever, Keith Redmill and Umit Ozguner | (参考訳) 歩行者シミュレーションの最近の研究は、様々な状況において現実的な行動を開発することを目的としていることが多いが、既存のアルゴリズムが極端なシナリオやエッジケースにおいて、自動運転車の性能の弱点を特定する行動を生成することは困難である。
これに対処するには、特殊な歩行者行動アルゴリズムが必要である。
現在の研究は、社会力モデルと強化学習に基づくモデルを用いた現実的な軌跡に焦点を当てている。
しかし,衝突を対象とする強化学習アルゴリズムを提案し,自動車両制御装置の独自の故障モードを明らかにする。
我々のアルゴリズムは効率的であり、より深刻な衝突を引き起こし、複雑で多様なシナリオにおける自動運転アルゴリズムの弱点の同定と修正を可能にする。 Recent research in pedestrian simulation often aims to develop realistic behaviors in various situations, but it is challenging for existing algorithms to generate behaviors that identify weaknesses in automated vehicles' performance in extreme and unlikely scenarios and edge cases. To address this, specialized pedestrian behavior algorithms are needed. Current research focuses on realistic trajectories using social force models and reinforcement learning based models. However, we propose a reinforcement learning algorithm that specifically targets collisions and better uncovers unique failure modes of automated vehicle controllers. Our algorithm is efficient and generates more severe collisions, allowing for the identification and correction of weaknesses in autonomous driving algorithms in complex and varied scenarios. | 翻訳日:2023-06-14 15:10:56 公開日:2023-06-13 |
# Heom.jl: 開量子系における運動の階層方程式のための効率的なジュリアフレームワーク Heom.jl: An efficient Julia framework for hierarchical equations of motion in open quantum systems ( http://arxiv.org/abs/2306.07522v1 ) ライセンス: Link先を確認 | Yi-Te Huang, Po-Chen Kuo Neill Lambert, Mauro Cirio, Simon Cross, Shen-Liang Yang, Franco Nori, Yueh-Nan Chen | (参考訳) 我々は,複数のボソニック環境とフェルミオン環境を同時に結合したシステムの階層的運動方程式(heom)を統合するためのjuliaフレームワークである「heom.jl」というオープンソースソフトウェアパッケージを紹介する。
Heom.jlは、ボゾンスペクトルとフェルミオンスペクトル、定常状態、および全ての補助密度作用素(ADO)の拡張空間におけるフルダイナミックスを計算する方法の集合である。
ADOのマルチインデックスの必要な処理は、ユーザフレンドリーなインターフェースによって実現される。
2つのフェルミオン貯水池と相互作用する1つの不純物(アンダーソンモデル)と1つのボゾンと2つのフェルミオン貯水池と相互作用する超強結合電荷キャビティ系を解析することにより、パッケージの機能性を実証する。
Heom.jl は HEOM Liouvillian Superoperator の構築において、Python のQuantum Toolbox (QuTiP) の対応するメソッドに関して、すべての ADO に対する動的および定常状態の解決を可能にする。 We introduce an open-source software package called "Heom.jl", a Julia framework to integrate the hierarchical equations of motion (HEOM) for the reduced dynamics of a system simultaneously coupled to multiple bosonic and fermionic environments. Heom.jl features a collection of methods to compute bosonic and fermionic spectra, stationary states, and the full dynamics in the extended space of all auxiliary density operators (ADOs). The required handling of the ADOs multi-indexes is achieved through a user-friendly interface. We exemplify the functionalities of the package by analyzing a single impurity interacting with two fermionic reservoirs (Anderson model), and an ultra-strongly coupled charge-cavity system interacting with one bosonic and two fermionic reservoirs. Heom.jl allows for an order of magnitude speedup in the construction of the HEOM Liouvillian superoperator, solving dynamics and stationary states for all ADOs, with respect to the corresponding method in the Quantum Toolbox in Python (QuTiP), upon which this package is founded. | 翻訳日:2023-06-14 15:10:29 公開日:2023-06-13 |
# アメリカ合衆国国勢調査局のプライバシー保護方法によるバイアスと騒音の評価 Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy Protection Methods ( http://arxiv.org/abs/2306.07521v1 ) ライセンス: Link先を確認 | Christopher T. Kenny, Shiro Kuriwaki, Cory McCartan, Tyler Simko, Kosuke Imai | (参考訳) アメリカ合衆国国勢調査局は、国勢調査統計の正確さと個々の情報の保護との間に難しいトレードオフに直面している。
我々は,2020年国勢調査で採用したトップダウンアルゴリズムと,1990年,2000年,2010年国勢調査で実施したスワッピングアルゴリズムの2つの開示回避システムにより,バイアスとノイズの独立評価を行った。
本評価は,2010年度国勢調査に適用したtopdownアルゴリズムの2つの独立実行の可利用性とともに,最近リリースされた騒がしい測定ファイル(nmf)を活用した。
NMFにはノイズが多すぎるため、特にヒスパニック系と多人種系では直接的に有用である。
TopDownのポストプロセッシングはNMFノイズを劇的に低減し、バイアスとノイズの点でスワップと同じような正確なデータを生成する。
これらのパターンは、人口規模や人種の多様性の異なる国勢調査の地形にまたがる。
トップダウンとスワップの誤差は概して他の国勢調査誤差の源より大きいものではないが、人口の少ない地形では相対的に大きな誤差となる可能性がある。 The United States Census Bureau faces a difficult trade-off between the accuracy of Census statistics and the protection of individual information. We conduct the first independent evaluation of bias and noise induced by the Bureau's two main disclosure avoidance systems: the TopDown algorithm employed for the 2020 Census and the swapping algorithm implemented for the 1990, 2000, and 2010 Censuses. Our evaluation leverages the recent release of the Noisy Measure File (NMF) as well as the availability of two independent runs of the TopDown algorithm applied to the 2010 decennial Census. We find that the NMF contains too much noise to be directly useful alone, especially for Hispanic and multiracial populations. TopDown's post-processing dramatically reduces the NMF noise and produces similarly accurate data to swapping in terms of bias and noise. These patterns hold across census geographies with varying population sizes and racial diversity. While the estimated errors for both TopDown and swapping are generally no larger than other sources of Census error, they can be relatively substantial for geographies with small total populations. | 翻訳日:2023-06-14 15:10:07 公開日:2023-06-13 |
# 他人を検索する:指示付き汎用人物再識別タスク Retrieve Anyone: A General-purpose Person Re-identification Task with Instructions ( http://arxiv.org/abs/2306.07520v1 ) ライセンス: Link先を確認 | Weizhen He and Shixiang Tang and Yiheng Deng and Qihao Chen and Qingsong Xie and Yizhou Wang and Lei Bai and Feng Zhu and Rui Zhao and Wanli Ouyang and Donglian Qi and Yunfeng Yan | (参考訳) 人間の知性は、視覚と言語の両方の記述に従って、任意の人物を検索することができる。
しかし、現在のコンピュータビジョンコミュニティは、異なるシナリオにおける特定の人物再識別(ReID)タスクを別々に研究しており、現実世界の応用を制限している。
本稿では、与えられた画像や言語命令に従って画像を取得する必要がある新しいインストラクト-ReIDタスクを提案し、既存のReIDタスクを異なる命令を設計することで特別なケースとして見ることができる、より一般的なReID設定である。
そこで本研究では, 大規模omnireidベンチマークと適応三重項損失をベースラインとして提案する。
OmniReIDベンチマークでトレーニングしたベースラインモデルは,従来のReIDでは+0.5%,+3.3% mAP,CUHK03では+2.1%,+0.2%,+15.3% mAP, PRCCではVC-Clothes, LTCC, COCAS+ real2では+12.5% mAP, RGB画像のみを使用する場合には+25.5% mAP,新たに定義された言語指示ReIDでは+25.5% mAP,それぞれ改善可能である。
データセット、モデル、コードはhttps://github.com/hwz-zju/instruct-reidで入手できる。 Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions.Our instruct-ReID is a more general ReID setting, where existing ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the baseline model trained on our OmniReID benchmark can improve +0.5%, +3.3% mAP on Market1501 and CUHK03 for traditional ReID, +2.1%, +0.2%, +15.3% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +12.5% mAP on COCAS+ real2 for clothestemplate based clothes-changing ReID when using only RGB images, +25.5% mAP on COCAS+ real2 for our newly defined language-instructed ReID. The dataset, model, and code will be available at https://github.com/hwz-zju/Instruct-ReID. | 翻訳日:2023-06-14 15:09:49 公開日:2023-06-13 |
# 各種機械学習技術を用いた脳運動画像の復号 Decoding Brain Motor Imagery with various Machine Learning techniques ( http://arxiv.org/abs/2306.07519v1 ) ライセンス: Link先を確認 | Giovanni Jana, Corey Karnei, Shuvam Keshari | (参考訳) 運動画像 (motor images, mi) は、bci(brain computer interface)実験の被験者が、運動野および脳の周辺領域での脳活動を調整するために使用する、十分に文書化された技術である。
短期プロジェクトにおいて、被験者に2つのクラス(右と左)に分けられる運動画像の実行を指示する実験を行った。
2種類の電極(GelとPOLiTag)を用いて実験を行い,各被験者のデータを収集した。
本稿では、オフライントレーニングデータに基づくデコーダを作成するために、異なる機械学習(ML)手法を適用し、エビデンスを蓄積して被験者の脳信号からリアルタイムに対象者の意図を予測する。 Motor imagery (MI) is a well-documented technique used by subjects in BCI (Brain Computer Interface) experiments to modulate brain activity within the motor cortex and surrounding areas of the brain. In our term project, we conducted an experiment in which the subjects were instructed to perform motor imagery that would be divided into two classes (Right and Left). Experiments were conducted with two different types of electrodes (Gel and POLiTag) and data for individual subjects was collected. In this paper, we will apply different machine learning (ML) methods to create a decoder based on offline training data that uses evidence accumulation to predict a subject's intent from their modulated brain signals in real-time. | 翻訳日:2023-06-14 15:09:15 公開日:2023-06-13 |
# ビデオモーメントのローカライゼーションに関する調査 A Survey on Video Moment Localization ( http://arxiv.org/abs/2306.07515v1 ) ライセンス: Link先を確認 | Meng Liu, Liqiang Nie, Yunxiao Wang, Meng Wang, Yong Rui | (参考訳) video moment localization(ビデオモーメントローカライゼーション、ビデオモーメントローカライゼーション)は、与えられた自然言語クエリによって記述されたビデオ内のターゲットセグメントを検索することを目的としている。
対象のアクションが事前に定義された時間的アクションローカライゼーションのタスクの他に、ビデオモーメント検索は任意の複雑なアクティビティをクエリできる。
本稿では,教師付き,弱い教師付き,教師なしといった既存のビデオモーメントローカライズ手法の包括的レビューを行う。
また、ビデオモーメントのローカライゼーションや、関連する作業のグループ結果のデータセットについてもレビューする。
さらに,この分野の今後の方向性,特に大規模データセットと解釈可能なビデオモーメントローカライズモデルについて述べる。 Video moment localization, also known as video moment retrieval, aiming to search a target segment within a video described by a given natural language query. Beyond the task of temporal action localization whereby the target actions are pre-defined, video moment retrieval can query arbitrary complex activities. In this survey paper, we aim to present a comprehensive review of existing video moment localization techniques, including supervised, weakly supervised, and unsupervised ones. We also review the datasets available for video moment localization and group results of related work. In addition, we discuss promising future directions for this field, in particular large-scale datasets and interpretable video moment localization models. | 翻訳日:2023-06-14 15:09:02 公開日:2023-06-13 |
# 投機的知識グラフ推論のための自己学習による雑音なし学習 Noisy Positive-Unlabeled Learning with Self-Training for Speculative Knowledge Graph Reasoning ( http://arxiv.org/abs/2306.07512v1 ) ライセンス: Link先を確認 | Ruijie Wang, Baoyu Li, Yichen Lu, Dachun Sun, Jinning Li, Yuchen Yan, Shengzhong Liu, Hanghang Tong, Tarek F. Abdelzaher | (参考訳) 本稿では, 実世界の知識グラフ (KG) の投機的推論タスクについて検討する。これは, 否定的問題 (すなわち, 否定的事実が排除される可能性) と肯定的問題 (信頼できない, 時代遅れな事実を含む) の両方を含む。
最先端の手法は投機的推論能力に乏しく、事実の正しさはKGの存在によってのみ決定されると仮定し、偽陰性/肯定的な問題に脆弱である。
新しい推論タスクは、ノイズの多いポジティブな学習問題として定式化される。
我々は,収集された事実と非収集された事実の正しさを共同で推定し,トレーニング中にモデルパラメータを更新する変分フレームワーク,すなわちnPUGraphを提案する。
ラベルの後方推定は2つの視点から推測的推論を促進する。
まず、ラベル付き後方認識グラフエンコーダの偽陽性リンクに対するロバスト性を改善する。
第2に、推論の高品質な根拠を提供するために、欠落した事実を特定する。
それらは単純かつ効果的な自己学習手順で統一される。
実証的な実験では、3つのベンチマークKGと1つのTwitterデータセットに様々な偽陰性/陽性のケースがあり、nPUGraphの有効性を示している。 This paper studies speculative reasoning task on real-world knowledge graphs (KG) that contain both \textit{false negative issue} (i.e., potential true facts being excluded) and \textit{false positive issue} (i.e., unreliable or outdated facts being included). State-of-the-art methods fall short in the speculative reasoning ability, as they assume the correctness of a fact is solely determined by its presence in KG, making them vulnerable to false negative/positive issues. The new reasoning task is formulated as a noisy Positive-Unlabeled learning problem. We propose a variational framework, namely nPUGraph, that jointly estimates the correctness of both collected and uncollected facts (which we call \textit{label posterior}) and updates model parameters during training. The label posterior estimation facilitates speculative reasoning from two perspectives. First, it improves the robustness of a label posterior-aware graph encoder against false positive links. Second, it identifies missing facts to provide high-quality grounds of reasoning. They are unified in a simple yet effective self-training procedure. Empirically, extensive experiments on three benchmark KG and one Twitter dataset with various degrees of false negative/positive cases demonstrate the effectiveness of nPUGraph. | 翻訳日:2023-06-14 15:08:48 公開日:2023-06-13 |
# 貯水池工学による相互作用しないスピンの絡み合い生成 Entanglement generation in never interacting spins via reservoir engineering ( http://arxiv.org/abs/2306.07507v1 ) ライセンス: Link先を確認 | Josephine Dias, Christopher W. W\"achtler, Kae Nemoto, William J. Munro | (参考訳) 絡み合いの生成と保存は量子技術の中心的な目標である。
伝統的に、量子系における散逸は絡み合いを損なうと考えられているが、散逸は直接相互作用しない量子スピン間の絡み合いを生成する手段としても用いられる。
特に絡み合いは、貯水池への集合結合を介して、2つのキュービット系、または複数キュービット系の間で生じる。
本研究では, 異なる貯水池に相互に結合した複数のスピン領域を探索し, 互いに結合していないスピン同士の絡み合いや, 同じ貯水池に結合したスピンの絡み合いが生じることを示す。 The generation and preservation of entanglement is a central goal in quantum techonology. Traditionally, dissipation in quantum systems is thought to be detrimental to entanglement, however dissipation can also be utilised as a means of generating entanglement between quantum spins that are not directly interacting. In particular entanglement can be generated between two qubits, or multi qubit systems via a collective coupling to a reservoir. In this work, we explore multiple spin domains pairwise coupled to different reservoirs and show that entanglement can be generated between spins which are not coupled to each other, or even coupled to the same reservoir. | 翻訳日:2023-06-14 15:08:26 公開日:2023-06-13 |
# 不均質報酬分散を用いた固定予算ベストアーム識別 Fixed-Budget Best-Arm Identification with Heterogeneous Reward Variances ( http://arxiv.org/abs/2306.07549v1 ) ライセンス: Link先を確認 | Anusha Lalitha, Kousha Kalantari, Yifei Ma, Anoop Deoras, Branislav Kveton | (参考訳) 不均一な報酬分散を伴う固定予算設定におけるベストアーム識別(BAI)の問題について検討する。
本稿では, 既知報酬分散に対するSHVarと未知報酬分散に対するSHAdaVarの2つの分散適応型BAIアルゴリズムを提案する。
我々のアルゴリズムは、より報酬のばらつきの高い腕がより低いばらつきを持つ腕よりも頻繁に引っ張られるアーム間の不均一な予算配分に依存している。
アルゴリズムの目新しさは、未知の報酬の分散を過大に見積もって予算を厳格に割り当てるshadavarの設計にある。
我々はSHVarとSHAdaVarの両方で、最高の武器を誤識別する可能性に縛られている。
本分析は,予算割当問題に対するクローズドフォームソリューションを必要としないarmのプル数に対して,新たな下限に依存する。
予算配分問題の1つは、未知のばらつきを持つ最適な実験設計と類似しているため、我々の結果は幅広い関心を集めていると信じている。
実験の結果,SHVar と SHAdaVar は従来の解析的保証によるアルゴリズムよりも優れていることがわかった。 We study the problem of best-arm identification (BAI) in the fixed-budget setting with heterogeneous reward variances. We propose two variance-adaptive BAI algorithms for this setting: SHVar for known reward variances and SHAdaVar for unknown reward variances. Our algorithms rely on non-uniform budget allocations among the arms where the arms with higher reward variances are pulled more often than those with lower variances. The main algorithmic novelty is in the design of SHAdaVar, which allocates budget greedily based on overestimating the unknown reward variances. We bound probabilities of misidentifying the best arms in both SHVar and SHAdaVar. Our analyses rely on novel lower bounds on the number of pulls of an arm that do not require closed-form solutions to the budget allocation problem. Since one of our budget allocation problems is analogous to the optimal experiment design with unknown variances, we believe that our results are of a broad interest. Our experiments validate our theory, and show that SHVar and SHAdaVar outperform algorithms from prior works with analytical guarantees. | 翻訳日:2023-06-14 15:01:10 公開日:2023-06-13 |
# 最適逆テストエラーの達成について On Achieving Optimal Adversarial Test Error ( http://arxiv.org/abs/2306.07544v1 ) ライセンス: Link先を確認 | Justin D. Li, Matus Telgarsky | (参考訳) まず, 最適対向凸予測器の最適対向零点予測器の構造, 逆向凸損失と逆向零点損失の関係, 連続予測器が最適対向誤差に任意に近づくこと, および, 最適対向凸予測器の最適対向零点予測器の構造を解明する。
これらの結果と, 初期化近傍の対向学習における新たなRademacher複雑性境界を適用し, 一般データ分布と摂動集合に対して, 早期停止を伴う浅層ネットワーク上での対向訓練, 最適対向テスト誤差を最適に達成できることを証明した。
対照的に、事前の理論的研究は、専門的なデータ分散を考慮するか、トレーニングエラー保証のみを提供する。 We first elucidate various fundamental properties of optimal adversarial predictors: the structure of optimal adversarial convex predictors in terms of optimal adversarial zero-one predictors, bounds relating the adversarial convex loss to the adversarial zero-one loss, and the fact that continuous predictors can get arbitrarily close to the optimal adversarial error for both convex and zero-one losses. Applying these results along with new Rademacher complexity bounds for adversarial training near initialization, we prove that for general data distributions and perturbation sets, adversarial training on shallow networks with early stopping and an idealized optimal adversary is able to achieve optimal adversarial test error. By contrast, prior theoretical work either considered specialized data distributions or only provided training error guarantees. | 翻訳日:2023-06-14 15:00:53 公開日:2023-06-13 |
# あなたのウェブサイトは安全か?
CAPTCHAプロバイダと問題解決サービスに関する総合的研究 How Secure is Your Website? A Comprehensive Investigation on CAPTCHA Providers and Solving Services ( http://arxiv.org/abs/2306.07543v1 ) ライセンス: Link先を確認 | Rui Jin, Lin Huang, Jikang Duan, Wei Zhao, Yong Liao, and Pengyuan Zhou | (参考訳) コンピュータと人間を区別する完全自動チューリングテスト(captcha)が多くのウェブサイトで実施され、有害な自動ボットと正当なユーザーを識別している。
しかし、ボットが生み出した収益はCAPTCHAを回避して利益を上げている。
以前の研究では、テキストベースのCAPTCHAと関連するCAPTCHA解決サービスに関する情報が提供されていたが、コンテンツ、サプライヤー、CAPTCHAの解決者に関して、過去10年間に多くの変化があった。
我々は,最新のサードパーティCAPTCHAプロバイダとCAPTCHA解決サービスの攻撃に関する包括的調査を実施した。
CAPTCHA-As-a-Serviceの詳細と最新のCAPTCHA-solvingサービスを調べ,CAPTCHAとCAPTCHAソルバの対戦実験を行った。
最新のcaptchaは、人間の解法と自動解法の両方に対して脆弱です。
CAPTCHAソルバを止めるためには、ハードAI問題と行動分析に基づく新しいCAPTCHAが必要である。 Completely Automated Public Turing Test To Tell Computers and Humans Apart (CAPTCHA) has been implemented on many websites to identify between harmful automated bots and legitimate users. However, the revenue generated by the bots has turned circumventing CAPTCHAs into a lucrative business. Although earlier studies provided information about text-based CAPTCHAs and the associated CAPTCHA-solving services, a lot has changed in the past decade regarding content, suppliers, and solvers of CAPTCHA. We have conducted a comprehensive investigation of the latest third-party CAPTCHA providers and CAPTCHA-solving services' attacks. We dug into the details of CAPTCHA-As-a-Service and the latest CAPTCHA-solving services and carried out adversarial experiments on CAPTCHAs and CAPTCHA solvers. The experiment results show a worrying fact: most latest CAPTCHAs are vulnerable to both human solvers and automated solvers. New CAPTCHAs based on hard AI problems and behavior analysis are needed to stop CAPTCHA solvers. | 翻訳日:2023-06-14 15:00:35 公開日:2023-06-13 |
# 在庫管理のためのマルチエージェント強化学習ベンチマーク A Versatile Multi-Agent Reinforcement Learning Benchmark for Inventory Management ( http://arxiv.org/abs/2306.07542v1 ) ライセンス: Link先を確認 | Xianliang Yang, Zhihao Liu, Wei Jiang, Chuheng Zhang, Li Zhao, Lei Song, Jiang Bian | (参考訳) マルチエージェント強化学習(MARL)は、共有環境内で対話し学習する複数のエージェントをモデル化する。
このパラダイムは、自動運転、量的取引、在庫管理といった様々な産業シナリオに適用できる。
しかしながら、現実のシナリオにmarlを適用することは、スケールアップ、複雑なエージェントインタラクション、非定常ダイナミクスといった多くの課題によって妨げられている。
これらの課題に対するmarlの研究にインセンティブを与えるため,我々は,様々な課題を持つ汎用タスクを生成可能なマルチエケロンマルチコモディティインベントリ管理シミュレータであるmabim(multi-agent benchmark for inventory management)を開発した。
MABIMに基づいて,これらの課題に対して,古典的操作研究(OR)手法と一般的なMARLアルゴリズムの性能を評価し,その弱点と可能性を明らかにする。 Multi-agent reinforcement learning (MARL) models multiple agents that interact and learn within a shared environment. This paradigm is applicable to various industrial scenarios such as autonomous driving, quantitative trading, and inventory management. However, applying MARL to these real-world scenarios is impeded by many challenges such as scaling up, complex agent interactions, and non-stationary dynamics. To incentivize the research of MARL on these challenges, we develop MABIM (Multi-Agent Benchmark for Inventory Management) which is a multi-echelon, multi-commodity inventory management simulator that can generate versatile tasks with these different challenging properties. Based on MABIM, we evaluate the performance of classic operations research (OR) methods and popular MARL algorithms on these challenging tasks to highlight their weaknesses and potential. | 翻訳日:2023-06-14 15:00:17 公開日:2023-06-13 |
# オフライン・オンライン強化学習のための簡易統一不確実性誘導フレームワーク A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2306.07541v1 ) ライセンス: Link先を確認 | Siyuan Guo, Yanchao Sun, Jifeng Hu, Sili Huang, Hechang Chen, Haiyin Piao, Lichao Sun, Yi Chang | (参考訳) オフライン強化学習(rl)は、データ駆動パラダイムに完全に依存したエージェントを学習するための有望なソリューションを提供する。
しかし、オフラインデータセットの品質が制限されているため、そのパフォーマンスはしばしばサブ最適である。
そのため、デプロイ前に追加のオンラインインタラクションを通じてエージェントをさらに微調整することが望まれる。
残念なことに、オフラインからオフラインへのRLは2つの大きな課題がある。
この目的のために,本研究では,両課題に対するソリューションを不確実性ツールで自然に統一する,シンプルな統一uNcertainty-Guided(SUNG)フレームワークを提案する。
特に、SUNGは、VAEに基づく状態行動訪問密度推定器を介して不確実性を定量化する。
効率的な探索を容易にするため,SUNGは,高い価値と高い不確実性の両方で情報的行動を選択するための実用的な楽観的な探索戦略を提案する。
さらに、SUNGは、オフラインおよびオンラインステージを円滑に橋渡しするために、保守的なオフラインRL目標を高不確かさサンプルに適用し、標準オンラインRL目標を低不確かさサンプルに適用し、適応的な利用方法を開発した。
SUNGは、D4RLベンチマークのさまざまな環境やデータセットで、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンライン微調整のパフォーマンスを達成する。 Offline reinforcement learning (RL) provides a promising solution to learning an agent fully relying on a data-driven paradigm. However, constrained by the limited quality of the offline dataset, its performance is often sub-optimal. Therefore, it is desired to further finetune the agent via extra online interactions before deployment. Unfortunately, offline-to-online RL can be challenging due to two main challenges: constrained exploratory behavior and state-action distribution shift. To this end, we propose a Simple Unified uNcertainty-Guided (SUNG) framework, which naturally unifies the solution to both challenges with the tool of uncertainty. Specifically, SUNG quantifies uncertainty via a VAE-based state-action visitation density estimator. To facilitate efficient exploration, SUNG presents a practical optimistic exploration strategy to select informative actions with both high value and high uncertainty. Moreover, SUNG develops an adaptive exploitation method by applying conservative offline RL objectives to high-uncertainty samples and standard online RL objectives to low-uncertainty samples to smoothly bridge offline and online stages. SUNG achieves state-of-the-art online finetuning performance when combined with different offline RL methods, across various environments and datasets in D4RL benchmark. | 翻訳日:2023-06-14 15:00:03 公開日:2023-06-13 |
# 超流動ヘリウムの粘性に関する量子確率分子動力学シミュレーション Quantum Stochastic Molecular Dynamics Simulations of the Viscosity of Superfluid Helium ( http://arxiv.org/abs/2306.07538v1 ) ライセンス: Link先を確認 | Phil Attard | (参考訳) 運動のデコヒーレント量子方程式が導出され、開量子系の軌道が導出される。
超流動性レナード-ジョーンズヘリウム4の粘性は量子確率分子動力学アルゴリズムを用いて得られる。
運動量状態占有エントロピーはボソン数の連続表現でカウントされ、平均は傘サンプリングで得られる。
ボース=アインシュタイン凝縮系の瞬時スナップショットは、複数の高占有運動量状態を示す。
粘度は、量子ケースで修正された時間相関関数とオンサーガー-グリーン-クーボ関係から得られる。
飽和曲線では、高温では古典液体と量子液体の粘度は等しい。
温度が下がると古典液体の粘度は上昇し、量子液体の粘度は減少する。
$\lambda$-遷移の下の粘度は古典値よりかなり低く、凝縮されたボソンと縮合していないボソンの混合物により小さいが正である。
計算された軌道は超流動性の分子機構の物理的説明を与える。 Decoherent quantum equations of motion are derived that yield the trajectory of an open quantum system. The viscosity of superfluid Lennard-Jones helium-4 is obtained with a quantum stochastic molecular dynamics algorithm. The momentum state occupancy entropy is counted with a continuous representation of boson number and averages are obtained with umbrella sampling. Instantaneous snapshots of the Bose-Einstein condensed system show multiple highly occupied momentum states. The viscosity is obtained from the Onsager-Green-Kubo relation with the time correlation function modified in the quantum case. On the saturation curve, at higher temperatures the viscosities of the classical and quantum liquids are equal. With decreasing temperature the viscosity of the classical liquid increases whereas that of the quantum liquid decreases. Below the $\lambda$-transition the viscosity lies significantly below the classical value, being small but positive due to the mixture of condensed and uncondensed bosons. The computed trajectories give a physical explanation of the molecular mechanism for superfluidity. | 翻訳日:2023-06-14 14:59:39 公開日:2023-06-13 |
# TART:タスクに依存しない推論のためのプラグアンドプレイトランスフォーマーモジュール TART: A plug-and-play Transformer module for task-agnostic reasoning ( http://arxiv.org/abs/2306.07536v1 ) ライセンス: Link先を確認 | Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher R\'e | (参考訳) 大規模言語モデル(LLM)は、同じモデルがタスク固有のトレーニングなしで複数のタスクを実行できる、コンテキスト内学習能力を示す。
対照的に、微調整のような従来の適応アプローチは、特定のタスクごとに基礎となるモデルを変更する。
しかし、インコンテキスト学習は、同じ例を提示しても、タスク固有のチューニングアプローチを一貫して過小評価する。
既存のほとんどのアプローチ(例えば、プロンプトエンジニアリング)は、この性能ギャップに対処するためにLLMの学習した表現に焦点を当てているが、我々の分析は、LLM表現が良い予測を行うのに十分な情報を含んでいることを実際に明らかにしている。
そこで本研究では,LLMの推論能力に着目し,単純な確率論的推論タスクを実行できないために,この性能ギャップが存在することを示す。
LLMは実際に、タスクに依存しない方法で推論する方法を学ぶことができますか?
我々はこれを肯定的に答え、合成訓練されたTransformerベースの推論モジュールを用いてLLMの推論能力を汎用的に改善するTARTを提案する。
TARTは、合成ロジスティック回帰タスクのみを使用してタスクに依存しない方法でこの推論モジュールを訓練し、追加のトレーニングなしで任意の実世界の事前訓練モデルで構成する。
単一の推論モジュールにより、TARTは、異なるモデルファミリ(GPT-Neo、Pythia、BLOOM)、モデルサイズ(100M6B)、タスク(14 NLPバイナリ分類タスク)、そして様々なモード(オーディオとビジョン)のパフォーマンスを改善する。
さらにRAFTベンチマークでは、TARTはGPT-Neo(125M)の性能を改善し、BLOOM (176B)を上回っ、GPT-3 (175B)の4%以内である。
私たちのコードとモデルはhttps://github.com/HazyResearch/TARTで公開されています。 Large language models (LLMs) exhibit in-context learning abilities which enable the same model to perform several tasks without any task-specific training. In contrast, traditional adaptation approaches, such as fine-tuning, modify the underlying models for each specific task. In-context learning, however, consistently underperforms task-specific tuning approaches even when presented with the same examples. While most existing approaches (e.g., prompt engineering) focus on the LLM's learned representations to patch this performance gap, our analysis actually reveal that LLM representations contain sufficient information to make good predictions. As such, we focus on the LLM's reasoning abilities and demonstrate that this performance gap exists due to their inability to perform simple probabilistic reasoning tasks. This raises an intriguing question: Are LLMs actually capable of learning how to reason in a task-agnostic manner? We answer this in the affirmative and propose TART which generically improves an LLM's reasoning abilities using a synthetically trained Transformer-based reasoning module. TART trains this reasoning module in a task-agnostic manner using only synthetic logistic regression tasks and composes it with an arbitrary real-world pre-trained model without any additional training. With a single inference module, TART improves performance across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M - 6B), tasks (14 NLP binary classification tasks), and even across different modalities (audio and vision). Additionally, on the RAFT Benchmark, TART improves GPT-Neo (125M)'s performance such that it outperforms BLOOM (176B), and is within 4% of GPT-3 (175B). Our code and models are available at https://github.com/HazyResearch/TART . | 翻訳日:2023-06-14 14:59:25 公開日:2023-06-13 |
# カモフラージュ物体検出の参照 Referring Camouflaged Object Detection ( http://arxiv.org/abs/2306.07532v1 ) ライセンス: Link先を確認 | Xuying Zhang, Bowen Yin, Zheng Lin, Qibin Hou, Deng-Ping Fan, Ming-Ming Cheng | (参考訳) 本稿では, 画像, テキストなどの参照形態に基づいて, 特定のカモフラージュオブジェクトをセグメント化することを目的とした新しいタスクである, カモフラージュオブジェクト検出(Ref-COD)の参照問題について考察する。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
そこで我々は,参照情報から共通表現を学習する参照ブランチと,共用表現の指導の下で共用対象を識別・分割するセグメンテーションブランチを備えた,単純だが強力なデュアルブランチフレームワークR2CNetを開発した。
特に,画素レベルのプリエントマスクを生成するための参照マスク生成モジュールと,カモフラージュされたオブジェクトを識別する能力を高める参照機能強化モジュールを設計した。
ref-cod法が特定のカモフラージュ対象のセグメンテーションや対象対象対象オブジェクトの本体の識別において,cod法よりも優れていることを示す広範な実験を行った。
私たちのコードとデータセットはhttps://github.com/zhangxuying1004/refcodで公開されています。 In this paper, we consider the problem of referring camouflaged object detection (Ref-COD), a new task that aims to segment specified camouflaged objects based on some form of reference, e.g., image, text. We first assemble a large-scale dataset, called R2C7K, which consists of 7K images covering 64 object categories in real-world scenarios. Then, we develop a simple but strong dual-branch framework, dubbed R2CNet, with a reference branch learning common representations from the referring information and a segmentation branch identifying and segmenting camouflaged objects under the guidance of the common representations. In particular, we design a Referring Mask Generation module to generate pixel-level prior mask and a Referring Feature Enrichment module to enhance the capability of identifying camouflaged objects. Extensive experiments show the superiority of our Ref-COD methods over their COD counterparts in segmenting specified camouflaged objects and identifying the main body of target objects. Our code and dataset are publicly available at https://github.com/zhangxuying1004/RefCOD. | 翻訳日:2023-06-14 14:58:50 公開日:2023-06-13 |
# 2成分楕円曲線の点倍化の量子回路設計 Quantum Circuit Designs of Point Doubling for Binary Elliptic Curves ( http://arxiv.org/abs/2306.07530v1 ) ライセンス: Link先を確認 | Harashta Tatimma Larasati and Howon Kim | (参考訳) 近年、離散対数問題(Shor's ECDLP)に対する楕円曲線を解くShorのアルゴリズムの研究は、楕円曲線ベースの暗号システム(ECC)の解読の基礎となり、より重要な関心を集め始めている。
これを実現するために、ほとんどの研究は、ショアのCDLPの不可欠な部分である二重スカラー乗算回路を実現するために量子点加算サブルーチンに焦点を当てている。
本稿では,点を2倍にする場合のショアアルゴリズムの厳密な仮定に対する量子点二重化回路について検討する。
特に,回路の実装における課題を分析し,その解決策を提供する。
その後、対応する量子回路の設計と最適化を行い、回路の高レベルな量子リソースコストを分析する。
さらに,完全なダブルスカラー乗算回路のための点加算と統合することへの懸念や,その実装から生じる可能性についても検討した。
本研究はショアのCDLPのさらなる評価の基礎となるものである。 In the past years, research on Shor's algorithm for solving elliptic curves for discrete logarithm problems (Shor's ECDLP), the basis for cracking elliptic curve-based cryptosystems (ECC), has started to garner more significant interest. To achieve this, most works focus on quantum point addition subroutines to realize the double scalar multiplication circuit, an essential part of Shor's ECDLP, whereas the point doubling subroutines are often overlooked. In this paper, we investigate the quantum point doubling circuit for the stricter assumption of Shor's algorithm when doubling a point should also be taken into consideration. In particular, we analyze the challenges on implementing the circuit and provide the solution. Subsequently, we design and optimize the corresponding quantum circuit, and analyze the high-level quantum resource cost of the circuit. Additionally, we discuss the implications of our findings, including the concerns for its integration with point addition for a complete double scalar multiplication circuit and the potential opportunities resulting from its implementation. Our work lays the foundation for further evaluation of Shor's ECDLP. | 翻訳日:2023-06-14 14:58:30 公開日:2023-06-13 |
# ランクへの統一オフポリシー学習:強化学習視点 Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective ( http://arxiv.org/abs/2306.07528v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Yi Su, Hui Yuan, Yiran Wu, Rishab Balasubramanian, Qingyun Wu, Huazheng Wang, Mengdi Wang | (参考訳) Off-policy Learning to Rank (LTR)は、デプロイされたロギングポリシによって収集されたデータからランキングを最適化することを目的としている。
しかしながら、既存のオフポリシー学習とメソッドのランク付けは、ユーザがクリックデータ、すなわちクリックモデルをどのように生成するか、という強い仮定をもたらします。
本稿では,一般的な確率的クリックモデルに基づくランク付け過程をマルコフ決定過程 (MDP) として統合し,オフライン強化学習 (RL) を用いて最適なランク付けを学習する。
そこで我々は,オフポリチックLTRのオフラインRL技術を活用し,Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR)法を提案する。
MDPの専用定式化により、オフラインRLアルゴリズムは複雑なデバイアス技術やモデルの事前知識を使わずに様々なクリックモデルに適応できることを示す。
さまざまな大規模データセットの結果から、CUOLRは、さまざまなクリックモデルの下で一貫性と堅牢性を保ちながら、アルゴリズムをランク付けする最先端のオフポリシー学習を一貫して上回ります。 Off-policy Learning to Rank (LTR) aims to optimize a ranker from data collected by a deployed logging policy. However, existing off-policy learning to rank methods often make strong assumptions about how users generate the click data, i.e., the click model, and hence need to tailor their methods specifically under different click models. In this paper, we unified the ranking process under general stochastic click models as a Markov Decision Process (MDP), and the optimal ranking could be learned with offline reinforcement learning (RL) directly. Building upon this, we leverage offline RL techniques for off-policy LTR and propose the Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR) method, which could be easily applied to a wide range of click models. Through a dedicated formulation of the MDP, we show that offline RL algorithms can adapt to various click models without complex debiasing techniques and prior knowledge of the model. Results on various large-scale datasets demonstrate that CUOLR consistently outperforms the state-of-the-art off-policy learning to rank algorithms while maintaining consistency and robustness under different click models. | 翻訳日:2023-06-14 14:58:11 公開日:2023-06-13 |
# binary radiance フィールド Binary Radiance Fields ( http://arxiv.org/abs/2306.07581v1 ) ライセンス: Link先を確認 | Seungjoo Shin, Jaesik Park | (参考訳) 本稿では,バイナリエンコーディングパラメータを用いたローカル機能を$+1$または$-1$のフォーマットでエンコードするバイナリ機能エンコーディングを用いた,ストレージ効率の高いラミアンスフィールド表現であるbinary radiance fields (birf)を提案する。
この双対化戦略により、高コンパクトな特徴符号化と劇的にストレージサイズを縮小した特徴グリッドを表現できる。
さらに,我々の2D-3Dハイブリッド機能グリッド設計は,2Dグリッドが細部を捉えている間に3Dグリッドが主成分を含むため,特徴符号化のコンパクト性を高める。
実験では,2値ラディアンス場表現は,記憶容量の低い高効率ラディアンス場モデル(SOTA)の再構成性能より優れていた。
特に,Synthetic-NeRFシーンのPSNRが31.53dB,Synthetic-NSVFシーンが34.26dB,TampとTemplesシーンが28.02dBであり,それぞれ0.7MB,0.8MB,0.8MBの記憶空間しか利用していない。
提案した二元放射場表現により、記憶ボトルネックなしに放射場をよりアクセスしやすくなることを期待する。 In this paper, we propose binary radiance fields (BiRF), a storage-efficient radiance field representation employing binary feature encoding that encodes local features using binary encoding parameters in a format of either $+1$ or $-1$. This binarization strategy lets us represent the feature grid with highly compact feature encoding and a dramatic reduction in storage size. Furthermore, our 2D-3D hybrid feature grid design enhances the compactness of feature encoding as the 3D grid includes main components while 2D grids capture details. In our experiments, binary radiance field representation successfully outperforms the reconstruction performance of state-of-the-art (SOTA) efficient radiance field models with lower storage allocation. In particular, our model achieves impressive results in static scene reconstruction, with a PSNR of 31.53 dB for Synthetic-NeRF scenes, 34.26 dB for Synthetic-NSVF scenes, 28.02 dB for Tanks and Temples scenes while only utilizing 0.7 MB, 0.8 MB, and 0.8 MB of storage space, respectively. We hope the proposed binary radiance field representation will make radiance fields more accessible without a storage bottleneck. | 翻訳日:2023-06-14 14:52:30 公開日:2023-06-13 |
# 音響駆動型顔面再現のためのパラメトリックインシシット顔表現法 Parametric Implicit Face Representation for Audio-Driven Facial Reenactment ( http://arxiv.org/abs/2306.07579v1 ) ライセンス: Link先を確認 | Ricong Huang, Peiwen Lai, Yipeng Qin, Guanbin Li | (参考訳) 音声による顔の再現は、映画製作、バーチャルアバター、ビデオ会議に幅広い応用をもたらす重要な技術である。
既存の作品では、明示的な中間的な顔表現(例:2d顔ランドマークまたは3d顔モデル)や暗黙の表現(例:神経放射野)を使用しており、解釈可能性と表現力の間のトレードオフに苦しめられている。
本稿では,これらのトレードオフをパラメトリックな暗黙的な顔表現で解消し,制御可能で高品質な発話ヘッドを生成することのできる,新たな音声駆動顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化し、明示的および暗示的の両方の手法を最大限に活用する。
さらに,フレームワークの3つのコンポーネントを改善するための新しい手法をいくつか提案する。
一 音声対表現パラメータエンコーディングにコンテクスト情報を組み込むこと。
二 条件付き画像合成を用いて、暗黙表現をパラメータ化し、効率的な学習のための革新的な三面体構造で実装すること。
三 条件付き画像塗布問題として顔再現を定式化し、モデル一般化性を向上させるための新しいデータ拡張技術を提案すること。
実験により, 話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られることを示した。 Audio-driven facial reenactment is a crucial technique that has a range of applications in film-making, virtual avatars and video conferences. Existing works either employ explicit intermediate face representations (e.g., 2D facial landmarks or 3D face models) or implicit ones (e.g., Neural Radiance Fields), thus suffering from the trade-offs between interpretability and expressive power, hence between controllability and quality of the results. In this work, we break these trade-offs with our novel parametric implicit face representation and propose a novel audio-driven facial reenactment framework that is both controllable and can generate high-quality talking heads. Specifically, our parametric implicit representation parameterizes the implicit representation with interpretable parameters of 3D face models, thereby taking the best of both explicit and implicit methods. In addition, we propose several new techniques to improve the three components of our framework, including i) incorporating contextual information into the audio-to-expression parameters encoding; ii) using conditional image synthesis to parameterize the implicit representation and implementing it with an innovative tri-plane structure for efficient learning; iii) formulating facial reenactment as a conditional image inpainting problem and proposing a novel data augmentation technique to improve model generalizability. Extensive experiments demonstrate that our method can generate more realistic results than previous methods with greater fidelity to the identities and talking styles of speakers. | 翻訳日:2023-06-14 14:52:08 公開日:2023-06-13 |
# マルチストリームモーションモデリングと相互情報最大化による行動認識 Action Recognition with Multi-stream Motion Modeling and Mutual Information Maximization ( http://arxiv.org/abs/2306.07576v1 ) ライセンス: Link先を確認 | Yuheng Yang, Haipeng Chen, Zhenguang Liu, Yingda Lyu, Beibei Zhang, Shuang Wu, Zhibo Wang, Kui Ren | (参考訳) アクション認識は、人工知能の根本的で興味深い問題だった。
タスクは、アクションの高次元性、および考慮すべき微妙な動きの詳細のために難しい。
現在の最先端のアプローチは典型的に3次元ユークリッド空間における調音運動列から学ぶ。
しかしながら、バニラユークリッド空間は、運動の背後にある駆動力を明らかにする共同角加速度のような重要な運動特性をモデル化するのに効率的ではない。
さらに、現在の手法は一般に各チャネルに等しく参加し、入力からタスク関連特徴を抽出する理論的制約を欠いている。
本稿では,これらの課題を3つの側面から解決しようとする。(1)アクセラレーション表現を導入し,高次運動の変動を明示的にモデル化する。
2)マルチストリームコンポーネントとチャネルアテンションを備えた新しいストリームgcnネットワークを導入し,これらの重要なチャネルに着目しながら,異なる表現(ストリーム)がより正確なアクション認識に向けて相互補完する。
(3)タスク関連情報の抽出を最大化し,これを相互情報損失に定式化する特徴レベルの監視について検討する。
提案手法は,NTU RGB+D,NTU RGB+D 120,NW-UCLAの3つのベンチマークデータセットに対して,新しい最先端性能を実証的に設定する。
私たちのコードはhttps://github.com/ActionR-Group/Stream-GCNで匿名でリリースされています。 Action recognition has long been a fundamental and intriguing problem in artificial intelligence. The task is challenging due to the high dimensionality nature of an action, as well as the subtle motion details to be considered. Current state-of-the-art approaches typically learn from articulated motion sequences in the straightforward 3D Euclidean space. However, the vanilla Euclidean space is not efficient for modeling important motion characteristics such as the joint-wise angular acceleration, which reveals the driving force behind the motion. Moreover, current methods typically attend to each channel equally and lack theoretical constrains on extracting task-relevant features from the input. In this paper, we seek to tackle these challenges from three aspects: (1) We propose to incorporate an acceleration representation, explicitly modeling the higher-order variations in motion. (2) We introduce a novel Stream-GCN network equipped with multi-stream components and channel attention, where different representations (i.e., streams) supplement each other towards a more precise action recognition while attention capitalizes on those important channels. (3) We explore feature-level supervision for maximizing the extraction of task-relevant information and formulate this into a mutual information loss. Empirically, our approach sets the new state-of-the-art performance on three benchmark datasets, NTU RGB+D, NTU RGB+D 120, and NW-UCLA. Our code is anonymously released at https://github.com/ActionR-Group/Stream-GCN, hoping to inspire the community. | 翻訳日:2023-06-14 14:51:41 公開日:2023-06-13 |
# 大きな言語モデルは時に純粋に負の強化されたテキストを生成する Large Language Models Sometimes Generate Purely Negatively-Reinforced Text ( http://arxiv.org/abs/2306.07567v1 ) ライセンス: Link先を確認 | Fabien Roger | (参考訳) 敵対的なトレーニングを使用する場合、最も不利な障害に対してトレーニングするのが一般的です。
しかし、これはトレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ脆弱性など)を持つ例を暗示している。
勾配降下で訓練された言語モデルは、最小の報酬に関連する例にのみ存在するテキストスニペットを決して生成しないと仮定できるかもしれない。
いくつかの状況では、大きな言語モデルはこのような否定的に強制された例から学んでいます。
我々は、Pythia-160Mが、これらのパスワードを、これらのパスワードを出力しないインセンティブが与えられた例にのみ示すにもかかわらず、偶然より少し大きな確率でパスワードを生成することができる特定のトレーニングセットを提案する。
私たちのコードはhttps://github.com/FabienRoger/Learning-From-Negative-Examplesで利用可能です。 When using adversarial training, it is common practice to train against the most egregious failures. However, this might imply using examples with sensitive information (such as leaked passwords or security vulnerabilities) as training data. One might assume that language models trained with gradient descent never generate text snippets which were only present in examples associated with the lowest possible reward. In this paper, we show that this assumption is wrong: in some situations, large language models do learn from such negatively-reinforced examples. We present a specific training setup that enables Pythia-160M to generate passwords with a probability slightly greater than chance, despite only showing it these passwords on examples where the model is incentivized to not output these passwords. Our code is available at https://github.com/FabienRoger/Learning-From-Negative-Examples | 翻訳日:2023-06-14 14:51:17 公開日:2023-06-13 |
# 不均一意思決定者による選択的ラベル学習--インストゥルメンタル変数アプローチ Learning under Selective Labels with Heterogeneous Decision-makers: An Instrumental Variable Approach ( http://arxiv.org/abs/2306.07566v1 ) ライセンス: Link先を確認 | Jian Chen, Zhehao Li, Xiaojie Mao | (参考訳) 歴史的意思決定によって結果が部分的にラベル付けされた場合に生じる,選択的ラベル付きデータを用いた学習の問題について検討する。
ラベル付きデータ分布は、特に歴史的決定と対象とする結果が観測されていない要因によって同時に影響を受ける場合、全人口と大きく異なる可能性がある。
その結果、ラベル付きデータのみによる学習は、全人口に展開する際の重大なバイアスのある結果につながる可能性がある。
本稿は,多くのアプリケーションにおいて,歴史的意思決定が異種意思決定者によってなされたという事実を生かして,この課題に取り組む。
特に、この設定を原則化されたインストゥルメンタル変数(IV)フレームワークで分析する。
観測データから任意の予測規則の完全個体群リスクを特定できる条件を確立し, ポイント識別が失敗した場合に, 鋭いリスク境界を与える。
さらに、ラベル選択バイアスに頑健な予測規則を両方の識別設定で学習する重み付き学習手法を提案する。
最後に,提案手法を半合成財務データセットに適用し,選択バイアスの存在下での優れた性能を示す。 We study the problem of learning with selectively labeled data, which arises when outcomes are only partially labeled due to historical decision-making. The labeled data distribution may substantially differ from the full population, especially when the historical decisions and the target outcome can be simultaneously affected by some unobserved factors. Consequently, learning with only the labeled data may lead to severely biased results when deployed to the full population. Our paper tackles this challenge by exploiting the fact that in many applications the historical decisions were made by a set of heterogeneous decision-makers. In particular, we analyze this setup in a principled instrumental variable (IV) framework. We establish conditions for the full-population risk of any given prediction rule to be point-identified from the observed data and provide sharp risk bounds when the point identification fails. We further propose a weighted learning approach that learns prediction rules robust to the label selection bias in both identification settings. Finally, we apply our proposed approach to a semi-synthetic financial dataset and demonstrate its superior performance in the presence of selection bias. | 翻訳日:2023-06-14 14:51:02 公開日:2023-06-13 |
# マーク付け:ポイントクラウドの動画ターゲット特徴抽出への応用 Marking anything: application of point cloud in extracting video target features ( http://arxiv.org/abs/2306.07559v1 ) ライセンス: Link先を確認 | Xiangchun Xu | (参考訳) ビデオから検索可能な特徴を抽出することは、構造化ビデオデータベースの構築、ビデオ著作権保護、偽ビデオのうわさに対する反論において非常に重要である。
本稿では,ビデオ中の任意のターゲットの輪郭特徴を抽出し,取得可能な長さ256の特徴ベクトルに変換する,ビデオ中の任意の(MA)をマークする手法を提案する。
このアルゴリズムは、YOLO-v8アルゴリズム、マルチオブジェクト追跡アルゴリズム、およびPointNet++を用いて、ビデオ検出対象の輪郭を抽出し、空間点クラウドデータを生成する。
そして、ポイントクラウド特徴ベクトルを抽出し、映像検出対象の検索可能な特徴として利用する。
輪郭特徴の有効性とロバスト性を検証するため、いくつかのデータセットは実験データとしてdou yinとkinetics-700データセットからクロールされる。
Dou Yin氏の同種ビデオでは、提案した輪郭機能はTop1リターンモードで97%以上の精度で検索できる。
kinetics 700のビデオでは、輪郭機能は部分的クリップモードビデオトレーシングにも優れた堅牢性を示した。 Extracting retrievable features from video is of great significance for structured video database construction, video copyright protection and fake video rumor refutation. Inspired by point cloud data processing, this paper proposes a method for marking anything (MA) in the video, which can extract the contour features of any target in the video and convert it into a feature vector with a length of 256 that can be retrieved. The algorithm uses YOLO-v8 algorithm, multi-object tracking algorithm and PointNet++ to extract contour of the video detection target to form spatial point cloud data. Then extract the point cloud feature vector and use it as the retrievable feature of the video detection target. In order to verify the effectiveness and robustness of contour feature, some datasets are crawled from Dou Yin and Kinetics-700 dataset as experimental data. For Dou Yin's homogenized videos, the proposed contour features achieve retrieval accuracy higher than 97% in Top1 return mode. For videos from Kinetics 700, the contour feature also showed good robustness for partial clip mode video tracing. | 翻訳日:2023-06-14 14:50:44 公開日:2023-06-13 |
# ダイヤモンドNV中心における$^{15}$N核スピンダイナミクスの角度依存性 Angle dependence of $^{15}$N nuclear spin dynamics in diamond NV centers ( http://arxiv.org/abs/2306.07556v1 ) ライセンス: Link先を確認 | Yusuke Azuma, Shintaro Nomura, Hideyuki Watanabe, Satoshi Kashiwaya | (参考訳) 本報告では,ラビ振動のダイナミクスと,非選択短波マイクロ波パルスを用いた原子核スピン$^{15}$nの初期化によるラーモア効果について報告する。
我々は、印加磁場と窒素空孔中心の軸との角度に応じて、$^{15}$Nの核スピンのラーモー差を観測する。
本研究では,原子核スピンのラーモア周波数の変化を利用して静磁場を高感度で検出する。
本研究は, ダイヤモンド中の窒素空孔中心に$^{15}$Nの核スピンを用いた新規なプロトコルを考案し, dc磁場の感度の向上に寄与する可能性がある。 We report on the dynamics of the Rabi oscillation and the Larmor precession of $^{15}$N nuclear spin using nonselective short microwave pulses for initialization of $^{15}$N nuclear spins. We observe the Larmor precession of $^{15}$N nuclear spin depending on the angle between the applied magnetic field and the axis of the nitrogen vacancy center. We propose to utilize the change of the Larmor frequency of the nuclear spins to detect static magnetic fields at high sensitivity. Our results may contribute to enhancing the sensitivity of dc magnetic fields and devising novel protocols using $^{15}$N nuclear spin in nitrogen vacancy centers in diamonds. | 翻訳日:2023-06-14 14:50:27 公開日:2023-06-13 |
# HAUSER:シミュレーション生成の全体的かつ自動評価に向けて HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation ( http://arxiv.org/abs/2306.07554v1 ) ライセンス: Link先を確認 | Qianyu He, Yikai Zhang, Jiaqing Liang, Yuncheng Huang, Yanghua Xiao, Yunwen Chen | (参考訳) シミュラは物語や対話生成といった創造的な執筆において重要な役割を担っている。
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものです。
しかしながら、どの基準を考慮するべきか、それぞれの基準をメトリクスに定量化する方法、メトリクスが包括的、効率的、信頼性の高いSG評価に有効であるかどうかについては、未検討のままである。
この問題に対処するために,3つの視点から5つの基準と各基準に対する自動指標からなる,sgタスクの総合的自動評価システムであるhauserを確立した。
広範な実験を通じて,我々の測定値が,以前の自動測定値と比較して,各観点からの人間の評価値と有意に相関していることを確認した。 Similes play an imperative role in creative writing such as story and dialogue generation. Proper evaluation metrics are like a beacon guiding the research of simile generation (SG). However, it remains under-explored as to what criteria should be considered, how to quantify each criterion into metrics, and whether the metrics are effective for comprehensive, efficient, and reliable SG evaluation. To address the issues, we establish HAUSER, a holistic and automatic evaluation system for the SG task, which consists of five criteria from three perspectives and automatic metrics for each criterion. Through extensive experiments, we verify that our metrics are significantly more correlated with human ratings from each perspective compared with prior automatic metrics. | 翻訳日:2023-06-14 14:50:15 公開日:2023-06-13 |
# DenseLight:Dense Feedbackを用いた大規模交通信号の効率的な制御 DenseLight: Efficient Control for Large-scale Traffic Signals with Dense Feedback ( http://arxiv.org/abs/2306.07553v1 ) ライセンス: Link先を確認 | Junfan Lin, Yuying Zhu, Lingbo Liu, Yang Liu, Guanbin Li, Liang Lin | (参考訳) 交通信号制御(TSC)は、道路網における車両の平均走行時間を削減し、燃料利用効率、空気質、道路安全を高め、社会全体の利益をもたらすことを目的としている。
長期の制御と調整の複雑さのため、ほとんどの従来のTSC手法は、深い強化学習(RL)を利用して制御ポリシーを探索し、大きな成功を収めた。
しかし、TSCは依然として2つの大きな課題に直面している。
1)車両の走行時間は、車両が道路網を離れた後に得られるため、各交通交差点におけるTSCポリシーの有効性に対するフィードバックが遅れる。
旅行時間の代用としていくつかのヒューリスティック報酬関数が提案されているが、通常は偏りがあり、正しい方向を改善するための政策を導いていない。
2) 車両は時間とともに複数の交差点を横断するため, 交差点の交通条件は非局所交差点の影響を受けている。
したがって,TSCエージェントは局地観測と非局地交通条件の両方を利用して,交差点の長距離交通条件を総合的に予測する必要がある。
これらの課題に対処するため,不偏報酬関数を用いた新しいRTLベースのTSC手法であるDenseLightと,より正確な交通制御のために将来の交通状況を予測するための非局所拡張TSCエージェントを提案する。
大規模な実験とアブレーション研究により、DenseLightは多様な交通流を持つ様々な道路網の高度なベースラインを一貫して上回ることができることを示した。
コードはhttps://github.com/junfanlin/DenseLightで入手できる。 Traffic Signal Control (TSC) aims to reduce the average travel time of vehicles in a road network, which in turn enhances fuel utilization efficiency, air quality, and road safety, benefiting society as a whole. Due to the complexity of long-horizon control and coordination, most prior TSC methods leverage deep reinforcement learning (RL) to search for a control policy and have witnessed great success. However, TSC still faces two significant challenges. 1) The travel time of a vehicle is delayed feedback on the effectiveness of TSC policy at each traffic intersection since it is obtained after the vehicle has left the road network. Although several heuristic reward functions have been proposed as substitutes for travel time, they are usually biased and not leading the policy to improve in the correct direction. 2) The traffic condition of each intersection is influenced by the non-local intersections since vehicles traverse multiple intersections over time. Therefore, the TSC agent is required to leverage both the local observation and the non-local traffic conditions to predict the long-horizontal traffic conditions of each intersection comprehensively. To address these challenges, we propose DenseLight, a novel RL-based TSC method that employs an unbiased reward function to provide dense feedback on policy effectiveness and a non-local enhanced TSC agent to better predict future traffic conditions for more precise traffic control. Extensive experiments and ablation studies demonstrate that DenseLight can consistently outperform advanced baselines on various road networks with diverse traffic flows. The code is available at https://github.com/junfanlin/DenseLight. | 翻訳日:2023-06-14 14:50:02 公開日:2023-06-13 |
# galactic: エンド・ツー・エンドの強化学習を1kステップ/秒で再構築する Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second ( http://arxiv.org/abs/2306.07552v1 ) ライセンス: Link先を確認 | Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander | (参考訳) 室内環境におけるロボット移動操作のための大規模シミュレーションおよび強化学習(RL)フレームワークであるGalacticを提案する。
具体的には、ホーム環境でフェッチロボット(移動ベース、7dofアーム、rgbdカメラ、エゴモーション、オンボードセンシングを備える)を発生させ、オブジェクトにナビゲートし、それをピックアップし、ターゲットロケーションにナビゲートし、ターゲットロケーションにオブジェクトを配置することで、オブジェクトの並べ替えを依頼する。
銀河は速い。
シミュレーション速度(レンダリング+物理)に関しては、Habitat 2.0(7699 SPS)の54倍高速である8GPUノードで421,000ステップ/秒(SPS)を超える。
さらに重要なのは、Galacticはレンダリングと物理とRLのインタープレイ全体を最適化するために設計されたことだ。
シミュレーション+RL速度(レンダリング+物理+推論+学習)では、Habitat 2.0 (1243 SPS)の88倍の108,000 SPSを達成している。
これらの大規模なスピードアップは、既存の実験のウォールクロックのトレーニング時間を劇的に短縮するだけでなく、前例のない規模の新しい実験を解放する。
まず、gamicはモバイルのピックスキルを16分以内に80%の精度でトレーニングできる。これは、habitat 2.0で同じスキルをトレーニングするのに24時間以上かかったことに比べて、100倍のスピードアップだ。
第2に、ギャラクティックは、46時間で5bのステップで、これまでで最大の再配置実験を行い、これは20年間のロボットの経験に相当する。
このスケーリングによって、1つのニューラルネットワークがタスクに依存しないコンポーネントで構成され、GeometricGoalの再配置で85%の成功を達成した。
コードはgithub.com/facebookresearch/galacticで入手できる。 We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects - by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic. | 翻訳日:2023-06-14 14:49:35 公開日:2023-06-13 |
# 多言語モデル事前学習のためのソフト言語クラスタリング Soft Language Clustering for Multilingual Model Pre-training ( http://arxiv.org/abs/2306.07610v1 ) ライセンス: Link先を確認 | Jiali Zeng and Yufan Jiang and Yongjing Yin and Yi Jing and Fandong Meng and Binghuai Lin and Yunbo Cao and Jie Zhou | (参考訳) 多言語事前学習言語モデルは、印象的な(ゼロショット)言語間移動能力を示してきたが、対象言語がソース言語から遠ざかっている場合や、事前学習データのサイズが制限されている場合、その性能は阻害される。
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有の知識の軽量なモデリングを可能にする。
テキスト分類, シーケンスラベリング, 質問応答, 文検索を含むXTREMEのタスクについて, 提案手法で事前学習したベースモデルと大規模言語モデルの両方が一貫した性能改善を示す。
さらに、教師なし文検索における低リソース言語と、言語間転送のソース言語とは大きく異なるターゲット言語には、かなりの利点がある。 Multilingual pre-trained language models have demonstrated impressive (zero-shot) cross-lingual transfer abilities, however, their performance is hindered when the target language has distant typology from source languages or when pre-training data is limited in size. In this paper, we propose XLM-P, which contextually retrieves prompts as flexible guidance for encoding instances conditionally. Our XLM-P enables (1) lightweight modeling of language-invariant and language-specific knowledge across languages, and (2) easy integration with other multilingual pre-training methods. On the tasks of XTREME including text classification, sequence labeling, question answering, and sentence retrieval, both base- and large-size language models pre-trained with our proposed method exhibit consistent performance improvement. Furthermore, it provides substantial advantages for low-resource languages in unsupervised sentence retrieval and for target languages that differ greatly from the source language in cross-lingual transfer. | 翻訳日:2023-06-14 14:42:30 公開日:2023-06-13 |
# 不足半:グラフ補足学習によるホモフィアプロンおよびヘテロフィアプロングラフの探索 Finding the Missing-half: Graph Complementary Learning for Homophily-prone and Heterophily-prone Graphs ( http://arxiv.org/abs/2306.07608v1 ) ライセンス: Link先を確認 | Yizhen Zheng, He Zhang, Vincent CS Lee, Yu Zheng, Xiao Wang, Shirui Pan | (参考訳) 実世界のグラフは一般に、接続において1種類の傾向しか持たない。
これらの接続はホモフィリプロンまたはヘテロフィリプロンである。
ホモフィリーなエッジを持つグラフは、同じクラス(クラス内ノード)でノードを接続する傾向にあるが、ヘテロフィリーなエッジは異なるクラス(クラス間ノード)でノード間の関係を構築する傾向にある。
既存のGNNはトレーニング中にオリジナルのグラフのみを取る。
このアプローチの問題は、`missing-half'構造情報、すなわちホモフィアプロングラフのヘテロフィアプロントポロジーとヘテロフィアプロングラフのホモフィアプロントポロジーを考慮に入れないことである。
本稿では,グラフ補間と補間グラフ畳み込みという2つのコンポーネントから構成されるグラフcOmplementAry Learning,すなわちGOALを紹介する。
第1のコンポーネントは、所定のグラフの欠落した構造情報を補完する。
補グラフはホモフィリー位相とヘテロフィリー位相の両方を含む2つのグラフからなる。
後者のコンポーネントでは、補完グラフを扱うために、最適化の観点から新しいグラフ畳み込みを設計する。
実験の結果,8つの実世界のデータセットにおいて,目標が一貫してすべてのベースラインを上回ることがわかった。 Real-world graphs generally have only one kind of tendency in their connections. These connections are either homophily-prone or heterophily-prone. While graphs with homophily-prone edges tend to connect nodes with the same class (i.e., intra-class nodes), heterophily-prone edges tend to build relationships between nodes with different classes (i.e., inter-class nodes). Existing GNNs only take the original graph during training. The problem with this approach is that it forgets to take into consideration the ``missing-half" structural information, that is, heterophily-prone topology for homophily-prone graphs and homophily-prone topology for heterophily-prone graphs. In our paper, we introduce Graph cOmplementAry Learning, namely GOAL, which consists of two components: graph complementation and complemented graph convolution. The first component finds the missing-half structural information for a given graph to complement it. The complemented graph has two sets of graphs including both homophily- and heterophily-prone topology. In the latter component, to handle complemented graphs, we design a new graph convolution from the perspective of optimisation. The experiment results show that GOAL consistently outperforms all baselines in eight real-world datasets. | 翻訳日:2023-06-14 14:42:11 公開日:2023-06-13 |
# スパースデータに基づくグラフベースANNアルゴリズムの実践:チ二乗二解モデル, HNSW, サインコーシー投影 Practice with Graph-based ANN Algorithms on Sparse Data: Chi-square Two-tower model, HNSW, Sign Cauchy Projections ( http://arxiv.org/abs/2306.07607v1 ) ライセンス: Link先を確認 | Ping Li, Weijie Zhao, Chao Wang, Qi Xia, Alice Wu, Lijun Peng | (参考訳) スパースデータは一般的です。
伝統的な ``handcrafted'' の特徴はしばしばスパースである。
例えば ``relu''' アクティベーション関数を通じてトレーニングされた組込みは、トレーニングされたモデルからの組込みも非常にスパースである。
本稿では,検索や広告(広告)などの産業分野で広く使われている,グラフベースのanアルゴリズム(hnsw,あるいはhnswのgpu版であるsong)を用いた,スパースデータにおける効率的な検索の探索について報告する。
私たちは、プロプライエタリな広告ターゲティングアプリケーションと、公開データセットのベンチマークを実験します。
広告ターゲティングでは、標準の ‘cosine two-tower' モデルで埋め込みを訓練し、 ‘chi-square two-tower' モデルも開発する。
どちらのモデルも ``ReLu'' アクティベーション関数と統合されたときに(非常に)スパース埋め込みを生成する。
EBR (embedding-based search) アプリケーションでは、埋め込みをトレーニングした後、次に重要なタスクは、サービスに対する近接探索(ANN)である。
選択できるANNアルゴリズムはたくさんありますが、本研究では、グラフベースのANNアルゴリズム(例えば、HNSW型)に焦点を当てます。
スパース埋め込みはebrの効率を改善するのに役立つ。
1つの利点は、埋め込みのメモリコストの削減である。
hnsw のようなグラフベースの ann アルゴリズムでは、類似度を計算することがしばしば優位なコストとなるため、類似度を評価する計算時間が短縮されるのも明らかである。
ストレージや計算にデータスペーサの活用に加えて,ベクトルをビットにハッシュするために 'sign cauchy random projections' (SignCRP)' を統合し,メモリコストをさらに削減し,ANN検索を高速化する。
NIPS'13 において、SignCRP は NLP とコンピュータビジョンにおいてよく適応された非線形カーネルである Chi-square の類似性をハッシュするために提案された。
したがって、2-乗モデルであるSignCRPとHNSWは緊密に統合されている。 Sparse data are common. The traditional ``handcrafted'' features are often sparse. Embedding vectors from trained models can also be very sparse, for example, embeddings trained via the ``ReLu'' activation function. In this paper, we report our exploration of efficient search in sparse data with graph-based ANN algorithms (e.g., HNSW, or SONG which is the GPU version of HNSW), which are popular in industrial practice, e.g., search and ads (advertising). We experiment with the proprietary ads targeting application, as well as benchmark public datasets. For ads targeting, we train embeddings with the standard ``cosine two-tower'' model and we also develop the ``chi-square two-tower'' model. Both models produce (highly) sparse embeddings when they are integrated with the ``ReLu'' activation function. In EBR (embedding-based retrieval) applications, after we the embeddings are trained, the next crucial task is the approximate near neighbor (ANN) search for serving. While there are many ANN algorithms we can choose from, in this study, we focus on the graph-based ANN algorithm (e.g., HNSW-type). Sparse embeddings should help improve the efficiency of EBR. One benefit is the reduced memory cost for the embeddings. The other obvious benefit is the reduced computational time for evaluating similarities, because, for graph-based ANN algorithms such as HNSW, computing similarities is often the dominating cost. In addition to the effort on leveraging data sparsity for storage and computation, we also integrate ``sign cauchy random projections'' (SignCRP) to hash vectors to bits, to further reduce the memory cost and speed up the ANN search. In NIPS'13, SignCRP was proposed to hash the chi-square similarity, which is a well-adopted nonlinear kernel in NLP and computer vision. Therefore, the chi-square two-tower model, SignCRP, and HNSW are now tightly integrated. | 翻訳日:2023-06-14 14:41:50 公開日:2023-06-13 |
# 複素幾何学における低温プラズマシミュレーションのための機械学習型ポアソン解法 Towards a Machine-Learned Poisson Solver for Low-Temperature Plasma Simulations in Complex Geometries ( http://arxiv.org/abs/2306.07604v1 ) ライセンス: Link先を確認 | Ihda Chaerony Siffa, Markus M. Becker, Klaus-Dieter Weltmann, and Jan Trieschmann | (参考訳) ポアソン方程式は多くの物理系のモデリングにおいて重要な役割を果たす。
静電自己整合性低温プラズマ(LTP)シミュレーションでは、ポアソンの方程式は各シミュレーション時間ステップで解かれ、シミュレーション全体の計算コストが大幅に削減される。
本稿では,構造化カルト格子上の複素2次元リアクトル幾何学におけるLTPシミュレーションの要求を満たす汎用機械学習型ポアソン解法の開発について述べる。
ここで、リアクタージオメトリは、ltpシミュレーションでよく見られるように、内部電極と誘電体材料からなることができる。
このアプローチは、重み付き多項損失関数と組み合わせて、ハイブリッドcnn-transformerネットワークアーキテクチャを活用する。
我々は,高度にランダム化された合成データを用いてネットワークを訓練し,学習した解法を未検出の反応器ジオメトリに一般化することを保証する。
その結果、学習した解法は定量的かつ定性的に正確な解を生成できることを示した。
さらに、文献に見られる基準ジオメトリのような新しい原子炉ジオメトリをうまく一般化する。
LTPシミュレーションで必要とされる解の数値的精度を高めるため,従来の反復解法を用いて生の予測を洗練させ,特に初期予測で解決できない高周波の特徴を復元する。
これにより、学習されたPoissonソルバは必要な精度を提供し、純粋なGPUベースのイテレーティブソルバよりも高速になる可能性がある。
これにより、複素測地における LTP システムに対する汎用的で高性能なポアソン解法の開発への新たな可能性が開ける。 Poisson's equation plays an important role in modeling many physical systems. In electrostatic self-consistent low-temperature plasma (LTP) simulations, Poisson's equation is solved at each simulation time step, which can amount to a significant computational cost for the entire simulation. In this paper, we describe the development of a generic machine-learned Poisson solver specifically designed for the requirements of LTP simulations in complex 2D reactor geometries on structured Cartesian grids. Here, the reactor geometries can consist of inner electrodes and dielectric materials as often found in LTP simulations. The approach leverages a hybrid CNN-transformer network architecture in combination with a weighted multiterm loss function. We train the network using highly-randomized synthetic data to ensure the generalizability of the learned solver to unseen reactor geometries. The results demonstrate that the learned solver is able to produce quantitatively and qualitatively accurate solutions. Furthermore, it generalizes well on new reactor geometries such as reference geometries found in the literature. To increase the numerical accuracy of the solutions required in LTP simulations, we employ a conventional iterative solver to refine the raw predictions, especially to recover the high-frequency features not resolved by the initial prediction. With this, the proposed learned Poisson solver provides the required accuracy and is potentially faster than a pure GPU-based conventional iterative solver. This opens up new possibilities for developing a generic and high-performing learned Poisson solver for LTP systems in complex geometries. | 翻訳日:2023-06-14 14:41:11 公開日:2023-06-13 |
# 侵入検知:ディープラーニングアプローチ Intrusion Detection: A Deep Learning Approach ( http://arxiv.org/abs/2306.07601v1 ) ライセンス: Link先を確認 | Ishaan Shivhare, Joy Purohit, Vinay Jogani, Samina Attari and Dr. Madhav Chandane | (参考訳) ネットワーク侵入は今日、すべての業界で大きな問題となっている。
ソリューションの重要な部分は、侵入を効果的に検出できることだ。
人工知能の最近の進歩により、現在の研究は侵入検知にディープラーニングアプローチを採用し始めている。
マルチクラス侵入検出のための現在のアプローチには、ディープニューラルネットワークの使用が含まれる。
しかし、データオブジェクトとデータセットに存在する長期的な依存関係の間の空間的関係を考慮に入れない。
本稿では,畳み込みニューラルネットワーク (cnn) モジュールとlong short term memory (lstm)モジュール, support vector machine (svm) 分類関数を備えた侵入検出に対抗する新しいアーキテクチャを提案する。
分析に続いて、従来の機械学習技術とディープラーニング方法論の両方を比較して、さらに検討可能な領域を強調している。 Network intrusions are a significant problem in all industries today. A critical part of the solution is being able to effectively detect intrusions. With recent advances in artificial intelligence, current research has begun adopting deep learning approaches for intrusion detection. Current approaches for multi-class intrusion detection include the use of a deep neural network. However, it fails to take into account spatial relationships between the data objects and long term dependencies present in the dataset. The paper proposes a novel architecture to combat intrusion detection that has a Convolutional Neural Network (CNN) module, along with a Long Short Term Memory(LSTM) module and with a Support Vector Machine (SVM) classification function. The analysis is followed by a comparison of both conventional machine learning techniques and deep learning methodologies, which highlights areas that could be further explored. | 翻訳日:2023-06-14 14:40:47 公開日:2023-06-13 |
# 限られたデータから6DoFパターンを推定する学習:RGB画像を用いた少しショットで一般化可能なアプローチ Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot, Generalizable Approach using RGB Images ( http://arxiv.org/abs/2306.07598v1 ) ライセンス: Link先を確認 | Panwang Pan, Zhiwen Fan, Brandon Y. Feng, Peihao Wang, Chenxin Li, Zhangyang Wang | (参考訳) 6自由度(6dof)オブジェクトの正確な推定は、ロボティクスと拡張現実の多くの応用に不可欠である。
しかし,既存の6DoFポーズ推定手法はCADテンプレートや密集型サポートビューに依存することが多く,現実の状況下での有用性を制限している。
本研究では,一般化可能でrgb画像のみを使用するポーズ推定のためのcas6dという新しいカスケードフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するため,我々のフレームワークは自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
次に、類似度スコアに基づいて最も近いトップKポーズ候補を初期化し、特徴ピラミッドを用いて初期ポーズを洗練し、より微細なスケールでコンテキストをエンコードするカスケード変形特徴量を定式化し、更新する。
複数のポーズビンを用いてポーズ探索範囲を判別し、前段からの予測を用いて各段のポーズ探索範囲を段階的に狭めることにより、cas6dは、スパースビューシナリオにおいて一般的な失敗モードであるポーズ候補と基底真理ポーズとの間の大きなギャップを克服することができる。
LINEMODとGenMOPデータセットの実験結果によると、Cas6DはOnePose++とGen6Dと比較して32ショット設定で最先端のメソッドを9.2%、精度3.8%で上回っている。 The accurate estimation of six degrees-of-freedom (6DoF) object poses is essential for many applications in robotics and augmented reality. However, existing methods for 6DoF pose estimation often depend on CAD templates or dense support views, restricting their usefulness in realworld situations. In this study, we present a new cascade framework named Cas6D for few-shot 6DoF pose estimation that is generalizable and uses only RGB images. To address the false positives of target object detection in the extreme few-shot setting, our framework utilizes a selfsupervised pre-trained ViT to learn robust feature representations. Then, we initialize the nearest top-K pose candidates based on similarity score and refine the initial poses using feature pyramids to formulate and update the cascade warped feature volume, which encodes context at increasingly finer scales. By discretizing the pose search range using multiple pose bins and progressively narrowing the pose search range in each stage using predictions from the previous stage, Cas6D can overcome the large gap between pose candidates and ground truth poses, which is a common failure mode in sparse-view scenarios. Experimental results on the LINEMOD and GenMOP datasets demonstrate that Cas6D outperforms state-of-the-art methods by 9.2% and 3.8% accuracy (Proj-5) under the 32-shot setting compared to OnePose++ and Gen6D. | 翻訳日:2023-06-14 14:40:35 公開日:2023-06-13 |
# 知識ベース上の複雑な質問に答える質問分解木 Question Decomposition Tree for Answering Complex Questions over Knowledge Bases ( http://arxiv.org/abs/2306.07597v1 ) ライセンス: Link先を確認 | Xiang Huang, Sitao Cheng, Yiheng Shu, Yuheng Bao, Yuzhong Qu | (参考訳) 知識ベース質問応答(KBQA)は近年,特に複数の事実を必要とする複雑な質問に対して,多くの関心を集めている。
質問分解は複雑な質問に答える有望な方法である。
既存の分解法は、質問を単一の構成性タイプに従ってサブクエスチョンに分割するが、複数の構成性タイプを含む問題には不十分である。
本稿では,複雑な質問の構造を表現するために,質問分解木(qdt)を提案する。
自然言語生成(NLG)の最近の進歩に触発されて,QDTを生成するためにClue-Decipherと呼ばれる2段階の手法を提案する。
nlgモデルの強力な能力を活用でき、同時に元の質問を保存できる。
QDTがKBQAタスクを強化することを検証するため、QDTQAと呼ばれる分解ベースのKBQAシステムを設計する。
大規模な実験により、QDTQAは、complexWebQuestionsデータセットにおける過去の最先端メソッドよりも優れていることが示されている。
さらに, 既存のKBQAシステムを12%改善し, LC-QuAD 1.0に新たな最先端設定を行う。 Knowledge base question answering (KBQA) has attracted a lot of interest in recent years, especially for complex questions which require multiple facts to answer. Question decomposition is a promising way to answer complex questions. Existing decomposition methods split the question into sub-questions according to a single compositionality type, which is not sufficient for questions involving multiple compositionality types. In this paper, we propose Question Decomposition Tree (QDT) to represent the structure of complex questions. Inspired by recent advances in natural language generation (NLG), we present a two-staged method called Clue-Decipher to generate QDT. It can leverage the strong ability of NLG model and simultaneously preserve the original questions. To verify that QDT can enhance KBQA task, we design a decomposition-based KBQA system called QDTQA. Extensive experiments show that QDTQA outperforms previous state-of-the-art methods on ComplexWebQuestions dataset. Besides, our decomposition method improves an existing KBQA system by 12% and sets a new state-of-the-art on LC-QuAD 1.0. | 翻訳日:2023-06-14 14:40:06 公開日:2023-06-13 |
# ディノジングによるペースト, inpaint, harmonize:事前学習拡散モデルによる主題駆動画像編集 Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing with Pre-Trained Diffusion Model ( http://arxiv.org/abs/2306.07596v1 ) ライセンス: Link先を確認 | Xin Zhang, Jiaxian Guo, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa | (参考訳) テキストから画像への生成モデルは、ユーザー特定記述による柔軟な画像編集で注目を集めている。
しかし、テキストの記述だけでは、主題の詳細を詳述するには不十分であり、しばしば被験者のアイデンティティを損ねたり、サブジェクト毎の微調整が必要となる。
ユーザの意図を特定するためのテキスト記述に加えて,exemplarイメージを利用する新しいフレームワークである \textit{paste, inpaint, harmonize via denoising} (phd) を導入する。
ペーストステップでは、オフザシェルフセグメンテーションモデルを用いて、背景画像に挿入された模範画像内のユーザ特定被写体を識別し、シーンコンテキストと被写体アイデンティティの両方を1つにキャプチャする初期化として機能する。
生成画像や編集画像の視覚的コヒーレンスを保証するため,事前に訓練された拡散モデルに従って,挿入された被写体を自然にシーンにシームレスにブレンドするインペインティング・調和モジュールを導入する。
事前学習した拡散モデルを維持しながら、画像合成能力とテキスト駆動能力を維持し、高品質な結果と多様なテキストによる柔軟な編集を実現する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
基礎的手法と定量的・定性的な比較を行った結果,両タスクで最新の性能が得られた。
より質的な結果は \url{https://sites.google.com/view/phd-demo-page} で見ることができる。 Text-to-image generative models have attracted rising attention for flexible image editing via user-specified descriptions. However, text descriptions alone are not enough to elaborate the details of subjects, often compromising the subjects' identity or requiring additional per-subject fine-tuning. We introduce a new framework called \textit{Paste, Inpaint and Harmonize via Denoising} (PhD), which leverages an exemplar image in addition to text descriptions to specify user intentions. In the pasting step, an off-the-shelf segmentation model is employed to identify a user-specified subject within an exemplar image which is subsequently inserted into a background image to serve as an initialization capturing both scene context and subject identity in one. To guarantee the visual coherence of the generated or edited image, we introduce an inpainting and harmonizing module to guide the pre-trained diffusion model to seamlessly blend the inserted subject into the scene naturally. As we keep the pre-trained diffusion model frozen, we preserve its strong image synthesis ability and text-driven ability, thus achieving high-quality results and flexible editing with diverse texts. In our experiments, we apply PhD to both subject-driven image editing tasks and explore text-driven scene generation given a reference subject. Both quantitative and qualitative comparisons with baseline methods demonstrate that our approach achieves state-of-the-art performance in both tasks. More qualitative results can be found at \url{https://sites.google.com/view/phd-demo-page}. | 翻訳日:2023-06-14 14:39:50 公開日:2023-06-13 |
# 死人:画像とテキストのモデルに対するグレイボックスの敵攻撃 I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models ( http://arxiv.org/abs/2306.07591v1 ) ライセンス: Link先を確認 | Raz Lapid, Moshe Sipper | (参考訳) 現代の画像からテキストへのシステムは、画像の特徴を抽出するための画像エンコーダと、キャプションを生成するのに使われるトランスフォーマベースのデコーダという2つの主要なコンポーネントからなるエンコーダ-デコーダフレームワークを採用するのが一般的である。
ニューラルネットワークの逆摂動に対するロバスト性の分析から着想を得て,画像からテキストへのモデルの逆例を作成するための新しいグレイボックスアルゴリズムを提案する。
クラスラベルの有限集合を持つ画像分類タスクとは異なり、画像からテキストへのタスクで視覚的に類似した逆の例を見つけることは、キャプションシステムによって事実上無限のキャプションの空間を可能にするため、大きな課題となる。
本稿では,非ターゲティングとターゲティングの両方において,画像対テキストに対するグレイボックス攻撃を提案する。
本稿では,画像エンコーダ成分のみを用いる最適化問題として,言語モデルに依存しない逆摂動を探索するプロセスを定式化する。
また,Hugging Faceの最もよく使われている画像とテキストのモデルであるViT-GPT2モデルとFlickr30kデータセットを用いた実験により,この攻撃により,ターゲットのないキャプションとターゲットのキャプションの両方で,視覚的に類似したサンプルを生成することができた。
私たちの攻撃はグレーボックス方式で実行されており、デコーダモジュールに関する知識は必要ない。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。 Modern image-to-text systems typically adopt the encoder-decoder framework, which comprises two main components: an image encoder, responsible for extracting image features, and a transformer-based decoder, used for generating captions. Taking inspiration from the analysis of neural networks' robustness against adversarial perturbations, we propose a novel gray-box algorithm for creating adversarial examples in image-to-text models. Unlike image classification tasks that have a finite set of class labels, finding visually similar adversarial examples in an image-to-text task poses greater challenges because the captioning system allows for a virtually infinite space of possible captions. In this paper, we present a gray-box adversarial attack on image-to-text, both untargeted and targeted. We formulate the process of discovering adversarial perturbations as an optimization problem that uses only the image-encoder component, meaning the proposed attack is language-model agnostic. Through experiments conducted on the ViT-GPT2 model, which is the most-used image-to-text model in Hugging Face, and the Flickr30k dataset, we demonstrate that our proposed attack successfully generates visually similar adversarial examples, both with untargeted and targeted captions. Notably, our attack operates in a gray-box manner, requiring no knowledge about the decoder module. We also show that our attacks fool the popular open-source platform Hugging Face. | 翻訳日:2023-06-14 14:39:20 公開日:2023-06-13 |
# フェルミオン状態の複素性 Complexity of fermionic states ( http://arxiv.org/abs/2306.07584v1 ) ライセンス: Link先を確認 | Tuomas I. Vanhala and Teemu Ojanen | (参考訳) フェルミオン状態の量はどれくらいか?
この根本的な問題に対処するために、粒子保存多フェルミオン状態の複雑さを、すべてのFock表現上で最小化されたFock空間確率分布のエントロピーとして定義する。
この複雑さは、状態を表すのに必要な最小の計算資源と物理的リソースを特徴付け、測定によって得られた情報を格納する。
あるいは、複雑度をフォック空間の絡み合い測度と見なすことができ、状態の固有多粒子絡み合いを記述することができる。
単一粒子相関行列固有値を用いて複雑性の普遍的下界を確立し、有限サイズの複雑性スケーリング仮説を定式化する。
接地状態は平均励起状態よりも指数関数的に複雑ではなく、Fock空間の一般状態よりも指数関数的に複雑ではない。
我々の研究は、フェルミオン状態における情報のエンコード量に根本的な意味を持っている。 How much information a fermionic state contains? To address this fundamental question, we define the complexity of a particle-conserving many-fermion state as the entropy of its Fock space probability distribution, minimized over all Fock representations. The complexity characterizes the minimum computational and physical resources required to represent the state and store the information obtained from it by measurements. Alternatively, the complexity can be regarded a Fock space entanglement measure describing the intrinsic many-particle entanglement in the state. We establish universal lower bound for the complexity in terms of the single-particle correlation matrix eigenvalues and formulate a finite-size complexity scaling hypothesis. Remarkably, numerical studies on interacting lattice models suggest a general model-independent complexity hierarchy: ground states are exponentially less complex than average excited states which, in turn, are exponentially less complex than generic states in the Fock space. Our work has fundamental implications on how much information is encoded in fermionic states. | 翻訳日:2023-06-14 14:38:51 公開日:2023-06-13 |
# HuSpaCyのハイブリッド化 Hybrid lemmatization in HuSpaCy ( http://arxiv.org/abs/2306.07636v1 ) ライセンス: Link先を確認 | P\'eter Berkecz, Gy\"orgy Orosz, Zsolt Sz\'ant\'o, Gerg\H{o} Szab\'o, Rich\'ard Farkas | (参考訳) Lemmatizationは、まだ形態的にリッチな言語のための簡単なタスクではありません。
以前の研究では、ハイブリッドアーキテクチャは通常これらの言語でうまく機能し、大きな結果をもたらすことが示されていた。
本稿では,ニューラルモデル,辞書,手作りルールを併用したハイブリッドレンマタイザを提案する。
我々は、広く使われているハンガリーのデータセットに実験結果とともにハイブリッドアーキテクチャを導入する。
提案手法は3つのヒューピアシーモデルとして公表される。 Lemmatization is still not a trivial task for morphologically rich languages. Previous studies showed that hybrid architectures usually work better for these languages and can yield great results. This paper presents a hybrid lemmatizer utilizing both a neural model, dictionaries and hand-crafted rules. We introduce a hybrid architecture along with empirical results on a widely used Hungarian dataset. The presented methods are published as three HuSpaCy models. | 翻訳日:2023-06-14 14:32:41 公開日:2023-06-13 |
# MaxSATソルバーの爆発構成 Exploiting Configurations of MaxSAT Solvers ( http://arxiv.org/abs/2306.07635v1 ) ライセンス: Link先を確認 | Josep Al\`os, Carlos Ans\'otegui, Josep M. Salvia, Eduard Torres | (参考訳) 本稿では、MaxSATソルバの代替パラメータ構成を効果的に活用する方法を説明する。
これらの構成をMaxSATのコンテキストでどのように計算するかを説明する。
特に,非競合ソルバの構成を簡単に組み合わせて,より優れた解法を得る方法を実験的に示す。 In this paper, we describe how we can effectively exploit alternative parameter configurations to a MaxSAT solver. We describe how these configurations can be computed in the context of MaxSAT. In particular, we experimentally show how to easily combine configurations of a non-competitive solver to obtain a better solving approach. | 翻訳日:2023-06-14 14:32:35 公開日:2023-06-13 |
# NeuS-PIR: 先行Renderingを用いた可照性ニューラルサーフェス学習 NeuS-PIR: Learning Relightable Neural Surface using Pre-Integrated Rendering ( http://arxiv.org/abs/2306.07632v1 ) ライセンス: Link先を確認 | Shi Mao, Chenming Wu, Zhelun Shen, Liangjun Zhang | (参考訳) ニューラル暗黙界の最近の進歩は、多視点画像から素早く3次元幾何学を再構築することができる。
さらに、材料や照明などの物理的特性の回復は、より多くの応用を可能にするために不可欠である。
本稿では,ニューラルネットワークの暗黙的領域における幾何,物質,照明を同時に学習する,事前入力されたレンダリングを用いて,学習可能な神経表面を効果的に学習する新しい手法を提案する。
私たちの研究の重要な洞察は、これらの特性が互いに密接に関連していて、協調的に最適化することで、一貫した改善につながるということです。
具体的には,放射場を空間的に変化する物質場と微分可能な環境キューブマップに分解し,神経表面で表される幾何学と共同で学習する手法であるneus-pirを提案する。
提案手法は,合成データと実データの両方において最先端手法よりも優れていることを示す。 Recent advances in neural implicit fields enables rapidly reconstructing 3D geometry from multi-view images. Beyond that, recovering physical properties such as material and illumination is essential for enabling more applications. This paper presents a new method that effectively learns relightable neural surface using pre-intergrated rendering, which simultaneously learns geometry, material and illumination within the neural implicit field. The key insight of our work is that these properties are closely related to each other, and optimizing them in a collaborative manner would lead to consistent improvements. Specifically, we propose NeuS-PIR, a method that factorizes the radiance field into a spatially varying material field and a differentiable environment cubemap, and jointly learns it with geometry represented by neural surface. Our experiments demonstrate that the proposed method outperforms the state-of-the-art method in both synthetic and real datasets. | 翻訳日:2023-06-14 14:32:29 公開日:2023-06-13 |
# 高高調波発生のための高繰り返しガスジェットターゲットの時間分解検討 Time Resolved Investigation of High Repetition Rate Gas Jet Target For High Harmonic Generation ( http://arxiv.org/abs/2306.07631v1 ) ライセンス: Link先を確認 | Bal\'azs Nagyill\'es, Zsolt Diveki, Arjun Nayak, Mathieu Dumergue, Bal\'azs Major, Katalin Varj\'u and Subhendu Kahaly | (参考訳) 高繰り返しガスターゲットは、強いレーザー物質相互作用研究において重要な要素である。
繰り返し速度がkHz体制に近づくにつれて、この技術は困難になる。
この体制では、カンチレバーをベースとしたガスバルブが採用され、数十マイクロ秒で開閉でき、空間領域と時間領域の両方で独特のガス特性をもたらす。
圧電キャンチレバーをベースとしたkHzパルスガス弁を低密度で特性化し,高調波発生に十分なピークガス密度を提供するとともに,高真空用途に適した相互作用チャンバー内の真空負荷を低減させるガス量を大幅に削減する。
目標噴流時空間分解特性におけるガス密度の信頼できる情報を得る。
極光インフラストラクチャー・アト秒光パルス源(eli alps)施設において、干渉式ガス密度推定と高高調波発生測定を行い、ガスジェットシステムを検証する。
その結果, 最適高調波発生のための目標を用いる場合, 大強度相互作用はカンチレバー開口後, 適切な時間窓に限定すべきであることがわかった。
測定したガス密度変化は,高調波フラックスとアート3次元シミュレーション結果の状態とよく相関し,そのようなメトロロジーの重要性を確立した。 High repetition rate gas targets constitute an essential component in intense laser matter interaction studies. The technology becomes challenging as the repetition rate approaches kHz regime. In this regime, cantilever based gas valves are employed, which can open and close in tens of microseconds, resulting in a unique kind of gas characteristics in both spatial and temporal domain. Here we characterize piezo cantilever based kHz pulsed gas valves in the low density regime, where it provides sufficient peak gas density for High Harmonic Generation while releasing significantly less amount of gas reducing the vacuum load within the interaction chamber, suitable for high vacuum applications. In order to obtain reliable information of the gas density in the target jet space-time resolved characterization is performed. The gas jet system is validated by conducting interferometric gas density estimations and high harmonic generation measurements at the Extreme Light Infrastructure Attosecond Light Pulse Source (ELI ALPS) facility. Our results demonstrate that while employing such targets for optimal high harmonic generation, the high intensity interaction should be confined to a suitable time window, after the cantilever opening. The measured gas density evolution correlates well with the integrated high harmonic flux and state of the art 3D simulation results, establishing the importance of such metrology. | 翻訳日:2023-06-14 14:32:12 公開日:2023-06-13 |
# squeezellm: 密度と分散の量子化 SqueezeLLM: Dense-and-Sparse Quantization ( http://arxiv.org/abs/2306.07629v1 ) ライセンス: Link先を確認 | Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer | (参考訳) 生成型大規模言語モデル(LLM)は、幅広いタスクに対して顕著な結果を示した。
しかしながら,これらのモデルを推論用にデプロイすることは,前例のないリソース要件のために大きな課題となっている。
これにより、既存のデプロイメントフレームワークでは、複雑でコストがかかるマルチGPU推論パイプラインの使用や、より小型でパフォーマンスの低いモデルの使用を余儀なくされている。
本研究では, LLMを用いた生成推論の主なボトルネックは, 計算よりもメモリ帯域幅であることを示す。
量子化はモデル重みを精度の低下で表現することで有望な解として現れてきたが、以前の試みはしばしば顕著な性能劣化をもたらした。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を可能にするとともに、同じメモリ制約下で高い量子化性能を実現する。
私たちの枠組みには2つの新しいアイデアが組み込まれています
(i)第2次情報に基づいて最適なビット精度を探索する感度に基づく非一様量子化
(ii)異常値や感度の高い重み値を効率的なスパース形式に格納する密度とスパース分解。
LLaMAモデルに適用した場合、我々の3ビット量子化はFP16ベースラインからのパープレキシティギャップを、同じメモリ要件の最先端手法と比較して最大2.1倍削減する。
さらに、A6000 GPUにデプロイすると、我々の量子化モデルはベースラインと比較して最大2.3倍のスピードアップを達成する。
私たちのコードはオープンソースで、オンラインで利用可能です。 Generative Large Language Models (LLMs) have demonstrated remarkable results for a wide range of tasks. However, deploying these models for inference has been a significant challenge due to their unprecedented resource requirements. This has forced existing deployment frameworks to use multi-GPU inference pipelines, which are often complex and costly, or to use smaller and less performant models. In this work, we demonstrate that the main bottleneck for generative inference with LLMs is memory bandwidth, rather than compute, specifically for single batch inference. While quantization has emerged as a promising solution by representing model weights with reduced precision, previous efforts have often resulted in notable performance degradation. To address this, we introduce SqueezeLLM, a post-training quantization framework that not only enables lossless compression to ultra-low precisions of up to 3-bit, but also achieves higher quantization performance under the same memory constraint. Our framework incorporates two novel ideas: (i) sensitivity-based non-uniform quantization, which searches for the optimal bit precision assignment based on second-order information; and (ii) the Dense-and-Sparse decomposition that stores outliers and sensitive weight values in an efficient sparse format. When applied to the LLaMA models, our 3-bit quantization significantly reduces the perplexity gap from the FP16 baseline by up to 2.1x as compared to the state-of-the-art methods with the same memory requirement. Furthermore, when deployed on an A6000 GPU, our quantized models achieve up to 2.3x speedup compared to the baseline. Our code is open-sourced and available online. | 翻訳日:2023-06-14 14:31:49 公開日:2023-06-13 |
# 言語モデルに現れる人間のような直感行動と推論バイアス--GPT-4で消失 Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models -- and Disappeared in GPT-4 ( http://arxiv.org/abs/2306.07622v1 ) ライセンス: Link先を確認 | Thilo Hagendorff, Sarah Fabi | (参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
したがって、その新興能力を評価することは極めて重要である。
本研究では,LPM(特にGPT-3)が人間のような直感と著しく類似した行動を示し,それに伴う認知的誤りを示す。
しかし,高い認知能力を有するLSM,特にChatGPTとGPT-4は,これらの誤りを克服し,過度な方法で実行することを学習した。
我々の実験では,人間の直感的な意思決定を調査するために設計された,認知反射テスト(CRT)と意味錯覚を用いてLLMを探索した。
さらに,直観的意思決定の傾きがいかに頑丈かを検討する。
本研究は, LLMを心理学的手法で研究することは, 未知の創発形質を明らかにする可能性があることを示す。 Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Therefore, it is of great importance to evaluate their emerging abilities. In this study, we show that LLMs, most notably GPT-3, exhibit behavior that strikingly resembles human-like intuition -- and the cognitive errors that come with it. However, LLMs with higher cognitive capabilities, in particular ChatGPT and GPT-4, learned to avoid succumbing to these errors and perform in a hyperrational manner. For our experiments, we probe LLMs with the Cognitive Reflection Test (CRT) as well as semantic illusions that were originally designed to investigate intuitive decision-making in humans. Moreover, we probe how sturdy the inclination for intuitive-like decision-making is. Our study demonstrates that investigating LLMs with methods from psychology has the potential to reveal otherwise unknown emergent traits. | 翻訳日:2023-06-14 14:31:24 公開日:2023-06-13 |
# 半監督テキスト分類のためのランクアウェア否定学習 Rank-Aware Negative Training for Semi-Supervised Text Classification ( http://arxiv.org/abs/2306.07621v1 ) ライセンス: Link先を確認 | Ahmed Murtadha, Shengfeng Pan, Wen Bo, Jianlin Su, Xinxin Cao, Wenze Zhang, Yunfeng Liu | (参考訳) 半教師付きテキスト分類ベースのパラダイム(SSTC)は通常、自己学習の精神を用いる。
重要なアイデアは、限定されたラベル付きテキストで深い分類器をトレーニングし、さらにトレーニングのためにラベルなしのテキストを擬似ラベルとして反復的に予測することだ。
しかし、実際のシナリオでは重要でないかもしれない擬似ラベルの精度に大きく影響されている。
本稿では,SSTCを雑音ラベル方式で学習する上で,RNT(Rang-Aware Negative Training)フレームワークを提案する。
雑音情報を軽減するために,ラベル付きテキストから受信した証拠的支援に基づき,ラベル付きテキストをランク付けする不確実性に基づくアプローチを適用した。
さらに,「入力インスタンスは補完ラベルに属さない」という概念に基づいて,RNTのトレーニングに負のトレーニングを用いることを提案する。
補助ラベルは、オンターゲット以外のすべてのラベルからランダムに選択される。
直感的には、補完ラベルとして機能する真のラベルの確率は低く、トレーニング中にノイズの少ない情報を提供するため、テストデータのパフォーマンスが向上する。
最後に,提案手法を各種テキスト分類ベンチマークデータセット上で評価する。
我々の広範な実験は、ほとんどのシナリオで最先端の代替手段を一貫して克服し、他のシナリオで競争性能を達成することを示した。
RNTのコードは、https://github.com/amurtadha/RNTで公開されている。 Semi-supervised text classification-based paradigms (SSTC) typically employ the spirit of self-training. The key idea is to train a deep classifier on limited labeled texts and then iteratively predict the unlabeled texts as their pseudo-labels for further training. However, the performance is largely affected by the accuracy of pseudo-labels, which may not be significant in real-world scenarios. This paper presents a Rank-aware Negative Training (RNT) framework to address SSTC in learning with noisy label manner. To alleviate the noisy information, we adapt a reasoning with uncertainty-based approach to rank the unlabeled texts based on the evidential support received from the labeled texts. Moreover, we propose the use of negative training to train RNT based on the concept that ``the input instance does not belong to the complementary label''. A complementary label is randomly selected from all labels except the label on-target. Intuitively, the probability of a true label serving as a complementary label is low and thus provides less noisy information during the training, resulting in better performance on the test data. Finally, we evaluate the proposed solution on various text classification benchmark datasets. Our extensive experiments show that it consistently overcomes the state-of-the-art alternatives in most scenarios and achieves competitive performance in the others. The code of RNT is publicly available at:https://github.com/amurtadha/RNT. | 翻訳日:2023-06-14 14:31:07 公開日:2023-06-13 |
# 分子生成のための双曲グラフ拡散モデル Hyperbolic Graph Diffusion Model for Molecule Generation ( http://arxiv.org/abs/2306.07618v1 ) ライセンス: Link先を確認 | Lingfeng Wen, Xian Wei | (参考訳) 近年、拡散モデルは、例えば高品質な画像を生成するなど、データ生成において顕著な性能を達成している。
それでも化学分子は複雑な非ユークリッド空間構造を持ち、振る舞いは動的かつ予測不能に変化する。
既存の拡散モデルの多くは、分子の内部非ユークリッド構造、特に分子によって表される暗黙の多様体面の階層構造を捉えることができないユークリッド空間における確率分布、すなわちガウス分布の計算に大きく依存している。
双曲埋め込み空間の複雑な階層構造がより顕著になり、より容易に捕獲できることが観察されている。
拡散モデルのデータ生成力と、双曲埋め込みの複雑な幾何学的特徴を抽出する強力な能力の両方を活用するために、拡散モデルを分子生成のための双曲多様体、すなわち双曲グラフ拡散モデル(HGDM)に拡張することを提案する。
提案したHGDMは,双曲型変分オートエンコーダを用いてノードの双曲型隠れ表現を生成し,スコアベースの双曲型グラフニューラルネットワークを用いて双曲空間の分布を学習する。
数値実験により,提案したHGDMは,最先端手法と比較して,複数の分子データセット上で高い性能を示すことが示された。 Recently, diffusion models have achieved remarkable performance in data generation, e.g., generating high-quality images. Nevertheless, chemistry molecules often have complex non-Euclidean spatial structures, with the behavior changing dynamically and unpredictably. Most existing diffusion models highly rely on computing the probability distribution, i.e., Gaussian distribution, in Euclidean space, which cannot capture internal non-Euclidean structures of molecules, especially the hierarchical structures of the implicit manifold surface represented by molecules. It has been observed that the complex hierarchical structures in hyperbolic embedding space become more prominent and easier to be captured. In order to leverage both the data generation power of diffusion models and the strong capability to extract complex geometric features of hyperbolic embedding, we propose to extend the diffusion model to hyperbolic manifolds for molecule generation, namely, Hyperbolic Graph Diffusion Model (HGDM). The proposed HGDM employs a hyperbolic variational autoencoder to generate the hyperbolic hidden representation of nodes and then a score-based hyperbolic graph neural network is used to learn the distribution in hyperbolic space. Numerical experimental results show that the proposed HGDM achieves higher performance on several molecular datasets, compared with state-of-the-art methods. | 翻訳日:2023-06-14 14:30:45 公開日:2023-06-13 |
# UOD: 解剖学的ランドマークのユニバーサルワンショット検出 UOD: Universal One-shot Detection of Anatomical Landmarks ( http://arxiv.org/abs/2306.07615v1 ) ライセンス: Link先を確認 | Heqin Zhu, Quan Quan, Qingsong Yao, Zaiyi Liu, S.kevin Zhou | (参考訳) ワンショット医療ランドマーク検出は、多くの注目を集め、ラベル効率の良いトレーニングプロセスで大きな成功を収める。
しかし、既存のワンショット学習手法は、単一のドメインに高度に特化しており、マルチドメイン未ラベルデータの状況において、ドメインの嗜好を著しく損なう。
さらに、ワンショット学習は、サブ最適イメージにアノテートした場合のパフォーマンス低下に直面するほど堅牢ではない。
これらの課題に対処するために,Universal One-shot Detection (UOD) という,多領域の医療画像を扱うためのドメイン適応型ワンショットランドマーク検出フレームワークを開発する。
UODは、ドメイン固有モジュールとドメイン共有モジュールの組み合わせとして設計された、2つのステージと2つの対応するユニバーサルモデルから構成される。
第1段階では、ドメイン適応畳み込みモデルが学習され、擬似ランドマークラベルを生成する。
第2段階では、ドメイン優先を排除し、マルチドメインデータのグローバルコンテキストを構築するために、ドメイン適応変換器を設計する。
各ドメインからの注釈付きサンプルは1つしかトレーニングできないが、ドメイン共有モジュールはUODがすべての一発サンプルを集約し、より堅牢で正確なランドマークを検出するのに役立つ。
解剖学的領域(頭,手,胸など)で広く利用されている3つの公開X線データセットの質的,定量的に検討し,各領域における最先端の成果を得た。 One-shot medical landmark detection gains much attention and achieves great success for its label-efficient training process. However, existing one-shot learning methods are highly specialized in a single domain and suffer domain preference heavily in the situation of multi-domain unlabeled data. Moreover, one-shot learning is not robust that it faces performance drop when annotating a sub-optimal image. To tackle these issues, we resort to developing a domain-adaptive one-shot landmark detection framework for handling multi-domain medical images, named Universal One-shot Detection (UOD). UOD consists of two stages and two corresponding universal models which are designed as combinations of domain-specific modules and domain-shared modules. In the first stage, a domain-adaptive convolution model is self-supervised learned to generate pseudo landmark labels. In the second stage, we design a domain-adaptive transformer to eliminate domain preference and build the global context for multi-domain data. Even though only one annotated sample from each domain is available for training, the domain-shared modules help UOD aggregate all one-shot samples to detect more robust and accurate landmarks. We investigated both qualitatively and quantitatively the proposed UOD on three widely-used public X-ray datasets in different anatomical domains (i.e., head, hand, chest) and obtained state-of-the-art performances in each domain. | 翻訳日:2023-06-14 14:30:24 公開日:2023-06-13 |
# 単純なベースラインによる逆行訓練の再考 Rethinking Adversarial Training with A Simple Baseline ( http://arxiv.org/abs/2306.07613v1 ) ライセンス: Link先を確認 | Hong Liu, Shin'ichi Satoh | (参考訳) CIFAR と SVHN に対する RobustBench の競争結果を, 単純かつ効果的なベースラインアプローチを用いて報告する。
我々のアプローチは、再スケールされた正方形損失、循環学習率、消去に基づくデータ拡張を統合するトレーニングプロトコルを含む。
私たちが達成した成果は、現在の最先端技術でトレーニングされたモデルに匹敵するものです。
我々のベースラインはSimpleATと呼ばれ、3つの新しい経験的洞察をもたらす。
(i)正方形損失に切り替えることで、精度はデファクトトレーニングプロトコルとデータ拡張の両方を用いて得られるものと同等となる。
(二) 循環学習率の一つが良いスケジューラであり、堅牢なオーバーフィッティングのリスクを効果的に軽減することができる。
(iii)モデルトレーニング中に再スケールされた正方形損失を採用すると、逆と自然の正確さのバランスが良好になる。
実験結果から,SimpleATは強靭なオーバーフィッティングを効果的に軽減し,トレーニング終了時の最高のパフォーマンスを継続的に達成することを示す。
例えば、ResNet-18のCIFAR-10では、SimpleATは現在の強力なAutoAttackに対して約52%の対角精度を達成する。
さらにSimpleATは、CIFAR-10-Cデータセットでよく見られるものなど、さまざまな画像破損に対して堅牢なパフォーマンスを示している。
最後に、バイアス分散分析とロジットペナルティ法という2つの手法を用いて、これらの洞察の有効性を評価する。
以上の結果から,これらの単純な手法はモデル予測のばらつきを減らし,頑健なオーバーフィッティングに寄与すると考えられる。
さらに,様々な最先端手法との接続についても分析により明らかにしている。 We report competitive results on RobustBench for CIFAR and SVHN using a simple yet effective baseline approach. Our approach involves a training protocol that integrates rescaled square loss, cyclic learning rates, and erasing-based data augmentation. The outcomes we have achieved are comparable to those of the model trained with state-of-the-art techniques, which is currently the predominant choice for adversarial training. Our baseline, referred to as SimpleAT, yields three novel empirical insights. (i) By switching to square loss, the accuracy is comparable to that obtained by using both de-facto training protocol plus data augmentation. (ii) One cyclic learning rate is a good scheduler, which can effectively reduce the risk of robust overfitting. (iii) Employing rescaled square loss during model training can yield a favorable balance between adversarial and natural accuracy. In general, our experimental results show that SimpleAT effectively mitigates robust overfitting and consistently achieves the best performance at the end of training. For example, on CIFAR-10 with ResNet-18, SimpleAT achieves approximately 52% adversarial accuracy against the current strong AutoAttack. Furthermore, SimpleAT exhibits robust performance on various image corruptions, including those commonly found in CIFAR-10-C dataset. Finally, we assess the effectiveness of these insights through two techniques: bias-variance analysis and logit penalty methods. Our findings demonstrate that all of these simple techniques are capable of reducing the variance of model predictions, which is regarded as the primary contributor to robust overfitting. In addition, our analysis also uncovers connections with various advanced state-of-the-art methods. | 翻訳日:2023-06-14 14:29:58 公開日:2023-06-13 |
# 異方性はトランスフォーマーに固有ののか? Is Anisotropy Inherent to Transformers? ( http://arxiv.org/abs/2306.07656v1 ) ライセンス: Link先を確認 | Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot | (参考訳) 表現退化問題は、トランスフォーマーに基づく自己教師型学習手法の間で広く見られる現象である。
NLPでは、非等方性(英: anisotropy)は、隠れた表現の特異な性質であり、角距離(cosine-similarity)の点でそれらを予期せず互いに近接させる。
いくつかの最近の研究は、異方性はトークンの長期分布におけるクロスエントロピー損失の最適化の結果であることを示している。
本稿では,同じ結果を直接受けるべきではない特定の目的を持つ言語モデルにおいても,異方性が実証的に観察できることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにも拡張できることを示した。
我々の観測は、異方性はトランスフォーマーベースのモデルに固有のものであることを示す傾向がある。 The representation degeneration problem is a phenomenon that is widely observed among self-supervised learning methods based on Transformers. In NLP, it takes the form of anisotropy, a singular property of hidden representations which makes them unexpectedly close to each other in terms of angular distance (cosine-similarity). Some recent works tend to show that anisotropy is a consequence of optimizing the cross-entropy loss on long-tailed distributions of tokens. We show in this paper that anisotropy can also be observed empirically in language models with specific objectives that should not suffer directly from the same consequences. We also show that the anisotropy problem extends to Transformers trained on other modalities. Our observations tend to demonstrate that anisotropy might actually be inherent to Transformers-based models. | 翻訳日:2023-06-14 14:22:41 公開日:2023-06-13 |
# malafide: ディープフェイクおよびスプーフィング検出システムに対する新しい対向的畳み込み雑音攻撃 Malafide: a novel adversarial convolutive noise attack against deepfake and spoofing detection systems ( http://arxiv.org/abs/2306.07655v1 ) ライセンス: Link先を確認 | Michele Panariello, Wanying Ge, Hemlata Tak, Massimiliano Todisco and Nicholas Evans | (参考訳) 本稿では,自動話者検証(ASV)スプーフィング対策(CM)に対する普遍的対人攻撃であるマラフィドについて述べる。
最適化線形時間不変フィルタを用いて畳み込み雑音を導入することで、品質や話者の声などの他の音声特性を保ちながらCM信頼性を損なうことができる。
最近提案された他の敵対的攻撃とは対照的に、マラフィドフィルタは入力発話と持続時間とは独立に最適化され、基礎となるスプーフィング攻撃の代わりに調整され、少数のフィルタ係数のみの最適化を必要とする。
それでも、ブラックボックスの設定でもcmパフォーマンスの見積もりを桁違いに低下させ、統合cmおよびasvサブシステムも克服するように設定できる。
しかし、自己教師付き学習cmsを使用する統合ソリューションは、ブラックボックスとホワイトボックスの両方の設定下でより堅牢である。 We present Malafide, a universal adversarial attack against automatic speaker verification (ASV) spoofing countermeasures (CMs). By introducing convolutional noise using an optimised linear time-invariant filter, Malafide attacks can be used to compromise CM reliability while preserving other speech attributes such as quality and the speaker's voice. In contrast to other adversarial attacks proposed recently, Malafide filters are optimised independently of the input utterance and duration, are tuned instead to the underlying spoofing attack, and require the optimisation of only a small number of filter coefficients. Even so, they degrade CM performance estimates by an order of magnitude, even in black-box settings, and can also be configured to overcome integrated CM and ASV subsystems. Integrated solutions that use self-supervised learning CMs, however, are more robust, under both black-box and white-box settings. | 翻訳日:2023-06-14 14:22:20 公開日:2023-06-13 |
# Kubernetesクラスタログによるマイクロサービステスト障害分析の自動化 Automating Microservices Test Failure Analysis using Kubernetes Cluster Logs ( http://arxiv.org/abs/2306.07653v1 ) ライセンス: Link先を確認 | Pawan Kumar Sarika, Deepika Badampudi, Sai Prashanth Josyula, Muhammad Usman | (参考訳) Kubernetesは、マイクロサービスをホストするDockerコンテナをデプロイおよび管理するための、無償のオープンソースのコンテナオーケストレーションシステムである。
Kubernetesクラスタログは、障害の原因を決定するのに役立つ。
しかし、システムが複雑化するにつれて、手動で障害原因を特定することが難しくなり、時間がかかります。
本研究は, 故障原因を自動的に判定するために, 効果的かつ効率的な分類アルゴリズムを同定することを目的とする。
我々は,5つの分類アルゴリズム,Support Vector Machines,K-Nearest Neighbors,Random Forest,Gradient Boosting Classifier,Multilayer Perceptronを比較した。
その結果,ランダムフォレストは計算資源を他のアルゴリズムよりも少ない精度で生成できることがわかった。 Kubernetes is a free, open-source container orchestration system for deploying and managing Docker containers that host microservices. Kubernetes cluster logs help in determining the reason for the failure. However, as systems become more complex, identifying failure reasons manually becomes more difficult and time-consuming. This study aims to identify effective and efficient classification algorithms to automatically determine the failure reason. We compare five classification algorithms, Support Vector Machines, K-Nearest Neighbors, Random Forest, Gradient Boosting Classifier, and Multilayer Perceptron. Our results indicate that Random Forest produces good accuracy while requiring fewer computational resources than other algorithms. | 翻訳日:2023-06-14 14:21:53 公開日:2023-06-13 |
# 変分正感音:騒音の効用モデル Variational Positive-incentive Noise: How Noise Benefits Models ( http://arxiv.org/abs/2306.07651v1 ) ライセンス: Link先を確認 | Hongyuan Zhang, Sida Huang, Xuelong Li | (参考訳) 多くの研究は、ノイズの負の役割という従来の仮定によるノイズの影響を軽減することを目的としている。
しかし、いくつかの既存の研究は仮定が常に成り立つわけではないことを示している。
本稿では, 正感雑音(Pi-Noise)の枠組みの下で, ランダムノイズによる古典モデルの利点について検討する。
Pi-Noise の理想的な目的は難易度が高いため,その代わりに変数境界,すなわち VPN を最適化することを提案する。
ニューラルネットワークによって実装されたVPNジェネレータは、ベースモデルのアーキテクチャを変更することなく、ベースモデルの強化とベースモデルの推論の簡略化を目的として設計されている。
ベースモデルとvpnジェネレータの独立した設計の恩恵を受け、vpnジェネレータは既存のほとんどのモデルで動作する。
実験の結果,提案したVPNジェネレータはベースモデルを改善することができることがわかった。
トレーニングされた変動型vpnジェネレータは、我々の期待に合致する複雑な画像の無関係な要素を曖昧にすることを好んでいます。 A large number of works aim to alleviate the impact of noise due to an underlying conventional assumption of the negative role of noise. However, some existing works show that the assumption does not always hold. In this paper, we investigate how to benefit the classical models by random noise under the framework of Positive-incentive Noise (Pi-Noise). Since the ideal objective of Pi-Noise is intractable, we propose to optimize its variational bound instead, namely variational Pi-Noise (VPN). With the variational inference, a VPN generator implemented by neural networks is designed for enhancing base models and simplifying the inference of base models, without changing the architecture of base models. Benefiting from the independent design of base models and VPN generators, the VPN generator can work with most existing models. From the experiments, it is shown that the proposed VPN generator can improve the base models. It is appealing that the trained variational VPN generator prefers to blur the irrelevant ingredients in complicated images, which meets our expectations. | 翻訳日:2023-06-14 14:21:26 公開日:2023-06-13 |
# モダリティ適応か正規化か?
エンドツーエンド音声翻訳の事例研究 Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation ( http://arxiv.org/abs/2306.07650v1 ) ライセンス: Link先を確認 | Yuchen Han, Chen Xu, Tong Xiao and Jingbo Zhu | (参考訳) 事前学習と微調整は、エンドツーエンド音声翻訳(E2E ST)におけるデータ不足問題を緩和するためのパラダイムである。
音声とテキストデータの共通する「モダリティギャップ」はしばしば事前学習と微調整の間に矛盾する入力をもたらす。
しかし、このギャップは微調整の初期段階で発生するが、最終的な性能に大きな影響を与えない。
高いリソースタスク(asrやmtなど)は常に大きなモデルが必要で、モデルが低リソースタスク(e2e st)のために再利用された場合、オーバーフィッティングのために最適化されたパフォーマンスが得られます。
ケーススタディでは,MST-Cデータセット上では en-de が29.0, en-fr が40.3 となり, 規則化は well-designed modality adaption 法よりも重要な役割を果たすことがわかった。
コードとモデルはhttps://github.com/hannlp/tabで入手できる。 Pre-training and fine-tuning is a paradigm for alleviating the data scarcity problem in end-to-end speech translation (E2E ST). The commonplace "modality gap" between speech and text data often leads to inconsistent inputs between pre-training and fine-tuning. However, we observe that this gap occurs in the early stages of fine-tuning, but does not have a major impact on the final performance. On the other hand, we find that there has another gap, which we call the "capacity gap": high resource tasks (such as ASR and MT) always require a large model to fit, when the model is reused for a low resource task (E2E ST), it will get a sub-optimal performance due to the over-fitting. In a case study, we find that the regularization plays a more important role than the well-designed modality adaption method, which achieves 29.0 for en-de and 40.3 for en-fr on the MuST-C dataset. Code and models are available at https://github.com/hannlp/TAB. | 翻訳日:2023-06-14 14:20:51 公開日:2023-06-13 |
# 畳み込み変圧器ネットワークによるSARデータからの海氷分離 Sea Ice Segmentation From SAR Data by Convolutional Transformer Networks ( http://arxiv.org/abs/2306.07649v1 ) ライセンス: Link先を確認 | Nicolae-Catalin Ristea, Andrei Anghel, Mihai Datcu | (参考訳) 海氷は地球の気候システムの重要な構成要素であり、温度や大気の変化に非常に敏感である。
海氷パラメータの正確な測定は、気候変動の影響を理解し予測するために重要である。
それでも、氷地帯で得られた衛星データの量は膨大であり、主観的な測定は効果がない。
したがって、衛星からの連続データフィードを完全に活用するために、自動アルゴリズムを使用する必要がある。
本稿では,ハイブリッド畳み込み変圧器(ConvTr)ネットワークを用いたSAR衛星画像に基づく海氷セグメンテーションの新しい手法を提案する。
この手法は従来の畳み込みネットワークよりも優れており、純粋なトランスフォーマーモデルよりもかなり効率的である。
ConvTr は、AI4Arctic データセット上で平均結合点 (mIoU) を63.68%取得し、400×400平方kmの積に対して120ms と仮定した。 Sea ice is a crucial component of the Earth's climate system and is highly sensitive to changes in temperature and atmospheric conditions. Accurate and timely measurement of sea ice parameters is important for understanding and predicting the impacts of climate change. Nevertheless, the amount of satellite data acquired over ice areas is huge, making the subjective measurements ineffective. Therefore, automated algorithms must be used in order to fully exploit the continuous data feeds coming from satellites. In this paper, we present a novel approach for sea ice segmentation based on SAR satellite imagery using hybrid convolutional transformer (ConvTr) networks. We show that our approach outperforms classical convolutional networks, while being considerably more efficient than pure transformer models. ConvTr obtained a mean intersection over union (mIoU) of 63.68% on the AI4Arctic data set, assuming an inference time of 120ms for a 400 x 400 squared km product. | 翻訳日:2023-06-14 14:20:34 公開日:2023-06-13 |
# クロスモーダルKDを用いたマルチモーダル表現学習 Enhanced Multimodal Representation Learning with Cross-modal KD ( http://arxiv.org/abs/2306.07646v1 ) ライセンス: Link先を確認 | Mengxi Chen, Linyu Xing, Yu Wang, Ya Zhang | (参考訳) 本稿では,クロスモーダル知識蒸留(KD)によるマルチモーダル表現学習の強化のために,訓練時にのみ利用できる補助モーダルティを活用するタスクについて検討する。
広く採用されている相互情報最大化に基づく目的は,教師モデルが生徒モデルほど弱くすることで,教師の短期的解決,すなわち最大相互情報を達成することにつながる。
このような弱解を防ぐために,教師と補助モダリティモデルとの相互情報という,追加的な客観的な用語を導入する。
また,生徒と教師の情報ギャップを狭めるため,生徒に与えられた教師の条件エントロピーを最小限に抑えることを提案する。
相互情報と条件エントロピーをそれぞれ最適化するために,コントラスト学習と逆学習に基づく新しい学習手法を考案した。
3つの人気のマルチモーダルベンチマークデータセットを用いた実験の結果,提案手法は,映像認識,ビデオ検索,感情分類において最先端のアプローチを上回っていることがわかった。 This paper explores the tasks of leveraging auxiliary modalities which are only available at training to enhance multimodal representation learning through cross-modal Knowledge Distillation (KD). The widely adopted mutual information maximization-based objective leads to a short-cut solution of the weak teacher, i.e., achieving the maximum mutual information by simply making the teacher model as weak as the student model. To prevent such a weak solution, we introduce an additional objective term, i.e., the mutual information between the teacher and the auxiliary modality model. Besides, to narrow down the information gap between the student and teacher, we further propose to minimize the conditional entropy of the teacher given the student. Novel training schemes based on contrastive learning and adversarial learning are designed to optimize the mutual information and the conditional entropy, respectively. Experimental results on three popular multimodal benchmark datasets have shown that the proposed method outperforms a range of state-of-the-art approaches for video recognition, video retrieval and emotion classification. | 翻訳日:2023-06-14 14:20:18 公開日:2023-06-13 |
# sratta : フェデレーション学習におけるセキュアアグリゲーションのサンプル再帰攻撃 SRATTA : Sample Re-ATTribution Attack of Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2306.07644v1 ) ライセンス: Link先を確認 | Tanguy Marchand, R\'egis Loeb, Ulysse Marteau-Ferey, Jean Ogier du Terrail, Arthur Pignet | (参考訳) 本稿では,完全接続された第1層を有する機械学習モデルを,fedavgを用いてクライアントと中央サーバ間でトレーニングし,セキュアアグリゲーション(sa)によりアグリゲーションステップを実行できるクロスサイロフェデレーション学習(fl)設定を検討する。
我々は,現実の仮定のもとに集約モデルのみに依存する攻撃をsrattaに提示する。
(i)異なるクライアントからデータサンプルを回収し、
(ii)同じクライアントから来るデータサンプルを一緒にグループ化する。
FL環境では既にサンプルリカバリが検討されているが,SAの使用にもかかわらず,クライアント毎のサンプルをグループ化できることは新規である。
これはFLに対する重大な予期せぬセキュリティの脅威となり、事実上SAを破る。
SRATTAは理論的に基礎があり、現実的なモデルやデータセットで実際に使用できることを示す。
また,クライアントはトレーニング中にプライバシを保証するためにアクティブな役割を果たすべきだと主張する。 We consider a cross-silo federated learning (FL) setting where a machine learning model with a fully connected first layer is trained between different clients and a central server using FedAvg, and where the aggregation step can be performed with secure aggregation (SA). We present SRATTA an attack relying only on aggregated models which, under realistic assumptions, (i) recovers data samples from the different clients, and (ii) groups data samples coming from the same client together. While sample recovery has already been explored in an FL setting, the ability to group samples per client, despite the use of SA, is novel. This poses a significant unforeseen security threat to FL and effectively breaks SA. We show that SRATTA is both theoretically grounded and can be used in practice on realistic models and datasets. We also propose counter-measures, and claim that clients should play an active role to guarantee their privacy during training. | 翻訳日:2023-06-14 14:20:01 公開日:2023-06-13 |
# 非時間的ヒューリスティックスを用いたHTN時間計画における案内探索について On Guiding Search in HTN Temporal Planning with non Temporal Heuristics ( http://arxiv.org/abs/2306.07638v1 ) ライセンス: Link先を確認 | Nicolas Cavrel, Damien Pellier, Humbert Fiorino | (参考訳) 階層型タスクネットワーク(HTN)形式はタスク分解として多種多様な計画問題を表現するために用いられ、その解決のために多くの技術が提案されている。
しかし、時間的HTNに関する研究はほとんど行われていない。
これは、時間的階層的計画問題とは何かという形式的で合意的な定義が欠けていることと、この文脈でヒューリスティックスを開発するのが難しいことによる。
これらの不便に対応するために,本稿では,非時間的問題を解くために開発された既存のヒューリスティックスを用いて,時間的htn問題を表現・解決するための新しい一般pocl(partial order causal link)アプローチを提案する。
我々は,このアプローチが実効性があり,既存の手法よりも優れることを示す。 The Hierarchical Task Network (HTN) formalism is used to express a wide variety of planning problems as task decompositions, and many techniques have been proposed to solve them. However, few works have been done on temporal HTN. This is partly due to the lack of a formal and consensual definition of what a temporal hierarchical planning problem is as well as the difficulty to develop heuristics in this context. In response to these inconveniences, we propose in this paper a new general POCL (Partial Order Causal Link) approach to represent and solve a temporal HTN problem by using existing heuristics developed to solve non temporal problems. We show experimentally that this approach is performant and can outperform the existing ones. | 翻訳日:2023-06-14 14:19:44 公開日:2023-06-13 |
# より良いか悪いか:xAIにおける対実的説明の方向性がユーザ行動に及ぼす影響 For Better or Worse: The Impact of Counterfactual Explanations' Directionality on User Behavior in xAI ( http://arxiv.org/abs/2306.07637v1 ) ライセンス: Link先を確認 | Ulrike Kuhl and Andr\'e Artelt and Barbara Hammer | (参考訳) CFEは、説明可能な人工知能(xAI)において一般的なアプローチであり、モデルの出力を変更するために必要な入力データの変更を強調している。
CFEは、事実状態(上向きCFE)よりも優れているシナリオや、事実状態(下向きCFE)よりも悪いシナリオを記述できる。
しかし、xAIにおけるユーザ行動に対するCFEの方向性に関する潜在的な利点と欠点は、まだ不明である。
現在のユーザスタディ(N=161)では、モデル予測とCFEに基づく自動システムから新たな知識を抽出する作業を行う参加者の行動と経験に対するCFEの方向性の影響を比較した。
以上の結果から, 上向きのCFEは, 他の形態の反事実フィードバックに対して大きな性能上の優位性をもたらすことが示唆された。
さらに、この研究は、CFEの混合による潜在的な利点は、下向きのCFEよりもユーザパフォーマンスを改善するか、あるいは説明をしない。
結果と合わせて,システムに対するユーザの明示的な知識は,下方比較と比較して上方cfeを受けた後,統計的に高い。
これらの結果は、モデル説明の有効性を決定する上で重要な役割を担い、将来のxAI研究の方向性を伝えることを示唆している。
再現可能な調査を保証するため、この研究のコード全体、基礎となるモデル、およびユーザデータを公開している。 Counterfactual explanations (CFEs) are a popular approach in explainable artificial intelligence (xAI), highlighting changes to input data necessary for altering a model's output. A CFE can either describe a scenario that is better than the factual state (upward CFE), or a scenario that is worse than the factual state (downward CFE). However, potential benefits and drawbacks of the directionality of CFEs for user behavior in xAI remain unclear. The current user study (N=161) compares the impact of CFE directionality on behavior and experience of participants tasked to extract new knowledge from an automated system based on model predictions and CFEs. Results suggest that upward CFEs provide a significant performance advantage over other forms of counterfactual feedback. Moreover, the study highlights potential benefits of mixed CFEs improving user performance compared to downward CFEs or no explanations. In line with the performance results, users' explicit knowledge of the system is statistically higher after receiving upward CFEs compared to downward comparisons. These findings imply that the alignment between explanation and task at hand, the so-called regulatory fit, may play a crucial role in determining the effectiveness of model explanations, informing future research directions in xAI. To ensure reproducible research, the entire code, underlying models and user data of this study is openly available: https://github.com/ukuhl/DirectionalAlienZoo | 翻訳日:2023-06-14 14:19:31 公開日:2023-06-13 |
# 先進的脅威に対する文脈認識型防御のためのマルチドメイン知識再武装 Few-shot Multi-domain Knowledge Rearming for Context-aware Defence against Advanced Persistent Threats ( http://arxiv.org/abs/2306.07685v1 ) ライセンス: Link先を確認 | Gaolei Li, Yuanyuan Zhao, Wenqi Wei, Yuchen Liu | (参考訳) 高度な持続的脅威(APT)には、多段階の侵入、高度に調整された意図、回避戦術などの新しい特徴がある。
APTの防御には、攻撃意図を特定するために多次元サイバー脅威インテリジェンスデータを融合させ、エンティティ関係を認識するためにデータ駆動機械学習による効率的な知識発見戦略を実行する必要がある。
しかし、データ駆動機械学習は、新しいサンプルや未知のサンプルの一般化能力に欠けており、防御モデルの精度と実用性を低下させる。
さらに、これらのAPT防衛モデルを異種環境や様々なネットワークデバイスにプライベートに展開するには、コンテキスト認識(既知の攻撃エンティティ、連続ネットワーク状態、現在のセキュリティ戦略など)に多大な投資が必要になる。
本稿では,APTに対する文脈認識型防御のためのFMKR方式を提案する。
メタ学習によって異なるネットワークドメインから生成される複数の小さなタスクを完了させることで、FMKRはまず、新しく未知のAPT攻撃に対して優れた識別と一般化能力を持つモデルを訓練する。
各FMKRタスクでは、脅威インテリジェンスとローカルエンティティの両方がメタラーニングにおけるサポート/クエリセットに融合し、攻撃ステージを特定する。
第二に、現在のセキュリティ戦略を再構築するために、学生モデルに学習知識を伝達する微調整に基づく展開機構を提案し、防御コストを最小限に抑える。
複数のモデル置換戦略と比較して、FMKRは、スケジューリングコストを削減しつつ、攻撃行動に対する迅速な応答を提供する。
2ヶ月にわたる産業用IoT(Industrial Internet of Things, IIoT)のユーザからのフィードバックをもとに,提案手法が防衛満足度を向上させることを実証した。 Advanced persistent threats (APTs) have novel features such as multi-stage penetration, highly-tailored intention, and evasive tactics. APTs defense requires fusing multi-dimensional Cyber threat intelligence data to identify attack intentions and conducts efficient knowledge discovery strategies by data-driven machine learning to recognize entity relationships. However, data-driven machine learning lacks generalization ability on fresh or unknown samples, reducing the accuracy and practicality of the defense model. Besides, the private deployment of these APT defense models on heterogeneous environments and various network devices requires significant investment in context awareness (such as known attack entities, continuous network states, and current security strategies). In this paper, we propose a few-shot multi-domain knowledge rearming (FMKR) scheme for context-aware defense against APTs. By completing multiple small tasks that are generated from different network domains with meta-learning, the FMKR firstly trains a model with good discrimination and generalization ability for fresh and unknown APT attacks. In each FMKR task, both threat intelligence and local entities are fused into the support/query sets in meta-learning to identify possible attack stages. Secondly, to rearm current security strategies, an finetuning-based deployment mechanism is proposed to transfer learned knowledge into the student model, while minimizing the defense cost. Compared to multiple model replacement strategies, the FMKR provides a faster response to attack behaviors while consuming less scheduling cost. Based on the feedback from multiple real users of the Industrial Internet of Things (IIoT) over 2 months, we demonstrate that the proposed scheme can improve the defense satisfaction rate. | 翻訳日:2023-06-14 14:13:37 公開日:2023-06-13 |
# lookaroundオプティマイザ:$k$のステップ、平均1ステップ Lookaround Optimizer: $k$ steps around, 1 step average ( http://arxiv.org/abs/2306.07684v1 ) ライセンス: Link先を確認 | Jiangtao Zhang, Shunyu Liu, Jie Song, Tongtian Zhu, Zhengqi Xu, Mingli Song | (参考訳) 重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つのトレーニングコース(すなわち、トレーニングプロセス全体の完了後に重量が平均される)に沿って行われることが多く、ネットワーク間の多様性を著しく低下させ、センシングの有効性を損なう。
本稿では,重量平均に着想を得たlookaroundを提案する。これは単純で効果的なsgdベースの最適化器で,より一般化されたフラットなミニマを導出する。
特に、Lookaroundはトレーニング期間中に、アラウンドステップと平均ステップの2つのステップを繰り返す。
それぞれのイテレーションで。
1)その周辺ステップは、共通点から始まり、異なるデータ拡張によって変換されたデータに基づいて、複数のネットワークを同時に訓練する。
2) 平均的なステップは、トレーニングされたネットワークを平均化し、次のイテレーションの出発点となる平均的なネットワークを得る。
平均的なステップは、トレーニング全体においてこれらのネットワークの重みの局所性を保証しますが、WAが機能するのは必須です。
我々は,コンバージェンス解析によるルックアラウンドの優位性を理論的に説明し,cnnとvitsを用いたcifarやimagenetなどの人気のあるベンチマークのルックアラウンドを評価するために広範な実験を行った。
私たちのコードはhttps://github.com/ardcy/lookaroundで利用可能です。 Weight Average (WA) is an active research topic due to its simplicity in ensembling deep networks and the effectiveness in promoting generalization. Existing weight average approaches, however, are often carried out along only one training trajectory in a post-hoc manner (i.e., the weights are averaged after the entire training process is finished), which significantly degrades the diversity between networks and thus impairs the effectiveness in ensembling. In this paper, inspired by weight average, we propose Lookaround, a straightforward yet effective SGD-based optimizer leading to flatter minima with better generalization. Specifically, Lookaround iterates two steps during the whole training period: the around step and the average step. In each iteration, 1) the around step starts from a common point and trains multiple networks simultaneously, each on transformed data by a different data augmentation, and 2) the average step averages these trained networks to get the averaged network, which serves as the starting point for the next iteration. The around step improves the functionality diversity while the average step guarantees the weight locality of these networks during the whole training, which is essential for WA to work. We theoretically explain the superiority of Lookaround by convergence analysis, and make extensive experiments to evaluate Lookaround on popular benchmarks including CIFAR and ImageNet with both CNNs and ViTs, demonstrating clear superiority over state-of-the-arts. Our code is available at https://github.com/Ardcy/Lookaround. | 翻訳日:2023-06-14 14:13:08 公開日:2023-06-13 |
# 量子力学における到着時間(幾何学的順序で表される) Arrival time in quantum mechanics (demonstrated in geometrical order) ( http://arxiv.org/abs/2306.07679v1 ) ライセンス: Link先を確認 | Jerzy Kijowski | (参考訳) 従来の量子力学における到着時間の幾何学的構成を示す。
これは、位置とモーメントの関数として古典可観測器の異なる量子化手順の注意深い数学的解析に基づいている。
観測可能なクラスは、(もしあれば)一意な量子化バージョンを持つものを選択する。
このような量子化バージョンが存在するための単純な基準が定式化されている。
これらの数学的結果は、古典的"arrival time"オブザーバブルに適用される。 A geometric construction of the arrival time in conventional quantum mechanics is presented. It is based on a careful mathematical analysis of different quantization procedures for classical observables as functions of positions and momenta. A class of observables is selected which possess a unique (if any) quantized version. A simple criterion for existence of such a quantized version is formulated. These mathematical results are then applied to the classical "arrival time" observable. | 翻訳日:2023-06-14 14:12:40 公開日:2023-06-13 |
# 画像圧縮におけるjust noticeable differenceの局在 Localization of Just Noticeable Difference for Image Compression ( http://arxiv.org/abs/2306.07678v1 ) ライセンス: Link先を確認 | Guangan Chen, Hanhe Lin, Oliver Wiedemann, Dietmar Saupe | (参考訳) JND(Just noticeable difference)は、人によって検出される刺激の最小差である。
与えられた参照画像と圧縮アルゴリズムのピクチャワイズjust noticeable difference (pjnd) は、再構成において顕著な違いを引き起こす最小の圧縮レベルを表す。
これらの違いは、JNDクリティカル領域と呼ばれる画像内の特定の領域でのみ観察できる。
これらの領域の同定は、画像圧縮アルゴリズムの開発を改善することができる。
視覚的知覚が個人によって異なるため、対象とする消費者のPJND値とJNDクリティカル領域を決定するには、十分な数の観察者を含む主観評価実験が必要である。
本稿では,クラウドソーシングを用いた実験を行うための新しい枠組みを提案する。
このフレームワークを適用して,300のソース画像とJPEGまたはBPG圧縮下で圧縮されたバージョンと,各ソース画像に対して平均43のPJNDと129のJNDクリティカル領域の自己レポートされた位置からなる新しいPJNDデータセットKonJND++を開発した。
本実験では,大規模データセットの収集に適応し易いフレームワークの有効性と信頼性を実証する。
ソースコードとデータセットはhttps://github.com/angchen-dev/locjndで入手できる。 The just noticeable difference (JND) is the minimal difference between stimuli that can be detected by a person. The picture-wise just noticeable difference (PJND) for a given reference image and a compression algorithm represents the minimal level of compression that causes noticeable differences in the reconstruction. These differences can only be observed in some specific regions within the image, dubbed as JND-critical regions. Identifying these regions can improve the development of image compression algorithms. Due to the fact that visual perception varies among individuals, determining the PJND values and JND-critical regions for a target population of consumers requires subjective assessment experiments involving a sufficiently large number of observers. In this paper, we propose a novel framework for conducting such experiments using crowdsourcing. By applying this framework, we created a novel PJND dataset, KonJND++, consisting of 300 source images, compressed versions thereof under JPEG or BPG compression, and an average of 43 ratings of PJND and 129 self-reported locations of JND-critical regions for each source image. Our experiments demonstrate the effectiveness and reliability of our proposed framework, which is easy to be adapted for collecting a large-scale dataset. The source code and dataset are available at https://github.com/angchen-dev/LocJND. | 翻訳日:2023-06-14 14:12:35 公開日:2023-06-13 |
# 議論のモデルと対話ゲームのための時間付き並行言語の相互理解のための意味論 An Interleaving Semantics of the Timed Concurrent Language for Argumentation to Model Debates and Dialogue Games ( http://arxiv.org/abs/2306.07675v1 ) ライセンス: Link先を確認 | Stefano Bistarelli, Maria Chiara Meo, Carlo Taticchi | (参考訳) 時間(time)は、知的エージェントの動的振る舞いをモデル化する上で重要な要素である: アクティビティは現実世界の環境で決定的な時間持続時間を持ち、以前のアクションはエージェントの振る舞いに影響を与える。
本稿では,エージェント間の同時相互作用をモデル化する言語を提案する。
このような言語は、抽象論証フレームワークのタイムドバージョンを利用して、エージェントが特定の時間間隔に関する信念の受け入れ可能性についてコミュニケーションし、推論するために使用する共有メモリを実現する。
単一プロセッサ上のインターリーブモデルは、時間エリープの最大並列性を持つ基本的な計算ステップに使用される。
このアプローチに従い、有効になったエージェントは各瞬間に1つだけ実行される。
言語の能力を示すために,知的なエージェント間の議論や対話ゲームといったインタラクションのモデル化にも利用できることを示す。
最後に,Webインターフェースを通じてアクセス可能な言語の実装を提案する。
論理プログラミングの理論と実践(tplp)における考察。 Time is a crucial factor in modelling dynamic behaviours of intelligent agents: activities have a determined temporal duration in a real-world environment, and previous actions influence agents' behaviour. In this paper, we propose a language for modelling concurrent interaction between agents that also allows the specification of temporal intervals in which particular actions occur. Such a language exploits a timed version of Abstract Argumentation Frameworks to realise a shared memory used by the agents to communicate and reason on the acceptability of their beliefs with respect to a given time interval. An interleaving model on a single processor is used for basic computation steps, with maximum parallelism for time elapsing. Following this approach, only one of the enabled agents is executed at each moment. To demonstrate the capabilities of language, we also show how it can be used to model interactions such as debates and dialogue games taking place between intelligent agents. Lastly, we present an implementation of the language that can be accessed via a web interface. Under consideration in Theory and Practice of Logic Programming (TPLP). | 翻訳日:2023-06-14 14:12:13 公開日:2023-06-13 |
# 微分プライベートな1置換ハッシュとbin-wise consistent weighted sampling Differentially Private One Permutation Hashing and Bin-wise Consistent Weighted Sampling ( http://arxiv.org/abs/2306.07674v1 ) ライセンス: Link先を確認 | Xiaoyun Li and Ping Li | (参考訳) Minwise hashing (MinHash) は業界で広く使われている標準アルゴリズムであり、バイナリ (0/1) の Jaccard 類似性を持つ大規模検索および学習アプリケーションに使用される。
MinHashの一般的な用途の1つは、大規模なn-gramテキスト表現を処理することで、実践者が元のデータ(禁じられる)を作らなくてもよいようにすることである。
MinHashのもう1つの一般的な用途は、隣接する(ANN)サーチに近いサブ線形時間を可能にするハッシュテーブルの構築である。
MinHashは大規模な機械学習システムを構築するツールとしても利用されている。
MinHashの標準実装には、$K$ランダムな置換を適用する必要がある。
比較として、one permutation hashing (oph)は、データベクトルを$k$binに分割し、各bin内でハッシュ値を生成するminhashの効率的な代替品である。
OPHはより効率的で、より便利である。
本稿では,ディファレンシャルプライバシ (dp) と oph (minhash) を組み合わせることで,dp-oph-fix, dp-oph-re, dp-oph-rand の3つの変種とdp-ophフレームワークを提案する。
アルゴリズム設計に関する詳細なロードマップとプライバシ分析について述べる。
提案手法のDP-OPH法とDP-MH法との比較を行い,DP-OPHの利点を正当化した。
類似性探索実験はdp-ophの利点を検証し、異なる実用シナリオにおける適切な変種の選択を導く。
提案手法は,非バイナリデータに対するDP-BCWSと呼ばれる新しいDPアルゴリズムを開発するために,bin-wise consistent weighted sample (BCWS) にも拡張される。
分類タスクの実験では、DP-BCWS が $\epsilon = 5\sim 10$ で優れたユーティリティを達成できることが示されており、$\epsilon$ は $(\epsilon, \delta)$-DP の言語の標準パラメータである。 Minwise hashing (MinHash) is a standard algorithm widely used in the industry, for large-scale search and learning applications with the binary (0/1) Jaccard similarity. One common use of MinHash is for processing massive n-gram text representations so that practitioners do not have to materialize the original data (which would be prohibitive). Another popular use of MinHash is for building hash tables to enable sub-linear time approximate near neighbor (ANN) search. MinHash has also been used as a tool for building large-scale machine learning systems. The standard implementation of MinHash requires applying $K$ random permutations. In comparison, the method of one permutation hashing (OPH), is an efficient alternative of MinHash which splits the data vectors into $K$ bins and generates hash values within each bin. OPH is substantially more efficient and also more convenient to use. In this paper, we combine the differential privacy (DP) with OPH (as well as MinHash), to propose the DP-OPH framework with three variants: DP-OPH-fix, DP-OPH-re and DP-OPH-rand, depending on which densification strategy is adopted to deal with empty bins in OPH. A detailed roadmap to the algorithm design is presented along with the privacy analysis. An analytical comparison of our proposed DP-OPH methods with the DP minwise hashing (DP-MH) is provided to justify the advantage of DP-OPH. Experiments on similarity search confirm the merits of DP-OPH, and guide the choice of the proper variant in different practical scenarios. Our technique is also extended to bin-wise consistent weighted sampling (BCWS) to develop a new DP algorithm called DP-BCWS for non-binary data. Experiments on classification tasks demonstrate that DP-BCWS is able to achieve excellent utility at around $\epsilon = 5\sim 10$, where $\epsilon$ is the standard parameter in the language of $(\epsilon, \delta)$-DP. | 翻訳日:2023-06-14 14:11:57 公開日:2023-06-13 |
# シリコンスピン量子ビットのためのパイプライン量子プロセッサアーキテクチャ Pipeline quantum processor architecture for silicon spin qubits ( http://arxiv.org/abs/2306.07673v1 ) ライセンス: Link先を確認 | S. M. Patom\"aki, M. F. Gonzalez-Zalba, M. A. Fogarty, Z. Cai, S. C. Benjamin, J. J. L. Morton | (参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、完全な量子誤差補正を使わずに古典的なシステムに対して量子優位性を実現する。
我々は,すべてのランタイム制御をグローバルに適用するqubit 'pipeline' を用いた NISQ プロセッサアーキテクチャを提案する。
これは、単一および2量子ゲートを実現する物理構造の層状配列を通して量子状態の進行によって達成される。
このようなアプローチは、同じ計算の多くの繰り返しを必要とする変分量子固有解法や、その小さな変分など、NISQの応用に自らをあてはめる。
実行時制御の簡略化と引き換えに、回路深さが現在の物理構造の配列に対応するため、キュービットを閉鎖するためには、より多くの物理構造が必要である。
しかし、クビット状態は繰り返し実行するために配列を通して「ピペリン化」され、物理リソースをより効率的に利用することができる。
本稿では,量子ビットパイプラインをシリコンスピン量子ビットプラットフォームに実装する方法について述べる。
この実装では、典型的なキュービット周波数変動の下でも、$\mathcal{F} \geq 0.9999$の忠実度を達成できる普遍ゲート集合を表す単一および2つのキュービットゲートの物理的実現を記述する。 Noisy intermediate-scale quantum (NISQ) devices seek to achieve quantum advantage over classical systems without the use of full quantum error correction. We propose a NISQ processor architecture using a qubit `pipeline' in which all run-time control is applied globally, reducing the required number and complexity of control and interconnect resources. This is achieved by progressing qubit states through a layered physical array of structures which realise single and two-qubit gates. Such an approach lends itself to NISQ applications such as variational quantum eigensolvers which require numerous repetitions of the same calculation, or small variations thereof. In exchange for simplifying run-time control, a larger number of physical structures is required for shuttling the qubits as the circuit depth now corresponds to an array of physical structures. However, qubit states can be `pipelined' densely through the arrays for repeated runs to make more efficient use of physical resources. We describe how the qubit pipeline can be implemented in a silicon spin-qubit platform, to which it is well suited to due to the high qubit density and scalability. In this implementation, we describe the physical realisation of single and two qubit gates which represent a universal gate set that can achieve fidelities of $\mathcal{F} \geq 0.9999$, even under typical qubit frequency variations. | 翻訳日:2023-06-14 14:11:19 公開日:2023-06-13 |
# 動的ソータ・シュウィンガープロセスにおける渦構造とモーメントム共有 Vortex Structures and Momentum Sharing in Dynamic Sauter-Schwinger Process ( http://arxiv.org/abs/2306.07668v1 ) ライセンス: Link先を確認 | A. Bechler, F. Cajiao V\'elez, K. Krajewska, J. Z. Kami\'nski | (参考訳) 線形偏極の時間依存性電界による真空からの電子-陽電子対生成における渦パターン形成を解析した。
このような場合、生成粒子の運動量分布は渦-反渦対を示すことが示されている。
フィールド周波数や強度などのレーザー場パラメータに対する感度についても検討した。
具体的には, フィールド周波数の増加に伴い, 1光子しきい値の追加渦-反渦対が現れることを示した。
運動量空間におけるそれらの位置は、生成電子(ポジトロン)の確率分布の一般的なしきい値挙動と一致する。
すなわち、小さな磁場周波数では、粒子は電界分極方向に沿って生成される傾向があるが、十分な周波数では、主に垂直方向に生成される。
このような生成粒子の縦および横方向の運動量共有の変化は、1光子閾値を超える。 Vortex pattern formation in electron-positron pair creation from vacuum by a time-dependent electric field of linear polarization is analyzed. It is demonstrated that in such scenario the momentum distributions of created particles exhibit vortex-antivortex pairs. Their sensitivity to the laser field parameters such as the field frequency and intensity is also studied. Specifically, it is shown that with increasing field frequency accross the one-photon threshold additional vortex-antivortex pairs appear. Their location in the momentum space is consistent with a general threshold behavior of probability distributions of created electrons (positrons). Namely, while for small field frequencies the particles tend to be created along the field polarization direction, for large enough frequencies they are predominantly generated in the perpendicular direction. Such change in longitudinal and transverse momentum sharing of created particles occurs accross the one-photon threshold. | 翻訳日:2023-06-14 14:10:53 公開日:2023-06-13 |
# テキストデータ拡張の有効性を再考する:実証分析 Rethink the Effectiveness of Text Data Augmentation: An Empirical Analysis ( http://arxiv.org/abs/2306.07664v1 ) ライセンス: Link先を確認 | Zhengxiang Shi, Aldo Lipani | (参考訳) 近年,言語モデル (LM) は自然言語処理 (NLP) 分野の進歩に顕著な進歩を遂げている。
しかし、データ拡張(DA)技術がこれらのLMの微調整(FT)性能に与える影響は議論の的となっている。
本研究では,3種類のFT手法が,分類と回帰型を含む7つの異なるNLPタスクにまたがるバックトランスレーションと共役し,単文・文ペアタスクを網羅した3種類のFT手法の有効性を評価する。
従来の前提では, DA が LM のFT 性能の向上に寄与しないという仮定とは対照的に, 拡張データによる事前学習が下流タスクのFT 性能を効果的に向上させる可能性が示唆された。
最も好ましい場合、継続事前学習は、数ショットの学習環境でFTの性能を10%以上向上させる。
我々は,lmsの性能向上のための強力なツールとしてのdaの可能性に注目した。 In recent years, language models (LMs) have made remarkable progress in advancing the field of natural language processing (NLP). However, the impact of data augmentation (DA) techniques on the fine-tuning (FT) performance of these LMs has been a topic of ongoing debate. In this study, we evaluate the effectiveness of three different FT methods in conjugation with back-translation across an array of 7 diverse NLP tasks, including classification and regression types, covering single-sentence and sentence-pair tasks. Contrary to prior assumptions that DA does not contribute to the enhancement of LMs' FT performance, our findings reveal that continued pre-training on augmented data can effectively improve the FT performance of the downstream tasks. In the most favourable case, continued pre-training improves the performance of FT by more than 10% in the few-shot learning setting. Our finding highlights the potential of DA as a powerful tool for bolstering LMs' performance. | 翻訳日:2023-06-14 14:10:41 公開日:2023-06-13 |
# オントロジーを媒介としたクエリのテンポラリな特徴と学習性 Temporalising Unique Characterisability and Learnability of Ontology-Mediated Queries ( http://arxiv.org/abs/2306.07662v1 ) ライセンス: Link先を確認 | Jean Christoph Jung, Vladislav Ryzhikov, Frank Wolter, Michael Zakharyaschev | (参考訳) 近年、例によるデータベースクエリのユニークな特徴性と学習性の研究がオントロジー型クエリに拡張されている。
本稿では,得られた結果が時間的オントロジを媒介とするクエリにどの程度持ち上げられるかを検討する。
我々は,非時間的場合における関連するアプローチを体系的に導入し,その条件下で既存の結果が時間的クエリへ持ち上げられる一般的な転送結果を示す。 Recently, the study of the unique characterisability and learnability of database queries by means of examples has been extended to ontology-mediated queries. Here, we study in how far the obtained results can be lifted to temporalised ontology-mediated queries. We provide a systematic introduction to the relevant approaches in the non-temporal case and then show general transfer results pinpointing under which conditions existing results can be lifted to temporalised queries. | 翻訳日:2023-06-14 14:10:24 公開日:2023-06-13 |
# 知識グラフ補完のための文脈辞書検索 Contextual Dictionary Lookup for Knowledge Graph Completion ( http://arxiv.org/abs/2306.07719v1 ) ライセンス: Link先を確認 | Jining Wang, Delai Qiu, YouMing Liu, Yining Wang, Chuan Chen, Zibin Zheng, Yuren Zhou | (参考訳) 知識グラフ補完(KGC)は、知識グラフの不完全性(KG)を解決することを目的として、知識グラフ埋め込み(KGE)モデルが提案され、知識グラフ埋め込み(KGE)モデルが組み込まれている。
しかしながら、既存の埋め込みモデルは、それぞれの関係を一意なベクトルにマッピングし、異なる実体の下でそれらの特定のきめ細かい意味論を見渡す。
さらに、数少ない詳細なセマンティックモデルはクラスタリングアルゴリズムに依存しており、複雑な2段階のトレーニングプロセスのため、パフォーマンスと適用性が制限される。
本稿では,コンテクスト辞書検索を用いた新しい手法を提案する。従来の組込みモデルが,エンドツーエンドで関係のきめ細かな意味を学習できる。
具体的には,複数の潜在意味論を含む辞書を用いて各関係を表現する。
与えられたエンティティと辞書の中央意味論の合成は、ルックアップを生成するコンテキストとして役立ち、関係のきめ細かい意味論を適応的に決定する。
提案した損失関数は、セマンティクスのセマンティクスを同時に最適化し、セマンティクスの一貫性を確保する。
さらに,辞書検索操作の有効性と精度を評価するための2つの指標を提案する。
提案手法により,KGEモデルを拡張することにより,広く使用されているベンチマークデータセットの性能が大幅に向上する。 Knowledge graph completion (KGC) aims to solve the incompleteness of knowledge graphs (KGs) by predicting missing links from known triples, numbers of knowledge graph embedding (KGE) models have been proposed to perform KGC by learning embeddings. Nevertheless, most existing embedding models map each relation into a unique vector, overlooking the specific fine-grained semantics of them under different entities. Additionally, the few available fine-grained semantic models rely on clustering algorithms, resulting in limited performance and applicability due to the cumbersome two-stage training process. In this paper, we present a novel method utilizing contextual dictionary lookup, enabling conventional embedding models to learn fine-grained semantics of relations in an end-to-end manner. More specifically, we represent each relation using a dictionary that contains multiple latent semantics. The composition of a given entity and the dictionary's central semantics serves as the context for generating a lookup, thus determining the fine-grained semantics of the relation adaptively. The proposed loss function optimizes both the central and fine-grained semantics simultaneously to ensure their semantic consistency. Besides, we introduce two metrics to assess the validity and accuracy of the dictionary lookup operation. We extend several KGE models with the method, resulting in substantial performance improvements on widely-used benchmark datasets. | 翻訳日:2023-06-14 14:03:18 公開日:2023-06-13 |
# 生成逆数ネットワークのための動的マスク判別器 Dynamically Masked Discriminator for Generative Adversarial Networks ( http://arxiv.org/abs/2306.07716v1 ) ライセンス: Link先を確認 | Wentian Zhang, Haozhe Liu, Bing Li, Jinheng Xie, Yawen Huang, Yuexiang Li, Yefeng Zheng, Bernard Ghanem | (参考訳) GAN(Generative Adversarial Networks)のトレーニングは依然として難しい問題である。
判別器は、実データ分布を学習して生成器を訓練する。
しかし、生成したデータの分布はトレーニングプロセスを通して変化するため、判別者が学ぶことは困難である。
本稿では,オンライン連続学習の観点から,GANの新たな手法を提案する。
歴史的に生成されたデータに基づいて訓練された判別器モデルは、新しい到着したデータの変化への適応を遅くすることが多いため、結果の品質が低下する。
学習中に生成されたデータをストリームとして扱うことにより,識別者が生成したデータにおける新たな知識の学習を遅くするかどうかを検出する。
したがって、識別者が新しい知識を素早く学ぶように明示的に強制することができる。
特に,その遅延を自動的に検出し,その特徴を動的にマスキングする新たな識別器を提案する。
実験の結果,本手法は最先端手法よりも優れていた。 Training Generative Adversarial Networks (GANs) remains a challenging problem. The discriminator trains the generator by learning the distribution of real/generated data. However, the distribution of generated data changes throughout the training process, which is difficult for the discriminator to learn. In this paper, we propose a novel method for GANs from the viewpoint of online continual learning. We observe that the discriminator model, trained on historically generated data, often slows down its adaptation to the changes in the new arrival generated data, which accordingly decreases the quality of generated results. By treating the generated data in training as a stream, we propose to detect whether the discriminator slows down the learning of new knowledge in generated data. Therefore, we can explicitly enforce the discriminator to learn new knowledge fast. Particularly, we propose a new discriminator, which automatically detects its retardation and then dynamically masks its features, such that the discriminator can adaptively learn the temporally-vary distribution of generated data. Experimental results show our method outperforms the state-of-the-art approaches. | 翻訳日:2023-06-14 14:02:54 公開日:2023-06-13 |
# SAMのロバスト性: 破壊とそれ以上のセグメンテーション Robustness of SAM: Segment Anything Under Corruptions and Beyond ( http://arxiv.org/abs/2306.07713v1 ) ライセンス: Link先を確認 | Yu Qiao, Chaoning Zhang, Taegoo Kang, Donghun Kim, Shehbaz Tariq, Chenshuang Zhang, Choong Seon Hong | (参考訳) Segment Any Model (SAM) という名前が示すように、任意のオブジェクトを切断することができる。
SAMは、プロンプトの誘導により、印象的なゼロショット転送性能を示すビジョン基礎モデルである。
しかし, 各種の汚職下での強靭性評価には包括的評価が欠如している。
以前の研究では、SAMは形ではなくテクスチャ(スタイル)に偏っていることが示されており、その動機は、SAMのスタイル移動に対する頑健さを調査することにある。
スタイル変更と解釈された汚職の影響により,実世界の汚職ごとに5つの重度レベルを持つ15の共用汚職に対するロバスト性をさらに評価した。
汚職以外では, SAMの局所閉塞と対向摂動に対する堅牢性をさらに評価した。
全体として、この研究はSAMの腐敗以降の堅牢性に関する総合的な実証的研究を提供する。 Segment anything model (SAM), as the name suggests, is claimed to be capable of cutting out any object. SAM is a vision foundation model which demonstrates impressive zero-shot transfer performance with the guidance of a prompt. However, there is currently a lack of comprehensive evaluation of its robustness performance under various types of corruptions. Prior works show that SAM is biased towards texture (style) rather than shape, motivated by which we start by investigating SAM's robustness against style transfer, which is synthetic corruption. With the effect of corruptions interpreted as a style change, we further evaluate its robustness on 15 common corruptions with 5 severity levels for each real-world corruption. Beyond the corruptions, we further evaluate the SAM robustness on local occlusion and adversarial perturbations. Overall, this work provides a comprehensive empirical study on the robustness of the SAM under corruptions and beyond. | 翻訳日:2023-06-14 14:02:39 公開日:2023-06-13 |
# Memristive Synapse を用いた多重ステップ量子化トリプルトSTDP Multiple-Step Quantized Triplet STDP Implemented with Memristive Synapse ( http://arxiv.org/abs/2306.07712v1 ) ライセンス: Link先を確認 | Y. Liu, D. Wang, Z. Dong, and W. Zhao | (参考訳) ペアワイズスパイク刺激依存性可塑性(STDP)学習規則の拡張として、3重項STDPは、生体神経細胞のシナプス変化を特徴づける能力をより高めている。
本研究では,マルチステップ量子化三重項学習法(Multi-step Quantized Triplet STDP)とよばれる新しい混合信号回路方式を提案し,コアクティベーション三重項学習規則の正確かつ柔軟な実装を実現する。
パルス幅符号化重み変調信号の利用により回路のロバスト性が大幅に向上した。
回路性能は,MATLAB Simulink & Simscapeで実施したシミュレーションを用いて検討し,回路結果とアルゴリズム的アプローチを比較して評価を行う。 As an extension of the pairwise spike-timingdependent plasticity (STDP) learning rule, the triplet STDP is provided with greater capability in characterizing the synaptic changes in the biological neural cell. In this work, a novel mixedsignal circuit scheme, called multiple-step quantized triplet STDP, is designed to provide a precise and flexible implementation of coactivation triplet STDP learning rule in memristive synapse spiking neural network. The robustness of the circuit is greatly improved through the utilization of pulse-width encoded weight modulation signals. The circuit performance is studied through the simulations which are carried out in MATLAB Simulink & Simscape, and assessment is given by comparing the results of circuits with the algorithmic approaches. | 翻訳日:2023-06-14 14:02:23 公開日:2023-06-13 |
# 予算付き2次競売における協調動的入札 Coordinated Dynamic Bidding in Repeated Second-Price Auctions with Budgets ( http://arxiv.org/abs/2306.07709v1 ) ライセンス: Link先を確認 | Yurong Chen, Qian Wang, Zhijian Duan, Haoran Sun, Zhaohua Chen, Xiang Yan, Xiaotie Deng | (参考訳) オンライン広告市場では、広告主が広告オークションに参加するために入札代理店を雇っている。
これらの機関は、顧客に代わってオンラインアルゴリズムの設計と入札に特化している。
通常、代理店は複数の広告主に関する情報を持っているため、彼女はクライアントが独立した入札の対象よりも高いユーティリティを実現するために入札を調整できる可能性がある。
本稿では,予算付き2次価格オークションにおけるオンライン入札アルゴリズムのコーディネートについて検討する。
我々は、すべてのクライアントに対して、独立入札で得られる最高のものよりも高いユーティリティを保証するアルゴリズムを提案する。
これらのアルゴリズムは,最大連立福祉を実現し,左右対称の場合において,予算を誤った報告にするための入札者のインセンティブを議論する。
オンライン学習と平衡分析の手法を組み合わせることで,多次元ベンチマークと競合することの難しさを克服する。
アルゴリズムの性能は、合成データと実データの両方の実験によりさらに評価される。
私たちの知る限りでは、オンラインオークションにおける入札者の調整を制約付きで検討するのは初めてです。 In online ad markets, a rising number of advertisers are employing bidding agencies to participate in ad auctions. These agencies are specialized in designing online algorithms and bidding on behalf of their clients. Typically, an agency usually has information on multiple advertisers, so she can potentially coordinate bids to help her clients achieve higher utilities than those under independent bidding. In this paper, we study coordinated online bidding algorithms in repeated second-price auctions with budgets. We propose algorithms that guarantee every client a higher utility than the best she can get under independent bidding. We show that these algorithms achieve maximal coalition welfare and discuss bidders' incentives to misreport their budgets, in symmetric cases. Our proofs combine the techniques of online learning and equilibrium analysis, overcoming the difficulty of competing with a multi-dimensional benchmark. The performance of our algorithms is further evaluated by experiments on both synthetic and real data. To the best of our knowledge, we are the first to consider bidder coordination in online repeated auctions with constraints. | 翻訳日:2023-06-14 14:02:08 公開日:2023-06-13 |
# 説明可能なTOPSISに向けて: 重みと集合がランキングに与える影響を視覚的に見る Towards Explainable TOPSIS: Visual Insights into the Effects of Weights and Aggregations on Rankings ( http://arxiv.org/abs/2306.07706v1 ) ライセンス: Link先を確認 | Robert Susmaga, Izabela Szczech, Dariusz Brzezinski | (参考訳) multi-criteria decision analysis (mcda) は様々な産業にまたがって、代替案の評価とランク付けに広く使われている。
現実世界のランキング問題を解決するために開発された多くのMCDA手法の中で、TOPSISは多くのアプリケーション分野で最も人気のある選択肢の1つである。
TOPSISは、考慮された選択肢と2つの事前定義された選択肢、すなわちイデアルと反イデアルの間の距離を計算し、選択された距離の集計に従って選択肢のランキングを作成する。
しかし、TOPSISの内部動作の解釈は、特に基準の数が多い場合には困難である。
この目的のために、最近の研究では、ToPSISアグリゲーションは代替の手段(M)と標準偏差(SD)を用いて表現でき、アグリゲーションを可視化し説明するためのMSD空間を作成することができる。
MSD空間は非常に有用であるが、同様に重要な基準を仮定し、現実世界のランキング問題には適用できない。
本稿では,重み付き平均と標準偏差によって定義される wmsd 空間の概念を導入することにより,msd 空間の概念を重み付き基準に一般化する。
そこで本研究では,TOPSISと類似の距離ベースアグリゲーション手法を平面上で実演し,基準値が重み付けされた場合でも解釈可能であることを示す。
提案するWMSD空間は,現実世界の意思決定問題においてTOPSISランキングを説明するための実用的な方法を提供する。 Multi-Criteria Decision Analysis (MCDA) is extensively used across diverse industries to assess and rank alternatives. Among numerous MCDA methods developed to solve real-world ranking problems, TOPSIS remains one of the most popular choices in many application areas. TOPSIS calculates distances between the considered alternatives and two predefined ones, namely the ideal and the anti-ideal, and creates a ranking of the alternatives according to a chosen aggregation of these distances. However, the interpretation of the inner workings of TOPSIS is difficult, especially when the number of criteria is large. To this end, recent research has shown that TOPSIS aggregations can be expressed using the means (M) and standard deviations (SD) of alternatives, creating MSD-space, a tool for visualizing and explaining aggregations. Even though MSD-space is highly useful, it assumes equally important criteria, making it less applicable to real-world ranking problems. In this paper, we generalize the concept of MSD-space to weighted criteria by introducing the concept of WMSD-space defined by what is referred to as weight-scaled means and standard deviations. We demonstrate that TOPSIS and similar distance-based aggregation methods can be successfully illustrated in a plane and interpreted even when the criteria are weighted, regardless of their number. The proposed WMSD-space offers a practical method for explaining TOPSIS rankings in real-world decision problems. | 翻訳日:2023-06-14 14:01:53 公開日:2023-06-13 |
# E2E-LOAD: エンドツーエンドのオンラインアクション検出 E2E-LOAD: End-to-End Long-form Online Action Detection ( http://arxiv.org/abs/2306.07703v1 ) ライセンス: Link先を確認 | Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma | (参考訳) 近年、オンラインアクション検出(oad)のための機能ベースアプローチへの傾向が高まっている。
しかしながら、これらのアプローチには、トレーニング可能なバックボーンの潜在的な能力を無視した固定バックボーン設計による制限がある。
本稿では,OADの長期的理解と効率的なオンライン推論という大きな課題に対処するために,E2E-LOADと呼ばれる最初のエンドツーエンドOADモデルを提案する。
具体的には,提案手法はすべてのフレームで共有される初期空間モデルを採用し,計算コストの低い推論のための長いシーケンスキャッシュを維持する。
また, 長尺および短尺のモデリングを効果的に行うための非対称空間-時空間モデルも提案する。
さらに,空間空間探索を高速化する新しい効率的な推論機構を提案する。
大規模なアブレーション研究と実験により,提案手法の有効性と有効性を示した。
特に、72.4%~(+1.2%)、90.3%~(+0.7%)、48.1%~(+26.0%)のmAPをTHMOUS14、TVSeries、HDDでそれぞれ17.3 (+12.6) FPSを達成する。
ソースコードは一般公開される予定だ。 Recently, there has been a growing trend toward feature-based approaches for Online Action Detection (OAD). However, these approaches have limitations due to their fixed backbone design, which ignores the potential capability of a trainable backbone. In this paper, we propose the first end-to-end OAD model, termed E2E-LOAD, designed to address the major challenge of OAD, namely, long-term understanding and efficient online reasoning. Specifically, our proposed approach adopts an initial spatial model that is shared by all frames and maintains a long sequence cache for inference at a low computational cost. We also advocate an asymmetric spatial-temporal model for long-form and short-form modeling effectively. Furthermore, we propose a novel and efficient inference mechanism that accelerates heavy spatial-temporal exploration. Extensive ablation studies and experiments demonstrate the effectiveness and efficiency of our proposed method. Notably, we achieve 17.3 (+12.6) FPS for end-to-end OAD with 72.4%~(+1.2%), 90.3%~(+0.7%), and 48.1%~(+26.0%) mAP on THMOUS14, TVSeries, and HDD, respectively, which is 3x faster than previous approaches. The source code will be made publicly available. | 翻訳日:2023-06-14 14:01:26 公開日:2023-06-13 |
# 時系列予測による時間認識型グラフ構造学習 Time-aware Graph Structure Learning via Sequence Prediction on Temporal Graphs ( http://arxiv.org/abs/2306.07699v1 ) ライセンス: Link先を確認 | Haozhen Zhang, Xueting Han, Xi Xiao, Jing Bai | (参考訳) 時間発展するグラフの性質をモデル化することを目的としたテンポラリグラフ学習が注目され,近年,目覚ましい成果を上げている。
しかし、実際には、グラフ構造は不完全でノイズが多いため、時間グラフネットワーク(TGN)が情報表現の学習を妨げる。
グラフコントラスト学習は、データ拡張を使用して、既存のデータの妥当なバリエーションを生成し、堅牢な表現を学ぶ。
しかし、ルールベースの拡張アプローチは学習性に欠け、下流タスクからの豊富な情報を活用することができないため、最適ではない。
これらの問題に対処するために,時系列グラフのシーケンス予測によるtgsl(time-aware graph structure learning)アプローチを提案する。
特に、前回観測された相互作用に基づいて時間認識のコンテキスト埋め込みを予測し、Gumble-Top-Kを用いて、このコンテキスト埋め込みに最も近い候補エッジを選択する。
さらに、効率性と多様性を確保するために、いくつかの候補サンプリング戦略が提案されている。
さらに、グラフ構造とTGNをエンドツーエンドで共同で学習し、洗練されたグラフ上で推論を行う。
TGSLはTGATやGraphMixerのような一般的なTGNに対して大きな利益をもたらし、時間グラフ上の他のコントラスト学習手法よりも優れていることを示す。
私たちは将来そのコードをリリースします。 Temporal Graph Learning, which aims to model the time-evolving nature of graphs, has gained increasing attention and achieved remarkable performance recently. However, in reality, graph structures are often incomplete and noisy, which hinders temporal graph networks (TGNs) from learning informative representations. Graph contrastive learning uses data augmentation to generate plausible variations of existing data and learn robust representations. However, rule-based augmentation approaches may be suboptimal as they lack learnability and fail to leverage rich information from downstream tasks. To address these issues, we propose a Time-aware Graph Structure Learning (TGSL) approach via sequence prediction on temporal graphs, which learns better graph structures for downstream tasks through adding potential temporal edges. In particular, it predicts time-aware context embedding based on previously observed interactions and uses the Gumble-Top-K to select the closest candidate edges to this context embedding. Additionally, several candidate sampling strategies are proposed to ensure both efficiency and diversity. Furthermore, we jointly learn the graph structure and TGNs in an end-to-end manner and perform inference on the refined graph. Extensive experiments on temporal link prediction benchmarks demonstrate that TGSL yields significant gains for the popular TGNs such as TGAT and GraphMixer, and it outperforms other contrastive learning methods on temporal graphs. We will release the code in the future. | 翻訳日:2023-06-14 14:01:04 公開日:2023-06-13 |
# 量子鍵を用いた公開鍵暗号 Public-Key Encryption with Quantum Keys ( http://arxiv.org/abs/2306.07698v1 ) ライセンス: Link先を確認 | Khashayar Barooti, Alex B. Grilo, Lo\"is Huguenin-Dumittan, Giulio Malavolta, Or Sattath, Quoc-Huy Vu, Michael Walter | (参考訳) インパグリアッツォの5つの世界の枠組みでは、公開鍵暗号が存在する世界(クリプトマニア)と一方的な機能しか存在しない世界(MiniCrypt)の2つの世界が区別されることが多い。
しかし、これらの世界の境界は、量子情報が考慮されるときに変化しうる。
近年の研究では、古典的にはクリプトマニアのプリミティブである暗黙の転送とマルチパーティ計算の量子変種が一方の関数から構築され、量子ミニクリプト(いわゆるミニQクリプト)の領域に置かれることが示されている。
これは当然、次のような疑問を提起する: 一方通行の関数や潜在的に弱い仮定から、暗号の核となる公開鍵暗号の量子変種を構築することは可能か?
本研究では,量子公開鍵暗号(qpke)の概念,すなわち鍵が量子状態になることを許される公開鍵暗号の形式研究を開始する。
本稿では,一方向関数 (OWF) の存在,あるいは擬似乱数関数様状態 (PRFS) や擬似乱数関数様状態 (PRFSPD) のようなより弱い仮定に基づいて,新しいセキュリティ定義とqPKEの構成を提案する。
最後に,このプリミティブを厳密に評価するために,量子公開鍵暗号を構築するためには計算上の仮定が必要であることを示す。
すなわち、量子公開鍵暗号が情報理論のセキュリティを提供することができないという自己完結した証明を与える。 In the framework of Impagliazzo's five worlds, a distinction is often made between two worlds, one where public-key encryption exists (Cryptomania), and one in which only one-way functions exist (MiniCrypt). However, the boundaries between these worlds can change when quantum information is taken into account. Recent work has shown that quantum variants of oblivious transfer and multi-party computation, both primitives that are classically in Cryptomania, can be constructed from one-way functions, placing them in the realm of quantum MiniCrypt (the so-called MiniQCrypt). This naturally raises the following question: Is it possible to construct a quantum variant of public-key encryption, which is at the heart of Cryptomania, from one-way functions or potentially weaker assumptions? In this work, we initiate the formal study of the notion of quantum public-key encryption (qPKE), i.e., public-key encryption where keys are allowed to be quantum states. We propose new definitions of security and several constructions of qPKE based on the existence of one-way functions (OWF), or even weaker assumptions, such as pseudorandom function-like states (PRFS) and pseudorandom function-like states with proof of destruction (PRFSPD). Finally, to give a tight characterization of this primitive, we show that computational assumptions are necessary to build quantum public-key encryption. That is, we give a self-contained proof that no quantum public-key encryption scheme can provide information-theoretic security. | 翻訳日:2023-06-14 14:00:40 公開日:2023-06-13 |
# StyleTTS 2: 大規模言語モデルを用いた対話学習とスタイル拡散による人間レベルテキスト音声へのアプローチ StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models ( http://arxiv.org/abs/2306.07691v1 ) ライセンス: Link先を確認 | Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani | (参考訳) 本稿では,大規模な音声言語モデル(SLM)を用いたスタイル拡散と対角訓練を利用して,人レベルのTS合成を実現するテキスト音声合成(TTS)モデルであるStyleTTS 2を提案する。
styletts 2は、スタイルを拡散モデルを通じて潜在確率変数としてモデル化し、参照音声を必要とせずにテキストに最適なスタイルを生成し、拡散モデルが提供する多様な音声合成の恩恵を受けながら効率的な潜在拡散を実現する。
さらに、WavLMのような大規模事前学習SLMを差別化要因として使用し、エンドツーエンドトレーニングのための微分可能な時間モデルを作成し、音声の自然性を向上させる。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
さらに,LibriTTSデータセットを用いたトレーニングでは,従来のゼロショット話者適応モデルよりも優れていた。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
オーディオデモとソースコードはhttps://styletts2.github.io/で入手できる。 In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/. | 翻訳日:2023-06-14 14:00:11 公開日:2023-06-13 |
# V-LoL:ビジュアル論理学習のための診断データセット V-LoL: A Diagnostic Dataset for Visual Logical Learning ( http://arxiv.org/abs/2306.07743v1 ) ライセンス: Link先を確認 | Lukas Helff, Wolfgang Stammer, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting | (参考訳) 近年のビジュアルAIの発展にもかかわらず、正確な論理的推論の欠如から抽象的な一般化能力、複雑でノイズの多いシーンの理解に至るまで、さまざまな欠点が残っている。
残念ながら、既存のベンチマークはこれらのいくつかの側面を捉えるように設計されていない。
ディープラーニングデータセットは、視覚的に複雑なデータではなく、単純な視覚的推論タスクに焦点を当てるが、帰納的論理データセットは複雑な論理的学習タスクを含む。
そこで我々は,視覚的および論理的課題をシームレスに組み合わせた視覚論理学習データセットV-LoLを提案する。
特に、V-LoLの最初のインスタンス化であるV-LoL-Trainsを紹介します。
複雑なビジュアルシーンと柔軟な論理推論タスクを汎用フレームワークに組み込むことで、v-lol-trainsは幅広い視覚的な論理学習の課題を調査するプラットフォームを提供する。
従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。
我々の評価は、最先端のAIでさえ視覚論理学習の課題に対処する上で困難に直面しており、それぞれの方法論に特有の独特なアドバンテージと制限を強調していることを示している。
全体として、V-LoLはAIシステムの視覚論理学習における現在の能力を理解し、拡張するための新しい道を開く。 Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Trains, -- a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Trains provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even state-of-the-art AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations specific to each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems. | 翻訳日:2023-06-14 13:53:43 公開日:2023-06-13 |
# 文脈マルコフ決定過程における政策勾配法の段階的学習 Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes ( http://arxiv.org/abs/2306.07741v1 ) ライセンス: Link先を確認 | Luca Sabbioni, Francesco Corda, Marcello Restelli | (参考訳) ポリシーに基づくアルゴリズムは、モデルのないRLにおいて最も広く採用されている手法の1つである。
残念なことに、これらの手法は優れた性能を達成するために正確で問題固有のハイパーパラメータチューニングを必要とし、不均一なタスクの一連の達成を求められると苦労する傾向がある。
特に、ステップサイズの選択は、高いパフォーマンスのポリシーを学ぶ能力に決定的な影響を与え、トレーニングプロセスのスピードと安定性に影響を与え、多くの場合、不十分な結果の主要因となる。
本稿では,メタ強化学習のアプローチを用いて,rlにおけるハイパーパラメータ選択問題を解くためにメタmdpと呼ばれる新しい定式化を導入することで,これらの問題に取り組む。
異なるタスクのパフォーマンスの差に結びついた理論的リプシッツを提供した後、提案フレームワークを採用してバッチrlアルゴリズムをトレーニングし、異なるポリシーやタスクに対して最も適切なステップサイズを動的に推奨する。
そこで本研究では,異種環境における適応学習率の選択の利点を示す実験を行った。 Policy-based algorithms are among the most widely adopted techniques in model-free RL, thanks to their strong theoretical groundings and good properties in continuous action spaces. Unfortunately, these methods require precise and problem-specific hyperparameter tuning to achieve good performance, and tend to struggle when asked to accomplish a series of heterogeneous tasks. In particular, the selection of the step size has a crucial impact on their ability to learn a highly performing policy, affecting the speed and the stability of the training process, and often being the main culprit for poor results. In this paper, we tackle these issues with a Meta Reinforcement Learning approach, by introducing a new formulation, known as meta-MDP, that can be used to solve any hyperparameter selection problem in RL with contextual processes. After providing a theoretical Lipschitz bound to the difference of performance in different tasks, we adopt the proposed framework to train a batch RL algorithm to dynamically recommend the most adequate step size for different policies and tasks. In conclusion, we present an experimental campaign to show the advantages of selecting an adaptive learning rate in heterogeneous environments. | 翻訳日:2023-06-14 13:53:17 公開日:2023-06-13 |
# 擬スピン作用素によるメルミンの不等式違反の探索 Probing Mermin's inequalities violations through pseudospin operators ( http://arxiv.org/abs/2306.07739v1 ) ライセンス: Link先を確認 | Philipe De Fabritiis, Itzhak Roditi, Silvio P. Sorella | (参考訳) メルミンの不等式違反は、疑似スピン演算子で構築された2つの異なるベル設定を用いて解析される。
圧縮状態とコヒーレント状態によって定義される絡み合った状態を用いて、マーミン多項式の期待値$m_n$を$n=3$および$n=4$で評価する。
それぞれのケースにおいて、相関子 $\langle M_n \rangle$ を分析し、メルミンの不等式と量子力学によって予測される境界の飽和に繋がるパラメータの集合を同定する。 The violation of Mermin's inequalities is analyzed by making use of two different Bell setups built with pseudospin operators. Employing entangled states defined by means of squeezed and coherent states, the expectation value of Mermin's polynomials $M_n$ is evaluated for $n=3$ and $n=4$. In each case, we analyze the correlator $\langle M_n \rangle$ and identify the set of parameters leading to the violation of Mermin's inequalities and to the saturation of the bound predicted by Quantum Mechanics. | 翻訳日:2023-06-14 13:52:57 公開日:2023-06-13 |
# サイバー物理システムにおけるディープラーニングモデルのロバスト性と一般化性能の比較研究 Robustness and Generalization Performance of Deep Learning Models on Cyber-Physical Systems: A Comparative Study ( http://arxiv.org/abs/2306.07737v1 ) ライセンス: Link先を確認 | Alexander Windmann and Henrik Steude and Oliver Niggemann | (参考訳) 深層学習(DL)モデルは時系列予測に注目が集まっているが、サイバー物理システム(CPS)への応用はこれらの手法の頑健さの欠如によって妨げられている。
そこで本研究では,CPSによる多変量時系列データに基づいて,DLアーキテクチャのロバスト性と一般化性能を評価する。
本研究は, センサ故障やノイズなど, 様々な摂動に対処するモデルの能力に着目し, 全体的な性能への影響を評価する。
さらに,out-of-distribution (ood) サンプルに公開することにより,これらのモデルの一般化と転送学習能力をテストした。
これらは標準的なシステム操作からの逸脱を含み、基盤となる物理システムのコアダイナミクスは保存される。
さらに,追加ノイズや時間ゆがみなど,モデルがいくつかのデータ拡張技術にどのように反応するかをテストした。
CPSデータコンテキストにおけるDLアルゴリズムのロバスト性および一般化性能を評価するための新しいベンチマークとして提案するシミュレーション3タンクシステムを利用する。
その結果,特定のDLモデルアーキテクチャやトレーニング手法は,OODサンプルの処理や様々な摂動に優れた効果を示した。
これらの知見は、現実世界のCPSアプリケーションで信頼性と堅牢なパフォーマンスを提供するDLモデルの開発に重大な影響を及ぼす。 Deep learning (DL) models have seen increased attention for time series forecasting, yet the application on cyber-physical systems (CPS) is hindered by the lacking robustness of these methods. Thus, this study evaluates the robustness and generalization performance of DL architectures on multivariate time series data from CPS. Our investigation focuses on the models' ability to handle a range of perturbations, such as sensor faults and noise, and assesses their impact on overall performance. Furthermore, we test the generalization and transfer learning capabilities of these models by exposing them to out-of-distribution (OOD) samples. These include deviations from standard system operations, while the core dynamics of the underlying physical system are preserved. Additionally, we test how well the models respond to several data augmentation techniques, including added noise and time warping. Our experimental framework utilizes a simulated three-tank system, proposed as a novel benchmark for evaluating the robustness and generalization performance of DL algorithms in CPS data contexts. The findings reveal that certain DL model architectures and training techniques exhibit superior effectiveness in handling OOD samples and various perturbations. These insights have significant implications for the development of DL models that deliver reliable and robust performance in real-world CPS applications. | 翻訳日:2023-06-14 13:52:45 公開日:2023-06-13 |
# ベクトル量子グラフオートエンコーダ Vector-Quantized Graph Auto-Encoder ( http://arxiv.org/abs/2306.07735v1 ) ライセンス: Link先を確認 | Yoann Boget, Magda Gregorova, Alexandros Kalousis | (参考訳) 本稿では,グラフの分布をモデル化する問題に対処する。
本稿では,Vector-Quantized Graph Auto-Encoder (VQ-GAE)を導入する。
グラフニューラルネットワーク(GNN)の置換等価性を利用することで、オートエンコーダはグラフ表現の順序付けの問題を回避する。
我々はgnnの機能を利用してグラフの局所構造を捉え、離散オブジェクトの連続的潜在空間へのマッピングを防ぐためにベクトル量子化を利用する。
さらに、自己回帰モデルを用いることで、潜在表現を通してグラフのグローバル構造を捉えることができる。
グラフ生成に使用する標準データセットのモデルを評価し,最先端と比較した評価基準で優れた性能が得られることを確認した。 In this work, we addresses the problem of modeling distributions of graphs. We introduce the Vector-Quantized Graph Auto-Encoder (VQ-GAE), a permutation-equivariant discrete auto-encoder and designed to model the distribution of graphs. By exploiting the permutation-equivariance of graph neural networks (GNNs), our autoencoder circumvents the problem of the ordering of the graph representation. We leverage the capability of GNNs to capture local structures of graphs while employing vector-quantization to prevent the mapping of discrete objects to a continuous latent space. Furthermore, the use of autoregressive models enables us to capture the global structure of graphs via the latent representation. We evaluate our model on standard datasets used for graph generation and observe that it achieves excellent performance on some of the most salient evaluation metrics compared to the state-of-the-art. | 翻訳日:2023-06-14 13:52:23 公開日:2023-06-13 |
# BeliefPPG:Breief PropagationによるPGG信号からの不確かさを意識した心拍数推定 BeliefPPG: Uncertainty-aware Heart Rate Estimation from PPG signals via Belief Propagation ( http://arxiv.org/abs/2306.07730v1 ) ライセンス: Link先を確認 | Valentin Bieri, Paul Streli, Berken Utku Demirel and Christian Holz | (参考訳) 本稿では,photoplethysmography signal (ppg) から抽出した心拍数推定ベンチマークを用いて,最先端のパフォーマンスを実現する新しい学習ベース手法を提案する。
我々は,隠れマルコフモデルとして表現される離散時間確率過程の文脈における心拍数の進化を考える。
訓練されたニューラルネットワークを介して、所定のppg信号ウィンドウの心拍数値の分布を導出する。
信念伝播を用いて,心拍変動の統計的分布を取り入れ,これらの推定値を時間的文脈で洗練する。
そこで,本研究では,予測の不確かさを有意義かつ適切に推定した心拍数値の範囲を定量化した確率分布を求める。
提案手法は8つの公開データセット上で3つの異なる相互評価実験によりロバスト性を示す。 We present a novel learning-based method that achieves state-of-the-art performance on several heart rate estimation benchmarks extracted from photoplethysmography signals (PPG). We consider the evolution of the heart rate in the context of a discrete-time stochastic process that we represent as a hidden Markov model. We derive a distribution over possible heart rate values for a given PPG signal window through a trained neural network. Using belief propagation, we incorporate the statistical distribution of heart rate changes to refine these estimates in a temporal context. From this, we obtain a quantized probability distribution over the range of possible heart rate values that captures a meaningful and well-calibrated estimate of the inherent predictive uncertainty. We show the robustness of our method on eight public datasets with three different cross-validation experiments. | 翻訳日:2023-06-14 13:52:09 公開日:2023-06-13 |
# トンネル効果を伴わずにゼロケルビンでエネルギー障壁を横切る方法 How to cross an energy barrier at zero Kelvin without tunneling effect ( http://arxiv.org/abs/2306.07729v1 ) ライセンス: Link先を確認 | Seiji Miyashita and Bernard Barbara | (参考訳) 本論文は、希土類元素とその化合物、一軸異方性を持つ単一分子磁石、およびより一般的には離散エネルギー準位を持つ単一または複数の物体からなる他の量子系などのエネルギー障壁を持つ単一または集団スピン$s$を持つ幅広い磁気系を扱う。
現在、ゼロケルビンでのそのような系の磁化の反転は、共鳴において重要な横磁場または横異方性項を持つ量子トンネルを利用する必要がある。
ここでは、他の非常に単純な方法が存在することを示す。
これは、システムの特性(磁気システムのスピンと異方性値)に応じて、光学的またはマイクロ波の周波数の範囲で特定の電磁放射列を適用することによって構成される。
これにより、障壁を越えるラビ型の振動が発生し、2つのエネルギー井戸の間にこれらの振動が広がる。
全ての2s+1状態の混合物と
基本的な特徴に加えて、このアプローチは、現在の複数の量子ビットの使用におけるブレークスルーの可能性のある量子情報の研究の新たな方向を開く。 This paper deals with the broad class of magnetic systems having a single or collective spin $S$ with an energy barrier, such as Rare-Earth elements and their compounds, Single Molecule Magnets with uniaxial anisotropy and more generally any other quantum system made of single or multiple objects with discrete energy levels. Till now, the reversal of the magnetization of such systems at zero Kelvin required to make use of quantum tunneling with a significant transverse field or transverse anisotropy term, at resonance. Here, we show that another very simple method exists. It simply consists in the application of a particular sequence of electromagnetic radiations in the ranges of optical or microwave frequencies, depending on the characteristics of the system (spin and anisotropy values for magnetic systems). This produces oscillations of the Rabi type that pass above the barrier, thus extending these oscillations between the two energy wells. with mixtures of all the 2S+1 states. In addition to its basic character, this approach opens up new directions of research in quantum information with possible breakthroughs in the current use of multiple quantum bits. | 翻訳日:2023-06-14 13:51:58 公開日:2023-06-13 |
# 深層学習画像からのホテルバスルームの自動的・高精度分類 Automatic and Accurate Classification of Hotel Bathrooms from Images with Deep Learning ( http://arxiv.org/abs/2306.07727v1 ) ライセンス: Link先を確認 | Hakan Temiz | (参考訳) ホテルのトイレは顧客満足度において最も重要な場所の一つであり、最も苦情が報告されている。
体験を共有するために、ゲストはホテルを評価、コメントし、肯定的あるいは否定的な評価のイメージを共有します。
客が共有する部屋画像の重要な部分は浴室に関するものである。
ゲストは、コメントに画像がある浴室に対する満足感や不満を証明する傾向がある。
これらの肯定的あるいは否定的なコメントやビジュアルは、見込み客に影響を与える可能性がある。
本研究では, 画像解析により, ホテルの浴室を満足度(良さ), 満足度(悪さ, 汚れ, 欠陥, 誤動作など)と分類するために, 深層学習アルゴリズムの2つの異なるバージョンを考案した。
2つのモデル間の最良の性能は、一連の大規模な実験の結果決定された。
モデルは5つのハイパーパラメータセットと1万枚以上のバスルーム画像を含むデータセットを組み合わせた144種類の組み合わせで訓練された。
この調査では,HotelBathデータセットもコミュニティと共有された。
128ピクセル、256ピクセル、512ピクセル、1024ピクセルの4つの異なる画像サイズが考慮された。
モデルの分類性能はいくつかの指標を用いて測定した。
両方のアルゴリズムはハイパーパラメータの組み合わせでも非常に魅力的な性能を示した。
浴室の画像は非常に高い精度で分類できる。
suhはトップアルゴリズムが92.4%の精度を達成し、aucスコアは0.967であることを示した。
さらに、他の指標も成功を証明した。 Hotel bathrooms are one of the most important places in terms of customer satisfaction, and where the most complaints are reported. To share their experiences, guests rate hotels, comment, and share images of their positive or negative ratings. An important part of the room images shared by guests is related to bathrooms. Guests tend to prove their satisfaction or dissatisfaction with the bathrooms with images in their comments. These Positive or negative comments and visuals potentially affect the prospective guests. In this study, two different versions of a deep learning algorithm were designed to classify hotel bathrooms as satisfactory (good) or unsatisfactory (bad, when any defects such as dirtiness, deficiencies, malfunctions were present) by analyzing images. The best-performer between the two models was determined as a result of a series of extensive experimental studies. The models were trained for each of 144 combinations of 5 hyper-parameter sets with a data set containing more than 11 thousand bathroom images, specially created for this study. The "HotelBath" data set was shared also with the community with this study. Four different image sizes were taken into consideration: 128, 256, 512 and 1024 pixels in both directions. The classification performances of the models were measured with several metrics. Both algorithms showed very attractive performances even with many combinations of hyper-parameters. They can classify bathroom images with very high accuracy. Suh that the top algorithm achieved an accuracy of 92.4% and an AUC (area under the curve) score of 0.967. In addition, other metrics also proved the success... | 翻訳日:2023-06-14 13:51:40 公開日:2023-06-13 |
# 画像変換によるデータ強化がディープネットワークの性能に及ぼす影響 Effects of Data Enrichment with Image Transformations on the Performance of Deep Networks ( http://arxiv.org/abs/2306.07724v1 ) ライセンス: Link先を確認 | Hakan Temiz | (参考訳) イメージは、常に一定の標準フォーマットと方向で現れるとは期待できない。
方向やフォーマットの予期せぬバリエーションを考慮するために、ディープネットワークをトレーニングする必要があります。
この目的のために、トレーニングデータは異なる条件を含むように強化されるべきである。
本研究では,超解像問題における深部ネットワークの性能に及ぼすデータ富化の影響を実験的に検討した。
エンリッチメント手順には、合計6つの基本画像変換が使用された。
実験では、この6つの画像変換プロセスによって強化されたILSVRC2012データセットの変種を用いて、2つのディープネットワークモデルを訓練した。
単一の画像変換を考えると、180度回転したデータが最良の結果をもたらすことが観察されている。
最も失敗した結果は、フリップアップダウンプロセスによって生成されたリッチなデータに基づいてモデルが訓練された時に得られた。
モデルは、すべてのトランスフォーメーションの混合でトレーニングされた時に最高に評価された。 Images cannot always be expected to come in a certain standard format and orientation. Deep networks need to be trained to take into account unexpected variations in orientation or format. For this purpose, training data should be enriched to include different conditions. In this study, the effects of data enrichment on the performance of deep networks in the super resolution problem were investigated experimentally. A total of six basic image transformations were used for the enrichment procedures. In the experiments, two deep network models were trained with variants of the ILSVRC2012 dataset enriched by these six image transformation processes. Considering a single image transformation, it has been observed that the data enriched with 180 degree rotation provides the best results. The most unsuccessful result was obtained when the models were trained on the enriched data generated by the flip upside down process. Models scored highest when trained with a mix of all transformations. | 翻訳日:2023-06-14 13:51:16 公開日:2023-06-13 |
# 対人ロバスト学習の理論的基礎 Theoretical Foundations of Adversarially Robust Learning ( http://arxiv.org/abs/2306.07723v1 ) ライセンス: Link先を確認 | Omar Montasser | (参考訳) 異常な進歩にもかかわらず、現在の機械学習システムは、悪意のある例に対して脆弱であることが示されている。
逆例に頑健な予測器を学べるか?
どうやって?
機械学習におけるこの現代的課題には、多くの経験的関心があり、この論文では、理論的観点からそれに取り組む。
本論文では,敵の例に対してどのようなロバスト性特性を保証し,アルゴリズムによる保証の方法についての理解を深めたい。
実証的リスク最小化や一様収束といった従来のアプローチや原則を越えて、(1)堅牢な学習における新たな実践的課題の側面を捉えた問題定式化の導入、(2)堅牢性を保証するための新たな学習アルゴリズムの設計、(3)堅牢な学習の複雑さとアルゴリズムの性能に関する基本的な制限を特徴付ける。 Despite extraordinary progress, current machine learning systems have been shown to be brittle against adversarial examples: seemingly innocuous but carefully crafted perturbations of test examples that cause machine learning predictors to misclassify. Can we learn predictors robust to adversarial examples? and how? There has been much empirical interest in this contemporary challenge in machine learning, and in this thesis, we address it from a theoretical perspective. In this thesis, we explore what robustness properties can we hope to guarantee against adversarial examples and develop an understanding of how to algorithmically guarantee them. We illustrate the need to go beyond traditional approaches and principles such as empirical risk minimization and uniform convergence, and make contributions that can be categorized as follows: (1) introducing problem formulations capturing aspects of emerging practical challenges in robust learning, (2) designing new learning algorithms with provable robustness guarantees, and (3) characterizing the complexity of robust learning and fundamental limitations on the performance of any algorithm. | 翻訳日:2023-06-14 13:51:05 公開日:2023-06-13 |
# ボゴリューボフ変換の古典性と場の縮小状態による動的カシミール効果 Classicality of the Bogoliubov transformations and the dynamical Casimir effect through the reduced state of the field ( http://arxiv.org/abs/2306.07762v1 ) ライセンス: Link先を確認 | Tomasz Linowski, {\L}ukasz Rudnicki | (参考訳) ボゴリューボフ変換が半古典的と見なされる条件を導出するために、場形式 [entropy 21 705 (2019)] の還元状態を用いる。
この結果は移動媒質(Phys. Rev. A 78, 042109 (2008))における動的カシミール効果に適用し、古典的および量子的特徴について議論する。 We use the reduced state of the field formalism [Entropy 21, 705 (2019)] to derive conditions under which a Bogoliubov transformation can be considered semi-classical. We apply this result to the dynamical Casimir effect in a moving medium [Phys. Rev. A 78, 042109 (2008)], discussing its classical and quantum features. | 翻訳日:2023-06-14 13:43:03 公開日:2023-06-13 |
# マルチフィデリティマルチアーマッドバンドの再検討 Multi-Fidelity Multi-Armed Bandits Revisited ( http://arxiv.org/abs/2306.07761v1 ) ライセンス: Link先を確認 | Xuchuang Wang, Qingyun Wu, Wei Chen, John C.S. Lui | (参考訳) 我々は,MF-MAB(Multi-fidelity multi-armed bandit)問題の拡張について検討した。
MF-MABは、各アームを異なるコスト(忠実さ)と観察精度で引っ張ることができる。
最善の腕識別を固定信頼度(bai)と後悔の最小化目標の両方で検討した。
BAIについて
(a)コストの複雑さが低いこと
b) 2つの代替忠実度選択手順をもつアルゴリズムの枠組み、及び
(c)双方の手続の費用の複雑さが上限を超えること。
MF-MABの両コスト複雑性境界から、古典的(単一忠実性)MABの標準サンプル複雑性境界を復元することができる。
For regret minimization of MF-MAB, we propose a new regret definition, prove its problem-independent regret lower bound $\Omega(K^{1/3}\Lambda^{2/3})$ and problem-dependent lower bound $\Omega(K\log \Lambda)$, where $K$ is the number of arms and $\Lambda$ is the decision budget in terms of cost, and devise an elimination-based algorithm whose worst-cost regret upper bound matches its corresponding lower bound up to some logarithmic terms and, whose problem-dependent bound matches its corresponding lower bound in terms of $\Lambda$. We study the multi-fidelity multi-armed bandit (MF-MAB), an extension of the canonical multi-armed bandit (MAB) problem. MF-MAB allows each arm to be pulled with different costs (fidelities) and observation accuracy. We study both the best arm identification with fixed confidence (BAI) and the regret minimization objectives. For BAI, we present (a) a cost complexity lower bound, (b) an algorithmic framework with two alternative fidelity selection procedures, and (c) both procedures' cost complexity upper bounds. From both cost complexity bounds of MF-MAB, one can recover the standard sample complexity bounds of the classic (single-fidelity) MAB. For regret minimization of MF-MAB, we propose a new regret definition, prove its problem-independent regret lower bound $\Omega(K^{1/3}\Lambda^{2/3})$ and problem-dependent lower bound $\Omega(K\log \Lambda)$, where $K$ is the number of arms and $\Lambda$ is the decision budget in terms of cost, and devise an elimination-based algorithm whose worst-cost regret upper bound matches its corresponding lower bound up to some logarithmic terms and, whose problem-dependent bound matches its corresponding lower bound in terms of $\Lambda$. | 翻訳日:2023-06-14 13:42:54 公開日:2023-06-13 |
# 生成グラフ検出 Generated Graph Detection ( http://arxiv.org/abs/2306.07758v1 ) ライセンス: Link先を確認 | Yihan Ma, Zhikun Zhang, Ning Yu, Xinlei He, Michael Backes, Yun Shen, Yang Zhang | (参考訳) グラフ生成モデルはデータ分布近似やデータ拡張にますます効果的になる。
悪質な悪用や誤報に関する世間の懸念を呼び起こしてきたが、deepfakeのビジュアルメディアや聴覚メディアが社会に与えてきたものと同じだ。
したがって、生成されたグラフの流行を規制することが不可欠である。
そこで本研究では,生成グラフと実グラフを区別するために,生成グラフ検出問題の定式化を行う。
4つの分類シナリオにおいて、洗練されたモデルの集合とその性能を体系的に調査する最初のフレームワークを提案する。
テスト中の各シナリオは、実世界の設定に近づき、徐々に分類器に挑戦するように、可視と見えないデータセット/ジェネレータを切り替える。
大規模な実験は、全てのモデルが生成されたグラフ検出に適しており、特定のモデルが特定のシナリオで有利であることを示す。
分類器の検証された一般化と、未確認のデータセット/ジェネレータへの消極性から、我々は、生成したグラフの誤用を抑えるために、我々のソリューションが十分な期間持続できるという安全な結論を導いた。 Graph generative models become increasingly effective for data distribution approximation and data augmentation. While they have aroused public concerns about their malicious misuses or misinformation broadcasts, just as what Deepfake visual and auditory media has been delivering to society. Hence it is essential to regulate the prevalence of generated graphs. To tackle this problem, we pioneer the formulation of the generated graph detection problem to distinguish generated graphs from real ones. We propose the first framework to systematically investigate a set of sophisticated models and their performance in four classification scenarios. Each scenario switches between seen and unseen datasets/generators during testing to get closer to real-world settings and progressively challenge the classifiers. Extensive experiments evidence that all the models are qualified for generated graph detection, with specific models having advantages in specific scenarios. Resulting from the validated generality and oblivion of the classifiers to unseen datasets/generators, we draw a safe conclusion that our solution can sustain for a decent while to curb generated graph misuses. | 翻訳日:2023-06-14 13:42:34 公開日:2023-06-13 |
# すべての純粋な二分項絡み合った状態は、各パーティに1つの測定設定だけで半自己検査できる All pure bipartite entangled states can be semi-self-tested with only one measurement setting on each party ( http://arxiv.org/abs/2306.07755v1 ) ライセンス: Link先を確認 | Lijinzhi Lin and Zhenyu Chen and Xiaodie Lin and Zhaohui Wei | (参考訳) すなわち、そのような状態は、まずは適切な局所的な量子測定によってこの状態の両方のサブシステムを測定し、その後、測定選択と結果との相関が特定の条件を満たすことを検証することによって、完全に証明できる。
そのようなプロトコルにおいて、重要な特徴は、量子測定が信頼できない場合であっても、量子非局所性が重要であり中心的役割を果たす場合においても、結論は依然として信頼できるものであり、これは各当事者が望ましい相関関係を生み出すために少なくとも2つの異なる量子測定を行う必要があることを意味する。
ここでは、基礎となるヒルベルト空間次元が事前に知られているとき、任意の$d\times d$ bipartite純状態は、各測度がわずか3d$の結果しか得られない1つの測度によって生成される特定の相関によって完全に(局所ユニタリ変換まで)証明できることを示す。
特に、我々のプロトコルは量子非局所性を一切含まない。
私たちの結果は、量子ラボで二成分純粋な量子状態を証明する際に、非常に便利であると信じています。 It has been known that all bipartite pure quantum states can be self-tested, i.e., any such state can be certified completely by initially measuring both subsystems of this state by proper local quantum measurements and subsequently verifying that the correlation between the measurement choices and the outcomes satisfies a specific condition. In such a protocol, a key feature is that the conclusion can still be reliable even if involved quantum measurements are untrusted, where quantum nonlocality is crucial and plays a central role, and this means that each party has to conduct at least two different quantum measurements to produce a desirable correlation. Here, we prove that when the underlying Hilbert space dimension is known beforehand, an arbitrary $d\times d$ bipartite pure state can be certified completely (up to local unitary transformations) by a certain correlation generated by a single measurement setting on each party, where each measurement yields only $3d$ outcomes. Notably, our protocols do not involve any quantum nonlocality. We believe that our result may provide us a remarkable convenience when certifying bipartite pure quantum states in quantum labs. | 翻訳日:2023-06-14 13:42:14 公開日:2023-06-13 |
# 非許可な主題駆動画像合成に対する生成的透かし Generative Watermarking Against Unauthorized Subject-Driven Image Synthesis ( http://arxiv.org/abs/2306.07754v1 ) ライセンス: Link先を確認 | Yihan Ma, Zhengyu Zhao, Xinlei He, Zheng Li, Michael Backes, Yang Zhang | (参考訳) 大規模テキスト対画像モデルは高品質画像の合成において顕著な性能を示している。
特に、被写体駆動モデルは、その被写体から数枚の画像で一般的なテキスト・ツー・イメージモデルを微調整することにより、特定の被写体、例えば人間の顔や芸術的スタイルのイメージ合成をパーソナライズすることができる。
それでも、被写体駆動画像合成の誤用は被写体所有者の権限を侵害する可能性がある。
例えば、悪意のあるユーザーは、特定の芸術的スタイルを模倣したり、許可なく偽の顔画像を作成するために、主題駆動合成を使うことがある。
このような悪用から被写体を保護するために、近年の試みは、被写体駆動画像合成を無差別に妨害する敵の例に頼っている。
しかし、これは本質的に、保護された画像に基づく主観的合成の良心的な使用を妨げている。
本稿では, 汎用的な合成のために保護画像の有用性を犠牲にすることなく, 異なる角度から保護を目指す。
具体的には,透かし生成器と検出器を共同で学習する新しい透かしシステムであるGenWatermarkを提案する。
特に, 被写体駆動合成を生き残るために, 特定の被写体に対して, 検出器を合成画像に微調整することにより, 生成過程をgenwatermarkの学習に組み込む。
この操作は、透かし検出精度を大きく向上させるとともに、個々の被験者に対する透かしの特異性を保証する。
広範囲な実験により、genwatermarkの有効性が検証され、特に未知のモデルとテキストプロンプト(74%)と部分的なデータウォーターマーキング(80%は1/4のウォーターマーキング)を持つ実用的なシナリオにおいて検証される。
我々はまた、GenWatermarkが合成品質を著しく低下させる2つの潜在的な対策に対して堅牢性を示す。 Large text-to-image models have shown remarkable performance in synthesizing high-quality images. In particular, the subject-driven model makes it possible to personalize the image synthesis for a specific subject, e.g., a human face or an artistic style, by fine-tuning the generic text-to-image model with a few images from that subject. Nevertheless, misuse of subject-driven image synthesis may violate the authority of subject owners. For example, malicious users may use subject-driven synthesis to mimic specific artistic styles or to create fake facial images without authorization. To protect subject owners against such misuse, recent attempts have commonly relied on adversarial examples to indiscriminately disrupt subject-driven image synthesis. However, this essentially prevents any benign use of subject-driven synthesis based on protected images. In this paper, we take a different angle and aim at protection without sacrificing the utility of protected images for general synthesis purposes. Specifically, we propose GenWatermark, a novel watermark system based on jointly learning a watermark generator and a detector. In particular, to help the watermark survive the subject-driven synthesis, we incorporate the synthesis process in learning GenWatermark by fine-tuning the detector with synthesized images for a specific subject. This operation is shown to largely improve the watermark detection accuracy and also ensure the uniqueness of the watermark for each individual subject. Extensive experiments validate the effectiveness of GenWatermark, especially in practical scenarios with unknown models and text prompts (74% Acc.), as well as partial data watermarking (80% Acc. for 1/4 watermarking). We also demonstrate the robustness of GenWatermark to two potential countermeasures that substantially degrade the synthesis quality. | 翻訳日:2023-06-14 13:41:52 公開日:2023-06-13 |
# 合成次元を用いたキラルエッジ状態のハルデンモデル The Haldane Model with Chiral Edge States using a Synthetic Dimension ( http://arxiv.org/abs/2306.07752v1 ) ライセンス: Link先を確認 | Joel Priestley, Gerard Valent\'i-Rojas, and Patrik \"Ohberg | (参考訳) 我々は, トポロジ的位相の出現に関して, ハニカム格子構造を利用する従来のハルダンモデルと, レンガ壁格子幾何学に埋め込まれたハルダンモデルとの相違が不適切であることを明確に示す。
その後、原子の内部自由度を合成次元として利用することで、ハルダンモデルを実現するための提案がなされる。
これにより、超微細多様体によって提供される硬境界によるキラルエッジ状態の調査に便利なプラットフォームとなる。
システム内の相互作用の影響について,カーソリーコメントを行う。 We explicitly show that the differences, with respect to the appearance of topological phases, between the traditional Haldane model, which utilises a honeycomb lattice structure, to that of the Haldane model imbued onto a brick-wall lattice geometry, are inconsequential. A proposal is then put forward to realise the Haldane model by exploiting the internal degrees of freedom of atoms as a synthetic dimension. This leads to a convenient platform for the investigation of chiral edge states due to the hard boundaries provided by the hyperfine manifold. We make some cursory comments on the effects of interactions in the system. | 翻訳日:2023-06-14 13:41:21 公開日:2023-06-13 |
# 結合振動子の自由エネルギー:ラムシフトとファンデルワールス相互作用 Free Energy of Coupled Oscillators: Lamb Shifts and van der Waals Interactions ( http://arxiv.org/abs/2306.07750v1 ) ライセンス: Link先を確認 | Peter W. Milonni | (参考訳) 電磁放射と熱平衡における振動子のヘルムホルツ自由エネルギーは、パウリ・ヘルマン=ファインマンの定理から得られ、ラムシフトとファンデルワールス相互作用のいくつかの側面に適用される。 The Helmholtz free energy of oscillators in thermal equilibrium with electromagnetic radiation is obtained from the Pauli-Hellmann-Feynman theorem and applied to some aspects of Lamb shifts and van der Waals interactions. | 翻訳日:2023-06-14 13:41:11 公開日:2023-06-13 |
# 制限付きマルコフポテンシャルゲームにおけるナッシュポリシーの学習 Provably Learning Nash Policies in Constrained Markov Potential Games ( http://arxiv.org/abs/2306.07749v1 ) ライセンス: Link先を確認 | Pragnya Alatur, Giorgia Ramponi, Niao He, Andreas Krause | (参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
多くの現実世界のインスタンスでは、エージェントは目的を最適化するだけでなく、安全な行動を確保する。
例えば、トラフィックルーティングでは、各車(エージェント)は衝突(安全)を避けながら、目的地(目的)に素早く到達することを目指している。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な形式である。
本稿では,CMG の重要なクラスである Constrained Markov potential Games (CMPGs) を紹介し,研究する。
まず,制約付き最適化によりCMPGのNashポリシーを見いだせることを示す。
誘惑的なアプローチの1つは、ラグランジアンベースの原始双対法によって解くことである。
示すように、シングルエージェント設定とは対照的に、CMPGは強い双対性を満足せず、そのようなアプローチは適用不可能であり、潜在的に安全ではない。
CMPG問題の解法として,表層有限水平CMPGにおけるナッシュポリシーに確実に収束するCMPGのコーディネート・アセンション(CA-CMPG)を提案する。
さらに、未知のCMPGでナッシュポリシーを学習するための最初のサンプル複雑性境界を提供し、さらなる仮定で安全な探索を保証する。 Multi-agent reinforcement learning (MARL) addresses sequential decision-making problems with multiple agents, where each agent optimizes its own objective. In many real-world instances, the agents may not only want to optimize their objectives, but also ensure safe behavior. For example, in traffic routing, each car (agent) aims to reach its destination quickly (objective) while avoiding collisions (safety). Constrained Markov Games (CMGs) are a natural formalism for safe MARL problems, though generally intractable. In this work, we introduce and study Constrained Markov Potential Games (CMPGs), an important class of CMGs. We first show that a Nash policy for CMPGs can be found via constrained optimization. One tempting approach is to solve it by Lagrangian-based primal-dual methods. As we show, in contrast to the single-agent setting, however, CMPGs do not satisfy strong duality, rendering such approaches inapplicable and potentially unsafe. To solve the CMPG problem, we propose our algorithm Coordinate-Ascent for CMPGs (CA-CMPG), which provably converges to a Nash policy in tabular, finite-horizon CMPGs. Furthermore, we provide the first sample complexity bounds for learning Nash policies in unknown CMPGs, and, which under additional assumptions, guarantee safe exploration. | 翻訳日:2023-06-14 13:41:05 公開日:2023-06-13 |
# 順序最適後悔境界を用いたカーネル化強化学習 Kernelized Reinforcement Learning with Order Optimal Regret Bounds ( http://arxiv.org/abs/2306.07745v1 ) ライセンス: Link先を確認 | Sattar Vakili, Julia Olkhovskaya | (参考訳) 強化学習(rl)は、複雑なモデルと大きな状態動作空間を持つ様々な実世界での経験的成功を示している。
しかし、既存の分析結果は通常、少数の状態アクションや線形モデル化された状態アクション値関数のような単純なモデルの設定に焦点を当てる。
より一般的な値関数を持つ大きな状態作用空間を効率的に扱うrlポリシーを導出するために、近年、カーネルリッジ回帰を用いた非線形関数近似が検討されている。
状態作用値関数がRKHSで表される場合、最小二乗値反復の楽観的な修正である$\pi$-KRVIを提案する。
一般設定で、最初の順序最適後悔保証を証明します。
以上の結果から,最先端技術におけるエピソード改善回数に有意な多項式がみられた。
特に、非常に非滑らかなカーネル(Neural Tangent kernel や Mat\'ern kernel など)では、既存の結果は自明な(エピソード数で超直線的な)後悔境界に繋がる。
我々は、後悔に対する下限が知られているmat\'ern核の場合、順序最適である部分線形の後悔の束縛を示す。 Reinforcement learning (RL) has shown empirical success in various real world settings with complex models and large state-action spaces. The existing analytical results, however, typically focus on settings with a small number of state-actions or simple models such as linearly modeled state-action value functions. To derive RL policies that efficiently handle large state-action spaces with more general value functions, some recent works have considered nonlinear function approximation using kernel ridge regression. We propose $\pi$-KRVI, an optimistic modification of least-squares value iteration, when the state-action value function is represented by an RKHS. We prove the first order-optimal regret guarantees under a general setting. Our results show a significant polynomial in the number of episodes improvement over the state of the art. In particular, with highly non-smooth kernels (such as Neural Tangent kernel or some Mat\'ern kernels) the existing results lead to trivial (superlinear in the number of episodes) regret bounds. We show a sublinear regret bound that is order optimal in the case of Mat\'ern kernels where a lower bound on regret is known. | 翻訳日:2023-06-14 13:40:40 公開日:2023-06-13 |
# 複数の言語に対するコントラスト学習に基づく歌詞アライメント Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages ( http://arxiv.org/abs/2306.07744v1 ) ライセンス: Link先を確認 | Simon Durand, Daniel Stoller, Sebastian Ewert | (参考訳) 近年、歌詞のアライメントが注目を浴びている。
最先端システムは、確立された音声認識ツールキットを再使用するか、コネクショニスト時間分類(CTC)の損失を含むエンドツーエンドのソリューションを設計する。
ツールキットはその複雑さで知られており、ctcシステムはアライメントの精度を制限できる転写のために設計されたロスを使用している。
本稿では、音声とテキストのドメインをリンクするクロスモーダルな埋め込みを導出するコントラスト学習手法を用いる。
これにより,エンド・ツー・エンドの訓練が簡単で,弱い注釈付きトレーニングデータを利用して,強力なテキストモデルを共同学習し,アライメントに合わせた新しいシステムが得られる。
このシステムは、標準ジャメンドデータセットの0.2秒以下の平均絶対誤差を初めて生成するだけでなく、英語のデータのみをトレーニングしても、他の言語にも堅牢である。
最後に、JamendoLyrics Multi-Langデータセットのワードレベルアライメントをリリースする。 Lyrics alignment gained considerable attention in recent years. State-of-the-art systems either re-use established speech recognition toolkits, or design end-to-end solutions involving a Connectionist Temporal Classification (CTC) loss. However, both approaches suffer from specific weaknesses: toolkits are known for their complexity, and CTC systems use a loss designed for transcription which can limit alignment accuracy. In this paper, we use instead a contrastive learning procedure that derives cross-modal embeddings linking the audio and text domains. This way, we obtain a novel system that is simple to train end-to-end, can make use of weakly annotated training data, jointly learns a powerful text model, and is tailored to alignment. The system is not only the first to yield an average absolute error below 0.2 seconds on the standard Jamendo dataset but it is also robust to other languages, even when trained on English data only. Finally, we release word-level alignments for the JamendoLyrics Multi-Lang dataset. | 翻訳日:2023-06-14 13:40:19 公開日:2023-06-13 |
# トップクォークペア生産における量子絡み合い Quantum Entanglement in Top Quark Pair Production ( http://arxiv.org/abs/2306.07788v1 ) ライセンス: Link先を確認 | Mira Varma, O.K. Baker | (参考訳) 標準模型で最も大きな粒子であるトップクォークは、ハドロン前に崩壊するのでかなりの注目を集めている。
これにより物理学者は、その性質を直接調査するユニークな機会が得られる。
この手紙では、G. Iskander, J. Pan, M. Tyler, C. Weber, O. K. Bakerの業績を拡大し、最も質量の大きい素粒子であっても、電弱相互作用と電磁相互作用の両方で観測されるエンタングルメントの同じ現象が現れることを示した。
2つのトップクォークに衝突する陽子から生じる熱成分は、2つの陽子波動関数内の絡み合いから生じる。
絡み合いの存在は、横運動量分布における熱散乱成分と硬散乱成分の共存を意味する。
我々は、ATLASとCMSの結果を用いて、データが期待される振る舞いを示すことを示す。 Top quarks, the most massive particles in the standard model, attract considerable attention since they decay before hadronizing. This presents physicists with a unique opportunity to directly investigate their properties. In this letter, we expand upon the work of G. Iskander, J. Pan, M. Tyler, C. Weber and O. K. Baker to demonstrate that even with the most massive fundamental particle, we see the same manifestation of entanglement observed in both electroweak and electromagnetic interactions. We propose that the thermal component resulting from protons colliding into two top quarks emerges from entanglement within the two-proton wave function. The presence of entanglement implies the coexistence of both thermal and hard scattering components in the transverse momentum distribution. We use published ATLAS and CMS results to show that the data exhibits the expected behavior. | 翻訳日:2023-06-14 13:35:03 公開日:2023-06-13 |
# 複数の励起を持つNレベル原子の量子コヒーレントフィードバック制御 Quantum coherent feedback control of an N-level atom with multiple excitations ( http://arxiv.org/abs/2306.07787v1 ) ライセンス: Link先を確認 | Haijin Ding, Guofeng Zhang | (参考訳) 本研究の目的は,n$レベル原子がキャビティと結合し,キャビティが2つの半透明ミラーを介して1つまたは複数の平行導波路と結合するというネットワークに基づくコヒーレントフィードバック制御ダイナミクスの研究である。
最初に原子が最高エネルギーレベルで励起されると、自発的放出によって複数の光子をキャビティに放出し、キャビティ内の光子は導波路に伝達され、フィードバックチャネルを介してキャビティ量子電気力学(キャビティqed)系と再相互作用する。
キャビティが単一導波路と結合すると、導波路内の多光子状態の発生は、フィードバックループ長によって決定されるフィードバック遅延を伴う線形制御系の指数安定性によって特徴づけられる。
フィードバックループ長を調整することで、導波路にはゼロまたは複数の光子が存在する。
また、キャビティqed系が複数の並列導波路と結合すると、放出された光子は異なる導波路の間で振動し、この過程は導波路間のフィードバックループ長と結合強度に影響される。 The purpose of this paper is to study the coherent feedback control dynamics based on the network that an $N$-level atom is coupled with a cavity and the cavity is coupled with a single or multiple parallel waveguides through two semitransparent mirrors. When initially the atom is excited at the highest energy level, it can emit multiple photons into the cavity via the spontaneous emission, and the photons in the cavity can be transmitted into the waveguide and then re-interact with the cavity quantum electrodynamics (cavity-QED) system through the feedback channel. When the cavity is coupled with a single waveguide, the generation of multi-photon states in the waveguide can be characterized by the exponential stability of the linear control system with feedback delays determined by the feedback loop length. By tuning the feedback loop length, there can be zero or multiple photons in the waveguide. Besides, when the cavity-QED system is coupled with multiple parallel waveguides, the emitted photons oscillate among different waveguides and this process is influenced by the feedback loop length and coupling strengths among waveguides. | 翻訳日:2023-06-14 13:34:48 公開日:2023-06-13 |
# 顧客レビューから洞察を効率的に抽出するためのクラウドベースの機械学習パイプライン A Cloud-based Machine Learning Pipeline for the Efficient Extraction of Insights from Customer Reviews ( http://arxiv.org/abs/2306.07786v1 ) ライセンス: Link先を確認 | Robert Lakatos, Gergo Bogacsovics, Balazs Harangi, Istvan Lakatos, Attila Tiba, Janos Toth, Marianna Szabo, Andras Hajdu | (参考訳) 自然言語処理の効率は、機械学習モデル、特にニューラルネットワークベースのソリューションの出現によって劇的に向上した。
しかしながら、特定のドメインを考慮する場合、いくつかのタスクはまだ難しい。
本稿では,パイプラインに統合された機械学習手法を用いて,顧客レビューから洞察を抽出するクラウドシステムを提案する。
トピックモデリングには、自然言語処理、ベクトル埋め込みに基づくキーワード抽出、クラスタリング用に設計されたトランスフォーマーベースニューラルネットワークを用いる。
提案モデルの要素は,効率的な情報抽出,抽出した情報のトピックモデリング,ユーザニーズといった要件を満たすために,さらに統合され,さらに発展してきた。
さらに,本タスクの既存のトピックモデリングやキーワード抽出ソリューションよりも優れた結果が得られる。
提案手法は,ベンチマークのために公開されているデータセットを用いて,他の最先端手法と比較して検証・比較する。 The efficiency of natural language processing has improved dramatically with the advent of machine learning models, particularly neural network-based solutions. However, some tasks are still challenging, especially when considering specific domains. In this paper, we present a cloud-based system that can extract insights from customer reviews using machine learning methods integrated into a pipeline. For topic modeling, our composite model uses transformer-based neural networks designed for natural language processing, vector embedding-based keyword extraction, and clustering. The elements of our model have been integrated and further developed to meet better the requirements of efficient information extraction, topic modeling of the extracted information, and user needs. Furthermore, our system can achieve better results than this task's existing topic modeling and keyword extraction solutions. Our approach is validated and compared with other state-of-the-art methods using publicly available datasets for benchmarking. | 翻訳日:2023-06-14 13:34:27 公開日:2023-06-13 |
# 構成同変表現学習 Compositionally Equivariant Representation Learning ( http://arxiv.org/abs/2306.07783v1 ) ライセンス: Link先を確認 | Xiao Liu, Pedro Sanchez, Spyridon Thermos, Alison Q. O'Neil and Sotirios A. Tsaftaris | (参考訳) ディープラーニングモデルは、効果的に訓練するために十分な監督(ラベル付きデータ)を必要とすることが多い。
対照的に、ヒトはMRIやCTスキャンのような医療画像の重要な解剖学を、最小限のガイダンスで素早く学べる。
この認識機能は、異なる医療施設の新しい画像や、異なる設定の新しいタスクに容易に一般化する。
この迅速で汎用的な学習能力は、現在の医学モデルではよく表現されていない人間の脳における画像パターンの構成構造によるものである。
本稿では,より解釈可能で一般化可能な医用画像分割表現の学習における構成性の利用について検討する。
全体として、医用画像を生成するために使用される生成因子は、各因子が構成的(例えば、ヒト解剖学の構造に対応する)であり、タスクと等価である構成的等式性を満たすことが提案される。
したがって、基底真理因子をよく近似するよい表現は合成同値である必要がある。
構成表現を学習可能なvon-Mises-Fisher(vMF)カーネルでモデル化することにより、異なる設計と学習バイアスを用いて、Un-, weakly, semi-supervised settingsの下でより構成的に同変であるように表現を強制する方法について検討する。
その結果,本手法は半教師付き領域一般化医療画像セグメンテーションのタスクにおいて,いくつかの強いベースライン上で最高の性能を達成できた。
コードはhttps://github.com/vios-sで公開される。 Deep learning models often need sufficient supervision (i.e. labelled data) in order to be trained effectively. By contrast, humans can swiftly learn to identify important anatomy in medical images like MRI and CT scans, with minimal guidance. This recognition capability easily generalises to new images from different medical facilities and to new tasks in different settings. This rapid and generalisable learning ability is largely due to the compositional structure of image patterns in the human brain, which are not well represented in current medical models. In this paper, we study the utilisation of compositionality in learning more interpretable and generalisable representations for medical image segmentation. Overall, we propose that the underlying generative factors that are used to generate the medical images satisfy compositional equivariance property, where each factor is compositional (e.g. corresponds to the structures in human anatomy) and also equivariant to the task. Hence, a good representation that approximates well the ground truth factor has to be compositionally equivariant. By modelling the compositional representations with learnable von-Mises-Fisher (vMF) kernels, we explore how different design and learning biases can be used to enforce the representations to be more compositionally equivariant under un-, weakly-, and semi-supervised settings. Extensive results show that our methods achieve the best performance over several strong baselines on the task of semi-supervised domain-generalised medical image segmentation. Code will be made publicly available upon acceptance at https://github.com/vios-s. | 翻訳日:2023-06-14 13:34:13 公開日:2023-06-13 |
# iPDP:動的モデリングシナリオにおける部分依存プロットについて iPDP: On Partial Dependence Plots in Dynamic Modeling Scenarios ( http://arxiv.org/abs/2306.07775v1 ) ライセンス: Link先を確認 | Maximilian Muschalik, Fabian Fumagalli, Rohit Jagtani, Barbara Hammer, Eyke H\"ullermeier | (参考訳) ブラックボックス機械学習モデルを理解するために、機能依存を調査するよく確立された部分依存プロット(PDP)のようなポストホックな説明技法が、説明可能な人工知能(XAI)に使用される。
多くの現実世界のアプリケーションは、時間とともに常に適応し、基礎となるディストリビューションの変化に反応する動的なモデルを必要としていますが、XAIは、モデルがバッチモードでトレーニングされ、変化しない静的学習環境を主に検討しています。
そこで本研究では,非定常学習環境における時間依存的特徴効果を抽出するために,pdp上で拡張するインクリメンタルpdp(ipdp)と呼ばれる新しいモデル非依存xaiフレームワークを提案する。
我々はipdpを形式的に解析し,実概念と仮想概念のドリフトに適切に反応するpdpの時間依存型を近似することを示す。
iPDPの時間感度は、静的学習環境におけるiPDPの分散および近似誤差と直接対応する単一の平滑化パラメータによって制御される。
ドリフト検出の例を示し,実世界および合成データセットおよびストリームに関する複数の実験を行うことにより,iPDPの有効性を示す。 Post-hoc explanation techniques such as the well-established partial dependence plot (PDP), which investigates feature dependencies, are used in explainable artificial intelligence (XAI) to understand black-box machine learning models. While many real-world applications require dynamic models that constantly adapt over time and react to changes in the underlying distribution, XAI, so far, has primarily considered static learning environments, where models are trained in a batch mode and remain unchanged. We thus propose a novel model-agnostic XAI framework called incremental PDP (iPDP) that extends on the PDP to extract time-dependent feature effects in non-stationary learning environments. We formally analyze iPDP and show that it approximates a time-dependent variant of the PDP that properly reacts to real and virtual concept drift. The time-sensitivity of iPDP is controlled by a single smoothing parameter, which directly corresponds to the variance and the approximation error of iPDP in a static learning environment. We illustrate the efficacy of iPDP by showcasing an example application for drift detection and conducting multiple experiments on real-world and synthetic data sets and streams. | 翻訳日:2023-06-14 13:33:47 公開日:2023-06-13 |
# ランク縮小カルマンフィルタ : 高次元における近似動的低ランクフィルタリング The Rank-Reduced Kalman Filter: Approximate Dynamical-Low-Rank Filtering In High Dimensions ( http://arxiv.org/abs/2306.07774v1 ) ライセンス: Link先を確認 | Jonathan Schmidt, Philipp Hennig, J\"org Nick, Filip Tronarp | (参考訳) 高次元力学系の文脈における推論とシミュレーションは、計算的に難しい問題のままである。
いくつかの次元還元は、問題を一般に引き出すのに必要である。
本稿では,共分散行列の低ランク近似を伝播する新しい近似ガウスフィルタ・平滑化法を提案する。
これは、予測ステップに関連するリアプノフ方程式を低ランク行列の多様体に投影し、最近開発された数値的に安定な動的低ランク積分器によって解かれる。
一方、共分散更新は共分散行列の列空間のみを変換し、構成によりランクが低いことを指摘して、更新ステップを扱いやすくする。
このアルゴリズムは、共分散行列の低ランク近似が確率的ではなく決定論的であるという点において、既存のアンサンブルに基づくアプローチと差別化する。
これにより、低ランク次元が問題の真の次元に近づくにつれて、正確なカルマンフィルタを再現することができる。
本手法は,(カルマンフィルタの場合)立方体から最悪の場合の状態空間サイズにおける \emph{quadratic} までの計算複雑性を低減し,状態空間モデルが一定の条件を満たす場合に \emph{linear} の複雑性を実現する。
古典的データ同化と時空間回帰の一連の実験を通じて,提案手法は平均誤差と正確なカルマンフィルタに対する共変性の観点から,アンサンブルに基づく手法を一貫して上回っていることを示す。
これは漸近的な計算の複雑さに関して追加のコストを伴わない。 Inference and simulation in the context of high-dimensional dynamical systems remain computationally challenging problems. Some form of dimensionality reduction is required to make the problem tractable in general. In this paper, we propose a novel approximate Gaussian filtering and smoothing method which propagates low-rank approximations of the covariance matrices. This is accomplished by projecting the Lyapunov equations associated with the prediction step to a manifold of low-rank matrices, which are then solved by a recently developed, numerically stable, dynamical low-rank integrator. Meanwhile, the update steps are made tractable by noting that the covariance update only transforms the column space of the covariance matrix, which is low-rank by construction. The algorithm differentiates itself from existing ensemble-based approaches in that the low-rank approximations of the covariance matrices are deterministic, rather than stochastic. Crucially, this enables the method to reproduce the exact Kalman filter as the low-rank dimension approaches the true dimensionality of the problem. Our method reduces computational complexity from cubic (for the Kalman filter) to \emph{quadratic} in the state-space size in the worst-case, and can achieve \emph{linear} complexity if the state-space model satisfies certain criteria. Through a set of experiments in classical data-assimilation and spatio-temporal regression, we show that the proposed method consistently outperforms the ensemble-based methods in terms of error in the mean and covariance with respect to the exact Kalman filter. This comes at no additional cost in terms of asymptotic computational complexity. | 翻訳日:2023-06-14 13:33:27 公開日:2023-06-13 |
# トラクタブル・イントラクタブル・イークリフを用いたシミュレーションに基づく周波数推定 Simulation-Based Frequentist Inference with Tractable and Intractable Likelihoods ( http://arxiv.org/abs/2306.07769v1 ) ライセンス: Link先を確認 | Ali Al Kadhim, Harrison B. Prosper, Olivia F. Prosper | (参考訳) 理論モデルと観測を結びつける高忠実度シミュレータは多くの科学において不可欠である。
機械学習と組み合わせると、シミュレータは理論モデルのパラメータを直接、確率関数を明示的に使用せずに実とシミュレートされた観測から推測することができる。
これは後者が難解な場合に特に興味深い。
本稿では,最近提案された確率自由頻繁性推論(LF2I)アプローチの簡単な修正について述べる。
第一は宇宙論から、第二は高エネルギー物理学と天文学から、両方が扱いやすい可能性を持つ、第三は難解な可能性を持つ、疫学からのものである。 High-fidelity simulators that connect theoretical models with observations are indispensable tools in many sciences. When coupled with machine learning, a simulator makes it possible to infer the parameters of a theoretical model directly from real and simulated observations without explicit use of the likelihood function. This is of particular interest when the latter is intractable. We introduce a simple modification of the recently proposed likelihood-free frequentist inference (LF2I) approach that has some computational advantages. The utility of our algorithm is illustrated by applying it to three pedagogically interesting examples: the first is from cosmology, the second from high-energy physics and astronomy, both with tractable likelihoods, while the third, with an intractable likelihood, is from epidemiology. | 翻訳日:2023-06-14 13:32:45 公開日:2023-06-13 |
# エリアは必要なもの - 繰り返し可能な要素は敵の攻撃を強くする Area is all you need: repeatable elements make stronger adversarial attacks ( http://arxiv.org/abs/2306.07768v1 ) ライセンス: Link先を確認 | Dillon Niederhut | (参考訳) 過去10年間、ディープニューラルネットワークはコンピュータビジョンタスクの最先端技術を達成してきた。
しかし、これらのモデルは、敵対的な例として知られる異常な入力に影響を受けやすいため、オブジェクトを誤分類したり、検出できなくなる。
ここでは,敵の攻撃の成功が,主にその規模の増加によるものであることを示す。
次に、繰り返し可能な要素から逆パターンを構築することにより、最大の敵パッチを生成する方法を示す。
このアプローチは、YOLOv2とYOLOv3による検出の回避において、新しい技術状態を達成する。
最後に、この分野で公開されたいくつかの攻撃の先行的な成功を再現できず、テストと再現性に関するコメントで終わる実験を示す。 Over the last decade, deep neural networks have achieved state of the art in computer vision tasks. These models, however, are susceptible to unusual inputs, known as adversarial examples, that cause them to misclassify or otherwise fail to detect objects. Here, we provide evidence that the increasing success of adversarial attacks is primarily due to increasing their size. We then demonstrate a method for generating the largest possible adversarial patch by building a adversarial pattern out of repeatable elements. This approach achieves a new state of the art in evading detection by YOLOv2 and YOLOv3. Finally, we present an experiment that fails to replicate the prior success of several attacks published in this field, and end with some comments on testing and reproducibility. | 翻訳日:2023-06-14 13:32:26 公開日:2023-06-13 |
# 因子化サブワードエンコーディングによるトークン化 Tokenization with Factorized Subword Encoding ( http://arxiv.org/abs/2306.07764v1 ) ライセンス: Link先を確認 | David Samuel and Lilja {\O}vrelid | (参考訳) 近年、言語モデルはますます大きくなり、複雑になっています。
しかし、これらのモデルの入力表現は、単純で欲張りなサブワードトークン化メソッドに依存し続ける。
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。
提案手法の有効性を7つの多様な言語における言語モデルと形態素合成タスクで評価した。
その結果、この手法はbpe(byte-pair encoding)のトークン化アルゴリズムよりも形態素的タスクに適し頑健であることが判明した。 In recent years, language models have become increasingly larger and more complex. However, the input representations for these models continue to rely on simple and greedy subword tokenization methods. In this paper, we propose a novel tokenization method that factorizes subwords onto discrete triplets using a VQ-VAE model. The effectiveness of the proposed tokenization method, referred to as the Factorizer, is evaluated on language modeling and morpho-syntactic tasks for 7 diverse languages. Results indicate that this method is more appropriate and robust for morphological tasks than the commonly used byte-pair encoding (BPE) tokenization algorithm. | 翻訳日:2023-06-14 13:31:49 公開日:2023-06-13 |
# NAVER LABS Europe's Multilingual Speech Translation System for the IWSLT 2023 Low-Resource Track NAVER LABS Europe's Multilingual Speech Translation Systems for the IWSLT 2023 Low-Resource Track ( http://arxiv.org/abs/2306.07763v1 ) ライセンス: Link先を確認 | Edward Gow-Smith, Alexandre Berard, Marcely Zanon Boito, Ioan Calapodescu | (参考訳) 本稿では,IWSLT 2023におけるタマシェク・フレンチ・ケチュア・スペイン語音声翻訳のためのNAVER LABS Europeのシステムについて述べる。
強固な事前学習モデルを活用した多言語パラメータ効率の高い解を用いて,低リソース環境での翻訳品質の最大化を試みる。
我々は,iwslt 2022テストセットにおいて,前回より7.5点,今年のテストセットでは23.6点,前回より7.7点,前回より23.6点,前回テストセットでは7.7点であった。
quechuaでは、翻訳データが2時間しかないにもかかわらず、第一にランク付けして17.7 bleuを達成しています。
最後に,提案した多言語アーキテクチャは,トレーニングデータや計算量を大幅に削減したにもかかわらず,IWSLT 2021 Multilingual Trackに対する最も制約のない提案よりも優れていることを示す。 This paper presents NAVER LABS Europe's systems for Tamasheq-French and Quechua-Spanish speech translation in the IWSLT 2023 Low-Resource track. Our work attempts to maximize translation quality in low-resource settings using multilingual parameter-efficient solutions that leverage strong pre-trained models. Our primary submission for Tamasheq outperforms the previous state of the art by 7.5 BLEU points on the IWSLT 2022 test set, and achieves 23.6 BLEU on this year's test set, outperforming the second best participant by 7.7 points. For Quechua, we also rank first and achieve 17.7 BLEU, despite having only two hours of translation data. Finally, we show that our proposed multilingual architecture is also competitive for high-resource languages, outperforming the best unconstrained submission to the IWSLT 2021 Multilingual track, despite using much less training data and compute. | 翻訳日:2023-06-14 13:31:34 公開日:2023-06-13 |
# 分子特性予測のための3次元自動事前学習 Automated 3D Pre-Training for Molecular Property Prediction ( http://arxiv.org/abs/2306.07812v1 ) ライセンス: Link先を確認 | Xu Wang and Huan Zhao and Weiwei Tu and Quanming Yao | (参考訳) 分子特性予測は、創薬と物質科学において重要な問題である。
分子特性予測には幾何学的構造が必要であることが証明されているため、3次元情報は予測性能を高めるために様々なグラフ学習法と組み合わせられている。
しかし、計算コストが高いため、多くの実世界の応用では分子の幾何学的構造が得られない。
本研究では、3d分子グラフ上でモデルを事前学習し、3d構造を持たない分子グラフ上で微調整する新しい3d事前学習フレームワーク(dubbed 3d pgt)を提案する。
結合長,結合角,二面体角が完全分子3次元配座に対応する3つの基本的な幾何学的記述子であることから,まずこれら3つの属性に基づくマルチタスク生成前学習フレームワークを開発した。
次に,これら3つの生成的タスクを自動的に融合するために,3次元コンフォーメータの品質に対応する総エネルギーから3つの前文タスクの重み分布を探索するために, \textit{total energy} を用いたサロゲートメトリックを設計し,提案する3次元pgtの精度,効率,一般化能力を示すために2次元分子グラフの拡張実験を行った。 Molecular property prediction is an important problem in drug discovery and materials science. As geometric structures have been demonstrated necessary for molecular property prediction, 3D information has been combined with various graph learning methods to boost prediction performance. However, obtaining the geometric structure of molecules is not feasible in many real-world applications due to the high computational cost. In this work, we propose a novel 3D pre-training framework (dubbed 3D PGT), which pre-trains a model on 3D molecular graphs, and then fine-tunes it on molecular graphs without 3D structures. Based on fact that bond length, bond angle, and dihedral angle are three basic geometric descriptors corresponding to a complete molecular 3D conformer, we first develop a multi-task generative pre-train framework based on these three attributes. Next, to automatically fuse these three generative tasks, we design a surrogate metric using the \textit{total energy} to search for weight distribution of the three pretext task since total energy corresponding to the quality of 3D conformer.Extensive experiments on 2D molecular graphs are conducted to demonstrate the accuracy, efficiency and generalization ability of the proposed 3D PGT compared to various pre-training baselines. | 翻訳日:2023-06-14 13:24:09 公開日:2023-06-13 |
# シグネチャ形状同定による3次元点雲上の支持塔の低リソースホワイトボックスセグメンテーション Low-Resource White-Box Semantic Segmentation of Supporting Towers on 3D Point Clouds via Signature Shape Identification ( http://arxiv.org/abs/2306.07809v1 ) ライセンス: Link先を確認 | Diogo Lavado, Cl\'audia Soares, Alessandra Micheletti, Giovanni Bocchi, Alex Coronati, Manuel Silva and Patrizio Frosini | (参考訳) 3Dセマンティックセグメンテーションの研究は、モデル複雑度と計算資源をスケーリングすることで、IoUのようなパフォーマンスメトリクスを増大させており、研究者や実践者は(1)必要なリソースにアクセスできず、(2)モデル決定メカニズムの透明性を必要としている。
本稿では,3Dポイントクラウドセマンティックセグメンテーションのための低リソースホワイトボックスモデルであるSCENE-Netを提案する。
SCENE-Netは、群同変非拡張作用素(GENEOs)を介して点雲上の符号形状を特定し、固有の幾何学的解釈性を提供する。
ラップトップでのトレーニング時間は85~minで、推論時間は20~msです。
SCENE-Netは11のトレーニング可能な幾何学的パラメータを持ち、ブラックボックスモデルよりも少ないデータを必要とする。
SCENE-Netは、ノイズの多いラベリングとデータの不均衡に対して堅牢性を提供し、最先端の手法に匹敵するIoUを持つ。
本稿では,40~000 Kmのラベル付き地形点雲のデータセットとコード実装について述べる。 Research in 3D semantic segmentation has been increasing performance metrics, like the IoU, by scaling model complexity and computational resources, leaving behind researchers and practitioners that (1) cannot access the necessary resources and (2) do need transparency on the model decision mechanisms. In this paper, we propose SCENE-Net, a low-resource white-box model for 3D point cloud semantic segmentation. SCENE-Net identifies signature shapes on the point cloud via group equivariant non-expansive operators (GENEOs), providing intrinsic geometric interpretability. Our training time on a laptop is 85~min, and our inference time is 20~ms. SCENE-Net has 11 trainable geometrical parameters and requires fewer data than black-box models. SCENE--Net offers robustness to noisy labeling and data imbalance and has comparable IoU to state-of-the-art methods. With this paper, we release a 40~000 Km labeled dataset of rural terrain point clouds and our code implementation. | 翻訳日:2023-06-14 13:23:45 公開日:2023-06-13 |
# 量子光学における状態、モード、場、光子 States, Modes, Fields, and Photons in Quantum Optics ( http://arxiv.org/abs/2306.07807v1 ) ライセンス: Link先を確認 | Michael G. Raymer and Paul Polakos | (参考訳) 光の量子的性質は、潜在的に革命的な通信技術を可能にする。
この研究分野を前進させる鍵は、状態、モード、フィールド、光子の概念を明確に理解することである。
フィールドモードの概念は古典光学から受け継がれ、状態の概念は光を機械的に扱う際に慎重に考慮する必要がある。
光子」という言葉は、量子粒子または場の状態のどちらかを指すためにしばしば使われるという意味で、過負荷の識別子である。
この過負荷は、しばしば文脈に置かれることなく使われ、私たちが測定する現実を記述した物理的過程を遠ざける可能性がある。
本稿では、光子波動関数の概念を含む、現代の量子光学理論を用いて、これらの概念の使用と関係を概観し、現代の歴史をiwo bia{\l}ynicki-birula(英語版)の論文で前進させた。 The quantum nature of light enables potentially revolutionary communication technologies. Key to advancing this area of research is a clear understanding of the concepts of states, modes, fields, and photons. The concept of field modes carries over from classical optics, while the concept of state has to be considered carefully when treating light quantum mechanically. The term 'photon' is an overloaded identifier in the sense that it is often used to refer to either a quantum particle or the state of a field. This overloading, often used without placing in context, has the potential to obfuscate the physical processes that describe the reality we measure. We review the uses and relationships between these concepts using modern quantum optics theory, including the concept of a photon wave function, the modern history of which was moved forward in a groundbreaking paper in this journal by Iwo Bia{\l}ynicki-Birula, to whom this article is dedicated. | 翻訳日:2023-06-14 13:23:27 公開日:2023-06-13 |
# 摂動を伴う時系列データからの動的規制相互作用グラフの推定 Inferring dynamic regulatory interaction graphs from time series data with perturbations ( http://arxiv.org/abs/2306.07803v1 ) ライセンス: Link先を確認 | Dhananjay Bhaskar, Sumner Magruder, Edward De Brouwer, Aarthi Venkat, Frederik Wenkel, Guy Wolf, Smita Krishnaswamy | (参考訳) 複雑なシステムは、時間とともに動的に進化する実体間の複雑な相互作用によって特徴づけられる。
これらの動的関係の正確な推論は、システムの振る舞いの理解と予測に不可欠である。
本稿では,空間・時間グラフアテンションとグラフニューラル常微分方程式(ODE)の新たな組み合わせを用いて,複雑なシステムにおける時間変化相互作用グラフを推定するためのRegulatory Temporal Interaction Network Inference(RiTINI)を提案する。
ritiniは、グラフ上のタイムラプス信号と、下位システムのダイナミクスを効果的に捉えるために、さまざまなノードにおける信号の摂動を利用する。
このアプローチは、非巡回グラフや静的グラフの推論に限られる従来の因果推論ネットワークとは異なる。
対照的に、RiTINIは巡回グラフ、有向グラフ、時間変化グラフを推論することができ、複雑なシステムのより包括的で正確な表現を提供する。
RiTINIのグラフアテンション機構により、モデルは時間と空間における最も関連する相互作用に適応的にフォーカスでき、グラフニューラルODEはシステムのダイナミクスを連続的にモデリングすることができる。
ritiniの様々なシミュレーションおよび実世界のデータセットにおける性能を評価し、これまでの方法と比較して、インタラクショングラフの推定における最先端の能力を示す。 Complex systems are characterized by intricate interactions between entities that evolve dynamically over time. Accurate inference of these dynamic relationships is crucial for understanding and predicting system behavior. In this paper, we propose Regulatory Temporal Interaction Network Inference (RiTINI) for inferring time-varying interaction graphs in complex systems using a novel combination of space-and-time graph attentions and graph neural ordinary differential equations (ODEs). RiTINI leverages time-lapse signals on a graph prior, as well as perturbations of signals at various nodes in order to effectively capture the dynamics of the underlying system. This approach is distinct from traditional causal inference networks, which are limited to inferring acyclic and static graphs. In contrast, RiTINI can infer cyclic, directed, and time-varying graphs, providing a more comprehensive and accurate representation of complex systems. The graph attention mechanism in RiTINI allows the model to adaptively focus on the most relevant interactions in time and space, while the graph neural ODEs enable continuous-time modeling of the system's dynamics. We evaluate RiTINI's performance on various simulated and real-world datasets, demonstrating its state-of-the-art capability in inferring interaction graphs compared to previous methods. | 翻訳日:2023-06-14 13:23:10 公開日:2023-06-13 |
# chatgpt対人著者テキスト:制御可能なテキスト要約と文スタイル変換の考察 ChatGPT vs Human-authored Text: Insights into Controllable Text Summarization and Sentence Style Transfer ( http://arxiv.org/abs/2306.07799v1 ) ライセンス: Link先を確認 | Dongqi Pu, Vera Demberg | (参考訳) ChatGPTのような大規模言語モデルはメディアの注目を集め、短い自然言語のプロンプトから一貫性のあるテキストを生成する能力で大衆を驚かせた。
本稿では、ChatGPTの出力を異なるターゲットオーディエンス(エキスパート対レイマン)と書体(形式対非公式)に適応させる能力に関して、2つの制御可能な世代タスクにおいてChatGPTのパフォーマンスを体系的に検査することを目的とする。
さらに、生成したテキストの忠実さを評価し、モデルの性能を人間によるテキストと比較する。
この結果から, 人体が生成する文体変化はChatGPTよりかなり大きく, 生成した文体は, 語型の分布など, 人体試料から分岐していることが明らかとなった。
さらに,ChatGPTは,テキストを特定のスタイルに適合させる際に,事実的誤りや幻覚を取り入れている場合もある。 Large-scale language models, like ChatGPT, have garnered significant media attention and stunned the public with their remarkable capacity for generating coherent text from short natural language prompts. In this paper, we aim to conduct a systematic inspection of ChatGPT's performance in two controllable generation tasks, with respect to ChatGPT's ability to adapt its output to different target audiences (expert vs. layman) and writing styles (formal vs. informal). Additionally, we evaluate the faithfulness of the generated text, and compare the model's performance with human-authored texts. Our findings indicate that the stylistic variations produced by humans are considerably larger than those demonstrated by ChatGPT, and the generated texts diverge from human samples in several characteristics, such as the distribution of word types. Moreover, we observe that ChatGPT sometimes incorporates factual errors or hallucinations when adapting the text to suit a specific style. | 翻訳日:2023-06-14 13:22:48 公開日:2023-06-13 |
# 話題分類のための単言語・クロス言語知識伝達 Monolingual and Cross-Lingual Knowledge Transfer for Topic Classification ( http://arxiv.org/abs/2306.07797v1 ) ライセンス: Link先を確認 | Dmitry Karpov, Mikhail Burtsev | (参考訳) 本稿では,RuQTopicsデータセットからの知識伝達について検討する。
このロシアのトピックデータセットは、大規模なサンプル番号(361,560シングルラベル、170,930マルチラベル)と広範なクラスカバレッジ(76クラス)を組み合わせたものだ。
このデータセットは"yandex que"生データから作成しました。
ロシアのMASSIVEサブセットの6つのマッチングクラスでトレーニングされたRuQTopicsモデルを評価することで、このデータセットでトレーニングされたロシアのみのモデルは、このサブセットで連続して85%の精度が得られるため、RuQTopicsデータセットが現実世界の会話タスクに適していることが証明された。
また、RuQTopicsで訓練し、MASSIVEの6つのクラス(すべてのMASSIVE言語)で評価した多言語BERTに対して、言語知能の相関(スピアマン相関0.773とp値2.997e-11)と、それに対応する言語に対するBERTのデータの近似サイズとが密接に関連していることが判明した。
同時に、言語学的精度とロシア語との言語的距離の相関は統計的に有意ではない。 This article investigates the knowledge transfer from the RuQTopics dataset. This Russian topical dataset combines a large sample number (361,560 single-label, 170,930 multi-label) with extensive class coverage (76 classes). We have prepared this dataset from the "Yandex Que" raw data. By evaluating the RuQTopics - trained models on the six matching classes of the Russian MASSIVE subset, we have proved that the RuQTopics dataset is suitable for real-world conversational tasks, as the Russian-only models trained on this dataset consistently yield an accuracy around 85\% on this subset. We also have figured out that for the multilingual BERT, trained on the RuQTopics and evaluated on the same six classes of MASSIVE (for all MASSIVE languages), the language-wise accuracy closely correlates (Spearman correlation 0.773 with p-value 2.997e-11) with the approximate size of the pretraining BERT's data for the corresponding language. At the same time, the correlation of the language-wise accuracy with the linguistical distance from Russian is not statistically significant. | 翻訳日:2023-06-14 13:22:26 公開日:2023-06-13 |
# Finite Gaussian Neurons: ニューラルネットワークを"知らない"と言うことによって敵の攻撃を防御する Finite Gaussian Neurons: Defending against adversarial attacks by making neural networks say "I don't know" ( http://arxiv.org/abs/2306.07796v1 ) ライセンス: Link先を確認 | Felix Grezes | (参考訳) 2014年以降、人工ニューラルネットワークは敵の攻撃に弱いことが知られており、これはネットワークを騙して間違ったあるいは非感覚的なアウトプットを発生させる可能性がある。
敵の攻撃に対する防御は提案されているが、彼らは通常、新しいニューラルネットワークをゼロから再訓練する。
本稿では,ニューラルネットワークのための新しいニューロンアーキテクチャであるFinite Gaussian Neuron(FGN)を紹介する。
私の研究の目的は、 - 既存のモデルを有限ガウスニューロンアーキテクチャに容易に変換する - 実データ上で既存のモデルの振る舞いを保ちながら - 敵の攻撃に対する抵抗を提供すること。
私は、変換および再訓練された有限ガウス型ニューラルネットワーク(fgnn)は、従来のニューラルネットワークと比較した場合、ランダム化および高速勾配符号法を逆行する予測において、常に低い信頼度(つまり、過信ではない)を持つと同時に、実際のmnist画像よりも高い精度と信頼性を維持していることを示す。
逆行性攻撃から保護する有限ガウスニューロンの能力をさらに検証するために、fgnの挙動と、ランダム化画像と逆行画像の両方に対するベイズニューラルネットワークの挙動を比較し、これら2つのアーキテクチャの動作がどう異なるかを示す。
最後に、より複雑なSPEECHCOMMANDSタスクにおいて、より強力なCarini-WagnerとProjected Gradient Descent攻撃に対してFGNモデルのいくつかの制限を示す。 Since 2014, artificial neural networks have been known to be vulnerable to adversarial attacks, which can fool the network into producing wrong or nonsensical outputs by making humanly imperceptible alterations to inputs. While defenses against adversarial attacks have been proposed, they usually involve retraining a new neural network from scratch, a costly task. In this work, I introduce the Finite Gaussian Neuron (FGN), a novel neuron architecture for artificial neural networks. My works aims to: - easily convert existing models to Finite Gaussian Neuron architecture, - while preserving the existing model's behavior on real data, - and offering resistance against adversarial attacks. I show that converted and retrained Finite Gaussian Neural Networks (FGNN) always have lower confidence (i.e., are not overconfident) in their predictions over randomized and Fast Gradient Sign Method adversarial images when compared to classical neural networks, while maintaining high accuracy and confidence over real MNIST images. To further validate the capacity of Finite Gaussian Neurons to protect from adversarial attacks, I compare the behavior of FGNs to that of Bayesian Neural Networks against both randomized and adversarial images, and show how the behavior of the two architectures differs. Finally I show some limitations of the FGN models by testing them on the more complex SPEECHCOMMANDS task, against the stronger Carlini-Wagner and Projected Gradient Descent adversarial attacks. | 翻訳日:2023-06-14 13:22:04 公開日:2023-06-13 |
# エバレットの量子多元宇宙は非局所的:多世界解釈におけるベル局所性と分岐対称性 An Elementary Proof That Everett's Quantum Multiverse Is Nonlocal: Bell-Locality and Branch-Symmetry in the Many-Worlds Interpretation ( http://arxiv.org/abs/2306.07794v1 ) ライセンス: Link先を確認 | Aur\'elien Drezet | (参考訳) エヴェレットの多世界理論は、量子力学の標準的なコペンハーゲン解釈に代わるものを見つけようとする試みである。
エベレットの理論はベル感覚において局所的であるとしばしば主張される。
ここでは、これはそうではないことを示し、GHZ(Greenberger--Horne--Zeilinger)非局所性定理を詳細に分析することによって矛盾を解いた。
我々はエベレット文学においてしばしば混ざり合う局所性の異なる概念を議論し比較し、混乱の性質を説明しようとする。
我々は多世界理論における確率と統計の議論で結論付け、理論の分枝の間に存在する強い対称性は確率の定義を禁止し、理論は統計を回復できないと強調する。
この矛盾から抜け出す唯一の方法は、隠れた変数 \`a la Bohm を加えて理論を変更することであり、その結果、新しい理論は明らかにベル非局所的である。 Everett's many-worlds or multiverse theory is an attempt to find an alternative to the standard Copenhagen interpretation of quantum mechanics. Everett's theory is often claimed to be local in the Bell sense. Here, we show that this is not the case and debunk the contradictions by analyzing in detail the Greenberger--Horne--Zeilinger (GHZ) nonlocality theorem. We discuss and compare different notions of locality often mixed in the Everettian literature and try to explain the nature of the confusion. We conclude with a discussion of probability and statistics in the many-worlds theory and stress that the strong symmetry existing between branches in the theory prohibits the definition of probability and that the theory cannot recover statistics. The only way out from this contradiction is to modify the theory by adding hidden variables \`a la Bohm and, as a consequence, the new theory is explicitly Bell-nonlocal. | 翻訳日:2023-06-14 13:21:32 公開日:2023-06-13 |
# アウト・オブ・ディストリビューションの観点からのポリプセグメンテーション再考 Rethinking Polyp Segmentation from an Out-of-Distribution Perspective ( http://arxiv.org/abs/2306.07792v1 ) ライセンス: Link先を確認 | Ge-Peng Ji, Jing Zhang, Dylan Campbell, Huan Xiong, Nick Barnes | (参考訳) 既存の完全教師付きアプローチとは異なり,大腸ポリープのセグメンテーションを,単純かつ効果的な自己教師付き学習アプローチを用いて,分散的視点から再考する。
マスク付き自己エンコーダ – 再建作業で訓練された自己監督型視覚変換器 – の能力を活用して, 正常な大腸像の分布を学習する。
次に,様々な異常試料の潜伏分布と健常試料の統計を整合させるために,特徴空間を標準化し,分布外再構成と推定を行う。
入力画像と再構成画像の差を算出し、各画像の画素単位の異常スコアを生成し、この信号を用いて分散(ie, polyp)セグメンテーションを行う。
6つのベンチマークによる実験結果から,我々のモデルはセグメンテーション性能とデータセット間の一般化に優れていた。
私たちのコードはhttps://github.com/GewelsJI/Polyp-OOD.comで公開されています。 Unlike existing fully-supervised approaches, we rethink colorectal polyp segmentation from an out-of-distribution perspective with a simple but effective self-supervised learning approach. We leverage the ability of masked autoencoders -- self-supervised vision transformers trained on a reconstruction task -- to learn in-distribution representations; here, the distribution of healthy colon images. We then perform out-of-distribution reconstruction and inference, with feature space standardisation to align the latent distribution of the diverse abnormal samples with the statistics of the healthy samples. We generate per-pixel anomaly scores for each image by calculating the difference between the input and reconstructed images and use this signal for out-of-distribution (ie, polyp) segmentation. Experimental results on six benchmarks show that our model has excellent segmentation performance and generalises across datasets. Our code is publicly available at https://github.com/GewelsJI/Polyp-OOD. | 翻訳日:2023-06-14 13:21:13 公開日:2023-06-13 |
# NoCoLA: ノルウェーの言語学的受容性企業 NoCoLA: The Norwegian Corpus of Linguistic Acceptability ( http://arxiv.org/abs/2306.07790v1 ) ライセンス: Link先を確認 | Matias Jentoft and David Samuel | (参考訳) 近年,ノルウェーでは大規模な言語モデルが急増しているが,文法的理解を評価するためのツールが不足している。
本稿では,ノルウェーの2つの新しいデータセットについて述べる。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
一方、NoCoLA_zeroは、言語モデルの文法的判断を全くゼロショットで評価するための純粋に診断タスクである。
本稿では,両データセットを詳細に記述し,異なる言語モデルにどのように使用するかを示し,既存のノルウェー語モデルとの比較研究を行う。 While there has been a surge of large language models for Norwegian in recent years, we lack any tool to evaluate their understanding of grammaticality. We present two new Norwegian datasets for this task. NoCoLA_class is a supervised binary classification task where the goal is to discriminate between acceptable and non-acceptable sentences. On the other hand, NoCoLA_zero is a purely diagnostic task for evaluating the grammatical judgement of a language model in a completely zero-shot manner, i.e. without any further training. In this paper, we describe both datasets in detail, show how to use them for different flavors of language models, and conduct a comparative study of the existing Norwegian language models. | 翻訳日:2023-06-14 13:20:55 公開日:2023-06-13 |
# SGDの厳密な正方形線形安定性解析 Exact Mean Square Linear Stability Analysis for SGD ( http://arxiv.org/abs/2306.07850v1 ) ライセンス: Link先を確認 | Rotem Mulayoff, Tomer Michaeli | (参考訳) 近年,損失最小付近における最適化法の動的安定性が注目されている。
勾配降下 (GD) に対して、安定収束はステップサイズが十分に平坦なミニマに対してのみ可能であり、これらは訓練されたモデルの好ましい性質と結びついている。
しかしながら、GDの安定性閾値はよく知られているが、確率的GD(SGD)の正確なしきい値に対して明確な表現が導出されていない。
本稿では,そのような閉形式表現を導出する。
具体的には、平均平方意味でのSGDの安定性に必要かつ十分であるステップサイズ$\eta$について明示的な条件を与える。
われわれの分析は、バッチサイズ$b$の正確な役割に光を当てている。
特に,安定閾値はバッチサイズの単調な非減少関数であり,バッチサイズの削減は安定性を損なう可能性があることを示す。
さらに、SGDの安定性閾値は、各イテレーションにおいて、完全なバッチ勾配ステップw.p.$-p$と、単一のサンプル勾配ステップw.p.$p$、$p \approx 1/B$と等価であることを示す。
これは、中程度のバッチサイズであっても、SGDの安定性閾値がGDと非常に近いことを示している。
最後に、バッチサイズに依存して、正確なしきい値よりも計算が容易な、安定性に必要な単純な条件を証明する。
MNISTデータセットを用いた実験により理論的結果を示す。 The dynamical stability of optimization methods at the vicinity of minima of the loss has recently attracted significant attention. For gradient descent (GD), stable convergence is possible only to minima that are sufficiently flat w.r.t. the step size, and those have been linked with favorable properties of the trained model. However, while the stability threshold of GD is well-known, to date, no explicit expression has been derived for the exact threshold of stochastic GD (SGD). In this paper, we derive such a closed-form expression. Specifically, we provide an explicit condition on the step size $\eta$ that is both necessary and sufficient for the stability of SGD in the mean square sense. Our analysis sheds light on the precise role of the batch size $B$. Particularly, we show that the stability threshold is a monotonically non-decreasing function of the batch size, which means that reducing the batch size can only hurt stability. Furthermore, we show that SGD's stability threshold is equivalent to that of a process which takes in each iteration a full batch gradient step w.p. $1-p$, and a single sample gradient step w.p. $p$, where $p \approx 1/B $. This indicates that even with moderate batch sizes, SGD's stability threshold is very close to that of GD's. Finally, we prove simple necessary conditions for stability, which depend on the batch size, and are easier to compute than the precise threshold. We demonstrate our theoretical findings through experiments on the MNIST dataset. | 翻訳日:2023-06-14 13:15:25 公開日:2023-06-13 |
# GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v1 ) ライセンス: Link先を確認 | Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu | (参考訳) 対照的に、CLAP(Contrastive Language-Audio Pretraining)は様々な分野で大きな成功を収めている。
本稿では,音声感情認識(SER)のためのジェンダー属性強化CLAPモデルであるGEmo-CLAPを提案する。
具体的には,SERのための感情CLAPモデルであるEmo-CLAPを構築する。
そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。
IEMOCAPコーパスで行った大規模な実験により,提案した2つのGEmo-CLAPアプローチは,異なる事前学習モデルでベースラインのEmo-CLAPを一貫して上回り,また,他の最先端手法と比較して優れた認識性能が得られた。 Contrastive Language-Audio Pretraining (CLAP) has recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced CLAP model for speech emotion recognition (SER). Specifically, we first build an effective emotion CLAP model termed Emo-CLAP for SER, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments conducted on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods. | 翻訳日:2023-06-14 13:15:00 公開日:2023-06-13 |
# ルーマニア風刺検出と感情分析のための逆カプセルネットワーク Adversarial Capsule Networks for Romanian Satire Detection and Sentiment Analysis ( http://arxiv.org/abs/2306.07845v1 ) ライセンス: Link先を確認 | Sebastian-Vasile Echim, R\u{a}zvan-Alexandru Sm\u{a}du, Andrei-Marius Avram, Dumitru-Clementin Cercel, Florin Pop | (参考訳) サファイア検出と感情分析は、テキストから風刺音の識別を研究し、ターゲットとの関係で感情を抽出する自然言語処理(NLP)タスクを集中的に探求している。
研究資源が少ない言語では、データセットサイズ制限を克服するために、文字レベルの逆数プロセスに基づく人工的な例を生成する。
このようなサンプルは正規化法として機能することが証明され、モデルの堅牢性が改善される。
本研究では, よく知られたNLPモデル(畳み込みニューラルネットワーク,Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Units (GRUs), Bidirectional GRUs)を,対向的なトレーニングとカプセルネットワークで改善する。
微調整されたモデルは、ルーマニア語の風刺検出と感情分析のタスクに使用される。
提案手法は,従来の2つのタスクの手法を上回り,最大99.08%の精度を実現し,カプセル層による改善とnlpアプローチにおける敵対的訓練を確認した。 Satire detection and sentiment analysis are intensively explored natural language processing (NLP) tasks that study the identification of the satirical tone from texts and extracting sentiments in relationship with their targets. In languages with fewer research resources, an alternative is to produce artificial examples based on character-level adversarial processes to overcome dataset size limitations. Such samples are proven to act as a regularization method, thus improving the robustness of models. In this work, we improve the well-known NLP models (i.e., Convolutional Neural Networks, Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Units (GRUs), and Bidirectional GRUs) with adversarial training and capsule networks. The fine-tuned models are used for satire detection and sentiment analysis tasks in the Romanian language. The proposed framework outperforms the existing methods for the two tasks, achieving up to 99.08% accuracy, thus confirming the improvements added by the capsule layers and the adversarial training in NLP approaches. | 翻訳日:2023-06-14 13:14:42 公開日:2023-06-13 |
# PSSTRNet: プログレッシブセグメンテーション誘導シーンテキスト除去ネットワーク PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network ( http://arxiv.org/abs/2306.07842v1 ) ライセンス: Link先を確認 | Guangtao Lyu, Anna Zhu | (参考訳) シーンテキスト削除(str)は、複雑なテキストフォント、色、サイズ、背景テクスチャがシーンイメージに含まれているため、難しい作業である。
しかし,従来の手法では,テキスト位置と背景を暗黙的に1つのネットワークに印字することで,テキストのローカライゼーション機構を弱め,背景が失われる。
これらの問題に対処するために、画像中のテキストを反復的に除去する単純なプログレッシブセグメンテーション誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
2つのデコーダブランチ、テキストセグメンテーションブランチ、および共有エンコーダを持つテキスト削除ブランチを含む。
テキストセグメンテーションブランチは、地域削除ブランチのガイダンスとしてテキストマスクマップを生成する。
各イテレーションにおいて、元の画像、前のテキスト除去結果、およびテキストマスクがネットワークに入力され、テキストセグメントの残りの部分と、よりクリーンなテキスト除去結果が抽出される。
より正確なテキストマスクマップを得るために、現在の段階と以前の段階においてマスクマップをマージするアップデートモジュールが開発されている。
最終テキスト除去結果は、前段の全ての結果の適応的な融合によって得られる。
実および合成公開データセットを用いて行った十分な数の実験とアブレーション研究により,提案手法が最先端の性能を達成することを示す。
作業のソースコードは以下の通りである。 \href{https://github.com/GuangtaoLyu/PSSTRNet}{https://github.com/GuangtaoLyu/PSSTRNet。
} Scene text removal (STR) is a challenging task due to the complex text fonts, colors, sizes, and background textures in scene images. However, most previous methods learn both text location and background inpainting implicitly within a single network, which weakens the text localization mechanism and makes a lossy background. To tackle these problems, we propose a simple Progressive Segmentation-guided Scene Text Removal Network(PSSTRNet) to remove the text in the image iteratively. It contains two decoder branches, a text segmentation branch, and a text removal branch, with a shared encoder. The text segmentation branch generates text mask maps as the guidance for the regional removal branch. In each iteration, the original image, previous text removal result, and text mask are input to the network to extract the rest part of the text segments and cleaner text removal result. To get a more accurate text mask map, an update module is developed to merge the mask map in the current and previous stages. The final text removal result is obtained by adaptive fusion of results from all previous stages. A sufficient number of experiments and ablation studies conducted on the real and synthetic public datasets demonstrate our proposed method achieves state-of-the-art performance. The source code of our work is available at: \href{https://github.com/GuangtaoLyu/PSSTRNet}{https://github.com/GuangtaoLyu/PSSTRNet.} | 翻訳日:2023-06-14 13:14:22 公開日:2023-06-13 |
# ダイヤモンドアンビルセルの量子センサによるマグネタイトからメガバール圧力範囲のイメージング磁気進化 Imaging magnetism evolution of magnetite to megabar pressure range with quantum sensors in diamond anvil cell ( http://arxiv.org/abs/2306.07840v1 ) ライセンス: Link先を確認 | Mengqi Wang, Yu Wang, Zhixian Liu, Ganyu Xu, Bo Yang, Pei Yu, Haoyu Sun, Xiangyu Ye, Jingwei Zhou, Alexander. F. Goncharov, Ya Wang and Jiangfeng Du | (参考訳) 高圧ダイヤモンドアンビル細胞は、新しい物質の状態を作り出すために広く使われている。
それでも、メガバール圧力での普遍的な磁気測定技術が欠如しているため、水素化物の高温超伝導や磁気系の局所磁気モーメントの形成や破壊といった極端な条件下での材料の挙動の物理を理解することは困難である。
ここでは、量子センサの圧力の限界を突破し、高感度(~1{\mu}T/Hz^(1\2))とサブマイクロスケール空間分解能を持つメガバール圧力でのその場磁気検出技術の開発を行う。
磁場と磁区の進化を直接撮像することにより、強強強磁性体({\alpha}-Fe3O4)から弱い強磁性体({\beta}-Fe3O4)、最後に非強磁性体({\gamma}-Fe3O4)への大気圧域におけるFe3O4のマクロ磁気遷移を観察する。
Fe3O4の磁気変化のシナリオは, 高圧力下でのバルク材料の直接磁気微細構造観察に光を当て, スピンクロスオーバーに伴う磁気モーメント抑制機構の解明に寄与する。
提案手法は磁気系のスピン軌道結合と磁気-超伝導の競合について検討することができる。 High-pressure diamond anvil cells have been widely used to create novel states of matter. Nevertheless, the lack of universal in-situ magnetic measurement techniques at megabar pressures makes it difficult to understand the underlying physics of materials' behavior at extreme conditions, such as high-temperature superconductivity of hydrides and the formation or destruction of the local magnetic moments in magnetic systems, etc. Here we break through the limitations of pressure on quantum sensors and develop the in-situ magnetic detection technique at megabar pressures with high sensitivity (~1{\mu}T/Hz^(1\2)) and sub-microscale spatial resolution. By directly imaging the magnetic field and the evolution of magnetic domains, we observe the macroscopic magnetic transition of Fe3O4 in the megabar pressure range from strong ferromagnetism ({\alpha}-Fe3O4) to weak ferromagnetism ({\beta}-Fe3O4) and finally to non-magnetism ({\gamma}-Fe3O4). The scenarios for magnetic changes in Fe3O4 characterized here shed light on the direct magnetic microstructure observation in bulk materials at high pressure and contribute to understanding the mechanism of magnetic moment suppression related to spin crossover. The presented method can potentially investigate the spin-orbital coupling and magnetism-superconductivity competition in magnetic systems. | 翻訳日:2023-06-14 13:13:56 公開日:2023-06-13 |
# LMD:ライダー点雲における物体検出のための軽量予測品質推定 LMD: Light-weight Prediction Quality Estimation for Object Detection in Lidar Point Clouds ( http://arxiv.org/abs/2306.07835v1 ) ライセンス: Link先を確認 | Tobias Riedlinger, Marius Schubert, Sarina Penquitt, Jan-Marcel Kezmann, Pascal Colling, Karsten Kahl, Lutz Roese-Koerner, Michael Arnold, Urs Zimmermann, Matthias Rottmann | (参考訳) Lidarポイントクラウドデータのオブジェクト検出は、自律運転とロボット工学にとって有望な技術であり、近年、パフォーマンスと精度が著しく上昇している。
特に不確実性推定は下流タスクにとって重要な要素であり、深いニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。
従来提案した予測不確実性の定量化手法は,検出者のトレーニングスキームを変更したり,推測時間を大幅に増加させる予測サンプリングに依存する傾向にあった。
これら2つの問題に対処するため,予測品質推定のための軽量後処理方式LidarMetaDetect (LMD)を提案する。
提案手法は,任意のトレーニング済みLidarオブジェクト検出器に,ベースモデルについて何も変更することなく容易に追加可能であり,処理後処理に基づいているため,計算オーバーヘッドは無視できない。
本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
本手法はアノテーションエラーの検出に繋がる追加の応用について提案・評価を行う。
明示的なサンプルと保守的なアノテーションエラーのカウントは、kittiやnuscenesのような大規模データセットに対するメソッドの実行可能性を示している。
広く使われているnuScenesテストデータセットでは,提案手法のトップ100のうち43が誤アノテーションを示している。 Object detection on Lidar point cloud data is a promising technology for autonomous driving and robotics which has seen a significant rise in performance and accuracy during recent years. Particularly uncertainty estimation is a crucial component for down-stream tasks and deep neural networks remain error-prone even for predictions with high confidence. Previously proposed methods for quantifying prediction uncertainty tend to alter the training scheme of the detector or rely on prediction sampling which results in vastly increased inference time. In order to address these two issues, we propose LidarMetaDetect (LMD), a light-weight post-processing scheme for prediction quality estimation. Our method can easily be added to any pre-trained Lidar object detector without altering anything about the base model and is purely based on post-processing, therefore, only leading to a negligible computational overhead. Our experiments show a significant increase of statistical reliability in separating true from false predictions. We propose and evaluate an additional application of our method leading to the detection of annotation errors. Explicit samples and a conservative count of annotation error proposals indicates the viability of our method for large-scale datasets like KITTI and nuScenes. On the widely-used nuScenes test dataset, 43 out of the top 100 proposals of our method indicate, in fact, erroneous annotations. | 翻訳日:2023-06-14 13:13:28 公開日:2023-06-13 |
# 病理組織像に対する視覚言語予知型マルチインスタンスゼロショットトランスファー Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images ( http://arxiv.org/abs/2306.07831v1 ) ライセンス: Link先を確認 | Ming Y. Lu, Bowen Chen, Andrew Zhang, Drew F.K. Williamson, Richard J. Chen, Tong Ding, Long Phi Le, Yung-Sung Chuang, Faisal Mahmood | (参考訳) 対照的な視覚言語事前訓練は、新しい言語対応画像エンコーダのトレーニングや、ゼロショット視覚認識機能を持つ既存の事前学習モデルの拡張に強力な方法として登場した。
しかし、既存の研究は通常、画像テキストペアの大規模なデータセットをトレーニングし、小型から中規模の画像のみを含む下流タスクを実行するように設計されており、これらは、一般に利用可能なペア画像テキストデータセットが限られており、各画像が最大10万×10万ピクセルに及ぶような、新しい計算病理分野には適用されない。
本稿では,ギガピクセルの病理組織像全体において,コントラスト的にアライメントされた画像とテキストモデルのゼロショット転送機能を解き放つための簡易かつ直感的なフレームワークであるmi-zeroを提案する。
mi-zeroは多重インスタンス学習の枠組みの下でゼロショット転送を再構成し、超大規模画像における推論の計算上の課題を克服する。
テキストエンコーダの事前トレーニングには,550k以上の病理報告やその他のドメイン内テキストコーパスを使用しました。
強いトレーニング済みエンコーダを効果的に活用することにより、33k以上の病理組織学的画像キャプチャーペアで事前訓練された最良のモデルは、3つの異なる実世界の癌サブタイプタスクで平均70.2%のゼロショット精度を達成する。
コードはhttps://github.com/mahmoodlab/mi-zero。 Contrastive visual language pretraining has emerged as a powerful method for either training new language-aware image encoders or augmenting existing pretrained models with zero-shot visual recognition capabilities. However, existing works typically train on large datasets of image-text pairs and have been designed to perform downstream tasks involving only small to medium sized-images, neither of which are applicable to the emerging field of computational pathology where there are limited publicly available paired image-text datasets and each image can span up to 100,000 x 100,000 pixels. In this paper we present MI-Zero, a simple and intuitive framework for unleashing the zero-shot transfer capabilities of contrastively aligned image and text models on gigapixel histopathology whole slide images, enabling multiple downstream diagnostic tasks to be carried out by pretrained encoders without requiring any additional labels. MI-Zero reformulates zero-shot transfer under the framework of multiple instance learning to overcome the computational challenge of inference on extremely large images. We used over 550k pathology reports and other available in-domain text corpora to pre-train our text encoder. By effectively leveraging strong pre-trained encoders, our best model pretrained on over 33k histopathology image-caption pairs achieves an average median zero-shot accuracy of 70.2% across three different real-world cancer subtyping tasks. Our code is available at: https://github.com/mahmoodlab/MI-Zero. | 翻訳日:2023-06-14 13:13:09 公開日:2023-06-13 |
# 深部動的生成音声と雑音モデルを用いた教師なし音声強調 Unsupervised speech enhancement with deep dynamical generative speech and noise models ( http://arxiv.org/abs/2306.07820v1 ) ライセンス: Link先を確認 | Xiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda | (参考訳) 本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
このDDGMは、ノイズ非依存、ノイズ依存、ノイズ適応の3つの構成で訓練することができる。
実験結果から,提案手法は最先端の教師なし音声強調法と比較して競争性能が向上し,ノイズ依存型トレーニング構成ではより時間効率のよい推論プロセスが得られた。 This work builds on a previous work on unsupervised speech enhancement using a dynamical variational autoencoder (DVAE) as the clean speech model and non-negative matrix factorization (NMF) as the noise model. We propose to replace the NMF noise model with a deep dynamical generative model (DDGM) depending either on the DVAE latent variables, or on the noisy observations, or on both. This DDGM can be trained in three configurations: noise-agnostic, noise-dependent and noise adaptation after noise-dependent training. Experimental results show that the proposed method achieves competitive performance compared to state-of-the-art unsupervised speech enhancement methods, while the noise-dependent training configuration yields a much more time-efficient inference process. | 翻訳日:2023-06-14 13:12:42 公開日:2023-06-13 |
# オフライン制約強化学習のための最小二項臨界アルゴリズム A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning ( http://arxiv.org/abs/2306.07818v1 ) ライセンス: Link先を確認 | Kihyuk Hong, Yuhang Li, Ambuj Tewari | (参考訳) オフライン制約強化学習(RL)は、既存のデータセットを用いてコスト関数の期待値の制約を受ける累積報酬を最大化する政策を学習することを目的としている。
本稿では,一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。
PDCAは批判者によって推定されるラグランジュ関数上の原始双対アルゴリズムを実行する。
プライマルプレイヤーは、批評家とデュアルプレイヤーの任意の選択によりラグランジアンの推定を最大化するために、無規制のポリシー最適化オラクルを用いる。
双対プレイヤーは、批評家と原始プレイヤーの選択を考慮し、ラグランジアン推定を最小化するために、オンラインの線形最適化オラクルを未熟にしている。
PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。
集中性とベルマン完全性仮定を必要とする以前の研究とは異なり、PDCAは集中性と値関数/重畳化重み実現可能性仮定のみを必要とする。 Offline constrained reinforcement learning (RL) aims to learn a policy that maximizes the expected cumulative reward subject to constraints on expected value of cost functions using an existing dataset. In this paper, we propose Primal-Dual-Critic Algorithm (PDCA), a novel algorithm for offline constrained RL with general function approximation. PDCA runs a primal-dual algorithm on the Lagrangian function estimated by critics. The primal player employs a no-regret policy optimization oracle to maximize the Lagrangian estimate given any choices of the critics and the dual player. The dual player employs a no-regret online linear optimization oracle to minimize the Lagrangian estimate given any choices of the critics and the primal player. We show that PDCA can successfully find a near saddle point of the Lagrangian, which is nearly optimal for the constrained RL problem. Unlike previous work that requires concentrability and strong Bellman completeness assumptions, PDCA only requires concentrability and value function/marginalized importance weight realizability assumptions. | 翻訳日:2023-06-14 13:12:27 公開日:2023-06-13 |
# fock状態サンプリング法 --ボックス電位におけるボソン相互作用の最大ゆらぎの特性温度 Fock State Sampling Method -- Characteristic temperature of maximal fluctuations for interacting bosons in box potentials ( http://arxiv.org/abs/2306.07816v1 ) ライセンス: Link先を確認 | M. B. Kruk, T. Vibel, J. Arlt, P. Kulik, K. Paw{\l}owski, K. Rz\k{a}\.zewski | (参考訳) 2次元および3次元の箱ポテンシャルに閉じ込められた相互作用するボソンの気体の統計的性質について検討した。
我々の主な焦点は特性温度$\tchar$、すなわち縮合された原子の数(または2Dでは動きのない原子の数)の変動が最大となる温度である。
Fock State Smpling法を用いて、相互作用により$\tchar$が増加することを示す。
3dでは、この温度は熱力学的限界の臨界温度に収束する。
2Dでは, 相互作用強度に対する特性温度の一般化依存性を求めることにより, 手法の適用性を示す。
最後に,理論予測の検証に必要な実験条件について考察する。 We study the statistical properties of a gas of interacting bosons trapped in a box potential in two and three dimensions. Our primary focus is the characteristic temperature $\tchar$, i.e. the temperature at which the fluctuations of the number of condensed atoms (or, in 2D, the number of motionless atoms) is maximal. Using the Fock State Sampling method, we show that $\tchar$ increases due to interaction. In 3D, this temperature converges to the critical temperature in the thermodynamic limit. In 2D we show the general applicability of the method by obtaining a generalized dependence of the characteristic temperature on the interaction strength. Finally, we discuss the experimental conditions necessary for the verification of our theoretical predictions. | 翻訳日:2023-06-14 13:12:07 公開日:2023-06-13 |
# ヨルダン非エルミート皮膚効果とマジック和によるファントム緩和速度 Phantom relaxation rate due to Jordan non-Hermitian skin effect and magic sums ( http://arxiv.org/abs/2306.07876v1 ) ライセンス: Link先を確認 | Marko Znidaric | (参考訳) ファントム緩和(Phantom relaxation)とは、有限のスペクトルギャップによって与えられない速度で緩和することである。
階段ランダム回路における平均純度ダイナミクスとマルコフ進化の背後にある行列のスペクトル分解を考察し、それが通常のスペクトルからどのように生じるかを説明する。
地殻は非エルミート皮膚効果によって熱力学的限界が変化する膨張係数を交互に変化させる。
神秘的なファントム緩和は、ジョルダン正規形核を記述する局所一般化固有ベクトルから生じ、また、独立に、興味深い三角和を含む局所化真の固有ベクトルから生じる。
これらの全ては、非エルミート行列を扱うとき、スペクトルが関連する対象ではない、むしろ固有ベクトルである、あるいは準スペクトルであることを示す。 Phantom relaxation is relaxation with a rate that is not given by a finite spectral gap. Studying average purity dynamics in a staircase random circuit and the spectral decomposition of a matrix describing underlying Markovian evolution, we explain how that can arise out of an ordinary-looking spectrum. Crucial are alternating expansion coefficients that diverge in the thermodynamic limit due to the non-Hermitian skin effect. The mysterious phantom relaxation emerges out of localized generalized eigenvectors describing Jordan normal form kernel, and, independently, also out of localized true eigenvectors involving interesting trigonometric sums. All this shows that when dealing with non-Hermitian matrices it can happen that the spectrum is not the relevant object; rather, it is the eigenvectors, or, equivalently, the pseudospectrum. | 翻訳日:2023-06-14 13:04:36 公開日:2023-06-13 |
# ReadProbe: 横読み込みをサポートする検索拡張大型言語モデルのデモ ReadProbe: A Demo of Retrieval-Enhanced Large Language Models to Support Lateral Reading ( http://arxiv.org/abs/2306.07875v1 ) ライセンス: Link先を確認 | Dake Zhang and Ronak Pradeep | (参考訳) オンライン誤情報の増加と普及に伴い、オンライン情報の信頼性と正確性を評価するツールが求められている。
複数のソースと情報を相互参照する戦略である横読みは、この目標を達成するための効果的なアプローチである。
本稿では,OpenAI と Bing 検索エンジンから生成した大規模言語モデルを活用した,横方向読み出し支援ツール ReadProbe を提案する。
このツールは、横読みのための有用な質問を生成し、関連するドキュメントをウェブで検索し、適切な回答を生成し、オンライン情報を評価するのに役立ちます。
ReadProbeが偽情報による誤認のリスクを軽減するために、Webベースのアプリケーションを作成しました。
コードはhttps://github.com/dakezhang1998/readprobeで入手できる。
私たちのツールの初期のバージョンは、national ai misinformation hackathonで1位を獲得しました。 With the rapid growth and spread of online misinformation, people need tools to help them evaluate the credibility and accuracy of online information. Lateral reading, a strategy that involves cross-referencing information with multiple sources, may be an effective approach to achieving this goal. In this paper, we present ReadProbe, a tool to support lateral reading, powered by generative large language models from OpenAI and the Bing search engine. Our tool is able to generate useful questions for lateral reading, scour the web for relevant documents, and generate well-attributed answers to help people better evaluate online information. We made a web-based application to demonstrate how ReadProbe can help reduce the risk of being misled by false information. The code is available at https://github.com/DakeZhang1998/ReadProbe. An earlier version of our tool won the first prize in a national AI misinformation hackathon. | 翻訳日:2023-06-14 13:04:22 公開日:2023-06-13 |
# 分類構造ドメイン適応 Taxonomy-Structured Domain Adaptation ( http://arxiv.org/abs/2306.07874v1 ) ライセンス: Link先を確認 | Tianyi Liu, Zihao Xu, Hao He, Guang-Yuan Hao, Guang-He Lee, Hao Wang | (参考訳) ドメイン適応は、異なるドメイン間の分散シフトを軽減することを目的としている。
しかし、伝統的な定式化は主にカテゴリー的ドメインに限定され、現実世界におけるニュアンス的ドメイン関係を大幅に単純化している。
本研究では,動物種や製品カタログなどの階層的類似性構造を持つドメインを定式化する分類構造ドメインの一般化に取り組む。
我々は,古典的敵対的枠組みに基づいて構築し,その分類情報を保存するために,敵対的差別者と競合する新しい分類論者を紹介する。
平衡は、非情報的領域分類(例えば、すべての葉ノードが根ノードに接続する平坦な分類法)を与えられた場合、古典的な逆領域適応の解を回復し、他の分類学で非自明な結果をもたらす。
実験により,本手法は,実世界の人工データセットと実世界のデータセットを併用し,適応性を向上する。
コードはhttps://github.com/Wang-ML-Lab/TSDAで入手できる。 Domain adaptation aims to mitigate distribution shifts among different domains. However, traditional formulations are mostly limited to categorical domains, greatly simplifying nuanced domain relationships in the real world. In this work, we tackle a generalization with taxonomy-structured domains, which formalizes domains with nested, hierarchical similarity structures such as animal species and product catalogs. We build on the classic adversarial framework and introduce a novel taxonomist, which competes with the adversarial discriminator to preserve the taxonomy information. The equilibrium recovers the classic adversarial domain adaptation's solution if given a non-informative domain taxonomy (e.g., a flat taxonomy where all leaf nodes connect to the root node) while yielding non-trivial results with other taxonomies. Empirically, our method achieves state-of-the-art performance on both synthetic and real-world datasets with successful adaptation. Code is available at https://github.com/Wang-ML-Lab/TSDA. | 翻訳日:2023-06-14 13:04:07 公開日:2023-06-13 |
# 信頼できない純入力状態を持つユニタリ量子プロセストモグラフィ Unitary quantum process tomography with unreliable pure input states ( http://arxiv.org/abs/2306.07867v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Verdeil and Yannick Deville | (参考訳) 量子プロセストモグラフィ(QPT)法は、与えられた量子プロセスを特定することを目的としている。
本稿では,一元的プロセスの推定に焦点をあてる。
なぜなら、量子力学は任意の閉量子系の進化はユニタリ変換によって記述されると仮定しているからである。
QTPの標準的なアプローチは、特定されるプロセスによって修正された後、所定の(一般に純粋な)状態の特定のセットのコピーを測定することである。
この設定の主な問題は、入力状態を作成して所定の値に正確に設定することが困難であり、エラーが発生することである。
これらのエラーは、中心となるエラー(すなわち、すべてのコピーの平均がゼロである)と、すべてのコピーで同じである系統的エラーの合計に分解することができる。
本稿で紹介するアルゴリズムは,QPTを理論的に可能な任意の入力状態に対して有効である。
入力状態が所定の値に正確に設定される必要がないという事実は、いくつかの状態が未知であるが、特定されるプロセスを通過する前に測定されることを考慮して、体系的なエラーの問題を除去するためにトリックを使用することができることを意味する。
我々は、各入力状態のコピーを複数のグループに分割し、識別するプロセスの$k$インスタンスを通して連続的に転送された後、$k$-th groupのコピーを測定する(各入力状態のコピーは一度だけ測定される)。
このトリックを使うことで、初期状態に関する知識を使わずに、プロセスの前後で測定された状態の推定を計算することができる。
シミュレーションデータと実験データの両方でアルゴリズムをテストし、閉じ込められたイオン量子コンピュータ上のcnotゲートを同定する。 Quantum process tomography (QPT) methods aim at identifying a given quantum process. The present paper focuses on the estimation of a unitary process. This class is of particular interest because quantum mechanics postulates that the evolution of any closed quantum system is described by a unitary transformation. The standard approach of QTP is to measure copies of a particular set of predetermined (generally pure) states after they have been modified by the process to be identified. The main problem with this setup is that preparing an input state and setting it precisely to a predetermined value is challenging and thus yields errors. These errors can be decomposed into a sum of centred errors (i.e. whose average on all the copies is zero) and systematic errors that are the same on all the copies, the latter is often the main source of error in QPT. The algorithm we introduce in the current paper works for any input states that make QPT theoretically possible. The fact that we do not require the input states to be precisely set to predetermined values means that we can use a trick to remove the issue of systematic errors by considering that some states are unknown but measured before they go through the process to be identified. We achieve this by splitting the copies of each input state into several groups and measuring the copies of the $k$-th group after they have successively been transferred through $k$ instances of the process to be identified (each copy of each input state is only measured once). Using this trick we can compute estimates of the measured states before and after they go through the process without using the knowledge we might have on the initial states. We test our algorithm both on simulated data and experimentally to identify a CNOT gate on a trapped-ions qubit quantum computer. | 翻訳日:2023-06-14 13:03:51 公開日:2023-06-13 |
# Synapse:人間レベルコンピュータ制御のためのFew-Shot Exemplarsの活用 Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control ( http://arxiv.org/abs/2306.07863v1 ) ライセンス: Link先を確認 | Longtao Zheng, Rundong Wang, Bo An | (参考訳) 本稿では,大規模言語モデル (LLM) を推進し, コンピュータ自動化のための少数ショット例の設計について検討する。
従来のプロンプトアプローチは自己補正に重点を置いていたが、十分に構造化された模範だけでは人間レベルのパフォーマンスに十分であることがわかった。
我々はMiniWob++ベンチマークで人間レベルの性能を示すコンテキスト内コンピュータ制御エージェントであるSynapseを提案する。
シナプスは3つの主要構成要素から構成される。
1) 実演をエージェントの新たな環境状態の必要性に基づいて模範集合に分割し,時間的抽象化を可能にする状態条件分解
2)計画の正確性を改善するために,各組のタスク記述をフィルタリングし,再編成する構造的プロンプト
3)マルチタスク適応と一般化のための例題データベースにおいて,入力タスクと対応する例題を関連付ける例題検索を行う。
Synapseはコンテキスト長制限を克服し、マルチステップ制御におけるエラーを低減し、コンテキスト内でのより優れた実装を可能にする。
重要なことに、synapseはllmの推論と計画能力を強化する既存のプロンプトアプローチを補完する。
Synapseは、行動クローニング、強化学習、微調整、プロンプトといった従来の手法よりも優れており、MiniWob++の63タスクの平均成功率は9,8.5 %である。
特に、Synapseは47のタスクの例に頼っており、新しいタスクへの効果的な一般化を実証している。
本研究は,LLMの実践的ツール自動化への統合を促進するために,文脈内学習の可能性を強調した。 This paper investigates the design of few-shot exemplars for computer automation through prompting large language models (LLMs). While previous prompting approaches focus on self-correction, we find that well-structured exemplars alone are sufficient for human-level performance. We present Synapse, an in-context computer control agent demonstrating human-level performance on the MiniWob++ benchmark. Synapse consists of three main components: 1) state-conditional decomposition, which divides demonstrations into exemplar sets based on the agent's need for new environment states, enabling temporal abstraction; 2) structured prompting, which filters states and reformulates task descriptions for each set to improve planning correctness; and 3) exemplar retrieval, which associates incoming tasks with corresponding exemplars in an exemplar database for multi-task adaptation and generalization. Synapse overcomes context length limits, reduces errors in multi-step control, and allows for more exemplars within the context. Importantly, Synapse complements existing prompting approaches that enhance LLMs' reasoning and planning abilities. Synapse outperforms previous methods, including behavioral cloning, reinforcement learning, finetuning, and prompting, with an average success rate of $98.5\%$ across 63 tasks in MiniWob++. Notably, Synapse relies on exemplars from only 47 tasks, demonstrating effective generalization to novel tasks. Our results highlight the potential of in-context learning to advance the integration of LLMs into practical tool automation. | 翻訳日:2023-06-14 13:03:24 公開日:2023-06-13 |
# 未知グラフを用いた加算因果帯域 Additive Causal Bandits with Unknown Graph ( http://arxiv.org/abs/2306.07858v1 ) ライセンス: Link先を確認 | Alan Malek and Virginia Aglietti and Silvia Chiappa | (参考訳) そこで,学習者が因果グラフに関連する確率変数の集合に対して介入を選択できる因果バンディット設定における行動選択アルゴリズムを探索し,学習者は介入を順次選択し,介入分布からサンプルを観察する。
学習者の目標は、観測可能な変数に対するすべての介入の中で、結果変数の期待を最大化する介入を素早く見つけることである。
因果グラフの知識を仮定し、結果とその祖先の間の潜在的な共同創設者が存在しないこと以外は、これまでの文献から離れる。
まず, 未知のグラフ問題は, 結果の親に対して指数関数的に困難であることを示す。
これに対処するため,本手法では,全帯域フィードバックによる加算組合せ線形バンディット問題としてそれを解くことで,結果に対する付加的な仮定を適用する。
そこで本研究では,この手法を因果的バンディット問題に適用する方法を示し,サンプルの複雑性境界を与え,ランダムに生成された因果モデルの一群について実験的に検証し,結果の親を明示的に学習する必要がないことを効果的に示し,そのアルゴリズムを因果的バンディット問題に適用する方法を提案する。 We explore algorithms to select actions in the causal bandit setting where the learner can choose to intervene on a set of random variables related by a causal graph, and the learner sequentially chooses interventions and observes a sample from the interventional distribution. The learner's goal is to quickly find the intervention, among all interventions on observable variables, that maximizes the expectation of an outcome variable. We depart from previous literature by assuming no knowledge of the causal graph except that latent confounders between the outcome and its ancestors are not present. We first show that the unknown graph problem can be exponentially hard in the parents of the outcome. To remedy this, we adopt an additional additive assumption on the outcome which allows us to solve the problem by casting it as an additive combinatorial linear bandit problem with full-bandit feedback. We propose a novel action-elimination algorithm for this setting, show how to apply this algorithm to the causal bandit problem, provide sample complexity bounds, and empirically validate our findings on a suite of randomly generated causal models, effectively showing that one does not need to explicitly learn the parents of the outcome to identify the best intervention. | 翻訳日:2023-06-14 13:02:58 公開日:2023-06-13 |
# DreamDecompiler: 暗記知識の逆コンパイルによるベイズ学習の改善 DreamDecompiler: Improved Bayesian Program Learning by Decompiling Amortised Knowledge ( http://arxiv.org/abs/2306.07856v1 ) ライセンス: Link先を確認 | Alessandro B. Palmarini, Christopher G. Lucas, N. Siddharth | (参考訳) プログラム誘導問題の解決には、膨大な可能性空間を探索する必要がある。
dreamcoderはインダクティブなプログラム合成システムであり、問題を解きながら、反復的なウェイクスリープ手順で検索を単純化する。
検索コストは、ニューラルサーチポリシーをトレーニングし、検索幅を減らし、タスク間でプログラムソリューションを構成するのに有用な情報を効率的に「コンパイル」することで償却される。
さらに、プログラムコンポーネントのライブラリは、検出されたソリューションを少ないコンポーネントで表現することを学び、検索の深さを減らす。
DreamCoderでは、ニューラルネットワークポリシーは、検出するプログラムソリューションを通じて学んだライブラリに間接的な影響しか与えない。
本稿では,神経検索ポリシーを直接活用するライブラリ学習のアプローチを提案する。
検索の幅を減らすために学習される償却された知識は、検索の深さを減らすためにも使われる。
このアプローチをdreamcoderと統合し、さまざまなドメインの一般化、特にサンプルソリューションが少ない場合に、より高速なドメイン習熟度を実証します。 Solving program induction problems requires searching through an enormous space of possibilities. DreamCoder is an inductive program synthesis system that, whilst solving problems, learns to simplify search in an iterative wake-sleep procedure. The cost of search is amortised by training a neural search policy, reducing search breadth and effectively "compiling" useful information to compose program solutions across tasks. Additionally, a library of program components is learnt to express discovered solutions in fewer components, reducing search depth. In DreamCoder, the neural search policy has only an indirect effect on the library learnt through the program solutions it helps discover. We present an approach for library learning that directly leverages the neural search policy, effectively "decompiling" its amortised knowledge to extract relevant program components. This provides stronger amortised inference: the amortised knowledge learnt to reduce search breadth is now also used to reduce search depth. We integrate our approach with DreamCoder and demonstrate faster domain proficiency with improved generalisation on a range of domains, particularly when fewer example solutions are available. | 翻訳日:2023-06-14 13:02:36 公開日:2023-06-13 |
# 断熱量子メモリの性能と帯域幅のモデル化 Modeling the performance and bandwidth of adiabatic quantum memories ( http://arxiv.org/abs/2306.07855v1 ) ライセンス: Link先を確認 | Takla Nateeboon, Chanaprom Cholsuk, Tobias Vogl, Sujin Suwanna | (参考訳) 量子記憶は、将来の量子インターネットのバックボーンを形成する量子リピータにとって不可欠である。
このようなメモリは、この状態が取得された後、制御可能な時間の信号状態を取得することができる。
本研究では,原子材料と工学パラメータが量子メモリの性能と帯域に与える影響を理論的に検討した。
我々は、リンドブラッドマスター方程式と断熱量子状態操作に基づく量子メモリ演算の理論モデルを開発した。
2次元六方晶窒化ホウ素 (hbn) の欠陥に基づいてラマン型量子記憶の性能を決定するため, 材料特性とその不確かさを評価した。
材料パラメータと最大効率に基づいて信号帯域幅を計算する手法を導出した。
帯域幅は、信号光子周波数、電子構造における双極子遷移モーメント、空洞体積、外部制御電界の強度の4つの要因に依存する。
我々のスキームは一般には、適切な準位構造を持つ他の多くの量子材料に適用することができる。
そこで我々は,量子記憶材料の設計と選択に有望な方法を提供した。
したがって、我々の研究は大規模量子ネットワークの実現に向けた重要なステップである。 Quantum memories are essential for quantum repeaters that will form the backbone of the future quantum internet. Such memory can capture a signal state for a controllable amount of time after which this state can be retrieved. In this work, we theoretically investigated how atomic material and engineering parameters affect the performance and bandwidth of a quantum memory. We have developed a theoretical model for quantum memory operation based on the Lindblad master equation and adiabatic quantum state manipulation. The material properties and their uncertainty are evaluated to determine the performance of Raman-type quantum memories based on defects in two-dimensional hexagonal boron nitride (hBN). We derived a scheme to calculate the signal bandwidth based on the material parameters as well as the maximum efficiency that can be realized. The bandwidth depends on four factors: the signal photon frequency, the dipole transition moments in the electronic structure, cavity volume, and the strength of the external control electric field. As our scheme is general, it can be applied to many other quantum materials with a suitable level structure. We therefore provided a promising route for designing and selecting materials for quantum memories. Our work is therefore an important step toward the realization of a large-scale quantum network. | 翻訳日:2023-06-14 13:02:16 公開日:2023-06-13 |
# 量子電気力学を応用した量子光学が復活 Quantum Optics as Applied Quantum Electrodynamics is back in town ( http://arxiv.org/abs/2306.07854v1 ) ライセンス: Link先を確認 | Philipp Stammer and Maciej Lewenstein | (参考訳) 我々は、ワルシャワ大学のIwo Bialynicki-Birulaによって明らかに刺激されたワルシャワ量子光学学校の初期、そしてポーランド科学アカデミーの理論物理学センター、そしてポーランド科学アカデミーのAdam KujawskiとZofia Bialynicka-Birulaの始まりを思い出し始める。
ワルシャワ学派の量子場理論の理論的なアプローチは常に存在し、量子光学は量子電磁力学(qed)に応用されると考えられていた。
この素晴らしいコミュニティで育った私たち全員が、その福音を他の人に伝え続けています。
特に、qedは超高強度レーザー物質相互作用、attosecond-physics、超高速レーザー物理学のレッドカーペットの開発に着手した。
この方向性の最近の進展と今後の調査に向けたオープンな質問について詳しく述べます。
この論文は、Iwo Bialynicki-Birula教授の90歳の誕生日を祝います。 We start this short note by remembering the beginnings of the Warsaw School of Quantum Optics, evidently stimulated by Iwo Bialynicki-Birula at the Warsaw University, and then Centre for Theoretical Physics of Polish Academy of Sciences, and Adam Kujawski and Zofia Bialynicka-Birula at the Institute of Physics of Polish Academy of Sciences. In the theoretical approaches of the Warsaw School Quantum Field Theory was always present, and Quantum Optics was considered to be Applied Quantum Electrodynamics (QED). All of us who grew up in this fantastic community have carried and are still carrying the gospel to others. In particular, now QED began her run on the red carpet of Super Instense Laser Matter Interactions, Attosecond-physics, and Ultrafast Laser Physics, in general. We will elaborate on the recent progress in this direction, and on the open questions towards future investigations. This paper celebrates the 90th birthday of Prof. Iwo Bialynicki-Birula, our QED guru! | 翻訳日:2023-06-14 13:02:00 公開日:2023-06-13 |
# 数字を見せて下さい。
--ドイツ語綴りの適応学習環境における学生向け介入 Show me the numbers! -- Student-facing Interventions in Adaptive Learning Environments for German Spelling ( http://arxiv.org/abs/2306.07853v1 ) ライセンス: Link先を確認 | Nathalie Rzepka, Katharina Simbeck, Hans-Georg Mueller, Marlene Bueltemann, Niels Pinkwart | (参考訳) 適応学習には様々な形や大きさが伴うため、どの適応がどの領域の学習に意味を持つかを知ることが不可欠である。
本研究は、ドイツ語綴りスキル獲得のためのオンラインプラットフォーム上で行った実験の結果である。
従来のオンライン学習プラットフォームを,パーソナライズされたソリューション確率を示すマシンラーニングベースの学生向け介入を実装する3つの適応型プラットフォームと比較した。
我々は,エラー率,早期ドロップアウト回数,ユーザの能力に関して,さまざまな介入を評価した。
その結果,対照群と比較して誤り数の減少が見られた。
さらに、ドロップアウトの数が増えている。
ユーザに対する大きな影響は見つからなかったのです。
学生が対象とする適応学習環境は,誤り率の向上に有効であり,モチベーションに影響を及ぼすためには賢明な選択が必要であると結論付けた。 Since adaptive learning comes in many shapes and sizes, it is crucial to find out which adaptations can be meaningful for which areas of learning. Our work presents the result of an experiment conducted on an online platform for the acquisition of German spelling skills. We compared the traditional online learning platform to three different adaptive versions of the platform that implement machine learning-based student-facing interventions that show the personalized solution probability. We evaluate the different interventions with regard to the error rate, the number of early dropouts, and the users competency. Our results show that the number of mistakes decreased in comparison to the control group. Additionally, an increasing number of dropouts was found. We did not find any significant effects on the users competency. We conclude that student-facing adaptive learning environments are effective in improving a persons error rate and should be chosen wisely to have a motivating impact. | 翻訳日:2023-06-14 13:01:40 公開日:2023-06-13 |
# シャープネスによる単一ニューロンのロバスト学習 Robustly Learning a Single Neuron via Sharpness ( http://arxiv.org/abs/2306.07892v1 ) ライセンス: Link先を確認 | Puqian Wang, Nikos Zarifis, Ilias Diakonikolas, Jelena Diakonikolas | (参考訳) 対向ラベルノイズの存在下でのL_2^2$-lossに対する単一ニューロンの学習問題について検討した。
我々は、ReLUを含む幅広い活性化系に対して、定数係数内で最適な$L_2^2$-errorを近似する効率的なアルゴリズムを提案する。
我々のアルゴリズムは、以前の研究よりもはるかに軽度な分布仮定で適用される。
この結果を可能にする重要な要素は最適化理論からの局所誤差境界への新しい接続である。 We study the problem of learning a single neuron with respect to the $L_2^2$-loss in the presence of adversarial label noise. We give an efficient algorithm that, for a broad family of activations including ReLUs, approximates the optimal $L_2^2$-error within a constant factor. Our algorithm applies under much milder distributional assumptions compared to prior work. The key ingredient enabling our results is a novel connection to local error bounds from optimization theory. | 翻訳日:2023-06-14 12:55:43 公開日:2023-06-13 |
# vision datasets: 視覚に基づく産業検査のベンチマーク VISION Datasets: A Benchmark for Vision-based InduStrial InspectiON ( http://arxiv.org/abs/2306.07890v1 ) ライセンス: Link先を確認 | Haoping Bai, Shancong Mou, Tatiana Likhomanenko, Ramazan Gokberk Cinbis, Oncel Tuzel, Ping Huang, Jiulong Shan, Jianjun Shi, Meng Cao | (参考訳) ビジョンベースの検査アルゴリズムの進歩にもかかわらず、データ可用性、品質、複雑な生産要件など、現実の産業上の課題は、しばしば未解決のままである。
我々は,14の産業検査データセットの多種多様なコレクションであるvision datasetsを紹介する。
以前のデータセットとは異なり、VISIONは欠陥検出に汎用性をもたらし、すべての分割にアノテーションマスクを提供し、さまざまな検出方法に対処する。
データセットにはインスタンスセグメンテーションアノテーションがあり、正確な欠陥識別を可能にします。
44の欠陥を含む合計18kイメージにより、VISIONは幅広い実世界のプロダクションシナリオを反映しようと試みている。
Vision Datasetsで進行中の2つのチャレンジコンペティションを支援することで、ビジョンベースの産業検査のさらなる進歩を期待する。 Despite progress in vision-based inspection algorithms, real-world industrial challenges -- specifically in data availability, quality, and complex production requirements -- often remain under-addressed. We introduce the VISION Datasets, a diverse collection of 14 industrial inspection datasets, uniquely poised to meet these challenges. Unlike previous datasets, VISION brings versatility to defect detection, offering annotation masks across all splits and catering to various detection methodologies. Our datasets also feature instance-segmentation annotation, enabling precise defect identification. With a total of 18k images encompassing 44 defect types, VISION strives to mirror a wide range of real-world production scenarios. By supporting two ongoing challenge competitions on the VISION Datasets, we hope to foster further advancements in vision-based industrial inspection. | 翻訳日:2023-06-14 12:55:36 公開日:2023-06-13 |
# { Generalized $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ commensurate anisotropic Hamiltoninan and ladder operator; energy spectrum, eigenstates and associated coherent and squeezeed state {Generalized $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ commensurate anisotropic Hamiltoninan and ladder operators; energy spectrum, eigenstates and associated coherent and squeezed states ( http://arxiv.org/abs/2306.07889v1 ) ライセンス: Link先を確認 | Nibaldo-Edmundo Alvarez-Moraga | (参考訳) 本稿では、複素数 $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ Lie algebra の要素であるハミルトニアンが、この代数の要素であるはしご作用素を認める条件について研究した。
このように構成された下降作用素の代数固有状態を計算し、それらからこのハミルトニアンのエネルギースペクトルとエネルギー固有状態の両方を、対応する昇降作用素の助けを借りて通常に生成する。
したがって、一般化ハミルトニアン系のいくつかの族が発見され、適切な類似性変換の下では、1:1, 2:1, 1:2, $su(2)$ および他の非共役および可換な異方性2次元量子振動子系を見つける基本的な系の集合に還元される。
ハミルトニアンの正規化固有状態とその関連する下降作用素に対する明示的な表現が与えられ、二モード分離可能および非分離一般化コヒーレントおよびスクイーズ状態の古典構造を示す。
最後に、上記のすべての結果に基づいて、$p:q$ coprime commensurate 異方性量子振動子のための新しいラダー演算子の提案が行われ、chen $su(2)$コヒーレント状態のクラスへと導かれる。 In this article a study was made of the conditions under which a Hamiltonian which is an element of the complex $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ Lie algebra admits ladder operators which are also elements of this algebra. The algebra eigenstates of the lowering operator constructed in this way are computed and from them both the energy spectrum and the energy eigenstates of this Hamiltonian are generated in the usual way with the help of the corresponding raising operator. Thus, several families of generalized Hamiltonian systems are found, which, under a suitable similarity transformation, reduce to a basic set of systems, among which we find the 1:1, 2:1, 1:2, $su(2)$ and some other non-commensurate and commensurate anisotropic 2D quantum oscillator systems. Explicit expressions for the normalized eigenstates of the Hamiltonian and its associated lowering operator are given, which show the classical structure of two-mode separable and non-separable generalized coherent and squeezed states. Finally, based on all the above results, a proposal for new ladder operators for the $p:q$ coprime commensurate anisotropic quantum oscillator is made, which leads us to a class of Chen $SU(2)$ coherent states. | 翻訳日:2023-06-14 12:55:22 公開日:2023-06-13 |
# 擬似光子を用いたオイラー・ハイゼンベルク・シュウィンガー有効作用の改善 Improving Euler-Heisenberg-Schwinger effective action with dressed photons ( http://arxiv.org/abs/2306.07887v1 ) ライセンス: Link先を確認 | Stefan Evans and Johann Rafelski | (参考訳) 我々は,euler-heisenberg-schwinger実効作用の研究において,仮想偏光補正を外部の場に応用するというweisskopfの長年の提案を実装した。
我々のアプローチでは、Bia{\l}ynicki-Birulaによって開発された数学的ツールに基づく電磁場と偏極場を区別する必要がある。
我々の解は1ループ有効作用が入力となる微分方程式として表される。
このアプローチの第一の結果、Gies と Karbstein によって発見された高階の一カット可逆ループ図を復元する。 We implement a longstanding proposal by Weisskopf to apply virtual polarization corrections to the in/out external fields in study of the Euler-Heisenberg-Schwinger effective action. Our approach requires distinguishing the electromagnetic and polarization fields based on mathematical tools developed by Bia{\l}ynicki-Birula, originally for the Born-Infeld action. Our solution is expressed as a differential equation where the one-loop effective action serves as input. As a first result of our approach, we recover the higher-order one-cut reducible loop diagrams discovered by Gies and Karbstein. | 翻訳日:2023-06-14 12:54:51 公開日:2023-06-13 |
# 対称テンソル分解問題の対称性と臨界点 Symmetry & Critical Points for Symmetric Tensor Decompositions Problems ( http://arxiv.org/abs/2306.07886v1 ) ライセンス: Link先を確認 | Yossi Arjevani, Gal Vinograd | (参考訳) 実対称テンソルの階数 1 項の和への分解に伴う非凸最適化問題を考える。
臨界点の族のプイズ級数表現を導出するために、豊富な対称性構造から作られ、臨界値とヘッセンスペクトルの正確な解析的推定を得る。
シャープな結果は、局所最適化法に対する様々な幾何学的障害物の解析的評価を可能にし、特に、その対称性、構造、解析的性質によって異なる、複雑なサドルと局所ミニマの配列を明らかにする。
考慮された全ての臨界点に対して生じる望ましい現象は、点の指数、すなわち、目的関数の値とともに増加する負のヘッセン固有値の数に関するものである。
最後に、ニュートン・ポリトープの議論は、固定対称性のすべての臨界点の完全な列挙を与えるために使われ、逆にテンソルノルムの異なる選択の下で不変である大域的ミニマの集合に対して、非大域的ミニマの特定の族が出現し、他は消滅する。 We consider the non-convex optimization problem associated with the decomposition of a real symmetric tensor into a sum of rank one terms. Use is made of the rich symmetry structure to derive Puiseux series representations of families of critical points, and so obtain precise analytic estimates on the critical values and the Hessian spectrum. The sharp results make possible an analytic characterization of various geometric obstructions to local optimization methods, revealing in particular a complex array of saddles and local minima which differ by their symmetry, structure and analytic properties. A desirable phenomenon, occurring for all critical points considered, concerns the index of a point, i.e., the number of negative Hessian eigenvalues, increasing with the value of the objective function. Lastly, a Newton polytope argument is used to give a complete enumeration of all critical points of fixed symmetry, and it is shown that contrarily to the set of global minima which remains invariant under different choices of tensor norms, certain families of non-global minima emerge, others disappear. | 翻訳日:2023-06-14 12:54:40 公開日:2023-06-13 |
# 微分プライベート合成データの連続的リリース Continual Release of Differentially Private Synthetic Data ( http://arxiv.org/abs/2306.07884v1 ) ライセンス: Link先を確認 | Mark Bun, Marco Gaboardi, Marcel Neunhoeffer, Wanrong Zhang | (参考訳) 医学・社会科学研究における長期的縦断的研究におけるプライバシーの懸念に動機付けられ, 差分的プライベートな合成データを継続的にリリースする問題について検討した。
我々は,各段階において,各段階ごとに新しいデータ要素を報告し,合成器の目標は,合成データセットを漸進的に更新して,リッチな統計特性をキャプチャするモデルを導入する。
固定時間ウィンドウクエリと累積時間クエリの2つの基本型を格納する連続合成データ生成アルゴリズムを提供する。
我々は,これらのアルゴリズムの誤差率についてほぼ上限を示し,米国国勢調査局の所得調査およびプログラム参加調査から得られた,現実的なサイズのデータセットにおけるその経験的性能を実証する。 Motivated by privacy concerns in long-term longitudinal studies in medical and social science research, we study the problem of continually releasing differentially private synthetic data. We introduce a model where, in every time step, each individual reports a new data element, and the goal of the synthesizer is to incrementally update a synthetic dataset to capture a rich class of statistical properties. We give continual synthetic data generation algorithms that preserve two basic types of queries: fixed time window queries and cumulative time queries. We show nearly tight upper bounds on the error rates of these algorithms and demonstrate their empirical performance on realistically sized datasets from the U.S. Census Bureau's Survey of Income and Program Participation. | 翻訳日:2023-06-14 12:54:20 公開日:2023-06-13 |
# ロバスト最適化による時間勾配反転攻撃 Temporal Gradient Inversion Attacks with Robust Optimization ( http://arxiv.org/abs/2306.07883v1 ) ライセンス: Link先を確認 | Bowen Li, Hanlin Gu, Ruoxin Chen, Jie Li, Chentao Wu, Na Ruan, Xueming Si, Lixin Fan | (参考訳) 連合学習(federated learning, fl)は、プライベートデータを共有せずに協調モデルトレーニングを行うための有望なアプローチとして登場した。
しかし、fl期間中に交換された情報に関するプライバシーの懸念は大きな研究の注目を集めている。
ローカルクライアントが保持するプライベートデータを交換勾配から再構築するために、勾配反転攻撃(gias)が提案されている。
プライベートデータを復元する一方で、データ次元とモデルの複雑さが増加し、GAAによるデータの再構築が妨げられる。
既存の手法は、これらの課題を克服するために、プライベートデータに関する事前知識を採用する。
本稿では, 単一繰り返しからの勾配を持つGAAが, 漏洩勾配, 複雑なモデルアーキテクチャ, 不正勾配情報の不足により, プライベートデータの再構成に失敗するのを最初に観察する。
複数の時間勾配を利用して、事前の知識のないプライベートデータを復元する、TGIAs-ROと呼ばれるロバスト最適化フレームワークを用いた時間勾配インバージョンアタックについて検討する。
協調最適化のための不適切な勾配など、異常値の負の影響を排除するため、ロバストな統計が提案されている。
無効勾配に対するTGIAs-ROの回復性能とロバスト性に関する理論的保証も提供する。
mnist、cifar10、imagenet、reuters 21578データセットの広範な実験結果から、10の時間勾配を持つtgias-roは、大規模なバッチサイズ(最大128個)、resnet18のような複雑なモデル、imagenet (224*224ピクセル)のような大規模データセットであっても、最先端の手法に比べて再構成性能が向上していることがわかる。
さらに,提案手法は,flの文脈におけるプライバシ保存手法のさらなる探求を促す。 Federated Learning (FL) has emerged as a promising approach for collaborative model training without sharing private data. However, privacy concerns regarding information exchanged during FL have received significant research attention. Gradient Inversion Attacks (GIAs) have been proposed to reconstruct the private data retained by local clients from the exchanged gradients. While recovering private data, the data dimensions and the model complexity increase, which thwart data reconstruction by GIAs. Existing methods adopt prior knowledge about private data to overcome those challenges. In this paper, we first observe that GIAs with gradients from a single iteration fail to reconstruct private data due to insufficient dimensions of leaked gradients, complex model architectures, and invalid gradient information. We investigate a Temporal Gradient Inversion Attack with a Robust Optimization framework, called TGIAs-RO, which recovers private data without any prior knowledge by leveraging multiple temporal gradients. To eliminate the negative impacts of outliers, e.g., invalid gradients for collaborative optimization, robust statistics are proposed. Theoretical guarantees on the recovery performance and robustness of TGIAs-RO against invalid gradients are also provided. Extensive empirical results on MNIST, CIFAR10, ImageNet and Reuters 21578 datasets show that the proposed TGIAs-RO with 10 temporal gradients improves reconstruction performance compared to state-of-the-art methods, even for large batch sizes (up to 128), complex models like ResNet18, and large datasets like ImageNet (224*224 pixels). Furthermore, the proposed attack method inspires further exploration of privacy-preserving methods in the context of FL. | 翻訳日:2023-06-14 12:54:07 公開日:2023-06-13 |
# ビューセット拡散: (0-)2次元データを用いた画像合成3次元生成モデル Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data ( http://arxiv.org/abs/2306.07881v1 ) ライセンス: Link先を確認 | Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi | (参考訳) 画像条件付き3次元生成モデルを2次元データからトレーニングするためのフレームワークであるViewset Diffusionを提案する。
画像条件付き3D生成モデルにより、単一視点3D再構成における固有曖昧性に対処できる。
オブジェクトの1つのイメージが与えられた場合、単一のイメージがオブジェクトのすべての側面をキャプチャしないため、入力画像にマッチする1つの可能な3Dボリュームがしばしば存在する。
決定論的モデルは本質的に1つの可能な再構成に制限されており、曖昧な設定で誤りを犯す。
3次元地上真理データはしばしば利用できないため、3次元形状のモデリング分布は困難である。
我々は,多視点画像集合を協調的に認知する拡散モデルを訓練することにより,データ可用性の問題を解決することを提案し,ビューセット拡散モデルの出力を画像集合ごとの1つの3次元ボリュームに制限し,一貫した幾何を保証する。
トレーニングはレンダリングの復元損失によって行われ、オブジェクト毎に3つのイメージしかトレーニングできない。
アーキテクチャとトレーニングスキームの設計により,モデルがフィードフォワード方式で3次元生成・生成・曖昧度対応シングルビュー再構築を行うことができる。
プロジェクトページ:szymanowiczs.github.io/viewset-diffusion We present Viewset Diffusion: a framework for training image-conditioned 3D generative models from 2D data. Image-conditioned 3D generative models allow us to address the inherent ambiguity in single-view 3D reconstruction. Given one image of an object, there is often more than one possible 3D volume that matches the input image, because a single image never captures all sides of an object. Deterministic models are inherently limited to producing one possible reconstruction and therefore make mistakes in ambiguous settings. Modelling distributions of 3D shapes is challenging because 3D ground truth data is often not available. We propose to solve the issue of data availability by training a diffusion model which jointly denoises a multi-view image set.We constrain the output of Viewset Diffusion models to a single 3D volume per image set, guaranteeing consistent geometry. Training is done through reconstruction losses on renderings, allowing training with only three images per object. Our design of architecture and training scheme allows our model to perform 3D generation and generative, ambiguity-aware single-view reconstruction in a feed-forward manner. Project page: szymanowiczs.github.io/viewset-diffusion. | 翻訳日:2023-06-14 12:53:31 公開日:2023-06-13 |
# イオン結晶のサイドバンド温度測定 Sideband thermometry of ion crystals ( http://arxiv.org/abs/2306.07880v1 ) ライセンス: Link先を確認 | Ivan Vybornyi, Laura S. Dreissen, Dominik Kiesenhofer, Helene Hainzer, Matthias Bock, Tuomas Ollikainen, Daniel Vadlejch, Christian F. Roos, Tanja E. Mehlst\"aubler, Klemens Hammerer | (参考訳) コールドトラップイオンのクーロン結晶は、量子プロセッサと量子シミュレーションの実現のための主要なプラットフォームであり、量子メトロロジーでは、光学原子時計の構築と標準モデルの基本的なテストのためのものである。
これらの応用のためには、イオン結晶を全ての自由度で量子基底状態まで冷却するだけでなく、高い精度で温度を決定することが不可欠である。
しかし、大きな基底状態冷却結晶が熱測定のために尋問されると、複雑な多体相互作用が起こり、確立された技術で正確な温度推定が困難になる。
本研究では,イオン結晶に適した新しい温度測定法を提案する。
この方法は、全ての通常の運動モードに適用可能であり、大きなイオン結晶に適用すると計算ボトルネックを負わない。
温度推定を4イオンの1次元線形鎖と19イオンの2次元結晶という2つの実験で検証し、他の方法を用いて可能な限りの結果を検証する。
その結果,新手法はイオン結晶の熱測定の精度と効率が向上した。 Coulomb crystals of cold trapped ions are a leading platform for the realisation of quantum processors and quantum simulations and, in quantum metrology, for the construction of optical atomic clocks and for fundamental tests of the Standard Model. For these applications, it is not only essential to cool the ion crystal in all its degrees of freedom down to the quantum ground state, but also to be able to determine its temperature with a high accuracy. However, when a large ground-state cooled crystal is interrogated for thermometry, complex many-body interactions take place, making it challenging to accurately estimate the temperature with established techniques. In this work we present a new thermometry method tailored for ion crystals. The method is applicable to all normal modes of motion and does not suffer from a computational bottleneck when applied to large ion crystals. We test the temperature estimate with two experiments, namely with a 1D linear chain of 4 ions and a 2D crystal of 19 ions and verify the results, where possible, using other methods. The results show that the new method is an accurate and efficient tool for thermometry of ion crystals. | 翻訳日:2023-06-14 12:53:10 公開日:2023-06-13 |
# 群集におけるポーズ推定の再考--発見情報とあいまいさを克服する Rethinking pose estimation in crowds: overcoming the detection information-bottleneck and ambiguity ( http://arxiv.org/abs/2306.07879v1 ) ライセンス: Link先を確認 | Mu Zhou and Lucas Stoffl and Mackenzie Mathis and Alexander Mathis | (参考訳) 個人間の頻繁な相互作用はポーズ推定アルゴリズムの基本的な課題である。
現在のパイプラインは、ポーズ推定器(トップダウンアプローチ)と共にオブジェクト検出器を使用するか、まずすべての身体部位をローカライズし、それらをリンクして個人のポーズを予測する(ボットアップ)。
しかし、個人が密接な相互作用を行う場合、トップダウンメソッドは重複する個人によって不定義となり、ボトムアップメソッドは多くの場合、遠方の身体部分とのつながりを誤って推測する。
そこで本研究では,ボトムアップ法とトップダウン法を組み合わせたボトムアップ条件付きトップダウンポーズ推定(buctd)という新しいパイプラインを提案する。
具体的には,ボトムアップモデルを検知器として用いることを提案する。推定境界ボックスに加えて,注意に基づくトップダウンモデルに条件として与えるポーズの提案を行う。
動物および人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。
CrowdPoseとOCHumanでは、従来の最先端モデルよりも大きなマージンで優れています。
crowdposeでは78.5ap,ochumanでは47.2ap,先行技術では8.6%,先行技術では4.9%改善した。
さらに,本手法はCOCOなどの非集束データセットに優れた性能を示し,マウス,魚,サルを含むマルチアニマルベンチマークの性能を強く向上させることを示した。 Frequent interactions between individuals are a fundamental challenge for pose estimation algorithms. Current pipelines either use an object detector together with a pose estimator (top-down approach), or localize all body parts first and then link them to predict the pose of individuals (bottom-up). Yet, when individuals closely interact, top-down methods are ill-defined due to overlapping individuals, and bottom-up methods often falsely infer connections to distant body parts. Thus, we propose a novel pipeline called bottom-up conditioned top-down pose estimation (BUCTD) that combines the strengths of bottom-up and top-down methods. Specifically, we propose to use a bottom-up model as the detector, which in addition to an estimated bounding box provides a pose proposal that is fed as condition to an attention-based top-down model. We demonstrate the performance and efficiency of our approach on animal and human pose estimation benchmarks. On CrowdPose and OCHuman, we outperform previous state-of-the-art models by a significant margin. We achieve 78.5 AP on CrowdPose and 47.2 AP on OCHuman, an improvement of 8.6% and 4.9% over the prior art, respectively. Furthermore, we show that our method has excellent performance on non-crowded datasets such as COCO, and strongly improves the performance on multi-animal benchmarks involving mice, fish and monkeys. | 翻訳日:2023-06-14 12:52:52 公開日:2023-06-13 |
# 多次元・間接観察メディエータを用いた因果メディエーション解析 Causal Mediation Analysis with Multi-dimensional and Indirectly Observed Mediators ( http://arxiv.org/abs/2306.07918v1 ) ライセンス: Link先を確認 | Ziyang Jiang, Yiling Liu, Michael H. Klein, Ahmed Aloui, Yiman Ren, Keyu Li, Vahid Tarokh, David Carlson | (参考訳) 因果仲裁分析(CMA)は、治療の全体効果を、潜在的結果の枠組みの中で直接的および媒介的な効果に分解する強力な方法である。
これは多くの科学的応用において、治療効果の基礎となるメカニズムを特定するために重要である。
しかし、多くの科学的応用において、メディエーターは観察できないが、関連する測定が存在する可能性がある。
例えば、脳活動の変化や構造が抗うつ薬の行動に対する効果をどのように媒介するかを識別したいが、電気生理学的、画像的脳計測へのアクセスしかできないかもしれない。
これまで、ほとんどのcmaメソッドは、メディエーターが一次元で観測可能であると仮定しており、現実のシナリオを単純化している。
この制限を克服するために,iVAEアーキテクチャに基づいて,複雑かつ間接的に観察されるメディエータを処理できるCMAフレームワークを導入する。
観測変数および潜伏変数に対する真の関節分布は,提案手法により同定可能であることを示す。
さらに,本フレームワークは,間接的に観察されたメディエータの非絡み合い表現を捉え,合成および半合成実験における直接的および媒介効果の正確な評価を行い,実世界の応用におけるその可能性を示す。 Causal mediation analysis (CMA) is a powerful method to dissect the total effect of a treatment into direct and mediated effects within the potential outcome framework. This is important in many scientific applications to identify the underlying mechanisms of a treatment effect. However, in many scientific applications the mediator is unobserved, but there may exist related measurements. For example, we may want to identify how changes in brain activity or structure mediate an antidepressant's effect on behavior, but we may only have access to electrophysiological or imaging brain measurements. To date, most CMA methods assume that the mediator is one-dimensional and observable, which oversimplifies such real-world scenarios. To overcome this limitation, we introduce a CMA framework that can handle complex and indirectly observed mediators based on the identifiable variational autoencoder (iVAE) architecture. We prove that the true joint distribution over observed and latent variables is identifiable with the proposed method. Additionally, our framework captures a disentangled representation of the indirectly observed mediator and yields accurate estimation of the direct and mediated effects in synthetic and semi-synthetic experiments, providing evidence of its potential utility in real-world applications. | 翻訳日:2023-06-14 12:45:13 公開日:2023-06-13 |
# 不整合尺度としてのウィグナー分布関数のネガティビティ Negativity of Wigner distribution function as a measure of incompatibility ( http://arxiv.org/abs/2306.07917v1 ) ライセンス: Link先を確認 | Jatin Ghai, Gautam Sharma and Sibasish Ghosh | (参考訳) 準確率分布関数の計測の不整合と否定性は量子系の非古典的側面としてよく知られている。
どちらも量子情報処理において広く受け入れられている資源である。
我々は、ウィグナー関数のネガティビティと、有限次元エルミート作用素の位相空間準確率分布、およびそれらの間の非可逆性の間の接続を確立するためのアプローチを知る。
雑音の関数としての立方体パウリ作用素の雑音固有射影に対するウィグナー分布関数の負性度を計算し、雑音 vis-\`a-vis の減少に伴う負性度の増加を観測する。
最大偏微分作用素の集合に対して最大となる。
この結果は定性的にはあるものの,雑音量の異なる操作者同士の相対的不整合度を直接比較するものである。
我々は、特定の有限次元ゲルマン作用素に対する高次元キューディットに対する処理を一般化し、作用素の次元が増加すると、そのウィグナー分布の負性度が減少し、従って不整合性が減少するのを観察する。 Measurement incompatibility and the negativity of quasiprobability distribution functions are well-known non-classical aspects of quantum systems. Both of them are widely accepted resources in quantum information processing. We acquaint an approach to establish a connection between the negativity of the Wigner function, a well-known phase-space quasiprobability distribution, of finite-dimensional Hermitian operators and incompatibility among them. We calculate the negativity of the Wigner distribution function for noisy eigenprojectors of qubit Pauli operators as a function of the noise and observe that the amount of negativity increases with the decrease in noise vis-\`a-vis the increase in the incompatibility. It becomes maximum for the set of maximally unbiased operators. Our results, although qualitatively, provide a direct comparison between relative degrees of incompatibility among a set of operators for different amounts of noise. We generalize our treatment for higher dimensional qudits for specific finite-dimensional Gell-Mann operators to observe that with an increase in the dimension of the operators, the negativity of their Wigner distribution, and hence incompatibility, decreases. | 翻訳日:2023-06-14 12:44:49 公開日:2023-06-13 |
# 非線形潜在階層モデルの同定 Identification of Nonlinear Latent Hierarchical Models ( http://arxiv.org/abs/2306.07916v1 ) ライセンス: Link先を確認 | Lingjing Kong, Biwei Huang, Feng Xie, Eric Xing, Yuejie Chi, Kun Zhang | (参考訳) 観測データから潜在変数と因果構造を特定することは、生物データ、医療データ、画像や言語などの非構造化データを含む多くの実世界のアプリケーションにとって不可欠である。
しかし、特に観測変数が因果関係の潜伏変数によって生成され、関係が非線形である場合、この課題は非常に困難である。
本研究では,非線形潜在性階層的因果モデルにおいて,観察変数が因果関係の潜在性変数の集合によって生成され,一部の潜在性変数が子どもを観察できないような同定問題について検討する。
因果構造では、前処理における潜木仮定を緩和するグラフ内の任意の一対の変数間の複数の経路の存在を許容し、構造関数ではパラメトリックな仮定をしないので、一般的な非線形性や多次元連続変数が許される。
具体的には,初等潜伏変数モデルに対する新しい識別可能性保証という形で基本識別基準を開発する。
この基準を利用して,推定手順を明示的に構築することにより,階層モデルの因果構造と潜在変数の両方を漸近的に同定できることを示す。
我々の知る限りでは、非線形潜在階層モデルにおける因果構造と潜伏変数の両方に対する識別可能性を保証するための最初の研究である。 Identifying latent variables and causal structures from observational data is essential to many real-world applications involving biological data, medical data, and unstructured data such as images and languages. However, this task can be highly challenging, especially when observed variables are generated by causally related latent variables and the relationships are nonlinear. In this work, we investigate the identification problem for nonlinear latent hierarchical causal models in which observed variables are generated by a set of causally related latent variables, and some latent variables may not have observed children. We show that the identifiability of both causal structure and latent variables can be achieved under mild assumptions: on causal structures, we allow for the existence of multiple paths between any pair of variables in the graph, which relaxes latent tree assumptions in prior work; on structural functions, we do not make parametric assumptions, thus permitting general nonlinearity and multi-dimensional continuous variables. Specifically, we first develop a basic identification criterion in the form of novel identifiability guarantees for an elementary latent variable model. Leveraging this criterion, we show that both causal structures and latent variables of the hierarchical model can be identified asymptotically by explicitly constructing an estimation procedure. To the best of our knowledge, our work is the first to establish identifiability guarantees for both causal structures and latent variables in nonlinear latent hierarchical models. | 翻訳日:2023-06-14 12:44:28 公開日:2023-06-13 |
# Image Captionersはスケーラブルな視覚学習ツール Image Captioners Are Scalable Vision Learners Too ( http://arxiv.org/abs/2306.07915v1 ) ライセンス: Link先を確認 | Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer | (参考訳) webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。
同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。
本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。
分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。
さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。
その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。 Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed. | 翻訳日:2023-06-14 12:44:05 公開日:2023-06-13 |
# WebGLM: 人選好による効率的なWeb強化質問応答システム WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences ( http://arxiv.org/abs/2306.07906v1 ) ライセンス: Link先を確認 | Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang | (参考訳) 本稿では,一般言語モデル(GLM)に基づくWebによる質問応答システムであるWebGLMを提案する。
その目標は、Web検索と検索機能を備えたトレーニング済みの大規模言語モデル(LLM)を拡張し、現実世界のデプロイメントに効率性を持たせることにある。
そこで本研究では,LLM拡張型レトリバー,ブートストラップ型ジェネレータ,人間優先型スコアラーの戦略を用いたWebGLMを開発した。
具体的には、WebGLMが精度、効率、費用対効果の利点で有効となるWebGPT(OpenAI)の限界を特定し、対処する。
さらに,Web 強化 QA システムを評価するための体系的基準を提案する。
提案するWebGLM設計の既存システムに対する性能向上を示唆する多次元人体評価および定量的アブレーション研究を行う。
10ビリオンパラメータ GLM (10B) の WebGLM は、類似サイズの WebGPT (13B) よりも優れており、人間の評価において WebGPT (175B) と互換性がある。
コード、デモ、データは \url{https://github.com/THUDM/WebGLM} にある。 We present WebGLM, a web-enhanced question-answering system based on the General Language Model (GLM). Its goal is to augment a pre-trained large language model (LLM) with web search and retrieval capabilities while being efficient for real-world deployments. To achieve this, we develop WebGLM with strategies for the LLM-augmented retriever, bootstrapped generator, and human preference-aware scorer. Specifically, we identify and address the limitations of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency, and cost-effectiveness advantages. In addition, we propose systematic criteria for evaluating web-enhanced QA systems. We conduct multi-dimensional human evaluation and quantitative ablation studies, which suggest the outperformance of the proposed WebGLM designs over existing systems. WebGLM with the 10-billion-parameter GLM (10B) is shown to perform better than the similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human evaluation. The code, demo, and data are at \url{https://github.com/THUDM/WebGLM}. | 翻訳日:2023-06-14 12:43:45 公開日:2023-06-13 |
# Omega: 最適化EMAのグラディエント Omega: Optimistic EMA Gradients ( http://arxiv.org/abs/2306.07905v1 ) ライセンス: Link先を確認 | Juan Ramirez, Rohan Sukumaran, Quentin Bertrand, Gauthier Gidel | (参考訳) 確率的なmin-max最適化は、GANの進歩と敵の訓練により、機械学習コミュニティに関心を寄せている。
ゲーム最適化は決定論的設定においてかなりよく理解されているが、いくつかの問題は確率的体制において続いている。
近年の研究では、楽観的勾配のような確率的勾配勾配上昇法はノイズに非常に敏感か収束に失敗することを示した。
代替戦略はあるが、それは違法に高価である。
我々は,その更新ルールに歴史的勾配のEMAを組み込むことで,騒音の影響を緩和する楽観的な更新手法であるOmegaを紹介する。
また、運動量を含むこのアルゴリズムのバリエーションについても検討する。
収束保証は提供していないが,確率ゲーム実験により,線形プレイヤーに適用した場合,オメガは楽観的勾配法よりも優れていた。 Stochastic min-max optimization has gained interest in the machine learning community with the advancements in GANs and adversarial training. Although game optimization is fairly well understood in the deterministic setting, some issues persist in the stochastic regime. Recent work has shown that stochastic gradient descent-ascent methods such as the optimistic gradient are highly sensitive to noise or can fail to converge. Although alternative strategies exist, they can be prohibitively expensive. We introduce Omega, a method with optimistic-like updates that mitigates the impact of noise by incorporating an EMA of historic gradients in its update rule. We also explore a variation of this algorithm that incorporates momentum. Although we do not provide convergence guarantees, our experiments on stochastic games show that Omega outperforms the optimistic gradient method when applied to linear players. | 翻訳日:2023-06-14 12:43:26 公開日:2023-06-13 |
# ストリーミング帯域における高記憶率下界 Tight Memory-Regret Lower Bounds for Streaming Bandits ( http://arxiv.org/abs/2306.07903v1 ) ライセンス: Link先を確認 | Shaoang Li, Lan Zhang, Junhao Wang, Xiang-Yang Li | (参考訳) 本稿では,オンライン到着アームとサブリニアアームメモリを扱うことで,後悔を最小限に抑えることを目的としたストリーミングバンディット問題を検討する。
我々は、時間軸$t$、アーム数$k$、パス数$b$ の任意のアルゴリズムに対して、厳密な最悪の場合には、$\omega \left( (tb)^{\alpha} k^{1-\alpha}\right), \alpha = 2^{b} / (2^{b+1}-1)$という下限を定める。
その結果,古典的集中型設定における確率的バンディット問題と,有界なアームメモリを用いたストリーミング設定との分離が明らかになった。
特に、よく知られた$\Omega(\sqrt{KT})$ lowerboundと比較して、追加の二重対数係数は、サブ線形メモリが許される任意のストリーミング帯域アルゴリズムでは避けられない。
さらに,ストリーミングブレイディットに対して,最初のインスタンス依存下界を$\Omega \left(T^{1/(B+1)} \sum_{\Delta_x>0} \frac{\mu^*}{\Delta_x}\right)$とする。
これらの下限は、おそらく独立した関心を持つ$\epsilon$-optimal arms identificationタスクの列に対する、後悔最小化設定からサンプル複雑性解析への一意な還元によって導かれる。
下限を補うために、一定のアームメモリを用いて$\tilde{o} \left( (tb)^{\alpha} k^{1 - \alpha}\right)$の後悔の上限を達成するマルチパスアルゴリズムも提供する。 In this paper, we investigate the streaming bandits problem, wherein the learner aims to minimize regret by dealing with online arriving arms and sublinear arm memory. We establish the tight worst-case regret lower bound of $\Omega \left( (TB)^{\alpha} K^{1-\alpha}\right), \alpha = 2^{B} / (2^{B+1}-1)$ for any algorithm with a time horizon $T$, number of arms $K$, and number of passes $B$. The result reveals a separation between the stochastic bandits problem in the classical centralized setting and the streaming setting with bounded arm memory. Notably, in comparison to the well-known $\Omega(\sqrt{KT})$ lower bound, an additional double logarithmic factor is unavoidable for any streaming bandits algorithm with sublinear memory permitted. Furthermore, we establish the first instance-dependent lower bound of $\Omega \left(T^{1/(B+1)} \sum_{\Delta_x>0} \frac{\mu^*}{\Delta_x}\right)$ for streaming bandits. These lower bounds are derived through a unique reduction from the regret-minimization setting to the sample complexity analysis for a sequence of $\epsilon$-optimal arms identification tasks, which maybe of independent interest. To complement the lower bound, we also provide a multi-pass algorithm that achieves a regret upper bound of $\tilde{O} \left( (TB)^{\alpha} K^{1 - \alpha}\right)$ using constant arm memory. | 翻訳日:2023-06-14 12:43:13 公開日:2023-06-13 |
# 感性データセットの多言語コーパスと多面的感性分類ベンチマーク Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark ( http://arxiv.org/abs/2306.07902v1 ) ライセンス: Link先を確認 | {\L}ukasz Augustyniak, Szymon Wo\'zniak, Marcin Gruza, Piotr Gramacki, Krzysztof Rajda, Miko{\l}aj Morzy, Tomasz Kajdanowicz | (参考訳) 多言語コーパスの収集とモデルトレーニングの大幅な進歩にもかかわらず、多言語モデルの大規模展開は依然として大きな課題である。
これは特に文化に依存した言語タスクに当てはまる。
そのような例の1つは多言語感情分析の分野であり、感情的マーカーは文化において微妙で深く理解される。
この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを示す。
コーパスは、厳格な品質基準に基づいて、350以上のデータセットから選択された79のデータセットで構成されている。
コーパスは6つの言語族を表す27の言語を含む。
データセットはいくつかの言語的特徴と機能的特徴を使ってクエリできる。
さらに,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。 Despite impressive advancements in multilingual corpora collection and model training, developing large-scale deployments of multilingual models still presents a significant challenge. This is particularly true for language tasks that are culture-dependent. One such example is the area of multilingual sentiment analysis, where affective markers can be subtle and deeply ensconced in culture. This work presents the most extensive open massively multilingual corpus of datasets for training sentiment models. The corpus consists of 79 manually selected datasets from over 350 datasets reported in the scientific literature based on strict quality criteria. The corpus covers 27 languages representing 6 language families. Datasets can be queried using several linguistic and functional features. In addition, we present a multi-faceted sentiment classification benchmark summarizing hundreds of experiments conducted on different base models, training objectives, dataset collections, and fine-tuning strategies. | 翻訳日:2023-06-14 12:42:34 公開日:2023-06-13 |
# 人工知能: 集団労働者はテキスト生成タスクに大規模言語モデルを広く使用 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks ( http://arxiv.org/abs/2306.07899v1 ) ライセンス: Link先を確認 | Veniamin Veselovsky, Manoel Horta Ribeiro, Robert West | (参考訳) 大規模言語モデル(LLM)は注目すべきデータアノテータである。
それらは、調査や実験データだけでなく、高忠実度に教師付きトレーニングデータを生成するために使用できる。
LLMの普及に伴い、人間のゴールドスタンダードアノテーションはLLMの能力と結果の有効性を理解するための鍵となる。
しかし、クラウドソーシングは人間のアノテーションを得るための重要で安価な方法であり、クラウドソーシング自体がLLMの影響を受けている可能性がある。
そこで本研究では,群集作業員のllm使用状況に関する事例研究を行った。
amazon mechanical turkの文献から抽象要約タスクを再定義し,キーストローク検出と合成テキスト分類の組み合わせにより,作業完了時に33~46%の群衆作業者がllmを使用したと推定した。
他のLLMフレンドリーでないタスクへの一般化は明らかではないが、その結果はプラットフォーム、研究者、そして群衆労働者に、人間のデータが人間のままであることを保証する新しい方法を見つけるよう呼びかけている。
コード/データ:https://github.com/epfl-dlab/GPTurk Large language models (LLMs) are remarkable data annotators. They can be used to generate high-fidelity supervised training data, as well as survey and experimental data. With the widespread adoption of LLMs, human gold--standard annotations are key to understanding the capabilities of LLMs and the validity of their results. However, crowdsourcing, an important, inexpensive way to obtain human annotations, may itself be impacted by LLMs, as crowd workers have financial incentives to use LLMs to increase their productivity and income. To investigate this concern, we conducted a case study on the prevalence of LLM usage by crowd workers. We reran an abstract summarization task from the literature on Amazon Mechanical Turk and, through a combination of keystroke detection and synthetic text classification, estimate that 33-46% of crowd workers used LLMs when completing the task. Although generalization to other, less LLM-friendly tasks is unclear, our results call for platforms, researchers, and crowd workers to find new ways to ensure that human data remain human, perhaps using the methodology proposed here as a stepping stone. Code/data: https://github.com/epfl-dlab/GPTurk | 翻訳日:2023-06-14 12:42:21 公開日:2023-06-13 |
# iSLAM: インペラティブSLAM iSLAM: Imperative SLAM ( http://arxiv.org/abs/2306.07894v1 ) ライセンス: Link先を確認 | Taimeng Fu, Shaoshu Su, Chen Wang | (参考訳) 同時ローカライゼーションとマッピング(SLAM)は、ロボットナビゲーションにおける重要な課題の1つである。
近年の進歩は, 教師あり学習に基づく手法が, 従来の最適化手法が評価ドリフトの最小化に重要な役割を担っていることを示唆している。
本稿では,このような疎結合なパラダイムが準最適性能にのみ寄与し,結果としてシステム能力と一般化ポテンシャルを削減できることを見出した。
この問題を解決するために,我々は,フロントエンドとバックエンドの相互修正を促進し,外部の監督を必要とせずに性能を向上させるための,新しい自己教師付き学習フレームワークimperative slam(islam)を提案した。
具体的には,二元最適化問題としてslamシステムを定式化し,両成分を双方向に連結する。
その結果、フロントエンドモデルは、バックエンドから残差をバックプロパゲーションすることで、ポーズグラフ最適化によって得られるグローバル幾何学的知識を学習することができる。
これにより、システム全体の一般化能力が大幅に向上し、精度が45%まで向上する。
我々の知る限り、iSLAMは、フロントエンドとバックエンドが相互に相互に相互に自己管理的な方法で学習できることを示す最初のSLAMシステムです。 Simultaneous localization and mapping (SLAM) stands as one of the critical challenges in robot navigation. Recent advancements suggest that methods based on supervised learning deliver impressive performance in front-end odometry, while traditional optimization-based methods still play a vital role in the back-end for minimizing estimation drift. In this paper, we found that such decoupled paradigm can lead to only sub-optimal performance, consequently curtailing system capabilities and generalization potential. To solve this problem, we proposed a novel self-supervised learning framework, imperative SLAM (iSLAM), which fosters reciprocal correction between the front-end and back-end, thus enhancing performance without necessitating any external supervision. Specifically, we formulate a SLAM system as a bi-level optimization problem so that the two components are bidirectionally connected. As a result, the front-end model is able to learn global geometric knowledge obtained through pose graph optimization by back-propagating the residuals from the back-end. This significantly improves the generalization ability of the entire system and thus achieves the accuracy improvement up to 45%. To the best of our knowledge, iSLAM is the first SLAM system showing that the front-end and back-end can learn jointly and mutually contribute to each other in a self-supervised manner. | 翻訳日:2023-06-14 12:42:01 公開日:2023-06-13 |
# BoardgameQA: 矛盾情報を用いた自然言語推論用データセット BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information ( http://arxiv.org/abs/2306.07934v1 ) ライセンス: Link先を確認 | Mehran Kazemi, Quan Yuan, Deepti Bhatia, Najoung Kim, Xin Xu, Vaiva Imbrasaite, Deepak Ramachandran | (参考訳) 構造化されていない自然なテキストによる自動推論は、NLPの潜在的な多くのアプリケーションや堅牢なAIシステムの開発において重要な要件である。
近年,言語モデル (LM) は微調整なしに複雑な推論能力を示した。
しかしながら、既存の自動推論の評価では、モデルが推論する一貫性があり一貫性のある情報セットへのアクセスが想定されている。
現実世界で推論する場合、利用可能な情報は矛盾したり矛盾することが多いため、モデルにそのような矛盾を解消するための戦略を組み込む必要がある。
紛争を解決するための広く適用可能な方法の1つは、情報ソース(例えば、ソース信頼性や情報レジェンシーに基づく)に優先を課し、より高い好みのソースを採用することである。
本稿では,情報提供者の嗜好によって導かれる矛盾情報による推論の問題を,従来のデファシブル推論の問題として定式化し,この設定におけるLMの推論能力を測定するためのボードゲームQAと呼ばれるデータセットを開発する。
BoardgameQAはまた、ダウンストリームアプリケーションにおける推論問題をよりよく反映するために、暗黙のバックグラウンド知識による推論も取り入れている。
本稿では,ボードゲームQA 上で様々な LM をベンチマークした結果,この問題に対する最先端の LM の推論能力に大きなギャップがあることが判明した。
性能は微調整で改善できるが、それでも貧弱である。 Automated reasoning with unstructured natural text is a key requirement for many potential applications of NLP and for developing robust AI systems. Recently, Language Models (LMs) have demonstrated complex reasoning capacities even without any finetuning. However, existing evaluation for automated reasoning assumes access to a consistent and coherent set of information over which models reason. When reasoning in the real-world, the available information is frequently inconsistent or contradictory, and therefore models need to be equipped with a strategy to resolve such conflicts when they arise. One widely-applicable way of resolving conflicts is to impose preferences over information sources (e.g., based on source credibility or information recency) and adopt the source with higher preference. In this paper, we formulate the problem of reasoning with contradictory information guided by preferences over sources as the classical problem of defeasible reasoning, and develop a dataset called BoardgameQA for measuring the reasoning capacity of LMs in this setting. BoardgameQA also incorporates reasoning with implicit background knowledge, to better reflect reasoning problems in downstream applications. We benchmark various LMs on BoardgameQA and the results reveal a significant gap in the reasoning capacity of state-of-the-art LMs on this problem, showing that reasoning with conflicting information does not surface out-of-the-box in LMs. While performance can be improved with finetuning, it nevertheless remains poor. | 翻訳日:2023-06-14 12:35:46 公開日:2023-06-13 |
# 第二応答理論:量子重ね合わせの伝播に関する理論的形式論 Second Response Theory: A Theoretical Formalism for the Propagation of Quantum Superpositions ( http://arxiv.org/abs/2306.07924v1 ) ライセンス: Link先を確認 | Mart\'in A. Mosquera | (参考訳) 一般電子量子状態の伝播は、分子系と外部駆動場との相互作用に関する情報を提供する。
これらは非断熱量子現象に関する理解を与えることもできる。
確立された手法は主に、当初は基底状態波動関数によってのみ記述された量子系を伝播することに焦点を当てている。
本研究では,前述した2次応答理論と呼ばれる結合クラスター理論の形式性を拡張することにより,まずは基底状態を含む異なる状態の一般線形結合によって記述された量子系を伝播させ,そのような伝播を時間依存クラスター作用素の特殊集合でどのように行うかを示す。
我々の理論は、量子力学的観測値、確率、コヒーレンスを決定するために、数値的に正確な結果と強い整合性を示す。
本稿では, 2次応答理論における非定常状態と, 線形および二次応答理論における行列要素の予測能力について論じる。
本研究はまた、基底状態のクラスター振幅の潜在的な不安定性を持つシステムを扱う近似正規化手法についても論じ、標準ユニタリ理論の参照結果について、その近似を比較する。 The propagation of general electronic quantum states provides information of the interaction of molecular systems with external driving fields. These can also offer understandings regarding non-adiabatic quantum phenomena. Well established methods focus mainly on propagating a quantum system that is initially described exclusively by the ground state wavefunction. In this work, we expand a previously developed formalism within coupled cluster theory, called second response theory, so it propagates quantum systems that are initially described by a general linear combination of different states, which can include the ground state, and show how with a special set of time-dependent cluster operators such propagations are performed. Our theory shows strong consistency with numerically exact results for the determination of quantum mechanical observables, probabilities, and coherences. We discuss unperturbed non-stationary states within second response theory and their ability to predict matrix elements that agree with those found in linear and quadratic response theories. This work also discusses an approximate regularized methodology to treat systems with potential instabilities in their ground-state cluster amplitudes, and compare such approximations with respect to reference results from standard unitary theory. | 翻訳日:2023-06-14 12:34:00 公開日:2023-06-13 |
# Oracle-Efficient Pessimism: コンテキスト帯域におけるオフラインポリシー最適化 Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits ( http://arxiv.org/abs/2306.07923v1 ) ライセンス: Link先を確認 | Lequn Wang, Akshay Krishnamurthy, Aleksandrs Slivkins | (参考訳) 我々は、ログされたインタラクションの固定データセットが与えられるコンテキストバンディットにおけるポリシー最適化を検討する。
悲観的正規化子は通常分布シフトを緩和するために用いられるが、それ以前の実装は計算効率が良くない。
我々は,悲観的政策最適化のための最初のoracle効率の高いアルゴリズムを提案する。
また,先行研究における悲観的アプローチと類似した統計的保証も得られる。
個別アクションと連続アクションの両方にアプローチをインスタンス化する。
両設定で広範な実験を行い、広範囲な設定で非正規化されたポリシー最適化よりも有利であることを示す。 We consider policy optimization in contextual bandits, where one is given a fixed dataset of logged interactions. While pessimistic regularizers are typically used to mitigate distribution shift, prior implementations thereof are not computationally efficient. We present the first oracle-efficient algorithm for pessimistic policy optimization: it reduces to supervised learning, leading to broad applicability. We also obtain best-effort statistical guarantees analogous to those for pessimistic approaches in prior work. We instantiate our approach for both discrete and continuous actions. We perform extensive experiments in both settings, showing advantage over unregularized policy optimization across a wide range of configurations. | 翻訳日:2023-06-14 12:33:41 公開日:2023-06-13 |
# デュアルピクセル分散抽出のための連続コスト集約 Continuous Cost Aggregation for Dual-Pixel Disparity Extraction ( http://arxiv.org/abs/2306.07921v1 ) ライセンス: Link先を確認 | Sagi Monin, Sagi Katz and Georgios Evangelidis | (参考訳) 最近の研究では、Dual-Pixel(DP)センサーから深度情報が得られることが示されている。
dpアレンジメントは1つのショットで2つのビューを提供し、ステレオイメージペアと小さなベースラインに似ている。
しかし、ビューごとの異なる点拡散関数(psf)と小さな差範囲は、典型的なステレオマッチングアルゴリズムの使用を問題にしている。
上記の欠点に対処するため,我々は,dp画像からの正確な連続的差異を提示できる半グローバルマッチングフレームワークにおける連続コスト集約(cca)スキームを提案する。
提案手法はパラボラ係数のマッチングコストに適合し,画像パスに沿ってパラボラ係数を集約する。
集約ステップは、不均一な滑らかさを強制するだけでなく、総コストの二次形式も維持する二次的制約の下で実行される。
これにより、クローズド形式における画素単位の最小化を伴う本質的に効率的な異方性伝播スキームが生まれる。
さらに、連続形式は、様々なPSFをよりよく補償する堅牢なマルチスケールアグリゲーションを可能にする。
デジタル一眼レフカメラと電話カメラのDPデータを用いた実験により,提案手法がDP差分推定における最先端性能を実現することを示す。 Recent works have shown that depth information can be obtained from Dual-Pixel (DP) sensors. A DP arrangement provides two views in a single shot, thus resembling a stereo image pair with a tiny baseline. However, the different point spread function (PSF) per view, as well as the small disparity range, makes the use of typical stereo matching algorithms problematic. To address the above shortcomings, we propose a Continuous Cost Aggregation (CCA) scheme within a semi-global matching framework that is able to provide accurate continuous disparities from DP images. The proposed algorithm fits parabolas to matching costs and aggregates parabola coefficients along image paths. The aggregation step is performed subject to a quadratic constraint that not only enforces the disparity smoothness but also maintains the quadratic form of the total costs. This gives rise to an inherently efficient disparity propagation scheme with a pixel-wise minimization in closed-form. Furthermore, the continuous form allows for a robust multi-scale aggregation that better compensates for the varying PSF. Experiments on DP data from both DSLR and phone cameras show that the proposed scheme attains state-of-the-art performance in DP disparity estimation. | 翻訳日:2023-06-14 12:33:30 公開日:2023-06-13 |
# 準最適演示からの模倣学習のためのスキルディスタングル Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations ( http://arxiv.org/abs/2306.07919v1 ) ライセンス: Link先を確認 | Tianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong Chen, Yanchi Liu, Wei Cheng, Haifeng Chen | (参考訳) 模倣学習は多くの連続的な意思決定タスクで大きな成功を収めており、収集された人間のデモンストレーションを模倣して神経エージェントを学習している。
しかし、既存のアルゴリズムは通常、収集が困難で高価である大量の高品質なデモを必要とする。
通常、実演の品質と量の間でトレードオフを行う必要がある。
この問題を対象として,本研究では,小さなクリーンなデモンストレーションセットと大きなノイズのセットの両方を用いて,サブオプティカルなデモンストレーションの模倣を検討する。
いくつかの先駆的作品が提案されているが、例えば、デモンストレーションが時間ステップを通して同じ最適性を持つと仮定し、ノイズ集合から学んだw.r.tの知識を解釈できないなど、多くの制限に苦しめられている。
これらの問題に対処し,サブ・デモンストレーションレベルで評価・模倣し,様々な品質の動作プリミティブを異なるスキルにエンコードすることで, {\method} を提案する。
具体的には、スキルを発見するためのハイレベルなコントローラと、アクションテイクポリシーを捉えるためのスキル条件付きモジュールで構成されており、まずすべてのデモでスキルを発見し、次にコントローラをクリーンなセットだけに適応させることで、2フェーズパイプラインに従ってトレーニングされる。
スキル空間における絡み合いを促進するために、相互情報に基づく正規化と動的サブデモストレーション最適度推定器を設計する。
2つのジム環境と現実世界の医療データセットを用いて大規模な実験を行い、準最適実験から学ぶ際の「メソッド」の優位性と、学習スキルを検査することで解釈可能性の向上を実証する。 Imitation learning has achieved great success in many sequential decision-making tasks, in which a neural agent is learned by imitating collected human demonstrations. However, existing algorithms typically require a large number of high-quality demonstrations that are difficult and expensive to collect. Usually, a trade-off needs to be made between demonstration quality and quantity in practice. Targeting this problem, in this work we consider the imitation of sub-optimal demonstrations, with both a small clean demonstration set and a large noisy set. Some pioneering works have been proposed, but they suffer from many limitations, e.g., assuming a demonstration to be of the same optimality throughout time steps and failing to provide any interpretation w.r.t knowledge learned from the noisy set. Addressing these problems, we propose {\method} by evaluating and imitating at the sub-demonstration level, encoding action primitives of varying quality into different skills. Concretely, {\method} consists of a high-level controller to discover skills and a skill-conditioned module to capture action-taking policies, and is trained following a two-phase pipeline by first discovering skills with all demonstrations and then adapting the controller to only the clean set. A mutual-information-based regularization and a dynamic sub-demonstration optimality estimator are designed to promote disentanglement in the skill space. Extensive experiments are conducted over two gym environments and a real-world healthcare dataset to demonstrate the superiority of {\method} in learning from sub-optimal demonstrations and its improved interpretability by examining learned skills. | 翻訳日:2023-06-14 12:33:13 公開日:2023-06-13 |
# 異種環境におけるベイズ連関学習のプライバシー保護 Privacy Preserving Bayesian Federated Learning in Heterogeneous Settings ( http://arxiv.org/abs/2306.07959v1 ) ライセンス: Link先を確認 | Disha Makhija and Joydeep Ghosh and Nhat Ho | (参考訳) いくつかの実践的なFL(Federated Learning)では、クライアントはデータリソースと計算リソースの両方の観点から非常に異質であるため、各クライアントに同じモデルアーキテクチャを適用することは極めて制限される。
さらに、不確実性の定量化とデータプライバシ制約の必要性は、ローカルデータに制限のあるクライアントに対して特に増幅されることが多い。
本稿では,これらの制約と懸念に同時に対処する統合FLフレームワークについて,大規模な局所データセットがなくても学習可能な,カスタマイズされた局所ベイズモデルに基づいて提案する。
ベイズフレームワークは、事前分布の形で監督を組み込む自然な方法を提供する。
我々は,ネットワークの機能的(アウトプット)領域における優先順位を用いて,異種クライアント間のコラボレーションを促進する。
さらに、このフレームワークには正式な差分プライバシー保証が提供される。
標準flデータセットに関する実験は、同質および異質な設定および厳密なプライバシー制約下での強いベースラインよりも、モデル不確実性のキャラクタリゼーションを提供する方法が優れていることを示している。 In several practical applications of federated learning (FL), the clients are highly heterogeneous in terms of both their data and compute resources, and therefore enforcing the same model architecture for each client is very limiting. Moreover, the need for uncertainty quantification and data privacy constraints are often particularly amplified for clients that have limited local data. This paper presents a unified FL framework to simultaneously address all these constraints and concerns, based on training customized local Bayesian models that learn well even in the absence of large local datasets. A Bayesian framework provides a natural way of incorporating supervision in the form of prior distributions. We use priors in the functional (output) space of the networks to facilitate collaboration across heterogeneous clients. Moreover, formal differential privacy guarantees are provided for this framework. Experiments on standard FL datasets demonstrate that our approach outperforms strong baselines in both homogeneous and heterogeneous settings and under strict privacy constraints, while also providing characterizations of model uncertainties. | 翻訳日:2023-06-14 12:25:38 公開日:2023-06-13 |
# エンド・ツー・エンド運転モデルの隠れバイアス Hidden Biases of End-to-End Driving Models ( http://arxiv.org/abs/2306.07957v1 ) ライセンス: Link先を確認 | Bernhard Jaeger and Kashyap Chitta and Andreas Geiger | (参考訳) エンドツーエンドの運転システムは、特にCARLAにおいて、最近急速に進歩している。
主要な貢献とは独立して、マイナーなシステムコンポーネントに変更を導入する。
その結果、改善の源は明らかでない。
ほぼすべての最先端手法で再帰する2つのバイアスを同定し,CARLAにおける観察の進展に重要な要因として,(1)目標点に対する強い誘導バイアスによる横方向の回復,(2)減速のためのマルチモーダルなウェイポイント予測の経時的平均化を挙げる。
これらのバイアスの欠点を調査し、原理的な代替案を特定した。
私たちの洞察を取り入れたTF++は、Longest6とLAVベンチマークで最初にランク付けするシンプルなエンドツーエンドメソッドで、Longest6の最高の先行作業で14の駆動スコアを獲得しています。 End-to-end driving systems have recently made rapid progress, in particular on CARLA. Independent of their major contribution, they introduce changes to minor system components. Consequently, the source of improvements is unclear. We identify two biases that recur in nearly all state-of-the-art methods and are critical for the observed progress on CARLA: (1) lateral recovery via a strong inductive bias towards target point following, and (2) longitudinal averaging of multimodal waypoint predictions for slowing down. We investigate the drawbacks of these biases and identify principled alternatives. By incorporating our insights, we develop TF++, a simple end-to-end method that ranks first on the Longest6 and LAV benchmarks, gaining 14 driving score over the best prior work on Longest6. | 翻訳日:2023-06-14 12:25:20 公開日:2023-06-13 |
# アダプティブモンテカルロ探索によるグラフ理論における予想の難解化 Adaptive Monte Carlo Search for Conjecture Refutation in Graph Theory ( http://arxiv.org/abs/2306.07956v1 ) ライセンス: Link先を確認 | Valentino Vito and Lim Yohanes Stefanus | (参考訳) グラフ理論は学際的な研究分野であり、数学のモデリングや計算機科学に様々な応用がある。
グラフ理論の研究は、定理だけでなく予想の作成にも依存する。
Conjecture-refutingアルゴリズムは、これらの予想に対する反例を探し、しばしばグラフ上の特定のスコア関数を最大化することによって、予想を否定しようとする。
本研究では,適応モンテカルロ探索法 (adaptive monte carlo search, amcs) と呼ばれる,モンテカルロ木探索法を改良した新しい予想再帰アルゴリズムを提案する。
いくつかのグラフ理論の予想に対する反例を見つけることに成功して評価され、AMCSは既存の予想拡散アルゴリズムより優れている。
このアルゴリズムは、2021年にLouらによって定式化された化学グラフ理論の予想と、2006年にAutoGraphiXコンピュータシステムによって定式化された4つの化学グラフ理論の予想である6つの開予想を論じるためにさらに利用された。
最後に、開予想のうち4つは、AMCSによって得られた反例を一般化して反例の族を生成することで強く反証される。
このアルゴリズムは、研究者がより効果的にグラフ理論予想をテストするのに役立つことが期待されている。 Graph theory is an interdisciplinary field of study that has various applications in mathematical modeling and computer science. Research in graph theory depends on the creation of not only theorems but also conjectures. Conjecture-refuting algorithms attempt to refute conjectures by searching for counterexamples to those conjectures, often by maximizing certain score functions on graphs. This study proposes a novel conjecture-refuting algorithm, referred to as the adaptive Monte Carlo search (AMCS) algorithm, obtained by modifying the Monte Carlo tree search algorithm. Evaluated based on its success in finding counterexamples to several graph theory conjectures, AMCS outperforms existing conjecture-refuting algorithms. The algorithm is further utilized to refute six open conjectures, two of which were chemical graph theory conjectures formulated by Liu et al. in 2021 and four of which were formulated by the AutoGraphiX computer system in 2006. Finally, four of the open conjectures are strongly refuted by generalizing the counterexamples obtained by AMCS to produce a family of counterexamples. It is expected that the algorithm can help researchers test graph-theoretic conjectures more effectively. | 翻訳日:2023-06-14 12:25:06 公開日:2023-06-13 |
# ゼロショットのテキストガイド付きビデオからビデオへの翻訳 Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation ( http://arxiv.org/abs/2306.07954v1 ) ライセンス: Link先を確認 | Shuai Yang, Yifan Zhou, Ziwei Liu and Chen Change Loy | (参考訳) 大規模なテキスト・画像拡散モデルでは、高品質な画像の生成に優れた習熟度を示した。
しかし、これらのモデルをビデオ領域に適用する場合、ビデオフレーム間の時間的一貫性を確保することは、非常に難しい課題である。
本稿では,ビデオに画像モデルを適用するため,ゼロショットテキスト誘導ビデオ翻訳フレームワークを提案する。
このフレームワークには、キーフレーム翻訳とフルビデオ翻訳の2つの部分が含まれている。
第1部では、適応拡散モデルを使用してキーフレームを生成し、階層的なクロスフレーム制約を適用して、形状、テクスチャ、色のコヒーレンスを強制する。
第2部は、時間対応パッチマッチングとフレームブレンディングにより、キーフレームを他のフレームに伝搬する。
我々のフレームワークは、(再学習や最適化なしに)低コストでグローバルなスタイルと局所的なテクスチャ時間一貫性を実現する。
この適応は既存の画像拡散技術と互換性があり、LoRAで特定の主題をカスタマイズしたり、ControlNetで余分な空間ガイダンスを導入するなど、我々のフレームワークがそれらを活用することができる。
提案手法は,高品質かつ時間的コヒーレントな映像のレンダリングにおいて,既存の手法よりも有効であることを示す。 Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos. | 翻訳日:2023-06-14 12:24:44 公開日:2023-06-13 |
# MOFI:ノイズのあるエンティティアノテート画像から画像表現を学習する MOFI: Learning Image Representations from Noisy Entity Annotated Images ( http://arxiv.org/abs/2306.07952v1 ) ライセンス: Link先を確認 | Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan, Shuangning Liu, Yantao Zheng, Jon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang | (参考訳) ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
データに関しては、ノイズの多い画像テキストペアの画像にエンティティラベルを自動的に割り当てる新しいアプローチを導入する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
このアプローチは単純で、コストのかかる人間のアノテーションを必要としない。webから採掘された数十億もの画像テキストペアを簡単にスケールできる。
この方法で、我々は10億の画像と200万の異なるエンティティを持つ新しい大規模データセットであるImage-to-Entities (I2E)を開発した。
i2eデータセットに基づいて,教師付き事前学習,コントラスト型事前学習,マルチタスク学習など,さまざまなトレーニングレシピを調査した。
構成的事前学習では、エンティティ名を自由形式のテキストとして扱い、エンティティ記述をさらに強化する。
実験により,大規模粒度ラベルによる教師付き事前学習が画像検索作業に極めて有効であることが示され,マルチタスクトレーニングによりパフォーマンスが向上した。
最後のMOFIモデルは、挑戦的なGPR1200データセット上で86.66%のmAPを達成し、OpenAIのCLIPモデルから72.19%の最先端パフォーマンスを達成している。
ゼロショットおよび線形プローブ画像分類に関するさらなる実験により、MOFIは元の画像テキストデータに基づいて訓練されたCLIPモデルよりも優れており、強い画像表現の学習におけるI2Eデータセットの有効性が示されている。 We present MOFI, a new vision foundation model designed to learn image representations from noisy entity annotated images. MOFI differs from previous work in two key aspects: ($i$) pre-training data, and ($ii$) training recipe. Regarding data, we introduce a new approach to automatically assign entity labels to images from noisy image-text pairs. Our approach involves employing a named entity recognition model to extract entities from the alt-text, and then using a CLIP model to select the correct entities as labels of the paired image. The approach is simple, does not require costly human annotation, and can be readily scaled up to billions of image-text pairs mined from the web. Through this method, we have created Image-to-Entities (I2E), a new large-scale dataset with 1 billion images and 2 million distinct entities, covering rich visual concepts in the wild. Building upon the I2E dataset, we study different training recipes, including supervised pre-training, contrastive pre-training, and multi-task learning. For constrastive pre-training, we treat entity names as free-form text, and further enrich them with entity descriptions. Experiments show that supervised pre-training with large-scale fine-grained entity labels is highly effective for image retrieval tasks, and multi-task training further improves the performance. The final MOFI model achieves 86.66% mAP on the challenging GPR1200 dataset, surpassing the previous state-of-the-art performance of 72.19% from OpenAI's CLIP model. Further experiments on zero-shot and linear probe image classification also show that MOFI outperforms a CLIP model trained on the original image-text data, demonstrating the effectiveness of the I2E dataset in learning strong image representations. | 翻訳日:2023-06-14 12:24:25 公開日:2023-06-13 |
# 大規模言語モデルの調査結果に対する質問 Questioning the Survey Responses of Large Language Models ( http://arxiv.org/abs/2306.07951v1 ) ライセンス: Link先を確認 | Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-D\"unner | (参考訳) 大きな言語モデルが能力を高めるにつれて、研究者は様々な科学的動機を持つあらゆる種類のモデルを調査し始めた。
本研究では,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイ(ACS)に基づいて,モデルによる調査回答から何が学べるかを検討する。
ACSの質問に対して、1ダース以上の異なるモデルを評価し、そのサイズは数億から100億のパラメータで、それぞれ数十万回、系統的に2つの支配的なパターンを確立しました。
第一に、小さなモデルは重要な位置を持ち、例えば"A"という文字でラベル付けされた調査回答に対するバイアスがある。
このaバイアスは、モデルサイズが大きくなるにつれてゆっくりと減少する。
第2に、ランダムな回答順序でこのラベル付けバイアスを調整する場合、モデルはまだアメリカの人口統計や認識可能な人口の統計には傾向がない。
むしろ、調査回答に対する一様無作為な集計統計に対するボード全体の傾向のモデルである。
このパターンは、デファクトスタンダード(de-facto standard)など、モデルを促すさまざまな方法に対して堅牢です。
以上の結果から, 言語モデルのサーベイ応答の集計統計では, 人口の信号が不足していることが判明した。
この統計信号の欠如は、現在、大規模言語モデルによる調査応答の使用について注意が必要である。 As large language models increase in capability, researchers have started to conduct surveys of all kinds on these models with varying scientific motivations. In this work, we examine what we can learn from a model's survey responses on the basis of the well-established American Community Survey (ACS) by the U.S. Census Bureau. Evaluating more than a dozen different models, varying in size from a few hundred million to ten billion parameters, hundreds of thousands of times each on questions from the ACS, we systematically establish two dominant patterns. First, smaller models have a significant position and labeling bias, for example, towards survey responses labeled with the letter "A". This A-bias diminishes, albeit slowly, as model size increases. Second, when adjusting for this labeling bias through randomized answer ordering, models still do not trend toward US population statistics or those of any cognizable population. Rather, models across the board trend toward uniformly random aggregate statistics over survey responses. This pattern is robust to various different ways of prompting the model, including what is the de-facto standard. Our findings demonstrate that aggregate statistics of a language model's survey responses lack the signals found in human populations. This absence of statistical signal cautions about the use of survey responses from large language models at present time. | 翻訳日:2023-06-14 12:23:52 公開日:2023-06-13 |
# Rydberg状態における電子局在 Electron Localization in Rydberg States ( http://arxiv.org/abs/2306.07950v1 ) ライセンス: Link先を確認 | Jan Mostowski and Joanna Pietraszewicz | (参考訳) ライドバーグ状態において電子が局在する可能性について考察する。
放出された光子の2次相関は、電子の位置を決定するツールである。
この放射の2次相関とそれゆえ、電子の加速を記述する演算子の相関は、軌道における電子の部分的局在を可能にする。
相関関数は、古典極限における遷移行列要素の値の近似によって得られる。
2次相関は、時間差の関数であり、この議論の周期関数であり、対応する古典的運動の周期に等しい。
この関数は ``perihelion' 近傍の大きな電子加速に対応する鋭い最大値を持つ。
これは電子の近日点への連続的な接近における局在を可能にする。 We discuss the possibility of localizing an electron in a highly excited Rydberg state. The second-order correlation of emitted photons is the tool for the determination of electron position. This second-order correlation of emitted radiation and, therefore, the correlation of operators describing the acceleration of the electron allows for a partial localization of the electron in its orbit. The correlation function is found by approximating the transition matrix elements by their values in the classical limit. It is shown that the second-order correlation, depending on two times, is a function of the time difference and is a periodic function of this argument with the period equal to the period of the corresponding classical motion. The function has sharp maxima corresponding to large electron acceleration in the vicinity of the ``perihelion.'' This allows the localization of the electron in its consecutive approach to the perihelion point. | 翻訳日:2023-06-14 12:23:32 公開日:2023-06-13 |
# XrayGPT : 医用ビジョンランゲージモデルを用いた胸部X線撮影 XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models ( http://arxiv.org/abs/2306.07971v1 ) ライセンス: Link先を確認 | Omkar Thawkar, Abdelrahman Shaker, Sahal Shaji Mullappilly, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Jorma Laaksonen, Fahad Shahbaz Khan | (参考訳) bardやgpt-4といった大規模な視覚言語モデルにおける最新のブレークスルーは、幅広いタスクを実行するための並外れた能力を示している。
このようなモデルは、数十億のパブリックなイメージテキストペアとさまざまなタスクからなる巨大なデータセットでトレーニングされる。
しかしながら、放射線学のようなタスク固有の領域におけるそれらのパフォーマンスは、まだ未解明であり、バイオメディカルイメージの理解の洗練が欠如しているため、潜在的に制限されている。
一方、会話型医療モデルは顕著な成功を収めているが、主にテキスト分析に焦点を当てている。
本稿では,胸部X線写真に関するオープンな質問を分析し,回答できる,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
具体的には、単純な線形変換を用いて、医療用ビジュアルエンコーダ(MedClip)と、微調整された大言語モデル(Vicuna)を一致させる。
このアライメントにより,X線写真や医用領域の知識を深く理解した視覚的会話能力を持つことができる。
医学的文脈におけるLCMの性能を高めるために,自由テキストラジオグラフィーレポートから217k程度の対話的,高品質な要約を生成する。
これらの要約は、微調整プロセスを通じてLLMの性能を高めるのに役立つ。
我々のアプローチは胸部x線写真の自動分析を進歩させる研究の新たな道を開く。
オープンソースデモ、モデル、命令セットは、https://github.com/mbzuai-oryx/XrayGPT.comで公開しています。 The latest breakthroughs in large vision-language models, such as Bard and GPT-4, have showcased extraordinary abilities in performing a wide range of tasks. Such models are trained on massive datasets comprising billions of public image-text pairs with diverse tasks. However, their performance on task-specific domains, such as radiology, is still under-investigated and potentially limited due to a lack of sophistication in understanding biomedical images. On the other hand, conversational medical models have exhibited remarkable success but have mainly focused on text-based analysis. In this paper, we introduce XrayGPT, a novel conversational medical vision-language model that can analyze and answer open-ended questions about chest radiographs. Specifically, we align both medical visual encoder (MedClip) with a fine-tuned large language model (Vicuna), using a simple linear transformation. This alignment enables our model to possess exceptional visual conversation abilities, grounded in a deep understanding of radiographs and medical domain knowledge. To enhance the performance of LLMs in the medical context, we generate ~217k interactive and high-quality summaries from free-text radiology reports. These summaries serve to enhance the performance of LLMs through the fine-tuning process. Our approach opens up new avenues the research for advancing the automated analysis of chest radiographs. Our open-source demos, models, and instruction sets are available at: https://github.com/mbzuai-oryx/XrayGPT. | 翻訳日:2023-06-14 12:16:24 公開日:2023-06-13 |
# 神経シーンのクロノロジー Neural Scene Chronology ( http://arxiv.org/abs/2306.07970v1 ) ライセンス: Link先を確認 | Haotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely | (参考訳) 本研究の目的は,大規模ランドマークのインターネット写真から,視点,照明,時刻を独立に制御して,実写的なレンダリングを表現できる時間変化型3dモデルの構築である。
主な課題は2つある。
第一に、照明や背景のシーン自体の変更(グラフィティアートを別のものに置き換えるなど)など、時間的変化の異なるタイプが画像に絡み合わされる。
第二に、シーンレベルの時間的変化はしばしば連続ではなく、時間とともに離散的で散発的である。
これらの問題に対処するため、時間とともにシーンレベルの個別なコンテンツ変化を断片的一定関数としてモデル化できる、新しい時間ステップ関数符号化方式を備えたシーン表現を提案する。
具体的には、画像ごとの照明を埋め込んだ時空間放射場として、時間的に変化するシーン変化を一連の学習ステップ関数を用いて符号化する。
インターネット画像から時系列を復元する作業を容易にするため,時間とともに変化する4つのシーンのデータセットも収集した。
本手法は, 視点, 時間, 照明を独立に制御しながら, 最先端のビュー合成結果を示すことを実証する。 In this work, we aim to reconstruct a time-varying 3D model, capable of rendering photo-realistic renderings with independent control of viewpoint, illumination, and time, from Internet photos of large-scale landmarks. The core challenges are twofold. First, different types of temporal changes, such as illumination and changes to the underlying scene itself (such as replacing one graffiti artwork with another) are entangled together in the imagery. Second, scene-level temporal changes are often discrete and sporadic over time, rather than continuous. To tackle these problems, we propose a new scene representation equipped with a novel temporal step function encoding method that can model discrete scene-level content changes as piece-wise constant functions over time. Specifically, we represent the scene as a space-time radiance field with a per-image illumination embedding, where temporally-varying scene changes are encoded using a set of learned step functions. To facilitate our task of chronology reconstruction from Internet imagery, we also collect a new dataset of four scenes that exhibit various changes over time. We demonstrate that our method exhibits state-of-the-art view synthesis results on this dataset, while achieving independent control of viewpoint, time, and illumination. | 翻訳日:2023-06-14 12:15:56 公開日:2023-06-13 |
# GeneCIS: 一般的な条件画像類似性のベンチマーク GeneCIS: A Benchmark for General Conditional Image Similarity ( http://arxiv.org/abs/2306.07969v1 ) ライセンス: Link先を確認 | Sagar Vaze, Nicolas Carion, Ishan Misra | (参考訳) 我々は「類似性」には多くの概念があり、人間のようなモデルはこれらのモデルに動的に適応できるべきだと主張する。
これは、固定埋め込み関数を学習し、従って暗黙的に類似性の単一の概念を仮定するほとんどの表現学習手法とは対照的である。
例えば、ImageNetでトレーニングされたモデルはオブジェクトカテゴリに偏り、ユーザは、シーン内の色やテクスチャ、特定の要素にフォーカスするモデルを好むかもしれません。
本稿では、モデルが様々な類似性条件に適応する能力を測定するGeneCIS(Genesis)ベンチマークを提案する。
先行研究を拡張したベンチマークでは,ゼロショット評価のみを想定し,類似性条件のオープンセットを検討する。
我々は、強力なCLIPモデルのベースラインがGeneCISで苦労していることと、ベンチマークのパフォーマンスがImageNetの精度と弱い相関しかないことを発見した。
さらに,既存の画像キャプチャーデータセットから情報を自動的にマイニングする,シンプルでスケーラブルなソリューションを提案する。
提案手法はGeneCISのベースラインを大幅に向上させ,関連する画像検索ベンチマークのゼロショット性能をさらに向上させる。
実際、評価されたゼロショットにもかかわらず、我々のモデルはMIT-Statesの最先端の教師付きモデルを上回る。
プロジェクトページ: https://sgvaze.github.io/genecis/ We argue that there are many notions of 'similarity' and that models, like humans, should be able to adapt to these dynamically. This contrasts with most representation learning methods, supervised or self-supervised, which learn a fixed embedding function and hence implicitly assume a single notion of similarity. For instance, models trained on ImageNet are biased towards object categories, while a user might prefer the model to focus on colors, textures or specific elements in the scene. In this paper, we propose the GeneCIS ('genesis') benchmark, which measures models' ability to adapt to a range of similarity conditions. Extending prior work, our benchmark is designed for zero-shot evaluation only, and hence considers an open-set of similarity conditions. We find that baselines from powerful CLIP models struggle on GeneCIS and that performance on the benchmark is only weakly correlated with ImageNet accuracy, suggesting that simply scaling existing methods is not fruitful. We further propose a simple, scalable solution based on automatically mining information from existing image-caption datasets. We find our method offers a substantial boost over the baselines on GeneCIS, and further improves zero-shot performance on related image retrieval benchmarks. In fact, though evaluated zero-shot, our model surpasses state-of-the-art supervised models on MIT-States. Project page at https://sgvaze.github.io/genecis/. | 翻訳日:2023-06-14 12:15:36 公開日:2023-06-13 |
# arXiVeri: GPTによるテーブルの自動検証 arXiVeri: Automatic table verification with GPT ( http://arxiv.org/abs/2306.07968v1 ) ライセンス: Link先を確認 | Gyungin Shin, Weidi Xie, Samuel Albanie | (参考訳) 科学的文書における数値データの正確な書き起こしがなければ、科学者は正確な結論を導き出せない。
残念ながら、ある紙から別の紙に数値データをコピーするプロセスは、ヒューマンエラーを起こしやすい。
本稿では,この課題を,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することを目的とした,自動テーブル検証(AutoTV)という新たな課題を通じて解決することを提案する。
そこで本研究では,arxivに関するオープンアクセス学術論文から得られた表データを含む新しいベンチマークarxiveriを提案する。
テーブル検証器の性能を評価するための指標を2つの重要な領域で紹介する。
(i)対象のテーブルに対応する引用文書のソーステーブルを識別することを目的としたテーブルマッチング
(ii) ターゲットとソーステーブル間の共有セルの特定と行と列のインデックスの正確な識別を目的としたセルマッチング。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
本研究は,OpenAI の GPT-4 のような最先端 LLM においても,この課題の複雑さを強調した。
コードとベンチマークは一般公開される予定だ。 Without accurate transcription of numerical data in scientific documents, a scientist cannot draw accurate conclusions. Unfortunately, the process of copying numerical data from one paper to another is prone to human error. In this paper, we propose to meet this challenge through the novel task of automatic table verification (AutoTV), in which the objective is to verify the accuracy of numerical data in tables by cross-referencing cited sources. To support this task, we propose a new benchmark, arXiVeri, which comprises tabular data drawn from open-access academic papers on arXiv. We introduce metrics to evaluate the performance of a table verifier in two key areas: (i) table matching, which aims to identify the source table in a cited document that corresponds to a target table, and (ii) cell matching, which aims to locate shared cells between a target and source table and identify their row and column indices accurately. By leveraging the flexible capabilities of modern large language models (LLMs), we propose simple baselines for table verification. Our findings highlight the complexity of this task, even for state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made publicly available. | 翻訳日:2023-06-14 12:15:12 公開日:2023-06-13 |
# 一対一:パラメータ効率の良い微調整のための一般化LORA One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2306.07967v1 ) ライセンス: Link先を確認 | Arnav Chavan and Zhuang Liu and Deepak Gupta and Eric Xing and Zhiqiang Shen | (参考訳) 汎用LoRA (GLoRA) は, パラメータ効率の高い微調整タスクのための高度な手法である。
低ランク適応(lora)の強化 gloraは、事前トレーニングされたモデル重みを最適化し、中間アクティベーションを調整し、さまざまなタスクやデータセットにまたがる柔軟性と能力を提供する、汎用的なプロンプトモジュールを採用している。
さらにgloraは、各レイヤのアダプタを個別に学習するスケーラブルでモジュール性のある階層構造探索を使用することで、効率的なパラメータ適応を促進する。
統一数学的定式化から派生したgloraは、ウェイトとアクティベーションの次元を追加して新しいタスクに適応するため、強い転送学習、少数ショット学習、ドメイン一般化能力を示す。
総合的な実験により、GLoRAは自然、特殊、構造化されたベンチマークにおいて全ての従来の手法より優れており、より少ないパラメータと様々なデータセットでの計算で優れた精度を実現している。
さらに、構造的再パラメータ化設計により、GLoRAが余分な推論コストを発生させないことが保証され、リソース制限されたアプリケーションに実用的なソリューションとなる。
コードは、https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRAで入手できる。 We present Generalized LoRA (GLoRA), an advanced approach for universal parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA), GLoRA employs a generalized prompt module to optimize pre-trained model weights and adjust intermediate activations, providing more flexibility and capability across diverse tasks and datasets. Moreover, GLoRA facilitates efficient parameter adaptation by employing a scalable, modular, layer-wise structure search that learns individual adapter of each layer. Originating from a unified mathematical formulation, GLoRA exhibits strong transfer learning, few-shot learning and domain generalization abilities, as it adjusts to new tasks through additional dimensions on weights and activations. Comprehensive experiments demonstrate that GLoRA outperforms all previous methods in natural, specialized, and structured benchmarks, achieving superior accuracy with fewer parameters and computations on various datasets. Furthermore, our structural re-parameterization design ensures that GLoRA incurs no extra inference cost, rendering it a practical solution for resource-limited applications. Code is available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA. | 翻訳日:2023-06-14 12:14:55 公開日:2023-06-13 |
# 相互作用フェルミオンの相関関数からの絡み合いエントロピーの構築 Building Entanglement Entropy out of Correlation Functions for Interacting Fermions ( http://arxiv.org/abs/2306.07963v1 ) ライセンス: Link先を確認 | Saranyo Moitra, Rajdeep Sensarma | (参考訳) 相関関数の知識からフェルミオンを相互作用する系のR\'{e}nyi と von Neumann エントロピーを構成するための処方料を提供する。
任意の次元における相互作用するフェルミオンのR\'{e}nyi 絡み合いエントロピーは、複製多様体上のシュウィンガー・ケルディシュ自由エネルギーと、レプリカ間の電流で表せることを示す。
電流は実空間において局所的であり、統合されていないサブシステムにのみ存在する。
これにより、レプリカを持たない標準場理論における連結コリエーターの観点で、絡み合うエントロピーの図式表現を構築することができる。
この構成は、相関子の計算方法に非依存であり、この公式で計算、シミュレーション、測定値を使用することができる。
この図式表現を用いることで、絡み合いを1粒子相関器や2粒子相関器などに依存する寄与に分解することができる。
本研究では,一粒子寄与に関する解析式と高次寄与のための図式構築について述べる。
解析的継続を通じてフォン・ノイマンエントロピーに対して、この構成をどのように拡張できるかを示す。
量子状態の実践的な実装では、通常、少数の粒子相関子に関する情報しか持たないため、量子状態に関する限られた知識と一致する絡み合いを計算する近似的な方法が提供される。 We provide a prescription to construct R\'{e}nyi and von Neumann entropy of a system of interacting fermions from a knowledge of its correlation functions. We show that R\'{e}nyi entanglement entropy of interacting fermions in arbitrary dimensions can be represented by a Schwinger Keldysh free energy on replicated manifolds with a current between the replicas. The current is local in real space and is present only in the subsystem which is not integrated out. This allows us to construct a diagrammatic representation of entanglement entropy in terms of connected correlators in the standard field theory with no replicas. This construction is agnostic to how the correlators are calculated, and one can use calculated, simulated or measured values of the correlators in this formula. Using this diagrammatic representation, one can decompose entanglement into contributions which depend on the one-particle correlator, two particle correlator and so on. We provide analytic formula for the one-particle contribution and a diagrammatic construction for higher order contributions. We show how this construction can be extended for von-Neumann entropy through analytic continuation. For a practical implementation of a quantum state, where one usually has information only about few-particle correlators, this provides an approximate way of calculating entanglement commensurate with the limited knowledge about the underlying quantum state. | 翻訳日:2023-06-14 12:14:33 公開日:2023-06-13 |
# 学習に基づく車体運動計画の誤解を分かち合う Parting with Misconceptions about Learning-based Vehicle Motion Planning ( http://arxiv.org/abs/2306.07962v1 ) ライセンス: Link先を確認 | Daniel Dauner, Marcel Hallgarten, Andreas Geiger, Kashyap Chitta | (参考訳) nuPlanのリリースは、車両の運動計画研究の新しい時代であり、大規模な実世界のデータセットと、正確な短期計画と長期のエゴ予測の両方を必要とする評価スキームを提供する。
既存のシステムは、両方の要求を同時に満たすのに苦労している。
実際、これらのタスクは根本的に不一致であり、独立して対処すべきである。
さらに,現場におけるクローズドループ計画の現状を評価し,複雑な実世界のシナリオにおける学習に基づく手法の限界と,レーングラフ探索アルゴリズムによる中心線選択などの単純なルールに基づく事前情報の価値を明らかにする。
さらに驚くべきことに、オープンループのサブタスクでは、この中心線のみをシーンコンテキストとして使用する場合(マップやその他のエージェントに関するすべての情報を無視して)、最良の結果が得られます。
これらの知見を組み合わせることで、非常にシンプルで効率的なプランナーを提案し、2023年のnuPlan計画コンテストで優勝した。 The release of nuPlan marks a new era in vehicle motion planning research, offering the first large-scale real-world dataset and evaluation schemes requiring both precise short-term planning and long-horizon ego-forecasting. Existing systems struggle to simultaneously meet both requirements. Indeed, we find that these tasks are fundamentally misaligned and should be addressed independently. We further assess the current state of closed-loop planning in the field, revealing the limitations of learning-based methods in complex real-world scenarios and the value of simple rule-based priors such as centerline selection through lane graph search algorithms. More surprisingly, for the open-loop sub-task, we observe that the best results are achieved when using only this centerline as scene context (\ie, ignoring all information regarding the map and other agents). Combining these insights, we propose an extremely simple and efficient planner which outperforms an extensive set of competitors, winning the nuPlan planning challenge 2023. | 翻訳日:2023-06-14 12:14:14 公開日:2023-06-13 |
# 難治性密度を最適化するメトロポリスハスティングの差別化 Differentiating Metropolis-Hastings to Optimize Intractable Densities ( http://arxiv.org/abs/2306.07961v1 ) ライセンス: Link先を確認 | Gaurav Arya, Ruben Seyer, Frank Sch\"afer, Alex Lew, Mathieu Huot, Vikash K. Mansinghka, Chris Rackauckas, Kartik Chandra and Moritz Schauer | (参考訳) 確率モデル上で推論を行う場合、ターゲット密度はしばしば難解となり、モンテカルロサンプリング器の使用が必要となる。
本研究では,メトロポリス・ハスティングス・サンプリング器の非偏微分手法を開発し,確率的推論による微分を可能にする。
マルコフ連鎖カップリングスキームによる確率微分の最近の進歩を融合させることで、この手順を不偏、低分散、自動化することができる。
これにより、難解なターゲット密度に対する期待として表現された目的に勾配に基づく最適化を適用することができる。
本研究では,ガウス混合モデルにおける不明瞭な観測とイジングモデルにおける比熱の最大化によるアプローチを示す。 When performing inference on probabilistic models, target densities often become intractable, necessitating the use of Monte Carlo samplers. We develop a methodology for unbiased differentiation of the Metropolis-Hastings sampler, allowing us to differentiate through probabilistic inference. By fusing recent advances in stochastic differentiation with Markov chain coupling schemes, the procedure can be made unbiased, low-variance, and automatic. This allows us to apply gradient-based optimization to objectives expressed as expectations over intractable target densities. We demonstrate our approach by finding an ambiguous observation in a Gaussian mixture model and by maximizing the specific heat in an Ising model. | 翻訳日:2023-06-14 12:13:56 公開日:2023-06-13 |
# 直交フレームとバッチに関する教師付きコントラスト損失 Supervised-Contrastive Loss Learns Orthogonal Frames and Batching Matters ( http://arxiv.org/abs/2306.07960v1 ) ライセンス: Link先を確認 | Ganesh Ramachandra Kini, Vala Vakilian, Tina Behnia, Jaidev Gill, Christos Thrampoulidis | (参考訳) スーパーバイザード・コントラスト・ロス(SCL)は、クロスエントロピー(CE)よりも競争力があり、しばしば優れている。
2つの異なる損失関数を最適化する場合、学習プロセスにどのような違いが生じるのか?
この質問に答えるために、SCLによって学習された埋め込みの幾何学は、クラスごとのトレーニング例の数に関係なく直交フレーム(OF)を形成する。
これはCEの損失とは対照的であり、以前の研究でクラスサイズに大きく依存する埋め込みジオメトリを学習していることが示されている。
理論的には、SCL損失とエントリーワイド非負性制約を持つ非制約特徴モデルの大域的最小化がOFを形成することを証明する。
次に、ベンチマークビジョンデータセット上で標準ディープラーニングモデルを用いて実験を行い、モデルの予測を検証する。
最後に,SCLトレーニングで選択したバッチ方式が,幾何への収束の質を決定する上で重要な役割を担っていることを,分析と実験により明らかにした。
この発見は、各バッチにいくつかのバインディング例を追加することで、幾何の発生を大幅にスピードアップする、単純なアルゴリズムを動機付けている。 Supervised contrastive loss (SCL) is a competitive and often superior alternative to the cross-entropy (CE) loss for classification. In this paper we ask: what differences in the learning process occur when the two different loss functions are being optimized? To answer this question, our main finding is that the geometry of embeddings learned by SCL forms an orthogonal frame (OF) regardless of the number of training examples per class. This is in contrast to the CE loss, for which previous work has shown that it learns embeddings geometries that are highly dependent on the class sizes. We arrive at our finding theoretically, by proving that the global minimizers of an unconstrained features model with SCL loss and entry-wise non-negativity constraints form an OF. We then validate the model's prediction by conducting experiments with standard deep-learning models on benchmark vision datasets. Finally, our analysis and experiments reveal that the batching scheme chosen during SCL training plays a critical role in determining the quality of convergence to the OF geometry. This finding motivates a simple algorithm wherein the addition of a few binding examples in each batch significantly speeds up the occurrence of the OF geometry. | 翻訳日:2023-06-14 12:13:43 公開日:2023-06-13 |
# 全光神経ネットワークの役割 The role of all-optical neural networks ( http://arxiv.org/abs/2306.06632v2 ) ライセンス: Link先を確認 | Micha{\l} Matuszewski, Adam Prystupiuk, Andrzej Opala | (参考訳) 光コンピューティングと機械学習における最近の業績を踏まえ、エネルギー効率とスケーラビリティの観点から、全光コンピューティングが電子および光電子コンピューティングを上回る条件について考察する。
システム全体としての性能を考慮すると、メモリアクセスとデータ取得のコストは、電子だけでなく、光電子デバイスや全光デバイスでも主要な効率ボトルネックの1つになりがちである。
しかし、大きなニューラルネットワークモデルでは、全光学デバイスが推論において有利になり、生成モデルでは特に有利になると予想する。
また、足跡、非線形性の強さ、光信号劣化、計算精度の制限、量子ノイズを含む全光ニューラルネットワークの限界についても考察する。 In light of recent achievements in optical computing and machine learning, we consider the conditions under which all-optical computing may surpass electronic and optoelectronic computing in terms of energy efficiency and scalability. When considering the performance of a system as a whole, the cost of memory access and data acquisition is likely to be one of the main efficiency bottlenecks not only for electronic, but also for optoelectronic and all-optical devices. However, we predict that all-optical devices will be at an advantage in the case of inference in large neural network models, and the advantage will be particularly large in the case of generative models. We also consider the limitations of all-optical neural networks including footprint, strength of nonlinearity, optical signal degradation, limited precision of computations, and quantum noise. | 翻訳日:2023-06-14 10:30:24 公開日:2023-06-13 |
# クラス非依存な画像復元のための画像適応型コードブックの学習 Learning Image-Adaptive Codebooks for Class-Agnostic Image Restoration ( http://arxiv.org/abs/2306.06513v2 ) ライセンス: Link先を確認 | Kechun Liu, Yitong Jiang, Inchang Choi, Jinwei Gu | (参考訳) コードブックの形で、離散生成前処理に関する最近の研究は、コードブックにまたがる離散前処理空間が多様な画像劣化に対するロバスト性を高めるため、画像再構成と復元におけるエキサイティングな性能を示している。
しかしながら、これらの手法では、異なる画像カテゴリのコードブックを個別にトレーニングする必要があるため、特定の画像カテゴリのみ(例えば、顔、アーキテクチャなど)に制限され、任意の自然画像を扱うことができない。
本稿では,クラスに依存しない画像復元のための画像適応型コードブックを学習するためのadacodeを提案する。
イメージカテゴリごとに1つのコードブックを学習するのではなく、基本コードブックのセットを学習します。
入力画像に対して、adacodeは、これらの基底コードブックの重み付き組合せを計算した重みマップを学習し、適応画像復元を行う。
直感的には、AdaCodeは以前の作業よりも柔軟で表現力豊かな離散生成である。
実験により,AdaCodeは,画像の超解像や塗装など,画像の復元と復元作業における最先端のパフォーマンスを達成できることが示されている。 Recent work on discrete generative priors, in the form of codebooks, has shown exciting performance for image reconstruction and restoration, as the discrete prior space spanned by the codebooks increases the robustness against diverse image degradations. Nevertheless, these methods require separate training of codebooks for different image categories, which limits their use to specific image categories only (e.g. face, architecture, etc.), and fail to handle arbitrary natural images. In this paper, we propose AdaCode for learning image-adaptive codebooks for class-agnostic image restoration. Instead of learning a single codebook for each image category, we learn a set of basis codebooks. For a given input image, AdaCode learns a weight map with which we compute a weighted combination of these basis codebooks for adaptive image restoration. Intuitively, AdaCode is a more flexible and expressive discrete generative prior than previous work. Experimental results demonstrate that AdaCode achieves state-of-the-art performance on image reconstruction and restoration tasks, including image super-resolution and inpainting. | 翻訳日:2023-06-14 10:30:11 公開日:2023-06-13 |
# 機械学習モデルの解釈可能な差異 Interpretable Differencing of Machine Learning Models ( http://arxiv.org/abs/2306.06473v2 ) ライセンス: Link先を確認 | Swagatam Haldar, Diptikalyan Saha, Dennis Wei, Rahul Nair, Elizabeth M. Daly | (参考訳) 機械学習(ML)モデルの違いを理解することは、競合するモデルのセットを選択することから、新しいトレーニングデータでデプロイされたモデルを更新することまで、シナリオに関心がある。
これらのケースでは、機能空間のどこに違いが生じるかを特定するために、正確性などの全体的な測定基準の相違を超えることを望んでいます。
本稿では,2つのmlモデルの出力の相似性関数を予測し,その差異を人間解釈可能な表現としてモデル差異の問題を定式化する。
提案手法は,2つのモデルに連結した2つの決定木からなる共同サロゲート木(JST)を学習することである。
jstは、違いの直感的な表現を提供し、モデルの決定ロジックのコンテキストに変化を配置します。
コンテキストは、aiシステムの基盤となるメンタルモデルに差異をマップするのに役立つため、重要である。
また,JSTの精度を高めるための改良手法を提案する。
経験的評価を通じて,このような文脈的差異は簡潔であり,単純アプローチよりも忠実さを損なうことなく達成できることを実証する。 Understanding the differences between machine learning (ML) models is of interest in scenarios ranging from choosing amongst a set of competing models, to updating a deployed model with new training data. In these cases, we wish to go beyond differences in overall metrics such as accuracy to identify where in the feature space do the differences occur. We formalize this problem of model differencing as one of predicting a dissimilarity function of two ML models' outputs, subject to the representation of the differences being human-interpretable. Our solution is to learn a Joint Surrogate Tree (JST), which is composed of two conjoined decision tree surrogates for the two models. A JST provides an intuitive representation of differences and places the changes in the context of the models' decision logic. Context is important as it helps users to map differences to an underlying mental model of an AI system. We also propose a refinement procedure to increase the precision of a JST. We demonstrate, through an empirical evaluation, that such contextual differencing is concise and can be achieved with no loss in fidelity over naive approaches. | 翻訳日:2023-06-14 10:29:52 公開日:2023-06-13 |
# Aria Digital Twin:エゴセントリックな3Dマシン知覚のためのベンチマークデータセット Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception ( http://arxiv.org/abs/2306.06362v2 ) ライセンス: Link先を確認 | Xiaqing Pan, Nicholas Charron, Yongqian Yang, Scott Peters, Thomas Whelan, Chen Kong, Omkar Parkhi, Richard Newcombe, Carl Yuheng Ren | (参考訳) aria digital twin (adt) - 広範囲のオブジェクト、環境、人間レベルの根拠を備えたaraメガネでキャプチャされた、エゴセントリックなデータセットである。
このADTリリースは、Aria装着者が398のオブジェクトインスタンスを持つ2つの屋内シーンで実施する200の実世界のアクティビティを含む(324の定常および74の動的)。
各シーケンスは以下の通りである。
a) モノクロカメラストリーム2つ,RGBカメラストリーム1つ,IMUストリーム2つの生データ
b) センサの完全な校正
c) aria装置の連続6自由度(6dof)ポーズ、対象6dofポーズ、3d視線ベクトル、3d人間のポーズ、2d画像分割、画像深度マップを含む地上真実データ
d) フォトリアリスティックな合成レンダリング。
私たちの知る限りでは、ADTに匹敵する正確性、フォトリアリズム、包括性を備えた既存のエゴセントリックデータセットはありません。
これは3dオブジェクトの検出と追跡、シーンの再構築と理解、sim-to-real learning、人間のポーズ予測といった非常に困難な研究課題を含むと同時に、拡張現実(ar)アプリケーションのための新しい機械知覚タスクにも刺激を与えます。
ADT研究のユースケースの探索を開始するために,ADTのベンチマークデータセットとしての有用性を実証するオブジェクト検出,セグメンテーション,画像翻訳タスクの最先端手法をいくつか評価した。 We introduce the Aria Digital Twin (ADT) - an egocentric dataset captured using Aria glasses with extensive object, environment, and human level ground truth. This ADT release contains 200 sequences of real-world activities conducted by Aria wearers in two real indoor scenes with 398 object instances (324 stationary and 74 dynamic). Each sequence consists of: a) raw data of two monochrome camera streams, one RGB camera stream, two IMU streams; b) complete sensor calibration; c) ground truth data including continuous 6-degree-of-freedom (6DoF) poses of the Aria devices, object 6DoF poses, 3D eye gaze vectors, 3D human poses, 2D image segmentations, image depth maps; and d) photo-realistic synthetic renderings. To the best of our knowledge, there is no existing egocentric dataset with a level of accuracy, photo-realism and comprehensiveness comparable to ADT. By contributing ADT to the research community, our mission is to set a new standard for evaluation in the egocentric machine perception domain, which includes very challenging research problems such as 3D object detection and tracking, scene reconstruction and understanding, sim-to-real learning, human pose prediction - while also inspiring new machine perception tasks for augmented reality (AR) applications. To kick start exploration of the ADT research use cases, we evaluated several existing state-of-the-art methods for object detection, segmentation and image translation tasks that demonstrate the usefulness of ADT as a benchmarking dataset. | 翻訳日:2023-06-14 10:29:35 公開日:2023-06-13 |
# LLMが物質科学と化学を変換する14の例:大規模言語モデルハッカソンのリフレクション 14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon ( http://arxiv.org/abs/2306.06283v2 ) ライセンス: Link先を確認 | Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, Mar\'ia Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub L\'ala, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouri\~no, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Rankovi\'c, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Heck, Christoph V\"olker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik | (参考訳) 化学と材料科学は複雑である。
近年、データ駆動や計算技術を用いて、この複雑さに対処することに成功した。
しかし、非常に特定の形式で構造化された入力の必要性と、ツールがどんどん増え続けているという事実は、ユーザビリティとアクセシビリティの課題を生み出します。
これらの分野の多くのデータが構造化されていないという事実と相まって、これらのツールの有効性は限られている。
大規模言語モデル(LLM)がこれらの問題に対処する可能性があることを示す最近の研究によって、我々は化学、材料科学などにおけるLLMの応用に関するハッカソンイベントを開催した。
この記事では、このハッカソンで構築されたプロジェクトについて紹介する。
参加者は、分子や材料の特性の予測、ツールの新しいインターフェースの設計、構造化されていないデータからの知識の抽出、新しい教育アプリケーションの開発など、様々な用途にLLMを使用した。
多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。
アイデアとプロジェクトの豊富な収集は、LLMの応用は物質科学や化学に限らず、幅広い科学分野に潜在的利益をもたらすことを示している。 Chemistry and materials science are complex. Recently, there have been great successes in addressing this complexity using data-driven or computational techniques. Yet, the necessity of input structured in very specific forms and the fact that there is an ever-growing number of tools creates usability and accessibility challenges. Coupled with the reality that much data in these disciplines is unstructured, the effectiveness of these tools is limited. Motivated by recent works that indicated that large language models (LLMs) might help address some of these issues, we organized a hackathon event on the applications of LLMs in chemistry, materials science, and beyond. This article chronicles the projects built as part of this hackathon. Participants employed LLMs for various applications, including predicting properties of molecules and materials, designing novel interfaces for tools, extracting knowledge from unstructured data, and developing new educational applications. The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields. The rich collection of ideas and projects also indicates that the applications of LLMs are not limited to materials science and chemistry but offer potential benefits to a wide range of scientific disciplines. | 翻訳日:2023-06-14 10:29:07 公開日:2023-06-13 |
# 組立によるモデル不確定性の面の一貫性説明 Consistent Explanations in the Face of Model Indeterminacy via Ensembling ( http://arxiv.org/abs/2306.06193v2 ) ライセンス: Link先を確認 | Dan Ley, Leonard Tang, Matthew Nazari, Hongjin Lin, Suraj Srinivas, Himabindu Lakkaraju | (参考訳) 本研究は、与えられたデータセットとタスクに対して、複数の(ほぼ)均質なモデルが存在するために生じる、モデル不確定性の存在下で予測モデルに対して一貫した説明を提供するという課題に対処する。
類似した性能にもかかわらず、これらのモデルは予測に矛盾する、あるいは矛盾する説明をしばしば示し、批判的な決定を下すためにこれらのモデルに依存するエンドユーザーに課題を提起する。
この問題を認識し,これらのシナリオで提供される説明の一貫性を高めるアプローチとして,アンサンブル手法を導入する。
ニューラルネットワークのロスランドスケープとモードコネクティビティに関する最近の研究から得た知見を活かして,アンサンブル戦略を考案し,トレーニング中のランダムシードの変化のみから生じるパフォーマンス変動のモデルセットとして,アンサンブルセットを効率的に探索する。
5つのベンチマークファイナンシャルデータセットの実験では、アンサンブルは類似性を説明する上で大きな改善をもたらすことが示され、アンサンブル法がアンサンブル法を効果的に探索する可能性を示している。
本研究は,説明を解釈する際にモデル不確定性を考慮することの重要性を浮き彫りにし,機械学習における説明の信頼性向上におけるアンサンブルの有効性を示す。 This work addresses the challenge of providing consistent explanations for predictive models in the presence of model indeterminacy, which arises due to the existence of multiple (nearly) equally well-performing models for a given dataset and task. Despite their similar performance, such models often exhibit inconsistent or even contradictory explanations for their predictions, posing challenges to end users who rely on these models to make critical decisions. Recognizing this issue, we introduce ensemble methods as an approach to enhance the consistency of the explanations provided in these scenarios. Leveraging insights from recent work on neural network loss landscapes and mode connectivity, we devise ensemble strategies to efficiently explore the underspecification set -- the set of models with performance variations resulting solely from changes in the random seed during training. Experiments on five benchmark financial datasets reveal that ensembling can yield significant improvements when it comes to explanation similarity, and demonstrate the potential of existing ensemble methods to explore the underspecification set efficiently. Our findings highlight the importance of considering model indeterminacy when interpreting explanations and showcase the effectiveness of ensembles in enhancing the reliability of explanations in machine learning. | 翻訳日:2023-06-14 10:28:44 公開日:2023-06-13 |
# 企業のサイバー犯罪を語る: 脅威の風景に対する地下のコミュニティの関連性を推測する枠組み You Can Tell a Cybercriminal by the Company they Keep: A Framework to Infer the Relevance of Underground Communities to the Threat Landscape ( http://arxiv.org/abs/2306.05898v2 ) ライセンス: Link先を確認 | Michele Campobasso, Radu R\u{a}dulescu, Sylvan Brons, Luca Allodi | (参考訳) 犯罪現場にはフォーラムのマーケットプレースがあり、サイバー犯罪者は知識やスキル、サイバー犯罪製品を共有している。
しかし、すべてのマーケットプレースが全体的な脅威の状況で同じであるかどうかはまだ不明である。
取引を効果的に支援するためには、地下市場は(マルウェアの再パッケージや何年も前のパスワードデータベースとは対照的に)実際の技術とサイバー犯罪製品の交換を可能にする基本的な経済問題(道徳的ハザード、有害選択など)に対処する必要がある。
関連する文献や手作業による調査から、これらの問題を解決するためにマーケットプレイスが実装するいくつかのメカニズムを特定し、ビジネスモデルキャンバスに基づいた市場評価フレームワークにまとめる。
このフレームワークを使用して,'成功' マーケットプレースの有無,'成功' マーケットプレースで採用されているものとの違いを評価する。
このフレームワークを23の地下フォーラム市場でテストし、起訴されたサイバー犯罪者の836の別名を検索して'successful'マーケットプレースを特定した。
我々は、管理者が貿易に不公平であり、売り手を検証し、市場を機能に保つための適切な経済インセンティブを持っている市場が、より信頼できる脅威源である可能性が高いという証拠を見つけ出す。 The criminal underground is populated with forum marketplaces where, allegedly, cybercriminals share and trade knowledge, skills, and cybercrime products. However, it is still unclear whether all marketplaces matter the same in the overall threat landscape. To effectively support trade and avoid degenerating into scams-for-scammers places, underground markets must address fundamental economic problems (such as moral hazard, adverse selection) that enable the exchange of actual technology and cybercrime products (as opposed to repackaged malware or years-old password databases). From the relevant literature and manual investigation, we identify several mechanisms that marketplaces implement to mitigate these problems, and we condense them into a market evaluation framework based on the Business Model Canvas. We use this framework to evaluate which mechanisms `successful' marketplaces have in place, and whether these differ from those employed by `unsuccessful' marketplaces. We test the framework on 23 underground forum markets by searching 836 aliases of indicted cybercriminals to identify `successful' marketplaces. We find evidence that marketplaces whose administrators are impartial in trade, verify their sellers, and have the right economic incentives to keep the market functional are more likely to be credible sources of threat. | 翻訳日:2023-06-14 10:28:22 公開日:2023-06-13 |
# $\frac{\ell_1}{\ell_2}=正規化レイテンシサロゲートによる終端ニューラルネットワーク圧縮 End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$ Regularized Latency Surrogates ( http://arxiv.org/abs/2306.05785v2 ) ライセンス: Link先を確認 | Anshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain | (参考訳) プルーニングや量子化といった手法によるニューラルネットワーク(nn)の圧縮には、各層に対して圧縮ハイパーパラメータ(例えば、プルーニングするチャネルの数、量子化のためのビット幅)を設定する必要がある。
モデルの浮動小数点演算(FLOP)を最適化するエンドツーエンド技術や,新しい$\frac{\ell_1}{\ell_2}$レイテンシサロゲートによってデバイス上でのレイテンシを最適化することで,この問題に対処する。
このアルゴリズムは汎用性があり,pruning,low-rank factorization,quantizationなど,多くの一般的な圧縮手法で使用することができる。
重要なことに、それは高速で、単一のモデルトレーニングとほぼ同じ時間で実行されます。
GLUEの微調整タスクにおけるBERT圧縮では、FLOPをわずか1\%の値下げで50\%の値下げを実現しています。
imagenet-1k 上で mobilenetv3 を圧縮するには,soma 圧縮技術よりも 3 倍のトレーニング計算を必要とせず,フロップ数を 15 % 削減し,デバイス上でのレイテンシを 11 % 削減できる。
最後に、より小さなデータセットでの転送学習では、トレーニングコストと精度がほぼ同じで、標準のMobileNetV3であるEfficientNetスイートよりも1.2\times$-$1.4\times$安いアーキテクチャを識別する。 Neural network (NN) compression via techniques such as pruning, quantization requires setting compression hyperparameters (e.g., number of channels to be pruned, bitwidths for quantization) for each layer either manually or via neural architecture search (NAS) which can be computationally expensive. We address this problem by providing an end-to-end technique that optimizes for model's Floating Point Operations (FLOPs) or for on-device latency via a novel $\frac{\ell_1}{\ell_2}$ latency surrogate. Our algorithm is versatile and can be used with many popular compression methods including pruning, low-rank factorization, and quantization. Crucially, it is fast and runs in almost the same amount of time as single model training; which is a significant training speed-up over standard NAS methods. For BERT compression on GLUE fine-tuning tasks, we achieve $50\%$ reduction in FLOPs with only $1\%$ drop in performance. For compressing MobileNetV3 on ImageNet-1K, we achieve $15\%$ reduction in FLOPs, and $11\%$ reduction in on-device latency without drop in accuracy, while still requiring $3\times$ less training compute than SOTA compression techniques. Finally, for transfer learning on smaller datasets, our technique identifies $1.2\times$-$1.4\times$ cheaper architectures than standard MobileNetV3, EfficientNet suite of architectures at almost the same training cost and accuracy. | 翻訳日:2023-06-14 10:27:54 公開日:2023-06-13 |
# テレコム波長における分光多重モード励起状態の生成 Spectrally multimode squeezed states generation at telecom wavelengths ( http://arxiv.org/abs/2306.07267v2 ) ライセンス: Link先を確認 | Victor Roman-Rodriguez, David Fainsin, Guilherme L. Zanin, Nicolas Treps, Eleni Diamanti, Valentina Parigi | (参考訳) 赤外cバンド上のスペクトルマルチモードの光圧縮状態を生成する光源の実験的実証について報告する。
これは、フェムト秒レーザーの第2高調波で励起される周期的なKTP導波路において、シングルパスのパラメトリックダウン変換(SPDC)プロセスを用いて達成される。
本測定では, 2.5dB以上の周波数モードで有意なスクイーズが認められた。
さらに,8個の周波数帯域にまたがるマルチパーティの絡み合いを,各周波数帯域の共分散行列を計測して示す。
最後に、再構成可能なモード選択ホモダイン検出を用いて、出力を様々な形状のクラスター状態に成形する。
この結果は、通信波長における連続変数量子情報プロトコルの実装方法となり、マルチパーティの絡み合いベースの量子通信と計算に応用される。 We report on the experimental demonstration of a source that generates spectrally multimode squeezed states of light over the infrared C-Band. This is achieved using a single-pass Spontaneous Parametric Down Conversion (SPDC) process in a periodically-poled KTP waveguide that is pumped with the second harmonic of a femtosecond laser. Our measurements show significant squeezing in more than 21 frequency modes, with a maximum squeezing value over 2.5 dB. Moreover, we demonstrate multiparty entanglement across 8 individual frequency bands by measuring the covariance matrix of their quadratures. Finally, we use reconfigurable mode-selective homodyne detection to mold the output into cluster states of various shapes. This result paves the way for the implementation of continuous variable quantum information protocols at telecommunication wavelengths, with applications in multiparty, entanglement-based quantum communication and computation. | 翻訳日:2023-06-14 10:22:41 公開日:2023-06-13 |
# detrex:ベンチマーク検出トランスフォーマー detrex: Benchmarking Detection Transformers ( http://arxiv.org/abs/2306.07265v2 ) ライセンス: Link先を確認 | Tianhe Ren, Shilong Liu, Feng Li, Hao Zhang, Ailing Zeng, Jie Yang, Xingyu Liao, Ding Jia, Hongyang Li, He Cao, Jianan Wang, Zhaoyang Zeng, Xianbiao Qi, Yuhui Yuan, Jianwei Yang, Lei Zhang | (参考訳) 検出TR(Detection TRansformer)アルゴリズムは研究コミュニティで注目されており、オブジェクト検出やその他の知覚タスクの主流となるアプローチとして徐々に発展しつつある。
しかし、現在の分野には、DETRベースのモデルに特化された統一的で包括的なベンチマークが欠けている。
この問題に対処するために,Detrexという,オブジェクト検出やセグメンテーション,ポーズ推定など,さまざまな基本的なタスクをカバーする,主要なDETRベースのインスタンス認識アルゴリズムの大部分をサポートする,統一的で高度にモジュール化された軽量なコードベースを開発した。
我々は detrex で広範な実験を行い, detr モデルに対する包括的なベンチマークを行う。
さらに,検出トランスフォーマーの性能向上に寄与し,サポート対象のアルゴリズムに強力なベースラインを提供するとともに,DeTRベースのモデルの評価と比較を行うとともに,DeTRベースのインスタンス認識の深い理解と進歩を促進するために,Detrexが研究コミュニティに標準化された統一プラットフォームを提供することを期待している。
私たちのコードはhttps://github.com/idea-research/detrex.comで利用可能です。
このプロジェクトは現在活発に開発されている。
さらなる開発とコントリビューションのために、コミュニティにdetrexコードベースの使用を推奨しています。 The DEtection TRansformer (DETR) algorithm has received considerable attention in the research community and is gradually emerging as a mainstream approach for object detection and other perception tasks. However, the current field lacks a unified and comprehensive benchmark specifically tailored for DETR-based models. To address this issue, we develop a unified, highly modular, and lightweight codebase called detrex, which supports a majority of the mainstream DETR-based instance recognition algorithms, covering various fundamental tasks, including object detection, segmentation, and pose estimation. We conduct extensive experiments under detrex and perform a comprehensive benchmark for DETR-based models. Moreover, we enhance the performance of detection transformers through the refinement of training hyper-parameters, providing strong baselines for supported algorithms.We hope that detrex could offer research communities a standardized and unified platform to evaluate and compare different DETR-based models while fostering a deeper understanding and driving advancements in DETR-based instance recognition. Our code is available at https://github.com/IDEA-Research/detrex. The project is currently being actively developed. We encourage the community to use detrex codebase for further development and contributions. | 翻訳日:2023-06-14 10:22:25 公開日:2023-06-13 |
# LTCR:長文中国の噂検出データセット LTCR: Long-Text Chinese Rumor Detection Dataset ( http://arxiv.org/abs/2306.07201v2 ) ライセンス: Link先を確認 | Ziyang Ma, Mengsha Liu, Guian Fang, Ying Shen | (参考訳) 偽情報はソーシャルメディアに急速に広まり、市民の行動や社会イベントに対する反応に悪影響を及ぼす。
偽ニュース、特に完全に見つけるのが難しい長いテキストをよりよく検出するために、LTCRと呼ばれるLong-Text Chinese Rumor検出データセットが提案されている。
ltcrデータセットは、特にcovid-19に関連する複雑な偽ニュースの文脈において、誤った情報を正確に検出するための貴重なリソースを提供する。
データセットは、それぞれ1,729と500のリアルニュースとフェイクニュースで構成されている。
実ニュースと偽ニュースの平均長は約230文字と152文字である。
また,データセット上で最も高い精度(95.85%),偽ニュースリコール(90.91%),f-score(90.60%)を実現する,salience-aware fake news detectionモデルを提案する。
(https://github.com/Enderfga/DoubleCheck) False information can spread quickly on social media, negatively influencing the citizens' behaviors and responses to social events. To better detect all of the fake news, especially long texts which are harder to find completely, a Long-Text Chinese Rumor detection dataset named LTCR is proposed. The LTCR dataset provides a valuable resource for accurately detecting misinformation, especially in the context of complex fake news related to COVID-19. The dataset consists of 1,729 and 500 pieces of real and fake news, respectively. The average lengths of real and fake news are approximately 230 and 152 characters. We also propose \method, Salience-aware Fake News Detection Model, which achieves the highest accuracy (95.85%), fake news recall (90.91%) and F-score (90.60%) on the dataset. (https://github.com/Enderfga/DoubleCheck) | 翻訳日:2023-06-14 10:22:05 公開日:2023-06-13 |
# 配電リスク制御による公平なランキング学習 Fair Learning to Rank with Distribution-free Risk Control ( http://arxiv.org/abs/2306.07188v2 ) ライセンス: Link先を確認 | Ruocheng Guo, Jean-Fran\c{c}ois Ton, Yang Liu | (参考訳) オンライン経済においてLearning to Rank(LTR)手法は不可欠であり、ユーザやアイテムプロバイダに影響を与える。
LTRモデルの公正性は、アイテム関連性に比例して露光を割り当てることに不可欠である。
決定論的ランキングモデルは、同じ関連のあるアイテムがわずかに異なるスコアを受け取ると不公平な露出分布をもたらす可能性がある。
plackett-luce (pl) モデルを組み込んだ確率的 ltr モデルは公平性の問題に対処するが、計算コストや性能保証には限界がある。
このような制約を克服するため,FairLTR-RCを提案する。
FairLTR-RCは、事前訓練されたスコアリング機能を活用して確率的LTRモデルを作成する。
さらに、FairLTR-RCは、分布自由リスク制御フレームワークを使用して、ユーザ指定ユーティリティに有限サンプル保証を提供する。
さらに、Thresholded PL(TPL)モデルを取り入れることで、実用性と公正性の効果的なトレードオフを実現することができる。
いくつかのベンチマークデータセットによる実験結果から、FairLTR-RCは特定のユーティリティのレベルを保証しながら、広く使われている決定論的LTRモデルの公平性を著しく改善することが示された。 Learning to Rank (LTR) methods are vital in online economies, affecting users and item providers. Fairness in LTR models is crucial to allocate exposure proportionally to item relevance. The deterministic ranking model can lead to unfair exposure distribution when items with the same relevance receive slightly different scores. Stochastic LTR models, incorporating the Plackett-Luce (PL) model, address fairness issues but have limitations in computational cost and performance guarantees. To overcome these limitations, we propose FairLTR-RC, a novel post-hoc model-agnostic method. FairLTR-RC leverages a pretrained scoring function to create a stochastic LTR model, eliminating the need for expensive training. Furthermore, FairLTR-RC provides finite-sample guarantees on a user-specified utility using distribution-free risk control framework. By additionally incorporating the Thresholded PL (TPL) model, we are able to achieve an effective trade-off between utility and fairness. Experimental results on several benchmark datasets demonstrate that FairLTR-RC significantly improves fairness in widely-used deterministic LTR models while guaranteeing a specified level of utility. | 翻訳日:2023-06-14 10:21:49 公開日:2023-06-13 |
# 外乱検出のためのカーネルランダム投影深さ Kernel Random Projection Depth for Outlier Detection ( http://arxiv.org/abs/2306.07056v2 ) ライセンス: Link先を確認 | Akira Tamamori | (参考訳) 本稿では,データクラウド上の複数のモダリティと非凸性に対処するために,ランダム射影深さ(rpd)の拡張を提案する。
提案手法の枠組みでは、RCDは再生カーネルヒルベルト空間で計算される。
カーネル主成分分析の助けを借りて,提案手法が上記の多重様相と非凸性に対応することを期待する。
実験結果は,提案手法がrdpよりも優れており,受信機動作特性(roc)の曲線下領域(aucs)に関するベンチマークデータセットの既存の検出モデルと同等であることを示す。 This paper proposes an extension of Random Projection Depth (RPD) to cope with multiple modalities and non-convexity on data clouds. In the framework of the proposed method, the RPD is computed in a reproducing kernel Hilbert space. With the help of kernel principal component analysis, we expect that the proposed method can cope with the above multiple modalities and non-convexity. The experimental results demonstrate that the proposed method outperforms RPD and is comparable to other existing detection models on benchmark datasets regarding Area Under the Curves (AUCs) of Receiver Operating Characteristic (ROC). | 翻訳日:2023-06-14 10:21:31 公開日:2023-06-13 |
# villandiffusion:拡散モデルのための統一バックドア攻撃フレームワーク VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models ( http://arxiv.org/abs/2306.06874v2 ) ライセンス: Link先を確認 | Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho | (参考訳) 拡散モデル(dms)は、反復的ノイズ付加と雑音除去から可逆的破壊過程を学ぶ最先端の生成モデルである。
これらは、テキストから画像への条件生成など、多くの生成AIアプリケーションのバックボーンである。
しかし、最近の研究では、基本的な無条件DM(DDPMやDDIMなど)は、モデル入力における悪意ある埋め込みパターンによって引き起こされる出力操作攻撃であるバックドアインジェクションに弱いことが示されている。
本稿では,dmsのバックドア解析の現在の範囲を拡大するための統一バックドアアタックフレームワーク(villandiffusion)を提案する。
本フレームワークは, 主流の非条件および条件付きDM(デノジングベースおよびスコアベース)と, 総合評価のための各種トレーニングフリーサンプリングを対象とする。
実験により,dm構成のバックドア解析を容易にするとともに,dmsに対するキャプションに基づくバックドア攻撃に対する新たな洞察を提供する。 Diffusion Models (DMs) are state-of-the-art generative models that learn a reversible corruption process from iterative noise addition and denoising. They are the backbone of many generative AI applications, such as text-to-image conditional generation. However, recent studies have shown that basic unconditional DMs (e.g., DDPM and DDIM) are vulnerable to backdoor injection, a type of output manipulation attack triggered by a maliciously embedded pattern at model input. This paper presents a unified backdoor attack framework (VillanDiffusion) to expand the current scope of backdoor analysis for DMs. Our framework covers mainstream unconditional and conditional DMs (denoising-based and score-based) and various training-free samplers for holistic evaluations. Experiments show that our unified framework facilitates the backdoor analysis of different DM configurations and provides new insights into caption-based backdoor attacks on DMs. | 翻訳日:2023-06-14 10:21:22 公開日:2023-06-13 |
# エンドツーエンドasp計算に向けて Towards end-to-end ASP computation ( http://arxiv.org/abs/2306.06821v2 ) ライセンス: Link先を確認 | Taisuke Sato, Akihiro Takemura, Katsumi Inoue | (参考訳) 本稿では,与えられた制約を満たす線形代数的安定モデルと解集合プログラミング(ASP)のエンドツーエンドアプローチを提案する。
この考え方はLin-Zhaoの定理 \cite{Lin04} をベクトル空間に直接制約を伴って実装することであり、これは行列化された正規論理プログラムから構築されたコスト関数の数値最小化、Lin-Zhaoの定理と制約のループ公式、したがって我々のアプローチにかかわる記号的ASPやSATソルバを使わないことである。
また,ループ公式のプログラムサイズとヒューリスティックスを縮小し,計算の難易度を低減するプリ計算を提案する。
3色およびハミルトンサイクル問題を含むプログラミング例を用いて、我々のアプローチを実証的に検証する。
我々のアプローチは純粋に数値であり、ベクトル/行列演算のみを含むため、マルチコアやGPUといった並列技術による加速度が期待できる。 We propose an end-to-end approach for answer set programming (ASP) and linear algebraically compute stable models satisfying given constraints. The idea is to implement Lin-Zhao's theorem \cite{Lin04} together with constraints directly in vector spaces as numerical minimization of a cost function constructed from a matricized normal logic program, loop formulas in Lin-Zhao's theorem and constraints, thereby no use of symbolic ASP or SAT solvers involved in our approach. We also propose precomputation that shrinks the program size and heuristics for loop formulas to reduce computational difficulty. We empirically test our approach with programming examples including the 3-coloring and Hamiltonian cycle problems. As our approach is purely numerical and only contains vector/matrix operations, acceleration by parallel technologies such as many-cores and GPUs is expected. | 翻訳日:2023-06-14 10:21:03 公開日:2023-06-13 |
# ロバスト音声言語理解のためのマルチモーダル音声テキストアーキテクチャ Multimodal Audio-textual Architecture for Robust Spoken Language Understanding ( http://arxiv.org/abs/2306.06819v2 ) ライセンス: Link先を確認 | Anderson R. Avila, Mehdi Rezagholizadeh, Chao Xing | (参考訳) 最近の音声アシスタントは通常、自動音声認識(ASR)エンジンと自然言語理解(NLU)システムからなるカスケード音声言語理解(SLU)ソリューションに基づいている。
このようなアプローチはASR出力に依存するため、しばしばいわゆるASRエラー伝播に悩まされる。
本研究では, BERT や RoBERTa などの事前学習言語モデル (PLM) に基づく最先端 NLU システムに対する ASR 誤り伝搬の影響について検討する。
さらに,マルチモーダル言語理解 (MLU) モジュールが提案され,ASR文字起こしにおける誤りによるSLU性能劣化を軽減する。
MLUは音声とテキストの両方から学習した自己教師機能、特に音声はWav2Vec、言語はBert/RoBERTaの恩恵を受ける。
我々のMLUは、エンコーダネットワークを組み合わせてオーディオ信号とテキストエンコーダを埋め込み、テキストの書き起こしを処理し、後続の融合層で音声とテキストのログを融合する。
提案したMLUは品質の悪いASR転写に対して堅牢であり,BERTとRoBERTaの性能は著しく損なわれていることがわかった。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。 Recent voice assistants are usually based on the cascade spoken language understanding (SLU) solution, which consists of an automatic speech recognition (ASR) engine and a natural language understanding (NLU) system. Because such approach relies on the ASR output, it often suffers from the so-called ASR error propagation. In this work, we investigate impacts of this ASR error propagation on state-of-the-art NLU systems based on pre-trained language models (PLM), such as BERT and RoBERTa. Moreover, a multimodal language understanding (MLU) module is proposed to mitigate SLU performance degradation caused by errors present in the ASR transcript. The MLU benefits from self-supervised features learned from both audio and text modalities, specifically Wav2Vec for speech and Bert/RoBERTa for language. Our MLU combines an encoder network to embed the audio signal and a text encoder to process text transcripts followed by a late fusion layer to fuse audio and text logits. We found that the proposed MLU showed to be robust towards poor quality ASR transcripts, while the performance of BERT and RoBERTa are severely compromised. Our model is evaluated on five tasks from three SLU datasets and robustness is tested using ASR transcripts from three ASR engines. Results show that the proposed approach effectively mitigates the ASR error propagation problem, surpassing the PLM models' performance across all datasets for the academic ASR engine. | 翻訳日:2023-06-14 10:20:43 公開日:2023-06-13 |
# 説明としての決定木の有効性の向上 Improving the Validity of Decision Trees as Explanations ( http://arxiv.org/abs/2306.06777v2 ) ライセンス: Link先を確認 | Jiri Nemecek and Tomas Pevny and Jakub Marecek | (参考訳) 表データによる分類と予測では、しばしば木に基づくモデルを用いる。
これは、グラフデータ(cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815]上のディープニューラルネットワークと競合し、いくつかの条件下では説明可能である。
説明性は木の深さと木の葉の精度に依存する。
ここでは,葉ノード毎の最大誤分類誤差を最小化することを目的として,低深度木を訓練し,低深度木の各葉からさらに「スペンド」を木ベースモデル(例えば,無限深さ木)とする。
低深度木は簡単に説明できるが、低深度モデルと吊り木モデルの組み合わせによる全体的な統計性能は、古典的手法(例えばCART)を用いて訓練された無限深度の決定木に改善され、最先端の手法(例えば、よく訓練されたXGBoost)に匹敵する。 In classification and forecasting with tabular data, one often utilizes tree-based models. This can be competitive with deep neural networks on tabular data [cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815] and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. Here, we train a low-depth tree with the objective of minimising the maximum misclassification error across each leaf node, and then ``suspend'' further tree-based models (e.g., trees of unlimited depth) from each leaf of the low-depth tree. The low-depth tree is easily explainable, while the overall statistical performance of the combined low-depth and suspended tree-based models improves upon decision trees of unlimited depth trained using classical methods (e.g., CART) and is comparable to state-of-the-art methods (e.g., well-tuned XGBoost). | 翻訳日:2023-06-14 10:20:18 公開日:2023-06-13 |
# EaSyGuide : 生成型大規模言語モデルの能力を活用したESG問題同定フレームワーク EaSyGuide : ESG Issue Identification Framework leveraging Abilities of Generative Large Language Models ( http://arxiv.org/abs/2306.06662v2 ) ライセンス: Link先を確認 | Hanwool Lee, Jonghyun Choi, Sohyeon Kwon, Sungbum Jung | (参考訳) 本稿では,多言語環境・社会・コーポレートガバナンス問題識別(ML-ESG)におけるFinNLP-2023共有タスクへの参加について述べる。
課題は、MSCI ESG評価ガイドラインで定義された35のESGキー問題に基づいて、ニュース記事の分類を行うことである。
我々のアプローチは英語とフランス語のサブタスクに焦点を当て、cerebrasgpt、opt、pythiaモデルとゼロショットとgpt3mixの強化技術を採用している。
我々は,RoBERTa,DeBERTa,FinBERTなどのエンコーダモデルを用いて,知識蒸留と追加訓練を行う。
F1スコア0.69の英語テキストサブタスクで第1位、F1スコア0.78のフランス語テキストサブタスクで第2位を確保した。
これらの結果は,様々な言語にわたるニュース記事において,ESG問題を特定する手法の有効性を裏付けるものである。
本研究は,ESGトピックの探索に寄与し,ESG問題識別に先進言語モデルを活用する可能性を強調した。 This paper presents our participation in the FinNLP-2023 shared task on multi-lingual environmental, social, and corporate governance issue identification (ML-ESG). The task's objective is to classify news articles based on the 35 ESG key issues defined by the MSCI ESG rating guidelines. Our approach focuses on the English and French subtasks, employing the CerebrasGPT, OPT, and Pythia models, along with the zero-shot and GPT3Mix Augmentation techniques. We utilize various encoder models, such as RoBERTa, DeBERTa, and FinBERT, subjecting them to knowledge distillation and additional training. Our approach yielded exceptional results, securing the first position in the English text subtask with F1-score 0.69 and the second position in the French text subtask with F1-score 0.78. These outcomes underscore the effectiveness of our methodology in identifying ESG issues in news articles across different languages. Our findings contribute to the exploration of ESG topics and highlight the potential of leveraging advanced language models for ESG issue identification. | 翻訳日:2023-06-14 10:19:56 公開日:2023-06-13 |