このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20221213となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 方向性グラフの2レベル量子ウォーカー I:ユニバーサル量子コンピューティング Two-level Quantum Walkers on Directed Graphs I: Universal Quantum Computing ( http://arxiv.org/abs/2112.08119v3 ) ライセンス: Link先を確認 | Ryo Asaka, Kazumitsu Sakai, Ryoko Yahagi | (参考訳) 本稿では,2つの内部状態(電子のスピンアップとダウン状態など)を持つフェルミオン/ボゾン多粒子連続時間量子ウォークを用いた普遍量子計算のモデルを提案する。
情報の変換にはデュアルレール符号化が採用されている: 単一キュービットは2つの平行経路のいずれかに1つの量子ウォーカの存在によって表される。
我々は、歩行者を1つの経路から次の経路へ、時計回りまたは時計回りに移動させるラウンドアバウンドゲートを開発する。
これは有向重み付きグラフ上の単粒子散乱によって実現でき、エッジウェイトは$$$と$\pm i$である。
ラウンドアバウトゲートは、量子ウォーカーの空間情報を内部状態に一時的にエンコードすることを可能にする。
ユニバーサルゲートは、いくつかの丸いゲート、内部状態に作用するユニタリゲート、ストレートパスに2粒子散乱を適切に組み合わせて構築される。
当社のモデルでは任意の ancilla qubit は不要です。
計算は、適切に設計された経路を量子ウォーカーを渡すことで行われる。
すなわち、時間に依存しない制御は不要である。
現在のモデルと互換性のある量子ランダムアクセスメモリの物理的実装は、第2の論文(arXiv:2204.08709)で検討される。 In the present paper, the first in a series of two, we propose a model of universal quantum computation using a fermionic/bosonic multi-particle continuous-time quantum walk with two internal states (e.g., the spin-up and down states of an electron). A dual-rail encoding is adopted to convert information: a single-qubit is represented by the presence of a single quantum walker in either of the two parallel paths. We develop a roundabout gate that moves a walker from one path to the next, either clockwise or counterclockwise, depending on its internal state. It can be realized by a single-particle scattering on a directed weighted graph with the edge weights $1$ and $\pm i$. The roundabout gate also allows the spatial information of the quantum walker to be temporarily encoded in its internal states. The universal gates are constructed by appropriately combining several roundabout gates, some unitary gates that act on the internal states and two-particle scatterings on straight paths. Any ancilla qubit is not required in our model. The computation is done by just passing quantum walkers through properly designed paths. Namely, there is no need for any time-dependent control. A physical implementation of quantum random access memory compatible with the present model will be considered in the second paper (arXiv:2204.08709). | 翻訳日:2023-03-04 11:58:40 公開日:2022-12-13 |
# 同期型量子生成機械学習 Synergic quantum generative machine learning ( http://arxiv.org/abs/2112.13255v3 ) ライセンス: Link先を確認 | Karol Bartkiewicz, Patrycja Tulewicz, Jan Roik, Karel Lemr | (参考訳) 生成量子機械学習への新しいアプローチを導入し、ハイパーパラメータの数を著しく削減し、我々のアプローチを実証する実証実験について報告する。
本提案は,ジェネレータと判別器の協調に依存するため,量子シナジー生成学習(quantum synergic generative learning)と呼ぶ。
我々は,最近提案された量子生成逆学習と相乗的アプローチが好適に比較できるという数値的証拠を提示する。
量子シミュレータで得られた結果に加えて、実際のプログラマブル量子コンピュータで得られた実験結果も提示する。
生成学習アルゴリズムを実装した量子コンピュータがベル状態の概念を学習する方法を検討する。
学習プロセスが完了すると、ネットワークは認識し、絡み合った状態を生成することができる。
量子エンタングルメントの概念が量子コンピュータによってどのように学習され、実証されるかを理解するための予備的な段階として扱うことができる。 We introduce a new approach towards generative quantum machine learning significantly reducing the number of hyperparameters and report on a proof-of-principle experiment demonstrating our approach. Our proposal depends on collaboration between the generators and discriminator, thus, we call it quantum synergic generative learning. We present numerical evidence that the synergic approach, in some cases, compares favorably to recently proposed quantum generative adversarial learning. In addition to the results obtained with quantum simulators, we also present experimental results obtained with an actual programmable quantum computer. We investigate how a quantum computer implementing generative learning algorithm could learn the concept of a Bell state. After completing the learning process, the network is able both to recognize and to generate an entangled state. Our approach can be treated as one possible preliminary step to understanding how the concept of quantum entanglement can be learned and demonstrated by a quantum computer. | 翻訳日:2023-03-03 07:30:42 公開日:2022-12-13 |
# 連続量子ゲートセットとパルスクラスメタ最適化 Continuous quantum gate sets and pulse class meta-optimization ( http://arxiv.org/abs/2203.13594v3 ) ライセンス: Link先を確認 | Francesco Preti, Tommaso Calarco and Felix Motzoi | (参考訳) 量子回路の回路深度を減らすことは、量子技術を実現する上で重要なボトルネックである。
この深さは合成された利用可能な量子ゲートの数に逆比例する。
さらに、量子ゲート合成と制御の問題により、物理およびアプリケーション固有の外部パラメータ依存性が幅広い。
本稿では,ポテンシャルパラメータ値の空間から制御空間への大域的最適マッピング,すなわちゲートの連続クラスを得るために,様々なパラメータに適応的に依存する最適制御パルスの族を学習する可能性について述べる。
提案手法は, 異なる量子ゲート上で実験を行い, 広い範囲の複数の可変パラメータや不確定パラメータが存在する場合でも, 高忠実性パルスを発生できることを証明した。 Reducing the circuit depth of quantum circuits is a crucial bottleneck to enabling quantum technology. This depth is inversely proportional to the number of available quantum gates that have been synthesised. Moreover, quantum gate synthesis and control problems exhibit a vast range of external parameter dependencies, both physical and application-specific. In this article we address the possibility of learning families of optimal control pulses which depend adaptively on various parameters, in order to obtain a global optimal mapping from the space of potential parameter values to the control space, and hence continuous classes of gates. Our proposed method is tested on different experimentally relevant quantum gates and proves capable of producing high-fidelity pulses even in presence of multiple variable or uncertain parameters with wide ranges. | 翻訳日:2023-02-20 20:56:34 公開日:2022-12-13 |
# 異方性ワイル半金属中のバルク及びエッジ光電流の流れの可視化 Visualizing bulk and edge photocurrent flow in anisotropic Weyl semimetals ( http://arxiv.org/abs/2203.17176v2 ) ライセンス: Link先を確認 | Yu-Xuan Wang, Xin-Yue Zhang, Chunhua Li, Xiaohan Yao, Ruihuan Duan, Thomas K. M. Graham, Zheng Liu, Fazel Tafti, David Broido, Ying Ran, Brian B. Zhou | (参考訳) 光をバルクの電流に修正する材料は光電子応用に望まれる。
反転破壊型ワイル半金属において、バルク光電流はワイルノードの近傍で強化された非線形光学過程によって生じる可能性がある。
しかし、これらの材料の光応答は光電流顕微鏡(SPCM)によってよく研究され、光電流発生と集光の影響が関与する。
ここでは,II型ワイル半金属WTe2およびTaIrTe4中の光電流流を,窒素空孔中心スピンを用いた高感度量子磁気学を用いて直接撮像する。
異方性光熱電効果(anisotropic photothermoelectric effect:apte)と呼ばれるバルク光電流発生の未知のメカニズムを明らかにする。
試料の内部およびエッジのspcmと磁気イメージングを同時に行うことで,アプテがweyl半金属デバイスで収集された長距離光電流をどのように刺激するかを,shockley-ramo定理を用いて可視化する。
以上の結果から, 電流源と異方性を有する均質材料を用いた新規光検出器の開発が注目されている。 Materials that rectify light into current in their bulk are desired for optoelectronic applications. In inversion-breaking Weyl semimetals, bulk photocurrents may arise due to nonlinear optical processes that are enhanced near the Weyl nodes. However, the photoresponse of these materials is commonly studied by scanning photocurrent microscopy (SPCM), which convolves the effects of photocurrent generation and collection. Here, we directly image the photocurrent flow inside the type-II Weyl semimetals WTe2 and TaIrTe4 using high-sensitivity quantum magnetometry with nitrogen-vacancy center spins. We elucidate an unknown mechanism for bulk photocurrent generation termed the anisotropic photothermoelectric effect (APTE), where unequal thermopowers along different crystal axes drive intricate circulations of photocurrent around the photoexcitation. Using simultaneous SPCM and magnetic imaging at the sample's interior and edges, we visualize how the APTE stimulates the long-range photocurrent collected in our Weyl semimetal devices through the Shockley-Ramo theorem. Our results highlight an overlooked, but widely relevant source of current flow and inspire novel photodetectors using homogeneous materials with anisotropy. | 翻訳日:2023-02-20 04:52:41 公開日:2022-12-13 |
# Bias(Stress)-Test Fairnessアルゴリズムのためのサンドボックスツール A Sandbox Tool to Bias(Stress)-Test Fairness Algorithms ( http://arxiv.org/abs/2204.10233v2 ) ライセンス: Link先を確認 | Nil-Jana Akpinar, Manish Nagireddy, Logan Stapleton, Hao-Fei Cheng, Haiyi Zhu, Steven Wu, Hoda Heidari | (参考訳) ml予測における不公平さの低減の重要性の高まりに動機づけられたfair-ml研究者は、アルゴリズムによる「フェアネス・エンハンシング(fairness-enhancing)」レメディエーションの広範なスイートを提示した。
しかし、既存のアルゴリズムのほとんどは、観測された不公平さの源を知らない。
その結果、現在、各アルゴリズムの介入が不公平の根本原因を和らげる可能性のある条件を特定するための指針の枠組みが欠如している。
このギャップを埋めるために、観察的不公平の原因となる基盤となるバイアス(トレーニングデータや設計選択など)を調査します。
本研究では, 偏見の公平性を検証し, 偏見の存在下でのアルゴリズム的対策の有効性を評価するために, 偏見注入型サンドボックスツールの概念と実装について述べる。
この過程をアルゴリズム的介入のバイアス(ストレス)テストと呼ぶ。
既存のツールキットとは異なり、当社はmlパイプラインにバイアスを事実上注入するコントロール環境を提供します。
このスタイリッシュな設定は、観測データを越えて、バイアスのないベンチマークに対して公正な介入をテストする、明確な能力を提供します。
特に、偏りのない状態の真のラベルにバイアス設定を介入した後の予測、つまりバイアス注入の前に、与えられた治療法が注入バイアスを軽減することができるかどうかを検証できる。
本稿では,合成データに関する概念実証事例研究を通じて,ツールキットの有用性について述べる。
実験分析では,シミュレーションによって得られる洞察の種類を示す。 Motivated by the growing importance of reducing unfairness in ML predictions, Fair-ML researchers have presented an extensive suite of algorithmic 'fairness-enhancing' remedies. Most existing algorithms, however, are agnostic to the sources of the observed unfairness. As a result, the literature currently lacks guiding frameworks to specify conditions under which each algorithmic intervention can potentially alleviate the underpinning cause of unfairness. To close this gap, we scrutinize the underlying biases (e.g., in the training data or design choices) that cause observational unfairness. We present the conceptual idea and a first implementation of a bias-injection sandbox tool to investigate fairness consequences of various biases and assess the effectiveness of algorithmic remedies in the presence of specific types of bias. We call this process the bias(stress)-testing of algorithmic interventions. Unlike existing toolkits, ours provides a controlled environment to counterfactually inject biases in the ML pipeline. This stylized setup offers the distinct capability of testing fairness interventions beyond observational data and against an unbiased benchmark. In particular, we can test whether a given remedy can alleviate the injected bias by comparing the predictions resulting after the intervention in the biased setting with true labels in the unbiased regime-that is, before any bias injection. We illustrate the utility of our toolkit via a proof-of-concept case study on synthetic data. Our empirical analysis showcases the type of insights that can be obtained through our simulations. | 翻訳日:2023-02-19 16:23:32 公開日:2022-12-13 |
# 国家・国家支援主体のサイバー環境への影響と重要インフラの将来 Impact of State and State Sponsored Actors on the Cyber Environment and the Future of Critical Infrastructure ( http://arxiv.org/abs/2212.08036v1 ) ライセンス: Link先を確認 | Henry Durojaye and Oluwaukola Raji | (参考訳) 本研究の目的は、国家や国家が支援するアクターがサイバー環境や重要なインフラの将来に与える影響を批判的に調査することであり、これらのサイバー環境に対する攻撃の大半は、重要なインフラの脆弱性に重点を置いており、これは2015年12月23日のロシアによるサイバー攻撃においてウクライナの多くの顧客に影響を与えるウクライナの電力会社による停電を引き起こした証拠となる[8]。
州や州が支援する組織で利用可能な膨大なリソースを考えると、攻撃が発見されたとしてもサイバー攻撃を検出することは難しくなり、特定の州によって実行されたことを証明するのは容易ではない。
本報告では,攻撃状態の防衛能力を大幅に低下させ,マイクロエコノミーを不安定化させ,国家の世論を効果的に揺さぶる偽情報として,国家と国家が支援する攻撃がサイバー環境および重要なインフラに与える影響について検討する。
そのため、俳優の処分に利用可能なリソースの数や、サイバー環境や重要なインフラに対する膨大な悪影響に気付き、政府、機関、その他の専門家は国家的な問題としてネットワークやセキュリティシステムを保護・優先し、民間の協力を促進する準備が整うことになる。 The purpose of this research paper is to critically explore the impact of state and state-sponsored actors on the cyber environment and the future of critical infrastructure, the majority of these attacks on the cyber environment have focused more on the vulnerability of critical infrastructures, this can be evidenced in the cyber-attack by Russia on December 23rd, 2015 that caused power outages experienced by the Ukrainian power companies which affected many customers in Ukraine [8]. Considering the enormous resources available to state and state-sponsored actors it has become difficult to detect cyber-attacks, even when the attack is discovered, proving that it was carried out by a particular state is not easy as such it is now being commonly exploited by malicious states. The paper examines the effect of the actions of the state and state-sponsored attacks on the cyber environment and critical infrastructures, these adverse effects include; greatly diminished defense capacity of the attacked states, destabilise the micro-economy, disinformation that can effectively sway public opinion in a state [1]. Consequently, being aware of the number of resources available at the disposal of the actors and the enormous negative impacts on the cyber environment and critical infrastructures, the government, agencies, and other professionals will be prepared to protect and prioritise network and security systems as a national issue thus encouraging public-private collaboration. | 翻訳日:2023-02-19 13:04:16 公開日:2022-12-13 |
# iiva:相互依存的インフラ脆弱性評価のためのシミュレーションベース一般化フレームワーク IIVA: A Simulation Based Generalized Framework for Interdependent Infrastructure Vulnerability Assessment ( http://arxiv.org/abs/2212.06894v1 ) ライセンス: Link先を確認 | Prasangsha Ganguly, Sayanti Mukherjee | (参考訳) 重要なインフラストラクチャシステムの正確な脆弱性評価は、インフラストラクチャのレジリエンスを高めるための基礎となる。
従来の手法と異なり, 物理的, 論理的, 地理的観点からの多様なインフラストラクチャ相互依存, 相互依存インフラストラクチャの供給需要フロー特性に関する情報の欠如/不完全, インフラストラクチャネットワークトポロジーおよび/または相互依存に関する不使用/不適切なデータである。
具体的には、シミュレーションに基づくハイブリッドアプローチと時間依存ベイズネットワーク解析を併用し、CISネットワーク内のカスケード障害を不完全な情報の下で検討する。
既存の電気、水、サプライチェーンネットワークの合成データを使用して、フレームワークを実装し、検証する。
インフラストラクチャの脆弱性は、Voronoi polygonsを使ってジオマップ上に表現される。
その結果,インフラの脆弱性はインフラシステムに組み込まれた冗長性の数に逆比例し,既存のインフラシステムに冗長性を加えるリソースを割り当てることが,障害のリスクを低減する上で重要であることが示された。
コンポーネントの初期障害率が高く、インフラストラクチャの脆弱性が高いことが観測され、初期障害確率の低減を目的としたインフラストラクチャシステムの近代化とアップグレードの重要性が強調された。
また,相互依存型インフラストラクチャシステム全体の障害リスクを最小化することを目的とした,複数のインフラストラクチャシステム間での協調作業と必要な情報共有の重要性を強調する。 Accurate vulnerability assessment of critical infrastructure systems is cardinal to enhance infrastructure resilience. Unlike traditional approaches, this paper proposes a novel infrastructure vulnerability assessment framework that accounts for: various types of infrastructure interdependencies including physical, logical and geographical from a holistic perspective; lack of/incomplete information on supply-demand flow characteristics of interdependent infrastructure; and, unavailability/inadequate data on infrastructure network topology and/or interdependencies. Specifically, this paper models multi-infrastructure vulnerabilities leveraging simulation-based hybrid approach coupled with time-dependent Bayesian network analysis while considering cascading failures within and across CIS networks, under incomplete information. Existing synthetic data on electricity, water and supply chain networks are used to implement/validate the framework. Infrastructure vulnerabilities are depicted on a geo-map using Voronoi polygons. Our results indicate that infrastructure vulnerability is inversely proportional to the number of redundancies inbuilt in the infrastructure system, indicating that allocating resources to add redundancies in an existing infrastructure system is essential to reduce its risk of failure. It is observed that higher the initial failure rate of the components, higher is the vulnerability of the infrastructure, highlighting the importance of modernizing and upgrading the infrastructure system aiming to reduce the initial failure probabilities. Our results also underline the importance of collaborative working and sharing the necessary information among multiple infrastructure systems, aiming towards minimizing the overall failure risk of interdependent infrastructure systems. | 翻訳日:2023-02-19 13:00:36 公開日:2022-12-13 |
# 都市設計と迅速解空間探査のための生成手法 Generative methods for Urban design and rapid solution space exploration ( http://arxiv.org/abs/2212.06783v1 ) ライセンス: Link先を確認 | Yue Sun, Timur Dogan | (参考訳) 急速な人口増加と気候変動により、大規模な都市再生と都市化が促進される。
持続可能、弾力性、居住可能な都市環境の開発において、都市設計者を支援する新しい計算方法が必要である。
都市デザイン空間探索とマスタープランの多目的最適化は、異なる利害関係者の要求とシミュレーションに基づくパフォーマンスフィードバックを考慮した生成パラメトリックモデリングを組み込むことにより、より良い設計成果を達成しつつ計画の迅速化に利用できる。
しかし、シミュレーションと様々な設計性能分析を組み合わせることでワークフローの拡張性を制限できる、都市型生成のための一般化および統合的な方法が欠如している。
本研究では,Rhino/Grasshopperエコシステムと都市解析・環境性能シミュレーションツールを統合し,迅速な設計空間探索と多目的最適化を容易にするテンソルフィールド型都市モデルツールキットの実装を提案する。
テンソル場モデリング手法は,水辺,地形,ビュー軸,既存の通り,ランドマーク,およびネットワーク指向性,所望の街路密度,アメニティ,建物,人々など,モデラーが重み付け可能な力として,非幾何学的デザイン入力などのコンテキスト制約をエンコードする汎用的な方法を提供する。
これによりユーザーは、モデル入力がほとんどない現実世界の都市に似た、多様な都市ファブリック構成を作成できる。
我々は,提案フレームワークの柔軟性と適用性を示すケーススタディを提示し,モデラーが設計と環境性能の相乗効果を識別できることを示す。 Rapid population growth and climate change drive urban renewal and urbanization at massive scales. New computational methods are needed to better support urban designers in developing sustainable, resilient, and livable urban environments. Urban design space exploration and multi-objective optimization of masterplans can be used to expedite planning while achieving better design outcomes by incorporating generative parametric modeling considering different stakeholder requirements and simulation-based performance feedback. However, a lack of generalizable and integrative methods for urban form generation that can be coupled with simulation and various design performance analysis constrain the extensibility of workflows. This research introduces an implementation of a tensor-field-based generative urban modeling toolkit that facilitates rapid design space exploration and multi-objective optimization by integrating with Rhino/Grasshopper ecosystem and its urban analysis and environmental performance simulation tools. Our tensor-field modeling method provides users with a generalized way to encode contextual constraints such as waterfront edges, terrain, view-axis, existing streets, landmarks, and non-geometric design inputs such as network directionality, desired densities of streets, amenities, buildings, and people as forces that modelers can weigh. This allows users to generate many, diverse urban fabric configurations that resemble real-world cities with very few model inputs. We present a case study to demonstrate the proposed framework's flexibility and applicability and show how modelers can identify design and environmental performance synergies that would be hard to find otherwise | 翻訳日:2023-02-19 13:00:09 公開日:2022-12-13 |
# 情報誤認に対する介入に関する比較評価--WHOチェックリストの強化 A Comparative Evaluation of Interventions Against Misinformation: Augmenting the WHO Checklist ( http://arxiv.org/abs/2212.06696v1 ) ライセンス: Link先を確認 | Hendrik Heuer, Elena Leah Glassman | (参考訳) 新型コロナウイルスのパンデミックの間、世界保健機関(WHO)は、人々が正確な情報と誤報を区別するためのチェックリストを提供した。
米国とドイツのコントロール実験において、この注文されたチェックリストの有用性を調査し、チェックリストの項目に作用するコストを下げるためにインタラクティブなバージョンを設計した。
介入を通して,2国間の正確な情報と誤情報の区別における参加者のパフォーマンスの非自明な違いを観察し,異なる環境におけるチェックリストの将来的有用性を予測する可能性のある理由について考察した。
ソースラベルを提供するチェックリストアイテムは、最も頻繁にフォローされ、最も役に立つと考えられていた。
我々の経験的知見に基づき、WHOが選択した命令に影響を受けているとしても、読者のファクトチェックを支援する介入よりも、ソースラベルの提供に重点を置くことを推奨する。
このようなソースラベルの提供の複雑さと,設計上の推奨事項について論じる。 During the COVID-19 pandemic, the World Health Organization provided a checklist to help people distinguish between accurate and misinformation. In controlled experiments in the United States and Germany, we investigated the utility of this ordered checklist and designed an interactive version to lower the cost of acting on checklist items. Across interventions, we observe non-trivial differences in participants' performance in distinguishing accurate and misinformation between the two countries and discuss some possible reasons that may predict the future helpfulness of the checklist in different environments. The checklist item that provides source labels was most frequently followed and was considered most helpful. Based on our empirical findings, we recommend practitioners focus on providing source labels rather than interventions that support readers performing their own fact-checks, even though this recommendation may be influenced by the WHO's chosen order. We discuss the complexity of providing such source labels and provide design recommendations. | 翻訳日:2023-02-19 12:59:40 公開日:2022-12-13 |
# サイバーセキュリティ教育における教育的課題 - 英国の視点から Pedagogic Challenges in Teaching Cyber Security -- a UK Perspective ( http://arxiv.org/abs/2212.06584v1 ) ライセンス: Link先を確認 | Lallie Harjinder, Sinclair Jane, Joy Mike, Janicke Helge, Price Blaine, Howley Richard | (参考訳) サイバーセキュリティは、英国、米国、そして世界中の多くの国で国家の関心事となっている。
大学はこのことに反応し、数多くのサイバーセキュリティ学位プログラムを立ち上げた。
本稿では,これらの学位の構造を考察し,特にその授業で直面する課題を浮き彫りにする。
サイバーセキュリティ導入の学生における学生の期待とcsi効果に関する課題について検討する。
我々は、科学とツールの議論を強調し、学位コースを教える学生や産業界と学者の間の教育的な緊張に焦点をあてる。
サイバーセキュリティは多くの倫理的問題に直面しており、大学環境よりもそうではない。
サイバーセキュリティにおける倫理的教育に関する問題を分析します。
本論文は, サイバーセキュリティ関連の学位課程の形状, 風味, 構造を探究する学者, およびこれらの学位を教授する学者に提示される課題に, 産業のプロフェッショナルや学術関係者が関心を持つ。 Cyber security has become an issue of national concern in the UK, USA and many other countries worldwide. Universities have reacted to this by launching numerous cyber security degree programmes. In this paper we explore the structure of these degrees and in particular highlight the challenges faced by academics teaching on them. We explore the issues relating to student expectations and the CSI effect in students entering cyber security. We highlight the science vs tools debate to bring focus to some of the pedagogic tensions between students/industry and the academics who teach on the degree courses. Cyber security is subject to numerous ethical issues and nowhere is this more so than in a university environment. We analyse some of the ethical teaching related issues in cyber security. This paper will be of interest to professionals in industry as well as academics interested in exploring the shape, flavour and structure of cyber security related degree courses and also the challenges presented to the academics that teach these degrees. | 翻訳日:2023-02-19 12:59:25 公開日:2022-12-13 |
# AIフェアネスの遺伝的限界 Inherent Limitations of AI Fairness ( http://arxiv.org/abs/2212.06495v1 ) ライセンス: Link先を確認 | Maarten Buyl, Tijl De Bie | (参考訳) 人工知能(AI)システムの現実的な影響は着実に増加しており、これらのシステムも精査されている。
特に、AIフェアネスの研究は、コンピュータ科学、社会科学、法学、哲学と結びついた豊富な研究分野へと急速に発展してきた。
AIフェアネスの測定と達成のための多くの技術的ソリューションが提案されているが、そのAIフェアネスのモデルは近年、誤解を招き、非現実的であるとして広く批判されている。
本稿では,AIフェアネスに対するこれらの批判を調査し,AIフェアネスの原型的パラダイムに固有の重要な限界を特定する。
技術的ソリューションがAIフェアネスの達成に現実的に役立つ範囲を慎重に概説することによって、公正AIの分野における開発に関する微妙な意見を形成するために必要な背景を読者に提供することを目指している。
このガイドラインはまた、公正な意思決定プロセスを支援するために、AIシステムに隣接する非AIソリューションの研究機会を提供する。 As the real-world impact of Artificial Intelligence (AI) systems has been steadily growing, so too have these systems come under increasing scrutiny. In particular, the study of AI fairness has rapidly developed into a rich field of research with links to computer science, social science, law, and philosophy. Though many technical solutions for measuring and achieving AI fairness have been proposed, their model of AI fairness has been widely criticized in recent years for being misleading and unrealistic. In our paper, we survey these criticisms of AI fairness and identify key limitations that are inherent to the prototypical paradigm of AI fairness. By carefully outlining the extent to which technical solutions can realistically help in achieving AI fairness, we aim to provide readers with the background necessary to form a nuanced opinion on developments in the field of fair AI. This delineation also provides research opportunities for non-AI solutions peripheral to AI systems in supporting fair decision processes. | 翻訳日:2023-02-19 12:59:11 公開日:2022-12-13 |
# Ripple:教育における生年数モデルの概念的解釈 Ripple: Concept-Based Interpretation for Raw Time Series Models in Education ( http://arxiv.org/abs/2212.01133v3 ) ライセンス: Link先を確認 | Mohammad Asadi, Vinitra Swamy, Jibril Frej, Julien Vignoud, Mirko Marras, Tanja K\"aser | (参考訳) 時系列は、教育予測タスクにおける最も一般的な入力データ形式である。
時系列データを用いた研究の大半は、予測性能と解釈可能性のために専門家が設計した手作りの特徴に焦点を当てている。
しかし、これらの特徴の抽出は人間やコンピュータにとって労働集約的である。
本稿では,グラフニューラルネットワークを用いた不規則な多変量時系列モデリングを用いて,手作りの特徴と比較して,生の時系列クリックストリームと同等あるいは優れた精度を実現する手法を提案する。
さらに, 生の時系列モデルにおいて概念活性化ベクトルを解釈可能性として拡張する。
学習領域におけるこれらの進歩を分析し,下流の介入と指導支援に対する学生の早期成績予測の課題に対処した。
6つの行動次元上の数百万の相互作用を持つ23のMOOCに関する実験分析は、我々のアプローチで設計したモデルが可能であることを示している。
(i)特徴抽出を行わず、最先端の教育時系列ベースラインを破る
(二)パーソナライズされた介入に対する解釈可能な洞察を提供する。
ソースコード: https://github.com/epfl-ml4ed/ripple/ Time series is the most prevalent form of input data for educational prediction tasks. The vast majority of research using time series data focuses on hand-crafted features, designed by experts for predictive performance and interpretability. However, extracting these features is labor-intensive for humans and computers. In this paper, we propose an approach that utilizes irregular multivariate time series modeling with graph neural networks to achieve comparable or better accuracy with raw time series clickstreams in comparison to hand-crafted features. Furthermore, we extend concept activation vectors for interpretability in raw time series models. We analyze these advances in the education domain, addressing the task of early student performance prediction for downstream targeted interventions and instructional support. Our experimental analysis on 23 MOOCs with millions of combined interactions over six behavioral dimensions show that models designed with our approach can (i) beat state-of-the-art educational time series baselines with no feature extraction and (ii) provide interpretable insights for personalized interventions. Source code: https://github.com/epfl-ml4ed/ripple/. | 翻訳日:2023-02-19 12:48:26 公開日:2022-12-13 |
# 米国の政治家によるコミュニケーションにおける誠実さの代替概念から代替事実へ From alternative conceptions of honesty to alternative facts in communications by U.S. politicians ( http://arxiv.org/abs/2208.10814v2 ) ライセンス: Link先を確認 | Jana Lasser, Segun Taofeek Aroyehun, Fabio Carrella, Almog Simchon, David Garcia, Stephan Lewandowsky | (参考訳) オンライン誤報の拡散は、社会的結束と民主主義の問題としてますます認識されている。
誤情報のベクトルとしてのソーシャルメディアの役割に多くの注意が向けられている。
政治指導者の役割は、メディアの報道や世論に実証的に影響を与え、また「自分の心を語る」政治家が証拠や事実によって否定されたとしても、大衆のセグメントによって真正で正直であると認識されているにもかかわらず、研究の注目を集めていない。
ここでは、この10年間で、米国の政治家の真理の概念が、真正だが証拠のない信念がより顕著になり、エビデンスに基づく真理探求と差別化されつつあることを示す。
我々は、2011年から2022年にかけて、米国議会のメンバーによるTwitter上のコミュニケーションを分析し、政治的スピーチが、信念を話し、証拠をベースとした真理を探究する2つの異なる要素に分割されたことを示す。
保守派議員のツイートでは、10%の信念話者の増加は、ツイートで共有された情報源の質の13.7ポイント(NewsGuardスコアリングシステムを用いて)の低下と関連している。
さらに、共有記事自体の10%の信念言語の増加は、双方の参加者のニューズガードスコアの7.9ポイントの低下と関連していることがわかった。
対照的に、ツイートや記事の真理検索言語の増加は、情報源の品質の向上と関連している。
この結果は、現在の政治談話における誤情報の拡散は、証拠への依存を主観的信念の呼び出しに置き換えた、真理と正直の新しい理解によって部分的に引き起こされるという仮説を支持している。 The spread of online misinformation is increasingly perceived as a problem for societal cohesion and democracy. Much attention has focused on the role of social media as a vector of misinformation. The role of political leaders has attracted less research attention, even though leaders demonstrably influence media coverage and public opinion, and even though politicians who "speak their mind" are perceived by segments of the public as authentic and honest even if their statements are unsupported by evidence or facts. Here we show that in the last decade, U.S. politicians' conception of truth has undergone a distinct shift, with authentic but evidence-free belief-speaking becoming more prominent and more differentiated from evidence-based truth seeking. We analyze communications by members of the U.S. Congress on Twitter between 2011 and 2022 and show that political speech has fractured into two distinct components related to belief-speaking and evidence-based truth-seeking, respectively, and that belief-speaking, but not truth-seeking, can be associated with the sharing of untrustworthy information. We show that in tweets by conservative members of Congress, an increase in belief-speaking of 10% is associated with a decrease of 13.7 points of quality (using the NewsGuard scoring system) in the sources shared in a tweet. In addition, we find that an increase of belief-speaking language by 10% in the shared articles themselves is associated with a drop in NewsGuard score of 7.9 points for members of both parties. By contrast, increase in truth-seeking language in tweets and articles is associated with an increase in quality of sources. The results support the hypothesis that the current dissemination of misinformation in political discourse is in part driven by a new understanding of truth and honesty that has replaced reliance on evidence with the invocation of subjective belief. | 翻訳日:2023-02-19 10:41:22 公開日:2022-12-13 |
# シーケンス決定のレンズを通してのサンプリング Sampling Through the Lens of Sequential Decision Making ( http://arxiv.org/abs/2208.08056v3 ) ライセンス: Link先を確認 | Jason Xiaotian Dou, Alvin Qingkai Pan, Runxue Bao, Haiyi Harry Mao, Lei Luo, Zhi-Hong Mao | (参考訳) サンプリングは機械学習の方法論においてユビキタスである。
大規模なデータセットの増加とモデルの複雑さのため、表現をトレーニングしながらサンプリングプロセスを学び、適応させたいと思っています。
この大目標を達成するために、様々なサンプリング技術が提案されている。
しかし、その多くは固定サンプリングスキームを使用するか、単純なヒューリスティックに基づいてサンプリングスキームを調整する。
異なる段階のモデルトレーニングに最適なサンプルを選択することはできない。
認知科学における"Think, Fast and Slow" (System 1 and System 2) に触発された我々は,この課題に取り組むために,Adaptive Sample with Reward (ASR) と呼ばれる報酬誘導サンプリング戦略を提案する。
我々の知る限りでは、表現学習におけるサンプリング問題に対処するために強化学習(RL)を利用した最初の研究である。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
距離に基づくサンプリングによりサンプル間の地理的関係を探索し,全体の累積報酬を最大化する。
類似性に基づく損失関数の長期サンプリング問題にASRを適用した。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
また,実験で「asr重力井戸」と名づけたエングロッシング現象についても考察した。 Sampling is ubiquitous in machine learning methodologies. Due to the growth of large datasets and model complexity, we want to learn and adapt the sampling process while training a representation. Towards achieving this grand goal, a variety of sampling techniques have been proposed. However, most of them either use a fixed sampling scheme or adjust the sampling scheme based on simple heuristics. They cannot choose the best sample for model training in different stages. Inspired by "Think, Fast and Slow" (System 1 and System 2) in cognitive science, we propose a reward-guided sampling strategy called Adaptive Sample with Reward (ASR) to tackle this challenge. To the best of our knowledge, this is the first work utilizing reinforcement learning (RL) to address the sampling problem in representation learning. Our approach optimally adjusts the sampling process to achieve optimal performance. We explore geographical relationships among samples by distance-based sampling to maximize overall cumulative reward. We apply ASR to the long-standing sampling problems in similarity-based loss functions. Empirical results in information retrieval and clustering demonstrate ASR's superb performance across different datasets. We also discuss an engrossing phenomenon which we name as "ASR gravity well" in experiments. | 翻訳日:2023-02-19 10:33:43 公開日:2022-12-13 |
# 近ハイゼンベルク制限感度と余剰雑音に対する強い強靭性を有する一般化エコースクイーズプロトコルとスクイーズパラメータの変動 A generalized echo squeezing protocol with near-Heisenberg limit sensitivity and strong robustness against excess noise and variation in squeezing parameter ( http://arxiv.org/abs/2204.08681v5 ) ライセンス: Link先を確認 | Jinyang Li, Greg\'orio R. M. da Silva, Schuyler Kain, Selim M. Shahriar | (参考訳) 一般化されたエコースクイージングプロトコル (GESP) は,シュリンガー猫状態プロトコル (SCSP) の一般化であり,スケジングパラメータの値は pi/2 よりも任意の数である。
解析により, スクイーズパラメータの広い範囲において, 感度は根-2の係数内でハイゼンベルク限界 (hl) に達することを示した。
多数の粒子 n に対して、この高原間隔はゼロからpi/2の範囲のほぼ全てであり、感度は n のパリティとは無関係であり、感度を変化させることなく、スクイーズパラメータの広い間隔にわたってセンサを操作することができる。
これは、非常に小さな間隔でのみ動作する従来のエコースクイーズプロトコル(CESP)とは対照的である。
CESPとは対照的に、GESPの感度は、スクイーズパラメータの全範囲にまたがる量子Cram\'er-Raoに近い。
gespの感度の向上は、位相拡大係数(pmf)とノイズ増幅係数(naf)の2つのパラメータの組み合わせによるものである。
スクイーズパラメータの値が大きくなると、PMFとNAFはともに増加し、PMF/NAF比は一定となり、HLの感度はルート2の係数で向上する。
したがって、余剰ノイズに対するGESPの強靭性は、スクイーズパラメータの幅広い値に対して、CESPの強靭性を上回る。
このように、実験研究の文脈では、過大なノイズが待ちきれない量子投影ノイズを超える典型的な条件下で、cespよりも感度の高い正味増強を実現することが可能となる。
最後に, 背景粒子との衝突に対するGESPの不安定性について考察し, 不安定性と余剰雑音に対する頑健性とのバランスが, GESPのパラメータの最適選択を実際にどのように決定するかを示す。 We present a generalized echo squeezing protocol (GESP) as a generalization of the Schr\"odinger cat state protocol (SCSP) with the value of the squeezing parameter being an arbitrary number rather than pi/2. We show analytically that over a broad range of the squeezing parameter the sensitivity reaches the Heisenberg limit (HL) within a factor of root-2. For a large number of particles, N, this plateau interval is almost the whole range from zero to pi/2, and the sensitivity is independent of the parity of N. Therefore, it is possible to operate a sensor over a wide interval of the squeezing parameter without changing the sensitivity. This is to be contrasted with the conventional echo squeezing protocol (CESP) which only works for a very small interval. In contrast to the CESP, the sensitivity of the GESP is close to the quantum Cram\'er-Rao bound over the whole range of the squeezing parameter. The enhancement in sensitivity for the GESP is due to a combination of two parameters: the phase magnification factor (PMF) and the noise amplification factor (NAF). As the value of the squeezing parameter increases, both PMF and NAF increase, keeping the ratio of PMF/NAF constant, yielding an enhancement of sensitivity at the HL within a factor of root-2. Thus, the robustness of the GESP against excess noise easily exceeds that of the CESP for a broad range of values of the squeezing parameter. As such, in the context of an experimental study, it should be possible to achieve a net enhancement in sensitivity higher than that for the CESP, under typical conditions where the excess noise exceeds the unsqueezed quantum projection noise. Finally, we consider the fragility of the GESP against collisions with background particles, and show how a balance between the fragility and the robustness against excess noise would in practice determine the optimal choice of parameters for the GESP. | 翻訳日:2023-02-16 09:03:31 公開日:2022-12-13 |
# 方向性グラフ上の2レベル量子ウォーカー II:qRAMへの応用 Two-level Quantum Walkers on Directed Graphs II: An Application to qRAM ( http://arxiv.org/abs/2204.08709v3 ) ライセンス: Link先を確認 | Ryo Asaka, Kazumitsu Sakai, Ryoko Yahagi | (参考訳) これは、2つのシリーズの2番目の論文です。
2つの内部状態を持つ多粒子連続時間量子ウォーク(arXiv:2112.08119)を用いて、量子ランダムアクセスメモリ(qRAM)を物理的に実装する。
アドレス情報を持つデータは、量子ウォーカーに符号化される。
ウォーカーは完全なバイナリツリーを通過して指定されたメモリセルにアクセスし、セルに格納されたデータをコピーする。
各ノードに割り当てられたラウンドアバウトゲートは、ウォーカーの内部状態に応じて、ウォーカーを親ノードから2つの子ノードの1つに移動させるルータとして機能する。
この過程で、アドレス情報は内部状態に順次符号化され、歩行者がターゲットセルに適切に配信される。
現在、$2^n$$m$-qubitデータを処理するqRAMは、深さ$O(n\log(n+m))$の量子回路で実装され、$O(n+m)$ qubitリソースを必要とする。
これは、処理に$O(n^2+nm)$ステップと$O(2^{n}+m)$キュービットリソースを必要とする従来のバケットブリガドqRAMよりも効率的である。
また、歩行器は二分木上の装置と絡み合わないため、コヒーレンスを維持するコストを低減できる。
特に、量子ウォーカーを二分木に渡すだけで、量子重ね合わせ状態で自動的にデータを抽出できる。
言い換えれば、時間に依存した制御は不要である。 This is the second paper in a series of two. Using a multi-particle continuous-time quantum walk with two internal states, which has been formulated in the first paper (arXiv:2112.08119), we physically implement a quantum random access memory (qRAM). Data with address information are dual-rail encoded into quantum walkers. The walkers pass through perfect binary trees to access the designated memory cells and copy the data stored in the cells. A roundabout gate allocated at each node serves as a router to move the walker from the parent node to one of two child nodes, depending on the internal state of the walker. In this process, the address information is sequentially encoded into the internal states so that the walkers are adequately delivered to the target cells. The present qRAM, which processes $2^n$ $m$-qubit data, is implemented in a quantum circuit of depth $O(n\log(n+m))$ and requires $O(n+m)$ qubit resources. This is more efficient than the conventional bucket-brigade qRAM that requires $O(n^2+nm)$ steps and $O(2^{n}+m)$ qubit resources for processing. Moreover, since the walkers are not entangled with any device on the binary trees, the cost of maintaining coherence can be reduced. Notably, by simply passing quantum walkers through binary trees, data can be automatically extracted in a quantum superposition state. In other words, any time-dependent control is not required. | 翻訳日:2023-02-16 08:55:49 公開日:2022-12-13 |
# アーベル群に対するケイリーグラフの状態移動について On state transfer in Cayley graphs for abelian groups ( http://arxiv.org/abs/2204.09802v2 ) ライセンス: Link先を確認 | Arnbj\"org Soff\'ia \'Arnad\'ottir and Chris Godsil | (参考訳) 本稿では、巡回シロー-2-部分群を持つアーベル群に対するケイリーグラフの完全状態移動を特徴付ける。
これは、2013年のba\v{s}i\'cの結果を一般化し、巡回群のケイリーグラフに対する類似のキャラクタリゼーションを提供する。 In this paper, we characterize perfect state transfer in Cayley graphs for abelian groups that have a cyclic Sylow-2-subgroup. This generalizes a result of Ba\v{s}i\'c from 2013 where he provides a similar characterization for Cayley graphs of cyclic groups. | 翻訳日:2023-02-16 06:04:55 公開日:2022-12-13 |
# 量子コンピュータのためのスケーラブルな魔法の資源計測法 Scalable measures of magic resource for quantum computers ( http://arxiv.org/abs/2204.10061v4 ) ライセンス: Link先を確認 | Tobias Haug, M. S. Kim | (参考訳) 非安定化器性またはマジックリソースは、量子状態を作成するのに必要な非クリフォード演算の量を特徴付ける。
量子コンピューティングにとって重要なリソースであり、量子優位のために必要条件である。
しかし、数量子ビットを超える魔法資源の定量化は大きな課題である。
本稿では,量子ビット数に依存しないサンプリングコストで,純量子状態の魔法資源の効率的な測定手法を提案する。
提案手法では, コストフリーな誤差軽減手法を用いて, 実験で実装した状態の2コピー以上のベル計測を用いる。
古典的にシミュレート可能な安定化状態から、IonQ量子コンピュータ上の難解な量子状態への遷移を示す。
応用においては,実験ノイズの存在下でも,測定コストの低い安定化器と非安定化器を効率よく区別する。
さらに,シフトルールによる測度を最大化する変動量子アルゴリズムを提案する。
我々のアルゴリズムは、非常に表現力の高い変分回路であっても不毛高原から自由である。
最後に,安定化器R'enyiエントロピーとワラッハ・メイヤーエンタングルメント測定のためのベル測定プロトコルを実験的に実証した。
その結果,量子コンピュータ,量子シミュレータ,量子多体系の非古典的パワーを理解する方法が明らかになった。 Non-stabilizerness or magic resource characterizes the amount of non-Clifford operations needed to prepare quantum states. It is a crucial resource for quantum computing and a necessary condition for quantum advantage. However, quantifying magic resource beyond a few qubits has been a major challenge. Here, we introduce efficient measures of magic resource for pure quantum states with a sampling cost that is independent of the number of qubits. Our method uses Bell measurements over two copies of a state, which we implement in experiment together with a cost-free error mitigation scheme. We show the transition of classically simulable stabilizer states into intractable quantum states on the IonQ quantum computer. For applications, we efficiently distinguish stabilizer and non-stabilizer states with low measurement cost even in the presence of experimental noise. Further, we propose a variational quantum algorithm to maximize our measure via the shift-rule. Our algorithm can be free of barren plateaus even for highly expressible variational circuits. Finally, we experimentally demonstrate a Bell measurement protocol for the stabilizer R\'enyi entropy as well as the Wallach-Meyer entanglement measure. Our results pave the way to understand the non-classical power of quantum computers, quantum simulators and quantum many-body systems. | 翻訳日:2023-02-16 03:34:38 公開日:2022-12-13 |
# 任意のカップリングにおけるスピン-ボーソン平衡状態の量子古典的対応 Quantum-classical correspondence in spin-boson equilibrium states at arbitrary coupling ( http://arxiv.org/abs/2204.10874v3 ) ライセンス: Link先を確認 | Federico Cerisola, Marco Berritta, Stefano Scali, Simon A. R. Horsley, James D. Cresser, Janet Anders | (参考訳) ナノスケール系の平衡特性は、環境とのカップリングによって標準熱力学から著しく逸脱することができる。
一般化された$\theta$-angled スピンボソンモデルに対して、すべての順序に対する環境補正を含む古典的平衡状態のコンパクトで一般的な形式を導出する。
第二に、量子スピン-ボソンモデルにおいて、ボーアの量子古典対応がすべての結合強度で持続することを証明する。
この対応は結合した量子スピンが結合した古典的スピンベクトルによってうまく近似される条件に関する洞察を与える。
第三に、弱結合量子スピンの平衡状態における環境誘起コヒーレンス(coherences)が古典的な場合には消滅しないことを示す。
最後に、量子ケースと古典的設定の両方において、スピン-ボソンモデルに対する結合パラメータ規則の第一の分類を弱から超強に分類する。
我々の結果はスピン-ボソンモデルの平衡状態における量子および平均力補正の相互作用に光を当て、磁気学やエキシトン力学など様々な分野における量子を古典的境界に引き出すのに役立ちます。 The equilibrium properties of nanoscale systems can deviate significantly from standard thermodynamics due to their coupling to an environment. For the generalised $\theta$-angled spin-boson model, we first derive a compact and general form of the classical equilibrium state including environmental corrections to all orders. Secondly, for the quantum spin-boson model we prove, by carefully taking a large spin limit, that Bohr's quantum-classical correspondence persists at all coupling strengths. This correspondence gives insight into the conditions for a coupled quantum spin to be well-approximated by a coupled classical spin-vector. Thirdly, we demonstrate that previously identified environment-induced 'coherences' in the equilibrium state of weakly coupled quantum spins, do not disappear in the classical case. Finally, we provide the first classification of the coupling parameter regimes for the spin-boson model, from weak to ultrastrong, both for the quantum case and the classical setting. Our results shed light on the interplay of quantum and mean force corrections in equilibrium states of the spin-boson model, and will help draw the quantum to classical boundary in a range of fields, such as magnetism and exciton dynamics. | 翻訳日:2023-02-16 00:49:47 公開日:2022-12-13 |
# 磁歪の非線形性を完全に活用した2つの巨大フェライトのエンタングリング振動 Entangling mechanical vibrations of two massive ferrimagnets by fully exploiting the nonlinearity of magnetostriction ( http://arxiv.org/abs/2204.14010v4 ) ライセンス: Link先を確認 | Hang Qian, Zhi-Yuan Fan, Jie Li | (参考訳) マクロな物体の運動における量子絡み合いは、基礎研究と量子技術の両方において重要である。
ここでは、同じマイクロ波空洞に置かれる2つの巨大なフェライトの機械的振動モードの絡み合わせ方法を示す。
各フェライトは磁歪力で結合されたマグノンモードと低周波振動モードをサポートする。
2つのマグノンモードはそれぞれ、磁気双極子相互作用によってマイクロ波空洞に結合する。
まず,フェリマグネット1の振動モードとフェリマグネット2のマグノンモードとの間の定常非局所絡み合い状態を生成する。
これは強赤色のマイクロ波磁場で連続的にフェライト1を駆動することで実現され、磁気メカニカル・パラメトリックダウンコンバージョンとキャビティ-マグノン状態-スワップ相互作用を利用して絡み合いを実現する。
次に、フェライト磁石1のポンプをスイッチオフし、同時に、フェライト磁石2の赤みがかったパルスドライブをオンにします。
後者のドライブは、フェリマグネット-2のマグノニックと機械的状態を交換するマグノメカニカルビームスプリッター相互作用を活性化するために使用される。
これにより、予め生成したフォノン-マグノンの絡み合いは、2つのフェライトのメカニカルモードに伝達される。
この研究は、2つの巨大な物体の機械的運動の絡み合った状態を準備し、マクロな絡み合った状態を利用する様々な研究に応用できるかもしれない。 Quantum entanglement in the motion of macroscopic objects is of significance to both fundamental studies and quantum technologies. Here we show how to entangle the mechanical vibration modes of two massive ferrimagnets that are placed in the same microwave cavity. Each ferrimagnet supports a magnon mode and a low-frequency vibration mode coupled by the magnetostrictive force. The two magnon modes are, respectively, coupled to the microwave cavity by the magnetic dipole interaction. We first generate a stationary nonlocal entangled state between the vibration mode of the ferrimagnet-1 and the magnon mode of the ferrimagnet-2. This is realized by continuously driving the ferrimagnet-1 with a strong red-detuned microwave field and the entanglement is achieved by exploiting the magnomechanical parametric down-conversion and the cavity-magnon state-swap interaction. We then switch off the pump on the ferrimagnet-1 and, simultaneously, turn on a red-detuned pulsed drive on the ferrimagnet-2. The latter drive is used to activate the magnomechanical beamsplitter interaction, which swaps the magnonic and mechanical states of the ferrimagnet-2. Consequently, the previously generated phonon-magnon entanglement is transferred to the mechanical modes of two ferrimagnets. The work provides a scheme to prepare entangled states of mechanical motion of two massive objects, which may find applications in various studies exploiting macroscopic entangled states. | 翻訳日:2023-02-15 03:57:39 公開日:2022-12-13 |
# 有限個のコヒーレント状態の逐次解析 Sequential Analysis of a finite number of Coherent states ( http://arxiv.org/abs/2206.04604v4 ) ライセンス: Link先を確認 | Esteban Mart\'inez-Vargas | (参考訳) 我々は,コヒーレント状態の一定数のコピーで大域量子処理を行うよりも,一組の状態を順序付けする情報処理の利点を検討する。
アリスが2つの量子状態のうちの1つのうちの1つをn$または$\sigma_1$と仮定し、ボブにこれらの状態を与える。
最適な逐次テストであるSPRTを用いて、$l$のバッチで状態を処理すれば、2つの仮説を最適に区別できるかどうかを問う。
対称の場合 $\{|\gamma\rangle,|-\gamma\rangle\}$ に対して、任意のバッチサイズを $l$ とする利点はない。
Assymetricの場合、最適なバッチサイズを$l_\text{opt}$に表現します。
上限 $l_\text{min}$ と $l_\text{max}$ を与えると、$p_s\approx 1$ になります。 We investigate an advantage for information processing of ordering a set of states over making a global quantum processing with a fixed number of copies of coherent states. Suppose Alice has $N$ copies of one of two quantum states $\sigma_0$ or $\sigma_1$ and she gives these states to Bob. Using the optimal sequential test, the SPRT, we ask if processing the states in batches of size $l$ is advantageous to optimally distinguish the two hypotheses. We find that for the symmetric case $\{|\gamma\rangle,|-\gamma\rangle\}$ there is no advantage of taking any batch size $l$. We give an expression for the optimal batch size $l_\text{opt}$ in the assymetric case. We give bounds $l_\text{min}$ and $l_\text{max}$ for when $P_S\approx 1$. | 翻訳日:2023-02-10 01:24:17 公開日:2022-12-13 |
# フラクソニウムとトランスモン量子ビット間のマイクロ波活性化ゲート Microwave-activated gates between a fluxonium and a transmon qubit ( http://arxiv.org/abs/2206.06203v2 ) ライセンス: Link先を確認 | Alessandro Ciani, Boris M. Varbanov, Nicolas Jolly, Christian K. Andersen, Barbara M. Terhal | (参考訳) 本研究では,フラクソニウムとトランスモンキュービットの2種類のマイクロ波活性化ゲート,すなわちクロス共鳴(CR)とCPHASEゲートを提案し,解析する。
トランスモンとフラックスニウムの間の大きな周波数差は、2量子ビットゲートの実現を困難にする。
中周波フラクトニウム量子ビットの場合、トランスモン-フラクトニウム系は、幅広いトランスモン周波数のフラクトニウムの高レベルによって媒介される相互共鳴効果を可能にする。
これにより、フラックスニウムをトランスモン周波数で駆動し、周波数ターゲティングや残差zz結合に関連するトランスモントランスモンチップにおけるクロス共振ゲートの典型的な問題を緩和することで、クロス共振ゲートを実現することができる。
しかし、フラックスニウムの基本周波数が100mhz未満の低周波領域に入ると、交差共鳴効果は長いゲート時間へと減少する。
この範囲のパラメータに対して、高速マイクロ波CPHASEゲートはフラクソニウムのより高いレベルを用いて実装することができる。
どちらの場合も、ゲートの忠実度が99%以上であれば、100 nsから300 nsのゲート時間で得られることを示す数値シミュレーションを行う。
詳細なゲート解析を行い,提案するクロス共振ゲートを介して相互作用するフラックスニアとトランスモンの表面コード格子のチップ収率について検討した。
クロス共振ゲートをネイティブな2ビットゲートとするトランスモンオンリーのアーキテクチャに比べれば,より優れた収率が得られる。 We propose and analyze two types of microwave-activated gates between a fluxonium and a transmon qubit, namely a cross-resonance (CR) and a CPHASE gate. The large frequency difference between a transmon and a fluxonium makes the realization of a two-qubit gate challenging. For a medium-frequency fluxonium qubit, the transmon-fluxonium system allows for a cross-resonance effect mediated by the higher levels of the fluxonium over a wide range of transmon frequencies. This allows one to realize the cross-resonance gate by driving the fluxonium at the transmon frequency, mitigating typical problems of the cross-resonance gate in transmon-transmon chips related to frequency targeting and residual ZZ coupling. However, when the fundamental frequency of the fluxonium enters the low-frequency regime below 100 MHz, the cross-resonance effect decreases leading to long gate times. For this range of parameters, a fast microwave CPHASE gate can be implemented using the higher levels of the fluxonium. In both cases, we perform numerical simulations of the gate showing that a gate fidelity above 99% can be obtained with gate times between 100 and 300 ns. Next to a detailed gate analysis, we perform a study of chip yield for a surface code lattice of fluxonia and transmons interacting via the proposed cross-resonance gate. We find a much better yield as compared to a transmon-only architecture with the cross-resonance gate as native two-qubit gate. | 翻訳日:2023-02-09 12:49:11 公開日:2022-12-13 |
# 熱円錐の幾何学的構造 Geometric structure of thermal cones ( http://arxiv.org/abs/2207.02237v3 ) ライセンス: Link先を確認 | A. de Oliveira Junior, Jakub Czartowski, Karol \.Zyczkowski, Kamil Korzekwa | (参考訳) 熱力学の第2法則は、事象の流れに根本的な非対称性を課す。
時間の熱力学的矢印は、系の状態空間を過去、未来、および非競合領域に分割する順序を導入する。
本研究では,生成する熱円錐の構造,すなわち与えられた状態が熱力学的に(将来の熱円錐)に進化したり(過去の熱円錐)から進化したりする状態の集合を解析する。
具体的には, 熱浴と相互作用するシステムの古典状態が$d$である場合, 過去の熱円錐と非可逆領域の明示的な構成を見出す。
さらに,熱円錐の体積によって与えられる熱力学的モノトンに基づく挙動の詳細な解析を行う。
得られた結果は、許容状態変換を記述する部分順序が無限の温度限界における熱力学的順序とは逆であるため、他の主要化に基づく資源理論(絡み合いやコヒーレンスなど)にも当てはまる。
最後に,確率変換を考慮した熱円錐の構築を一般化する。 The second law of thermodynamics imposes a fundamental asymmetry in the flow of events. The so-called thermodynamic arrow of time introduces an ordering that divides the system's state space into past, future and incomparable regions. In this work, we analyse the structure of the resulting thermal cones, i.e., sets of states that a given state can thermodynamically evolve to (the future thermal cone) or evolve from (the past thermal cone). Specifically, for a $d$-dimensional classical state of a system interacting with a heat bath, we find explicit construction of the past thermal cone and the incomparable region. Moreover, we provide a detailed analysis of their behaviour based on thermodynamic monotones given by the volumes of thermal cones. Results obtained apply also to other majorisation-based resource theories (such as that of entanglement and coherence), since the partial ordering describing allowed state transformations is then the opposite of the thermodynamic order in the infinite temperature limit. Finally, we also generalise the construction of thermal cones to account for probabilistic transformations. | 翻訳日:2023-02-06 12:36:18 公開日:2022-12-13 |
# 量子場-量子相互作用におけるデコヒーレンスとランドウアーの原理 Decoherence and Landauer's Principle in Qubit-Cavity Quantum-Field-Theory Interaction ( http://arxiv.org/abs/2207.06702v3 ) ライセンス: Link先を確認 | Hao Xu, Si Yu Chen, Yen Chin Ong | (参考訳) 量子デコヒーレンスとランドーアーの量子場理論(QFT)相互作用の原理を考察し、量子ビットをシステムとして扱い、空洞QFTを環境として扱う。
特に,エネルギー散逸の有無に関わらず,デコヒーレンスプロセス中の純粋な初期状態と環境とシステムで発生する変化を調査し,システムの初期状態が混合状態でありデコヒーレンスが存在しない場合と比較する。
系のエネルギーとコヒーレンスが同時に変化するような相互作用ハミルトニアンを選択すると、系の人口変化とエネルギー変化は初期状態が混合されたときに同じになる。
しかし、デコヒーレンス項はシステムのフォン・ノイマンエントロピーを増加させる。
この場合、システムのエネルギー変化と非一貫性は独立した物理過程ではない。
デコヒーレンスプロセスはユニタリティーを維持する。
一方、相互作用ハミルトニアンが系のエネルギーを変えなければ、デコヒーレンス効果のみが存在する。
環境は、配置された数の状態に基づいて分布し、常にエネルギーを増加させる。
ランダウアーの原理はどちらの場合も満足している。 We consider quantum decoherence and Landauer's principle in qubit-cavity quantum field theory (QFT) interaction, treating the qubit as the system and cavity QFT as the environment. In particular, we investigate the changes that occur in the system with a pure initial state and environment during the decoherence process, with or without energy dissipation, and compare the results with the case in which the initial state of the system is a mixed state and thus decoherence is absent. When we choose an interaction Hamiltonian such that the energy and coherence of the system change simultaneously, the population change of the system and the energy change are the same when the initial state is mixed. However, the decoherence terms increase the von Neumann entropy of the system. In this case the energy change and decoherence of the system are not independent physical processes. The decoherence process maintains unitarity. On the other hand, if the interaction Hamiltonian does not change the energy of the system, there is only the decoherence effect. The environment will be a distribution in the basis of the displaced number state and always increases the energy. Landauer's principle is satisfied in both cases. | 翻訳日:2023-02-05 01:40:14 公開日:2022-12-13 |
# Few-Body Dipole-Diipole相互作用のスロー熱化 Slow Thermalization of Few-Body Dipole-Dipole Interactions ( http://arxiv.org/abs/2208.02909v3 ) ライセンス: Link先を確認 | Sarah E. Spielman, Alicia Handian, Nina P. Inman, Thomas J. Carroll, Michael W. Noel | (参考訳) 一次元アレイにおける2-,3-,4-体双極子-双極子相互作用を通じてエネルギーを共鳴的に交換するRydberg原子のダイナミクスをシミュレートする。
本研究では,現実的な実験システムの簡易モデルを用いて,初期状態生存確率,レベル間隔統計,絡み合いの広がり,エネルギー固有状態の性質について検討する。
様々な障害や相互作用の強さを探索することで、3体および4体のダイナミクスが非エルゴードな振る舞いを示し、熱力学的平衡に達するのに失敗したり、あるいはゆっくりしたりするパラメータ空間の領域を見つける。
恒共振相互作用と場調整相互作用の相互作用は量子多体スカー状態を引き起こし、三体および四体相互作用のダイナミクスを遅くする重要な役割を担っている。 We simulate the dynamics of Rydberg atoms resonantly exchanging energy via two-, three-, and four-body dipole-dipole interactions in a one-dimensional array. Using a simplified model of a realistic experimental system, we study the initial state survival probability, the level spacing statistics, the spread of entanglement, and the properties of the energy eigenstates. By exploring a range of disorders and interaction strengths, we find regions in parameter space where the three- and four-body dynamics exhibit nonergodic behavior and either fail to reach thermodynamic equilibrium or do so slowly. The interplay between the always-resonant and field-tuned interactions gives rise to quantum many-body scar states, which play a critical role in slowing the dynamics of the three- and four-body interactions. | 翻訳日:2023-02-02 07:13:15 公開日:2022-12-13 |
# CSSコードからの新しい量子コード New Quantum Codes from CSS Codes ( http://arxiv.org/abs/2208.05353v2 ) ライセンス: Link先を確認 | Markus Grassl | (参考訳) 我々はCSSコードに新しい伝搬規則を提案する。
まず、cssコード$[\!
[n,k,d]\!
]_q$,パラメータ$[\!
[n-2,k,d-1]\!
]_q$。
一般的には、パラメータが $[\!
n-2,k,d-2]\!
]_q$。
この構成はCSS構造からの非対称量子符号にも適用される。 We present a new propagation rule for CSS codes. Starting with a CSS code $[\![n,k,d]\!]_q$, we construct a CSS code with parameters $[\![n-2,k,d-1]\!]_q$. In general, one would only obtain a code with parameters $[\![n-2,k,d-2]\!]_q$. The construction applies to asymmetric quantum codes from the CSS construction as well. | 翻訳日:2023-02-01 12:41:26 公開日:2022-12-13 |
# 自発的パラメトリックダウン変換における時空間二光子状態の一般化記述 Generalized description of the spatio-temporal biphoton State in spontaneous parametric down-conversion ( http://arxiv.org/abs/2208.09423v3 ) ライセンス: Link先を確認 | Baghdasar Baghdasaryan, Carlos Sevilla-Guti\'errez, Fabian Steinlechner, Stephan Fritzsche | (参考訳) 自然パラメトリックダウンコンバージョン(SPDC)はフォトニックエンタングルメントの源として広く用いられている。
長年の集中した研究により、この過程はしっかりと理解されてきたが、同軸二光子状態の凝集解析的な記述はまだ達成されていない。
我々は,空間的およびスペクトル的モードの非分離性を正確に記述した,時空間的二光子状態の一般表現を導出する。
相互作用ビームのグーイ位相を考慮し、空間の結合度をスペクトル自由度から減少させる方法についての基準を定式化する。
この研究は、SPDCにおけるグーイ相の役割と多次元量子情報処理のための工学的絡み合った状態の準備に関する新たな洞察を提供する。 Spontaneous parametric down-conversion (SPDC) is a widely used source for photonic entanglement. Years of focused research have led to a solid understanding of the process, but a cohesive analytical description of the paraxial biphoton state has yet to be achieved. We derive a general expression for the spatio-temporal biphoton state that applies universally across common experimental settings and correctly describes the non-separability of spatial and spectral modes. We formulate a criterion on how to decrease the coupling of the spatial from the spectral degree of freedom by taking into account the Gouy phase of interacting beams. This work provides new insights into the role of the Gouy phase in SPDC, and also into the preparation of engineered entangled states for multidimensional quantum information processing. | 翻訳日:2023-01-30 11:58:36 公開日:2022-12-13 |
# No ((n, k, d < 127)) 符号は量子ハミング境界を破ることができない No ((n, k, d < 127)) code can violate the quantum Hamming bound ( http://arxiv.org/abs/2208.11800v2 ) ライセンス: Link先を確認 | Emanuel Dallas, Faidon Andreadakis, Daniel Lidar | (参考訳) 純粋量子誤り訂正符号(QECC)がハミング境界の量子バージョンによって制約されていることはよく知られている。
しかしながら、不純なコードもそのような制約に従うかどうかについては、QECCの有効性に実践的な意味を持つ長年の疑問が残る。
先述したQECC上の境界の組み合わせを用いて、全ての符号の部分集合が量子ハミング境界に従わなければならないことを示す。
具体的には、レインズによる解析的境界とLi と Xing による数値的境界を組み合わせることで、((n,k,d < 127)) 符号が量子ハミング境界に反することができないことを示す。 It is well-known that pure quantum error correcting codes (QECCs) are constrained by a quantum version of the Hamming bound. Whether impure codes also obey such a bound, however, remains a long-standing question with practical implications for the efficacy of QECCs. We employ a combination of previously derived bounds on QECCs to demonstrate that a subset of all codes must obey the quantum Hamming bound. Specifically, we combine an analytical bound due to Rains with a numerical bound due to Li and Xing to show that no ((n,k,d < 127)) code can violate the quantum Hamming bound. | 翻訳日:2023-01-29 21:26:35 公開日:2022-12-13 |
# トポロジカル視点からの絡み合い分類 Entanglement Classification from a Topological Perspective ( http://arxiv.org/abs/2208.13901v2 ) ライセンス: Link先を確認 | Dmitry Melnikov | (参考訳) 絡み合いの分類は量子資源理論において重要な問題である。
本稿では、トポロジカル量子場理論(TQFT)の文脈におけるこの問題の埋め込みについて論じる。
このアプローチは、トポロジカル同値類の観点から、絡み合いパターンを分類することができる。
バイパーティイトの場合、SLOCC(Stochastic Local Operations and Classical Communication)に相当する分類は、単純な接続ダイアグラムのクラスに制限することで構成される。
このような図は、TQFTの量子状態を「接続」のブレイディングとタングリングまで特徴づける。
多成分の場合、同じ制限された位相分類はsloccクラスの一部のみをキャプチャするが、特に3つの量子ビットのwの絡み合いは見られない。
接続の非局所的ブレイディングはこの問題を解くことができるが、この場合有限分類は試みられない。
不完全性にもかかわらず、コネクトーム分類は任意の個数と次元に直感的な一般化を持ち、非常に直感的な解釈を持ち、絡み合いの特定の性質の理解や新しい量子資源の設計に有用である。 Classification of entanglement is an important problem in Quantum Resource Theory. In this paper I discuss an embedding of this problem in the context of Topological Quantum Field Theories (TQFT). This approach allows classifying entanglement patterns in terms of topological equivalence classes. In the bipartite case a classification equivalent to the one by Stochastic Local Operations and Classical Communication (SLOCC) is constructed by restricting to a simple class of connectivity diagrams. Such diagrams characterize quantum states of TQFT up to braiding and tangling of the "connectome". In the multipartite case the same restricted topological classification only captures a part of the SLOCC classes, in particular, it does not see the W entanglement of three qubits. Non-local braiding of connections may solve the problem, but no finite classification is attempted in this case. Despite incompleteness, the connectome classification has a straightforward generalization to any number and dimension of parties and has a very intuitive interpretation, which might be useful for understanding specific properties of entanglement and for design of new quantum resources. | 翻訳日:2023-01-28 14:25:58 公開日:2022-12-13 |
# 円錐型プログラミングによるマルチパラメータ量子メソロジーのためのタイトクイッククレージュ'{e}r-rao型境界 Tight Cram\'{e}r-Rao type bounds for multiparameter quantum metrology through conic programming ( http://arxiv.org/abs/2209.05218v3 ) ライセンス: Link先を確認 | Masahito Hayashi and Yingkai Ouyang | (参考訳) 量子センサの最大ポテンシャルを解き放つために、最善の精度で互換性のないパラメータを推定できる実用的な測定戦略を持つことが重要となる。
しかし、プローブ状態上の相関のない測定であっても、最適な精度で実用的な測定方法はまだ分かっていない。
ここでは、最適な精度で相関のない計測戦略を見つけるための具体的な方法を示す。
本研究では,マルチパラメータ推定のための精度境界の理論を統一したコニックプログラミングの枠組みを導入することで,この基本的な問題を解決する。
すなわち、行列のテンソル積空間上で定義される様々な円錐上の線型プログラムから生じる、分離可能な行列の特定の円錐を含む精度境界を与える。
その後,本理論は,これらの境界を密接化できる非相関計測戦略の最終的な精度境界に対して,上界と下界の両方を計算する効率的なアルゴリズムを開発することを可能にする。
特に、我々の理論から生じる無相関な測定戦略は、上限から究極の精度境界まで飽和させる。
また,従来の計算可能境界と最終精度境界との間には厳密なギャップがあることを数値的に示す。 In the quest to unlock the maximum potential of quantum sensors, it is of paramount importance to have practical measurement strategies that can estimate incompatible parameters with best precisions possible. However, it is still not known how to find practical measurements with optimal precisions, even for uncorrelated measurements over probe states. Here, we give a concrete way to find uncorrelated measurement strategies with optimal precisions. We solve this fundamental problem by introducing a framework of conic programming that unifies the theory of precision bounds for multiparameter estimates for uncorrelated and correlated measurement strategies under a common umbrella. Namely, we give precision bounds that arise from linear programs on various cones defined on a tensor product space of matrices, including a particular cone of separable matrices. Subsequently, our theory allows us to develop an efficient algorithm that calculates both upper and lower bounds for the ultimate precision bound for uncorrelated measurement strategies, where these bounds can be tight. In particular, the uncorrelated measurement strategy that arises from our theory saturates the upper bound to the ultimate precision bound. Also, we show numerically that there is a strict gap between the previous efficiently computable bounds and the ultimate precision bound. | 翻訳日:2023-01-26 22:10:21 公開日:2022-12-13 |
# 現実材料における平衡と非平衡過剰スクリーニング自由フォノン自己エネルギー Equilibrium and out-of-equilibrium over-screening free phonon self-energy in realistic materials ( http://arxiv.org/abs/2211.02573v2 ) ライセンス: Link先を確認 | Andrea Marini | (参考訳) Fr\"ohlich'sのようなモデルハミルトニアンでは、電子-フォノン相互作用は最初から遮蔽されていると仮定される。
この相互作用は、最先端密度関数摂動理論を出発点として利用することで得られる。
この研究で、私はこれらのアプローチが深刻なオーバースクリーンエラーに影響されていることを正式に示します。
オフオブバランス多体法を用いて,多体アプローチと密度汎関数摂動理論を融合してオーバースクリーン誤差を補正する方法を考察する。
対称な静的スクリーニングされたフォノン自己エネルギーは、正確なベイム・カダノフ方程式を下げて得られる。
ここで提案された静的遮蔽近似は、正確な自己エネルギーと同じ長距離空間限界を持ち、ゆらぎ散逸定理を尊重する。
文献でよく用いられる二重遮蔽近似は、代わりにオーバースクリーン化され、複数のMulti-Body特性に違反し、間違った空間的長距離減衰を持つように示される。
提案した近似の精度は、拡張されたモデル Fr\"ohlich Hamiltonian の正確な解に対して検証され、MgB$_2$ のパラダイム材料に適用される。
今回の治療は、異常な$e_{2g}$モードについて以前報告されたことに関して、ライン幅を57ドル$$$で強化することを発見した。
さらに、$a_{2u}$モードも異常であることにも気付きました。
本研究は, 最先端のアプローチに基づいて, 熱伝導率, フォノニック不安定性, 非平衡格子動力学など幅広い分野に適用し, 深い疑問を呈する手法である。 In model Hamiltonians, like Fr\"ohlich's, the electron-phonon interaction is assumed to be screened from the beginning. The same occurs when this interaction is obtained by using the state-of-the-art density functional perturbation theory as starting point. In this work I formally demonstrate that these approaches are affected by a severe over-screening error. By using an out-of-equilibrium Many-Body technique I discuss how to merge the many-body approach with density-functional perturbation theory in order to correct the over-screening error. A symmetric statically screened phonon self-energy is obtained by down-folding the exact Baym-Kadanoff equations. The statically screened approximation proposed here is shown to have the same long-range spatial limit of the exact self-energy and to respect the fluctuation-dissipation theorem. The doubly screened approximation, commonly used in the literature, is shown, instead, to be over-screened, to violate several Many-Body properties and to have a wrong spatial long-range decay. The accuracy of the proposed approximation is tested against the exact solution of an extended model Fr\"ohlich Hamiltonian and it is applied to a paradigmatic material: MgB$_2$. I find that the present treatment enhances the linewidths by $57 \%$ with respect to what has been previously reported for the anomalous $E_{2g}$ mode. I further discover that the $A_{2u}$ mode is also anomalous (its strong coupling being completely quenched by the over-screened expression). The present results deeply question methods based on state-of-the-art approaches and impact a wide range of fields such as thermal conductivity, phononic instabilities and non-equilibrium lattice dynamics. | 翻訳日:2023-01-20 08:58:18 公開日:2022-12-13 |
# クーロン結合フェルミオン熱ダイオードの普遍的挙動 Universal behaviour of Coulomb coupled Fermionic thermal diode ( http://arxiv.org/abs/2211.03474v2 ) ライセンス: Link先を確認 | Shuvadip Ghosh, Nikhil Gupt and Arnab Ghosh | (参考訳) 温度勾配が小さい場合でも、効率的な熱スイッチとして機能し、完全な整流挙動を示すクーロン結合フェルミイオン量子ドット熱ダイオードの最小モデルを提案する。
2つのよく定義された無次元系パラメータを用いて、最適熱電流条件の普遍的特性を同定する。
系パラメータとは独立であることが示され、2つのフェルミオン貯水池の平衡分布に付随する平均遷移点「$-0.5$」でのみ得られ、「$\textit{universal magic mean}$」と呼ばれる。 We propose a minimal model of a Coulomb coupled fermionic quantum dot thermal diode that can act as an efficient thermal switch and exhibit complete rectification behaviour, even in presence of a small temperature gradient. Using two well defined dimensionless system parameters, universal characteristics of the optimal heat current condition are identified. It is shown to be independent of any system parameter and is obtained only at the mean transitions point "$-0.5$", associated with the equilibrium distribution of the two fermionic reservoirs, tacitly referred to as "$\textit{universal magic mean}$". | 翻訳日:2023-01-20 01:51:03 公開日:2022-12-13 |
# データフローエンジンによる高最適化量子回路 Highly optimized quantum circuits synthesized via data-flow engines ( http://arxiv.org/abs/2211.07685v2 ) ライセンス: Link先を確認 | Peter Rakyta, Gregory Morse, Jakab N\'adori, Zita Majnay-Tak\'acs, Oskar Mencer, Zolt\'an Zimbor\'as | (参考訳) 最少数のゲート演算による量子プログラムの定式化は、近年アクセス可能なノイズ量子プロセッサから有意義な結果を得るために重要である。
本研究では、FPGA(Field Programmable Gate Array)ベースのデータフローエンジン(DFE)を用いて、可変量子コンパイラをスケールアップし、最大9ドルの量子ビットプログラムまで回路を合成する。このゲートデコンポザは、FPGAチップ上の単一キュービット回転からなる任意の量子回路をシミュレートし、2キュービットゲートを制御するように設計された、新しく開発されたDFE量子コンピュータシミュレータを利用する。
QISKITパッケージを用いたベンチマークでは,SQUANDERパッケージ(DFEアクセラレータサポート付き)が生成する回路の深さは平均で9,7 %以下であったが,回路の忠実度は最大で$\sim10^{-4}の誤差に近かった。 The formulation of quantum programs in terms of the fewest number of gate operations is crucial to retrieve meaningful results from the noisy quantum processors accessible these days. In this work, we demonstrate a use-case for Field Programmable Gate Array (FPGA) based data-flow engines (DFEs) to scale up variational quantum compilers to synthesize circuits up to $9$-qubit programs.This gate decomposer utilizes a newly developed DFE quantum computer simulator that is designed to simulate arbitrary quantum circuit consisting of single qubit rotations and controlled two-qubit gates on FPGA chips. In our benchmark with the QISKIT package, the depth of the circuits produced by the SQUANDER package (with the DFE accelerator support) were less by $97\%$ on average, while the fidelity of the circuits was still close to unity up to an error of $\sim10^{-4}$. | 翻訳日:2023-01-18 06:42:09 公開日:2022-12-13 |
# 2次元ディラック方程式の数値問題 Numerical issues of the two-dimensional Dirac equation ( http://arxiv.org/abs/2211.10914v3 ) ライセンス: Link先を確認 | Jiale Sun, Xiaoshui Lin | (参考訳) 二次元ディラック方程式はグラフェン物理学、トポロジカル絶縁体の表面、特に量子スカーリングで広く用いられている。
数年前に任意の精錬問題に取り組むための数値的なアプローチが提案されたが、いくつかの根本的な問題が完全に理解され解決されなければならない。
本研究では,これらの課題を隠蔽し解決し,分析結果との比較により検証可能な完全な手法を最終的に開発する。 The two-dimensional Dirac equation has been widely used in graphene physics, the surface of topological insulators, and especially quantum scarring. Although a numerical approach to tackling an arbitrary confining problem was proposed several years ago, several fundamental issues must be thoroughly understood and solved. In this work, we conceal and address these challenges and finally develop a complete method, validated by comparison with analytical results. | 翻訳日:2023-01-17 23:41:38 公開日:2022-12-13 |
# quant 4.0: 自動化、説明可能、知識駆動の人工知能による工学的定量的投資 Quant 4.0: Engineering Quantitative Investment with Automated, Explainable and Knowledge-driven Artificial Intelligence ( http://arxiv.org/abs/2301.04020v1 ) ライセンス: Link先を確認 | Jian Guo, Saizhuo Wang, Lionel M. Ni, Heung-Yeung Shum | (参考訳) 量的投資 (quantal investment) とは、金融工学、計算機科学、数学、統計学などを組み合わせた学際分野である。
Quant 1.0、市場における間違った価格の資産を発見するための数学的モデリングによるトレーディング Quant 2.0、小さな‘ストラテジーワークショップ’から大規模な‘アルファ工場’への移行 Quant 3.0、複雑な非線形価格ルールを発見するためのディープラーニング技術の適用 Quant 3.0。
予測の優位性にもかかわらず、ディープラーニングは極めて大きなデータボリュームと‘black-box’’ニューラルネットワークモデルの労働集約的なチューニングに依存している。
本稿では,これらの制約に対処するため,Quant 4.0を導入し,次世代量子の工学的視点を提供する。
quant 4.0 には3つのキー差別化要素がある。
まず、自動化されたaiは、量子パイプラインを従来の手作業によるモデリングから最先端の自動モデリングに変更し、‘algorithm produce algorithm, model build model, and eventually ai creating ai’という哲学を実践する。
第二に、説明可能なAIは、機械学習ブラックボックスによる投資決定をよりよく理解し、解釈するための新しい技術を開発し、複雑で隠れたリスク露光を説明する。
第三に、知識駆動aiはディープラーニングのようなデータ駆動aiの補足であり、事前知識をモデリングに組み込んで投資決定、特に量的価値投資を改善する。
さらに, quant 4.0 の概念を実践するシステムの構築方法について述べる。
最後に,量子化技術に対する10の挑戦的な研究課題を提案し,潜在的な解決策,研究の方向性,今後のトレンドについて論じる。 Quantitative investment (``quant'') is an interdisciplinary field combining financial engineering, computer science, mathematics, statistics, etc. Quant has become one of the mainstream investment methodologies over the past decades, and has experienced three generations: Quant 1.0, trading by mathematical modeling to discover mis-priced assets in markets; Quant 2.0, shifting quant research pipeline from small ``strategy workshops'' to large ``alpha factories''; Quant 3.0, applying deep learning techniques to discover complex nonlinear pricing rules. Despite its advantage in prediction, deep learning relies on extremely large data volume and labor-intensive tuning of ``black-box'' neural network models. To address these limitations, in this paper, we introduce Quant 4.0 and provide an engineering perspective for next-generation quant. Quant 4.0 has three key differentiating components. First, automated AI changes quant pipeline from traditional hand-craft modeling to the state-of-the-art automated modeling, practicing the philosophy of ``algorithm produces algorithm, model builds model, and eventually AI creates AI''. Second, explainable AI develops new techniques to better understand and interpret investment decisions made by machine learning black-boxes, and explains complicated and hidden risk exposures. Third, knowledge-driven AI is a supplement to data-driven AI such as deep learning and it incorporates prior knowledge into modeling to improve investment decision, in particular for quantitative value investing. Moreover, we discuss how to build a system that practices the Quant 4.0 concept. Finally, we propose ten challenging research problems for quant technology, and discuss potential solutions, research directions, and future trends. | 翻訳日:2023-01-15 23:27:31 公開日:2022-12-13 |
# 時間結晶としての地球:多体運動による先行共鳴による地磁気極性・地形・気候の変質による量子スケール現象のマクロ的性質 Earth as a time crystal: macroscopic nature of a quantum-scale phenomenon from transformative moderation of geomagnetic polarity, topography, and climate by precession resonance due to many-body entrainment ( http://arxiv.org/abs/2301.02578v1 ) ライセンス: Link先を確認 | Mensur Omerbashich | (参考訳) 古データの周期性の主張は多く、非常に議論の的であり、パネロゾイク (0-541 My) の大量絶滅は地球上の生命を不可能にする。
この期間のハントは、地質学的時間スケールを軌道周波数に結びつけるジオクロノロジーの近代化と一致し、高調波からの天体信号の分離を可能にした。
したがって、惑星の古力学の指標として、多体サブハーモニック・エントレインメントが地球の天文学的強制に対する共振応答を誘発し、そのpi=2\pi$-phase-shifted axial precession p=26 kyとそのpi=$2\pi$p/i; i=1, ...n高調波が古データ周期性に共振することを示した。
この準周期的性質は、p'/4-ロックステップによってp'=41-kyの斜度に共トリガーされる。
検証のために、GPTS-95で2ドル(約2,800円)を抑えると、南大西洋異常時の時間スケールの校正が終了カンパニア (0-83 My) まで延長され、古いエポックから報告された地球-火星の惑星共鳴の弱い信号が検出された。
残る信号は26.5-マイ・ランピノ周期 - 破砕偏向と変換極性反転のキャリア波のみである。
軌道強制に対する地球の共鳴応答(2\pi$p, pi)は、ミラノコビッチ理論の長いエネルギー移動機構であり、基本系特性 -- 2\pi$位相シフト、1/4ロックステップをフォルサーに、離散時間変換対称性(多重/ハロウィーン周期) -- は量子時間結晶の典型だが、これは巨視的に見え、時間結晶の概念は目立たない。
驚くべきクロススケールな結果により、惑星の沈降は、例えば地球膨張機構として以前に主張されたようなカタクリスティックな地球力学現象であり、量子力学における時間結晶は、フェシュバッハ共鳴による衝突のような粒子の運動に起因する可能性があることが確認された。 Claims of paleodata periodicity are many and so controversial that superimposing Phanerozoic (0-541 My) mass-extinction periods renders life on Earth impossible. This period hunt coincided with geochronology modernization tying geological timescales to orbital frequencies, enabling separation of astronomical signals from harmonics. I thus show on diverse data (geomagnetic polarity, cratering, extinction episodes) as a proxy of planetary paleodynamics that many-body subharmonic entrainment induces Earth's resonant response to astronomical forcing so that $2\pi$-phase-shifted axial precession p=26 ky and its Pi=$2\pi$p/i; i=1,...n harmonics get resonantly responsible for paleodata periodicity. This quasiperiodic nature of strata is co-triggered by a p'/4-lockstep to p'=41-ky obliquity. For verification, residuals analysis after suppressing $2\pi$p (and so Pi) in GPTS-95 reversals timescale's calibration at the South Atlantic Anomaly, extending to end-Campanian (0-83 My), successfully detected weak signals of Earth-Mars planetary resonances reported previously from older epochs. The only residual signal is 26.5-My Rampino period -- carrier wave of crushing deflections and transformative polarity reversals. While the ($2\pi$p, Pi) resonant response of the Earth to orbital forcing is the long-sought energy transfer mechanism of the Milankovitch theory, fundamental system properties -- $2\pi$-phase-shift, 1/4 lockstep to a forcer, and discrete time translation symmetry (multiplied/halved periods) -- typical of a quantum time crystal, here appear macroscopic, making time crystal concept unremarkable. The surprising cross-scale outcome confirms planetary precession is a cataclysmic geodynamic phenomenon as claimed previously, e.g., as the Earth expansion mechanism; then a time crystal in quantum dynamics could be due to particle entrainment, such as the collisions resulting in Feshbach resonances. | 翻訳日:2023-01-15 23:25:42 公開日:2022-12-13 |
# テンポラルウェイト Temporal Weights ( http://arxiv.org/abs/2301.04126v1 ) ライセンス: Link先を確認 | Adam Kohan, Ed Rietman, Hava Siegelmann | (参考訳) 人工ニューラルネットワークでは、重みはシナプスの静的表現である。
しかし、シナプスは静的ではなく、時間とともに動的に相互作用する。
相互作用力学に重みを注入するために、時間とともに神経および一般的な生物学的現象のコアメカニズムを捉えることができる同期を記述するモデルを用いる。
これらのテンポラルウェイト(TW)に適した理想は、連続的なダイナミクスと時間依存性を備えたニューラルODEである。
結果として得られたリカレントニューラルネットワークは、シーケンスの順序と時間の長さとスケールを計算し、時間ダイナミクスを効率的にモデル化する。
モデルに時間重みを加えることで、スパースで不規則にサンプリングされた時系列データセット上で、より良いパフォーマンス、より小さなモデル、データ効率を示す。 In artificial neural networks, weights are a static representation of synapses. However, synapses are not static, they have their own interacting dynamics over time. To instill weights with interacting dynamics, we use a model describing synchronization that is capable of capturing core mechanisms of a range of neural and general biological phenomena over time. An ideal fit for these Temporal Weights (TW) are Neural ODEs, with continuous dynamics and a dependency on time. The resulting recurrent neural networks efficiently model temporal dynamics by computing on the ordering of sequences, and the length and scale of time. By adding temporal weights to a model, we demonstrate better performance, smaller models, and data efficiency on sparse, irregularly sampled time series datasets. | 翻訳日:2023-01-15 23:15:00 公開日:2022-12-13 |
# 膨張する宇宙の境界におけるフェルミオン生成:冷たい原子の重力類似物 Fermion production at the boundary of an expanding universe: a cold-atom gravitational analogue ( http://arxiv.org/abs/2212.01355v3 ) ライセンス: Link先を確認 | Carlos Fulgado Claudio, Jose M. S\'anchez Vel\'azquez, Alejandro Bermudez | (参考訳) フリードマン・ロバートソン・ウォーカー時空におけるディラック・フェルミオンの宇宙論的粒子生成現象を,ジャッキー・テイテルボイム重力の方程式によってスケール因子の進化が設定される(1+1)次元の場合に焦点をあてた。
この現象の量子シミュレーションへの第一歩として、2つの格子正則化を考えることにより、粒子生成の相互作用と境界を持つ時空における位相現象を探索することができる。
特に、ディラック場のウィルソン型離散化では、中間拡大によって連結された漸近的ミンコフスキー空隙は対称性で保護された位相基底状態に対応し、空間境界に指数関数的に局在したゼロモードの形で境界を現示する。
また, 粒子生成は粒子生成を伴わないna\"ive-fermion discretizationの状況と対照的に, 粒子生成がこれらのゼロモードをポピュレートできることを示した。
本稿では、ラマン格子の超低温原子を用いたこの重力アナログの量子シミュレーション手法を提案する。これは、シミュレーション時空のスケール係数に応じてラマンビームデチューニングをリアルタイムに制御することと、バンドマッピングの測定を必要とする。 We study the phenomenon of cosmological particle production of Dirac fermions in a Friedman-Robertson-Walker spacetime, focusing on a (1+1)-dimensional case in which the evolution of the scale factor is set by the equations of Jackiw-Teitelboim gravity. As a first step towards a quantum simulation of this phenomenon, we consider two possible lattice regularizations, which allow us to explore the interplay of particle production and topological phenomena in spacetimes with a boundary. In particular, for a Wilson-type discretization of the Dirac field, the asymptotic Minkowski vacua connected by the intermediate expansion corresponds to symmetry-protected topological groundstates, and have a boundary manifestation in the form of zero-modes exponentially localized to the spatial boundaries. We show that particle production can also populate these zero modes, which contrasts with the situation with a na\"ive-fermion discretization, in which conformal zero-mass fields exhibit no particle production. We present a scheme for the quantum simulation of this gravitational analogue by means of ultra-cold atoms in Raman optical lattices, which requires real-time control of the Raman-beam detuning according to the scale factor of the simulated spacetime, as well as band-mapping measurements. | 翻訳日:2023-01-09 22:38:39 公開日:2022-12-13 |
# 私たちは[量子]シミュレーションに住んでいますか.
シミュレーション仮説に関する制約・観測・実験 Do we live in a [quantum] simulation? Constraints, observations, and experiments on the simulation hypothesis ( http://arxiv.org/abs/2212.04921v2 ) ライセンス: Link先を確認 | Florian Neukart, Anders Indset, Markus Pflitsch, Michael Perelshtein | (参考訳) 真実とは何か」という疑問は、プラトンの洞窟の影にまで遡ることができる。
2千年後、レネ・デカルトは我々に感覚の錯覚を与える邪悪な偏見に反対する知識を欠いていた。
デカルトの認識論的概念は、後に感覚経験の様々な理論につながった。
幻想主義」という概念は、我々が持つ非常に意識的な経験でさえ幻想であり、1999年のsf映画『マトリックス』で見られる赤く尖ったシナリオであるだけでなく、現代のティンカーズによって推進された哲学的概念でもある。
考えられるシミュレーションと我々の知覚された現実の反映は、「マトリックス」で美しく視覚化され、デカルトの古いアイデアを世界中のコーヒーハウスにもたらした。
アイルランドの哲学者ビショップ・バークレーは後に「主観的理想主義(subjective idealism)」と名づけられたものの父であり、基本的には「あなたが知覚するものは本物である」と述べている。
個々の基本粒子の制御に基づく量子技術の出現によって、宇宙がシミュレーションであるかどうかという問題は、単に興味深いものではない。
リチャード・ファインマン(Richard Feynman)氏が提唱したように、量子力学的に自然界をシミュレートする量子効果を利用して量子コンピュータを構築するのは、我々の基本的な物理プロセスに対する理解が絶え間なく向上するでしょう。
本稿では,宇宙における計算可能性と予測可能性の限界に関する制約について概説する。
最終的に、宇宙をシミュレートするコンピュータがシミュレーションと同じ物理法則によって支配されるシミュレーションにおいて、計算資源の枯渇は、外部プログラマが介入しない限りシミュレーションチェーンを停止し、観察できるかもしれない。 The question "What is real?" can be traced back to the shadows in Plato's cave. Two thousand years later, Rene Descartes lacked knowledge about arguing against an evil deceiver feeding us the illusion of sensation. Descartes' epistemological concept later led to various theories of sensory experiences. The concept of "illusionism", proposing that even the very conscious experience we have is an illusion, is not only a red-pill scenario found in the 1999 science fiction movie "The Matrix" but is also a philosophical concept promoted by modern tinkers, most prominently by Daniel Dennett. Reflection upon a possible simulation and our perceived reality was beautifully visualized in "The Matrix", bringing the old ideas of Descartes to coffee houses around the world. Irish philosopher Bishop Berkeley was the father of what was later coined as "subjective idealism", basically stating that "what you perceive is real". With the advent of quantum technologies based on the control of individual fundamental particles, the question of whether our universe is a simulation isn't just intriguing. Our ever-advancing understanding of fundamental physical processes will likely lead us to build quantum computers utilizing quantum effects for simulating nature quantum-mechanically in all complexity, as famously envisioned by Richard Feynman. In this article, we outline constraints on the limits of computability and predictability in/of the universe, which we then use to design experiments allowing for first conclusions as to whether we participate in a simulation chain. Eventually, in a simulation in which the computer simulating a universe is governed by the same physical laws as the simulation, the exhaustion of computational resources will halt all simulations down the simulation chain unless an external programmer intervenes, which we may be able to observe. | 翻訳日:2023-01-09 18:59:03 公開日:2022-12-13 |
# スタンプトランスファーによるダイヤモンド中のGaPフォトニック結晶キャビティとシリコン空孔中心とのハイブリッド集積 Hybrid Integration of GaP Photonic Crystal Cavities with Silicon-Vacancy Centers in Diamond by Stamp-Transfer ( http://arxiv.org/abs/2212.04670v2 ) ライセンス: Link先を確認 | Srivatsa Chakravarthi, Nicholas S. Yama, Alex Abulnaga, Ding Huang, Christian Pederson, Karine Hestroffer, Fariba Hatami, Nathalie P. de Leon, Kai-Mei C. Fu | (参考訳) 量子ネットワークの最も有望な量子ビットプラットフォームのひとつとして、光学的に対応可能な固体欠陥が出現している。
ナノフォトニックキャビティカップリングによる光子-欠陥相互作用の最大化はネットワーク効率の鍵となる。
酸化ケイ素担体上にガリウムホスフィン1-Dフォトニック結晶導波管を作製し, ダイヤモンド中のシリコン空孔(SiV)中心をスタンプ・トランスファー法で集積した。
プレス加工はダイヤモンドエッチングを回避し、積分前のキャビティの微調整を可能にする。
ダイヤモンドへの移動後、キャビティの品質因子(Q$)を最大8900まで測定し、これらのキャビティに結合した単一SiV中心の共鳴励起を行う。
4100ドルのキャビティに対して、我々は3倍の長寿命の共振を観測し、c = 2$ の最大ポテンシャルの協調性に対応する。
これらの結果は、量子欠陥ホスト結晶の作成を避けるプラットフォームにおける高光子-欠陥相互作用の可能性を示唆する。 Optically addressable solid-state defects are emerging as one of the most promising qubit platforms for quantum networks. Maximizing photon-defect interaction by nanophotonic cavity coupling is key to network efficiency. We demonstrate fabrication of gallium phosphide 1-D photonic crystal waveguide cavities on a silicon oxide carrier and subsequent integration with implanted silicon-vacancy (SiV) centers in diamond using a stamp-transfer technique. The stamping process avoids diamond etching and allows fine-tuning of the cavities prior to integration. After transfer to diamond, we measure cavity quality factors ($Q$) of up to 8900 and perform resonant excitation of single SiV centers coupled to these cavities. For a cavity with $Q$ of 4100, we observe a three-fold lifetime reduction on-resonance, corresponding to a maximum potential cooperativity of $C = 2$. These results indicate promise for high photon-defect interaction in a platform which avoids fabrication of the quantum defect host crystal. | 翻訳日:2023-01-09 18:25:47 公開日:2022-12-13 |
# 量子作曲家を用いたブロッホ球面のモデリング支援トンネル Modelling assisted tunneling on the Bloch sphere using the Quantum Composer ( http://arxiv.org/abs/2212.04845v2 ) ライセンス: Link先を確認 | Jonas Bley, Vieri Mattei, Simon Goorney, Jacob Sherson, Stefan Heusler | (参考訳) ブロッホ球面表現は、2レベル系の全ての可能な量子状態に対する比較的単純な幾何学モデルである。
本稿では,Bloch-sphere表現に基づくキュービットの時間力学に関する簡単な幾何学的モデルを提案する。
このモデルは時間非依存ハミルトニアンと時間依存ハミルトニアンの両方に適用できる。
明示的な応用として,ダブルウェルポテンシャルにおける粒子の時間ダイナミクスを考える。
特に, 量子トンネル理論の文脈において, いわゆる超原理(量子エミッタ人口の巻き上げ)であるオフ共振励起の最近の方法を採用する。
電位高さの適切な振動が導入された場合,トンネルの確率はマグニチュードのオーダーで向上できることを示す。
教育者と開発者との対話と呼ぶコラボレーティブなアプローチによって、ソフトウェアquantum composerの更新版が提示されます。
ここでは教育目的のために、1D-Schr\\odinger方程式の2つの最低エネルギー状態をブロッホ球面表現にマッピングし、関連する時間力学に対してかなり明確で直感的な物理像を与える。 The Bloch-sphere representation is a rather simple geometric model for all possible quantum states of a two-level system. In this article, we propose a simple geometric model for the time dynamics of a qubit based on the Bloch-sphere representation. The model can be applied both to time-independent and time-dependent Hamiltonians. As explicit application, we consider time dynamics of a particle in a double-well potential. In particular, we adopt a recent method for off-resonant excitations, the so-called SUPER principle (Swing-UP of the quantum emitter population) in the context of quantum tunneling. We show that the tunneling probability can be enhanced by orders of magnitude when an appropriate oscillation of the potential height is introduced. Driven by a collaborative approach we call educator-developer dialogue, an updated version of the software Quantum Composer is presented. Here it is used for educational purposes, to map the two lowest energy states of the 1D-Schr\"odinger equation to the Bloch sphere representation, leading to a rather clear and intuitive physical picture for the pertinent time dynamics. | 翻訳日:2023-01-09 18:24:34 公開日:2022-12-13 |
# 超伝導量子ビット配列におけるソリトン対単一光子量子力学 Soliton versus single photon quantum dynamics in arrays of superconducting qubits ( http://arxiv.org/abs/2212.06627v1 ) ライセンス: Link先を確認 | Ben Blain, Giampiero Marchegiani, Juan Polo, Gianluigi Catelani, and Luigi Amico | (参考訳) 超伝導回路は量子プロセッサとシミュレータの将来実装に有望なプラットフォームである。
容量結合トランスモン量子ビットの配列は、魅力的なオンサイト相互作用を持つBose-Hubbardモデルを自然に実装する。
このような多体系のスペクトルは、明るいソリトンの格子アナログを定義する低エネルギー局在状態によって特徴づけられる。
ここでは、これらの明るいソリトンをシステムに固定できることを示し、その形状を維持しながらソリトンが動くことを発見した。
その速度は、結合相互作用と構成ボソンの数の観点から、スケーリング則に従う。
対照的に、アレイを通る光子のソース-ドレイン輸送は、明るいソリトンよりも高いエネルギーを持つ拡張状態を通じて起こる。
ソース/ドレインと配列の間の弱い結合のために、ソースとドレインの個体数は時間的に振動し、チェーンは常時ほぼ無人口のままである。
このような現象はパリティに依存している。
実験実現に向けた実験結果の意義について考察した。 Superconducting circuits constitute a promising platform for future implementation of quantum processors and simulators. Arrays of capacitively coupled transmon qubits naturally implement the Bose-Hubbard model with attractive on-site interaction. The spectrum of such many-body systems is characterised by low-energy localised states defining the lattice analog of bright solitons. Here, we demonstrate that these bright solitons can be pinned in the system, and we find that a soliton moves while maintaining its shape. Its velocity obeys a scaling law in terms of the combined interaction and number of constituent bosons. In contrast, the source-to-drain transport of photons through the array occurs through extended states that have higher energy compared to the bright soliton. For weak coupling between the source/drain and the array, the populations of the source and drain oscillate in time, with the chain remaining nearly unpopulated at all times. Such a phenomenon is found to be parity dependent. Implications of our results for the actual experimental realisations are discussed. | 翻訳日:2023-01-09 16:02:23 公開日:2022-12-13 |
# 量子資源理論におけるロバストネス測定の連続性 Continuity of robustness measures in quantum resource theories ( http://arxiv.org/abs/2212.06654v1 ) ライセンス: Link先を確認 | Jonathan Schluck, Gl\'aucia Murta, Hermann Kampermann, Dagmar Bru{\ss} and Nikolai Wyderka | (参考訳) ロバストネス測度は、絡み合いやコヒーレンスのような量子資源理論のために導入された顕著なリソース量化器である。
これらの測度の一般性にもかかわらず、その有用性は、その数学的性質のいくつかが、特に資源のない状態の集合が凸でないとき、不明確であるという事実によって妨げられている。
本稿では, 異なるロバスト性関数の連続性特性について検討する。
それらの連続性は自由状態の集合の形に依存することを示す。
特に、多くの場合、恒星凸性はロバスト性のリプシッツ連続性に十分であり、非連続測度につながる集合の具体例を提供する。
最後に, テレポータビリティと量子不一致のロバスト性を定義することにより, 結果の適用性を示す。 Robustness measures are increasingly prominent resource quantifiers that have been introduced for quantum resource theories such as entanglement and coherence. Despite the generality of these measures, their usefulness is hindered by the fact that some of their mathematical properties remain unclear, especially when the set of resource-free states is non-convex. In this paper, we investigate continuity properties of different robustness functions. We show that their continuity depends on the shape of the set of free states. In particular, we demonstrate that in many cases, star-convexity is sufficient for Lipschitz-continuity of the robustness, and we provide specific examples of sets leading to non-continuous measures. Finally, we illustrate the applicability of our results by defining a robustness of teleportability and of quantum discord. | 翻訳日:2023-01-09 16:02:10 公開日:2022-12-13 |
# 高共役共焦点空洞qed顕微鏡 A high-cooperativity confocal cavity QED microscope ( http://arxiv.org/abs/2212.06716v1 ) ライセンス: Link先を確認 | Ronen M. Kroeze, Brendan P. Marsh, Kuan-Yu Lin, Jonathan Keeling, and Benjamin L. Lev | (参考訳) ユニティよりもはるかに大きな協調性を持つキャビティQEDは、高忠実な量子センシングと情報処理を可能にする。
高協力性体制は短い単モード共振器を用いることでしばしば到達する。
近接共焦点光ファブリ-P\'{e}rotキャビティのようなより複雑な多重モード共振器は、高い協調性に加えてキャビティ内原子イメージングを提供することができる。
この能力は最近、駆動散逸状態における量子多体物理学の探索に重要であることが証明された。
本研究では,共焦点キャビティqed顕微鏡が110以上の協調性を実現することを示す。
この協調性は、非常に優れたシングルモードキャビティ(これははるかに短い)と、同様の長さとミラー半径を持つシングルモード共振器よりも21$\times$である。
1.7-$\mu$m画像解像度は、自然に光子による相互作用範囲と同一である。
各種キャビティ内位置において,小型の光学解凍ボース・アインシュタイン凝縮物が励起される場合のキャビティ超放射率の閾値を決定することにより,これらの量を測定した。
外部空洞の透過測定はこれらの結果を裏付ける。
我々は,多くの近退化モードの原子への分散結合から,協調性向上がいかに生じるかを示す理論的説明を提供する。 Cavity QED with cooperativity far greater than unity enables high-fidelity quantum sensing and information processing. The high-cooperativity regime is often reached through the use of short, single-mode resonators. More complicated multimode resonators, such as the near-confocal optical Fabry-P\'{e}rot cavity, can provide intracavity atomic imaging in addition to high cooperativity. This capability has recently proved important for exploring quantum many-body physics in the driven-dissipative setting. In this work, we show that a confocal cavity QED microscope can realize cooperativity in excess of 110. This cooperativity is on par with the very best single-mode cavities (which are far shorter) and 21$\times$ greater than single-mode resonators of similar length and mirror radii. The 1.7-$\mu$m imaging resolution is naturally identical to the photon-mediated interaction range. We measure these quantities by determining the threshold of cavity superradiance when small, optically tweezed Bose-Einstein condensates are pumped at various intracavity locations. Transmission measurements of an ex situ cavity corroborate these results. We provide a theoretical description that shows how cooperativity enhancement arises from the dispersive coupling to the atoms of many near-degenerate modes. | 翻訳日:2023-01-09 16:01:56 公開日:2022-12-13 |
# オイラー36人の問題に対する絶対極大絡み合い状態の分類と非等価量子解の無限性について On classifying absolutely maximally entangled states and the infinitude of inequivalent quantum solutions to the problem of 36 officers of Euler ( http://arxiv.org/abs/2212.06737v1 ) ライセンス: Link先を確認 | Suhail Ahmad Rather, N. Ramadas, Vijay Kodiyalam, and Arul Lakshminarayan | (参考訳) 絶対的に極大な絡み合い(AME)状態は、真にN$粒子の多重部分的純状態であり、それぞれの局所次元は$d$であり、任意の二分割にまたがる最大絡み合いを持つ。
本研究では, 4 つの AME 状態の局所的ユニタリ同値の問題について考察する。
4 qubit (d=2$) の AME 状態は存在しないことが知られている。
局所ユニタリ同値まで 4 つの立方体 (d=3$) の {\em one} ame状態しか存在しないことを示す。
d\geq 4$ の場合、局所ユニタリクラスの数は無限であることが示される。
4つの ame 状態は、$d=2$ と $d=6$ を除いて存在する次元 $d$ の直交ラテン正方形から構成できることが知られている。
特に興味深いのは、$d=6$の場合であり、この場合にもかかわらず、最近、36人の役員の古典的に不可能なオイラー問題に対する量子解を提供する4つのパーティのAME状態が存在することが示されている。
これに基づいて、等価でないAME状態の無限大が構築される。
LOCC(ローカルな操作と古典的な通信)とSLOCC(Stochastic LOCC)の同値性というより一般的な状態同値性は、それらの局所的なユニタリな同値性によって示されるので、これらのAME状態に対しても解決される。 Absolutely maximally entangled (AME) states are genuinely entangled multipartite pure states of $N$ particles, each of local dimension $d$, with maximal entanglement across any bipartition. In this work we settle the question of local unitary equivalence of four party AME states. It is known that there is no AME state of four qubit ($d=2$). We show that there is only {\em one} AME state of four qutrits ($d=3$) up to local unitary equivalence. For $d\geq 4$ the number of local unitary classes is shown to be infinite. It is known that four party AME states can be constructed from orthogonal Latin squares of dimension $d$ that exist except when $d=2$ and $d=6$. Of special interest is the case $d=6$, where despite this, it was shown recently that a four-party AME state exists, providing a quantum solution to the classically impossible Euler problem of 36 officers. Based on this, an infinity of AME states are constructed that are not equivalent. The more general framework of state equivalence, namely LOCC (local operations and classical communication) and SLOCC (Stochastic LOCC) equivalence are also resolved for these AME state as they are implied by their local unitary equivalence. | 翻訳日:2023-01-09 16:01:34 公開日:2022-12-13 |
# 時間依存ハミルトニアンに対する最小4次トロッタライズ式 Minimum Fourth-Order Trotterization Formula for a Time-Dependent Hamiltonian ( http://arxiv.org/abs/2212.06788v1 ) ライセンス: Link先を確認 | Tatsuhiko N. Ikeda, Asir Abrar, Isaac L. Chuang, Sho Sugiura | (参考訳) 時間プロパゲータ $e^{\delta t A}$ for duration $\delta t$ が2つの非可換部分 $A=X+Y$ からなるとき、トロッタ化はプロパゲータを約$X$ と $Y$ の指数関数の積に分解する。
量子コンピュータや古典コンピュータでは様々なトロタライズ公式が使われているが、時間依存のジェネレータ$Aでトロタライズを行う場合はあまり知られていない。
(t)$。
その難しさは、プロパゲーターが時間順序指数 $\mathcal{T}\exp(\int_\mu^{\mu+\delta t}A となることである。
(s)ds)$ は二階式以上である。
ここに、$aで
(t)時間依存係数$Aの2つの演算子$X$と$Y$の和で与えられる$
(t) = x
(t)X + y
(t)Y$、誤差が$O(\delta t^5)$である4階トロッター化式を得る。
この公式は、x$ と y$ の7つの指数から成り、指数関数が 7 未満の4階の対数化公式は存在しないことを証明している。
そのエラーは、時間に依存しない公式で知られている$\gamma_5$と、$aの時間依存に固有の新しいコントリビューション$\upsilon_5$である。
(t)$。
最後に, ハミルトニアン検定では, 11個の指数関数を含む時依存の鈴木式ほど誤差が小さいことを数値的に示す。 When a time propagator $e^{\delta t A}$ for duration $\delta t$ consists of two noncommuting parts $A=X+Y$, Trotterization approximately decomposes the propagator into a product of exponentials of $X$ and $Y$. Various Trotterization formulas have been utilized in quantum and classical computers, but much less is known for the Trotterization with the time-dependent generator $A(t)$. Its difficulty is that the propagator becomes a time-ordered exponential $\mathcal{T}\exp(\int_\mu^{\mu+\delta t}A(s)ds)$ for more than the second-order formula. Here, for $A(t)$ given by the sum of two operators $X$ and $Y$ with time-dependent coefficients $A(t) = x(t) X + y(t) Y$, we obtain a fourth-order Trotterization formula, whose error is $O(\delta t^5)$. The formula consists of seven exponentials of $X$ and $Y$, and we prove that there is no fourth-order Trotterization formula with fewer than seven exponentials. Its error consists of the contribution $\Gamma_5$ known for the time-independent formula plus a new contribution $\Upsilon_5$ which is intrinsic to the time dependence of $A(t)$. Finally, we numerically demonstrate that for the Hamiltonian tested our formula has errors as small as the time-dependent fourth-order Suzuki formula involving eleven exponentials. | 翻訳日:2023-01-09 16:00:58 公開日:2022-12-13 |
# 異方性2次元材料における電子伝達の拡張伝達行列法:ひずみの相互作用と電位の(a)周期性 Extended transfer matrix method for electron transmission in anisotropic 2D materials: Interplay of strain and (a)periodicity of potentials ( http://arxiv.org/abs/2212.06936v1 ) ライセンス: Link先を確認 | Erik D\'iaz-Bautista, Yonatan Betancur-Ocampo, Alfredo Raya | (参考訳) 従来の移動行列法を,擬スピン相の反射法則や波動ベクトルなどの2次元材料における電子伝達の異方性特性を含むように拡張する。
この方法では、ひずみテンソルやゲーティングを含む幅広い可変パラメータから異方性および成層型静電ポテンシャル媒体の伝送特性を調べることができる。
拡張行列法を適用し, 電子伝達, 伝導率, ファノ因子を外部の1次元の周期ポテンシャルを持つ一軸ひずみグラフェンシートの相互作用に応用した。
その結果,コンダクタンス測定からこの相互作用を可視化できる可能性が示唆された。 We extend the conventional transfer matrix method to include anisotropic features for electron transmission in two-dimensional materials, such as breaking reflection law in pseudo-spin phases and wave vectors. This method allows to study transmission properties of anisotropic and stratified electrostatic potential media from a wide range of tunable parameters, which include strain tensor and gating. We apply the extended matrix method to obtain the electron transmission, conductance, and Fano factor for the interplay of an uniaxially strained graphene sheet with external one-dimensional aperiodic potentials. Our results suggest the possibility of visualizing this interplay from conductance measurements. | 翻訳日:2023-01-09 16:00:31 公開日:2022-12-13 |
# QuYBE -- 量子回路圧縮のための代数的コンパイラ QuYBE -- An Algebraic Compiler for Quantum Circuit Compression ( http://arxiv.org/abs/2212.06948v1 ) ライセンス: Link先を確認 | Sahil Gulania, Zichang He, Bo Peng, Niranjan Govind, Yuri Alexeev | (参考訳) QuYBEは、量子回路の圧縮のためのオープンソースの代数コンパイラである。
量子コンピュータ上のハイゼンベルクハミルトニアンの効率的なシミュレーションに応用されている。
現在、1次元鎖の時間ダイナミクスをシミュレートすることができる。
これには、上記の量子回路を生成するモジュールと、時間ステップに依存しない圧縮回路を生成するモジュールが含まれる。
yang-baxter方程式(ybe)を用いて圧縮を行う。
QuYBEは、量子コンピュータ上でHeisenberg Hamiltonianの時間ダイナミクスをシームレスに設計、実行、分析することができる。
QuYBEは、複数のドメインの科学者の幅広いコミュニティにYBEテクニックを提供するための第一歩である。
QuYBEコンパイラはhttps://github.com/ZichangHe/QuYBEで入手できる。 QuYBE is an open-source algebraic compiler for the compression of quantum circuits. It has been applied for the efficient simulation of the Heisenberg Hamiltonian on quantum computers. Currently, it can simulate the time dynamics of one-dimensional chains. It includes modules to generate the quantum circuits for the above as well as produce the compressed circuits, which are independent of the time step. It utilizes the Yang-Baxter equation (YBE) to perform the compression. QuYBE enables users to seamlessly design, execute, and analyze the time dynamics of the Heisenberg Hamiltonian on quantum computers. QuYBE is the first step toward making the YBE technique available to a broader community of scientists from multiple domains. The QuYBE compiler is available at https://github.com/ZichangHe/QuYBE | 翻訳日:2023-01-09 16:00:19 公開日:2022-12-13 |
# 中性リドベルク原子の弱いファンデルワールス相互作用を持つ量子ゲート Quantum gates with weak van der Waals interactions of neutral Rydberg atoms ( http://arxiv.org/abs/2212.06316v1 ) ライセンス: Link先を確認 | Xiao-Feng Shi and Yan Lu | (参考訳) 中性原子は大規模量子コンピューティングに期待できるが、正確な中性原子の絡み合いは、原子間距離を強く制限する大きなリドバーグ相互作用に依存する。
Rydberg と Rydberg のRydberg の周波数に類似した相互作用によって実現された変性 Rabi サイクルの位相蓄積として、任意の位相を持つ制御相ゲートを解析し、制御-NOT ゲートに拡張する。
ゲートは1つのライドバーグ状態と結合するための3つのステップしか必要とせず、遠方の原子間で自然に発生する容易にアクセス可能なファンデルワールス相互作用に依存し、弱い相互作用系では回転誤差を持たない。
重要なことに、それらは非常に弱い相互作用で作用し、十分に分離された量子ビットを絡み合わせることができる。
ゲートは、リドベルク相互作用の取り外し不可能な変動に敏感であるが、20〜$\mu$mで分離された量子ビットの現実的な位置ゆらぎを持つ98\%以上の忠実度を持つことができる。 Neutral atoms are promising for large-scale quantum computing, but accurate neutral-atom entanglement depends on large Rydberg interactions which strongly limit the interatomic distances. Via a phase accumulation in detuned Rabi cycles enabled by a Rydberg interaction of similar magnitude to the Rydberg Rabi frequency, we study a controlled-phase gate with an arbitrary phase and extend it to the controlled-NOT gate. The gates need only three steps for coupling one Rydberg state, depend on easily accessible van der Waals interaction that naturally arises between distant atoms, and have no rotation error in the weak interaction regime. Importantly, they can work with very weak interactions so that well-separated qubits can be entangled. The gates are sensitive to the irremovable fluctuation of Rydberg interactions, but can still have a fidelity over 98\% with realistic position fluctuation of qubits separated over 20~$\mu$m. | 翻訳日:2023-01-09 15:52:41 公開日:2022-12-13 |
# Rydbergブロックによる2価中性原子のハイパーエンタングルメント Hyperentanglement of divalent neutral atoms by Rydberg blockade ( http://arxiv.org/abs/2212.06349v1 ) ライセンス: Link先を確認 | Xiao-Feng Shi | (参考訳) 2つの粒子が1つ以上の自由度で同時に絡み合うハイパーエンタングルメント(he)は、基礎物理学と量子技術の両方に関係している。
HEのこれまでの研究は光子に焦点を合わせてきた。
ここでは、HEを個々の中性原子で研究する。
2つの価電子と0でない核スピンを持つほとんどのアルカリ土様原子では、基底状態と長寿命のクロック状態という2つの安定な電子状態が存在する。
一方、核スピン状態は核量子ビットを定義することができる。
Rydberg 封鎖効果により、制御された-Z~(C$_{\text{Z}}$) 演算は近くの2つの原子の電子量子ビットで生成でき、同時にそれらの核量子ビットでも生成でき、C$_{\text{Z}}\otimes$C$_{\text{Z}}$演算がHEを誘導できることを示す。
個々の中性原子にheを誘導する可能性は、中性原子に基づく量子科学と技術を研究する新しい機会を提供する。 Hyperentanglement~(HE), the simultaneous entanglement between two particles in more than one degrees of freedom, is relevant to both fundamental physics and quantum technology. Previous study on HE has been focusing on photons. Here, we study HE in individual neutral atoms. In most alkaline-earth-like atoms with two valence electrons and a nonzero nuclear spin, there are two stable electronic states, the ground state and the long-lived clock state, which can define an electronic qubit. Meanwhile, their nuclear spin states can define a nuclear qubit. By the Rydberg blockade effect, we show that the controlled-Z~(C$_{\text{Z}}$) operation can be generated in the electronic qubits of two nearby atoms, and simultaneously in their nuclear qubits as well, leading to a C$_{\text{Z}}\otimes$C$_{\text{Z}}$ operation which is capable to induce HE. The possibility to induce HE in individual neutral atoms offers new opportunities to study quantum science and technology based on neutral atoms. | 翻訳日:2023-01-09 15:52:07 公開日:2022-12-13 |
# 超伝導コプラナー導波路を用いた高速原子-光子結合ゲート Fast atom-photon entangling gates with a superconducting coplanar waveguide ( http://arxiv.org/abs/2212.06360v1 ) ライセンス: Link先を確認 | Xiao-Feng Shi | (参考訳) 超伝導コプラナー導波路(scw)における原子とマイクロ波光子の絡み合いは、ハイブリッド量子デバイスと静的および空飛ぶ量子ビットを可能にする。
SCW近傍に閉じ込められた中性原子と、[J.D. Pritchard, et.al., Phys. Rev. A 89, 010301(R) (2014)]に提案されるゲートの拡張であるSCW内のマイクロ波モードとの間の一段階制御Z~(C$_{\text{Z}}$)ゲートについて検討する。
ゲートプロトコルは単純で、中性原子のリドベルク状態と地面の遷移を刺激するために1つのレーザーパルスを必要とする。 Entanglement between atoms and microwave photons in a superconducting coplanar waveguide~(SCW) can enable hybrid quantum devices and interface static and flying qubits. We study a one-step controlled-Z~(C$_{\text{Z}}$) gate between a neutral atom trapped near a SCW and a microwave mode in the SCW, which is an extension of the gate proposed in [J. D. Pritchard, et.al., Phys. Rev. A 89, 010301(R) (2014)]. The gate protocol is simple and requires one laser pulse for exciting a transition between the ground and Rydberg states of the neutral atom. | 翻訳日:2023-01-09 15:51:46 公開日:2022-12-13 |
# 中性リドバーグ原子による量子論理と絡み合い:方法と忠実性 Quantum logic and entanglement by neutral Rydberg atoms: methods and fidelity ( http://arxiv.org/abs/2212.06427v1 ) ライセンス: Link先を確認 | Xiao-Feng Shi | (参考訳) 量子ゲートと、中性リドバーグ原子の双極子-双極子相互作用に基づく絡み合いは、基礎物理学と量子情報科学の両方に関係している。
Rydbergによるエンタングルメントプロトコルの精度と堅牢性は、実験や近未来の産業における適用性を制限する重要な要素である。
ニュートラル原子のリドベルグ相互作用を探索し、それぞれの強みと弱みを備えることで、絡み合うゲートを生成する様々な方法がある。
これらのプロトコルの基本とトリックをレビューし、達成可能な忠実さと技術的問題に対する堅牢性と有害な自然要因に特に注意を払う。 Quantum gates and entanglement based on dipole-dipole interactions of neutral Rydberg atoms are relevant to both fundamental physics and quantum information science. The precision and robustness of the Rydberg-mediated entanglement protocols are the key factors limiting their applicability in experiments and near-future industry. There are various methods for generating entangling gates by exploring the Rydberg interactions of neutral atoms, each equipped with its own strengths and weaknesses. The basics and tricks in these protocols are reviewed, with specific attention paid to the achievable fidelity and the robustness to the technical issues and detrimental innate factors. | 翻訳日:2023-01-09 15:51:29 公開日:2022-12-13 |
# インフレーションの絡み合い Inflationary entanglement ( http://arxiv.org/abs/2212.06448v1 ) ライセンス: Link先を確認 | Alessio Belfiglio, Orlando Luongo, Stefano Mancini | (参考訳) インフレーション時の粒子生成における幾何補正による絡み合いについて検討した。
そこで我々は,時空のスカラー曲率と非最小に結合した単場インフレーションシナリオを提案する。
粒子生成は純粋に幾何学的であり、ボゴルボフ係数をゼロに設定し、時空の摂動に関連する$S$行列を計算し、それはインフラトンゆらぎに遡る。
対応する粒子密度は、宇宙の進化の原始時間で研究される非零の絡み合いエントロピーをもたらす。
ダークマターの観点から粒子候補をモデル化する可能性について論じる。
均質な動的背景自由度に対する不均一性の古典的逆反応も研究され、スローロール法で定量化されている。 We investigate the entanglement due to geometric corrections in particle creation during inflation. To do so, we propose a single-field inflationary scenario, nonminimally coupled to the scalar curvature of spacetime. We require particle production to be purely geometric, setting to zero the Bogolubov coefficients and computing the $S$ matrix associated to spacetime perturbations, which are traced back to inflaton fluctuations. The corresponding particle density leads to a nonzero entanglement entropy whose effects are investigated at primordial time of Universe evolution. The possibility of modeling our particle candidate in terms of dark matter is discussed. The classical back-reaction of inhomogeneities on the homogeneous dynamical background degrees of freedom is also studied and quantified in the slow-roll regime. | 翻訳日:2023-01-09 15:51:18 公開日:2022-12-13 |
# H_2^+$のトッピングと地中冷却 Trapping and ground-state cooling of $H_2^+$ ( http://arxiv.org/abs/2212.06456v1 ) ライセンス: Link先を確認 | N. Schwegler, D. Holzapfel, M. Stadler, A. Mitjans, I. Sergachev, J. P. Home, and D. Kienzler | (参考訳) 極低温ポールトラップにおけるH_2^+ - ^9Be^+$イオン対の共トラッピングとサイドバンド冷却を実証した。
我々は,H_2^+$の化学寿命とその装置温度依存性について検討し,平均フォノン数 0.07(1) への変換運動の冷却を,温度22(1)\mu K$ に対応して,最大1,11^{+6}_{-3} h$ の寿命を 10 K で達成した。
この結果は、$H_2^+$、$HD^+$、$H_3^+$、$He^+$といった他の光イオンと同様に、量子論理分光実験の基礎を提供する。 We demonstrate co-trapping and sideband cooling of a $H_2^+ - ^9Be^+$ ion pair in a cryogenic Paul trap. We study the chemical lifetime of $H_2^+$ and its dependence on the apparatus temperature, achieving lifetimes of up to $11^{+6}_{-3} h$ at 10 K. We demonstrate cooling of translational motion to an average phonon number of 0.07(1), corresponding to a temperature of $22(1)\mu K$. Our results provide a basis for quantum logic spectroscopy experiments of $H_2^+$, as well as other light ions such as $HD^+$, $H_3^+$, and $He^+$. | 翻訳日:2023-01-09 15:51:05 公開日:2022-12-13 |
# 解析可解フック原子上のクープマンススペクトル汎関数のテスト Testing Koopmans spectral functionals on the analytically-solvable Hooke's atom ( http://arxiv.org/abs/2212.05950v2 ) ライセンス: Link先を確認 | Yannick Schubert, Nicola Marzari, Edward Linscott | (参考訳) クープマン分光関数は、分光特性を正確に予測するために設計された軌道密度依存関数のクラスである。
それらは、分子やバルク系のベンチマークで示されたように、コーン・シャム密度汎関数理論よりも著しく優れている。
この研究は、実際の多電子系と比較する代わりに、分析解を持つおもちゃの2電子系であるフックの原子上でクープマン分光関数を試験する補完的な研究である。
これらの計算が明らかに示すように、クープマンのスペクトル関数はフックの原子を記述するのに優れた働きをする。
この研究はまた、クープマンのスペクトル汎関数の特徴と能力についてより広い洞察を与えている。 Koopmans spectral functionals are a class of orbital-density-dependent functionals designed to accurately predict spectroscopic properties. They do so markedly better than their Kohn-Sham density-functional theory counterparts, as demonstrated in earlier works on benchmarks of molecules and bulk systems. This work is a complementary study where -- instead of comparing against real, many-electron systems -- we test Koopmans spectral functionals on Hooke's atom, a toy two-electron system that has an analytical solution. As these calculations clearly illustrate, Koopmans spectral functionals do an excellent job of describing Hooke's atom. This work also provides broader insight into the features and capabilities of Koopmans spectral functionals more generally. | 翻訳日:2023-01-09 15:43:12 公開日:2022-12-13 |
# アクティブ冷却による量子コンピュータ上のボルツマン分布 Boltzmann Distributions on a Quantum Computer via Active Cooling ( http://arxiv.org/abs/2212.06730v1 ) ライセンス: Link先を確認 | Carter Ball and Thomas D. Cohen | (参考訳) 量子コンピューティングは、現在難解な物理学における様々な問題を解決する可能性を高める。
そのような問題の多くは、熱平衡付近の系の物理学に関するものである。
量子コンピュータ上で熱期待値を計算する主な方法は2つある:熱期待値を再現する熱状態を構築するか、または与えられた温度のボルツマン分布から様々なエネルギー固有状態をサンプリングする。
本稿では,第2のアプローチを取り上げ,アクティブ冷却を用いて分布を生成するアルゴリズムを提案する。
このアルゴリズムは多種多様なシステムに適用できるが、qcdのような非可換ゲージ理論の熱的配置をシミュレートするという特別な意図で開発され、重イオン衝突によって生成されたクォークグルーオンプラズマの研究を可能にした。 Quantum computing raises the possibility of solving a variety of problems in physics that are presently intractable. A number of such problems involves the physics of systems in or near thermal equilibrium. There are two main ways to compute thermal expectation values on a quantum computer: construct a thermal state that reproduces thermal expectation values, or sample various energy eigenstates from a Boltzmann distribution of a given temperature. In this paper we address the second approach and propose an algorithm that uses active cooling to produce the distribution. While this algorithm is quite general and applicable to a wide variety of systems, it was developed with the specific intention of simulating thermal configurations of non-Abelian gauge theories such as QCD, which would allow the study of quark-gluon plasma created in heavy-ion collisions. | 翻訳日:2023-01-09 15:17:40 公開日:2022-12-13 |
# ページタイム以前の量子情報について On Quantum Information Before the Page Time ( http://arxiv.org/abs/2212.06839v1 ) ライセンス: Link先を確認 | Jonah Kudler-Flam, Yuya Kusuki | (参考訳) ブラックホール情報問題の最近の進歩は、ホーキング放射のエントロピーが一元的なページ曲線に従うことを示しているが、ページ時間以前のホーキング放射の量子状態は純粋な熱として扱われ、ブラックホールの微細構造に関する情報は含まれていない。
ページ時間以前のホーキング放射におけるブラックホールの量子状態に関する重要な量子情報が存在することを示す。
ブラックホール蒸発の2次元境界共形場理論(BCFT)モデルにおける量子忠実性の計算により、蒸発するブラックホールの外の観測者が、指数関数的に多くの測定値があるにもかかわらず、蒸発過程において、ホーキング放射の測定によって異なるブラックホールを区別できることを示した。
さらに、我々の結果は普遍的で、大きな中心電荷と合理的なBCFTを含む一般のBCFTに適用できる。
忠実度を計算するために開発された技術は、より一般的にCFTの励起状態に適用できる。
したがって、2次元共形場理論における熱化のより一般的な側面を特徴付けることができる。 While recent progress in the black hole information problem has shown that the entropy of Hawking radiation follows a unitary Page curve, the quantum state of Hawking radiation prior the Page time is still treated as purely thermal, containing no information about the microstructure of the black hole. We demonstrate that there is significant quantum information regarding the quantum state of the black hole in the Hawking radiation prior to the Page time. By computing of the quantum fidelity in a 2D boundary conformal field theory (BCFT) model of black hole evaporation, we demonstrate that an observer outside of an evaporating black hole may distinguish different black holes via measurements of the Hawking radiation at \textit{any} time during the evaporation process, albeit with an exponentially large number of measurements. Furthermore, our results are universal, applicable to general BCFTs including those with large central charge and rational BCFTs. The techniques we develop for computing the fidelity are more generally applicable to excited states in CFT. As such, we are able to characterize more general aspects of thermalization in 2D conformal field theory. | 翻訳日:2023-01-09 15:17:26 公開日:2022-12-13 |
# SPT状態と量子セルオートマトン構築のための非局所有限深度回路 Non-local finite-depth circuits for constructing SPT states and quantum cellular automata ( http://arxiv.org/abs/2212.06844v1 ) ライセンス: Link先を確認 | David T. Stephen, Arpit Dua, Ali Lavasani, Rahul Nandkishore | (参考訳) 与えられた対象状態が単純な積状態から始まり、有限深度量子回路で作用するかどうかは、量子凝縮物質物理学、量子情報、量子計算において重要な問題である。
トポロジカルな位相の分類とトポロジカルな量子コードの理解を基礎としており、デバイス実装に明らかな関連性を持っている。
伝統的に、この問題は量子回路が幾何学的に局所的なユニタリゲートからなると仮定している。
ノイズの多い中間スケール量子デバイスが出現したことに触発されて、我々はこの問題をk$ローカルゲート、すなわち1k$以上の自由度で作用するが幾何学的に局所的ではないゲートで再考する。
対称保護位相状態 (SPTs) は積状態から始まり、対称$k$-局所ゲートの有限深さ回路で作用することにより生成できることを示し、従って$k$-局所自明である。
これらの結論は、大域対称性とサブシステム対称性によって保護されるSPTにも当てはまるが、高次対称性には当てはまらないように見える。
また、任意の次元の周期格子上の任意の変換不変な量子セルオートマトンは、有限深さの$k$-ローカル回路で実装可能であることを示す。
フラクトン相などの他の相への含意を議論し、今後の方向性を調査することで結論付ける。
本分析は, 状態形成の可能性と位相の安定性を, 幾何学的局所性を仮定せずに検証し, 凝縮物物理学, 量子情報, 量子計算に広く寄与する新しい概念的方向性を明らかにした。 Whether a given target state can be prepared by starting with a simple product state and acting with a finite-depth quantum circuit, is a key question in quantum condensed matter physics, quantum information, and quantum computation. It underpins classifications of topological phases, as well as the understanding of topological quantum codes, and has obvious relevance for device implementations. Traditionally, this question assumes that the quantum circuit is made up of unitary gates which are geometrically local. Inspired by the advent of noisy intermediate-scale quantum devices, we reconsider this question with $k$-local gates, i.e. gates that act on no more than $k$ degrees of freedom but are not restricted to be geometrically local. We show that symmetry-protected topological states (SPTs) can be produced by starting with a product state and acting with a finite-depth circuit of symmetric $k$-local gates, and are thus $k$-local trivial. These conclusions apply both to SPTs protected by global symmetries and subsystem symmetries, but seemingly not to higher-form symmetries. We also show that arbitrary translationally-invariant quantum cellular automata on periodic lattices in any dimension can be implemented by finite-depth $k$-local circuits. We conclude by discussing the implications for other phases, such as fracton phases, and surveying future directions. Our analysis opens a new experimentally motivated conceptual direction examining the feasibility of state preparation and the stability of phases without the assumption of geometric locality and has broad implications for condensed matter physics, quantum information, and quantum computation. | 翻訳日:2023-01-09 15:17:10 公開日:2022-12-13 |
# 平面ボース気体中のタンの2体接触:実験対理論 Tan's two-body contact in a planar Bose gas: experiment vs theory ( http://arxiv.org/abs/2212.06857v1 ) ライセンス: Link先を確認 | Adam Ran\c{c}on and Nicolas Dupuis | (参考訳) 非摂動的関数的再正規化群を用いて、横高調波ポテンシャルで閉じ込められた平面ボース気体の2体接触を決定する。
接触の3次元熱力学的定義を用いて, ボソン系の3次元散乱長に対する準2次元系の圧力の導出に後者が関係している。
自由パラメータがなければ、Zou {\it et al.の実験データと顕著な一致が見られる。
と語っています。
連絡しろ
bf 12}, 760 (2021)] はベレジンスキー-コステルリッツ-トゥーレス遷移の近傍を含む低温から高温まで変化する。
また、対分布関数の短距離挙動と運動量分布の高運動量挙動は、2つの接触によって決定される: 長さの3次元接触は、調和ポテンシャルの標数長$\ell_z=\sqrt{\hbar/m\omega_z}$よりも小さく、長さスケールは$\ell_z$より大きいが、3次元の接触は$\ell_z$に依存する幾何学的因子によって決定される。 We determine the two-body contact in a planar Bose gas confined by a transverse harmonic potential, using the nonperturbative functional renormalization group. We use the three-dimensional thermodynamic definition of the contact where the latter is related to the derivation of the pressure of the quasi-two-dimensional system with respect to the three-dimensional scattering length of the bosons. Without any free parameter, we find a remarkable agreement with the experimental data of Zou {\it et al.} [Nat. Comm. {\bf 12}, 760 (2021)] from low to high temperatures, including the vicinity of the Berezinskii-Kosterlitz-Thouless transition. We also show that the short-distance behavior of the pair distribution function and the high-momentum behavior of the momentum distribution are determined by two contacts: the three-dimensional contact for length scales smaller than the characteristic length $\ell_z=\sqrt{\hbar/m\omega_z}$ of the harmonic potential and, for length scales larger than $\ell_z$, an effective two-dimensional contact, related to the three-dimensional one by a geometric factor depending on $\ell_z$. | 翻訳日:2023-01-09 15:16:42 公開日:2022-12-13 |
# Klein-Gordon方程式の理解の改善 Improving our understanding of the Klein-Gordon equation ( http://arxiv.org/abs/2212.06878v1 ) ライセンス: Link先を確認 | P. J. Bussey | (参考訳) 相対論的量子力学におけるクライン・ゴルドン方程式の詳細な考察は、多くの標準的なアプローチよりも明確になるためである。
この方程式は、第二次性質、負エネルギー解の状況、粒子密度とフラックスの定式化に関してしばしば問題が提起されているにもかかわらず、研究文献で頻繁に用いられる。
これらの問題のほとんどは、負エネルギー解を廃止することで回避できる。
この方程式を広い波束に適用すると、通常の相対論的形式への小さな修正は非相対論的場合との連続性を示すのに役立つが、提案された量子状態が広い相対論的エネルギー分布を持つ場合、困難は残る。 A detailed consideration of the Klein-Gordon equation in relativistic quantum mechanics is presented in order to offer more clarity than many standard approaches. The equation is frequently employed in the research literature, even though problems have often been raised regarding its second-order nature, the status of its negative-energy solutions and the formulation of particle density and flux. Most of these problems can be avoided by dismissing the negative-energy solutions. An application of the equation to a broad wave-packet shows that a small amendment to the usual relativistic formalism can be helpful to demonstrate continuity with the non-relativistic case, although difficulties remain when the proposed quantum state has a broad relativistic energy distribution. | 翻訳日:2023-01-09 15:16:14 公開日:2022-12-13 |
# ダイヤモンドワイドフィールド緩和法による高速広帯域磁気共鳴分光 Fast, broad-band magnetic resonance spectroscopy with diamond widefield relaxometry ( http://arxiv.org/abs/2212.06087v2 ) ライセンス: Link先を確認 | C. Mignon, A. R. Ortiz Moreno, H. Shirzad, S. K. Padamati, V. Damle, Y. Ong, R. Schirhagl, M. Chipaux | (参考訳) 従来の電子常磁性共鳴分光装置に代わる方法を提案する。
バルク磁石とマグネトロン装置の使用を避けるため、ダイヤモンド表面の窒素・原子価中心のアンサンブルのフォトルミネッセンスを用いる。
緩和時間(またはT1)をモニタリングし,興味のある化合物との交差緩和を検出した。
さらに、EPRスペクトルは、局所磁場勾配によって符号化される。
従来の個々のNV中心の技術でスペクトルの各データポイントを記録するには12分が必要でしたが、3から11ガウスの範囲で、全スペクトルを3秒で1度に再構成することができます。
感度では, 1リットルあたり1マイクロモルのヘキサアクアコッパー (II) イオン溶液の0.5マイクロリットルしか必要としなかった。 We present an alternative to conventional Electron Paramagnetic Resonance spectroscopy equipment. Avoiding the use of bulky magnets and magnetron equipment, we use the photoluminescence of an ensemble of Nitrogen-Vacancy centers at the surface of a diamond. Monitoring their relaxation time (or T1), we detected their cross-relaxation with the compound of interest. In addition, the EPR spectra is encoded through a localized magnetic field gradient. While 12 minutes was necessary to record each data point of the spectrum with previous individual NV center's technics, we are able to reconstruct a full spectrum at once in 3 seconds, over a range from 3 to 11 gauss. In term of sensitivity, only 0.5 microliter of a hexaaquacopper (II) ion solution with 1 micromole per liter concentration was necessary. | 翻訳日:2023-01-09 15:08:41 公開日:2022-12-13 |
# Hermite-Gaussian Pointerによる角回転の超感度計測 Ultrasensitive Measurement of Angular Rotations via Hermite-Gaussian Pointer ( http://arxiv.org/abs/2212.06314v1 ) ライセンス: Link先を確認 | Binke Xia, Jingzheng Huang, Hongjing Li, Miaomiao Liu, Tailong Xiao, Chen Fang and Guihua Zeng | (参考訳) 角回転の測定における高い感度の探索は、光学とメトロロジーにおいて際立った課題である。
本研究では,mn次Hermite-Gaussianビームを角回転相互作用を持つ弱測定方式で使用し,回転情報を選択後完全に別のHGモード状態で取得する。
最終光線を投影測定することにより、角回転の精度を2mn+m+nの係数で向上させる。
検証のために、最小検出可能な角回転がHG55モードでHG11モードで$\sqrt{15}$-foldを改善し、測定精度のサブマイクロラディアンスケールを達成する光学実験を行う。
我々の理論的枠組みと実験結果は、角回転の超感度測定のためのより実用的で便利なスキームを提供するだけでなく、量子力学における幅広い応用に寄与する。 Exploring high sensitivity on the measurement of angular rotations is an outstanding challenge in optics and metrology. In this work, we employ the mn-order Hermite-Gaussian beam in the weak measurement scheme with an angular rotation interaction, where the rotation information is taken by another HG mode state completely after the post-selection. By taking a projective measurement on the final light beam, the precision of angular rotation is improved by a factor of 2mn+m+n. For verification, we perform an optical experiment where the minimum detectable angular rotation improves $\sqrt{15}$-fold with HG55 mode over that of HG11 mode, and achieves a sub-microradian scale of the measurement precision. Our theoretical framework and experimental results not only provide a more practical and convenient scheme for ultrasensitive measurement of angular rotations, but also contribute to a wide range of applications in quantum metrology. | 翻訳日:2023-01-09 15:08:09 公開日:2022-12-13 |
# 積分可能なデジタル量子シミュレーション:一般化ギブズアンサンブルとトロッター遷移 Integrable Digital Quantum Simulation: Generalized Gibbs Ensembles and Trotter Transitions ( http://arxiv.org/abs/2212.06455v1 ) ライセンス: Link先を確認 | Eric Vernier, Bruno Bertini, Giuliano Giudici, Lorenzo Piroli | (参考訳) トロッター・スズキ分解はデジタル量子シミュレーション(dqs)にとって有望な道であり、持続時間の離散的トロッターステップによる連続時間ダイナミクスの近似である。
最近の研究では、DQSはシャープなトロッター遷移によって特徴付けられることが示唆されている:$\tau$がしきい値を超えて増加すると、量子カオスの開始により近似誤差は制御不能になる。
ここでは、この図を可積分DQSの場合と対比する。
我々は、xxzハイゼンベルクスピンチェーンのスピン波状態からの単純なクエンチに注目し、その可積分なトロッタ化進化を$\tau$の関数として研究する。
厳密な局所保存則のため、系は無限温度まで加熱されず、ダイナミクスの後期特性は離散的一般化ギブスアンサンブル(dgge)によって捕捉される。
正確な計算によって、小さな$\tau$ の場合、dgge はトロッターステップに解析的に依存し、離散化誤差は無限の時間でも有界であることを示している。
逆に、dGGEは閾値$\tau_{\rm th}$で突然変化し、新しいタイプのトロッター遷移を示す。
後者は局所的に検出できることを示すが、これは非ゼロスタッガー型磁化の出現と関連しており、$\tau$に微妙な依存がある。
我々は連続ggesと離散ggesの違いを強調し、後者はデジタルプラットフォーム専用の興味深い非平衡状態であることを示唆している。 The Trotter-Suzuki decomposition is a promising avenue for digital quantum simulation (DQS), approximating continuous-time dynamics by discrete Trotter steps of duration $\tau$. Recent work suggested that DQS is typically characterized by a sharp Trotter transition: when $\tau$ is increased beyond a threshold value, approximation errors become uncontrolled at large times due to the onset of quantum chaos. Here we contrast this picture with the case of integrable DQS. We focus on a simple quench from a spin-wave state in the prototypical XXZ Heisenberg spin chain, and study its integrable Trotterized evolution as a function of $\tau$. Due to its exact local conservation laws, the system does not heat up to infinite temperature and the late-time properties of the dynamics are captured by a discrete Generalized Gibbs Ensemble (dGGE). By means of exact calculations we find that, for small $\tau$, the dGGE depends analytically on the Trotter step, implying that discretization errors remain bounded even at infinite times. Conversely, the dGGE changes abruptly at a threshold value $\tau_{\rm th}$, signaling a novel type of Trotter transition. We show that the latter can be detected locally, as it is associated with the appearance of a non-zero staggered magnetization with a subtle dependence on $\tau$. We highlight the differences between continuous and discrete GGEs, suggesting the latter as novel interesting nonequilibrium states exclusive to digital platforms. | 翻訳日:2023-01-09 15:07:50 公開日:2022-12-13 |
# 産業用CMOS製造用低電荷ノイズ量子ドット Low charge noise quantum dots with industrial CMOS manufacturing ( http://arxiv.org/abs/2212.06464v1 ) ライセンス: Link先を確認 | Asser Elsayed, Mohamed Shehata, Clement Godfrin, Stefan Kubicek, Shana Massar, Yann Canvel, Julien Jussot, George Simion, Massimo Mongillo, Danny Wan, Bogdan Govoreanu, Iuliana P. Radu, Ruoyu Li, Pol Van Dorpe, Kristiaan De Greve | (参考訳) シリコンスピン量子ビットは、アップスケールのためのCMOS技術との優れたコヒーレンスと互換性のため、大規模量子コンピュータの最も有望な候補である。
先進的な産業用cmosプロセスフローは、ウェハスケールの均一性と高いデバイス収率を可能にするが、シェルフトランジスタプロセスは異なる設計と動作条件のために直接キュービット構造に転送できない。
そのため、マイクロエレクトロニクス産業のノウハウを活用するため、シリコンMOS量子ビット統合のための300mmウェハ製造ラインをカスタマイズする。
MOSゲートスタックの慎重な最適化とエンジニアリングにより、ミリケルビン温度でのSi/SiOx界面での安定かつ均一な量子ドット演算を報告する。
異なるデバイスおよび様々な動作条件において帯電ノイズを抽出し、1hzで0.61${\mu}$ev/${\sqrt{hz}}$と0.1${\mu}$ev/${\sqrt{hz}}$以下のデバイスおよび動作条件で記録的に低い平均ノイズレベルを示す。
動作パラメータと機器パラメータの異なる電荷雑音の統計的解析により、ノイズ源は2レベルゆらぎモデルで明確に記述できることを示す。
この再現可能な低ノイズレベルと量子ドットの均一な操作を組み合わせることで、cmosは高忠実度量子ビットのための成熟し、高度にスケーラブルなプラットフォームとしてmos spin qubitsを生産した。 Silicon spin qubits are among the most promising candidates for large scale quantum computers, due to their excellent coherence and compatibility with CMOS technology for upscaling. Advanced industrial CMOS process flows allow wafer-scale uniformity and high device yield, but off the shelf transistor processes cannot be directly transferred to qubit structures due to the different designs and operation conditions. To therefore leverage the know-how of the micro-electronics industry, we customize a 300mm wafer fabrication line for silicon MOS qubit integration. With careful optimization and engineering of the MOS gate stack, we report stable and uniform quantum dot operation at the Si/SiOx interface at milli-Kelvin temperature. We extract the charge noise in different devices and under various operation conditions, demonstrating a record-low average noise level of 0.61 ${\mu}$eV/${\sqrt{Hz}}$ at 1 Hz and even below 0.1 ${\mu}$eV/${\sqrt{Hz}}$ for some devices and operating conditions. By statistical analysis of the charge noise with different operation and device parameters, we show that the noise source can indeed be well described by a two-level fluctuator model. This reproducible low noise level, in combination with uniform operation of our quantum dots, marks CMOS manufactured MOS spin qubits as a mature and highly scalable platform for high fidelity qubits. | 翻訳日:2023-01-09 15:07:15 公開日:2022-12-13 |
# 単位コミットメント問題に対する量子コンピューティングのアプローチ A Quantum Computing Approach for the Unit Commitment Problem ( http://arxiv.org/abs/2212.06480v1 ) ライセンス: Link先を確認 | Pascal Halffmann and Patrick Holzer and Kai Plociennik and Michael Trebing | (参考訳) エネルギー生産の計画は、コスト感受性、高速移動エネルギー市場、需要の不確実性、および発電所の技術的制約のために難しい課題である。
したがって、このいわゆる "emph{unit commitment problem (UCP)" のより複雑なモデルはより高速に解かれる必要があり、量子コンピューティングによってより効率的に解ける。
本稿では,最小実行時間およびアイドル時間を有するUPPを,量子コンピューティングハードウェア上での2次的非制約最適化問題としてモデル化する。
最初の実験は、量子ビットの利用と接続性、そして最も重要なソリューション品質の観点から、私たちの定式化の利点を確認します。 Planning energy production is a challenging task due to its cost-sensitivity, fast-moving energy markets, uncertainties in demand, and technical constraints of power plants. Thus, more complex models of this so-called \emph{unit commitment problem (UCP)} have to be solved more rapidly, a task that probably can be solved more efficiently via quantum computing. In this article, we model a UCP with minimum running and idle times as a quadratic unconstrained optimization problem to solve it on quantum computing hardware. First experiments confirm the advantages of our formulation in terms of qubit usage and connectivity and most importantly solution quality. | 翻訳日:2023-01-09 15:06:47 公開日:2022-12-13 |
# Bal」と非可換幾何学による試行 Our Trysts with `Bal' and Noncommutative Geometry ( http://arxiv.org/abs/2212.06548v1 ) ライセンス: Link先を確認 | Biswajit Chakraborty, Partha Nandi, Sayan Kumar Pal, Anwesha Chakraborty | (参考訳) この記事は、愛するa.p.balachandran教授の愛想と誠実な思い出から始まります。
主にヒルベルト・シュミット作用素を用いた(1+1)D非可換時空上の量子力学の最近の定式化について議論する。
本研究では,モヤル時空に存在する時間依存型強制調和振動子システムにおける幾何相がいかに出現するかを示す。 This contributory article begins with our fond and sincere reminiscences about our beloved Prof. A.P. Balachandran. In the main part, we discuss our recent formulation of quantum mechanics on (1+1)D noncommutative space-time using Hilbert-Schmidt operators. As an application, we demonstrate how geometrical phase in a system of time-dependent forced harmonic oscillator living in the Moyal space-time can emerge. | 翻訳日:2023-01-09 15:06:36 公開日:2022-12-13 |
# 相互作用グラフに基づく量子ベンチマークのプロファイリングによる量子回路マッピング技術の改善 Interaction graph-based profiling of quantum benchmarks for improving quantum circuit mapping techniques ( http://arxiv.org/abs/2212.06640v1 ) ライセンス: Link先を確認 | Medina Bandi\'c, Carmen G. Almudever, Sebastian Feld | (参考訳) 量子回路は量子コンピュータのベンチマークに広く使われているため、フルスタック量子コンピューティングシステムの開発と改善に不可欠である。
与えられた量子プロセッサ上でそのような回路を実行するには、物理的制約に従わなければならない。
このプロセスはコンパイル段階で行われ、量子回路のマッピングとして知られている。
マッピング手順の結果は、ハードウェアの制約だけでなく、回路自体の性質にも強く依存する。
本稿では、特定のコンパイル技術を用いて、与えられた量子デバイス上で実行される場合の成功率に関する詳細な洞察を得るために、量子回路の構造を探索する。
この目的のために、対応する量子ビット相互作用グラフからグラフ理論に基づく特性を抽出し、それと他の一般的な回路記述パラメータに基づいてそれらをクラスタ化することで、量子回路を特徴付ける。
この特徴付けは
一 量子回路及びその構造を詳細に解析し、類似性に基づいてグループ化すること。
二 量子プロセッサ上での実行時のマッピング性能をよりよく理解し比較し、後から比較すること。
三 アルゴリズムと量子デバイスの両方からの情報を利用するマッピング技術を開発すること。
シミュレーションの結果,surface-97プロセッサとibm-53 rochesterおよびaspen-16デバイスの制約を考慮した場合,相互作用グラフに基づくパラメータと回路クラスタのマッピング性能指標との間に明確な相関が認められた。
さらに、量子コンピューティングコミュニティで利用可能な、完全収集、使いやすく、分類され、特徴付けられたベンチマークセットを持つことを目標に、よく知られた情報源から取得した量子回路とアルゴリズムの最新のコレクションを提供する。 Quantum circuits are widely used for benchmarking quantum computers and therefore crucial for the development and improvement of full-stack quantum computing systems. To execute such circuits on a given quantum processor, they have to be modified to comply with its physical constraints. That process is done during the compilation phase and known as mapping of quantum circuits. The result of the mapping procedure is highly dependent not only on the hardware constraints, but also on the properties of the circuit itself. In this paper, we propose to explore the structure of quantum circuits to get detailed insights into their success rate when being executed on a given quantum device while using a specific compilation technique. To this purpose, we have characterized a large body of quantum circuits by extracting graph theory-based properties from their corresponding qubit interaction graphs and afterwards clustered them based on those and other commonly used circuit-describing parameters. This characterization will help i) to perform an in-depth analysis of quantum circuits and their structure and group them based on similarities; ii) to better understand and compare the mapping performance when run on a quantum processor and, later on, iii) to develop mapping techniques that use information from both, algorithms and quantum devices. Our simulation results show a clear correlation between interaction graph-based parameters as well as clusters of circuits with their mapping performance metrics when considering the constraints of a Surface-97 processor, as well as of IBM-53 Rochester and Aspen-16 devices. In addition to that, we provide an up-to-date collection of quantum circuits and algorithms taken from well-known sources with the goal of having an all-gathering, easy-to-use, categorized and characterized benchmark set available for the quantum computing community. | 翻訳日:2023-01-09 15:06:30 公開日:2022-12-13 |
# Nadirポインティング衛星における冷間原子干渉計の回転関連系統効果 Rotation related systematic effects in a cold atom interferometer onboard a Nadir pointing satellite ( http://arxiv.org/abs/2212.06686v1 ) ライセンス: Link先を確認 | Quentin Beaufils, Julien Lefebve, Joel Gomes Baptista, Rapha\"el Piccon, Valentin Cambier, Leonid A. Sidorenkov, Christine Fallet, Thomas L\'ev\`eque and Franck Pereira Dos Santos | (参考訳) ナディルポインティング衛星の冷間原子加速度計における回転の影響について検討した。
衛星姿勢のシミュレーションと寒冷原子干渉計の位相の計算を組み合わせることで、回転によって引き起こされる雑音やバイアスを評価することができる。
特に,Nadirの指摘による回転の能動的補償に関連する効果について検討した。
この研究は、CARIOQA量子パスファインダーミッションの予備研究フェーズの文脈で実現された。 We study the effects of rotations on a cold atom accelerometer onboard a Nadir pointing satellite. A simulation of the satellite attitude combined with a calculation of the phase of the cold atom interferometer allow us to evaluate the noise and bias induced by rotations. In particular, we evaluate the effects associated to the active compensation of the rotation due to Nadir pointing. This study was realized in the context of the preliminary study phase of the CARIOQA Quantum Pathfinder Mission. | 翻訳日:2023-01-09 15:06:05 公開日:2022-12-13 |
# 超伝導量子回路のジョセフソン接合再現性向上:シャドウ蒸発と酸化 Improving Josephson junction reproducibility for superconducting quantum circuits: shadow evaporation and oxidation ( http://arxiv.org/abs/2212.06692v1 ) ライセンス: Link先を確認 | D.O. Moskalev, E.V. Zikiy, A.A. Pishchimova, D.A. Ezenkova, N.S. Smirnov, A.I. Ivanov, N.D. Korshakov, and I.A. Rodionov | (参考訳) 最もよく使われる量子回路の超伝導量子ビットの物理的実現はトランスモンである。
超伝導量子回路には多くの応用があり、ジョセフソンジャンクション臨界電流再現性はチップ上で重要である。
本稿では,陰影蒸発と酸化過程の包括的研究により,ロバストなチップスケール$al/alo_x/al$ジャンクション作製法について報告する。
最適ジョセフソン接合電極の厚さ, 沈着速度, 沈着角度の証拠を実験的に実証し, 極小電極表面および線端粗さを保証した。
臨界電流再現性に及ぼす酸化方法, 圧力, 時間の影響を決定した。
提案手法では,臨界電流変動を伴う$Al/AlO_x/Al$接合加工($150\times200$から$150\times600$$nm^2$ area)と7.7%($100\times100$$nm^2$ area)を20\times20$$mm^2$ chipで示す。
最後に、3つの5\times10$$mm^2$チップ(4.3GHz帯)を別々に製造し、異なるチップ上でのキュービット間の周波数変化は1.9%以下である。
提案手法と最適化基準は、堅牢なウェハスケール超伝導量子ビット回路の製造に利用できる。 The most commonly used physical realization of superconducting qubits for quantum circuits is a transmon. There are a number of superconducting quantum circuits applications, where Josephson junction critical current reproducibility over a chip is crucial. Here, we report on a robust chip scale $Al/AlO_x/Al$ junctions fabrication method due to comprehensive study of shadow evaporation and oxidation steps. We experimentally demonstrate the evidence of optimal Josephson junction electrodes thickness, deposition rate and deposition angle, which ensure minimal electrode surface and line edge roughness. The influence of oxidation method, pressure and time on critical current reproducibility is determined. With the proposed method we demonstrate $Al/AlO_x/Al$ junction fabrication with the critical current variation ($\sigma/I_c$) less than 3.9% (from $150\times200$ to $150\times600$ $nm^2$ area) and 7.7% (for $100\times100$ $nm^2$ area) over $20\times20$ $mm^2$ chip. Finally, we fabricate separately three $5\times10$ $mm^2$ chips with 18 transmon qubits (near 4.3 GHz frequency) showing less than 1.9% frequency variation between qubit on different chips. The proposed approach and optimization criteria can be utilized for a robust wafer-scale superconducting qubit circuits fabrication. | 翻訳日:2023-01-09 15:05:58 公開日:2022-12-13 |
# 逆ダイアバティック逆アニーリング Counterdiabatic Reverse Annealing ( http://arxiv.org/abs/2212.06706v1 ) ライセンス: Link先を確認 | Gianluca Passarelli and Procolo Lucignano | (参考訳) 逆アニーリングの応用範囲を、それまでアクセスできない短時間領域に拡張する新しい量子アニーリングプロトコルであるCounterdiabatic Reverse Annealingを提案する。
これは低次ネストコンミュータに拡張された近似反ダイアバティック駆動を利用することで達成される。
本研究では,この新手法の性能を,基底状態の忠実度や解までの時間といった指標の観点から,逆アニーリング法と比較検討する。
本研究では, 対向性逆アニーリングのエネルギーコストを定量的に測定し, 局所的な対向性電位を用いても相当な改善が可能であり, 近距離量子デバイスにおける実験的実装への道を開くことを示唆する。 We present Counterdiabatic Reverse Annealing, a novel quantum annealing protocol that extends the range of application of reverse annealing to the previously inaccessible short-time domain. This is achieved by exploiting approximate counterdiabatic driving expanded in low-order nested commutators. In this work, we offer a comparative study of the performance of this new technique to that of unassisted reverse annealing in terms of metrics such as the ground-state fidelity and the time to solution. We provide a quantitative measure of the energetic cost of counterdiabatic reverse annealing and show that significant improvements are possible even using local counterdiabatic potentials, paving the way toward the experimental implementation in near-term quantum devices. | 翻訳日:2023-01-09 14:23:29 公開日:2022-12-13 |
# 非局所 no-signaling box のシミュレーション Simulating nonlocal no-signaling boxes ( http://arxiv.org/abs/2212.06769v1 ) ライセンス: Link先を確認 | M\'aty\'as Koniorczyk, P\'eter Naszvadi, Andr\'as Bodor, Ott\'o Hanyecz, Peter Adam, Mikl\'os Pint\'er | (参考訳) 本稿では,web ベースのアプリケーションプログラミングインタフェース (restful web api) を通じて,非古典的無署名相関を示す二者間ボックスをシミュレートするコンピュータフレームワークを提案する。
実際の量子ベースの相関とは異なり、シミュレーションされたものは瞬時にではなく、信頼できるサーバとの通信によって生成される。
しかし、非局所相関の使用を教えること、情報通信システムの設計とテスト、新しい量子ハードウェアのためのソフトウェアインターフェースの開発など、多くのアプリケーションで有用である。
本稿では,Cluser-Horne-Shimony-Holtゲームの実装によるAPIの利用を実演する。
私たちの知る限り、これまでのところそのようなフレームワークの実装や提案は行われていません。 We present a computer framework to simulate two-party boxes that exhibit nonclassical no-signaling correlations through a Web-based application programming interface (RESTful Web API). Unlike real quantum-based correlations, the simulated ones are not instantaneous and are created via communication with a trusted server. They can, however, be useful in a number of applications, including e.g. teaching the use of nonlocal correlations, designing and testing infocommunication systems, and engineering software interfaces for new quantum hardware. We demonstrate the use of the API via the simple implementation of the Clauser-Horne-Shimony-Holt game. Up to our knowledge no such a framework has been implemented or proposed thus far. | 翻訳日:2023-01-09 14:23:16 公開日:2022-12-13 |
# 1次元クラスター状態の融合による高閾値量子コンピューティング High-threshold quantum computing by fusing one-dimensional cluster states ( http://arxiv.org/abs/2212.06775v1 ) ライセンス: Link先を確認 | Stefano Paesani and Benjamin J. Brown | (参考訳) 本論文では,1次元クラスタ状態と融合計測のみで実現可能な,フォールトトレラント量子計算のための計測ベースモデルを提案する。
本シミュレーションは, 基本絡み合った資源と2量子核融合測定で実現した他の測定ベースモデルと比較して, 高い閾値を示す。
ノイズに対する高い耐性は、量子エミッタと線形光学素子を用いたスケーラブルな量子コンピューティングへの有望なルートを提供することを示している。 We propose a measurement-based model for fault-tolerant quantum computation that can be realised with one-dimensional cluster states and fusion measurements only; basic resources that are readily available with scalable photonic hardware. Our simulations demonstrate high thresholds compared with other measurement-based models realized with basic entangled resources and two-qubit fusion measurements. Its high tolerance to noise indicates that our practical construction offers a promising route to scalable quantum computing with quantum emitters and linear-optical elements. | 翻訳日:2023-01-09 14:23:06 公開日:2022-12-13 |
# beyond spectator qubits: フォトニックモードと連続計測によるハイゼンベルク制限ノイズ緩和 Beyond spectator qubits: Heisenberg-limited noise mitigation via photonic modes and continuous measurement ( http://arxiv.org/abs/2212.06821v1 ) ライセンス: Link先を確認 | Andrew Lingenfelter and Aashish A. Clerk | (参考訳) ノイズは、脆弱な量子状態の生成と保存に常に挑戦している。
近年の研究では,環境騒音の計測にspectator qubitsを用いて空間雑音相関をノイズ緩和の資源として活用できることが示唆されている。
本研究では,空間的相関のある古典的強調雑音を連続的に測定し,連続補正駆動を周波数可変データキュービットに適用するフォトニックモードを,spectator qubitsからspectator modeに一般化する。
解析の結果、多くの光子状態を用いることで、スペクトレーターモードは、スペクトレーター量子ビットアプローチを制限する量子測定の制約の多くを超越できることがわかった。
また,ホワイトノイズを強調しても長時間データ量子化は任意に抑制できることがわかった。
さらに、スキューズ(パラメトリック)ドライブを用いて、オブザーバモードアプローチの誤差は、使用する光子の数にハイゼンベルク限定のスケーリングを示すことができる。
また, スペクタモードのノイズ低減は, 設計された散逸を用いて完全に自律的に実現可能であることを示した。
この場合、古典的測定記録の明示的な測定や処理は不要である。
私たちの研究は、ノイズ軽減のためのspectator qubitsの潜在的に強力な代替手段としてspectator modesを確立しています。 Noise is an ever-present challenge to the creation and preservation of fragile quantum states. Recent work suggests that spatial noise correlations can be harnessed as a resource for noise mitigation via the use of spectator qubits to measure environmental noise. In this work we generalize this concept from spectator qubits to a spectator mode: a photonic mode which continuously measures spatially correlated classical dephasing noise and applies a continuous correction drive to frequency-tunable data qubits. Our analysis shows that by using many photon states, spectator modes can surpass many of the quantum measurement constraints that limit spectator qubit approaches. We also find that long-time data qubit dephasing can be arbitrarily suppressed, even for white noise dephasing. Further, using a squeezing (parametric) drive, the error in the spectator mode approach can exhibit Heisenberg-limited scaling in the number of photons used. We also show that spectator mode noise mitigation can be implemented completely autonomously using engineered dissipation. In this case no explicit measurement or processing of a classical measurement record is needed. Our work establishes spectator modes as a potentially powerful alternative to spectator qubits for noise mitigation. | 翻訳日:2023-01-09 14:22:58 公開日:2022-12-13 |
# 強調に対するコヒーレンス消滅と最大ロバスト性による文脈性 Contextuality with vanishing coherence and maximal robustness to dephasing ( http://arxiv.org/abs/2212.06856v1 ) ライセンス: Link先を確認 | Vinicius P. Rossi, David Schmid, John H. Selby, Ana Bel\'en Sainz | (参考訳) 一般化された文脈性は、幅広い通信および情報処理プロトコルのリソースである。
しかし、コンテキスト性はコヒーレンスなしでは不可能であり、ノイズを軽視することで破壊することができる。
本稿では,状態の識別(文脈性が資源である)に関連するシナリオにおいて,雑音を部分的に強調する文脈性の頑健性について検討する。
このシナリオでは、無意味性の失敗を示すのに、消失するコヒーレンス量が十分であることが分かり、任意の量の部分的強調ノイズに対して頑健な文脈性を示す。
これは、文脈性を破壊するのに常に十分である部分偏極ノイズとは対照的である。 Generalized contextuality is a resource for a wide range of communication and information processing protocols. However, contextuality is not possible without coherence, and so can be destroyed by dephasing noise. Here, we explore the robustness of contextuality to partially dephasing noise in a scenario related to state discrimination (for which contextuality is a resource). We find that a vanishing amount of coherence is sufficient to demonstrate the failure of noncontextuality in this scenario, and we give a proof of contextuality that is robust to arbitrary amounts of partially dephasing noise. This is in stark contrast to partially depolarizing noise, which is always sufficient to destroy contextuality. | 翻訳日:2023-01-09 14:22:38 公開日:2022-12-13 |
# スターネットワークとチェーンネットワークにおけるn-ローカリティの最大ビット振動について Regarding the Maximal Qubit Violations of n-Locality in Star and Chain Networks ( http://arxiv.org/abs/2212.06915v1 ) ライセンス: Link先を確認 | Brian Doolittle and Eric Chitambar | (参考訳) ノイズ量子システムの非局所相関は、自然の理解と量子技術の発展の両方において重要である。
我々は、ノイズの強い絡み合い源を非シグナリング粒子で測定する星と鎖の量子ネットワークの相関を考察する。
量子ビット系において局所2次可観測器の対が考慮されるとき、前述した最大n局所違反よりも大きな雑音に対して頑健な最大n局所違反を導出する。
これらの大きな値を得るためには、以前の研究で見過ごされた可観測性を考える。
したがって,スターネットワークとチェーンネットワークにおける自己テスト計測と絡み合い源に関する新たな知見を得る。 The nonlocal correlations of noisy quantum systems are important for both understanding nature and developing quantum technology. We consider the correlations of star and chain quantum networks where noisy entanglement sources are measured by nonsignaling parties. When pairs of local dichotomic observables are considered on qubit systems, we derive maximal n-local violations that are larger and more robust to noise than the maximal n-local violations reported previously. To obtain these larger values, we consider observables overlooked in the previous studies. Thus, we gain new insights into self-testing measurements and entanglement sources in star and chain networks. | 翻訳日:2023-01-09 14:22:29 公開日:2022-12-13 |
# クリフォードアイソメトリーのためのグラフ状態に基づく合成フレームワーク A graph-state based synthesis framework for Clifford isometries ( http://arxiv.org/abs/2212.06928v1 ) ライセンス: Link先を確認 | Timoth\'ee Goubault de Brugi\`ere, Simon Martiel and Christophe Vuillot | (参考訳) 我々は,clifford isometry compilation,すなわちclifford isometryを実行可能な量子回路に合成する方法の問題に取り組む。
クリフォード群の基本的な性質とシンプレクティック群の1つの方程式のみを利用する単純な合成の枠組みを提案する。
我々は,本フレームワークの汎用性を,文学のいくつかの正規形式が自然系であることを示すことによって強調する。
LNNアーキテクチャ上でのクリフォード回路の実行に必要な2ビット深さの改善について報告する。
我々はまた,グラフ状態の合成やパウリ回転の対角化に我々の枠組みを適用し,量子化学実験から得られた2量子数と2量子深さの回路を改善する。 We tackle the problem of Clifford isometry compilation, i.e, how to synthesize a Clifford isometry into an executable quantum circuit. We propose a simple framework for synthesis that only exploits the elementary properties of the Clifford group and one equation of the symplectic group. We highlight the versatility of our framework by showing that several normal forms of the literature are natural corollaries. We report an improvement of the two-qubit depth necessary for the execution of a Clifford circuit on an LNN architecture. We also apply our framework to the synthesis of graph states and the codiagonalization of Pauli rotations and we improve the 2-qubit count and 2-qubit depth of circuits taken from quantum chemistry experiments. | 翻訳日:2023-01-09 14:22:18 公開日:2022-12-13 |
# 多次元離散データ学習における量子回路はニューラルネットワークより優れているか?
実用的な量子回路生成モデルに関する研究 Are Quantum Circuits Better than Neural Networks at Learning Multi-dimensional Discrete Data? An Investigation into Practical Quantum Circuit Generative Models ( http://arxiv.org/abs/2212.06380v1 ) ライセンス: Link先を確認 | Pengyuan Zhai | (参考訳) 多層量子回路(MPQC)は古典的ニューラルネットワーク(NN)よりも表現力が高いか?
どのように、なぜ、そしてどのような側面で?
本研究では,MPQCの表現力に関する直感的な知見を,古典的NNに関して調査・開発する。
利用可能な情報源を整理し,mpqcが古典的にシミュレーションできない確率分布を生成できる理由を体系的に証明する。
まず,瞬時量子多項式回路(IQPC)を乗法誤差の範囲内で古典的にシミュレートすることはまず不可能であり,MPQCがIQPCを効率的に一般化することを示す。
我々は,MPQCをコアアーキテクチャとして,与えられた多次元,多モードの離散データ分布を学習するための量子生成モデルの異なるバージョンを構築し,Gumbel Softmaxを備えた古典的生成支援ネットワーク(GAN)上で,それらの優れた性能を示す。
さらに,限られたサンプルしか持たない量子回路を効率的にトレーニングする方法,(量子)勾配を効率的に計算する方法,モード崩壊を緩和する方法など,現実的な課題に対処する。
出力雑音の低減とモード崩壊の低減に有効なトレーニング・アンド・ファインチューニング方式を提案し,実験的に検証した。
元々の貢献として、より表現豊かで幾何学的に有意味な潜在空間表現を持つ符号化率減少計量という情報理論的な尺度に触発された新しい損失関数(mcr損失)を開発し、モデル選択とモーダル崩壊の緩和に有用である。
我々は,回路パラメータに対するMCR損失の勾配を,放射基底関数(RBF)カーネルとNN判別器の2つの設定で導出し,その効果を示す実験を行った。 Are multi-layer parameterized quantum circuits (MPQCs) more expressive than classical neural networks (NNs)? How, why, and in what aspects? In this work, we survey and develop intuitive insights into the expressive power of MPQCs in relation to classical NNs. We organize available sources into a systematic proof on why MPQCs are able to generate probability distributions that cannot be efficiently simulated classically. We first show that instantaneous quantum polynomial circuits (IQPCs), are unlikely to be simulated classically to within a multiplicative error, and then show that MPQCs efficiently generalize IQPCs. We support the surveyed claims with numerical simulations: with the MPQC as the core architecture, we build different versions of quantum generative models to learn a given multi-dimensional, multi-modal discrete data distribution, and show their superior performances over a classical Generative Adversarial Network (GAN) equipped with the Gumbel Softmax for generating discrete data. In addition, we address practical issues such as how to efficiently train a quantum circuit with only limited samples, how to efficiently calculate the (quantum) gradient, and how to alleviate modal collapse. We propose and experimentally verify an efficient training-and-fine-tuning scheme for lowering the output noise and decreasing modal collapse. As an original contribution, we develop a novel loss function (MCR loss) inspired by an information-theoretical measure -- the coding rate reduction metric, which has a more expressive and geometrically meaningful latent space representations -- beneficial for both model selection and alleviating modal collapse. We derive the gradient of our MCR loss with respect to the circuit parameters under two settings: with the radial basis function (RBF) kernel and with a NN discriminator and conduct experiments to showcase its effectiveness. | 翻訳日:2023-01-09 14:14:57 公開日:2022-12-13 |
# 散逸時間結晶の量子軌道 Quantum trajectories of dissipative time-crystals ( http://arxiv.org/abs/2212.06460v1 ) ライセンス: Link先を確認 | Albert Cabot, Leah Sophie Muhle, Federico Carollo, Igor Lesanovsky | (参考訳) 高密度レーザー駆動原子ガス(ferioli et al., arxiv:2207.10361 (2022))による最近の実験では、熱力学的限界が境界時結晶をもたらす多体系が実現されている。
この状態は、コヒーレント駆動と集団散逸の競合によって安定化される。
上記の原理実験により、出力光場の状態を観測することで、系の非平衡ダイナミクスのその場情報を得ることができる。
光子計数信号とホモダイン電流は, 時間結晶相転移における臨界挙動を同定し, 特徴付けることができることを示した。
遷移点において、放出信号のダイナミクスは、突然の強い揺らぎと交差する緩やかなドリフトを特徴とする。
これらの変動イベント間の平均時間は、システムサイズによるゆるいスケーリングを示し、この特異なダイナミクスの起源は、単純な非線形位相モデルによって説明できる。
さらに,時間積分ホモダイン電流が動的順序パラメータとして有用であることを示す。
この観点から、時間結晶は異なる振動パターンが共存する物質の状態と見なすことができる。 Recent experiments with dense laser-driven atomic gases [G. Ferioli et al., arXiv:2207.10361 (2022)] have realized a many-body system which in the thermodynamic limit yields a so-called boundary time-crystal. This state of matter is stabilized by the competition between coherent driving and collective dissipation. The aforementioned experiment in principle allows to gain in situ information on the nonequilibrium dynamics of the system by observing the state of the output light field. We show that the photon count signal as well as the homodyne current allow to identify and characterize critical behavior at the time-crystal phase transition. At the transition point the dynamics of the emission signals feature slow drifts, which are interspersed with sudden strong fluctuations. The average time between these fluctuation events shows a power-law scaling with system size, and the origin of this peculiar dynamics can be explained through a simple non-linear phase model. We furthermore show that the time-integrated homodyne current can serve as a useful dynamical order parameter. From this perspective the time-crystal can be viewed as a state of matter in which different oscillation patterns coexist. | 翻訳日:2023-01-09 14:14:27 公開日:2022-12-13 |
# 重ね合わせ波動関数の直接測定によるボルン則の検証 Verification of the Born rule via direct measurement of superposition wavefunction ( http://arxiv.org/abs/2212.06525v1 ) ライセンス: Link先を確認 | Hu Meng-Jun | (参考訳) 量子論の基礎的な公理の一つであるボルン則は、量子状態 $|\psi\rangle$ に対して結果 $a$ を得る確率は $p(a)=|\langle a|\psi\rangle|^{2}$ で決定される。
実験結果を予測する大きな成功にもかかわらず、ボルンルールを検証するための直接的な方法がない。
本稿では,重ね合わせ波動関数の弱値に基づく直接測定が実現可能であることを示す。
妥当な実験が提案されている。 The Born rule, which is one of foundational axioms of quantum theory, states that the probability of obtain outcome $a$ for the quantum state $|\psi\rangle$ is determined by $P(a)=|\langle a|\psi\rangle|^{2}$. Despite its great success in predicting the experimental outcomes, there still lacks a direct way to verify the Born rule. Here, we show that the weak value based direct measurement of superposition wavefunction is feasible, which can be used to verify the Born rule directly. The plausible experiment is suggested. | 翻訳日:2023-01-09 14:13:24 公開日:2022-12-13 |
# 非検出光子を用いた無干渉単画素量子イメージング Interaction-free, single-pixel quantum imaging with undetected photons ( http://arxiv.org/abs/2212.06531v1 ) ライセンス: Link先を確認 | Yiquan Yang, Hong Liang, Xiaze Xu, Lijian Zhang, Shining Zhu and Xiao-song Ma | (参考訳) 典型的なイメージングシナリオには3つの基本的な材料が必要です。
1. 光を発する光源であって、その光が相互作用し、関心の対象を散乱させるもの
2.物体から散乱している光の検出及び検出
3.空間分解能のある検出器
典型的なイメージングシナリオでは、これらの必須成分は、生体や他の敏感な標本の撮像における応用性を制限する可能性がある。
本稿では,3つの要件をすべて緩和する量子イメージングプロトコルを提案する。
単一光子ミッチェルソン干渉計を誘導コヒーレンスに基づく非線形干渉計に埋め込み、単画素イメージング技術を用いて、未検出光子を持つ構造体の相互作用のない単一画素量子イメージングを実証する。
これにより、物体と光子との相互作用が不要な極端点まで量子イメージングの能力が押し上げられ、検出要件が大幅に低減される。
我々の研究は、シリコン検出可能な波長での単画素イメージングによる繊細な試料のキャラクタリゼーションに応用する道を開く。 A typical imaging scenario requires three basic ingredients: 1. a light source that emits light, which in turn interacts and scatters off the object of interest; 2. detection of the light being scattered from the object and 3. a detector with spatial resolution. These indispensable ingredients in typical imaging scenarios may limit their applicability in the imaging of biological or other sensitive specimens due to unavailable photon-starved detection capabilities and inevitable damage induced by interaction. Here, we propose and experimentally realize a quantum imaging protocol that alleviates all three requirements. By embedding a single-photon Michelson interferometer into a nonlinear interferometer based on induced coherence and harnessing single-pixel imaging technique, we demonstrate interaction-free, single-pixel quantum imaging of a structured object with undetected photons. Thereby, we push the capability of quantum imaging to the extreme point in which no interaction is required between object and photons and the detection requirement is greatly reduced. Our work paves the path for applications in characterizing delicate samples with single-pixel imaging at silicon-detectable wavelengths. | 翻訳日:2023-01-09 14:13:12 公開日:2022-12-13 |
# 単一光子エミッタ-誘電体準曲面系における室温強結合 Room-temperature strong coupling in a single photon emitter-dielectric metasurface system ( http://arxiv.org/abs/2212.06544v1 ) ライセンス: Link先を確認 | T. Thu Ha Do, Milad Nonahal, Chi Li, Vytautas Valuckas, Arseniy I. Kuznetsov, Hai Son Nguyen, Igor Aharonovich, Son Tung Ha | (参考訳) 高い輝度と長いコヒーレンス時間を持つ単一光子源は量子技術の量子ビット候補を約束している。
この目的のためには, 極低温に限った強結合法では, 高精細なキャビティを有する界面エミッタが必要となる。
ここでは, 室内温度において, 連続体内の光束状態に基づいて, 単一光子エミッタと新しいキャビティとの強い結合を実験的に実証する。
六方晶窒化ホウ素中のエミッタの細線幅と大きな発振強度の組み合わせと、キャビティの効率的な光子トラップの組み合わせにより、約4mevの著しく大きなラビ分裂を達成している。
我々は,スケーラブルな量子デバイスを実現する新たな機会を明らかにし,室温での量子システムにおける強結合の原理を探求する。 Single-photon sources with high brightness and long coherence time are promising qubit candidates for quantum technology. To this end, interfacing emitters with high-finesse cavities is required, especially in the strong coupling regime, which so far has only been limited to cryogenic temperatures. Here, we experimentally demonstrate, at room temperature, strong coupling between a single photon emitter and a novel cavity based on optical bound states in the continuum. A remarkably large Rabi splitting of ~4 meV is achieved thanks to the combination of the narrow linewidth and large oscillator strength of emitters in hexagonal boron nitride and the efficient photon trapping of the cavity. Our findings unveil new opportunities to realise scalable quantum devices and explore fundamentally new regimes of strong coupling in quantum systems at room-temperature. | 翻訳日:2023-01-09 14:12:52 公開日:2022-12-13 |
# pt対称量子ラビモデル PT-Symmetric Quantum Rabi Model ( http://arxiv.org/abs/2212.06586v1 ) ライセンス: Link先を確認 | Xilin Lu, Jia-Kai Shi, Hui Li, Li-Bao Fan, Vladimir Mangazeev, Zi-Min Li, and Murray T. Batchelor | (参考訳) 我々は、PT対称量子ラビモデル(PTQRM)を、量子化された光場に結合したPT対称量子ビットを記述する。
このモデルは、断熱近似 (aa) を用いることで、興味のあるパラメータレジームで解析的に解くことができ、多くの物理的側面を解析することができる。
PTQRMの静的および動的特性をAAおよび数値対角化法を用いて検討した。
特に、固有スペクトルにおいて多くの例外点 (EP) が発見され、それらはモデルのエルミート対するまさに可解点と密接に結びついていることが分かる。
興味深いことに、これらのEPは光-物質結合強度によって消滅し、復活する。
また,ハミルトニアン系における物理観測器の時間発展についても考察した。
この研究の結果は、他の光-物質相互作用モデルに簡単に拡張することができ、非エルミート純量子系の研究に光を当てることができる。 We consider the PT-symmetric quantum Rabi model (PTQRM), which describes a PT-symmetric qubit coupled to a quantized light field. This model can be solved analytically in the parameter regime of interest by using the adiabatic approximation (AA), and thus a number of physical aspects can be analyzed. Static and dynamic properties of the PTQRM are investigated with the AA and numerical diagonalization. Particularly, a bunch of exceptional points (EPs) is found in the eigenspectrum and they turn out to be closely connected with the exactly solvable points in the Hermitian counterpart of the model. Interestingly, these EPs vanish and revive depending on the light-matter coupling strength. The time evolution of physical observables under the system Hamiltonian is also discussed. The results of this work can be straightforwardly extended to other light-matter interaction models, and may shed some light on the research of non-Hermitian pure quantum systems. | 翻訳日:2023-01-09 14:12:37 公開日:2022-12-13 |
# K-複素体の飽和はカオスのよい尺度か? Is the saturation of K-complexity a good measure of chaos? ( http://arxiv.org/abs/2212.06619v1 ) ライセンス: Link先を確認 | Bernardo L. Espa\~nol and Diego A. Wisniacki | (参考訳) クリロフ複雑性(krylov complexity)は、作用素が特定の基底にどのように広がるかを研究するための新しいアプローチである。
近年、この量にはシステムのカオスの量に依存する長期飽和があると言われている。
この量はハミルトニアンだけでなく、選択作用素にも依存するので、本研究では、異なる作用素が拡張されたときのカオス遷移への可積分性において飽和値がどのように変化するかを研究することにより、この仮説の一般性について研究する。
これを実現するために、横方向の縦方向磁場を持つイジング連鎖を用いて、クリロフ複雑性の飽和度と量子カオスの標準スペクトル測度を比較する。
その結果, カオス性の予測因子としての有用性は, 選択した演算子に大きく依存することがわかった。 Krylov complexity is a novel approach to study how an operator spreads over a specific basis. Recently, it has been stated that this quantity has a long-time saturation that depends on the amount of chaos in the system. Since this quantity not only depends on the Hamiltonian but also on the chosen operator, in this work we study the level of generality of this hypothesis by studying how the saturation value varies in the integrability to chaos transition when different operators are expanded. To do this, we work with an Ising chain with a transverse-longitudinal magnetic field and compare the saturation of the Krylov complexity with the standard spectral measure of quantum chaos. Our numerical results show that the usefulness of this quantity as a predictor of the chaoticity strongly dependent on the chosen operator. | 翻訳日:2023-01-09 14:12:22 公開日:2022-12-13 |
# 最適動作復号化を用いた量子ポリシー勾配アルゴリズム Quantum Policy Gradient Algorithm with Optimized Action Decoding ( http://arxiv.org/abs/2212.06663v1 ) ライセンス: Link先を確認 | Nico Meyer, Daniel D. Scherer, Axel Plinge, Christopher Mutschler, and Michael J. Hartmann | (参考訳) 変分量子回路(vqcs)によって実装された量子機械学習は、ノイズの多い中間スケール量子コンピューティング時代の有望な概念であると考えられている。
量子強化学習の応用に焦点をあて、量子ポリシー勾配アプローチのための特定の動作復号法を提案する。
我々は,局所的および大域的量子測定にインスパイアされた,アクション選択に必要な古典的後処理を最適化する,新しい品質尺度を導入する。
結果として得られたアルゴリズムは、いくつかのベンチマーク環境での大幅な性能向上を示す。
この手法により,5キュービットのハードウェアデバイス上で,フルトレーニングルーチンの実行に成功した。
本手法は,量子強化学習の分野を超えて,vqcベースのアルゴリズムを改善する可能性を秘めている。 Quantum machine learning implemented by variational quantum circuits (VQCs) is considered a promising concept for the noisy intermediate-scale quantum computing era. Focusing on applications in quantum reinforcement learning, we propose a specific action decoding procedure for a quantum policy gradient approach. We introduce a novel quality measure that enables us to optimize the classical post-processing required for action selection, inspired by local and global quantum measurements. The resulting algorithm demonstrates a significant performance improvement in several benchmark environments. With this technique, we successfully execute a full training routine on a 5-qubit hardware device. Our method introduces only negligible classical overhead and has the potential to improve VQC-based algorithms beyond the field of quantum reinforcement learning. | 翻訳日:2023-01-09 14:12:07 公開日:2022-12-13 |
# 自由空間チャネルにおける連続可変測定-デバイス非依存量子キー分布 Continuous-Variable Measurement-Device-Independent Quantum Key Distribution in Free-Space Channels ( http://arxiv.org/abs/2212.06687v1 ) ライセンス: Link先を確認 | Masoud Ghalaii and Stefano Pirandola | (参考訳) 宇宙通信の分野は、回折と大気効果の両方が損失とノイズに寄与する通信技術の領域である。
ここでの関連する疑問は、このような厳しい状況下で、どのレート情報(秘密鍵)を安全にユーザー間で転送(共有)できるかである。
本研究では,自由空間光(FSO)リンク上の測定デバイス非依存(MDI)構成における連続可変(CV)量子鍵分布(QKD)について検討する。
乱流状態を評価し,fsoリンクプロトコルの合成可能な有限サイズ鍵レート解析を行う。
短距離・水平方向の通信リンクと、高高度ホーム駅(haps)システムへの傾斜経路について検討した。 The field of space communications is the realm of communication technologies where diffraction and atmospheric effects, both of which contribute to loss and noise, become overriding. The pertinent questions here are how and at which rate information (secret keys) can be securely transferred (shared) among users under such supposedly severe circumstances. In the present work we study continuous-variable (CV) quantum key distribution (QKD) in a measurement-device-independent (MDI) configuration over free-space optical (FSO) links. We assess the turbulence regime and provide a composable finite-size key rate analysis of the protocol for FSO links. We study both short-range, horizontal communication links as well as slant paths to, e.g., high-altitude platform station (HAPS) systems. | 翻訳日:2023-01-09 14:11:56 公開日:2022-12-13 |
# 非エルミタンアンハーモニック性は単一光子放出を誘導する Non-Hermitian Anharmonicity Induces Single-Photon Emission ( http://arxiv.org/abs/2212.06307v1 ) ライセンス: Link先を確認 | Anael Ben-Asher, Antonio I. Fern\'andez-Dom\'inguez and Johannes Feist | (参考訳) 単一光子源は量子情報応用の需要が高い。
単一光子放出を達成するパラダイム的な方法は、コヒーレントドライブからの単一光子の吸収が共鳴からシステムをシフトさせ、第2の光子の吸収を防止するようなエネルギーレベルの非調和性である。
このレターでは、非エルミート的無調和性、すなわちエネルギー準位ではなく損失の無調和性を通じて、単光子放出の新しいメカニズムを特定する。
2種類の系でこの機構を実証し、高い繰り返し速度で高純度単一光子放出を誘導することを示す。
さらに,キャビティ量子電気力学装置の弱い結合状態においても観測可能であることを示す。 Single-photon sources are in high demand for quantum information applications. A paradigmatic way to achieve single-photon emission is through anharmonicity in the energy levels, such that the absorption of a single photon from a coherent drive shifts the system out of resonance and prevents absorption of a second one. In this Letter, we identify a novel mechanism for single-photon emission through non-Hermitian anharmonicity, i.e., anharmonicity in the losses instead of in the energy levels. We demonstrate the mechanism in two types of systems and show that it induces high-purity single-photon emission at high repetition rates. Furthermore, we show that it can be observed in the weak-coupling regime of a cavity quantum electrodynamical setup. | 翻訳日:2023-01-09 14:03:15 公開日:2022-12-13 |
# advcat: カテゴリー入力を用いたサイバーセキュリティクリティカルアプリケーションのためのドメイン非依存ロバスト性評価 AdvCat: Domain-Agnostic Robustness Assessment for Cybersecurity-Critical Applications with Categorical Inputs ( http://arxiv.org/abs/2212.13989v1 ) ライセンス: Link先を確認 | Helene Orsini, Hongyan Bao, Yujun Zhou, Xiangrui Xu, Yufei Han, Longyang Yi, Wei Wang, Xin Gao, Xiangliang Zhang | (参考訳) マシンラーニング・アズ・ア・サービスシステム(mlaas)は、ネットワーク侵入の検出や偽ニュースキャンペーンなど、サイバーセキュリティクリティカルなアプリケーションのために主に開発されてきた。
有効性にも拘わらず、敵攻撃に対する堅牢性は、MLaaSデプロイメントにおける重要な信頼上の懸念の1つだ。
そこで我々は、これらのセキュリティクリティカルなアプリケーションの中核に位置する機械学習モデルの敵意的な堅牢性をカテゴリ的な入力で評価する動機付けをする。
分類入力の操作に対するモデルロバスト性へのアクセスに関するこれまでの研究は、ユースケースに特化しており、ドメイン知識に大きく依存している。
このような制限は、さまざまな現実世界のアプリケーションに提供されるドメインに依存しないサービスとしてロバストネスアセスメントを妨げます。
本稿では,ML駆動型サイバーセキュリティクリティカルアプリケーションを対象とした,最適かつ高い計算効率の対向ロバスト性評価プロトコルを提案する。
本研究では,ドメインに依存しないロバスト性評価手法を用いて,偽ニュースの検出と侵入検知問題に関する実験を行った。 Machine Learning-as-a-Service systems (MLaaS) have been largely developed for cybersecurity-critical applications, such as detecting network intrusions and fake news campaigns. Despite effectiveness, their robustness against adversarial attacks is one of the key trust concerns for MLaaS deployment. We are thus motivated to assess the adversarial robustness of the Machine Learning models residing at the core of these security-critical applications with categorical inputs. Previous research efforts on accessing model robustness against manipulation of categorical inputs are specific to use cases and heavily depend on domain knowledge, or require white-box access to the target ML model. Such limitations prevent the robustness assessment from being as a domain-agnostic service provided to various real-world applications. We propose a provably optimal yet computationally highly efficient adversarial robustness assessment protocol for a wide band of ML-driven cybersecurity-critical applications. We demonstrate the use of the domain-agnostic robustness assessment method with substantial experimental study on fake news detection and intrusion detection problems. | 翻訳日:2023-01-01 14:25:52 公開日:2022-12-13 |
# 法的文書検索のための注意深いニューラルネットワーク Attentive Deep Neural Networks for Legal Document Retrieval ( http://arxiv.org/abs/2212.13899v1 ) ライセンス: Link先を確認 | Ha-Thanh Nguyen, Manh-Kien Phi, Xuan-Bach Ngo, Vu Tran, Le-Minh Nguyen, Minh-Phuong Tu | (参考訳) 法的なテキスト検索は、法的な質問応答、法的なケースエンターメント、法的な法律の検索など、幅広い法的なテキスト処理タスクにおいて重要な要素となっている。
法的テキスト検索の性能は、クエリと法的文書の両方において、テキストの表現に大きく依存する。
適切な表現に基づいて、法的テキスト検索モデルは、クエリを関連文書と効果的に一致させることができる。
法律文書は長い記事を含むことが多く、クエリに関連する部分も一部しかないため、既存のモデルがそのような文書を表現することは極めて困難である。
本稿では,法律文書検索におけるニューラルネットワークを用いたテキスト表現の活用について検討する。
本稿では,注意機構を持つディープニューラルネットワークを用いた一般的なアプローチを提案する。
そこで我々は,長文や記事の表現に注意を要する2つの階層型アーキテクチャを開発し,それをAttentive CNN,Paraformerと呼ぶ。
本手法は,英語,日本語,ベトナム語の異なるサイズと特徴のデータセットを用いて評価した。
実験の結果は
一 データセット及び言語間の検索性能において、非神経的手法を著しく上回ります。
二 プリトレーニングされた変圧器に基づくモデルは、計算の複雑さが高いコストで小さなデータセットの精度が向上し、また、軽量な重み付きcnnは、大規模データセットの精度が向上する。
三 提案したParaformerは、COLIEEデータセット上で最先端の手法を上回り、トップN検索タスクにおいて最高リコールとF2スコアを達成する。 Legal text retrieval serves as a key component in a wide range of legal text processing tasks such as legal question answering, legal case entailment, and statute law retrieval. The performance of legal text retrieval depends, to a large extent, on the representation of text, both query and legal documents. Based on good representations, a legal text retrieval model can effectively match the query to its relevant documents. Because legal documents often contain long articles and only some parts are relevant to queries, it is quite a challenge for existing models to represent such documents. In this paper, we study the use of attentive neural network-based text representation for statute law document retrieval. We propose a general approach using deep neural networks with attention mechanisms. Based on it, we develop two hierarchical architectures with sparse attention to represent long sentences and articles, and we name them Attentive CNN and Paraformer. The methods are evaluated on datasets of different sizes and characteristics in English, Japanese, and Vietnamese. Experimental results show that: i) Attentive neural methods substantially outperform non-neural methods in terms of retrieval performance across datasets and languages; ii) Pretrained transformer-based models achieve better accuracy on small datasets at the cost of high computational complexity while lighter weight Attentive CNN achieves better accuracy on large datasets; and iii) Our proposed Paraformer outperforms state-of-the-art methods on COLIEE dataset, achieving the highest recall and F2 scores in the top-N retrieval task. | 翻訳日:2023-01-01 14:25:37 公開日:2022-12-13 |
# heartbeit:心電図データ用視覚トランスフォーマは、低サンプルサイズでの診断性能を改善する HeartBEiT: Vision Transformer for Electrocardiogram Data Improves Diagnostic Performance at Low Sample Sizes ( http://arxiv.org/abs/2212.14040v1 ) ライセンス: Link先を確認 | Akhil Vaid (1-4), Joy Jiang (1-2), Ashwin Sawant (5), Stamatios Lerakis (6,7), Edgar Argulian (6,7), Yuri Ahuja (8), Joshua Lampert (6,7), Alexander Charney (3,9,10), Hayit Greenspan (11), Benjamin Glicksberg (3,4), Jagat Narula (6,7), Girish Nadkarni (1-4,12) ((1) The Charles Bronfman Institute for Personalized Medicine, Icahn School of Medicine at Mount Sinai, New York, New York (2) Mount Sinai Clinical Intelligence Center, Icahn School of Medicine at Mount Sinai, New York, New York (3) Department of Genetics and Genomic Sciences, Icahn School of Medicine at Mount Sinai, New York, New York (4) The Hasso Plattner Institute for Digital Health at Mount Sinai, New York, New York. (5) Department of Medicine, Icahn School of Medicine at Mount Sinai, New York, New York, USA (6) Mount Sinai Heart, Icahn School of Medicine at Mount Sinai, New York, NY, USA (7) Department of Cardiology, Icahn School of Medicine at Mount Sinai, New York, NY, USA (8) Department of Medicine, NYU Langone Health, New York, NY, USA. (9) The Pamela Sklar Division of Psychiatric Genomics, Icahn School of Medicine at Mount Sinai, New York, New York. (10) Department of Psychiatry, Icahn School of Medicine at Mount Sinai, New York, New York. (11) Department of Biomedical Engineering, Tel Aviv University, Tel Aviv, Israel. (12) Division of Nephrology, Department of Medicine, Icahn School of Medicine at Mount Sinai, New York, New York) | (参考訳) 心電図 (ECG) はユビキタスな診断法である。
ECG分析に応用された畳み込みニューラルネットワーク(CNN)は、大きなサンプルサイズを必要とする。
心電図波形解析において,マスク画像モデルを用いて最初の視覚ベースのトランスフォーマーモデルHeartBEiTを開発した。
我々は850万心電図で事前トレーニングを行い、その後、肥大型心筋症、低左室放出率、ST上昇心筋梗塞の診断における標準CNNアーキテクチャーと比較した。
その結果,HeartBEiTは,他のモデルに比べて試料サイズが小さく,高い性能を示した。
最後に、心電図と標準cnnの生物学的関連領域を強調することにより、心電図は診断の可読性を向上させることを示した。
そこで本研究では,ECG解析のための特殊なモデルの開発に使用可能な,視覚に基づく初めての波形変換器を提案する。 The electrocardiogram (ECG) is a ubiquitous diagnostic modality. Convolutional neural networks (CNNs) applied towards ECG analysis require large sample sizes, and transfer learning approaches result in suboptimal performance when pre-training is done on natural images. We leveraged masked image modeling to create the first vision-based transformer model, HeartBEiT, for electrocardiogram waveform analysis. We pre-trained this model on 8.5 million ECGs and then compared performance vs. standard CNN architectures for diagnosis of hypertrophic cardiomyopathy, low left ventricular ejection fraction and ST elevation myocardial infarction using differing training sample sizes and independent validation datasets. We show that HeartBEiT has significantly higher performance at lower sample sizes compared to other models. Finally, we also show that HeartBEiT improves explainability of diagnosis by highlighting biologically relevant regions of the EKG vs. standard CNNs. Thus, we present the first vision-based waveform transformer that can be used to develop specialized models for ECG analysis especially at low sample sizes. | 翻訳日:2023-01-01 14:24:48 公開日:2022-12-13 |
# Verilog RTLコード自動生成のための大規模言語モデルのベンチマーク Benchmarking Large Language Models for Automated Verilog RTL Code Generation ( http://arxiv.org/abs/2212.11140v1 ) ライセンス: Link先を確認 | Shailja Thakur, Baleegh Ahmad, Zhenxing Fan, Hammond Pearce, Benjamin Tan, Ramesh Karri, Brendan Dolan-Gavitt, Siddharth Garg | (参考訳) ハードウェア設計の自動化は、エンジニアリングプロセスから大量のヒューマンエラーを回避し、エラーを少なくする可能性がある。
Verilogはデジタルシステムをモデル化し設計するための一般的なハードウェア記述言語であり、Verilogコードを生成することは重要な第一歩である。
新たな大規模言語モデル(LLM)は、他のプログラミング言語で高品質なコードを書くことができる。
本稿では,LLMが有用なVerilogを生成する能力を特徴付ける。
このために、GitHubとVerilogの教科書から収集されたVerilogデータセット上で、事前トレーニングされたLLMを微調整します。
本稿では,機能解析のためのテストベンチと,様々な難易度の問題に対応するために生成したVerilogコードの構文をテストするフローからなる評価フレームワークを構築する。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力(全体の25.9%)が高いことがわかった。
さらに、機能的正しさを分析する際には、微調整されたオープンソースCodeGen LLMが最先端の商用Codex LLM(全体の6.5%)より優れている。
トレーニング/評価スクリプトとLDMチェックポイントが利用可能だ。 Automating hardware design could obviate a significant amount of human error from the engineering process and lead to fewer errors. Verilog is a popular hardware description language to model and design digital systems, thus generating Verilog code is a critical first step. Emerging large language models (LLMs) are able to write high-quality code in other programming languages. In this paper, we characterize the ability of LLMs to generate useful Verilog. For this, we fine-tune pre-trained LLMs on Verilog datasets collected from GitHub and Verilog textbooks. We construct an evaluation framework comprising test-benches for functional analysis and a flow to test the syntax of Verilog code generated in response to problems of varying difficulty. Our findings show that across our problem scenarios, the fine-tuning results in LLMs more capable of producing syntactically correct code (25.9% overall). Further, when analyzing functional correctness, a fine-tuned open-source CodeGen LLM can outperform the state-of-the-art commercial Codex LLM (6.5% overall). Training/evaluation scripts and LLM checkpoints are available: https://github.com/shailja-thakur/VGen. | 翻訳日:2022-12-25 03:04:06 公開日:2022-12-13 |
# IMAGINE:人工知能を用いたコミュニケーション効果の統合モデル IMAGINE: An Integrated Model of Artificial Intelligence-Mediated Communication Effects ( http://arxiv.org/abs/2212.08658v1 ) ライセンス: Link先を確認 | Frederic Guerrero-Sole | (参考訳) 人工知能(AI)は知識と生産のあらゆる分野を変えつつある。
手術から自律運転、画像とビデオの作成に至るまで、AIは想像もつかないような自動化と効率的な創造のプロセスを可能にしているようだ。
メディアとコミュニケーションは例外ではなく、私たちは現在、シンプルなキーワードから芸術的な画像を作成したり、表情から感情を捉えたりできる強力なaiツールの夜明けを目撃しています。
これらの例は、個人の感情的および行動的反応に関連するメディアコンテンツの自動AIリアルタイム作成のためのエンジンとして、将来何ができるかの始まりに過ぎません。
メディアに関する我々の理論を、人間の介入なしにコンテンツが作成できる仮想シナリオに適応させ、メディアコンテンツへの露出に対して個人の反応を制御することによって制御されるのは、まだ遠いように思える。
その後、IMAGINE(Integrated Model of Artificial Intelligence-Mediated Communication Effects)の定義を提案し、メディアの進化を理解する方法にその影響を及ぼし(Scolari, 2012)、メディア効果について考察する(Potter, 2010)。
提案する概念枠組みは、メディアに対する人の反応のai計測とコンテンツのai作成との連続的リアルタイム接続のシナリオにおいて、影響力のプロセスの最適化と最大化を目的とし、研究者が研究を理論的に支援することを目的としている。
パラ社会的相互作用とリアルタイム美化は、IMAGINEプロセスの機能のモデル化の例として用いられる。 Artificial Intelligence (AI) is transforming all fields of knowledge and production. From surgery, autonomous driving, to image and video creation, AI seems to make possible hitherto unimaginable processes of automation and efficient creation. Media and communication are not an exception, and we are currently witnessing the dawn of powerful AI tools capable of creating artistic images from simple keywords, or to capture emotions from facial expression. These examples may be only the beginning of what can be in the future the engines for automatic AI real time creation of media content linked to the emotional and behavioural responses of individuals. Although it may seem we are still far from there, it is already the moment to adapt our theories about media to the hypothetical scenario in which content production can be done without human intervention, and governed by the controlled any reactions of the individual to the exposure to media content. Following that, I propose the definition of the Integrated Model of Artificial Intelligence-Mediated Communication Effects (IMAGINE), and its consequences on the way we understand media evolution (Scolari, 2012) and we think about media effects (Potter, 2010). The conceptual framework proposed is aimed to help scholars theorizing and doing research in a scenario of continuous real-time connection between AI measurement of people's responses to media, and the AI creation of content, with the objective of optimizing and maximizing the processes of influence. Parasocial interaction and real-time beautification are used as examples to model the functioning of the IMAGINE process. | 翻訳日:2022-12-25 02:53:53 公開日:2022-12-13 |
# 整数列の解析を用いた定数上の予想の自動探索 Automated Search for Conjectures on Mathematical Constants using Analysis of Integer Sequences ( http://arxiv.org/abs/2212.09470v1 ) ライセンス: Link先を確認 | Ofir Razon, Yoav Harris, Shahar Gottlieb, Dan Carmon, Ofir David and Ido Kaminer | (参考訳) 基本的な数学的定数を含む公式は、定数の不合理性の証明を補助するなど、科学や数学の様々な分野に大きな影響を与えた。
しかし、そのような公式の発見は歴史的に乏しく、しばしばラマヌジャン、オイラー、ガウスといった偉大な数学者によって数学の天才の行為と見なされる。
ラマヌジャン機械計画のような数学定数の公式の発見を自動化しようとする最近の試みは、徹底的な探索に依存していた。
いくつかの発見にもかかわらず、網羅的な探索は、カバー可能な選択肢の空間と膨大な計算資源の必要性によって制限されている。
本稿では,整数列の解析を通して,数学定数上の予想を探索する基本的な方法を提案する。
本稿では,Berlekamp-Masseyアルゴリズムに基づいて,数式定数を表す整数列のパターンを同定するESMAアルゴリズムを提案する。
esmaアルゴリズムは、e, e^2, tan(1)$, and ratio of value of bessel関数の様々な既知の公式を発見した。
このアルゴリズムはさらに、これらの定数に対する多くの新しい予想を発見し、あるものは単純な表現を提供し、あるものは対応する単純な継続分数よりも高速な数値収束を提供する。
このアルゴリズムとともに,連続分数を操作する数学的ツールを提案する。
これらの接続により、ESMAによってどの定数空間が発見できるかを特徴づけ、特定のシナリオにおいてアルゴリズム上の優位性を定量化できる。
さらに、この研究は、数学的構造を明らかにし、数学的研究を加速するために、コンピュータアルゴリズムによる数学的直観を増強する開発を継続する。 Formulas involving fundamental mathematical constants had a great impact on various fields of science and mathematics, for example aiding in proofs of irrationality of constants. However, the discovery of such formulas has historically remained scarce, often perceived as an act of mathematical genius by great mathematicians such as Ramanujan, Euler, and Gauss. Recent efforts to automate the discovery of formulas for mathematical constants, such as the Ramanujan Machine project, relied on exhaustive search. Despite several successful discoveries, exhaustive search remains limited by the space of options that can be covered and by the need for vast amounts of computational resources. Here we propose a fundamentally different method to search for conjectures on mathematical constants: through analysis of integer sequences. We introduce the Enumerated Signed-continued-fraction Massey Approve (ESMA) algorithm, which builds on the Berlekamp-Massey algorithm to identify patterns in integer sequences that represent mathematical constants. The ESMA algorithm found various known formulas for $e, e^2, tan(1)$, and ratios of values of Bessel functions. The algorithm further discovered a large number of new conjectures for these constants, some providing simpler representations and some providing faster numerical convergence than the corresponding simple continued fractions. Along with the algorithm, we present mathematical tools for manipulating continued fractions. These connections enable us to characterize what space of constants can be found by ESMA and quantify its algorithmic advantage in certain scenarios. Altogether, this work continues in the development of augmenting mathematical intuition by computer algorithms, to help reveal mathematical structures and accelerate mathematical research. | 翻訳日:2022-12-25 02:53:14 公開日:2022-12-13 |
# 網膜疾患早期発見のための視覚分析 Visual Analytics for Early Detection of Retinal Diseases ( http://arxiv.org/abs/2212.10566v1 ) ライセンス: Link先を確認 | Martin R\"ohlig and Oliver Stachs and Heidrun Schumann | (参考訳) 光コヒーレンストモグラフィ(oct)の進歩により、高空間分解能のヒト網膜の非侵襲イメージングが可能となった。
OCT検査は、現在、クリニックの標準的な手順であり、眼科研究の不可欠な部分である。
OCTの解釈は、眼科医が様々な網膜や全身疾患が網膜の構造に与える影響を従来不可能な方法で理解するのに役立つ。
しかし、網膜疾患の初期段階において、網膜の小さな局所的な構造変化の同定と解析は依然として課題である。
本稿では, 単一および複数症例における早期網膜変化のインタラクティブな探索, 基準データとの比較, 診断関連情報の定量化と自動測定のための新しい視覚分析手法の概要について述べる。
眼科の研究者や業界の専門家と緊密に連携し,これらのアプローチを開発した。
その結果,OCTデータ解析に必要な時間と労力,特に横断的な研究の文脈において著しく削減されただけでなく,生物医学誌に新たな発見がいくつか発表された。 Advances in optical coherence tomography (OCT) have enabled noninvasive imaging of substructures of the human retina with high spatial resolution. OCT examinations are now a standard procedure in clinics and an integral part of ophthalmic research. The interpretation of the OCT helps ophthalmologists understand the impact of various retinal and systemic diseases on the structure of the retina in a way not previously possible. In the early stages of retinal diseases, however, the identification and analysis of small and localized substructural changes in the retina remains a challenge. We present an overview of novel visual analytics approaches for the interactive exploration of early retinal changes in single and multiple patients, the comparison of the changes with normative data, and automated quantification and measurement of diagnosis-relevant information. We developed these approaches in close collaboration with ophthalmology researchers and industry experts from a leading OCT device manufacturer. As a result, they not only significantly reduced the time and effort required for OCT data analysis, especially in the context of cross-sectional studies, but have also led to several new discoveries published in biomedical journals. | 翻訳日:2022-12-25 02:51:54 公開日:2022-12-13 |
# foresight -- 電子健康記録を用いた患者タイムラインの深部生成モデリング Foresight -- Deep Generative Modelling of Patient Timelines using Electronic Health Records ( http://arxiv.org/abs/2212.08072v1 ) ライセンス: Link先を確認 | Zeljko Kraljevic, Dan Bean, Anthony Shek, Rebecca Bendayan, Joshua Au Yeung, Alexander Deng, Alfie Baston, Jack Ross, Esther Idowu, James T Teo and Richard J Dobson | (参考訳) 電子健康記録(ehrs)は、各患者の健康状態と一般臨床史に関する詳細な縦断情報を保持し、その大部分が非構造化テキストに格納されている。
事象のシーケンスを考慮したこの医療履歴の時間的モデリングは、将来の事象の予測とシミュレーション、リスクの予測、代替診断の提案、合併症の予測に使用できる。
ほとんどの予測手法では、主に構造化データや単一領域の予測と結果のサブセットを用いるが、縦方向モデリングのために、EHRの自由テキスト部分全体を処理した。
我々は、NER+Lツール(MedCAT)を使用して、文書テキストを構造化された、コード化された概念に変換する新しいGPT3ベースのパイプラインであるForesightを紹介し、続いて、障害、薬物、症状、介入などの将来の医療イベントに対する確率的予測を提供する。
EHRデータの大部分はテキスト形式であるため、このようなアプローチは、控えめな追加ノイズを導入しながら、患者の粒度で詳細なビューから恩恵を受ける。
イギリスの2つの大きな病院(キングス大学病院、サウスロンドン、モーズリー)とMIMIC-IIIデータセットの精度@10(0.80、0.81、0.91)で、次の生体医学的概念を予測した。
Foresightは5人の臨床医による34の合成患者タイムライン上でも検証され、最も予測された候補障害の97%の関連性を示した。
Foresightは、(最小限の)フリーテキストデータのみを必要とするため、簡単にトレーニングされ、ローカルにデプロイできる。
生成モデルとして、必要に応じて、フォローオン障害、薬品、介入をシミュレーションすることができる。
Foresightはバイオメディカルな概念モデリングのための汎用モデルであり、現実世界のリスク推定、バーチャルトライアル、臨床研究で病気の進行の研究、介入と対策のシミュレーション、教育目的に使用できる。 Electronic Health Records (EHRs) hold detailed longitudinal information about each patient's health status and general clinical history, a large portion of which is stored within the unstructured text. Temporal modelling of this medical history, which considers the sequence of events, can be used to forecast and simulate future events, estimate risk, suggest alternative diagnoses or forecast complications. While most prediction approaches use mainly structured data or a subset of single-domain forecasts and outcomes, we processed the entire free-text portion of EHRs for longitudinal modelling. We present Foresight, a novel GPT3-based pipeline that uses NER+L tools (i.e. MedCAT) to convert document text into structured, coded concepts, followed by providing probabilistic forecasts for future medical events such as disorders, medications, symptoms and interventions. Since large portions of EHR data are in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. On tests in two large UK hospitals (King's College Hospital, South London and Maudsley) and the US MIMIC-III dataset precision@10 of 0.80, 0.81 and 0.91 was achieved for forecasting the next biomedical concept. Foresight was also validated on 34 synthetic patient timelines by 5 clinicians and achieved relevancy of 97% for the top forecasted candidate disorder. Foresight can be easily trained and deployed locally as it only requires free-text data (as a minimum). As a generative model, it can simulate follow-on disorders, medications and interventions for as many steps as required. Foresight is a general-purpose model for biomedical concept modelling that can be used for real-world risk estimation, virtual trials and clinical research to study the progression of diseases, simulate interventions and counterfactuals, and for educational purposes. | 翻訳日:2022-12-25 02:46:24 公開日:2022-12-13 |
# HTRモデルトレーニングの課題:"Donner le gout de l'archive a l'ere numerique"プロジェクトからのフィードバック The challenges of HTR model training: Feedbacks from the project Donner le gout de l'archive a l'ere numerique ( http://arxiv.org/abs/2212.11146v1 ) ライセンス: Link先を確認 | Couture Beatrice, Verret Farah, Gohier Maxime, Deslandres Dominique | (参考訳) 手書き認識技術の登場は、遺産研究に新たな可能性をもたらす。
しかし現在では,研究チームが開発した経験や実践を振り返る必要がある。
私たちは2018年からtranskribusプラットフォームを使用してきたので、17世紀のフランスの手書き文字を書写するために作られた手書き認識モデル(htr)のパフォーマンスを改善するための最も重要な方法を探しました。
そこで本稿では,htrモデルの性能向上に資するため,書写プロトコルの作成,語彙要素のフルスケール利用,ベースモデルの利用方法の決定などの影響について報告する。
これらの要素をすべて組み合わせることで、1つのモデルの性能を20%以上向上させることができる(キャラクタエラー率を5%以下にする)。
また、TranskribusのようなHTRプラットフォームのコラボレーティブな性質や、手書きテキスト認識モデルの作成やトレーニングの過程で生成されたデータを研究者が共有する方法についても論じている。 The arrival of handwriting recognition technologies offers new possibilities to research in heritage studies. However, it is now necessary to reflect on the experiences and the practices developed by research teams. Our use of the Transkribus platform since 2018 has led us to search for the most significant ways to improve the performance of our handwritten recognition models (HTR) which are made to transcribe French handwriting dating from the 17th century. This article therefore reports on the impacts of creating transcribing protocols, using the lexical elements at full scale and determining the best way to use base model in order to help to increase the performance of HTR models. Combining all of these elements can indeed increase the performance of a single model by more than 20% (reaching a Character Error Rate below 5%). It also discusses some challenges regarding the collaborative nature of HTR platforms such as Transkribus and the way researchers can share their data generated in the process of creating or training handwritten text recognition models. | 翻訳日:2022-12-25 02:45:35 公開日:2022-12-13 |
# ニューラル布シミュレーション Neural Cloth Simulation ( http://arxiv.org/abs/2212.11220v1 ) ライセンス: Link先を確認 | Hugo Bertiche, Meysam Madadi and Sergio Escalera | (参考訳) 本稿では,物理シミュレーションに触発された教師なし深層学習による衣服アニメーション問題に対する一般的な枠組みを提案する。
現存する文献の傾向は既にこの可能性を探求している。
しかしながら、これらの手法は布の力学を扱わない。
本稿では,神経布シミュレーションのための一般的な定式化法として,教師なしで現実的な布のダイナミックスを学習できる最初の手法を提案する。
これを実現するための鍵は、シミュレーションに基づく手法からディープラーニングへ、既存の動きの最適化スキームを適用することである。
そして,問題の性質を解析し,静的および動的布地部分空間を設計により自動的に切り離すことができるアーキテクチャを考案した。
これがモデルパフォーマンスをどのように改善するかを示します。
さらに、これは一般化を大幅に改善する新しい動き増強技術の可能性を開く。
最後に、予測における動きのレベルを制御できることも示します。
これはアーティストにとって、これまで見たことのない便利なツールだ。
本稿では,ニューラルネットワークシミュレーションの基礎となる課題を詳細に分析し,その領域の具体性について今後の研究を導く。 We present a general framework for the garment animation problem through unsupervised deep learning inspired in physically based simulation. Existing trends in the literature already explore this possibility. Nonetheless, these approaches do not handle cloth dynamics. Here, we propose the first methodology able to learn realistic cloth dynamics unsupervisedly, and henceforth, a general formulation for neural cloth simulation. The key to achieve this is to adapt an existing optimization scheme for motion from simulation based methodologies to deep learning. Then, analyzing the nature of the problem, we devise an architecture able to automatically disentangle static and dynamic cloth subspaces by design. We will show how this improves model performance. Additionally, this opens the possibility of a novel motion augmentation technique that greatly improves generalization. Finally, we show it also allows to control the level of motion in the predictions. This is a useful, never seen before, tool for artists. We provide of detailed analysis of the problem to establish the bases of neural cloth simulation and guide future research into the specifics of this domain. | 翻訳日:2022-12-25 02:43:32 公開日:2022-12-13 |
# RGB画像における非デジタルオブジェクトのマッチングのための良いキーポイント検出の学習 Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB Images ( http://arxiv.org/abs/2212.09589v1 ) ライセンス: Link先を確認 | Welerson Melo, Guilherme Potje, Felipe Cadar, Renato Martins and Erickson R. Nascimento | (参考訳) 本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、注釈付き画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
画像に既知の幾何変換を監督信号として適用することにより,モデルアーキテクチャを最適化する。
実験により,非剛性物体の実画像における最先端のキーポイント検出器を平均マッチング精度で20 p.p.に上回り,検出法と組み合わせて複数のディスクリプタのマッチング性能も向上した。
また,提案手法を,最も有効なキーポイント検出器と同等の性能を示すオブジェクト検索という,現実的な課題の1つに応用する。
ソースコードとトレーニングされたモデルは、https://github.com/verlab/LearningToDetect SIBGRAPI 2022で公開されている。 We present a novel learned keypoint detection method designed to maximize the number of correct matches for the task of non-rigid image correspondence. Our training framework uses true correspondences, obtained by matching annotated image pairs with a predefined descriptor extractor, as a ground-truth to train a convolutional neural network (CNN). We optimize the model architecture by applying known geometric transformations to images as the supervisory signal. Experiments show that our method outperforms the state-of-the-art keypoint detector on real images of non-rigid objects by 20 p.p. on Mean Matching Accuracy and also improves the matching performance of several descriptors when coupled with our detection method. We also employ the proposed method in one challenging realworld application: object retrieval, where our detector exhibits performance on par with the best available keypoint detectors. The source code and trained model are publicly available at https://github.com/verlab/LearningToDetect SIBGRAPI 2022 | 翻訳日:2022-12-25 02:43:17 公開日:2022-12-13 |
# イスタンブールのスマートジャーニー:ハーネス時系列による交通量推定のためのスマートシティのモバイルアプリケーション Smart Journey in Istanbul: A Mobile Application in Smart Cities for Traffic Estimation by Harnessing Time Series ( http://arxiv.org/abs/2212.09448v1 ) ライセンス: Link先を確認 | Senem Tanberk, Mustafa Can | (参考訳) 近年、モバイルアプリケーション(アプリ)は大きな人気を集めている。
スマートシティのスマートサービスがますます注目を集めている。
提案研究の主な目的は,交通密度データを用いて,イスタンブールの交通渋滞予測にaiを活用した新しいモバイルアプリケーションを提供することである。
気象条件と組み合わせた交通負荷データセット上の過去のデータに基づいて、時系列アプローチ(LSTM、Transformer、XGBoost)を用いて、研究課題に対処する。
予測モデル上でのシミュレーション結果の解析は,MAPE,MAE,RMSEなどの性能指標に基づいて検討する。
そして、トランスフォーマーモデルが最も正確な交通予測を行ったことが観測された。
先進的な交通予測プロトタイプは、市民の日常利用に適したモバイルアプリケーションのための将来の製品の出発点として期待されている。 In recent decades, mobile applications (apps) have gained enormous popularity. Smart services for smart cities increasingly gain attention. The main goal of the proposed research is to present a new AI-powered mobile application on Istanbul's traffic congestion forecast by using traffic density data. It addresses the research question by using time series approaches (LSTM, Transformer, and XGBoost) based on past data over the traffic load dataset combined with meteorological conditions. Analysis of simulation results on predicted models will be discussed according to performance indicators such as MAPE, MAE, and RMSE. And then, it was observed that the Transformer model made the most accurate traffic prediction. The developed traffic forecasting prototype is expected to be a starting point on future products for a mobile application suitable for citizens' daily use. | 翻訳日:2022-12-25 02:42:59 公開日:2022-12-13 |
# 特許文書におけるハイパーニム・ハイポニム検索のための技術分類法 Technological taxonomies for hypernym and hyponym retrieval in patent texts ( http://arxiv.org/abs/2212.06039v2 ) ライセンス: Link先を確認 | You Zuo (ALMAnaCH), Yixuan Li, Alma Parias Garc\'ia, Kim Gerdes (LISN) | (参考訳) 本稿では,共同特許分類(cpc)に基づく技術用語分類の自動作成手法を提案する。
その結果得られた分類は、9つの異なる技術分野の約170kのノードを含み、自由に利用できる。
また,t5(text-to-text transfer transformer)モデルを微調整して,比較的高精度なハイパーニムや低調を生成することにより,資源の質を手作業で評価できることを示す。
T5モデルは、ハイパーネムを生成可能な新しい技術的用語に分類を開放し、新しい用語で資源を更新できるようにする。 This paper presents an automatic approach to creating taxonomies of technical terms based on the Cooperative Patent Classification (CPC). The resulting taxonomy contains about 170k nodes in 9 separate technological branches and is freely available. We also show that a Text-to-Text Transfer Transformer (T5) model can be fine-tuned to generate hypernyms and hyponyms with relatively high precision, confirming the manually assessed quality of the resource. The T5 model opens the taxonomy to any new technological terms for which a hypernym can be generated, thus making the resource updateable with new terms, an essential feature for the constantly evolving field of technological terminology. | 翻訳日:2022-12-18 19:02:56 公開日:2022-12-13 |
# gaussian banditsを用いたブロックチェーンプロトコルにおけるマルチエージェント動的価格設定 Multi-Agent Dynamic Pricing in a Blockchain Protocol Using Gaussian Bandits ( http://arxiv.org/abs/2212.07942v1 ) ライセンス: Link先を確認 | Alexis Asseman, Tomasz Kornuta, Aniruth Patel, Matt Deible, Sam Green | (参考訳) Graph Protocolは、過去のブロックチェーントランザクションデータをインデックスし、クエリに使用可能にする。
プロトコルが分散化されているため、コンシューマにクエリを提供するために、インデックスと競合する独立したインデックスが多数存在する。
Indexersが競合する1つの次元は価格だ。
本稿では,消費者予算発見によるインデクサーの収益を最大化するためのバンディットに基づくアルゴリズムを提案する。
本稿では,複数のエージェントが同時に使用する動的価格設定アルゴリズムの設計と検討を行う。
我々は、シミュレーションとethereumで動作するインデクサの1つにデプロイの両方で、動的価格帯によって達成された結果について論じる。
私たちは、作成したシミュレーションフレームワークとツールをオープンソースとして公開しています。 The Graph Protocol indexes historical blockchain transaction data and makes it available for querying. As the protocol is decentralized, there are many independent Indexers that index and compete with each other for serving queries to the Consumers. One dimension along which Indexers compete is pricing. In this paper, we propose a bandit-based algorithm for maximization of Indexers' revenue via Consumer budget discovery. We present the design and the considerations we had to make for a dynamic pricing algorithm being used by multiple agents simultaneously. We discuss the results achieved by our dynamic pricing bandits both in simulation and deployed into production on one of the Indexers operating on Ethereum. We have open-sourced both the simulation framework and tools we created, which other Indexers have since started to adapt into their own workflows. | 翻訳日:2022-12-16 18:02:10 公開日:2022-12-13 |
# 動きによる対向的ロバスト映像知覚 Adversarially Robust Video Perception by Seeing Motion ( http://arxiv.org/abs/2212.07815v1 ) ライセンス: Link先を確認 | Lingyu Zhang, Chengzhi Mao, Junfeng Yang, Carl Vondrick | (参考訳) 優れた性能にもかかわらず、最先端のコンピュータビジョンモデルは敵の例に遭遇すると失敗することが多い。
映像知覚モデルは、高次元データで操作する場所が多いため、攻撃下ではより脆弱な傾向にある。
本稿では,ビデオモデルの脆弱性の一つとして,逆摂動下での正しい動きを認識できないことを見出す。
運動が人間の視覚システムにとって重要な要素であるという広範な証拠に触発され、知覚された動き情報を復元することでモデルが見ているものを修正することを提案する。
モーション情報はビデオデータの本質的な構造であるため、人間のアノテーションを使わずに推論時に動き信号を復元することができ、予期せぬ最悪の入力に適応することができる。
UCF-101データセットとHMDB-51データセットの可視化と実証実験により、深部視覚モデルにおける動き情報の復元が対向的堅牢性を改善することが示された。
敵が我々の防御を知っていても、我々のアルゴリズムは有効だ。
本研究は,データからの固有構造を用いて,ロバストな映像知覚アルゴリズムに対する新たな洞察を提供する。
私たちのwebページはhttps://motion4robust.cs.columbia.eduで閲覧できます。 Despite their excellent performance, state-of-the-art computer vision models often fail when they encounter adversarial examples. Video perception models tend to be more fragile under attacks, because the adversary has more places to manipulate in high-dimensional data. In this paper, we find one reason for video models' vulnerability is that they fail to perceive the correct motion under adversarial perturbations. Inspired by the extensive evidence that motion is a key factor for the human visual system, we propose to correct what the model sees by restoring the perceived motion information. Since motion information is an intrinsic structure of the video data, recovering motion signals can be done at inference time without any human annotation, which allows the model to adapt to unforeseen, worst-case inputs. Visualizations and empirical experiments on UCF-101 and HMDB-51 datasets show that restoring motion information in deep vision models improves adversarial robustness. Even under adaptive attacks where the adversary knows our defense, our algorithm is still effective. Our work provides new insight into robust video perception algorithms by using intrinsic structures from the data. Our webpage is available at https://motion4robust.cs.columbia.edu. | 翻訳日:2022-12-16 17:09:09 公開日:2022-12-13 |
# CREPE:Vision-Language Foundationはどのようにして構成できるのか? CREPE: Can Vision-Language Foundation Models Reason Compositionally? ( http://arxiv.org/abs/2212.07796v1 ) ライセンス: Link先を確認 | Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna | (参考訳) 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた6つのアーキテクチャで、構成性がほとんどないことがわかった。
この結論に達するために、認知科学文献で識別される構成性の2つの重要な側面、体系性と生産性を測定する新しい構成性評価ベンチマーク CREPEを導入する。
系統性を測定するために、CREPEは3つのテストデータセットで構成される。
3つのテストセットは、CC-12M、YFCC-15M、LAION-400Mの3つのトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
385K、385K、373Kイメージテキスト対、237K、210K、178Kハードネガティブキャプションを含む。
生産性をテストするために、CREPEは9つの異なる複雑さを持つ17Kイメージテキスト対と、原子、スワッピング、否定翼を持つ246Kハードネガティブキャプションを含んでいる。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
Recall@1は8%まで低下し,新しい構成が検索セットを支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。 A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, we find that - across 6 architectures trained with 4 algorithms on massive datasets - they exhibit little compositionality. To arrive at this conclusion, we introduce a new compositionality evaluation benchmark CREPE which measures two important aspects of compositionality identified by cognitive science literature: systematicity and productivity. To measure systematicity, CREPE consists of three test datasets. The three test sets are designed to test models trained on three of the popular training datasets: CC-12M, YFCC-15M, and LAION-400M. They contain 385K, 385K, and 373K image-text pairs and 237K, 210K, and 178K hard negative captions. To test productivity, CREPE contains 17K image-text pairs with nine different complexities plus 246K hard negative captions with atomic, swapping, and negation foils. The datasets are generated by repurposing the Visual Genome scene graphs and region descriptions and applying handcrafted templates and GPT-3. For systematicity, we find that model performance decreases consistently when novel compositions dominate the retrieval set, with Recall@1 dropping by up to 8%. For productivity, models' retrieval success decays as complexity increases, frequently nearing random chance at high complexity. These results hold regardless of model and training dataset size. | 翻訳日:2022-12-16 15:58:28 公開日:2022-12-13 |
# k平均による量子クラスタリング--ハイブリッドアプローチ Quantum Clustering with k-Means: a Hybrid Approach ( http://arxiv.org/abs/2212.06691v1 ) ライセンス: Link先を確認 | Alessandro Poggiali, Alessandro Berti, Anna Bernasconi, Gianna Del Corso, Riccardo Guidotti | (参考訳) 量子コンピューティングは、高速計算を行う量子理論に基づく有望なパラダイムである。
量子アルゴリズムは、機械学習を含む特定のタスクの計算複雑性の観点から、従来のアルゴリズムを上回ることが期待されている。
本稿では,並列性の異なる3つのハイブリッド量子k平均アルゴリズムを設計し,実装し,評価する。
実際、各アルゴリズムは量子並列性を漸進的に利用し、クラスタ割り当ての複雑さを一定コストまで低減する。
特に、距離の計算を高速化するために量子現象を利用する。
中心となる考え方は、レコードとセントロイド間の距離の計算を同時に行うことができ、特に大きなデータセットの場合、時間を節約できるということだ。
我々のハイブリッド量子k-meansアルゴリズムは、従来のバージョンよりも効率的であり、クラスタリング結果に匹敵する結果を得ることができる。 Quantum computing is a promising paradigm based on quantum theory for performing fast computations. Quantum algorithms are expected to surpass their classical counterparts in terms of computational complexity for certain tasks, including machine learning. In this paper, we design, implement, and evaluate three hybrid quantum k-Means algorithms, exploiting different degree of parallelism. Indeed, each algorithm incrementally leverages quantum parallelism to reduce the complexity of the cluster assignment step up to a constant cost. In particular, we exploit quantum phenomena to speed up the computation of distances. The core idea is that the computation of distances between records and centroids can be executed simultaneously, thus saving time, especially for big datasets. We show that our hybrid quantum k-Means algorithms can be more efficient than the classical version, still obtaining comparable clustering results. | 翻訳日:2022-12-15 18:03:34 公開日:2022-12-13 |
# 機械学習によるグラフェン中の極端量子散乱の生成 Generating extreme quantum scattering in graphene with machine learning ( http://arxiv.org/abs/2212.06929v1 ) ライセンス: Link先を確認 | Chen-Di Han and Ying-Cheng Lai | (参考訳) グラフェン量子ドットは、2次元(2次元)ディラック材料の電子挙動を操作するプラットフォームを提供する。
以前のほとんどの作品は、例えば外部の電界を印加するなどによって生じるような所定の構造で、様々な閉じ込め、輸送、散乱問題を解決することを目的としていた「フォワード」型であった。
クローキング(英語版)やスーパー散乱(英語版)のような応用があり、逆設計の難しい問題が解決される必要がある:特定の所望の機能的特性に従って量子ドット構造を見つける。
ディラック方程式の解に直接基づくシステム構成のブルートフォース探索は計算不可能である。
本稿では,物理的制約を受けるニューラルネットワークを厳密なディラック方程式解法に置き換える逆設計問題に対処するための機械学習手法を提案する。
特に,エネルギーの関数としての散乱効率の観点からクローキングとスーパー散乱の両方を生成する量子ドット構造を設計する問題に焦点をあてる。
散乱特性の正確な予測を可能にする物理損失関数を構築する。
クライントンネル法では、散乱効率は2桁以上の等級で変化するように設計でき、任意の散乱曲線をゲートポテンシャルの適切な組み合わせから生成できることを実証する。
我々の物理ベースの機械学習アプローチは、2D Dirac素材ベースのエレクトロニクスのための強力な設計ツールとなり得る。 Graphene quantum dots provide a platform for manipulating electron behaviors in two-dimensional (2D) Dirac materials. Most previous works were of the "forward" type in that the objective was to solve various confinement, transport and scattering problems with given structures that can be generated by, e.g., applying an external electrical field. There are applications such as cloaking or superscattering where the challenging problem of inverse design needs to be solved: finding a quantum-dot structure according to certain desired functional characteristics. A brute-force search of the system configuration based directly on the solutions of the Dirac equation is computational infeasible. We articulate a machine-learning approach to addressing the inverse-design problem where artificial neural networks subject to physical constraints are exploited to replace the rigorous Dirac equation solver. In particular, we focus on the problem of designing a quantum dot structure to generate both cloaking and superscattering in terms of the scattering efficiency as a function of the energy. We construct a physical loss function that enables accurate prediction of the scattering characteristics. We demonstrate that, in the regime of Klein tunneling, the scattering efficiency can be designed to vary over two orders of magnitudes, allowing any scattering curve to be generated from a proper combination of the gate potentials. Our physics-based machine-learning approach can be a powerful design tool for 2D Dirac material-based electronics. | 翻訳日:2022-12-15 18:03:21 公開日:2022-12-13 |
# 脳波信号を用いたハイブリッドディープニューラルネットワークによる抽出レベルの分類 Classification of Distraction Levels Using Hybrid Deep Neural Networks From EEG Signals ( http://arxiv.org/abs/2212.06830v1 ) ライセンス: Link先を確認 | Dae-Hyeok Lee, Sung-Jin Kim, Yeon-Woo Choi | (参考訳) 非侵襲的な脳-コンピュータインタフェース技術は、高い性能で人間の精神状態を検出するために開発された。
パイロットの精神状態の検出は、異常な精神状態が破滅的な事故を引き起こす可能性があるため、特に重要である。
本研究では,Deep Learning法を適用して,障害レベル(通常状態,低障害,高障害)を分類できる可能性を示した。
我々の知る限りでは、この研究は飛行環境下での障害レベルを分類する最初の試みである。
障害レベルを分類するモデルを提案した。
合計10人のパイロットがシミュレートされた飛行環境で実験を行った。
総計の精度は0.8437で全被験者の気晴らしレベルを分類した。
したがって、将来的には人工知能技術に基づく自動運転や飛行に大きく貢献するだろうと考えています。 Non-invasive brain-computer interface technology has been developed for detecting human mental states with high performances. Detection of the pilots' mental states is particularly critical because their abnormal mental states could cause catastrophic accidents. In this study, we presented the feasibility of classifying distraction levels (namely, normal state, low distraction, and high distraction) by applying the deep learning method. To the best of our knowledge, this study is the first attempt to classify distraction levels under a flight environment. We proposed a model for classifying distraction levels. A total of ten pilots conducted the experiment in a simulated flight environment. The grand-average accuracy was 0.8437 for classifying distraction levels across all subjects. Hence, we believe that it will contribute significantly to autonomous driving or flight based on artificial intelligence technology in the future. | 翻訳日:2022-12-15 17:45:48 公開日:2022-12-13 |
# 重度不確実性条件下における多目標意思決定 Multi-Target Decision Making under Conditions of Severe Uncertainty ( http://arxiv.org/abs/2212.06832v1 ) ライセンス: Link先を確認 | Christoph Jansen, Georg Schollmeyer, Thomas Augustin | (参考訳) 不確実性の下での意思決定問題における結果の質は、しばしば異なる目標(ゴール、目標)間で同時に比較されなければならない。
さらに、様々な目標に対する結果の評価は、古典的には純粋に順序づけられているか、完全基数であるなど、測定の規模でしばしば異なる。
本稿では,近年の発展を,非完全優先的かつ確率的情報を持つ抽象的決定理論から,この多目的設定へ移し,(潜在的に)部分的基数と部分的確率的情報を活用することにより,パレート順序よりも決定を比較するためのより情報的な順序が与えられることを示す。
提案する決定オプション間の順序の興味深い性質について考察し,線形最適化によってどのように計算できるかを示す。
我々は,アルゴリズムを異なる性能尺度で比較する文脈において,我々のフレームワークを人工的な(しかし非常に現実的な)例で示すことで,論文を締めくくった。 The quality of consequences in a decision making problem under (severe) uncertainty must often be compared among different targets (goals, objectives) simultaneously. In addition, the evaluations of a consequence's performance under the various targets often differ in their scale of measurement, classically being either purely ordinal or perfectly cardinal. In this paper, we transfer recent developments from abstract decision theory with incomplete preferential and probabilistic information to this multi-target setting and show how -- by exploiting the (potentially) partial cardinal and partial probabilistic information -- more informative orders for comparing decisions can be given than the Pareto order. We discuss some interesting properties of the proposed orders between decision options and show how they can be concretely computed by linear optimization. We conclude the paper by demonstrating our framework in an artificial (but quite real-world) example in the context of comparing algorithms under different performance measures. | 翻訳日:2022-12-15 17:45:36 公開日:2022-12-13 |
# 未知不動確率系のフィードバック動作計画のための統計的安全性とロバスト性保証 Statistical Safety and Robustness Guarantees for Feedback Motion Planning of Unknown Underactuated Stochastic Systems ( http://arxiv.org/abs/2212.06874v1 ) ライセンス: Link先を確認 | Craig Knuth, Glen Chou, Jamie Reese, Joe Moore | (参考訳) 本稿では,未知の非線形確率的不活性化力学を持つシステム群の統合計画と制御のための,実行時の安全性と目標到達性に関する統計的保証を提供する。
具体的には、ダイナミクスデータセットを与えられた場合、平均ダイナミクスモデル、ノイズやモデルミスマッチの影響を捉えた空間変動外乱境界、学習したダイナミクスを安定化する収縮理論に基づくフィードバックコントローラを共同で学習する。
本研究では, 平均力学モデルを用いたサンプリングベースプランナを提案し, 学習外乱境界による閉ループ追従誤差を同時に有界化する。
我々は、極値理論(EVT)の手法を用いて、特定の信頼レベル、学習したコンポーネントを特徴付け、トラッキングエラー境界のサイズを管理するいくつかの定数を推定する。
これにより、計画は実行時に安全に追跡されることが保証される。
この保証は,10Dクオードロータのシミュレーションや,クレージーフリークオードロータとクリアパスジャカルロボットの現実世界でのシミュレーションにおいて,モデル誤差や確率性を無視するベースラインが安全でないことを示す。 We present a method for providing statistical guarantees on runtime safety and goal reachability for integrated planning and control of a class of systems with unknown nonlinear stochastic underactuated dynamics. Specifically, given a dynamics dataset, our method jointly learns a mean dynamics model, a spatially-varying disturbance bound that captures the effect of noise and model mismatch, and a feedback controller based on contraction theory that stabilizes the learned dynamics. We propose a sampling-based planner that uses the mean dynamics model and simultaneously bounds the closed-loop tracking error via a learned disturbance bound. We employ techniques from Extreme Value Theory (EVT) to estimate, to a specified level of confidence, several constants which characterize the learned components and govern the size of the tracking error bound. This ensures plans are guaranteed to be safely tracked at runtime. We validate that our guarantees translate to empirical safety in simulation on a 10D quadrotor, and in the real world on a physical CrazyFlie quadrotor and Clearpath Jackal robot, whereas baselines that ignore the model error and stochasticity are unsafe. | 翻訳日:2022-12-15 17:45:19 公開日:2022-12-13 |
# 市場における最適・安定割当のための価格付きインタラクティブラーニング Interactive Learning with Pricing for Optimal and Stable Allocations in Markets ( http://arxiv.org/abs/2212.06891v1 ) ライセンス: Link先を確認 | Yigit Efe Erginbas, Soham Phade, Kannan Ramchandran | (参考訳) 大規模オンラインレコメンデーションシステムは、ユーザのフィードバックから好みを学習しながら、競合するユーザ間で限られた数のアイテムの割り当てを促進する必要がある。
市場制約とユーザのインセンティブをデザインに組み込む原則的な方法として,我々は,私たちの目的を,最小限の不安定さを持つ最大社会福祉の2つに分類する。
社会福祉を最大化するために,提案フレームワークは,報奨を楽観的に最大化する割り当てを探索することで,推薦の質を高める。
ユーザの推奨割り当てから逸脱するインセンティブである不安定さを最小限に抑えるために、このアルゴリズムは、walrasian equilibriaから派生したスキームに基づいてアイテムを価格設定する。
これらの均衡は、既知のユーザ嗜好を持つ市場で安定した価格をもたらすことが知られているが、当社のアプローチは、嗜好に固有の不確実性をもたらし、ユーザが提示された価格の下でレコメンデーションを受け入れることをさらに確実にする。
我々の知識を最大限に活用するために,我々のアプローチは,組合せ帯域幅,最適資源配分,協調フィルタリングといった手法を初めて統合し,サブ線形社会福祉の後悔とサブ線形不安定性を実現するアルゴリズムを得る。
人工的および実世界のデータに関する実証的研究は、これらの全ての側面を完全に包含していないアプローチと比較して、我々の戦略の有効性を示す。 Large-scale online recommendation systems must facilitate the allocation of a limited number of items among competing users while learning their preferences from user feedback. As a principled way of incorporating market constraints and user incentives in the design, we consider our objectives to be two-fold: maximal social welfare with minimal instability. To maximize social welfare, our proposed framework enhances the quality of recommendations by exploring allocations that optimistically maximize the rewards. To minimize instability, a measure of users' incentives to deviate from recommended allocations, the algorithm prices the items based on a scheme derived from the Walrasian equilibria. Though it is known that these equilibria yield stable prices for markets with known user preferences, our approach accounts for the inherent uncertainty in the preferences and further ensures that the users accept their recommendations under offered prices. To the best of our knowledge, our approach is the first to integrate techniques from combinatorial bandits, optimal resource allocation, and collaborative filtering to obtain an algorithm that achieves sub-linear social welfare regret as well as sub-linear instability. Empirical studies on synthetic and real-world data also demonstrate the efficacy of our strategy compared to approaches that do not fully incorporate all these aspects. | 翻訳日:2022-12-15 17:44:58 公開日:2022-12-13 |
# MegaPose: レンダリングと比較による新しいオブジェクトの6次元ポス推定 MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare ( http://arxiv.org/abs/2212.06870v1 ) ライセンス: Link先を確認 | Yann Labb\'e, Lucas Manuelli, Arsalan Mousavian, Stephen Tyree, Stan Birchfield, Jonathan Tremblay, Justin Carpentier, Mathieu Aubry, Dieter Fox, Josef Sivic | (参考訳) 本稿では,新しい物体の6次元ポーズ,すなわちトレーニング中に見えない物体を推定する手法であるMegaPoseを紹介する。
推論時に、その方法は知識のみを仮定する
(i)画像中の対象を表示する関心領域、及び
(ii)観測対象物のcadモデル。
この作品の貢献は3倍である。
まず,新規オブジェクトに適用可能なrender&compare戦略に基づく6次元ポーズリファインダを提案する。
新規オブジェクトの形状と座標系は、オブジェクトのCADモデルの複数の合成ビューをレンダリングすることにより、ネットワークへの入力として提供される。
第2に,合成レンダリングと同一物体の観察画像とのポーズ誤差を,精錬者によって補正できるか否かを分類するために訓練されたネットワークを活用した粗いポーズ推定手法を提案する。
第3に,視覚的・形状特性の異なる数千個のオブジェクトの大規模合成画像データセットを導入し,この多様性が新規なオブジェクトに対する優れた一般化性能を得る上で重要であることを示す。
我々は、この大規模な合成データセットにアプローチを訓練し、複数のポーズ推定ベンチマークから実画像中の数百の新しいオブジェクトを再訓練することなく適用する。
提案手法は,ModelNet および YCB-Video データセットの最先端性能を実現する。
BOPチャレンジの7つのコアデータセットに対する広範な評価は、我々のアプローチが、トレーニング中にターゲットオブジェクトへのアクセスを必要とする既存のアプローチと競合する性能を達成することを示す。
コード、データセット、トレーニングされたモデルは、プロジェクトページで見ることができる。 We introduce MegaPose, a method to estimate the 6D pose of novel objects, that is, objects unseen during training. At inference time, the method only assumes knowledge of (i) a region of interest displaying the object in the image and (ii) a CAD model of the observed object. The contributions of this work are threefold. First, we present a 6D pose refiner based on a render&compare strategy which can be applied to novel objects. The shape and coordinate system of the novel object are provided as inputs to the network by rendering multiple synthetic views of the object's CAD model. Second, we introduce a novel approach for coarse pose estimation which leverages a network trained to classify whether the pose error between a synthetic rendering and an observed image of the same object can be corrected by the refiner. Third, we introduce a large-scale synthetic dataset of photorealistic images of thousands of objects with diverse visual and shape properties and show that this diversity is crucial to obtain good generalization performance on novel objects. We train our approach on this large synthetic dataset and apply it without retraining to hundreds of novel objects in real images from several pose estimation benchmarks. Our approach achieves state-of-the-art performance on the ModelNet and YCB-Video datasets. An extensive evaluation on the 7 core datasets of the BOP challenge demonstrates that our approach achieves performance competitive with existing approaches that require access to the target objects during training. Code, dataset and trained models are available on the project page: https://megapose6d.github.io/. | 翻訳日:2022-12-15 17:36:50 公開日:2022-12-13 |
# マルチエージェントパス探索のためのヒューリスティックガイドコンパイル Heuristically Guided Compilation for Multi-Agent Path Finding ( http://arxiv.org/abs/2212.06940v1 ) ライセンス: Link先を確認 | Pavel Surynek | (参考訳) マルチエージェントパス探索(MAPF)は、エージェントの指定された初期位置と目標位置を共有環境で接続する非競合パスを見つけるタスクである。
我々は, mapf 問題を混合整数線形計画 (milp), ブール充足可能性 (sat), 制約プログラミング (cp) など, 異なる確立された形式で表現するコンパイル型解法に注目した。
これらのフォーマリズムのターゲットソルバはブラックボックスとして機能するため、MAPFコンパイルベースのソルバにMAPF固有のヒューリスティックを統合することは困難である。
本研究では,対象SATソルバに対してMAPFエンコーディングを構築し,ドメイン固有のヒューリスティック知識を反映させる方法を示す。
このヒューリスティック知識は、各エージェントの候補パスを選択し、エージェントの可能な全てのパスのエンコーディングを構築するのではなく、これらの候補パスのみのエンコーディングを構築することによってSATソルバに転送される。
実験の結果,satベースのmapfソルバのバニラ変種よりもヒューリスティックなコンパイルが優れていることがわかった。 Multi-agent path finding (MAPF) is a task of finding non-conflicting paths connecting agents' specified initial and goal positions in a shared environment. We focus on compilation-based solvers in which the MAPF problem is expressed in a different well established formalism such as mixed-integer linear programming (MILP), Boolean satisfiability (SAT), or constraint programming (CP). As the target solvers for these formalisms act as black-boxes it is challenging to integrate MAPF specific heuristics in the MAPF compilation-based solvers. We show in this work how the build a MAPF encoding for the target SAT solver in which domain specific heuristic knowledge is reflected. The heuristic knowledge is transferred to the SAT solver by selecting candidate paths for each agent and by constructing the encoding only for these candidate paths instead of constructing the encoding for all possible paths for an agent. The conducted experiments show that heuristically guided compilation outperforms the vanilla variants of the SAT-based MAPF solver. | 翻訳日:2022-12-15 15:25:02 公開日:2022-12-13 |
# 重み付きグラフウォーキングオートマタを用いた変圧器のグラフ位置符号化 Bridging Graph Position Encodings for Transformers with Weighted Graph-Walking Automata ( http://arxiv.org/abs/2212.06898v1 ) ライセンス: Link先を確認 | Patrick Soga, David Chiang | (参考訳) グラフニューラルネットワークの文献における現在の目標は、言語とビジョンタスクの成功を踏まえ、トランスフォーマーがグラフ構造化データで操作できるようにすることである。
変換器の本来の正弦波位置符号化(pes)はグラフに適用できないため、近年ではスペクトルグラフ理論やグラフの様々な空間的特徴に根ざしたグラフpesの開発に焦点が当てられている。
本稿では,重み付きグラフウォーキングオートマトン(グラフウォーキングオートマトンの新しい拡張)に基づく新しいグラフpeであるグラフオートマトンpe(gape)を紹介する。
我々は,GAPEと機械翻訳およびグラフ構造化タスクにおける他のPEスキームの性能を比較し,他のPEを一般化することを示す。
この研究のさらなる貢献は、エッジ特徴の使用とは無関係に、グラフ変換器における最近のPEの理論的および制御された比較である。 A current goal in the graph neural network literature is to enable transformers to operate on graph-structured data, given their success on language and vision tasks. Since the transformer's original sinusoidal positional encodings (PEs) are not applicable to graphs, recent work has focused on developing graph PEs, rooted in spectral graph theory or various spatial features of a graph. In this work, we introduce a new graph PE, Graph Automaton PE (GAPE), based on weighted graph-walking automata (a novel extension of graph-walking automata). We compare the performance of GAPE with other PE schemes on both machine translation and graph-structured tasks, and we show that it generalizes several other PEs. An additional contribution of this study is a theoretical and controlled experimental comparison of many recent PEs in graph transformers, independent of the use of edge features. | 翻訳日:2022-12-15 15:20:38 公開日:2022-12-13 |
# ラベル上の損失: 直接損失構成による弱い教師付き学習 Losses over Labels: Weakly Supervised Learning via Direct Loss Construction ( http://arxiv.org/abs/2212.06921v1 ) ライセンス: Link先を確認 | Dylan Sam, J. Zico Kolter | (参考訳) 大量のラベル付きデータを生成することの禁止コストのため、プログラム的な弱い監督は機械学習におけるパラダイムの成長である。
この設定では、ユーザはデータのサブセットにノイズラベルを提供するヒューリスティックを設計する。
これらの弱いラベルは(通常、グラフィカルモデルを介して)結合されて擬似ラベルを形成し、下流モデルのトレーニングに使用される。
この研究では、典型的な弱教師付き学習パイプラインの基本前提に疑問を呈する: ヒューリスティックがすべての `label" 情報を提供することを考慮すれば、なぜ疑似ラベルを生成する必要があるのか?
代わりに、我々はヒューリスティック自体を直接、モデルとヒューリスティックの違いを罰する対応する損失関数に変換することを提案する。
ヒューリスティックスから直接損失を構築することで、ヒューリスティックスがトレーニング中に機能選択を明示的に通知する方法など、標準的な弱教師付きパイプラインで使用されるよりも多くの情報を組み込むことができる。
この手法をLosses over Labels (LoL)と呼び、ラベルの中間ステップを経由することなくヒューリスティックスから直接損失を発生させる。
複数のベンチマークテキストおよび画像分類タスクにおいて,LoLは既存の弱い監督手法を改善し,さらに勾配情報の導入により,ほぼすべてのタスクにおいて性能が向上することを示す。 Owing to the prohibitive costs of generating large amounts of labeled data, programmatic weak supervision is a growing paradigm within machine learning. In this setting, users design heuristics that provide noisy labels for subsets of the data. These weak labels are combined (typically via a graphical model) to form pseudolabels, which are then used to train a downstream model. In this work, we question a foundational premise of the typical weakly supervised learning pipeline: given that the heuristic provides all ``label" information, why do we need to generate pseudolabels at all? Instead, we propose to directly transform the heuristics themselves into corresponding loss functions that penalize differences between our model and the heuristic. By constructing losses directly from the heuristics, we can incorporate more information than is used in the standard weakly supervised pipeline, such as how the heuristics make their decisions, which explicitly informs feature selection during training. We call our method Losses over Labels (LoL) as it creates losses directly from heuristics without going through the intermediate step of a label. We show that LoL improves upon existing weak supervision methods on several benchmark text and image classification tasks and further demonstrate that incorporating gradient information leads to better performance on almost every task. | 翻訳日:2022-12-15 15:20:21 公開日:2022-12-13 |
# 説明法による変圧器とCNNの違いの検討 Examining the Difference Among Transformers and CNNs with Explanation Methods ( http://arxiv.org/abs/2212.06872v1 ) ライセンス: Link先を確認 | Mingqi Jiang, Saeed Khorram and Li Fuxin | (参考訳) 提案手法は,畳み込みネットワーク(CNN)やグローバルアテンションネットワーク,ローカルアテンションネットワークなど,さまざまなタイプの視覚認識バックボーンを比較し,データセット全体の深い説明アルゴリズムを体系的に適用する手法である。
定性的な視覚化とデータセット全体の量的統計の両方を調べることは、説明的なだけでなく、データセット全体に計算された統計によって支持される直観を得るのに役立ちます。
具体的には2つの方法を提案する。
第1のサブエクスラレーションカウントは、すべての画像の最小限の十分な説明を体系的に検索し、各ネットワークのサブエクスラレーションの量をカウントする。
2つめはクロステストと呼ばれ、ひとつのネットワークを使ってサルエント領域を計算し、その領域を他のネットワークにイメージとして示すだけでパフォーマンスを評価する。
質的な洞察と定量的統計を組み合わせることで
1)CNNの特徴と注意モデルとの間に有意な差異がある。
2) 局所注意モデルおよびグローバル注意モデルにおける咬合乱れは, 異なる意思決定機構から生じる可能性がある。 We propose a methodology that systematically applies deep explanation algorithms on a dataset-wide basis, to compare different types of visual recognition backbones, such as convolutional networks (CNNs), global attention networks, and local attention networks. Examination of both qualitative visualizations and quantitative statistics across the dataset helps us to gain intuitions that are not just anecdotal, but are supported by the statistics computed on the entire dataset. Specifically, we propose two methods. The first one, sub-explanation counting, systematically searches for minimally-sufficient explanations of all images and count the amount of sub-explanations for each network. The second one, called cross-testing, computes salient regions using one network and then evaluates the performance by only showing these regions as an image to other networks. Through a combination of qualitative insights and quantitative statistics, we illustrate that 1) there are significant differences between the salient features of CNNs and attention models; 2) the occlusion-robustness in local attention models and global attention models may come from different decision-making mechanisms. | 翻訳日:2022-12-15 14:52:44 公開日:2022-12-13 |
# 高次元カテゴリー入力による効率的・非侵襲的侵入攻撃に向けて Towards Efficient and Domain-Agnostic Evasion Attack with High-dimensional Categorical Inputs ( http://arxiv.org/abs/2212.06836v1 ) ライセンス: Link先を確認 | Hongyan Bao, Yufei Han, Yujun Zhou, Xin Gao, Xiangliang Zhang | (参考訳) 本研究の目的は,ドメインに依存しない領域において,高次元のカテゴリ入力を持つ分類器を攻撃するために,現実的な逆転摂動を探索することである。
これは本質的にはNP-hard knapsack問題であり、探索空間は特徴次元が大きくなるにつれて爆発的に大きくなる。
ドメイン知識の助けがなければ、ブランチ・アンド・バウンドのようなヒューリスティックな方法でこの問題は指数関数的複雑性に苦しむが、任意に悪い攻撃結果をもたらす可能性がある。
本課題は,多腕バンディットを用いた組合せ探索のレンズを用いて解決する。
提案手法は,マルチアームバンディットプログラミングにおいて,各カテゴリ機能の変更を腕を引くものとして扱う。
本研究の目的は,Orthogonal Matching Pursuit (OMP)-enhanced Upper Confidence Bound (UCB) 探索戦略を用いて,高度に効率的かつ効果的な攻撃を実現することである。
FEATの残差を限定した理論的解析により,攻撃性能が保証される。
実証分析では、異なるアプリケーションの現実世界のさまざまな分類データに対して、他の最先端のドメイン非依存な攻撃手法と比較する。
現状実験により、異なる応用シナリオに適用されたFEATの予測効率と攻撃効果が確認された。
本研究は,高次元カテゴリ入力を用いた分類システムの逆脆弱性評価におけるfeatの適用可能性も示唆する。 Our work targets at searching feasible adversarial perturbation to attack a classifier with high-dimensional categorical inputs in a domain-agnostic setting. This is intrinsically an NP-hard knapsack problem where the exploration space becomes explosively larger as the feature dimension increases. Without the help of domain knowledge, solving this problem via heuristic method, such as Branch-and-Bound, suffers from exponential complexity, yet can bring arbitrarily bad attack results. We address the challenge via the lens of multi-armed bandit based combinatorial search. Our proposed method, namely FEAT, treats modifying each categorical feature as pulling an arm in multi-armed bandit programming. Our objective is to achieve highly efficient and effective attack using an Orthogonal Matching Pursuit (OMP)-enhanced Upper Confidence Bound (UCB) exploration strategy. Our theoretical analysis bounding the regret gap of FEAT guarantees its practical attack performance. In empirical analysis, we compare FEAT with other state-of-the-art domain-agnostic attack methods over various real-world categorical data sets of different applications. Substantial experimental observations confirm the expected efficiency and attack effectiveness of FEAT applied in different application scenarios. Our work further hints the applicability of FEAT for assessing the adversarial vulnerability of classification systems with high-dimensional categorical inputs. | 翻訳日:2022-12-15 14:46:30 公開日:2022-12-13 |
# 説明と予測の関係について:因果的考察 On the Relationship Between Explanation and Prediction: A Causal View ( http://arxiv.org/abs/2212.06925v1 ) ライセンス: Link先を確認 | Amir-Hossein Karimi, Krikamol Muandet, Simon Kornblith, Bernhard Sch\"olkopf, Been Kim | (参考訳) 説明可能性は、機械学習(ml)モデルの開発、デプロイ、導入において中心的な要件となり、説明方法が何が可能で何ができないのか、まだ理解できていない。
データ、モデル予測、モデルのトレーニングに使用されるハイパーパラメータ、ランダム初期化といったいくつかの要因は、すべて下流の説明に影響を与える可能性がある。
以前の研究は、説明(E)が予測(Y)とはほとんど関係がないことを実証的に示唆していたが、この関係を定量化する決定的な研究が欠如している。
私たちの仕事は因果推論からツールを借りて、この関係を体系的に確認します。
より具体的には, 因果祖先(ハイパーパラメータ)に介入する際の治療効果を測定することにより, E と Y の関係を計測する(塩分濃度に基づく Es または Ys を生成する入力)。
e に対する y の相対的直接的影響は奇なパターンをたどっており、その影響は中パフォーマンスモデルよりも低パフォーマンスモデルの方が高く、トップパフォーマンスモデルでは減少する。
当社の作業は,これらの説明を活用する上で,どのような要因と最終課題との関連性を知ることによって,より深い判断を下せるような実践者に対して,よりよいガイダンスを提供するための,有望な第一歩だと思います。 Explainability has become a central requirement for the development, deployment, and adoption of machine learning (ML) models and we are yet to understand what explanation methods can and cannot do. Several factors such as data, model prediction, hyperparameters used in training the model, and random initialization can all influence downstream explanations. While previous work empirically hinted that explanations (E) may have little relationship with the prediction (Y), there is a lack of conclusive study to quantify this relationship. Our work borrows tools from causal inference to systematically assay this relationship. More specifically, we measure the relationship between E and Y by measuring the treatment effect when intervening on their causal ancestors (hyperparameters) (inputs to generate saliency-based Es or Ys). We discover that Y's relative direct influence on E follows an odd pattern; the influence is higher in the lowest-performing models than in mid-performing models, and it then decreases in the top-performing models. We believe our work is a promising first step towards providing better guidance for practitioners who can make more informed decisions in utilizing these explanations by knowing what factors are at play and how they relate to their end task. | 翻訳日:2022-12-15 14:45:32 公開日:2022-12-13 |
# セマンティック多元通信による無線メタバースの実現 Enabling the Wireless Metaverse via Semantic Multiverse Communication ( http://arxiv.org/abs/2212.06908v1 ) ライセンス: Link先を確認 | Jihong Park, Jinho Choi, Seong-Lyun Kim, Mehdi Bennis | (参考訳) metaverse over wireless networksは第6世代 (6g) ワイヤレスシステムの新たなユースケースであり、厳密なレイテンシと信頼性要件を備えたマルチモーダルデータ転送に関して、前例のない課題となっている。
本稿では,この無線メタバースの実現に向けて,人間/機械エージェント固有のセマンティックマルチバース(sms)にメタバースを分解する新しいセマンティックコミュニケーション(sc)フレームワークを提案する。
各エージェントに格納されたSMは、セマンティックエンコーダとジェネレータとから構成され、最近の生成人工知能(AI)の進歩を活用する。
通信効率を向上させるために、エンコーダはマルチモーダルデータのセマンティック表現(SR)を学習し、ジェネレータは、メタバース内のシーンやインタラクションをローカルにレンダリングするためにそれらを操作する方法を学ぶ。
これらの学習されたSMは局所環境に偏っているため、その成功は背景の異種SMを同期させ、前景のSRを通信させ、無線メタバース問題を意味多元通信(SMC)の問題に転換する。
このSMCアーキテクチャに基づいて、分散学習やマルチエージェント強化学習(MARL)から、シグナリングゲームやシンボリックAIまで、SMCのモデリングと設計のための有望なアルゴリズムおよび分析ツールを提案する。 Metaverse over wireless networks is an emerging use case of the sixth generation (6G) wireless systems, posing unprecedented challenges in terms of its multi-modal data transmissions with stringent latency and reliability requirements. Towards enabling this wireless metaverse, in this article we propose a novel semantic communication (SC) framework by decomposing the metaverse into human/machine agent-specific semantic multiverses (SMs). An SM stored at each agent comprises a semantic encoder and a generator, leveraging recent advances in generative artificial intelligence (AI). To improve communication efficiency, the encoder learns the semantic representations (SRs) of multi-modal data, while the generator learns how to manipulate them for locally rendering scenes and interactions in the metaverse. Since these learned SMs are biased towards local environments, their success hinges on synchronizing heterogeneous SMs in the background while communicating SRs in the foreground, turning the wireless metaverse problem into the problem of semantic multiverse communication (SMC). Based on this SMC architecture, we propose several promising algorithmic and analytic tools for modeling and designing SMC, ranging from distributed learning and multi-agent reinforcement learning (MARL) to signaling games and symbolic AI. | 翻訳日:2022-12-15 14:44:02 公開日:2022-12-13 |
# LidarCLIP あるいは: 私がポイントクラウドに話しかけた方法 LidarCLIP or: How I Learned to Talk to Point Clouds ( http://arxiv.org/abs/2212.06858v1 ) ライセンス: Link先を確認 | Georg Hess, Adam Tonderski, Christoffer Petersson, Lennart Svensson, Kalle {\AA}str\"om | (参考訳) テキストとイメージを接続する研究は、CLIP、DALL-E 2、Stable Diffusionといったモデルで、最近いくつかのブレークスルーがあった。
しかし、テキストとlidarデータのような他の視覚モダリティとの接続は、テキストライダーデータセットの欠如により、あまり注目されていない。
本稿では,自動車点雲から既存のCLIP埋め込み空間へのマッピングであるLidarCLIPを提案する。
画像ライダーペアを用いて,画像クリップ埋め込みを用いたポイントクラウドエンコーダを監督し,テキストとlidarデータを画像領域と中間領域に効果的に関連付ける。
lidarclipの有効性を示すために,lidarベースの検索は画像検索と同等であるが,強みと弱みは相補的であることを示す。
画像とライダーの機能を組み合わせることで,単一モードの手法を改良し,有害なセンサ条件下での課題検出シナリオを対象とする探索を可能にする。
また、自然言語による基本的なライダー機能の調査ツールとしてLidarCLIPを使用します。
最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、ポイントクラウドキャプションやライダー対イメージ生成など、さまざまなアプリケーションを調査します。
LidarCLIPが将来、テキストとポイントクラウドの理解との関係を深く掘り下げられることを期待しています。
コードとトレーニングされたモデルはhttps://github.com/atonderski/lidarclip.comで入手できる。 Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also use LidarCLIP as a tool to investigate fundamental lidar capabilities through natural language. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. We hope LidarCLIP can inspire future work to dive deeper into connections between text and point cloud understanding. Code and trained models available at https://github.com/atonderski/lidarclip. | 翻訳日:2022-12-15 14:38:17 公開日:2022-12-13 |
# 合成データに基づくネットワークを用いた未調査地域の海中作物の進化 In-Season Crop Progress in Unsurveyed Regions using Networks Trained on Synthetic Data ( http://arxiv.org/abs/2212.06896v1 ) ライセンス: Link先を確認 | George Worrall and Jasmeet Judge | (参考訳) 多くの商品作物は成長段階にあり、特にストレスによる収量減少に弱い。
In-season crop progress informationは作物のリスクの定量化に有用であり、衛星リモートセンシング(RS)は地域規模での進捗を追跡できる。
現段階では、作物特異的な段階を目標とする既存の収穫進捗予測(CPE)手法はすべて、訓練・校正のための真理データに依存している。
この地上調査データへの依存は、調査対象地域に対するCPE手法を限定し、実用性を制限している。
本研究では, サーベイド領域から得られたデータと, サーベイド領域に生成する合成作物の進捗データを組み合わせることで, RSベースのインシーズンCPEを非サーベイド領域で実施するための新しい手法を開発した。
アルゼンチンのトウモロコシ栽培地域は「監視されていない」地域として使われた。
既存の気象生成,作物生育,光放射伝達モデルにより,人工気象,作物の進行,キャノピー反射率のデータが得られた。
双方向長短期記憶に基づくニューラルネットワーク(NN)法を,調査データ,合成データ,および調査データと合成データの2つの異なる組み合わせに基づいて個別に訓練した。
調査データおよび合成データ検証損失の重み付き発散を利用した停止基準を開発した。
調査対象地域と合成データの組み合わせでトレーニングした場合,全作物のF1スコアは8.7%増加し,NNが調査対象データでトレーニングし,米国中西部で適用された場合に比べて総合成績は21%低かった。
合成データによる性能向上はデュアルプランティングウインドウのゾーンで最大であり、米国中西部からの測量された地域データの導入はndviデータにおけるノイズに対するnn感度の軽減に寄与した。
総合的な結果から, 季節内cpeは, 生産量の増加と多種多様化によって可能と考えられた。 Many commodity crops have growth stages during which they are particularly vulnerable to stress-induced yield loss. In-season crop progress information is useful for quantifying crop risk, and satellite remote sensing (RS) can be used to track progress at regional scales. At present, all existing RS-based crop progress estimation (CPE) methods which target crop-specific stages rely on ground truth data for training/calibration. This reliance on ground survey data confines CPE methods to surveyed regions, limiting their utility. In this study, a new method is developed for conducting RS-based in-season CPE in unsurveyed regions by combining data from surveyed regions with synthetic crop progress data generated for an unsurveyed region. Corn-growing zones in Argentina were used as surrogate 'unsurveyed' regions. Existing weather generation, crop growth, and optical radiative transfer models were linked to produce synthetic weather, crop progress, and canopy reflectance data. A neural network (NN) method based upon bi-directional Long Short-Term Memory was trained separately on surveyed data, synthetic data, and two different combinations of surveyed and synthetic data. A stopping criterion was developed which uses the weighted divergence of surveyed and synthetic data validation loss. Net F1 scores across all crop progress stages increased by 8.7% when trained on a combination of surveyed region and synthetic data, and overall performance was only 21% lower than when the NN was trained on surveyed data and applied in the US Midwest. Performance gain from synthetic data was greatest in zones with dual planting windows, while the inclusion of surveyed region data from the US Midwest helped mitigate NN sensitivity to noise in NDVI data. Overall results suggest in-season CPE in other unsurveyed regions may be possible with increased quantity and variety of synthetic crop progress data. | 翻訳日:2022-12-15 14:37:54 公開日:2022-12-13 |
# ディープラーニングを用いたparaphrase識別:データセットと手法のレビュー Paraphrase Identification with Deep Learning: A Review of Datasets and Methods ( http://arxiv.org/abs/2212.06933v1 ) ライセンス: Link先を確認 | Chao Zhou (Department of Computer Science, Syracuse University), Cheng Qiu (School of Arts and Science, Vanderbilt University), Daniel E. Acuna (Department of Computer Science, University of Colorado at Boulder) | (参考訳) AI技術の急速な進歩により、GPT-3やChatGPTといったテキスト生成ツールは、ますますアクセスしやすく、スケーラブルで、効果的になっている。
これは、これらの技術が科学文献やニュースソースを含む盗作に使用される場合、様々なメディアの信頼性に深刻な脅威をもたらす可能性がある。
パラフレーズ同定のための自動手法の開発にもかかわらず、これらの手法が訓練されたデータセットの異なる性質のため、この種の盗作を検知することは依然として困難である。
本研究では,従来の言い回しの同定手法を概観し,言い換えの類型化を提案する。
また、この型が一般的なデータセットでどのように表現され、ある種のパラフレーズが検出能力に与える影響についても検討する。
最後に,aiを用いたより効果的なパラフレーズ検出を追求するために,今後の研究とデータセットの方向性について概説する。 The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI. | 翻訳日:2022-12-15 14:28:25 公開日:2022-12-13 |
# データ分布と不確かさのレンズを用いたAIシステムのリスク評価に関する探索的研究 An Exploratory Study of AI System Risk Assessment from the Lens of Data Distribution and Uncertainty ( http://arxiv.org/abs/2212.06828v1 ) ライセンス: Link先を確認 | Zhijie Wang, Yuheng Huang, Lei Ma, Haruki Yokoyama, Susumu Tokumoto, Kazuki Munakata | (参考訳) ディープラーニング(DL)が推進力となり、競争力のある多くのドメインやアプリケーションで広く採用されている。
実際、現実世界のアプリケーションにおける非自明で複雑なタスクを解決するために、DLはスタンドアローンではなく、より大きな複雑なAIシステムのガジェットとして使われることが多い。
モデルレベルではディープニューラルネットワーク(DNN)の品質問題を研究する傾向が急速に高まっているが、ユニットレベルでのDNNの品質とシステムレベルでの潜在的な影響を調査する研究はほとんど行われていない。
さらに重要なのは、ユニットレベルからシステムレベルへのAIシステムのリスクアセスメントの実施方法に関する体系的な調査も欠如していることだ。
このギャップを埋めるため、本稿では、データ分布と不確実性角の両方からAIシステムのリスク評価を早期に調査し、これらの問題に対処する。
本稿では,AIシステム分析のための探索的研究を含む汎用フレームワークを提案する。
大規模な(700以上の実験的構成と5000以上のgpu時間)実験と詳細な調査の後、私たちはaiシステムに関するより詳細な調査の必要性と機会を強調した、いくつかの重要な発見に到達しました。 Deep learning (DL) has become a driving force and has been widely adopted in many domains and applications with competitive performance. In practice, to solve the nontrivial and complicated tasks in real-world applications, DL is often not used standalone, but instead contributes as a piece of gadget of a larger complex AI system. Although there comes a fast increasing trend to study the quality issues of deep neural networks (DNNs) at the model level, few studies have been performed to investigate the quality of DNNs at both the unit level and the potential impacts on the system level. More importantly, it also lacks systematic investigation on how to perform the risk assessment for AI systems from unit level to system level. To bridge this gap, this paper initiates an early exploratory study of AI system risk assessment from both the data distribution and uncertainty angles to address these issues. We propose a general framework with an exploratory study for analyzing AI systems. After large-scale (700+ experimental configurations and 5000+ GPU hours) experiments and in-depth investigations, we reached a few key interesting findings that highlight the practical need and opportunities for more in-depth investigations into AI systems. | 翻訳日:2022-12-15 14:27:34 公開日:2022-12-13 |
# imagen editorとeditbench: テキストガイド付き画像インパインティングの進歩と評価 Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting ( http://arxiv.org/abs/2212.06909v1 ) ライセンス: Link先を確認 | Su Wang, Chitwan Saharia, Ceslee Montgomery, Jordi Pont-Tuset, Shai Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu Soricut, Jason Baldridge, Mohammad Norouzi, Peter Anderson, William Chan | (参考訳) テキスト誘導画像編集は、クリエイティブアプリケーションをサポートする上で、変革的な影響を与える可能性がある。
重要な課題は、入力画像と一致しながら、入力テキストプロンプトに忠実な編集を生成することである。
テキスト誘導画像のインペイントを微調整して作成した,カスケード拡散モデルである Imagen Editor を提案する。
imagen editorの編集はテキストプロンプトに忠実であり、オブジェクト検出器を使用してトレーニング中に塗り込みマスクを提案する。
さらに、Imagen Editorは、元の高解像度画像にカスケードパイプラインを条件付けすることで、入力画像の細部をキャプチャする。
質的・定量的評価を改善するために,テキストガイド画像インパインティングのための体系的ベンチマークであるeditbenchを提案する。
editbenchは、オブジェクト、属性、シーンを探索する自然画像および生成画像のインペインティング編集を評価する。
EditBench上での大規模な人的評価を通じて、トレーニング中のオブジェクトマスキングは、DALL-E 2やStable DiffusionよりもImagen Editorの方が好まれるような、テキストイメージアライメントの全面的な改善につながることが分かりました。 Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes. | 翻訳日:2022-12-15 14:17:54 公開日:2022-12-13 |
# 大腸癌のステージ・生存時間予測のためのゲノム・病理画像の統合型深部ニューラルネットワーク Deep Neural Networks integrating genomics and histopathological images for predicting stages and survival time-to-event in colon cancer ( http://arxiv.org/abs/2212.06834v1 ) ライセンス: Link先を確認 | Olalekan Ogundipe, Zeyneb Kurt, Wai Lok Woo | (参考訳) 予測因子としてゲノム学または病理組織学的な全スライド画像のみを用いた、未定義の大腸癌ステージ内には、説明のつかない多様性が存在する。
Unraveling this variation will bring about improved in staging and treatment outcome, hence motivated by the advancement of Deep Neural Network libraries and different structures and factors within some genomic dataset, we aggregate atypical patterns in histopathological images with diverse carcinogenic expression from mRNA, miRNA and DNA Methylation as an integrative input source into an ensemble deep neural network for colon cancer stages classification and samples stratification into low or high risk survival groups.
Ensemble Deep Convolutional Neural Networkモデルの結果は、統合データセットのステージ分類におけるパフォーマンスの向上を示している。
融合入力は、それぞれステージの分類にゲノミクスと画像の特徴のみを用いる場合に得られるAUC ROCの0.71と0.68と比較して、曲線受信器動作特性曲線(AUC ROC)の0.95の戻り領域を特徴とする。
また,患者を低リスクまたは高リスク生存群に分割するために抽出された特徴を用いた。
2548の融合特徴のうち、1695の特徴は、抽出された特徴によって定義された2つのリスク群間で統計的に有意な生存確率差を示した。 There exists unexplained diverse variation within the predefined colon cancer stages using only features either from genomics or histopathological whole slide images as prognostic factors. Unraveling this variation will bring about improved in staging and treatment outcome, hence motivated by the advancement of Deep Neural Network libraries and different structures and factors within some genomic dataset, we aggregate atypical patterns in histopathological images with diverse carcinogenic expression from mRNA, miRNA and DNA Methylation as an integrative input source into an ensemble deep neural network for colon cancer stages classification and samples stratification into low or high risk survival groups. The results of our Ensemble Deep Convolutional Neural Network model show an improved performance in stages classification on the integrated dataset. The fused input features return Area under curve Receiver Operating Characteristic curve (AUC ROC) of 0.95 compared with AUC ROC of 0.71 and 0.68 obtained when only genomics and images features are used for the stage's classification, respectively. Also, the extracted features were used to split the patients into low or high risk survival groups. Among the 2548 fused features, 1695 features showed a statistically significant survival probability differences between the two risk groups defined by the extracted features. | 翻訳日:2022-12-15 14:10:08 公開日:2022-12-13 |
# フリーフォームテキストからのDeep Image Style Transfer Deep Image Style Transfer from Freeform Text ( http://arxiv.org/abs/2212.06868v1 ) ライセンス: Link先を確認 | Tejas Santanam, Mengyang Liu, Jiangyue Yu, Zhaodong Yang | (参考訳) 本稿では,自由形式のユーザ入力からスタイル画像を生成することで,新しいディープニューラルスタイル転送法を提案する。
言語モデルとスタイル転送モデルはシームレスなパイプラインを形成し、ベースラインスタイルの転送方法と比較して、同様の損失と品質の改善を伴う出力画像を生成することができる。
言語モデルは、スタイルテキストと記述入力に与えられた密接に一致する画像を返し、入力されたコンテンツ画像と共にスタイル転送モデルに渡して最終的な出力を生成する。
概念実証ツールも開発され、モデルを統合し、フリーフォームテキストからのディープイメージスタイル転送の有効性を示す。 This paper creates a novel method of deep neural style transfer by generating style images from freeform user text input. The language model and style transfer model form a seamless pipeline that can create output images with similar losses and improved quality when compared to baseline style transfer methods. The language model returns a closely matching image given a style text and description input, which is then passed to the style transfer model with an input content image to create a final output. A proof-of-concept tool is also developed to integrate the models and demonstrate the effectiveness of deep image style transfer from freeform text. | 翻訳日:2022-12-15 14:09:10 公開日:2022-12-13 |
# 第3回Egocentric Category and Instance Level Object Understanding ワークショップに参加して 3rd Continual Learning Workshop Challenge on Egocentric Category and Instance Level Object Understanding ( http://arxiv.org/abs/2212.06833v1 ) ライセンス: Link先を確認 | Lorenzo Pellegrini, Chenchen Zhu, Fanyi Xiao, Zhicheng Yan, Antonio Carta, Matthias De Lange, Vincenzo Lomonaco, Roshan Sumbaly, Pau Rodriguez, David Vazquez | (参考訳) LifelongあるいはIncremental Learningとしても知られるContinuous Learningは、先日、人工知能研究コミュニティで新たな関心を集めている。
近年の研究により、深層ニューラルネットワークにおける壊滅的な忘れる現象の影響を低減できる新しいアルゴリズムの設計が急速に進められている。
この分野への関心の高まりにより、近年は有望な方向に研究を刺激する絶好の機会として多くのコンペが開催されている。
本稿では,cvpr 2022の第3回continual learning in computer vision(clvision)ワークショップで実施した課題のアイデア,設計選択,ルール,結果について概説する。
このコンペティションの焦点は、複雑な連続物体検出タスクであり、分類タスクと比較して文学的にはまだ未熟である。
課題は、エゴセントリックなカテゴリ/インスタンスレベルのオブジェクト理解のための連続的な学習アルゴリズムをベンチマークするために明示的に設計された大規模なエゴセントリックなオブジェクトデータセットである、新しいEgoObjectsデータセットのチャレンジバージョンに基づいている。 Continual Learning, also known as Lifelong or Incremental Learning, has recently gained renewed interest among the Artificial Intelligence research community. Recent research efforts have quickly led to the design of novel algorithms able to reduce the impact of the catastrophic forgetting phenomenon in deep neural networks. Due to this surge of interest in the field, many competitions have been held in recent years, as they are an excellent opportunity to stimulate research in promising directions. This paper summarizes the ideas, design choices, rules, and results of the challenge held at the 3rd Continual Learning in Computer Vision (CLVision) Workshop at CVPR 2022. The focus of this competition is the complex continual object detection task, which is still underexplored in literature compared to classification tasks. The challenge is based on the challenge version of the novel EgoObjects dataset, a large-scale egocentric object dataset explicitly designed to benchmark continual learning algorithms for egocentric category-/instance-level object understanding, which covers more than 1k unique main objects and 250+ categories in around 100k video frames. | 翻訳日:2022-12-15 14:08:59 公開日:2022-12-13 |
# メタヒューリスティックスの価値はあるか?
ブラックボックス最適化問題における自然と決定論的手法の計算比較 Are metaheuristics worth it? A computational comparison between nature-inspired and deterministic techniques on black-box optimization problems ( http://arxiv.org/abs/2212.06875v1 ) ライセンス: Link先を確認 | Jakub Kudela | (参考訳) デリバティブフリー最適化の分野では、その主要な分野である決定論的手法と自然にインスパイアされた技術の両方が近年大きく進歩した。
本稿では,これらの各ブランチから選択した手法の広範な比較を行う。
選択された代表者は、標準および十分に活用された方法か、あるいは最近の数値比較から最も優れた方法であった。
計算比較は5つの異なるベンチマークセットで行われ, 結果は, 選択した手法の性能, 時間的複雑性, 収束特性の観点から分析された。
その結果,目的関数評価が比較的安価である状況に対処する場合,本手法は決定論的手法よりも性能が著しく向上することがわかった。
しかしながら、機能評価が費用がかかるか禁止されている状況では、決定論的手法はより一貫性があり、全体的なより良い結果をもたらす可能性がある。 In the field of derivative-free optimization, both of its main branches, the deterministic and nature-inspired techniques, experienced in recent years substantial advancement. In this paper, we provide an extensive computational comparison of selected methods from each of these branches. The chosen representatives were either standard and well-utilized methods, or the best-performing methods from recent numerical comparisons. The computational comparison was performed on five different benchmark sets and the results were analyzed in terms of performance, time complexity, and convergence properties of the selected methods. The results showed that, when dealing with situations where the objective function evaluations are relatively cheap, the nature-inspired methods have a significantly better performance than their deterministic counterparts. However, in situations when the function evaluations are costly or otherwise prohibited, the deterministic methods might provide more consistent and overall better results. | 翻訳日:2022-12-15 14:07:55 公開日:2022-12-13 |
# 多変量駆動型ディリクレホークスプロセス Multivariate Powered Dirichlet Hawkes Process ( http://arxiv.org/abs/2212.05995v2 ) ライセンス: Link先を確認 | Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher | (参考訳) 文書の公開時間は、その意味的内容に関する関連情報を運ぶ。
Dirichlet-Hawkesプロセスは、テキスト情報と出版ダイナミクスを共同でモデル化するために提案されている。
このアプローチは、最近のいくつかの作品で成功して使われており、特定の困難な問題 -- 典型的には、短いテキストや絡み合った出版ダイナミックスのために。しかし、現在の形式では、複雑な出版ダイナミクスは許可されていない。特に、推測された話題は互いに独立している -- 金融に関する出版は、例えば、政治に関する出版物には影響しないと仮定されている。
本研究では,この仮定を緩和する多変量dirichlet-hawkesプロセス(mpdhp)を開発した。
様々な話題に関する出版物が互いに影響を与えている。
相互作用するトピックから生じる技術的課題の詳細と克服。
我々は,様々な合成データセット上でmpdhpを体系的に評価し,そのアプリケーションドメインと制限を定義する。
最後に,redditデータを用いたmpdhpのユースケースを開発した。
この記事の最後には、興味のある読者がMPDHPの使用方法と使用時期、そうでないタイミングを知ることができる。 The publication time of a document carries a relevant information about its semantic content. The Dirichlet-Hawkes process has been proposed to jointly model textual information and publication dynamics. This approach has been used with success in several recent works, and extended to tackle specific challenging problems --typically for short texts or entangled publication dynamics. However, the prior in its current form does not allow for complex publication dynamics. In particular, inferred topics are independent from each other --a publication about finance is assumed to have no influence on publications about politics, for instance. In this work, we develop the Multivariate Powered Dirichlet-Hawkes Process (MPDHP), that alleviates this assumption. Publications about various topics can now influence each other. We detail and overcome the technical challenges that arise from considering interacting topics. We conduct a systematic evaluation of MPDHP on a range of synthetic datasets to define its application domain and limitations. Finally, we develop a use case of the MPDHP on Reddit data. At the end of this article, the interested reader will know how and when to use MPDHP, and when not to. | 翻訳日:2022-12-14 15:52:05 公開日:2022-12-13 |
# aflguard:ビザンチンロバスト非同期連合学習 AFLGuard: Byzantine-robust Asynchronous Federated Learning ( http://arxiv.org/abs/2212.06325v1 ) ライセンス: Link先を確認 | Minghong Fang, Jia Liu, Neil Zhenqiang Gong, Elizabeth S. Bentley | (参考訳) Federated Learning(FL)は、クライアントがクラウドサーバの助けを借りてモデルを共同で学習する、新たな機械学習パラダイムである。
FLの根本的な課題は、クライアントはしばしば異種であり、例えば、異なる計算能力を持っているため、クライアントは大幅に異なる遅延でモデル更新をサーバに送ることができる。
非同期flは、クライアントのモデル更新が他のクライアントのモデル更新を待つことなく到達すれば、サーバがモデルを更新することを可能にすることで、この課題に対処することを目指している。
しかし、同期flと同様に、非同期flは毒殺攻撃にも脆弱であり、悪意のあるクライアントがローカルデータやサーバに送られるモデル更新を毒殺することでモデルを操作する。
ビザンティン・ロバストFLは、毒殺攻撃を防ごうとしている。
特に、Byzantine-robust FLは、悪意のあるクライアントがビザンチンの振る舞いを持っている場合でも、正確なモデルを学ぶことができる。
しかしながら、Byzantine-robust FLに関する既存の研究は同期FLに焦点を当てており、非同期FLはほとんど探索されていない。
本研究では,ビザンチンロバスト非同期fl法であるaflguardを提案することで,このギャップを埋める。
理論的にも実証的にも,AFLGuardは様々な既存かつ適応的な毒殺攻撃(標的外および標的外の両方)に対して堅牢であることを示す。
さらに、AFLGuardは既存のByzantine-robust非同期FLメソッドよりも優れている。 Federated learning (FL) is an emerging machine learning paradigm, in which clients jointly learn a model with the help of a cloud server. A fundamental challenge of FL is that the clients are often heterogeneous, e.g., they have different computing powers, and thus the clients may send model updates to the server with substantially different delays. Asynchronous FL aims to address this challenge by enabling the server to update the model once any client's model update reaches it without waiting for other clients' model updates. However, like synchronous FL, asynchronous FL is also vulnerable to poisoning attacks, in which malicious clients manipulate the model via poisoning their local data and/or model updates sent to the server. Byzantine-robust FL aims to defend against poisoning attacks. In particular, Byzantine-robust FL can learn an accurate model even if some clients are malicious and have Byzantine behaviors. However, most existing studies on Byzantine-robust FL focused on synchronous FL, leaving asynchronous FL largely unexplored. In this work, we bridge this gap by proposing AFLGuard, a Byzantine-robust asynchronous FL method. We show that, both theoretically and empirically, AFLGuard is robust against various existing and adaptive poisoning attacks (both untargeted and targeted). Moreover, AFLGuard outperforms existing Byzantine-robust asynchronous FL methods. | 翻訳日:2022-12-14 15:50:54 公開日:2022-12-13 |
# 独立はどのように一般化に役立つか?
ERMの製品分布における試料複合体 How Does Independence Help Generalization? Sample Complexity of ERM on Product Distributions ( http://arxiv.org/abs/2212.06422v1 ) ライセンス: Link先を確認 | Tao Lin | (参考訳) 多くの古典的な学習可能性の概念(例えば、PAC学習可能性)は分布自由であるが、入力分布の特定の構造を利用すると学習性能が向上する。
例えば、多次元入力空間上の積分布は相関分布よりもはるかに単純な構造を持つ。
最近の論文[GHTZ21]では,製品分布における一般学習問題のサンプル複雑性は入力次元の多項式であり,相関分布よりも指数関数的に小さいことが示されている。
しかし、彼らが使用する学習アルゴリズムは、標準的な経験的リスク最小化(ERM)アルゴリズムではない。
本稿では,製品分布の一般学習問題において,ERMのサンプル複雑性を特徴付ける。
製品分布は相関分布よりも単純であるにもかかわらず、ermは多項式ではなく、製品分布について学ぶために指数関数的なサンプル数を必要とすることを示した。
これにより、製品分布自体が学習問題を容易化しないという結論が導かれる。 While many classical notions of learnability (e.g., PAC learnability) are distribution-free, utilizing the specific structures of an input distribution may improve learning performance. For example, a product distribution on a multi-dimensional input space has a much simpler structure than a correlated distribution. A recent paper [GHTZ21] shows that the sample complexity of a general learning problem on product distributions is polynomial in the input dimension, which is exponentially smaller than that on correlated distributions. However, the learning algorithm they use is not the standard Empirical Risk Minimization (ERM) algorithm. In this note, we characterize the sample complexity of ERM in a general learning problem on product distributions. We show that, even though product distributions are simpler than correlated distributions, ERM still needs an exponential number of samples to learn on product distributions, instead of a polynomial. This leads to the conclusion that a product distribution by itself does not make a learning problem easier -- an algorithm designed specifically for product distributions is needed. | 翻訳日:2022-12-14 15:50:30 公開日:2022-12-13 |
# スケーラブルなセルフリー大規模mimoによるオーバーザ・エアフェデレート学習 Over-The-Air Federated Learning Over Scalable Cell-free Massive MIMO ( http://arxiv.org/abs/2212.06482v1 ) ライセンス: Link先を確認 | Houssem Sifaou and Geoffrey Ye Li | (参考訳) セルフリーの大規模MIMOは、従来の携帯電話システムと比較して均一なカバレッジとスペクトル効率が期待できる将来の無線通信システムにとって有望な技術として浮上している。
本研究では,セルフリー大規模MIMOがフェデレートエッジ学習を支援する方法について検討する。
無線マルチアクセスチャネルの付加的な性質を活用することで、クライアントは同じ通信リソース上でローカル更新を同時に送信するオーバー・ザ・エア計算が利用される。
このアプローチは、over-the-air federated learning(ota-fl)と呼ばれ、無線ネットワークを介した連合学習の通信オーバーヘッドを軽減することが証明されている。
チャネル相関と中央サーバで利用可能なチャンネル状態情報のみを考慮し,セルフリーなMIMO上でのOTA-FLの実装を提案する。
提案手法の収束性を解析的,実験的に検討し,OTA-FLに対する無細胞大量MIMOの利点を確認した。 Cell-free massive MIMO is emerging as a promising technology for future wireless communication systems, which is expected to offer uniform coverage and high spectral efficiency compared to classical cellular systems. We study in this paper how cell-free massive MIMO can support federated edge learning. Taking advantage of the additive nature of the wireless multiple access channel, over-the-air computation is exploited, where the clients send their local updates simultaneously over the same communication resource. This approach, known as over-the-air federated learning (OTA-FL), is proven to alleviate the communication overhead of federated learning over wireless networks. Considering channel correlation and only imperfect channel state information available at the central server, we propose a practical implementation of OTA-FL over cell-free massive MIMO. The convergence of the proposed implementation is studied analytically and experimentally, confirming the benefits of cell-free massive MIMO for OTA-FL. | 翻訳日:2022-12-14 15:50:15 公開日:2022-12-13 |
# FNDaaS:フェイクニュースサイトのコンテンツ非依存検出 FNDaaS: Content-agnostic Detection of Fake News sites ( http://arxiv.org/abs/2212.06492v1 ) ライセンス: Link先を確認 | Panagiotis Papadopoulos, Dimitris Spithouris, Evangelos P. Markatos, Nicolas Kourtellis | (参考訳) 偽ニュースの自動検出は誤情報を拡散する上で難しい問題であり、現実世界の政治的・社会的影響は極めて大きい。
過去の研究は、そのような偽ニュースを検出するための機械学習に基づく手法を提案しており、実際のコンテンツの言語的特徴のようなニュース記事の異なる特性に焦点を当てているが、明らかに言語の障壁のために制限がある。
このような取り組みから脱却したfndaasは,ニュースサイト毎のネットワークや構造的特徴などの新規かつ未熟な特徴を考慮した,コンテンツ非依存の偽ニュース検出手法である。
この方法はISP側で、スケーラビリティとメンテナンスを容易にするか、エンドユーザのプライバシーを改善するためにユーザー側で実施することができる。
637件の偽ニュースサイトと1183件のニュースサイトのリストからクロールしたデータを用いて,提案手法の有効性を実証し,提案手法を具体化する概念実証システムを構築し,検証した。
これらのWebサイトから収集したデータから、フェイクニュースドメインの大部分は非常に若く、ドメインに関連付けられたIPの期間が実際のニュースドメインよりも短いことが分かる。
機械学習分類器を用いて様々な実験を行い,fndaasが過去のサイトで最大0.967点までのaucスコアを達成し,新たに追加された地点では77-92%の精度が得られることを示した。 Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones. | 翻訳日:2022-12-14 15:49:58 公開日:2022-12-13 |
# マルチモーダルコントラスト学習による(ヘイトフル)ミームの進化について On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning ( http://arxiv.org/abs/2212.06573v1 ) ライセンス: Link先を確認 | Yiting Qu, Xinlei He, Shannon Pierson, Michael Backes, Yang Zhang, Savvas Zannettou | (参考訳) ヘイトフルミームのオンライン普及は、ソーシャルメディアプラットフォームや現実世界に悪影響を及ぼす。
憎しみのあるミームを検出することは、ミームの進化的な性質の1つであり、新しい憎しみのあるミームは、他の文化的考えやシンボルと憎しみのある意味を融合させることによって生まれる。
本稿では,マルチモーダルコントラスト学習モデル,特にOpenAIのCLIPを利用して,ヘイトフルコンテンツのターゲットを特定し,ヘイトフルミームの進化を体系的に研究するフレームワークを提案する。
意味的規則性はCLIPの生成した埋め込みの中に存在し、同じモダリティ(画像)内や、複数のモダリティ(画像とテキスト)内における意味的関係を記述する。
この特性を活かして,複数の画像からの視覚的要素を結合したり,テキスト情報と嫌悪画像の融合によって,嫌悪感のミームがいかに生成されるかを検討した。
本稿では, 反ユダヤ的ミーム, 特にHappy Merchant memeに着目し, ヘイトフルミームの進化を解析するためのフレームワークの能力を実証する。
4chanから抽出したデータセット上のフレームワークを使用することで、happy merchant memeの3.3kの変種を見つけ出すことができます。
私たちのフレームワークは、ヘイトフルミームの新しい変種にフラグを付けて、モデレーターが手動でそれらを検証し、オンラインヘイトフルコンテンツの問題を緩和することによって、人間のモデレーターを助けるために利用することができると考えています。 The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online. | 翻訳日:2022-12-14 15:49:32 公開日:2022-12-13 |
# fairroad: アンチドートデータを最適化したレコメンダシステムのための公平性の実現 FairRoad: Achieving Fairness for Recommender Systems with Optimized Antidote Data ( http://arxiv.org/abs/2212.06750v1 ) ライセンス: Link先を確認 | Minghong Fang, Jia Liu, Michinari Momma, Yi Sun | (参考訳) 今日では、レコメンダシステムは、デジタル環境や社会的相互作用の体験を形作る上で、ますます重要な役割を担っている。
しかし,我々の社会では,レコメンダシステムが普及するにつれて,近年,レコメンダシステムに対する公平性に対する懸念が高まっている。
具体的には、リコメンデーターシステムは歴史的データからバイアスを継承または増幅し、結果として不公平なレコメンデーションを提供することを示した。
推奨システムの公正性リスクに対処するため、これまでのアプローチのほとんどは、既存のトレーニングデータサンプルまたはデプロイされた推奨アルゴリズムの変更に重点を置いているが、残念ながら成功の度合いは限られている。
本稿では,小型かつ精巧に構築された解毒剤データセットの構築を通じて,レコメンダシステムの公正性を向上させることを目的とした,最適化解毒剤データ(fairroad)を用いたfairroadと呼ばれる新しいアプローチを提案する。
この目的のために,本論文では,提案アルゴリズムを乱すことなく,対象とするレコメンデータシステムの不公平さを最小限に抑える数学的最適化問題として,解答データ生成タスクを定式化する。
広範な実験により,提案手法は少量の解毒剤データを用いてレコメンダシステムの公平性を大幅に改善することを示した。 Today, recommender systems have played an increasingly important role in shaping our experiences of digital environments and social interactions. However, as recommender systems become ubiquitous in our society, recent years have also witnessed significant fairness concerns for recommender systems. Specifically, studies have shown that recommender systems may inherit or even amplify biases from historical data, and as a result, provide unfair recommendations. To address fairness risks in recommender systems, most of the previous approaches to date are focused on modifying either the existing training data samples or the deployed recommender algorithms, but unfortunately with limited degrees of success. In this paper, we propose a new approach called fair recommendation with optimized antidote data (FairRoad), which aims to improve the fairness performances of recommender systems through the construction of a small and carefully crafted antidote dataset. Toward this end, we formulate our antidote data generation task as a mathematical optimization problem, which minimizes the unfairness of the targeted recommender systems while not disrupting the deployed recommendation algorithms. Extensive experiments show that our proposed antidote data generation algorithm significantly improve the fairness of recommender systems with a small amounts of antidote data. | 翻訳日:2022-12-14 15:49:03 公開日:2022-12-13 |
# deepgoplus推論の数値安定性 Numerical Stability of DeepGOPlus Inference ( http://arxiv.org/abs/2212.06361v1 ) ライセンス: Link先を確認 | In\'es Gonzalez Pepe, Yohan Chatelain, Gregory Kiar, Tristan Glatard | (参考訳) 畳み込みニューラルネットワーク(CNN)は現在、最も広く使用されているニューラルネットワークのひとつであり、多くの問題に対して最先端のパフォーマンスを実現している。
元々はコンピュータビジョンのタスクに当てはまるが、CNNは画像以外の空間的関係のあるデータでもうまく機能し、様々な分野に適用されてきた。
しかし、最近の研究は、他のディープラーニングモデルと同様に、cnnがノイズ注入に敏感であり、パフォーマンスを損なうことを強調している。
本稿では、その数値安定性を決定するために、タンパク質機能を予測するCNNであるDeepGOPlusの推論段階の浮動小数点演算の不正確さを定量化する。
さらに,DeepGOPlus推論に精度の低い浮動小数点形式を用いることで,メモリ消費と遅延を低減できる可能性を検討した。
これは、浮動小数点演算誤差を実験的に定量化するMonte Carlo Arithmeticと、カスタマイズ可能な浮動小数点演算精度フォーマットで結果をエミュレートするVPRECによって実現されている。
deepgoplusのモデルが環境にまたがって使用されるため、最も多くのノイズにさらされる可能性があるため、推論の段階で焦点が当てられる。
さらに, 推定段階がモデルの一部であり, 精度の低下によるスケールダウンに最も適していることが研究で示されている。
全体として、DeepGOPlus CNNの数値的不確実性は、現在の数値精度フォーマットでは極めて低いが、現在のモデルではより軽量になるような低い精度に還元することはできない。 Convolutional neural networks (CNNs) are currently among the most widely-used neural networks available and achieve state-of-the-art performance for many problems. While originally applied to computer vision tasks, CNNs work well with any data with a spatial relationship, besides images, and have been applied to different fields. However, recent works have highlighted how CNNs, like other deep learning models, are sensitive to noise injection which can jeopardise their performance. This paper quantifies the numerical uncertainty of the floating point arithmetic inaccuracies of the inference stage of DeepGOPlus, a CNN that predicts protein function, in order to determine its numerical stability. In addition, this paper investigates the possibility to use reduced-precision floating point formats for DeepGOPlus inference to reduce memory consumption and latency. This is achieved with Monte Carlo Arithmetic, a technique that experimentally quantifies floating point operation errors and VPREC, a tool that emulates results with customizable floating point precision formats. Focus is placed on the inference stage as it is the main deliverable of the DeepGOPlus model that will be used across environments and therefore most likely be subjected to the most amount of noise. Furthermore, studies have shown that the inference stage is the part of the model which is most disposed to being scaled down in terms of reduced precision. All in all, it has been found that the numerical uncertainty of the DeepGOPlus CNN is very low at its current numerical precision format, but the model cannot currently be reduced to a lower precision that might render it more lightweight. | 翻訳日:2022-12-14 15:43:16 公開日:2022-12-13 |
# ALRt: 不規則にサンプリングされた時間データのためのアクティブラーニングフレームワーク ALRt: An Active Learning Framework for Irregularly Sampled Temporal Data ( http://arxiv.org/abs/2212.06364v1 ) ライセンス: Link先を確認 | Ronald Moore, Rishikesan Kamaleswaran | (参考訳) セプシスは病院内の多くの患者に致命的な症状である。
近年の研究では、敗血症と診断された患者は、感染に対する身体の障害性宿主反応により、死亡率と死亡率が高いことが示されている。
臨床医はしばしば、作業と治療を必要とする早期臨床劣化の兆候を特定するために、SOFA(Sequential Organ Failure Assessment)、SIRS(Systemic Inflammatory Response Syndrome)、MEWS(Modified Early Warning Score)を使用する。
しかし、これらのツールの多くは手動で計算され、自動計算用に設計されていない。
敗血症発症モデルの開発には様々な方法が用いられてきたが、これらのモデルの多くは正確な敗血症予測を形成するために十分な数の患者観察に基づいて訓練されなければならない。
さらに、敗血症患者の正確なアノテーションは、現在進行中の大きな課題である。
本稿では,短い時間軸に対するアクティブ・ラーニング・リカレント・ニューラル・ネットワーク(alrts)を用いて,敗血症などの不規則にサンプリングされた時間的事象の予測を改善することを提案する。
限られたデータに基づいてトレーニングされたアクティブラーニングrnnモデルは、トレーニングデータセット全体を用いたモデルに匹敵するロバストなセプシ予測を形成することができる。 Sepsis is a deadly condition affecting many patients in the hospital. Recent studies have shown that patients diagnosed with sepsis have significant mortality and morbidity, resulting from the body's dysfunctional host response to infection. Clinicians often rely on the use of Sequential Organ Failure Assessment (SOFA), Systemic Inflammatory Response Syndrome (SIRS), and the Modified Early Warning Score (MEWS) to identify early signs of clinical deterioration requiring further work-up and treatment. However, many of these tools are manually computed and were not designed for automated computation. There have been different methods used for developing sepsis onset models, but many of these models must be trained on a sufficient number of patient observations in order to form accurate sepsis predictions. Additionally, the accurate annotation of patients with sepsis is a major ongoing challenge. In this paper, we propose the use of Active Learning Recurrent Neural Networks (ALRts) for short temporal horizons to improve the prediction of irregularly sampled temporal events such as sepsis. We show that an active learning RNN model trained on limited data can form robust sepsis predictions comparable to models using the entire training dataset. | 翻訳日:2022-12-14 15:42:46 公開日:2022-12-13 |
# 準凸プログラミングのための自己適応アルゴリズムと機械学習への応用 Self-adaptive algorithms for quasiconvex programming and applications to machine learning ( http://arxiv.org/abs/2212.06379v1 ) ライセンス: Link先を確認 | Thang Tran Ngoc, Hai Trinh Ngoc | (参考訳) 非凸プログラミングの幅広いクラスを非有界制約集合上で解くために、線形探索技法を含まない自己適応的なステップサイズ戦略を提供し、穏やかな仮定の下で一般的なアプローチの収束を確立する。
具体的には、目的関数は凸条件を満たすことができない。
降下線探索アルゴリズムとは異なり、最初のステップがどれくらい大きいかを知るために既知のリプシッツ定数は必要ない。
このプロセスの重要な特徴は、一定の条件が満たされるまでステップサイズを安定的に減少させることである。
特に、非有界制約集合を持つ最適化問題に対する新しい勾配投影法を提供することができる。
提案手法の正確性は,いくつかの計算例から得られた予備結果によって検証される。
大規模問題に対する提案手法の有効性を実証するために,教師付き特徴選択,多変量ロジスティック回帰,分類のためのニューラルネットワークなどの機械学習実験に適用する。 For solving a broad class of nonconvex programming problems on an unbounded constraint set, we provide a self-adaptive step-size strategy that does not include line-search techniques and establishes the convergence of a generic approach under mild assumptions. Specifically, the objective function may not satisfy the convexity condition. Unlike descent line-search algorithms, it does not need a known Lipschitz constant to figure out how big the first step should be. The crucial feature of this process is the steady reduction of the step size until a certain condition is fulfilled. In particular, it can provide a new gradient projection approach to optimization problems with an unbounded constrained set. The correctness of the proposed method is verified by preliminary results from some computational examples. To demonstrate the effectiveness of the proposed technique for large-scale problems, we apply it to some experiments on machine learning, such as supervised feature selection, multi-variable logistic regressions and neural networks for classification. | 翻訳日:2022-12-14 15:42:25 公開日:2022-12-13 |
# 意味コミュニケーション可能なメタバースのためのエッジコンピューティング:インセンティブ機構設計 Edge Computing for Semantic Communication Enabled Metaverse: An Incentive Mechanism Design ( http://arxiv.org/abs/2212.06463v1 ) ライセンス: Link先を確認 | Nguyen Cong Luong, Quoc-Viet Pham, Thien Huynh-The, Van-Dinh Nguyen, Derrick Wing Kwan Ng, and Symeon Chatzinotas | (参考訳) セマンティック通信(SemCom)とエッジコンピューティングは、Metaverseにおける巨大なデータ通信、帯域幅効率、低レイテンシデータ処理の新たな要件に対処する2つの破壊的なソリューションである。
しかし、エッジコンピューティングリソースは、しばしばコンピューティングサービスプロバイダによって提供されるため、限られたリソースを提供するための魅力的なインセンティブメカニズムを設計することが不可欠である。
近年,Deep Learning(DL)ベースのオークションは,個人合理性とインセンティブの適合性という重要な経済特性を保持しながら収益を最大化するインセンティブメカニズムとして提案されている。
そこで本研究では,SemCom enabled Metaverseにおける資源割り当てのためのDLベースのオークションについて紹介する。
まず,メタバースの基礎と課題を簡単に紹介する。
第2に、SemComとエッジコンピューティングの予科を提示する。
第3に,エッジコンピューティング資源取引における様々なインセンティブ機構について考察する。
第4に、SemCom対応のMetaverseにおけるエッジリソース割り当てのためのDLベースのオークションの設計を提案する。
シミュレーションの結果,DLベースのオークションは,個々の合理性とインセンティブの整合性の制約をほぼ満たしながら収益を向上することが示された。 Semantic communication (SemCom) and edge computing are two disruptive solutions to address emerging requirements of huge data communication, bandwidth efficiency and low latency data processing in Metaverse. However, edge computing resources are often provided by computing service providers and thus it is essential to design appealingly incentive mechanisms for the provision of limited resources. Deep learning (DL)- based auction has recently proposed as an incentive mechanism that maximizes the revenue while holding important economic properties, i.e., individual rationality and incentive compatibility. Therefore, in this work, we introduce the design of the DLbased auction for the computing resource allocation in SemComenabled Metaverse. First, we briefly introduce the fundamentals and challenges of Metaverse. Second, we present the preliminaries of SemCom and edge computing. Third, we review various incentive mechanisms for edge computing resource trading. Fourth, we present the design of the DL-based auction for edge resource allocation in SemCom-enabled Metaverse. Simulation results demonstrate that the DL-based auction improves the revenue while nearly satisfying the individual rationality and incentive compatibility constraints. | 翻訳日:2022-12-14 15:42:11 公開日:2022-12-13 |
# シンプルさのバイアスがパフォーマンスの格差を増幅する Simplicity Bias Leads to Amplified Performance Disparities ( http://arxiv.org/abs/2212.06641v1 ) ライセンス: Link先を確認 | Samuel J. Bell and Levent Sagun | (参考訳) すべてのことが同じくらい難しいわけではないという単純な考え方は、公正な文脈で適用すると驚くべき意味を持つ。
この研究では、異なるモデルがデータセットの異なる部分を見つけるように、"微分"がモデル固有である方法について検討する。
難易度がグループ情報と相関すると、この難易度差を言う。
SGD訓練モデルの単純さに対する帰納的偏見を探求する最近の研究と結びついて、そのような格差が存在する場合、一般的なモデルによってさらに増幅されることを示す。
この増幅係数を、モデルバイアスの役割のより深い理解を目指して、さまざまな設定で定量化する。
また,データセットの"修正"が偏りのないパフォーマンスを保証するには十分である,という仮定を単純化する上での課題も提示する。 The simple idea that not all things are equally difficult has surprising implications when applied in a fairness context. In this work we explore how "difficulty" is model-specific, such that different models find different parts of a dataset challenging. When difficulty correlates with group information, we term this difficulty disparity. Drawing a connection with recent work exploring the inductive bias towards simplicity of SGD-trained models, we show that when such a disparity exists, it is further amplified by commonly-used models. We quantify this amplification factor across a range of settings aiming towards a fuller understanding of the role of model bias. We also present a challenge to the simplifying assumption that "fixing" a dataset is sufficient to ensure unbiased performance. | 翻訳日:2022-12-14 15:41:09 公開日:2022-12-13 |
# AWT -- 集約ウェーブレットツリーを用いた気象時系列のクラスタリング AWT -- Clustering Meteorological Time Series Using an Aggregated Wavelet Tree ( http://arxiv.org/abs/2212.06642v1 ) ライセンス: Link先を確認 | Christina Pacher, Irene Schicker, Rosmarie deWit, Katerina Hlavackova-Schindler, Claudia Plant | (参考訳) クラスタリングと異常検出は気象観測において重要な役割を果たす。
本稿では,クラスタリング中に暗黙的な外乱検出を行う時系列データに対するクラスタリングアルゴリズムであるAWTアルゴリズムを提案する。
AWTは、よく知られたK-Meansクラスタリングアルゴリズムのアイデアを統合している。
ユーザ定義のしきい値パラメータに基づいてクラスタ数を自動的に選択し、利用可能なメモリサイズを超えるデータセットだけでなく、異種気象入力データにも使用できる。
ウィーン市から1時間毎のクラウドソーシングによる2-m温度データに適用し,異常値の検出と,最終クラスタが都市土地利用特性と一般類似性および類似性を示すかどうかの検証を行った。
都市気候と都市気候の急速な発展にともなう新たな応用分野を開拓するAWTでは, 降水量検出と土地利用特性の暗黙マッピングの両方が可能であることが示されている。 Both clustering and outlier detection play an important role for meteorological measurements. We present the AWT algorithm, a clustering algorithm for time series data that also performs implicit outlier detection during the clustering. AWT integrates ideas of several well-known K-Means clustering algorithms. It chooses the number of clusters automatically based on a user-defined threshold parameter, and it can be used for heterogeneous meteorological input data as well as for data sets that exceed the available memory size. We apply AWT to crowd sourced 2-m temperature data with an hourly resolution from the city of Vienna to detect outliers and to investigate if the final clusters show general similarities and similarities with urban land-use characteristics. It is shown that both the outlier detection and the implicit mapping to land-use characteristic is possible with AWT which opens new possible fields of application, specifically in the rapidly evolving field of urban climate and urban weather. | 翻訳日:2022-12-14 15:40:57 公開日:2022-12-13 |
# Fair Infinitesimal Jackknife: 適合のないバイアス付きトレーニングデータの影響の軽減 Fair Infinitesimal Jackknife: Mitigating the Influence of Biased Training Data Points Without Refitting ( http://arxiv.org/abs/2212.06803v1 ) ライセンス: Link先を確認 | Prasanna Sattigeri, Soumya Ghosh, Inkit Padhi, Pierre Dognin, Kush R. Varshney | (参考訳) 一連の意思決定アプリケーションでは、人種や性別などの繊細な属性によって分類されたグループのメンバーに系統的不利をもたらす機械学習モデルにおける望ましくないバイアスの軽減が、公平を追求するための重要な介入である。
本稿では, 事前学習した分類器の公平性を, 慎重に選択した学習データポイントをドロップするだけで改善するアルゴリズムを提案する。
我々は、無限小のjackknifeに基づくアプローチを用いて計算した、関心の公平性指標に対する影響に基づいてインスタンスを選択する。
トレーニングポイントのドロップは原則として行われるが、実際にはモデルがリフィットされる必要はない。
重要な点として,このような介入はモデルの予測性能を著しく低下させるものではなく,公平度指標を劇的に改善することを見出す。
注意深い実験を通じて,提案手法の有効性を評価し,既存の代替案を一貫して改善できることを見出した。 In consequential decision-making applications, mitigating unwanted biases in machine learning models that yield systematic disadvantage to members of groups delineated by sensitive attributes such as race and gender is one key intervention to strive for equity. Focusing on demographic parity and equality of opportunity, in this paper we propose an algorithm that improves the fairness of a pre-trained classifier by simply dropping carefully selected training data points. We select instances based on their influence on the fairness metric of interest, computed using an infinitesimal jackknife-based approach. The dropping of training points is done in principle, but in practice does not require the model to be refit. Crucially, we find that such an intervention does not substantially reduce the predictive performance of the model but drastically improves the fairness metric. Through careful experiments, we evaluate the effectiveness of the proposed approach on diverse tasks and find that it consistently improves upon existing alternatives. | 翻訳日:2022-12-14 15:40:43 公開日:2022-12-13 |
# u字型医用画像ネットワークのためのロバスト分割フェデレーション学習 Robust Split Federated Learning for U-shaped Medical Image Networks ( http://arxiv.org/abs/2212.06378v1 ) ライセンス: Link先を確認 | Ziyuan Yang, Yingyu Chen, Huijie Huangfu, Maosong Ran, Hui Wang, Xiaoxiao Li and Yi Zhang | (参考訳) u字型ネットワークは、セグメンテーション、復元、再構築など、様々な医療画像タスクで広く使われているが、その多くは集中学習に依存しているため、プライバシの問題を無視している。
プライバシー問題に対処するため、連邦学習(FL)と分割学習(SL)が注目されている。
しかしながら、flとslの両方が、ローカルな計算コスト、モデルプライバシ、並列トレーニングを同時にバランスさせることは困難である。
この目的を達成するために,本稿では,flとslの新しいハイブリッド学習パラダイムであるu字型医用画像ネットワークのためのロバストスプリットフェデレート学習(ros-fl)を提案する。
以前の作業では、入力、モデルパラメータ、ラベル、出力など、データのプライバシを同時に保持することはできない。
これらすべてを効果的に扱うために,我々は,ネットワークを異なるパーティがホストする3つの部分に分割する,U字型医療画像ネットワークの新しい分割手法を設計した。
さらに、分散学習手法は通常、データの不均一性に起因するローカルモデルとグローバルモデルの間のドリフトに苦しむ。
そこで本研究では,トレーニングプロセスの安定化とモデルドリフトの回避を目的とした動的重み補正戦略(\textbf{DWCS})を提案する。
特に、重み補正損失は、2つの隣接する通信ラウンドからモデル間のドリフトを定量化するように設計されている。
この損失を最小限にして補正モデルを得る。
次に、補正モデルと最終ラウンドモデルの重み付き和を結果として扱う。
提案したRoS-FLの有効性は、様々なタスクに関する広範な実験結果によって裏付けられている。
関連コードはhttps://github.com/Zi-YuanYang/RoS-FL.comで公開される。 U-shaped networks are widely used in various medical image tasks, such as segmentation, restoration and reconstruction, but most of them usually rely on centralized learning and thus ignore privacy issues. To address the privacy concerns, federated learning (FL) and split learning (SL) have attracted increasing attention. However, it is hard for both FL and SL to balance the local computational cost, model privacy and parallel training simultaneously. To achieve this goal, in this paper, we propose Robust Split Federated Learning (RoS-FL) for U-shaped medical image networks, which is a novel hybrid learning paradigm of FL and SL. Previous works cannot preserve the data privacy, including the input, model parameters, label and output simultaneously. To effectively deal with all of them, we design a novel splitting method for U-shaped medical image networks, which splits the network into three parts hosted by different parties. Besides, the distributed learning methods usually suffer from a drift between local and global models caused by data heterogeneity. Based on this consideration, we propose a dynamic weight correction strategy (\textbf{DWCS}) to stabilize the training process and avoid model drift. Specifically, a weight correction loss is designed to quantify the drift between the models from two adjacent communication rounds. By minimizing this loss, a correction model is obtained. Then we treat the weighted sum of correction model and final round models as the result. The effectiveness of the proposed RoS-FL is supported by extensive experimental results on different tasks. Related codes will be released at https://github.com/Zi-YuanYang/RoS-FL. | 翻訳日:2022-12-14 15:40:05 公開日:2022-12-13 |
# 3次元医用画像におけるサンプルレベル分布検出の解法 Solving Sample-Level Out-of-Distribution Detection on 3D Medical Images ( http://arxiv.org/abs/2212.06506v1 ) ライセンス: Link先を確認 | Daria Frolova, Anton Vasiliuk, Mikhail Belyaev, Boris Shirokikh | (参考訳) ディープラーニング(DL)モデルは、データがトレーニングと異なる分布から来ると、パフォーマンスが悪くなります。
医療画像などの重要な応用において、アウト・オブ・ディストリビューション(OOD)検出はそのようなデータサンプルを識別し、モデルの信頼性を高める。
近年,2次元医用画像に有望な結果をもたらすDLベースのOOD検出技術が開発されている。
しかし、これらのアプローチのほとんどを3D画像に拡張することは、計算的に難解である。
さらに、現在の3dソリューションは、合成oodサンプルでさえも検出できる結果を達成するのに苦労している。
このような限られた性能は、DLがしばしば大容量画像を非効率に埋め込むことを示している。
元のCTやMRIスキャンの強度ヒストグラムを埋め込みとして用いることは、OOD検出を行うのに十分な記述である。
そこで本研究では,DLを必要としないヒストグラムに基づく手法を提案する。
我々の提案は2つある。
提案手法は,ほとんどの設定で1.0AUROCをスコア付けし,公開データセットの性能を評価する。
そして、タスク固有の知識を微調整したり活用することなく、医療的アウト・オブ・ディストリビューションの課題で2番目に得点します。
そこで本研究では,本手法が3次元医用画像のサンプルレベルのood検出を現在設定で解決していると結論づける。 Deep Learning (DL) models tend to perform poorly when the data comes from a distribution different from the training one. In critical applications such as medical imaging, out-of-distribution (OOD) detection helps to identify such data samples, increasing the model's reliability. Recent works have developed DL-based OOD detection that achieves promising results on 2D medical images. However, scaling most of these approaches on 3D images is computationally intractable. Furthermore, the current 3D solutions struggle to achieve acceptable results in detecting even synthetic OOD samples. Such limited performance might indicate that DL often inefficiently embeds large volumetric images. We argue that using the intensity histogram of the original CT or MRI scan as embedding is descriptive enough to run OOD detection. Therefore, we propose a histogram-based method that requires no DL and achieves almost perfect results in this domain. Our proposal is supported two-fold. We evaluate the performance on the publicly available datasets, where our method scores 1.0 AUROC in most setups. And we score second in the Medical Out-of-Distribution challenge without fine-tuning and exploiting task-specific knowledge. Carefully discussing the limitations, we conclude that our method solves the sample-level OOD detection on 3D medical images in the current setting. | 翻訳日:2022-12-14 15:34:07 公開日:2022-12-13 |
# AdvMIL:全スライド画像の生存分析のための逆多重学習 AdvMIL: Adversarial Multiple Instance Learning for the Survival Analysis on Whole-Slide Images ( http://arxiv.org/abs/2212.06515v1 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Feng Ye, and Bo Fu | (参考訳) 組織学的全スライディング画像(WSI)の生存分析は,患者の予後を推定する上で最も重要な手段の1つである。
ギガピクセルWSI向けに多くの弱い教師付きディープラーニングモデルが開発されているが、そのポテンシャルは古典的生存分析規則と完全超越要件によって制限されている。
その結果、これらのモデルは、完全に確実な時間対イベントの推定しか提供せず、現在十分に注釈付けされているWSIデータからしか学べない。
このような問題に対処するために,新しい逆多重学習(AdvMIL)フレームワークを提案する。
このフレームワークは、逆の時間からイベントへのモデリングに基づいており、wsi表現学習に非常に必要となる複数のインスタンス学習(mil)を統合する。
組込み型MILネットワークを持つ既存のWSIベースのモデルのほとんどは、このフレームワークを適用することで容易にアップグレードでき、生存率分布推定と半教師付き学習の能力を向上させることができる。
我々の広範な実験により、AdvMILは比較的低い計算コストで主流のWSIモデルに性能改善をもたらすだけでなく、セミ教師付き学習でラベル付きデータから学習することを可能にする。
我々のAdvMILフレームワークは、計算病理学における時間-時間モデルの研究を促進することができる。 The survival analysis on histological whole-slide images (WSIs) is one of the most important means to estimate patient prognosis. Although many weakly-supervised deep learning models have been developed for gigapixel WSIs, their potential is generally restricted by classical survival analysis rules and fully-supervision requirements. As a result, these models provide patients only with a completely-certain point estimation of time-to-event, and they could only learn from the well-annotated WSI data currently at a small scale. To tackle these problems, we propose a novel adversarial multiple instance learning (AdvMIL) framework. This framework is based on adversarial time-to-event modeling, and it integrates the multiple instance learning (MIL) that is much necessary for WSI representation learning. It is a plug-and-play one, so that most existing WSI-based models with embedding-level MIL networks can be easily upgraded by applying this framework, gaining the improved ability of survival distribution estimation and semi-supervised learning. Our extensive experiments show that AdvMIL could not only bring performance improvement to mainstream WSI models at a relatively low computational cost, but also enable these models to learn from unlabeled data with semi-supervised learning. Our AdvMIL framework could promote the research of time-to-event modeling in computational pathology with its novel paradigm of adversarial MIL. | 翻訳日:2022-12-14 15:33:47 公開日:2022-12-13 |
# セマンティック脳デコード:fMRIから概念的に類似した視覚刺激のイメージ再構成へ Semantic Brain Decoding: from fMRI to conceptually similar image reconstruction of visual stimuli ( http://arxiv.org/abs/2212.06726v1 ) ライセンス: Link先を確認 | Matteo Ferrante, Tommaso Boccato, Nicola Toschi | (参考訳) 脳復号(Brain Decoding)は、計測可能な脳活動を用いて精神状態や知覚入力の内部表現を推測する計算神経科学の分野である。
そこで本研究では,意味的および文脈的類似性にも依存する新しい脳デコード手法を提案する。
自然画像ビジョンのfmriデータセットを用いて,ボトムアッププロセスとトップダウンプロセスの両方の存在に触発された深層学習復号パイプラインを作成する。
我々は、前訓練された畳み込みニューラルネットワークの最後の畳み込み層で表される空間に視覚情報を投影し、概念間の類似点や相違点を要約し強調する様々な意味的特徴を収集する、線形脳-機能モデルを用いて、fMRI活動特徴を視覚刺激特徴にマッピングする。
これらの特徴は最寄り戦略を用いて潜在空間で分類され、その結果は生成的潜在拡散モデルを条件付けして新しい画像を作成する。
fmriデータのみから、元のコンテンツに非常によくマッチする視覚刺激の再構成を意味レベルで作成し、それまでの文献における芸術の状態を上回っています。
本研究は,定量的な意味尺度(平均値0.57のWordNetレキシコン上のWu-Palmer類似度測定値)を用いて評価を行い,画像類似度評価におけるヒトの基準の乗算性に応じて,評価結果の正しさを示す評価実験を行った。 Brain decoding is a field of computational neuroscience that uses measurable brain activity to infer mental states or internal representations of perceptual inputs. Therefore, we propose a novel approach to brain decoding that also relies on semantic and contextual similarity. We employ an fMRI dataset of natural image vision and create a deep learning decoding pipeline inspired by the existence of both bottom-up and top-down processes in human vision. We train a linear brain-to-feature model to map fMRI activity features to visual stimuli features, assuming that the brain projects visual information onto a space that is homeomorphic to the latent space represented by the last convolutional layer of a pretrained convolutional neural network, which typically collects a variety of semantic features that summarize and highlight similarities and differences between concepts. These features are then categorized in the latent space using a nearest-neighbor strategy, and the results are used to condition a generative latent diffusion model to create novel images. From fMRI data only, we produce reconstructions of visual stimuli that match the original content very well on a semantic level, surpassing the state of the art in previous literature. We evaluate our work and obtain good results using a quantitative semantic metric (the Wu-Palmer similarity metric over the WordNet lexicon, which had an average value of 0.57) and perform a human evaluation experiment that resulted in correct evaluation, according to the multiplicity of human criteria in evaluating image similarity, in over 80% of the test set. | 翻訳日:2022-12-14 15:33:24 公開日:2022-12-13 |
# 完全逆数検出のための(ほぼ)局所的成長速度推定 Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection ( http://arxiv.org/abs/2212.06776v1 ) ライセンス: Link先を確認 | Peter Lorenz, Margret Keuper and Janis Keuper | (参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの知覚的タスクにおける最先端のソリューションを定義する。
しかし、現在のCNNアプローチは、人間の目に準知覚できない状態でシステムを騙すために特別に作られた入力の敵の摂動に対して脆弱なままである。
近年、モデル硬化や明示的な防御機構の追加など、CNNをこのような攻撃から守るための様々なアプローチが提案されている。
これにより、ネットワークに小さな「検出器」が含まれ、真データと逆摂動を含むデータとを区別する二分分類タスクで訓練される。
本研究では,ネットワークの局所固有次元(LID)と敵攻撃の関係について,最近の知見を生かした,シンプルで軽量な検出器を提案する。
LID測度の再解釈といくつかの単純な適応に基づいて、敵検出の最先端をかなりのマージンで超越し、複数のネットワークやデータセットのF1スコアでほぼ完璧な結果を得る。
出典: https://github.com/adverML/multiLID Convolutional neural networks (CNN) define the state-of-the-art solution on many perceptual tasks. However, current CNN approaches largely remain vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to the human eye. In recent years, various approaches have been proposed to defend CNNs against such attacks, for example by model hardening or by adding explicit defence mechanisms. Thereby, a small "detector" is included in the network and trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. In this work, we propose a simple and light-weight detector, which leverages recent findings on the relation between networks' local intrinsic dimensionality (LID) and adversarial attacks. Based on a re-interpretation of the LID measure and several simple adaptations, we surpass the state-of-the-art on adversarial detection by a significant margin and reach almost perfect results in terms of F1-score for several networks and datasets. Sources available at: https://github.com/adverML/multiLID | 翻訳日:2022-12-14 15:32:54 公開日:2022-12-13 |
# 安全腹腔鏡下胆嚢摘出術におけるリアルタイムai支援 : 早期臨床評価 Real-Time Artificial Intelligence Assistance for Safe Laparoscopic Cholecystectomy: Early-Stage Clinical Evaluation ( http://arxiv.org/abs/2212.06809v1 ) ライセンス: Link先を確認 | Pietro Mascagni, Deepak Alapatt, Alfonso Lapergola, Armine Vardazaryan, Jean-Paul Mazellier, Bernard Dallemagne, Didier Mutter, Nicolas Padoy | (参考訳) 人工知能は手術治療を改善するために手術室に配備される。
この早期臨床評価は,3回の腹腔鏡下胆嚢摘出術中に内視鏡的ビデオ解析を行うために,複数の深層ニューラルネットワークからリアルタイムかつ高品質な予測を同時達成する可能性を示す。 Artificial intelligence is set to be deployed in operating rooms to improve surgical care. This early-stage clinical evaluation shows the feasibility of concurrently attaining real-time, high-quality predictions from several deep neural networks for endoscopic video analysis deployed for assistance during three laparoscopic cholecystectomies. | 翻訳日:2022-12-14 15:32:36 公開日:2022-12-13 |
# 回答セットプログラミングによる物語生成によるプライバシポリシの関連性を探る Exploring Consequences of Privacy Policies with Narrative Generation via Answer Set Programming ( http://arxiv.org/abs/2212.06719v1 ) ライセンス: Link先を確認 | Chinmaya Dabral, Emma Tosch, Chris Martens | (参考訳) インフォームド・コンセントは、データのプライバシーと規制に関してますます健全になっている。
政府から営利企業まで、個人データ保存と転送の条件を列挙するポリシーによって、データプライバシに関する懸念に対処してきた。
しかし、データプライバシポリシの列挙と透明性の増大は、エンドユーザのデータの利用方法に対する理解を改善していない: ユーザが理解に苦慮する可能性のある法的言語で記述されたプライバシポリシだけでなく、これらのポリシの要素が、ポリシーの結果がすぐには明らかでないような方法で構成される可能性がある。
プライバシポリシの形式化にAnswer Set Programming(ASP)(論理プログラミングの一種)を使用するフレームワークを提案する。
したがって、プライバシポリシは、物語計画の領域における制約となり、エンドユーザは、役割を持つアクターとドメイン内でのアクションの観点でポリシーの可能性を前方にシミュレートすることができる。
本稿では,医療保険ポータビリティ・アカウンタビリティ法(HIPAA)の事例を通じて,可能性に関する質問や,法律のどの条項が特定の事象によって破られるかの特定など,様々な方法でシステムを利用する方法を示す。 Informed consent has become increasingly salient for data privacy and its regulation. Entities from governments to for-profit companies have addressed concerns about data privacy with policies that enumerate the conditions for personal data storage and transfer. However, increased enumeration of and transparency in data privacy policies has not improved end-users' comprehension of how their data might be used: not only are privacy policies written in legal language that users may struggle to understand, but elements of these policies may compose in such a way that the consequences of the policy are not immediately apparent. We present a framework that uses Answer Set Programming (ASP) -- a type of logic programming -- to formalize privacy policies. Privacy policies thus become constraints on a narrative planning space, allowing end-users to forward-simulate possible consequences of the policy in terms of actors having roles and taking actions in a domain. We demonstrate through the example of the Health Insurance Portability and Accountability Act (HIPAA) how to use the system in various ways, including asking questions about possibilities and identifying which clauses of the law are broken by a given sequence of events. | 翻訳日:2022-12-14 15:32:31 公開日:2022-12-13 |
# 特徴抽出によるプライバシー保護協調学習 Privacy-Preserving Collaborative Learning through Feature Extraction ( http://arxiv.org/abs/2212.06322v1 ) ライセンス: Link先を確認 | Alireza Sarmadi, Hao Fu, Prashanth Krishnamurthy, Siddharth Garg, and Farshad Khorrami | (参考訳) 本稿では,複数のエンティティが協調して,データのプライバシを保ちながら機械学習モデルを構築するフレームワークを提案する。
このアプローチは、エンティティ間の協調のために、データの共有/パーエンタリティ特徴抽出器からのフィーチャ埋め込みを利用する。
そこで本研究では,2つの方法を提案し,ベースライン法と比較する。
共有特徴エクストラクタ(SFE)学習では、エンティティは共有特徴抽出器を使用してサンプルの特徴埋め込みを計算する。
ローカルトレーニングされた特徴エクストラクタ(LTFE)学習では、各エンティティは別個の特徴抽出器を使用し、モデルがすべてのエンティティから連結された特徴を使用して訓練される。
ベースラインとして、CTFE学習では、エンティティは生データを共有してモデルを訓練する。
セキュアなマルチパーティアルゴリズムは、プレーンテキストでデータや特徴を明かすことなく、モデルをトレーニングするために使用される。
SFE,LTFE,CTFE間のトレードオフについて,性能,プライバシリーク(オフザシェルメンバシップ推論攻撃を用いた),計算コストについて検討した。
LTFEが最もプライバシを提供し、次にSFE、次にCTFEを提供する。
SFEは計算コストが低く、CTFEとLTFEの相対速度はネットワークアーキテクチャに依存する。
CTFEとLTFEが最も正確である。
我々は,MNIST,合成データセット,クレジットカード不正検出データセットを用いて評価を行う。 We propose a framework in which multiple entities collaborate to build a machine learning model while preserving privacy of their data. The approach utilizes feature embeddings from shared/per-entity feature extractors transforming data into a feature space for cooperation between entities. We propose two specific methods and compare them with a baseline method. In Shared Feature Extractor (SFE) Learning, the entities use a shared feature extractor to compute feature embeddings of samples. In Locally Trained Feature Extractor (LTFE) Learning, each entity uses a separate feature extractor and models are trained using concatenated features from all entities. As a baseline, in Cooperatively Trained Feature Extractor (CTFE) Learning, the entities train models by sharing raw data. Secure multi-party algorithms are utilized to train models without revealing data or features in plain text. We investigate the trade-offs among SFE, LTFE, and CTFE in regard to performance, privacy leakage (using an off-the-shelf membership inference attack), and computational cost. LTFE provides the most privacy, followed by SFE, and then CTFE. Computational cost is lowest for SFE and the relative speed of CTFE and LTFE depends on network architecture. CTFE and LTFE provide the best accuracy. We use MNIST, a synthetic dataset, and a credit card fraud detection dataset for evaluations. | 翻訳日:2022-12-14 15:31:46 公開日:2022-12-13 |
# 物理またはスパース観測によるディープニューラルオペレーターの信頼性の高い外挿 Reliable extrapolation of deep neural operators informed by physics or sparse observations ( http://arxiv.org/abs/2212.06347v1 ) ライセンス: Link先を確認 | Min Zhu, Handi Zhang, Anran Jiao, George Em Karniadakis, Lu Lu | (参考訳) ディープニューラルネットワークにより、無限次元関数空間間の非線形マッピングを学習することができる。
実時間予測のための偏微分方程式(pdes)の有望なサロゲート解法として、ディープ演算子ネットワーク(deeponets)のようなディープニューラルネットワークは、科学と工学における新しいシミュレーションパラダイムを提供する。
純粋なデータ駆動ニューラル演算子とディープラーニングモデルは通常、新しい予測がトレーニングセットのサポート内で入力を利用する補間シナリオに制限される。
しかし、実世界のアプリケーションの推論の段階では、入力はサポートの外、すなわち外挿が必要となり、ディープラーニングモデルの大きなエラーと避けられない失敗を引き起こす可能性がある。
ここでは、ディープニューラル演算子に対する外挿のこの課題に対処する。
まず,2つの関数空間間の2-ワッサーシュタイン距離による外挿複雑性の定量化により,DeepONetsの外挿挙動を体系的に検討し,モデル容量に対する外挿のバイアス分散トレードオフの新しい挙動を提案する。
その後、外挿決定を含む完全なワークフローを開発し、追加情報を必要とすることによる外挿下での安全な予測を保証する5つの信頼性のある学習手法を提案する。
提案手法は,事前学習したdeeponetあるいはmultifidelity learningの微調整に基づいている。
本稿では,様々なパラメトリックpdesに対する提案フレームワークの有効性を示す。
体系的な比較は,利用可能な情報,所望の精度,必要な推論速度に応じて適切な補間方法を選択するための実践的なガイドラインを提供する。 Deep neural operators can learn nonlinear mappings between infinite-dimensional function spaces via deep neural networks. As promising surrogate solvers of partial differential equations (PDEs) for real-time prediction, deep neural operators such as deep operator networks (DeepONets) provide a new simulation paradigm in science and engineering. Pure data-driven neural operators and deep learning models, in general, are usually limited to interpolation scenarios, where new predictions utilize inputs within the support of the training set. However, in the inference stage of real-world applications, the input may lie outside the support, i.e., extrapolation is required, which may result to large errors and unavoidable failure of deep learning models. Here, we address this challenge of extrapolation for deep neural operators. First, we systematically investigate the extrapolation behavior of DeepONets by quantifying the extrapolation complexity via the 2-Wasserstein distance between two function spaces and propose a new behavior of bias-variance trade-off for extrapolation with respect to model capacity. Subsequently, we develop a complete workflow, including extrapolation determination, and we propose five reliable learning methods that guarantee a safe prediction under extrapolation by requiring additional information -- the governing PDEs of the system or sparse new observations. The proposed methods are based on either fine-tuning a pre-trained DeepONet or multifidelity learning. We demonstrate the effectiveness of the proposed framework for various types of parametric PDEs. Our systematic comparisons provide practical guidelines for selecting a proper extrapolation method depending on the available information, desired accuracy, and required inference speed. | 翻訳日:2022-12-14 15:31:26 公開日:2022-12-13 |
# マルチエージェントネットワークシステムにおけるスケーラブル・サンプル分散ポリシー勾配アルゴリズム Scalable and Sample Efficient Distributed Policy Gradient Algorithms in Multi-Agent Networked Systems ( http://arxiv.org/abs/2212.06357v1 ) ライセンス: Link先を確認 | Xin Liu, Honghao Wei, Lei Ying | (参考訳) 本稿では,エージェントが受ける報酬が他のエージェントの状態に依存するマルチエージェント強化学習(MARL)のクラスについて検討する。
Reward-Coupled Multi-Agent Reinforcement LearningからREC-MARLと命名した。
REC-MARLは、無線ネットワークにおけるリアルタイムアクセス制御や分散電力制御など、様々な重要な応用がある。
本稿では,REC-MARLのための分散最適ポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは,2つの側面に分散する。
(i)学習方針とは、エージェントのローカル状態をそのローカルアクションにマッピングする分散ポリシーである。
(ii)学習・訓練が分散され、その間に各エージェントは自身の情報と隣人の情報に基づいて方針を更新する。
学習された政策は、すべての地方政策の中で確実に最適であり、その後悔の限界は地方国家と行動の次元に依存する。
これは、定常点ポリシーをしばしば得るMARLの既存の結果との違いである。
無線ネットワークにおけるリアルタイムアクセス制御と電力制御のためのアルゴリズムの実験結果から,本手法は最先端のアルゴリズムやよく知られたベンチマークを大きく上回っていることがわかった。 This paper studies a class of multi-agent reinforcement learning (MARL) problems where the reward that an agent receives depends on the states of other agents, but the next state only depends on the agent's own current state and action. We name it REC-MARL standing for REward-Coupled Multi-Agent Reinforcement Learning. REC-MARL has a range of important applications such as real-time access control and distributed power control in wireless networks. This paper presents a distributed and optimal policy gradient algorithm for REC-MARL. The proposed algorithm is distributed in two aspects: (i) the learned policy is a distributed policy that maps a local state of an agent to its local action and (ii) the learning/training is distributed, during which each agent updates its policy based on its own and neighbors' information. The learned policy is provably optimal among all local policies and its regret bounds depend on the dimension of local states and actions. This distinguishes our result from most existing results on MARL, which often obtain stationary-point policies. The experimental results of our algorithm for the real-time access control and power control in wireless networks show that our policy significantly outperforms the state-of-the-art algorithms and well-known benchmarks. | 翻訳日:2022-12-14 15:30:59 公開日:2022-12-13 |
# 気球から気球へのワイヤレスネットワーク接続:google project loon Balloon-to-Balloon AdHoc Wireless Network Connectivity: Google Project Loon ( http://arxiv.org/abs/2212.06402v1 ) ライセンス: Link先を確認 | Aishwarya Srinivasan | (参考訳) Project Loonは、Google X Labが開始した研究プロジェクトである。
このプロジェクトの目的は、リモートインターネットアクセスとネットワーク接続を提供することだ。
接続は垂直と水平に設定されており、Google Access Point (GAP) と気球の間の垂直接続、着陸時に設置された気球とアンテナの間の垂直接続、気球間の水平接続である。
本研究は,メッシュネットワークにおけるバルーン間の接続性に焦点を当てる。
この提案では,アドホック通信プロトコルを用いた凸船体などのグラフィカルな手法の実装に焦点を当てている。
提案プロトコルは、グリッドではなく角セクタ分割を用いたコンテンツベースのマルチキャストと、特定のコアアクティブノードを定義する動的コアベースのメッシュプロトコルと、凸殻を形成するパッシブノードを含む。
ノード間の伝送(マルチキャストとブロードキャスト)は、2つのノード間のリンクの確率を定義するリンク確率を用いて評価される。
リンク確率とノードの特徴に基づいて、送信ノードと受信ノードの最良の経路を評価する。 Project Loon is a Google initiated research project from the Google X Lab. The project focuses on providing remote internet access and network connectivity. The connectivity is established in vertical and horizontal space; vertical connectivity between Google Access Point (GAP) and the balloons, and between balloons and antennas installed at land; horizontal connectivity is between the balloons. This research focuses on the connectivity between the balloons in a mesh network. The proposal focuses on implementing graphical methods like convex hull with adhoc communication protocols. The proposed protocol includes content-based multicasting using angular sector division rather than grids, along with dynamic core-based mesh protocol defining certain core active nodes and passive nodes forming the convex hull. The transmission (multicasting and broadcasting) between the nodes will be evaluated using the link probability defining the probability of the link between two nodes failing. Based on the link probability and node features, best path between transmitting and receiver nodes will be evaluated. | 翻訳日:2022-12-14 15:25:24 公開日:2022-12-13 |
# 説明は意思決定時のAIシステムへの過剰依存を軽減する Explanations Can Reduce Overreliance on AI Systems During Decision-Making ( http://arxiv.org/abs/2212.06823v1 ) ライセンス: Link先を確認 | Helena Vasconcelos, Matthew J\"orke, Madeleine Grunde-McLaughlin, Tobias Gerstenberg, Michael Bernstein, and Ranjay Krishna | (参考訳) 従来の研究では、人間とAIの意思決定チームのパフォーマンスを脅かす回復力のある現象が特定されていた。
意外なことに、AIが予測のための説明を生成する場合、予測のみを提供する場合に比べて、過信は減少しない。
過度信頼は認知バイアスや未確認の信頼の結果であり、過度信頼は人間の認知の必然性に起因すると主張する者もいる。
対照的に、私たちの論文では、AIの説明に関わるかどうかを戦略的に選択し、AIの説明が過度な信頼を減少させるシナリオがあることを実証的に示す。
これを実現するために、我々は、この戦略的な選択を、AIに依存するコストと利益に対して、タスクへの関与のコストと利益を重み付けするコスト便益フレームワークで形式化する。
我々は迷路タスクのコストと利益を操作し、参加者は迷路の出口を見つけるためにシミュレーションAIと協力する。
5つの研究(n = 731)を通して,課題難易度 (study 1) や説明難易度 (study 2, 3) ,金銭補償 (study 4) などの費用が過度に依存することがわかった。
最後に,学習5では,認知的努力評価パラダイムを適用して,さまざまな説明の有用性を定量化し,フレームワークのさらなるサポートを提供する。
以上の結果から,文献中のヌル効果のいくつかは,aiの予測検証のコストを十分に削減できない説明が原因である可能性が示唆された。 Prior work has identified a resilient phenomenon that threatens the performance of human-AI decision-making teams: overreliance, when people agree with an AI, even when it is incorrect. Surprisingly, overreliance does not reduce when the AI produces explanations for its predictions, compared to only providing predictions. Some have argued that overreliance results from cognitive biases or uncalibrated trust, attributing overreliance to an inevitability of human cognition. By contrast, our paper argues that people strategically choose whether or not to engage with an AI explanation, demonstrating empirically that there are scenarios where AI explanations reduce overreliance. To achieve this, we formalize this strategic choice in a cost-benefit framework, where the costs and benefits of engaging with the task are weighed against the costs and benefits of relying on the AI. We manipulate the costs and benefits in a maze task, where participants collaborate with a simulated AI to find the exit of a maze. Through 5 studies (N = 731), we find that costs such as task difficulty (Study 1), explanation difficulty (Study 2, 3), and benefits such as monetary compensation (Study 4) affect overreliance. Finally, Study 5 adapts the Cognitive Effort Discounting paradigm to quantify the utility of different explanations, providing further support for our framework. Our results suggest that some of the null effects found in literature could be due in part to the explanation not sufficiently reducing the costs of verifying the AI's prediction. | 翻訳日:2022-12-14 15:24:41 公開日:2022-12-13 |
# 構造化行列因子分解の高速化 Accelerated structured matrix factorization ( http://arxiv.org/abs/2212.06504v1 ) ライセンス: Link先を確認 | Lorenzo Schiavon, Bernardo Nipoti, Antonio Canale | (参考訳) 行列分解は、複雑な高次元データにおいて、実際の信号は一般に低次元構造にあるという考え方を利用する。
これらの低次元オブジェクトは、スパース構造に有利な解釈性を持つ有用な洞察を提供する。
加えて、スポーザリティは正規化の点で有益であり、したがって過度な適合を避けることができる。
ベイズ縮小前置法を活用し,高次元行列分解に対する計算上便利な手法を考案する。
行と列のエンティティ間の依存性は、要素内の柔軟なスパースパターンを誘導することによってモデル化される。
外部情報の可利用性は、構造が課されることなく許可される方法で説明される。
アルゴリズムの強化に触発されて,提案手法は,データ駆動停止規則による低ランク貢献の逐次包含と推定に依存する数値戦略と組み合わせる。
提案手法の実用的利点は,新世代追跡データから得られたサッカーヒートマップのシミュレーション研究と解析によって実証された。 Matrix factorization exploits the idea that, in complex high-dimensional data, the actual signal typically lies in lower-dimensional structures. These lower dimensional objects provide useful insight, with interpretability favored by sparse structures. Sparsity, in addition, is beneficial in terms of regularization and, thus, to avoid over-fitting. By exploiting Bayesian shrinkage priors, we devise a computationally convenient approach for high-dimensional matrix factorization. The dependence between row and column entities is modeled by inducing flexible sparse patterns within factors. The availability of external information is accounted for in such a way that structures are allowed while not imposed. Inspired by boosting algorithms, we pair the the proposed approach with a numerical strategy relying on a sequential inclusion and estimation of low-rank contributions, with data-driven stopping rule. Practical advantages of the proposed approach are demonstrated by means of a simulation study and the analysis of soccer heatmaps obtained from new generation tracking data. | 翻訳日:2022-12-14 15:24:09 公開日:2022-12-13 |
# 係り受け認識としてのスタンス検出のモデル化と社会科学からの計測知識の活用 Modelling Stance Detection as Textual Entailment Recognition and Leveraging Measurement Knowledge from Social Sciences ( http://arxiv.org/abs/2212.06543v1 ) ライセンス: Link先を確認 | Qixiang Fang and Anastasia Giachanou and Ayoub Bagheri | (参考訳) スタンス検出(sd)は、汎用自然言語タスクであるter(textual entailment recognition)の特別なケースと見なすことができる。
SDをTERとしてモデル化することは、より多くのトレーニングデータやより一般的な学習スキームのような利点を提供する。
本稿では,このアプローチの初期の経験的分析について述べる。
既存のラベル付きSDデータセットが利用できないような、難しいが関連するテストケースに適用する。
また,社会科学の計測知識を活用し,モデルの性能を向上させる。
今後の研究の方向性について検討する。 Stance detection (SD) can be considered a special case of textual entailment recognition (TER), a generic natural language task. Modelling SD as TER may offer benefits like more training data and a more general learning scheme. In this paper, we present an initial empirical analysis of this approach. We apply it to a difficult but relevant test case where no existing labelled SD dataset is available, because this is where modelling SD as TER may be especially helpful. We also leverage measurement knowledge from social sciences to improve model performance. We discuss our findings and suggest future research directions. | 翻訳日:2022-12-14 15:23:55 公開日:2022-12-13 |
# 量子自然言語処理のためのカテゴリ理論 Category Theory for Quantum Natural Language Processing ( http://arxiv.org/abs/2212.06615v1 ) ライセンス: Link先を確認 | Alexis Toumi | (参考訳) この論文は、計算言語学と量子力学の間の単純かつ強力な類似性に基づく量子自然言語処理(qnlp)モデルを導入している。
テキストと文の文法構造は、絡み合い構造が量子システムの状態と接続するのと同じように、単語の意味を繋ぐ。
カテゴリー理論は、この言語からキュービットへの類似を形式化し、文法からベクトル空間へのモノイド関手である。
この抽象的なアナロジーを具体的なアルゴリズムに変換し、文法構造をパラメータ化量子回路のアーキテクチャに変換する。
次に,ハイブリッド古典量子アルゴリズムを用いてモデルの学習を行い,データ駆動タスクにおける文の意味を計算する。
QNLPモデルの実装は、DisCoPy(Distributional Compositional Python)の開発を動機付けている。
文字列ダイアグラムはDisCoPyのコアデータ構造であり、高い抽象化レベルでの計算の推論を可能にします。
文法構造と量子回路の両方をエンコードする方法を示し、論理式、ニューラルネットワーク、任意のpythonコードも示します。
モノイダル関手は、これらの抽象図を具体的な計算に変換し、最適化されたタスク固有のライブラリと対話することができる。
第2章では、QNLPモデルを文法から量子回路へのパラメータ化関手として実装するためにDisCopyを使用している。
図のようなデータから学習することで、関数から関手への機械学習を一般化する。
勾配降下を通じて最適な関手パラメータを学習するために、ダイアグラム微分(ダイアグラムの勾配を計算するためのグラフ計算)の概念を導入する。 This thesis introduces quantum natural language processing (QNLP) models based on a simple yet powerful analogy between computational linguistics and quantum mechanics: grammar as entanglement. The grammatical structure of text and sentences connects the meaning of words in the same way that entanglement structure connects the states of quantum systems. Category theory allows to make this language-to-qubit analogy formal: it is a monoidal functor from grammar to vector spaces. We turn this abstract analogy into a concrete algorithm that translates the grammatical structure onto the architecture of parameterised quantum circuits. We then use a hybrid classical-quantum algorithm to train the model so that evaluating the circuits computes the meaning of sentences in data-driven tasks. The implementation of QNLP models motivated the development of DisCoPy (Distributional Compositional Python), the toolkit for applied category theory of which the first chapter gives a comprehensive overview. String diagrams are the core data structure of DisCoPy, they allow to reason about computation at a high level of abstraction. We show how they can encode both grammatical structures and quantum circuits, but also logical formulae, neural networks or arbitrary Python code. Monoidal functors allow to translate these abstract diagrams into concrete computation, interfacing with optimised task-specific libraries. The second chapter uses DisCopy to implement QNLP models as parameterised functors from grammar to quantum circuits. It gives a first proof-of-concept for the more general concept of functorial learning: generalising machine learning from functions to functors by learning from diagram-like data. In order to learn optimal functor parameters via gradient descent, we introduce the notion of diagrammatic differentiation: a graphical calculus for computing the gradients of parameterised diagrams. | 翻訳日:2022-12-14 15:23:45 公開日:2022-12-13 |
# 画像レベルおよびオブジェクトレベル意味判別器を用いた構造誘導画像補完 Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators ( http://arxiv.org/abs/2212.06310v1 ) ライセンス: Link先を確認 | Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Eli Shechtman, Connelly Barnes, Jianming Zhang, Qing Liu, Yuqian Zhou, Sohrab Amirghodsi, Jiebo Luo | (参考訳) 構造誘導画像補完は,ユーザからの入力誘導マップに従って画像の局所領域を描画することを目的としている。
このようなタスクはインタラクティブな編集に多くの実用的な応用を可能にするが、既存の手法は複雑な自然の場面で現実的なオブジェクトインスタンスを幻覚させるのに苦労することが多い。
このような制限は、部分的にはホール領域内の意味レベルの制約の欠如と、現実的なオブジェクト生成を強制するメカニズムの欠如によるものである。
本研究では,複雑なセマンティックスやオブジェクトの生成を改善するために,セマンティックな識別器とオブジェクトレベルの識別器からなる学習パラダイムを提案する。
具体的には、事前学習された視覚的特徴を利用して、生成された視覚概念のリアリズムを改善する。
さらに、オブジェクトレベルの判別器は、アラインされたインスタンスを入力として、個々のオブジェクトのリアリズムを強制する。
提案手法は生成品質を著しく向上させ,セグメンテーション誘導完了,エッジ誘導操作,Places2データセットのパノプティカル誘導操作など,様々なタスクにおける最先端結果を実現する。
さらに、トレーニングされたモデルは柔軟で、オブジェクト挿入、置換、除去、標準塗装など、複数の編集ユースケースをサポートできます。
特に、トレーニングされたモデルと新しい自動画像補完パイプラインを組み合わせることで、標準塗装タスクの最先端の結果が得られる。 Structure-guided image completion aims to inpaint a local region of an image according to an input guidance map from users. While such a task enables many practical applications for interactive editing, existing methods often struggle to hallucinate realistic object instances in complex natural scenes. Such a limitation is partially due to the lack of semantic-level constraints inside the hole region as well as the lack of a mechanism to enforce realistic object generation. In this work, we propose a learning paradigm that consists of semantic discriminators and object-level discriminators for improving the generation of complex semantics and objects. Specifically, the semantic discriminators leverage pretrained visual features to improve the realism of the generated visual concepts. Moreover, the object-level discriminators take aligned instances as inputs to enforce the realism of individual objects. Our proposed scheme significantly improves the generation quality and achieves state-of-the-art results on various tasks, including segmentation-guided completion, edge-guided manipulation and panoptically-guided manipulation on Places2 datasets. Furthermore, our trained model is flexible and can support multiple editing use cases, such as object insertion, replacement, removal and standard inpainting. In particular, our trained model combined with a novel automatic image completion pipeline achieves state-of-the-art results on the standard inpainting task. | 翻訳日:2022-12-14 15:23:21 公開日:2022-12-13 |
# DAワンド:ニューラルメッシュパラメータ化を用いた歪み認識の選択 DA Wand: Distortion-Aware Selection using Neural Mesh Parameterization ( http://arxiv.org/abs/2212.06344v1 ) ライセンス: Link先を確認 | Richard Liu, Noam Aigerman, Vladimir G. Kim, Rana Hanocka | (参考訳) 本稿では,メッシュパラメータ化に使用できる点周辺の局所部分領域を学習するためのニューラル手法を提案する。
私たちのフレームワークの動機は、表面のデカリング、テキスト作成、ペイントに使用されるインタラクティブなワークフローにあります。
我々の重要なアイデアは、ニューラルネットワークフレームワーク内で新しい微分可能パラメータ化層として実装された古典的なパラメータ化法の重みとしてセグメンテーション確率を組み込むことである。
我々は,2次元にパラメータ化され,歪みによってペナル化される3次元領域を選択するようにセグメンテーションネットワークを訓練する。
学習の後、ユーザは我々のシステムを使ってメッシュ上の点を対話的に選択し、低歪みパラメータ化を誘導する選択に関する大きな意味のある領域を得ることができる。
私たちのコードは公開されます。 We present a neural technique for learning to select a local sub-region around a point which can be used for mesh parameterization. The motivation for our framework is driven by interactive workflows used for decaling, texturing, or painting on surfaces. Our key idea is to incorporate segmentation probabilities as weights of a classical parameterization method, implemented as a novel differentiable parameterization layer within a neural network framework. We train a segmentation network to select 3D regions that are parameterized into 2D and penalized by the resulting distortion, giving rise to segmentations which are distortion-aware. Following training, a user can use our system to interactively select a point on the mesh and obtain a large, meaningful region around the selection which induces a low-distortion parameterization. Our code will be made publicly available. | 翻訳日:2022-12-14 15:22:58 公開日:2022-12-13 |
# All-Silicon Meta-Optics を用いた野生熱計算イメージング Foveated Thermal Computational Imaging in the Wild Using All-Silicon Meta-Optics ( http://arxiv.org/abs/2212.06345v1 ) ライセンス: Link先を確認 | Vishwanath Saragadam, Zheyi Han, Vivek Boominathan, Luocheng Huang, Shiyu Tan, Johannes E. Fr\"och, Karl F. B\"ohringer, Richard G. Baraniuk, Arka Majumdar, Ashok Veeraraghavan | (参考訳) foveated imagingは、状況認識(視野)と解像度の間のより良いトレードオフを提供し、熱センサーのサイズ、重量、電力、コストのために、波長の長い赤外線環境において重要である。
本稿では,様々な偏光状態と計算バックエンドを識別し,撮像された画像/映像を再構成するメタ光学フロントエンドの能力を活用して,計算フォベーテッドイメージングを実証する。
第1の元素は、s偏光がp偏光に影響を与えることなく、s偏光が$f_1$の距離で焦点を合わせ、第2の元素は、p偏光が$f_2$の距離で焦点を合わせ、s偏光に影響を与えない、p偏光が$f_2$の別の金属元素である。
第3の要素は自由回転偏光子であり、2つの偏光状態間の混合比を動的に変化させる。
焦点要素(焦点長=150mm、直径=75mm)と焦点要素(焦点長=25mm、直径=25mm)はいずれも偏光感応性、全シリコン、メタ表面として作製され、大面積、1:6の焦点膨張、熱撮像能力が得られた。
そして、計算バックエンドは、結果の多重化画像または映像を、高解像度のセンターと低解像度の視野からなるファーベイドイメージに分離する前に、ディープイメージを利用する。
我々は、最初のプロトタイプシステムを構築し、12フレーム/秒のリアルタイム、サーマル、ファーベイド画像、ビデオキャプチャを野生でデモした。 Foveated imaging provides a better tradeoff between situational awareness (field of view) and resolution and is critical in long-wavelength infrared regimes because of the size, weight, power, and cost of thermal sensors. We demonstrate computational foveated imaging by exploiting the ability of a meta-optical frontend to discriminate between different polarization states and a computational backend to reconstruct the captured image/video. The frontend is a three-element optic: the first element which we call the "foveal" element is a metalens that focuses s-polarized light at a distance of $f_1$ without affecting the p-polarized light; the second element which we call the "perifoveal" element is another metalens that focuses p-polarized light at a distance of $f_2$ without affecting the s-polarized light. The third element is a freely rotating polarizer that dynamically changes the mixing ratios between the two polarization states. Both the foveal element (focal length = 150mm; diameter = 75mm), and the perifoveal element (focal length = 25mm; diameter = 25mm) were fabricated as polarization-sensitive, all-silicon, meta surfaces resulting in a large-aperture, 1:6 foveal expansion, thermal imaging capability. A computational backend then utilizes a deep image prior to separate the resultant multiplexed image or video into a foveated image consisting of a high-resolution center and a lower-resolution large field of view context. We build a first-of-its-kind prototype system and demonstrate 12 frames per second real-time, thermal, foveated image, and video capture in the wild. | 翻訳日:2022-12-14 15:22:44 公開日:2022-12-13 |
# イメージデノイングのためのアーキテクチャ探索のための単一セルトレーニング Single Cell Training on Architecture Search for Image Denoising ( http://arxiv.org/abs/2212.06368v1 ) ライセンス: Link先を確認 | Bokyeung Lee, Kyungdeuk Ko, Jonghwan Hong and Hanseok Ko | (参考訳) 最適なネットワークアーキテクチャを自動的に見つけるニューラルネットワーク検索(nas)は、様々なコンピュータビジョンタスクにおける競合性能で成功を収めている。
しかし、一般にNASは膨大な量の計算を必要とする。
このように計算コストの削減が重要な問題となっている。
これまでの試みのほとんどは手作業によるアプローチに基づいており、ネットワークの最適性と検索コストのバランスを保ちながら、このような取り組みから開発されたアーキテクチャも少なくない。
さらに、画像復元のための最近のNAS法は、テンソル計算における次元ミスマッチのため特徴写像の次元を変換する動的な演算を概ね考慮していない。
これにより、最適なネットワーク構造を探す際にNASを大幅に制限することができる。
これらの問題に対処するために、コンポーネントブロックレベルに着目して最適な探索問題を再構成する。
従来の研究から,ネットワーク性能を向上するために,効果的なデノナイジングブロックを連続的に接続できることが示されている。
ブロックレベルに集中することで、強化学習の探索空間が大幅に小さくなり、評価処理をより迅速に行うことができる。
さらに,最適設計探索において発生する空間的およびチャネル的ミスマッチを扱うための,革新的な次元マッチングモジュールを統合する。
これにより、セルブロック内の最適なネットワーク検索の柔軟性が向上する。
これらのモジュールを用いて,モジュールレベルで最適な画像雑音化ネットワークを探索する強化学習を行う。
提案したDenoising Prior Neural Architecture Search (DPNAS) の計算効率は、1つのGPUでわずか1日で画像復元タスクの最適なアーキテクチャ検索を完了させることで実証された。 Neural Architecture Search (NAS) for automatically finding the optimal network architecture has shown some success with competitive performances in various computer vision tasks. However, NAS in general requires a tremendous amount of computations. Thus reducing computational cost has emerged as an important issue. Most of the attempts so far has been based on manual approaches, and often the architectures developed from such efforts dwell in the balance of the network optimality and the search cost. Additionally, recent NAS methods for image restoration generally do not consider dynamic operations that may transform dimensions of feature maps because of the dimensionality mismatch in tensor calculations. This can greatly limit NAS in its search for optimal network structure. To address these issues, we re-frame the optimal search problem by focusing at component block level. From previous work, it's been shown that an effective denoising block can be connected in series to further improve the network performance. By focusing at block level, the search space of reinforcement learning becomes significantly smaller and evaluation process can be conducted more rapidly. In addition, we integrate an innovative dimension matching modules for dealing with spatial and channel-wise mismatch that may occur in the optimal design search. This allows much flexibility in optimal network search within the cell block. With these modules, then we employ reinforcement learning in search of an optimal image denoising network at a module level. Computational efficiency of our proposed Denoising Prior Neural Architecture Search (DPNAS) was demonstrated by having it complete an optimal architecture search for an image restoration task by just one day with a single GPU. | 翻訳日:2022-12-14 15:22:12 公開日:2022-12-13 |
# テキスト型パーソナリティコンピューティングの課題と今後の方向性 On Text-based Personality Computing: Challenges and Future Directions ( http://arxiv.org/abs/2212.06711v1 ) ライセンス: Link先を確認 | Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, Laura Boeschoten, Erik-Jan van Kesteren, Mahdi Shafiee Kamalabad, Daniel L Oberski | (参考訳) テキストベースパーソナリティコンピューティング(tpc)はnlpで多くの研究関心を集めている。
本稿では,研究コミュニティの注意を喚起する15の課題について述べる。
これらの課題は、パーソナリティ分類、測定品質、データセット、パフォーマンス評価、モデリング選択、倫理と公平性といったトピックによって整理される。
それぞれの課題に取り組む際には、NLPと社会科学の両方の視点を組み合わせるだけでなく、より有効で信頼性の高いTPC研究への具体的な提案も提供します。 Text-based personality computing (TPC) has gained many research interests in NLP. In this paper, we describe 15 challenges that we consider deserving the attention of the research community. These challenges are organized by the following topics: personality taxonomies, measurement quality, datasets, performance evaluation, modelling choices, as well as ethics and fairness. When addressing each challenge, not only do we combine perspectives from both NLP and social sciences, but also offer concrete suggestions towards more valid and reliable TPC research. | 翻訳日:2022-12-14 15:15:33 公開日:2022-12-13 |
# 予測区間生成のための2重精度品質駆動ニューラルネットワーク Dual Accuracy-Quality-Driven Neural Network for Prediction Interval Generation ( http://arxiv.org/abs/2212.06370v1 ) ライセンス: Link先を確認 | Giorgio Morales and John W. Sheppard | (参考訳) 実世界のアプリケーションにおけるディープラーニングモデルの信頼性を高めるためには,正確な不確かさの定量化が不可欠である。
回帰タスクの場合、深層学習モデルの決定論的予測とともに予測間隔(PI)を提供する必要がある。
このようなpiは、十分に狭く、確率密度の大部分を捉える限り、有用もしくは「高品質」である。
本稿では,従来の目標予測に加えて,回帰型ニューラルネットワークの予測間隔を自動的に学習する手法を提案する。
特に,1つの出力,対象推定,および2つの出力,対応するPIの上と下の境界を使用するニューラルネットワークを訓練する。
我々の主な貢献は、目標推定ネットワークの出力を考慮したPI生成ネットワークの損失関数の設計であり、平均予測間隔幅を最小化し、予測間隔確率カバレッジを暗黙的に最大化する制約を用いてPI整合性を確保するという2つの最適化目標がある。
どちらの目的も自己適応係数を用いて損失関数内でバランスをとる。
さらに,学習したPIのモデル不確実性を評価するモンテカルロ法を適用した。
合成データセット,6つのベンチマークデータセット,実世界の作物収量予測データセットを用いた実験により,本手法は3つの最先端ニューラルネットワーク法で生成されたpiと比較して,その推定精度を損なうことなく,名目的確率範囲を維持し,狭義のpiを生成することができた。 Accurate uncertainty quantification is necessary to enhance the reliability of deep learning models in real-world applications. In the case of regression tasks, prediction intervals (PIs) should be provided along with the deterministic predictions of deep learning models. Such PIs are useful or "high-quality'' as long as they are sufficiently narrow and capture most of the probability density. In this paper, we present a method to learn prediction intervals for regression-based neural networks automatically in addition to the conventional target predictions. In particular, we train two companion neural networks: one that uses one output, the target estimate, and another that uses two outputs, the upper and lower bounds of the corresponding PI. Our main contribution is the design of a loss function for the PI-generation network that takes into account the output of the target-estimation network and has two optimization objectives: minimizing the mean prediction interval width and ensuring the PI integrity using constraints that maximize the prediction interval probability coverage implicitly. Both objectives are balanced within the loss function using a self-adaptive coefficient. Furthermore, we apply a Monte Carlo-based approach that evaluates the model uncertainty in the learned PIs. Experiments using a synthetic dataset, six benchmark datasets, and a real-world crop yield prediction dataset showed that our method was able to maintain a nominal probability coverage and produce narrower PIs without detriment to its target estimation accuracy when compared to those PIs generated by three state-of-the-art neural-network-based methods. | 翻訳日:2022-12-14 15:15:09 公開日:2022-12-13 |
# グラフ上での粗相関学習 Coarse-to-Fine Contrastive Learning on Graphs ( http://arxiv.org/abs/2212.06423v1 ) ライセンス: Link先を確認 | Peiyao Zhao, Yuangang Pan, Xin Li, Xu Chen, Ivor W. Tsang, and Lejian Liao | (参考訳) 対照的学習(CL)の成功に触発されて、ノード表現を自己管理的に学習するために様々なグラフ拡張戦略が採用されている。
既存の方法は、グラフ構造やノード属性に摂動を追加することで、対照的なサンプルを構築する。
印象的な結果が得られるが、元のグラフに適用される摂動度が増加すると、想定される事前情報の豊富さに欠ける。
1)原グラフと生成した拡張グラフとの類似度は徐々に低下する。
2) 各拡張ビュー内のノード間の識別は徐々に増加する。
本稿では,これらの事前情報の両方を,一般的なランキングフレームワークに従えば,対照的な学習パラダイムに組み込むことができると論じる。
特に,まずCLをランク付け学習(L2R)の特別な場合と解釈し,肯定的な拡張ビューのランク付け順序を活用できるようにする。
一方,我々は,異なるノード間の識別情報を維持可能とし,また,異なる次数の摂動に対して変化の少ない自己組織化パラダイムを導入する。
様々なベンチマークデータセットにおける実験結果は,教師付きモデルおよび教師なしモデルと比較して,アルゴリズムの有効性を検証する。 Inspired by the impressive success of contrastive learning (CL), a variety of graph augmentation strategies have been employed to learn node representations in a self-supervised manner. Existing methods construct the contrastive samples by adding perturbations to the graph structure or node attributes. Although impressive results are achieved, it is rather blind to the wealth of prior information assumed: with the increase of the perturbation degree applied on the original graph, 1) the similarity between the original graph and the generated augmented graph gradually decreases; 2) the discrimination between all nodes within each augmented view gradually increases. In this paper, we argue that both such prior information can be incorporated (differently) into the contrastive learning paradigm following our general ranking framework. In particular, we first interpret CL as a special case of learning to rank (L2R), which inspires us to leverage the ranking order among positive augmented views. Meanwhile, we introduce a self-ranking paradigm to ensure that the discriminative information among different nodes can be maintained and also be less altered to the perturbations of different degrees. Experiment results on various benchmark datasets verify the effectiveness of our algorithm compared with the supervised and unsupervised models. | 翻訳日:2022-12-14 15:14:44 公開日:2022-12-13 |
# リカレントニューラルネットワークはプロセスモデル構造を学習できるか? Can recurrent neural networks learn process model structure? ( http://arxiv.org/abs/2212.06430v1 ) ライセンス: Link先を確認 | Jari Peeperkorn and Seppe vanden Broucke and Jochen De Weerdt | (参考訳) 機械学習とディープラーニングを用いた様々な手法が、予測プロセスの監視、最も可能性の高い次の事象や接尾辞の予測、残時間、結果に関連する変数など、様々なタスクに取り組むために提案されている。
recurrent neural networks (rnns)、特にlong short-term memory nets (lstms)は人気の点で際立っている。
本研究では、イベントログの基盤となるプロセスモデル構造を実際に学習するLSTMの機能について検討する。
本稿では,適合度,精度,一般化のために,変分に基づく再サンプリングとカスタムメトリクスを組み合わせた評価フレームワークを提案する。
LSTMの学習能力,オーバーフィッティング対策の効果,トレーニングセットの不完全性レベル,基礎となるプロセスモデルにおける並列性レベルに関する4つの仮説を評価した。
LSTMは、単純化されたプロセスデータや非常に寛大なセットアップであっても、プロセスモデル構造を学ぶのに苦労する。
正しいオーバーフィッティング対策をとることで問題を緩和できる。
しかし、これらの測定値は、精度の予測において純粋にハイパーパラメータを選択する際に最適であるとは示さなかった。
また,トレーニング中にLSTMで見られる情報量が減少すると,一般化や精度の低下が生じた。
我々の実験では、モデルにおける並列性の程度と一般化能力の関係は特定できなかったが、プロセスの複雑さが影響する可能性があることを示している。 Various methods using machine and deep learning have been proposed to tackle different tasks in predictive process monitoring, forecasting for an ongoing case e.g. the most likely next event or suffix, its remaining time, or an outcome-related variable. Recurrent neural networks (RNNs), and more specifically long short-term memory nets (LSTMs), stand out in terms of popularity. In this work, we investigate the capabilities of such an LSTM to actually learn the underlying process model structure of an event log. We introduce an evaluation framework that combines variant-based resampling and custom metrics for fitness, precision and generalization. We evaluate 4 hypotheses concerning the learning capabilities of LSTMs, the effect of overfitting countermeasures, the level of incompleteness in the training set and the level of parallelism in the underlying process model. We confirm that LSTMs can struggle to learn process model structure, even with simplistic process data and in a very lenient setup. Taking the correct anti-overfitting measures can alleviate the problem. However, these measures did not present themselves to be optimal when selecting hyperparameters purely on predicting accuracy. We also found that decreasing the amount of information seen by the LSTM during training, causes a sharp drop in generalization and precision scores. In our experiments, we could not identify a relationship between the extent of parallelism in the model and the generalization capability, but they do indicate that the process' complexity might have impact. | 翻訳日:2022-12-14 15:14:28 公開日:2022-12-13 |
# グラフだけ残す - 過剰スキャッシングをリワイリングせずに解決する Leave Graphs Alone: Addressing Over-Squashing without Rewiring ( http://arxiv.org/abs/2212.06538v1 ) ライセンス: Link先を確認 | Domenico Tortorella, Alessio Micheli | (参考訳) 最近の研究は、メッセージパスグラフニューラルネットワークにおける長距離情報伝播防止におけるグラフボトルネックの役割を調査し、いわゆる「オーバー・スカッシング」現象を引き起こしている。
対策として、前処理ステップとしてグラフ再配線機構が提案されている。
グラフエコー状態ネットワーク(graph echo state networks,gesns)は、ノード埋め込みを未学習のメッセージパッシング関数によって再帰的に計算するグラフのリザーバコンピューティングモデルである。
本稿では,GESNがグラフ接続を変更せずに6つのヘテロ親和性ノード分類タスクにおいて,より優れた精度を達成できることを示し,オーバーカッシング問題に対処するための異なる経路を提案する。 Recent works have investigated the role of graph bottlenecks in preventing long-range information propagation in message-passing graph neural networks, causing the so-called `over-squashing' phenomenon. As a remedy, graph rewiring mechanisms have been proposed as preprocessing steps. Graph Echo State Networks (GESNs) are a reservoir computing model for graphs, where node embeddings are recursively computed by an untrained message-passing function. In this paper, we show that GESNs can achieve a significantly better accuracy on six heterophilic node classification tasks without altering the graph connectivity, thus suggesting a different route for addressing the over-squashing problem. | 翻訳日:2022-12-14 15:14:03 公開日:2022-12-13 |
# 解釈可能性を失うことなく精度を向上させる:時系列予測のためのMLアプローチ Improving Accuracy Without Losing Interpretability: A ML Approach for Time Series Forecasting ( http://arxiv.org/abs/2212.06620v1 ) ライセンス: Link先を確認 | Yiqi Sun, Zhengxin Shi, Jianshen Zhang, Yongzhi Qi, Hao Hu, Zuojun Max Shen | (参考訳) 時系列予測において、分解に基づくアルゴリズムは、集約データを意味のある構成要素に分解し、解釈可能性において特に有利な点を高く評価する。
最近のアルゴリズムでは、予測精度を改善するために機械学習(以下、ML)の方法論と分解を組み合わせることが多い。
しかし、MLの導入は必然的に解釈可能性の犠牲になると考えられている。
さらに、既存のハイブリッドアルゴリズムは通常、統計的仮定を持つ理論モデルに依存し、集約予測の精度のみに焦点を当てているため、特に成分推定において精度の問題に直面する。
以上の問題に対して,時系列予測における解釈可能性を失うことなく精度向上の可能性を検討する。
まず、データ駆動予測の解釈可能性を定義し、解釈可能性の観点から既存の予測アルゴリズムを体系的にレビューする。
そこで本研究では,新しい視点から分解とmlを組み合わせたハイブリッドアルゴリズムであるw-rを提案する。
具体的には、W-Rアルゴリズムは標準加法結合関数を重み付き変種に置き換え、MLを使用して全てのコンポーネントの見積もりを同時に修正する。
アルゴリズムの理論的基礎を数学的に解析し,その性能を広範囲な数値実験により検証する。
一般に、w-rアルゴリズムはすべての分解ベースおよびmlベンチマークを上回る。
P50_QLに基づいて、このアルゴリズムはJD.comの実際の販売予測では8.76%、公共の電力負荷データセットでは77.99%の精度で比較的改善されている。
この研究は、統計アルゴリズムとMLアルゴリズムを組み合わせる革新的な視点を提供し、JD.comは正確な販売予測を行い、マーケティング活動を導くためにW-Rアルゴリズムを実装した。 In time series forecasting, decomposition-based algorithms break aggregate data into meaningful components and are therefore appreciated for their particular advantages in interpretability. Recent algorithms often combine machine learning (hereafter ML) methodology with decomposition to improve prediction accuracy. However, incorporating ML is generally considered to sacrifice interpretability inevitably. In addition, existing hybrid algorithms usually rely on theoretical models with statistical assumptions and focus only on the accuracy of aggregate predictions, and thus suffer from accuracy problems, especially in component estimates. In response to the above issues, this research explores the possibility of improving accuracy without losing interpretability in time series forecasting. We first quantitatively define interpretability for data-driven forecasts and systematically review the existing forecasting algorithms from the perspective of interpretability. Accordingly, we propose the W-R algorithm, a hybrid algorithm that combines decomposition and ML from a novel perspective. Specifically, the W-R algorithm replaces the standard additive combination function with a weighted variant and uses ML to modify the estimates of all components simultaneously. We mathematically analyze the theoretical basis of the algorithm and validate its performance through extensive numerical experiments. In general, the W-R algorithm outperforms all decomposition-based and ML benchmarks. Based on P50_QL, the algorithm relatively improves by 8.76% in accuracy on the practical sales forecasts of JD.com and 77.99% on a public dataset of electricity loads. This research offers an innovative perspective to combine the statistical and ML algorithms, and JD.com has implemented the W-R algorithm to make accurate sales predictions and guide its marketing activities. | 翻訳日:2022-12-14 15:13:38 公開日:2022-12-13 |
# AutoPV:事前学習モデルを用いた限られた情報による自動太陽光発電予測 AutoPV: Automated photovoltaic forecasts with limited information using an ensemble of pre-trained models ( http://arxiv.org/abs/2212.06797v1 ) ライセンス: Link先を確認 | Stefan Meisenbacher, Benedikt Heidrich, Tim Martin, Ralf Mikut, Veit Hagenmeyer | (参考訳) 正確な太陽光発電(PV)発電予測はスマートグリッドの効率的な運用に不可欠である。
このようなpvプラントの正確な予測モデルの自動設計には、2つの課題がある: まず、pv実装構成(傾斜角と方位角)に関する情報が欠落することが多い。
第2に,新しいPVプラントでは,予測モデルのトレーニングに利用可能な履歴データの量は限られている(コールドスタート問題)。
本稿では,この2つの課題に,AutoPVと呼ばれる日頭PV発電予測の新しい手法を提案する。
AutoPVは、異なるPV配置を表す予測モデルの重み付けアンサンブルである。
この表現は、それぞれの予測モデルを別々のPVプラントで事前学習し、対応するPVプラントのピークパワーレーティングでモデル出力をスケールすることで達成される。
コールドスタート問題に対処するために、まず、各予測モデルをアンサンブルで等しく重み付けする。
PVの設置構成に関する情報不足に対処するため,動作中に利用可能な新しいデータを用いてアンサンブル重みを適応し,予測誤差を最小化する。
未知のPV搭載構成がアンサンブル重みに暗黙的に反映されるため、AutoPVは有利であり、アンサンブル出力を再スケールするにはPVプラントのピーク電力評価のみが必要である。
AutoPVはまた、重み付けに比例してこれらの実装構成を反映できるため、異なる屋根にパネルが配置されたPVプラントを様々なアライメントで表現することができる。
さらに、必要なコンピューティングメモリは、AutoPVを数百のPVプラントにスケーリングする際に分離される。
11のPVプラントを持つ現実世界のデータセットでは、AutoPVの精度は2年間のデータに基づいてトレーニングされたモデルに匹敵し、漸進的に訓練されたモデルを上回る。 Accurate PhotoVoltaic (PV) power generation forecasting is vital for the efficient operation of Smart Grids. The automated design of such accurate forecasting models for individual PV plants includes two challenges: First, information about the PV mounting configuration (i.e. inclination and azimuth angles) is often missing. Second, for new PV plants, the amount of historical data available to train a forecasting model is limited (cold-start problem). We address these two challenges by proposing a new method for day-ahead PV power generation forecasts called AutoPV. AutoPV is a weighted ensemble of forecasting models that represent different PV mounting configurations. This representation is achieved by pre-training each forecasting model on a separate PV plant and by scaling the model's output with the peak power rating of the corresponding PV plant. To tackle the cold-start problem, we initially weight each forecasting model in the ensemble equally. To tackle the problem of missing information about the PV mounting configuration, we use new data that become available during operation to adapt the ensemble weights to minimize the forecasting error. AutoPV is advantageous as the unknown PV mounting configuration is implicitly reflected in the ensemble weights, and only the PV plant's peak power rating is required to re-scale the ensemble's output. AutoPV also allows to represent PV plants with panels distributed on different roofs with varying alignments, as these mounting configurations can be reflected proportionally in the weighting. Additionally, the required computing memory is decoupled when scaling AutoPV to hundreds of PV plants, which is beneficial in Smart Grids with limited computing capabilities. For a real-world data set with 11 PV plants, the accuracy of AutoPV is comparable to a model trained on two years of data and outperforms an incrementally trained model. | 翻訳日:2022-12-14 15:12:53 公開日:2022-12-13 |
# 物体検出のためのCNN-transformer混合モデル CNN-transformer mixed model for object detection ( http://arxiv.org/abs/2212.06714v1 ) ライセンス: Link先を確認 | Wenshuo Li | (参考訳) コンピュータビジョンの主要な3つのタスクの1つであるオブジェクト検出は、様々なアプリケーションで使われている。
主なプロセスは、ディープニューラルネットワークを使って画像の特徴を抽出し、その特徴を使ってオブジェクトのクラスと位置を特定することである。
したがって、物体検出タスクの精度を向上させる主な方向は、ニューラルネットワークを改善して特徴を抽出することである。
本稿では,cnn[2]によって抽出された詳細な特徴をトランスフォーマによって抽出された大域的な特徴と融合させることにより,モデルの認識精度を向上させることを目的とした,トランスフォーマの畳み込みモジュールを提案する。
主な実行ステップは、機能マップのサイズを減らすための畳み込みダウンサンプリング、そしてセルフアテンション計算とアップサンプリング、そして最終的に最初の入力と結合である。
実験では、ブロックをyolov5n[3]の終端にスプライシングし、cocoデータセット上で300エポックをトレーニングした後、以前のyolov5nと比較して1.7%改善し、地図曲線は飽和現象を示さなかったため、改善の可能性はまだある。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用するRCNN[4]よりも4.6良いが、パラメータの数は20分の1以下である。 Object detection, one of the three main tasks of computer vision, has been used in various applications. The main process is to use deep neural networks to extract the features of an image and then use the features to identify the class and location of an object. Therefore, the main direction to improve the accuracy of object detection tasks is to improve the neural network to extract features better. In this paper, I propose a convolutional module with a transformer[1], which aims to improve the recognition accuracy of the model by fusing the detailed features extracted by CNN[2] with the global features extracted by a transformer and significantly reduce the computational effort of the transformer module by deflating the feature mAP. The main execution steps are convolutional downsampling to reduce the feature map size, then self-attention calculation and upsampling, and finally concatenation with the initial input. In the experimental part, after splicing the block to the end of YOLOv5n[3] and training 300 epochs on the coco dataset, the mAP improved by 1.7% compared with the previous YOLOv5n, and the mAP curve did not show any saturation phenomenon, so there is still potential for improvement. After 100 rounds of training on the Pascal VOC dataset, the accuracy of the results reached 81%, which is 4.6 better than the faster RCNN[4] using resnet101[5] as the backbone, but the number of parameters is less than one-twentieth of it. | 翻訳日:2022-12-14 15:06:46 公開日:2022-12-13 |
# ビジョントランスフォーマーは何を学べるか?
視覚的な探究 What do Vision Transformers Learn? A Visual Exploration ( http://arxiv.org/abs/2212.06727v1 ) ライセンス: Link先を確認 | Amin Ghiasi, Hamid Kazemi, Eitan Borgnia, Steven Reich, Manli Shu, Micah Goldblum, Andrew Gordon Wilson, Tom Goldstein | (参考訳) ビジョントランスフォーマー(ViT)は、急速にコンピュータビジョンのデファクトアーキテクチャになりつつあるが、その理由と学習内容についてはほとんど理解していない。
既存の研究は畳み込みニューラルネットワークのメカニズムを視覚的に分析しているが、vitsの類似の探索は依然として困難である。
本稿では、まず、ViT上で可視化を行う際の障害に対処する。
これらのソリューションによって、言語モデル監視(例えば、CLIP)で訓練されたViTのニューロンは、視覚的特徴よりも意味論的概念によって活性化される。
また,vitsとcnnの違いについても検討し,トランスフォーマは畳み込み画像と同様に背景特徴を検出するが,その予測は高周波情報に依存しないことがわかった。
一方、両方のアーキテクチャタイプは、初期レイヤの抽象パターンから後期レイヤの具体的なオブジェクトまで、機能の進行の仕方で同じように振る舞う。
さらに, 最終層を除くすべての層において, ViT が空間情報を保持していることを示す。
従来の研究とは対照的に,最終層は空間情報を破棄し,学習したグローバルプール操作として振る舞う可能性が最も高い。
最後に、DeiT、CoaT、ConViT、PiT、Swin、Twinを含む広範囲なViT変種に対して大規模な可視化を行い、本手法の有効性を検証する。 Vision transformers (ViTs) are quickly becoming the de-facto architecture for computer vision, yet we understand very little about why they work and what they learn. While existing studies visually analyze the mechanisms of convolutional neural networks, an analogous exploration of ViTs remains challenging. In this paper, we first address the obstacles to performing visualizations on ViTs. Assisted by these solutions, we observe that neurons in ViTs trained with language model supervision (e.g., CLIP) are activated by semantic concepts rather than visual features. We also explore the underlying differences between ViTs and CNNs, and we find that transformers detect image background features, just like their convolutional counterparts, but their predictions depend far less on high-frequency information. On the other hand, both architecture types behave similarly in the way features progress from abstract patterns in early layers to concrete objects in late layers. In addition, we show that ViTs maintain spatial information in all layers except the final layer. In contrast to previous works, we show that the last layer most likely discards the spatial information and behaves as a learned global pooling operation. Finally, we conduct large-scale visualizations on a wide range of ViT variants, including DeiT, CoaT, ConViT, PiT, Swin, and Twin, to validate the effectiveness of our method. | 翻訳日:2022-12-14 15:06:15 公開日:2022-12-13 |
# 接続性制約付きインタラクティブパノプティカルセグメンテーション Connectivity-constrained Interactive Panoptic Segmentation ( http://arxiv.org/abs/2212.06756v1 ) ライセンス: Link先を確認 | Ruobing Shen, Bo Tang, Andrea Lodi, Ismail Ben Ayed, Thomas Guthier | (参考訳) 我々はインタラクティブなpanopticアノテーションに対処し、画像内のすべてのオブジェクトとモノの領域を分割する。
本稿では,各領域の接続を強制する2つのグラフベースセグメンテーションアルゴリズムと,大域的最適性を保証するilp(class-aware integer linear programming)定式化について検討する。
どちらのアルゴリズムも、ターゲットデータセットでトレーニングされたかどうかに関わらず、RGBを取るか、DCNNからフィーチャーマップを利用することができる。
次に,対話型でスクリブルなアノテーションフレームワークを提案する。 We address interactive panoptic annotation, where one segment all object and stuff regions in an image. We investigate two graph-based segmentation algorithms that both enforce connectivity of each region, with a notable class-aware Integer Linear Programming (ILP) formulation that ensures global optimum. Both algorithms can take RGB, or utilize the feature maps from any DCNN, whether trained on the target dataset or not, as input. We then propose an interactive, scribble-based annotation framework. | 翻訳日:2022-12-14 15:05:51 公開日:2022-12-13 |
# NBAの展望について何か教えてくれる?
--深層学習アプローチ Can a face tell us anything about an NBA prospect? -- A Deep Learning approach ( http://arxiv.org/abs/2212.06804v1 ) ライセンス: Link先を確認 | Andreas Gavros and Foteini Gavrou | (参考訳) 統計分析とモデリングは世界のトップ組織、特にプロNBAチームの間で人気が高まっている。
スポーツタレント評価の洗練された手法やモデルが作成されている。
本研究では,統計的データ分析の主流戦略と異なる視点を提示する。
nbaチームが過去にフォローした戦略に基づき、人間のプロフェッショナルを雇い、画像分析と畳み込みニューラルネットワークを配置し、ドラフトクラスごとに新しくドラフトされた選手のキャリアの軌跡を予測します。
1990年以降、ドラフト毎の選手の約1500の画像データからなるデータベースを構築した。
その後、NBAのキャリアに基づいて、プレイヤーを5つの異なる品質クラスに分けました。
次に、我々のデータで人気のある事前学習画像分類モデルを訓練し、新人選手のキャリアを確実に予測するモデルを作成するために、一連のテストを実施した。
本研究の結果,顔の特徴と運動能力との間には潜在的な相関があることが示唆された。 Statistical analysis and modeling is becoming increasingly popular for the world's leading organizations, especially for professional NBA teams. Sophisticated methods and models of sport talent evaluation have been created for this purpose. In this research, we present a different perspective from the dominant tactic of statistical data analysis. Based on a strategy that NBA teams have followed in the past, hiring human professionals, we deploy image analysis and Convolutional Neural Networks in an attempt to predict the career trajectory of newly drafted players from each draft class. We created a database consisting of about 1500 image data from players from every draft since 1990. We then divided the players into five different quality classes based on their expected NBA career. Next, we trained popular pre-trained image classification models in our data and conducted a series of tests in an attempt to create models that give reliable predictions of the rookie players' careers. The results of this study suggest that there is a potential correlation between facial characteristics and athletic talent, worth of further investigation. | 翻訳日:2022-12-14 15:05:42 公開日:2022-12-13 |
# 可照・アニマタブルアバターの再構成のための構造的3次元特徴 Structured 3D Features for Reconstructing Relightable and Animatable Avatars ( http://arxiv.org/abs/2212.06820v1 ) ライセンス: Link先を確認 | Enric Corona, Mihai Zanfir, Thiemo Alldieck, Eduard Gabriel Bazavan, Andrei Zanfir, Cristian Sminchisescu | (参考訳) パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
3Dポイントは関連する意味を持ち、3D空間で自由に移動することができる。
これにより、身体の形状だけでなく、興味のある人物の最適なカバーが可能になり、さらにアクセサリー、髪、ゆるい衣服のモデリングにも役立ちます。
そこで本研究では,アルベドと照明分解を併用したアニマタブルな3次元再構成を,一方のエンド・ツー・エンドモデル,訓練された半教師付きセミプロセッサ,追加のポストプロセッシングを伴わない,完全な3次元トランスフォーマーベースのアテンション・フレームワークを提案する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
さらに,提案手法では,新しい視点合成,リライト,再構成が可能であり,複数の入力画像(例えば,人物の異なる視点,あるいは同じ視点を異なるポーズで,映像内で)を自然に処理できるように拡張できることを示す。
最後に,3次元仮想トライオンアプリケーションのためのモデルの編集機能を示す。 We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications. | 翻訳日:2022-12-14 15:05:27 公開日:2022-12-13 |
# マッチングの前に見る - ビデオオブジェクトのセグメンテーションにおけるインスタンス理解の問題 Look Before You Match: Instance Understanding Matters in Video Object Segmentation ( http://arxiv.org/abs/2212.06826v1 ) ライセンス: Link先を確認 | Junke Wang and Dongdong Chen and Zuxuan Wu and Chong Luo and Chuanxin Tang and Xiyang Dai and Yucheng Zhao and Yujia Xie and Lu Yuan and Yu-Gang Jiang | (参考訳) 長期コンテキストモデリングのための現在のフレームと過去のフレームの密マッチングを探索するメモリベース手法は,近年,ビデオオブジェクトセグメンテーション(VOS)において顕著な結果を示した。
それでも、インスタンス理解能力の欠如により、上記のアプローチは、しばしばオブジェクトやカメラの移動によって生じる大きな外観の変化や視点の変化に対して脆弱である。
本稿では、VOSにおけるインスタンス理解の問題と、それをメモリベースのマッチングに統合することで、VOSタスクの定義から直感的に理解できる相乗効果を享受し、ビデオ内のオブジェクトインスタンスを識別し、セグメンテーションすることができることを論じる。
この目標に向けて,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
私たちは、インスタンス固有の情報をクエリキーに注入するために、isブランチからよく学習されたオブジェクトクエリを使用します。
さらに、メモリ読み出しとインスタンスセグメンテーションデコーダのマルチスケール機能とを効果的に組み合わせたマルチパス融合ブロックを導入し、最終的なセグメンテーション結果を生成する。
DAVIS 2016/2017 val (92.6%, 87.1%), DAVIS 2017 test-dev (82.8%), YouTube-VOS 2018/2019 val (86.3%, 86.3%) の最先端性能を達成し, 明確なマージンによる代替手法よりも優れていた。 Exploring dense matching between the current frame and past frames for long-range context modeling, memory-based methods have demonstrated impressive results in video object segmentation (VOS) recently. Nevertheless, due to the lack of instance understanding ability, the above approaches are oftentimes brittle to large appearance variations or viewpoint changes resulted from the movement of objects and cameras. In this paper, we argue that instance understanding matters in VOS, and integrating it with memory-based matching can enjoy the synergy, which is intuitively sensible from the definition of VOS task, \ie, identifying and segmenting object instances within the video. Towards this goal, we present a two-branch network for VOS, where the query-based instance segmentation (IS) branch delves into the instance details of the current frame and the VOS branch performs spatial-temporal matching with the memory bank. We employ the well-learned object queries from IS branch to inject instance-specific information into the query key, with which the instance-augmented matching is further performed. In addition, we introduce a multi-path fusion block to effectively combine the memory readout with multi-scale features from the instance segmentation decoder, which incorporates high-resolution instance-aware features to produce final segmentation results. Our method achieves state-of-the-art performance on DAVIS 2016/2017 val (92.6% and 87.1%), DAVIS 2017 test-dev (82.8%), and YouTube-VOS 2018/2019 val (86.3% and 86.3%), outperforming alternative methods by clear margins. | 翻訳日:2022-12-14 15:05:02 公開日:2022-12-13 |
# InferEM:共感的対話生成のための話者意図の推測 InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation ( http://arxiv.org/abs/2212.06373v1 ) ライセンス: Link先を確認 | Guoqing Lv, Xiaoping Wang, Jiang Li, Zhigang Zeng | (参考訳) 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。
これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。
我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。
そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。
我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。
さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。
発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。
実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。 Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression. | 翻訳日:2022-12-14 15:04:28 公開日:2022-12-13 |
# リサン:イエメン、イルキ、リビア、スーダンのアラビア語方言コポラ Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with Morphological Annotations ( http://arxiv.org/abs/2212.06468v1 ) ライセンス: Link先を確認 | Mustafa Jarrar and Fadi A Zaraket and Tymaa Hammouda and Daanish Masood Alavi and Martin Waahlisch | (参考訳) この記事では、イエメン語、スーダン語、イラク語、リビアのアラビア語方言lisan corporaについて述べる。
Lisanには120万のトークンがある。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
Yemeni corpus(約1.05Mトークン)はTwitterから自動的に収集された。
他の3つの方言(それぞれ約50Kトークン)のコーパスは、FacebookとYouTubeの投稿とコメントから手動で作成されている。
対象方言の母語話者である30名(35名)のアノテータがアノテーションを実行した。
注釈者は4つのコーパスのすべての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
アラビア方言注釈ツールキット ADAT は、このアンネーションのために開発された。
アノテーションは一連のガイドラインとADATの使用方法に基づいて訓練された。
我々は、アノテーションを補助し、SAMAやCurrasのタグセットとの互換性を確保するためにADATを開発した。
このツールはオープンソースで、4つのコーパスもオンラインで入手できる。 This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several social media platforms. The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter. The corpora of the other three dialects (~ 50K tokens each) came manually from Facebook and YouTube posts and comments. Thirty five (35) annotators who are native speakers of the target dialects carried out the annotations. The annotators segemented all words in the four corpora into prefixes, stems and suffixes and labeled each with different morphological features such as part of speech, lemma, and a gloss in English. An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the annation. The annotators were trained on a set of guidelines and on how to use ADAT. We developed ADAT to assist the annotators and to ensure compatibility with SAMA and Curras tagsets. The tool is open source, and the four corpora are also available online. | 翻訳日:2022-12-14 15:04:12 公開日:2022-12-13 |
# ヘテロジニアスなソーシャルメディアコンテキストグラフを用いた偽ニュース検出の検討 Exploring Fake News Detection with Heterogeneous Social Media Context Graphs ( http://arxiv.org/abs/2212.06560v1 ) ライセンス: Link先を確認 | Gregor Donabauer, Udo Kruschwitz | (参考訳) フェイクニュースの検出は、社会全体に直接的な影響を与えるため、純粋に学術的な関心を超える研究領域となっている。
最近の進歩は主にテキストベースのアプローチに焦点を当てている。
しかし, ソーシャルメディア上でのニュース記事の行動の拡散やユーザインタラクションのパターンなど, 文脈情報の追加が, 効果的であることは明らかになっている。
本稿では,ニュース記事にまつわる異質なソーシャルコンテキストグラフを構築し,問題をグラフ分類タスクとして再構築することを提案する。
異なる種類の情報(どのレベルのソーシャルコンテキストが最も効果的かというアイデアを得るために)の取り込みを探求し、異なるグラフニューラルネットワークアーキテクチャを使用することは、このアプローチが共通のベンチマークデータセットで堅牢な結果に対して非常に有効であることを示している。 Fake news detection has become a research area that goes way beyond a purely academic interest as it has direct implications on our society as a whole. Recent advances have primarily focused on textbased approaches. However, it has become clear that to be effective one needs to incorporate additional, contextual information such as spreading behaviour of news articles and user interaction patterns on social media. We propose to construct heterogeneous social context graphs around news articles and reformulate the problem as a graph classification task. Exploring the incorporation of different types of information (to get an idea as to what level of social context is most effective) and using different graph neural network architectures indicates that this approach is highly effective with robust results on a common benchmark dataset. | 翻訳日:2022-12-14 15:03:56 公開日:2022-12-13 |
# 自然言語処理のカテゴリー化ツール Categorical Tools for Natural Language Processing ( http://arxiv.org/abs/2212.06636v1 ) ライセンス: Link先を確認 | Giovanni de Felice | (参考訳) この論文は、自然言語処理の基礎としてカテゴリ理論と計算言語学の間の翻訳を発展させている。
3章は構文、意味論、実践論を扱う。
まず、文字列ダイアグラムは形式文法における構文構造の統一モデルを提供する。
第二に、関手は図を論理、テンソル、ニューラルまたは量子計算に変換することによって意味論を計算する。
第三に、結果として得られる関手モデルは、平衡が言語処理タスクの解となるゲームを形成するように構成できる。
このフレームワークは、文字列ダイアグラムで計算するPythonライブラリであるDisCoPyの一部として実装されている。
分類的,言語的,計算的構造間の対応について記述し,その構成自然言語処理への応用を実証する。 This thesis develops the translation between category theory and computational linguistics as a foundation for natural language processing. The three chapters deal with syntax, semantics and pragmatics. First, string diagrams provide a unified model of syntactic structures in formal grammars. Second, functors compute semantics by turning diagrams into logical, tensor, neural or quantum computation. Third, the resulting functorial models can be composed to form games where equilibria are the solutions of language processing tasks. This framework is implemented as part of DisCoPy, the Python library for computing with string diagrams. We describe the correspondence between categorical, linguistic and computational structures, and demonstrate their applications in compositional natural language processing. | 翻訳日:2022-12-14 15:03:43 公開日:2022-12-13 |
# 自己監督型視覚表現学習のためのセマンティック一貫性のある特徴探索 Semantics-Consistent Feature Search for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2212.06486v1 ) ライセンス: Link先を確認 | Kaiyou Song, Shan Zhang, Zihao An, Zimeng Luo, Tong Wang, Jin Xie | (参考訳) 対照的に自己監督的な学習では、識別的表現を学習する一般的な方法は、同じ画像の異なる拡張された「ビュー」を引き寄せながら、他の全ての画像をさらに切り離すことである。
しかし、拡張手順中に異なる意味概念を含む望ましくないビューを構築することは避けられない。
この拡張を特徴空間に無差別に近づけるために、表現の意味的一貫性を損なうことになる。
本研究では,特徴量の増大と,この負の効果を緩和する新しい意味論的特徴探索(SCFS)手法を提案する。
scfsの主な考え方は、セマンティクス一貫性のある特徴を適応的に検索し、異なる拡張でセマンティクス一貫性のある領域間のコントラストを強化することである。
したがって、トレーニングされたモデルは意味のあるオブジェクト領域に集中することを学び、セマンティックな表現能力を向上させることができる。
さまざまなデータセットやタスクで実施された大規模な実験は、SCFSが自己教師付き学習の性能を効果的に改善し、下流タスクにおける最先端のパフォーマンスを達成することを示した。 In contrastive self-supervised learning, the common way to learn discriminative representation is to pull different augmented "views" of the same image closer while pushing all other images further apart, which has been proven to be effective. However, it is unavoidable to construct undesirable views containing different semantic concepts during the augmentation procedure. It would damage the semantic consistency of representation to pull these augmentations closer in the feature space indiscriminately. In this study, we introduce feature-level augmentation and propose a novel semantics-consistent feature search (SCFS) method to mitigate this negative effect. The main idea of SCFS is to adaptively search semantics-consistent features to enhance the contrast between semantics-consistent regions in different augmentations. Thus, the trained model can learn to focus on meaningful object regions, improving the semantic representation ability. Extensive experiments conducted on different datasets and tasks demonstrate that SCFS effectively improves the performance of self-supervised learning and achieves state-of-the-art performance on different downstream tasks. | 翻訳日:2022-12-14 14:58:25 公開日:2022-12-13 |
# Pixelは本当に必要なもの:正反対物体検出のための対向軌道アンサンブル能動学習 Pixel is All You Need: Adversarial Trajectory-Ensemble Active Learning for Salient Object Detection ( http://arxiv.org/abs/2212.06493v1 ) ライセンス: Link先を確認 | Zhenyu Wu, Lin Wang, Wei Wang, Qing Xia, Chenglizhao Chen, Aimin Hao, Shuo Li | (参考訳) 弱い教師付き技術はラベル付けの労力を減らすことができるが、弱い教師付きデータ(例えばポイントアノテーション)で訓練されたサリエンシモデルがその完全教師付きバージョンの同等のパフォーマンスを達成できるかどうかは不明である。
本稿では,この仮説を証明して,探索されていない疑問に答えようと試みる: 高度に注釈付けされたデータセットでトレーニングされたサリエンシモデルが同等のパフォーマンスを達成できるような,ポイントラベル付きデータセットが存在する。
この仮説を証明するために,我々は,新しい対向軌道アンサンブルアクティブラーニング(ATAL)を提案した。
1) 不確実性を引き起こす敵攻撃は,既存のアクティブラーニング手法の過信を克服し,これらの不確実性画素を正確に特定できる。
2)} 提案手法は,計算コストを大幅に削減しつつ,アンサンブルネットワークの利点を維持している。
</3> 提案アルゴリズムは,性能を向上しつつ,オーバーサンプリングを克服する。
実験結果から,当社のALTは,画像毎に10点のアノテートポイントしか持たない完全教師付きバージョンのパフォーマンスを9,7 %$ --99 %$で取得した,このようなポイントラベル付きデータセットを見つけることができた。 Although weakly-supervised techniques can reduce the labeling effort, it is unclear whether a saliency model trained with weakly-supervised data (e.g., point annotation) can achieve the equivalent performance of its fully-supervised version. This paper attempts to answer this unexplored question by proving a hypothesis: there is a point-labeled dataset where saliency models trained on it can achieve equivalent performance when trained on the densely annotated dataset. To prove this conjecture, we proposed a novel yet effective adversarial trajectory-ensemble active learning (ATAL). Our contributions are three-fold: 1) Our proposed adversarial attack triggering uncertainty can conquer the overconfidence of existing active learning methods and accurately locate these uncertain pixels. {2)} Our proposed trajectory-ensemble uncertainty estimation method maintains the advantages of the ensemble networks while significantly reducing the computational cost. {3)} Our proposed relationship-aware diversity sampling algorithm can conquer oversampling while boosting performance. Experimental results show that our ATAL can find such a point-labeled dataset, where a saliency model trained on it obtained $97\%$ -- $99\%$ performance of its fully-supervised version with only ten annotated points per image. | 翻訳日:2022-12-14 14:58:03 公開日:2022-12-13 |
# DifFace:Diffused Error Contractionによるブラインド顔修復 DifFace: Blind Face Restoration with Diffused Error Contraction ( http://arxiv.org/abs/2212.06512v1 ) ライセンス: Link先を確認 | Zongsheng Yue and Chen Change Loy | (参考訳) 深層学習に基づく顔の復元は前例のない成功を収めているが、それでも2つの大きな制限に苦しめられている。
まず、トレーニングデータから複雑な劣化に直面すると、ほとんどが劣化する。
第二に、これらの手法は複数の制約(例えば、忠実さ、知覚的損失、および敵対的損失)を必要とする。
本研究では,複雑な損失設計を伴わずに,目に見えない複雑な劣化に対処できるDifFaceという新しい手法を提案する。
本手法の鍵は,観測された低品質(LQ)画像から高品質(HQ)画像への後部分布を確立することである。
特に、lq画像からプリトレーニング拡散モデルの中間状態への遷移分布を設計後、プリトレーニング拡散モデルを繰り返し適用することにより、この中間状態からhqターゲットへ徐々に伝達する。
遷移分布は、いくつかの合成データに対して$L_2$の損失でトレーニングされた復元バックボーンにのみ依存する。
さらに, 遷移分布は復元バックボーンの誤差を負うため, 未知の劣化に対してより頑健な手法となる。
総合的な実験により、DifFaceは最先端の手法よりも優れていることが示される。
私たちのコードとモデルはhttps://github.com/zsyoaoa/diffaceで利用可能です。 While deep learning-based methods for blind face restoration have achieved unprecedented success, they still suffer from two major limitations. First, most of them deteriorate when facing complex degradations out of their training data. Second, these methods require multiple constraints, e.g., fidelity, perceptual, and adversarial losses, which require laborious hyper-parameter tuning to stabilize and balance their influences. In this work, we propose a novel method named DifFace that is capable of coping with unseen and complex degradations more gracefully without complicated loss designs. The key of our method is to establish a posterior distribution from the observed low-quality (LQ) image to its high-quality (HQ) counterpart. In particular, we design a transition distribution from the LQ image to the intermediate state of a pre-trained diffusion model and then gradually transmit from this intermediate state to the HQ target by recursively applying a pre-trained diffusion model. The transition distribution only relies on a restoration backbone that is trained with $L_2$ loss on some synthetic data, which favorably avoids the cumbersome training process in existing methods. Moreover, the transition distribution can contract the error of the restoration backbone and thus makes our method more robust to unknown degradations. Comprehensive experiments show that DifFace is superior to current state-of-the-art methods, especially in cases with severe degradations. Our code and model are available at https://github.com/zsyOAOA/DifFace. | 翻訳日:2022-12-14 14:57:37 公開日:2022-12-13 |
# SST : 空間的・時間的疎結合による実時間終端モノクロ3次元再構成 SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse Spatial-Temporal Guidance ( http://arxiv.org/abs/2212.06524v1 ) ライセンス: Link先を確認 | Chenyangguang Zhang, Zhiqiang Lou, Yan Di, Federico Tombari and Xiangyang Ji | (参考訳) 実時間単眼3次元再構成は未解決の課題である。
最近のエンド・ツー・エンドの手法は有望な結果を示しているが、空間的詳細を無視し、時間的手がかりを無視する過度に単純化された特徴融合のため、小さな構造や幾何学的境界はほとんど捉えられない。
この問題を解決するために,視覚SLAMシステムからのスパース推定点を付加空間誘導として利用し,新たなモーダルアテンション機構により時間的特徴を融合し,より詳細な再構築結果を得る,エンドツーエンド3D再構築ネットワークSSTを提案する。
我々は,多視点カラー情報やスパース先行情報からより情報的空間時間的手がかりを利用するローカル空間時間フュージョンモジュールと,世界フレームモデルを用いて局所TSDF量を粗大から微少に改善するグローバル空間時間フュージョンモジュールを提案する。
ScanNetと7-Scenesの大規模な実験は、SSTが59FPSで高い推論速度を維持しながら、すべての最先端の競合より優れていることを示した。 Real-time monocular 3D reconstruction is a challenging problem that remains unsolved. Although recent end-to-end methods have demonstrated promising results, tiny structures and geometric boundaries are hardly captured due to their insufficient supervision neglecting spatial details and oversimplified feature fusion ignoring temporal cues. To address the problems, we propose an end-to-end 3D reconstruction network SST, which utilizes Sparse estimated points from visual SLAM system as additional Spatial guidance and fuses Temporal features via a novel cross-modal attention mechanism, achieving more detailed reconstruction results. We propose a Local Spatial-Temporal Fusion module to exploit more informative spatial-temporal cues from multi-view color information and sparse priors, as well a Global Spatial-Temporal Fusion module to refine the local TSDF volumes with the world-frame model from coarse to fine. Extensive experiments on ScanNet and 7-Scenes demonstrate that SST outperforms all state-of-the-art competitors, whilst keeping a high inference speed at 59 FPS, enabling real-world applications with real-time requirements. | 翻訳日:2022-12-14 14:57:13 公開日:2022-12-13 |
# マルチタスク学習を用いた身体セグメンテーション Body Segmentation Using Multi-task Learning ( http://arxiv.org/abs/2212.06550v1 ) ライセンス: Link先を確認 | Julijan Jug, Ajda Lampe, Vitomir \v{S}truc, Peter Peer | (参考訳) ボディセグメンテーションは、人間の画像を含む多くのコンピュータビジョン問題において重要なステップであり、全ての下流タスクのパフォーマンスに影響を与える重要なコンポーネントの1つである。
様々なタスク間の相関を利用してセグメンテーション性能を改善するマルチタスクモデルを用いて、いくつかの先行研究がこの問題にアプローチしている。
このようなソリューションの成功に基づいて,本稿では3つのタスクを含む人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
(i)キーポイントに基づく骨格推定
(ii)濃厚なポーズ予測、及び
(iii)人体セグメンテーション。
提案されているセグメンテーション-Pose-DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
spdは、共有ディープニューラルネットワークバックボーンに基づいて、3つのタスク固有のモデルヘッドに分岐し、マルチタスク最適化の目的を使って学習される。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
包括的アブレーション研究も行われている。
実験結果から,提案したマルチタスク(セグメンテーション)モデルは非常に競争力が高く,さらにタスクの追加が全体のセグメンテーション性能の向上に寄与することが示唆された。 Body segmentation is an important step in many computer vision problems involving human images and one of the key components that affects the performance of all downstream tasks. Several prior works have approached this problem using a multi-task model that exploits correlations between different tasks to improve segmentation performance. Based on the success of such solutions, we present in this paper a novel multi-task model for human segmentation/parsing that involves three tasks, i.e., (i) keypoint-based skeleton estimation, (ii) dense pose prediction, and (iii) human-body segmentation. The main idea behind the proposed Segmentation--Pose--DensePose model (or SPD for short) is to learn a better segmentation model by sharing knowledge across different, yet related tasks. SPD is based on a shared deep neural network backbone that branches off into three task-specific model heads and is learned using a multi-task optimization objective. The performance of the model is analysed through rigorous experiments on the LIP and ATR datasets and in comparison to a recent (state-of-the-art) multi-task body-segmentation model. Comprehensive ablation studies are also presented. Our experimental results show that the proposed multi-task (segmentation) model is highly competitive and that the introduction of additional tasks contributes towards a higher overall segmentation performance. | 翻訳日:2022-12-14 14:56:50 公開日:2022-12-13 |
# fastmim: 視覚訓練のためのマスク画像モデリングの迅速化 FastMIM: Expediting Masked Image Modeling Pre-training for Vision ( http://arxiv.org/abs/2212.06593v1 ) ライセンス: Link先を確認 | Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Yunhe Wang and Chang Xu | (参考訳) トランスフォーマーとマスク画像モデリング(mim)による事前学習フレームワークの組み合わせは、様々な視覚タスクにおいて大きな可能性を秘めている。
しかし、事前学習の予算は重すぎるため、MIMが実践的な訓練パラダイムになることを控えている。
本稿では,マスク画像モデリングの簡易かつ汎用的なフレームワークであるFastMIMについて,以下の2つのステップで述べる。
(i)低解像度入力画像による視力バックボーンの事前訓練
(2)入力画像のRGB値の代わりに,向き付け勾配(HOG)特徴のヒストグラムを再構成する。
さらに,FastMIM-Pは,事前学習段階における入力解像度を段階的に拡大し,高容量モデルの転送結果をさらに向上する。
私たちはこう指摘している。
(i)事前学習段階における幅広い入力解像度は、微調整段階及び検出・分割等の下流課題において同様の性能をもたらすことができる。
(ii)エンコーダの浅い層は、事前訓練中により重要であり、最後のいくつかの層は、微調整性能に害を及ぼさず、訓練段階を高速化することができる。
(iii)デコーダは、選択したネットワークのサイズと一致しなければならない。
(iv)HOGは解像度転送時のRGB値よりも安定である。
FastMIMと組み合わせることで、あらゆる種類の視覚バックボーンを効率的にトレーニングすることができる。
例えば、vit-b/swin-bをバックボーンとしてimagenet-1kで83.8%/84.1%のtop-1精度を達成できる。
従来の関連するアプローチと比較して、トレーニング手順を$\sim$5$\times$で加速しながら、同等またはより良いトップ1の精度を達成することができる。
コードはhttps://github.com/ggjy/FastMIM.pytorchにある。 The combination of transformers and masked image modeling (MIM) pre-training framework has shown great potential in various vision tasks. However, the pre-training computational budget is too heavy and withholds the MIM from becoming a practical training paradigm. This paper presents FastMIM, a simple and generic framework for expediting masked image modeling with the following two steps: (i) pre-training vision backbones with low-resolution input images; and (ii) reconstructing Histograms of Oriented Gradients (HOG) feature instead of original RGB values of the input images. In addition, we propose FastMIM-P to progressively enlarge the input resolution during pre-training stage to further enhance the transfer results of models with high capacity. We point out that: (i) a wide range of input resolutions in pre-training phase can lead to similar performances in fine-tuning phase and downstream tasks such as detection and segmentation; (ii) the shallow layers of encoder are more important during pre-training and discarding last several layers can speed up the training stage with no harm to fine-tuning performance; (iii) the decoder should match the size of selected network; and (iv) HOG is more stable than RGB values when resolution transfers;. Equipped with FastMIM, all kinds of vision backbones can be pre-trained in an efficient way. For example, we can achieve 83.8%/84.1% top-1 accuracy on ImageNet-1K with ViT-B/Swin-B as backbones. Compared to previous relevant approaches, we can achieve comparable or better top-1 accuracy while accelerate the training procedure by $\sim$5$\times$. Code can be found in https://github.com/ggjy/FastMIM.pytorch. | 翻訳日:2022-12-14 14:56:12 公開日:2022-12-13 |
# DELS-MVS:多視点ステレオのための深部エピポーラ線探索 DELS-MVS: Deep Epipolar Line Search for Multi-View Stereo ( http://arxiv.org/abs/2212.06626v1 ) ライセンス: Link先を確認 | Christian Sormann (1), Emanuele Santellani (1), Mattia Rossi (2), Andreas Kuhn (2), Friedrich Fraundorfer (1) ((1) Graz University of Technology, (2) Sony Europe B.V.) | (参考訳) 深層学習に基づくマルチビューステレオ(MVS)のための新しいアプローチを提案する。
参照画像の各画素に対して,提案手法は深層構造を利用して,対応するエピポーラ線に沿ってソース画像の対応する点を直接探索する。
DELS-MVS: Deep Epipolar Line Search Multi-View Stereoを示す。
ディープMVSにおける以前の研究は、深さ空間内での関心の範囲を選択し、それを識別し、その結果の深さ値に従ってエピポーラ線をサンプリングする。
その代わり、この手法はエピポーラ線に直接作用する:これは画像空間を偶発的に走査することを保証し、しばしば前もって知られておらず、シーンごとに劇的に変化する関心の深さ範囲を選択する必要性と、深度空間の適切な離散化の必要性の両方を回避できる。
実際、われわれの検索は反復的であり、コストボリュームの構築を避け、保存と処理の両方にコストがかかる。
最後に,推定深度マップのロバストな幾何認識融合を行い,各深さとともに予測される信頼度を活用する。
我々はETH3D, Tanks and Temples and DTUベンチマークでDELS-MVSをテストし、最先端のアプローチに関する競争結果を得た。 We propose a novel approach for deep learning-based Multi-View Stereo (MVS). For each pixel in the reference image, our method leverages a deep architecture to search for the corresponding point in the source image directly along the corresponding epipolar line. We denote our method DELS-MVS: Deep Epipolar Line Search Multi-View Stereo. Previous works in deep MVS select a range of interest within the depth space, discretize it, and sample the epipolar line according to the resulting depth values: this can result in an uneven scanning of the epipolar line, hence of the image space. Instead, our method works directly on the epipolar line: this guarantees an even scanning of the image space and avoids both the need to select a depth range of interest, which is often not known a priori and can vary dramatically from scene to scene, and the need for a suitable discretization of the depth space. In fact, our search is iterative, which avoids the building of a cost volume, costly both to store and to process. Finally, our method performs a robust geometry-aware fusion of the estimated depth maps, leveraging a confidence predicted alongside each depth. We test DELS-MVS on the ETH3D, Tanks and Temples and DTU benchmarks and achieve competitive results with respect to state-of-the-art approaches. | 翻訳日:2022-12-14 14:55:44 公開日:2022-12-13 |
# 相補ラベルを用いた半教師付き学習の促進 Boosting Semi-Supervised Learning with Contrastive Complementary Labeling ( http://arxiv.org/abs/2212.06643v1 ) ライセンス: Link先を確認 | Qinyi Deng, Yong Guo, Zhibang Yang, Haolin Pan, Jian Chen | (参考訳) semi-supervised learning (ssl) は、有望な分類法を学ぶために大量のラベルなしデータを活用することに成功している。
一般的なアプローチは疑似ラベルであり、信頼度の高いデータに対してのみ疑似ラベルを生成する。
信頼度の低いものについては、信頼できない擬似ラベルがモデルを誤解させる可能性があるため、既存のメソッドは単にそれらを捨てる。
それでも、信頼度の低い擬似ラベルを持つこれらのデータは、トレーニングプロセスに有用である。
特に、予測において最も高い確率を持つクラスは信頼できないが、このサンプルは最も低い確率を持つクラスに属する可能性が極めて低いと仮定できる。
このようにして、サンプルが属さないクラスなど、これらの補完ラベルを効果的に活用できれば、これらのデータも非常に有益なものになる。
そこで本研究では,これらのラベルに基づく信頼度の高い負のペアを多数構築し,すべてのラベルなしデータを利用するコントラスト学習を採用する,新しいコントラスト補完ラベル(ccl)手法を提案する。
大規模な実験により、CCLは既存のメソッド上での性能を大幅に改善することが示された。
さらに重要なのは、ラベルスカース設定で特に有効であることです。
例えば、CIFAR-10のFixMatchよりも2.43%改善され、40のラベル付きデータしかありません。 Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data. | 翻訳日:2022-12-14 14:55:20 公開日:2022-12-13 |
# 3次元セマンティックセグメンテーションのためのより深いマルチビュー機能融合を目指して Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation ( http://arxiv.org/abs/2212.06682v1 ) ライセンス: Link先を確認 | Chaolong Yang, Yuyao Yan, Weiguang Zhao, Jianan Ye, Xi Yang, Amir Hussain, Kaizhu Huang | (参考訳) 3次元点雲は幾何学的構造情報に富み、2次元画像は重要かつ連続的なテクスチャ情報を含んでいる。
より優れた3Dセマンティックセマンティックセグメンテーションを実現するために2D情報を組み合わせることは、3Dシーン理解において主流となっている。
成功にもかかわらず、これらの2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
既存の最先端技術は通常、双方向投影法を利用して、二次元の特徴を整列させ、2Dおよび3Dセマンティックセグメンテーションタスクを実現する。
しかし、双方向マッピングを実現するために、このフレームワークは対称な2D-3Dネットワーク構造を必要とすることが多く、ネットワークの柔軟性が制限される。
一方、このようなデュアルタスク設定はネットワークを混乱させやすくし、3Dセグメンテーションタスクの過度な適合につながる可能性がある。
ネットワークの柔軟性に制限されているため、融合した機能はデコーダネットワークを経由するしかなく、深度不足によるモデル性能に影響する。
これらの欠点を和らげるために,我々は,その単純さにもかかわらず,一方向的多視点の2d深層セマンティック機能を3d空間に投影することは,より優れた機能融合につながると論じている。
一方、一方向プロジェクションは、コアタスク、すなわち3次元セグメンテーションに焦点を当てたモデルを実行する。一方、双方向と一方向プロジェクションのアンロックは、より深いドメイン間セマンティックアライメントを可能にし、非常に異なる空間からより良い複雑な特徴を融合させる柔軟性を享受する。
3次元セマンティクスセグメンテーションのためのscannetv2ベンチマークにおいて,提案手法が優れた性能を得た。 3D point clouds are rich in geometric structure information, while 2D images contain important and continuous texture information. Combining 2D information to achieve better 3D semantic segmentation has become mainstream in 3D scene understanding. Albeit the success, it still remains elusive how to fuse and process the cross-dimensional features from these two distinct spaces. Existing state-of-the-art usually exploit bidirectional projection methods to align the cross-dimensional features and realize both 2D & 3D semantic segmentation tasks. However, to enable bidirectional mapping, this framework often requires a symmetrical 2D-3D network structure, thus limiting the network's flexibility. Meanwhile, such dual-task settings may distract the network easily and lead to over-fitting in the 3D segmentation task. As limited by the network's inflexibility, fused features can only pass through a decoder network, which affects model performance due to insufficient depth. To alleviate these drawbacks, in this paper, we argue that despite its simplicity, projecting unidirectionally multi-view 2D deep semantic features into the 3D space aligned with 3D deep semantic features could lead to better feature fusion. On the one hand, the unidirectional projection enforces our model focused more on the core task, i.e., 3D segmentation; on the other hand, unlocking the bidirectional to unidirectional projection enables a deeper cross-domain semantic alignment and enjoys the flexibility to fuse better and complicated features from very different spaces. In joint 2D-3D approaches, our proposed method achieves superior performance on the ScanNetv2 benchmark for 3D semantic segmentation. | 翻訳日:2022-12-14 14:54:59 公開日:2022-12-13 |
# Accidental Turntables: オブジェクトが回転するのを見て3D画像を学ぶ Accidental Turntables: Learning 3D Pose by Watching Objects Turn ( http://arxiv.org/abs/2212.06300v1 ) ライセンス: Link先を確認 | Zezhou Cheng, Matheus Gadelha, Subhransu Maji | (参考訳) 本稿では,オブジェクトが回転するwildビデオ中の新たなデータソースを利用して,単視点3次元物体ポーズ推定モデルを学ぶ手法を提案する。
このようなビデオは実際に普及しており(例えば、ラウンドアラウンドの車、滑走路近くの飛行機)、収集が容易である。
近年のインスタンス検出と特徴マッチングの進歩と相まって,従来の構造移動アルゴリズムが驚くほど正確な3次元ポーズ推定を提供することを示す。
そこで本研究では,まずビデオ群全体の標準ポーズを学習し,その後に単視点ポーズ推定のためのモデルを監督する多段階学習手法を提案する。
提案手法は,トレーニング中にポーズラベルを必要とせず,既存の3次元ポーズ推定のための標準ベンチマークに対する競合性能を実現する。
また,3次元ポーズ推定のベンチマークとして機能する不測の背景画像,動きのぼやけ,照明変化など41,212枚の車両画像を含む,偶然のターンテーブルデータセットもコントリビュートする。 We propose a technique for learning single-view 3D object pose estimation models by utilizing a new source of data -- in-the-wild videos where objects turn. Such videos are prevalent in practice (e.g., cars in roundabouts, airplanes near runways) and easy to collect. We show that classical structure-from-motion algorithms, coupled with the recent advances in instance detection and feature matching, provides surprisingly accurate relative 3D pose estimation on such videos. We propose a multi-stage training scheme that first learns a canonical pose across a collection of videos and then supervises a model for single-view pose estimation. The proposed technique achieves competitive performance with respect to existing state-of-the-art on standard benchmarks for 3D pose estimation, without requiring any pose labels during training. We also contribute an Accidental Turntables Dataset, containing a challenging set of 41,212 images of cars in cluttered backgrounds, motion blur and illumination changes that serves as a benchmark for 3D pose estimation. | 翻訳日:2022-12-14 14:48:32 公開日:2022-12-13 |
# エゴセントリックビデオタスク翻訳 Egocentric Video Task Translation ( http://arxiv.org/abs/2212.06301v1 ) ライセンス: Link先を確認 | Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani | (参考訳) 異なるビデオ理解タスクは通常、独立して扱われ、異なるタイプのキュレートされたデータ(例えば、あるデータセットでスポーツを分類し、別のデータセットで動物を追跡するなど)でも扱われる。
しかし、ウェアラブルカメラでは、周囲の世界に携わる人々の没入的な自我中心の視点は、手動操作、空間内のナビゲーション、人間と人間のインタラクションといった、人の目標によって連続的に展開されるビデオ理解タスクの相互接続の網を提示する。
より統一的なアプローチが必要だ、と私たちは主張する。
我々はegotask translation (egot2) を提案する。これは別々のタスクに最適化されたモデルの集合を取り込み、それらのアウトプットを変換して、それらのいずれかまたはすべてのパフォーマンスを一度に向上させる。
従来のトランスファーやマルチタスク学習とは異なり、egot2のflippedデザインでは、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、異種タスク間のシナジーをキャプチャし、タスク競合を緩和する。
Ego4Dの幅広いビデオタスクにおけるモデルを実証し、既存の転送パラダイムよりも優位性を示し、Ego4D 2022ベンチマークの4つの課題で上位にランクされた結果を得る。 Different video understanding tasks are typically treated in isolation, and even with distinct types of curated data (e.g., classifying sports in one dataset, tracking animals in another). However, in wearable cameras, the immersive egocentric perspective of a person engaging with the world around them presents an interconnected web of video understanding tasks -- hand-object manipulations, navigation in the space, or human-human interactions -- that unfold continuously, driven by the person's goals. We argue that this calls for a much more unified approach. We propose EgoTask Translation (EgoT2), which takes a collection of models optimized on separate tasks and learns to translate their outputs for improved performance on any or all of them at once. Unlike traditional transfer or multi-task learning, EgoT2's flipped design entails separate task-specific backbones and a task translator shared across all tasks, which captures synergies between even heterogeneous tasks and mitigates task competition. Demonstrating our model on a wide array of video tasks from Ego4D, we show its advantages over existing transfer paradigms and achieve top-ranked results on four of the Ego4D 2022 benchmark challenges. | 翻訳日:2022-12-14 14:48:11 公開日:2022-12-13 |
# DeepMapping2: 自己監督型大規模LiDARマップ最適化 DeepMapping2: Self-Supervised Large-Scale LiDAR Map Optimization ( http://arxiv.org/abs/2212.06331v1 ) ライセンス: Link先を確認 | Chao Chen, Xinhao Liu, Yiming Li, Li Ding, Chen Feng | (参考訳) LiDARマッピングは、自動運転とモバイルロボティクスにおいて重要であるが、難しい。
このようなグローバルなクラウド登録問題に対処するため、DeepMappingは複雑なマップ推定を単純なディープネットワークの自己教師型トレーニングに変換する。
小規模データセットの収束範囲は広いが、数千のフレームを持つ大規模データセットでは、deepmappingでは十分な結果が得られない。
これはループ閉鎖と正確なクロスフレーム点対応の欠如と、そのグローバルなローカライゼーションネットワークの緩やかな収束によるものである。
1) ループ閉包からマップトポロジをベースとしたトレーニングバッチの編成,(2) 相互登録を利用した自己教師付きローカル-グローバル-ポイント整合性損失の2つの新しい手法によりDeepMapping2を提案する。
公開データセット(KITTI,NCLT,Nebula)に関する実験およびアブレーション研究により,本手法の有効性が示された。
私たちのコードはリリースされます。 LiDAR mapping is important yet challenging in self-driving and mobile robotics. To tackle such a global point cloud registration problem, DeepMapping converts the complex map estimation into a self-supervised training of simple deep networks. Despite its broad convergence range on small datasets, DeepMapping still cannot produce satisfactory results on large-scale datasets with thousands of frames. This is due to the lack of loop closures and exact cross-frame point correspondences, and the slow convergence of its global localization network. We propose DeepMapping2 by adding two novel techniques to address these issues: (1) organization of training batch based on map topology from loop closing, and (2) self-supervised local-to-global point consistency loss leveraging pairwise registration. Our experiments and ablation studies on public datasets (KITTI, NCLT, and Nebula) demonstrate the effectiveness of our method. Our code will be released. | 翻訳日:2022-12-14 14:47:46 公開日:2022-12-13 |
# CAT:マルチ情報融合によるチャネルと空間的注意の協調学習 CAT: Learning to Collaborate Channel and Spatial Attention from Multi-Information Fusion ( http://arxiv.org/abs/2212.06335v1 ) ライセンス: Link先を確認 | Zizhang Wu, Man Wang, Weiwei Sun, Yuchen Li, Tianhao Xu, Fan Wang, Keke Huang | (参考訳) チャネルと空間的注意機構は、深層畳み込みニューラルネットワーク(cnns)の性能向上をもたらすことが証明されている。
既存のほとんどのメソッドは1つまたは並列(シリーズ)にフォーカスしており、2つの注意の間のコラボレーションを無視している。
本研究では,2種類の注意点間の特徴的相互作用をより明確にするために,学習経路に基づく空間的・チャネル的注意点の協調を「CAT」と呼ぶ,プラグアンドプレイ型注意点モジュールを提案する。
具体的には、特徴を訓練可能な係数(コラ因子)として表現し、異なるアテンションモジュールのコントリビューションを適応的に組み合わせて、異なる画像階層やタスクに適合させる。
さらに,大域的平均プーリング (gap) と大域的最大プーリング (gmp) を別にして, 特徴地図の情報障害を計測し, 雑音信号の抑制に有効な成分である大域的エントロピープーリング (gep) を提案する。
本稿では,アテンションモジュールに3方向プーリング操作を導入し,アダプティブ機構を適用して結果を融合する。
MS COCO, Pascal-VOC, Cifar-100, ImageNet の大規模な実験により,我々のCAT はオブジェクト検出, インスタンス分割, 画像分類において, 既存の最先端の注意機構より優れていることが示された。
モデルとコードはまもなくリリースされる。 Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon. | 翻訳日:2022-12-14 14:47:29 公開日:2022-12-13 |
# 時間的行動局在を考慮した単一フレームのディレーションエロージョン Dilation-Erosion for Single-Frame Supervised Temporal Action Localization ( http://arxiv.org/abs/2212.06348v1 ) ライセンス: Link先を確認 | Bin Wang, Yan Song, Fanming Wang, Yang Zhao, Xiangbo Shu, Yan Rui | (参考訳) アノテーションの労力と監督の粒度のバランスをとるために、時間的アクションローカライゼーションに単一フレームアノテーションが導入された。
行動のための粗い時間的場所を提供するが、トレーニング中に注釈付きフレームから監督を暗黙的に過剰に表現し、アクションとバックグラウンド、すなわちアクションの不完全性とバックグラウンドの偽陽性を混乱させる。
本研究では,2つの課題に対処するため,Snippet分類モデルとDilation-Erosionモジュールを提案する。
拡張エロージョンモジュールでは、潜在アクションセグメントをゆるい基準で拡張し、アクションの不完全性の問題を軽減するとともに、潜在的なアクションセグメントから背景を取り除き、アクション不完全性の問題を緩和する。
単一フレームのアノテーションとスニペット分類の出力に基づいて、Dilation-Erosionモジュールは擬似的なスニペットレベルの地上構造、ハードな背景、明確な背景をマイニングし、さらにスニペット分類モデルを訓練する。
環状の依存関係を形成する。
さらに,アクションインスタンスの特徴を同じラベルで集約し,アクションの特徴を背景から分離する新たな組込み損失を提案する。
THUMOS14とActivityNet 1.2の実験により,提案手法の有効性が検証された。
コードは公開されている(https://github.com/LingJun123/single-frame-TAL)。 To balance the annotation labor and the granularity of supervision, single-frame annotation has been introduced in temporal action localization. It provides a rough temporal location for an action but implicitly overstates the supervision from the annotated-frame during training, leading to the confusion between actions and backgrounds, i.e., action incompleteness and background false positives. To tackle the two challenges, in this work, we present the Snippet Classification model and the Dilation-Erosion module. In the Dilation-Erosion module, we expand the potential action segments with a loose criterion to alleviate the problem of action incompleteness and then remove the background from the potential action segments to alleviate the problem of action incompleteness. Relying on the single-frame annotation and the output of the snippet classification, the Dilation-Erosion module mines pseudo snippet-level ground-truth, hard backgrounds and evident backgrounds, which in turn further trains the Snippet Classification model. It forms a cyclic dependency. Furthermore, we propose a new embedding loss to aggregate the features of action instances with the same label and separate the features of actions from backgrounds. Experiments on THUMOS14 and ActivityNet 1.2 validate the effectiveness of the proposed method. Code has been made publicly available (https://github.com/LingJun123/single-frame-TAL). | 翻訳日:2022-12-14 14:47:00 公開日:2022-12-13 |
# PV3D: 画像生成のための3次元生成モデル PV3D: A 3D Generative Model for Portrait Video Generation ( http://arxiv.org/abs/2212.06384v1 ) ライセンス: Link先を確認 | Eric Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Wenqing Zhang, Song Bai, Jiashi Feng, Mike Zheng Shou | (参考訳) 最近のgans(generative adversarial networks)の進歩は、素晴らしい写真リアルなポートレート画像を生成する能力を示している。
このような画像ganを無条件の2dポートレートビデオ生成や静的3dポートレート合成に適用する先行作品もあるが、3d対応のポートレートビデオを生成するためにganを拡張させる作品はほとんどない。
本研究では,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
具体的には、3次元暗黙的ニューラル表現を一般化して時空間をモデル化することにより、最近の静的3D認識画像GANをビデオ領域に拡張する。
生成プロセスにモーションダイナミクスを導入するため,複数の動作層を積み重ねて,変調畳み込みによる動作特徴を生成するモーションジェネレータを開発した。
カメラ/ヒューマンモーションによる動作の曖昧さを軽減するため,pv3dの簡易かつ効果的なカメラ条件戦略を提案する。
さらにpv3dは、空間領域と時間領域を規則化し、生成されたポートレートビデオの信頼性を確保する2つの識別器を導入する。
これらの精巧なデザインにより、PV3Dは高品質な外観と幾何学を持つ3D対応の動画を制作することができる。
その結果、PV3Dは静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートできるようになった。
コードとモデルはhttps://showlab.github.io/pv3dでリリースされる。 Recent advances in generative adversarial networks (GANs) have demonstrated the capabilities of generating stunning photo-realistic portrait images. While some prior works have applied such image GANs to unconditional 2D portrait video generation and static 3D portrait synthesis, there are few works successfully extending GANs for generating 3D-aware portrait videos. In this work, we propose PV3D, the first generative framework that can synthesize multi-view consistent portrait videos. Specifically, our method extends the recent static 3D-aware image GAN to the video domain by generalizing the 3D implicit neural representation to model the spatio-temporal space. To introduce motion dynamics to the generation process, we develop a motion generator by stacking multiple motion layers to generate motion features via modulated convolution. To alleviate motion ambiguities caused by camera/human motions, we propose a simple yet effective camera condition strategy for PV3D, enabling both temporal and multi-view consistent video generation. Moreover, PV3D introduces two discriminators for regularizing the spatial and temporal domains to ensure the plausibility of the generated portrait videos. These elaborated designs enable PV3D to generate 3D-aware motion-plausible portrait videos with high-quality appearance and geometry, significantly outperforming prior works. As a result, PV3D is able to support many downstream applications such as animating static portraits and view-consistent video motion editing. Code and models will be released at https://showlab.github.io/pv3d. | 翻訳日:2022-12-14 14:46:35 公開日:2022-12-13 |
# HS拡散:ヘッドスワッピングのための意味誘導拡散モデル学習 HS-Diffusion: Learning a Semantic-Guided Diffusion Model for Head Swapping ( http://arxiv.org/abs/2212.06458v1 ) ライセンス: Link先を確認 | Qinghe Wang, Lijie Liu, Miao Hua, Qian He, Pengfei Zhu, Bing Cao, Qinghua Hu | (参考訳) 画像ベースのヘッドスワップタスクは、ソースヘッドを他のソースボディに完璧に縫い合わせることを目的としている。
この研究課題は2つの大きな課題に直面します。
1)シームレスな遷移領域を生成しつつ、様々なソースから頭と体を保存する。
2) ヘッドスワップデータセットとベンチマークのペアは今のところない。
本稿では、意味誘導潜在拡散モデル(SG-LDM)と意味的レイアウト生成器からなる画像ベースヘッドスワップフレームワーク(HS-Diffusion)を提案する。
ソースヘッドとソースボディのセマンティクスレイアウトをブレンドし、セマンティクスレイアウト生成器によって遷移領域を塗り込み、粒度の粗いヘッドスワップを実現する。
SG-LDMは、ソースヘッドとソースボディを高品質な再構築で保存しつつ、プログレッシブフュージョンプロセスにより、ブレンドされたレイアウトの微粒化を条件として実装することができる。
この目的のために,トレーニングのためのヘッドカバー強化戦略と,幾何学的リアリズムのためのネックアライメントトリックをデザインする。
重要なことは、画像ベースの新しいヘッドスワップベンチマークを構築し、Mask-FIDとFocal-FIDの2つの設計基準を提案することである。
広範な実験が我々の枠組みの優越性を示している。
コードはhttps://github.com/qinghew/hs-diffusion。 Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose an image-based head swapping framework (HS-Diffusion) which consists of a semantic-guided latent diffusion model (SG-LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. SG-LDM can further implement fine-grained head swapping with the blended layout as condition by a progressive fusion process, while preserving source head and source body with high-quality reconstruction. To this end, we design a head-cover augmentation strategy for training and a neck alignment trick for geometric realism. Importantly, we construct a new image-based head swapping benchmark and propose two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion. | 翻訳日:2022-12-14 14:46:09 公開日:2022-12-13 |
# Chatbotオーケストレーションによるインテリジェントプロセス自動化における規範的プロセス監視 Prescriptive Process Monitoring in Intelligent Process Automation with Chatbot Orchestration ( http://arxiv.org/abs/2212.06564v1 ) ライセンス: Link先を確認 | Sergey Zeltyn, Segev Shlomov, Avi Yaeli, Alon Oved | (参考訳) aiによる自動化を伴うビジネスプロセスは近年重要性を増し、市場シェアも拡大している。
これらのビジネスプロセスは、古典的なビジネスプロセス管理、ゴール駆動型チャットボット、会話レコメンデーションシステム、ロボットプロセス自動化の特徴を組み合わせる。
新しい文脈では、規範的プロセス監視は革新的なアプローチを必要とする。
残念ながら、これらの新しいプロセスからのデータログはまだパブリックドメインでは利用できない。
この新しいドメインの主な課題を説明し、チャットボットオーケストレーションによるインテリジェントなプロセス自動化の実際のユースケースに基づいた、合成データセットを導入する。
このデータセットを用いて,規範的プロセス監視のためのクラウドウィズドおよび目標駆動アプローチを実証する。 Business processes that involve AI-powered automation have been gaining importance and market share in recent years. These business processes combine the characteristics of classical business process management, goal-driven chatbots, conversational recommendation systems, and robotic process automation. In the new context, prescriptive process monitoring demands innovative approaches. Unfortunately, data logs from these new processes are still not available in the public domain. We describe the main challenges in this new domain and introduce a synthesized dataset that is based on an actual use case of intelligent process automation with chatbot orchestration. Using this dataset, we demonstrate crowd-wisdom and goal-driven approaches to prescriptive process monitoring. | 翻訳日:2022-12-14 14:40:07 公開日:2022-12-13 |
# シャドウ拡散: シャドウ除去のための拡散モデルに先立つ劣化 ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow Removal ( http://arxiv.org/abs/2212.04711v2 ) ライセンス: Link先を確認 | Lanqing Guo, Chong Wang, Wenhan Yang, Siyu Huang, Yufei Wang, Hanspeter Pfister, Bihan Wen | (参考訳) 近年の深層学習法は画像の影除去において有望な成果を上げている。
しかし, 画像の復元は, 埋没前の劣化の欠如, モデリング能力の欠如など, 不満足な境界アーチファクトに悩まされている。
本研究は,画像と劣化前処理の両方を統合し,シャドウ除去を効果的に行う統一拡散フレームワークを提案することで,これらの課題に対処した。
そこで我々はまず,ShandowDiffusionと呼ばれる新しい非回転拡散モデルを構築するための影分解モデルを提案する。
画像復元のための新たな強固なベースラインとして機能する、劣化前と拡散前の両方で所望の出力を段階的に精錬することで、シャドー除去におけるモデルの能力を大幅に向上させる。
さらに、シャドウ拡散は拡散生成装置の補助タスクとして推定シャドウマスクを段階的に洗練し、より正確でロバストなシャドウフリー画像を生成する。
本手法の有効性を検証するために, ISTD, ISTD+, SRDの3つの一般的な公開データセットについて広範な実験を行った。
現状の手法と比較して,SRDデータセット上でのPSNRは31.69dBから34.73dBへと大幅に向上した。 Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset. | 翻訳日:2022-12-14 14:39:57 公開日:2022-12-13 |
# 自己教師付き点群列表現学習のための完全粒子間4次元蒸留 Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning ( http://arxiv.org/abs/2212.05330v2 ) ライセンス: Link先を確認 | Zhuoyang Zhang, Yuhao Dong, Yunze Liu and Li Yi | (参考訳) 4Dポイントクラウドシーケンスに関する最近の研究は、多くの注目を集めている。
しかし, ラベル付けされた4Dデータセットの取得は非常に高価で手間がかかるため, 生のラベル付きデータの利用方法を検討することが特に重要である。
しかし、既存のセルフ教師付きポイントクラウド表現学習手法は、動的シーンの逐次観測によりより包括的な幾何学的詳細が明らかになるという事実を省略して、静的スナップショットからの幾何学のみを考慮している。
そして、ビデオ表現学習フレームワークは、主に画像空間の流れとして動きをモデル化する。
そこで本研究では, 完全粒子間4D蒸留法という, 自己制御型4次元事前学習法を提案する。
本研究の目的は4次元自己教師表現学習を教師の知識蒸留フレームワークとして定式化し,教師の指導により有用な4次元表現を学生に学習させることである。
実験により,本手法は,屋内シナリオや屋外シナリオを含む広範囲な4Dポイントクラウドシーケンス理解タスクにおいて,従来の事前学習手法よりも大幅に優れていた。 Recent work on 4D point cloud sequences has attracted a lot of attention. However, obtaining exhaustively labeled 4D datasets is often very expensive and laborious, so it is especially important to investigate how to utilize raw unlabeled data. However, most existing self-supervised point cloud representation learning methods only consider geometry from a static snapshot omitting the fact that sequential observations of dynamic scenes could reveal more comprehensive geometric details. And the video representation learning frameworks mostly model motion as image space flows, let alone being 3D-geometric-aware. To overcome such issues, this paper proposes a new 4D self-supervised pre-training method called Complete-to-Partial 4D Distillation. Our key idea is to formulate 4D self-supervised representation learning as a teacher-student knowledge distillation framework and let the student learn useful 4D representations with the guidance of the teacher. Experiments show that this approach significantly outperforms previous pre-training approaches on a wide range of 4D point cloud sequence understanding tasks including indoor and outdoor scenarios. | 翻訳日:2022-12-14 14:39:33 公開日:2022-12-13 |
# Focal-PETR:高能率マルチカメラ3Dオブジェクト検出のためのフォアグラウンド Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2212.05505v2 ) ライセンス: Link先を確認 | Shihao Wang, Xiaohui Jiang, Ying Li | (参考訳) 支配的なマルチカメラ3D検出パラダイムは、3D-to-2Dプロジェクションによる局所像の複雑なインデックス化を必要とする明示的な3D特徴構造に基づいている。
他の方法は暗黙的に幾何学的位置符号化を導入し、画像トークンと3dオブジェクトの関係を構築するためにグローバル注意(例えばpetr)を行う。
3D-to-2Dの視点の不整合性とグローバルな注意は、前景トークンとクエリの相関が弱くなり、収束が遅くなる。
本稿では,Focal-PETRをインスタンス誘導型監視モジュールと空間アライメントモジュールで提案し,オブジェクトクエリを差別的前景領域に適応的にフォーカスする。
Focal-PETRは、世界的な注目度を減らすためのダウンサンプリング戦略も導入している。
高並列化実装とダウンサンプリング戦略により,我々のモデルは,大規模なnuScenesベンチマークで先行的な性能を実現し,RTX3090 GPUで30FPSの高速化を実現した。
大規模実験の結果, PETRは3倍の訓練時間を要し, PETRよりも優れていた。
コードは公開される予定だ。 The dominant multi-camera 3D detection paradigm is based on explicit 3D feature construction, which requires complicated indexing of local image-view features via 3D-to-2D projection. Other methods implicitly introduce geometric positional encoding and perform global attention (e.g., PETR) to build the relationship between image tokens and 3D objects. The 3D-to-2D perspective inconsistency and global attention lead to a weak correlation between foreground tokens and queries, resulting in slow convergence. We propose Focal-PETR with instance-guided supervision and spatial alignment module to adaptively focus object queries on discriminative foreground regions. Focal-PETR additionally introduces a down-sampling strategy to reduce the consumption of global attention. Due to the highly parallelized implementation and down-sampling strategy, our model, without depth supervision, achieves leading performance on the large-scale nuScenes benchmark and a superior speed of 30 FPS on a single RTX3090 GPU. Extensive experiments show that our method outperforms PETR while consuming 3x fewer training hours. The code will be made publicly available. | 翻訳日:2022-12-14 14:39:13 公開日:2022-12-13 |
# マスクオートエンコーダはトランスフォーマーデータハングリーの効果的な解法である Masked autoencoders are effective solution to transformer data-hungry ( http://arxiv.org/abs/2212.05677v2 ) ライセンス: Link先を確認 | Jiawei Mao, Honggu Zhou, Xuesong Yin, Yuanqi Chang. Binling Nie. Rui Xu | (参考訳) ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
しかし、ViTには畳み込みに固有の誘導バイアスがないため、トレーニングには大量のデータが必要である。
これにより、ViTは医学や科学のような小さなデータセット上でCNNと同等に動作しない。
マスク付きオートエンコーダ(mae)はトランスフォーマーを画像そのものに集中させることで、vitのデータ・ハングリー問題をある程度緩和できることを実験的に発見した。
しかし、現在のmaeモデルは複雑すぎるため、小さなデータセットに過剰フィッティング問題が発生する。
これにより、小さなデータセットでトレーニングされたMAEと高度なCNNモデルのギャップが生じる。
そこで、maeにおけるデコーダの複雑さを低減させる方法について検討し、小さなデータセットでそれに適したアーキテクチャ構成を見出した。
さらに,位置予測タスクと対比学習タスクも設計し,maeの局所化と不分散特性を導入した。
対照的な学習タスクは、モデルがハイレベルなビジュアル情報を学習できるだけでなく、maeのクラストークンのトレーニングも可能にします。
ほとんどのMAE改善努力は考慮していません。
大規模な実験により,本手法は,現在普及しているマスク画像モデリング(MIM)や小型データセットのビジョントランスフォーマーと比較して,標準の小型データセットと医療データセットの最先端性能を示すとともに,そのコードとモデルはhttps://github.com/Talented-Q/SDMAEで公開されている。 Vision Transformers (ViTs) outperforms convolutional neural networks (CNNs) in several vision tasks with its global modeling capabilities. However, ViT lacks the inductive bias inherent to convolution making it require a large amount of data for training. This results in ViT not performing as well as CNNs on small datasets like medicine and science. We experimentally found that masked autoencoders (MAE) can make the transformer focus more on the image itself, thus alleviating the data-hungry issue of ViT to some extent. Yet the current MAE model is too complex resulting in over-fitting problems on small datasets. This leads to a gap between MAEs trained on small datasets and advanced CNNs models still. Therefore, we investigated how to reduce the decoder complexity in MAE and found a more suitable architectural configuration for it with small datasets. Besides, we additionally designed a location prediction task and a contrastive learning task to introduce localization and invariance characteristics for MAE. Our contrastive learning task not only enables the model to learn high-level visual information but also allows the training of MAE's class token. This is something that most MAE improvement efforts do not consider. Extensive experiments have shown that our method shows state-of-the-art performance on standard small datasets as well as medical datasets with few samples compared to the current popular masked image modeling (MIM) and vision transformers for small datasets.The code and models are available at https://github.com/Talented-Q/SDMAE. | 翻訳日:2022-12-14 14:38:52 公開日:2022-12-13 |
# 画像アライメントのための変換テンソル・テンソル生成物によるテンソル因子化 Tensor Factorization via Transformed Tensor-Tensor Product for Image Alignment ( http://arxiv.org/abs/2212.05719v2 ) ライセンス: Link先を確認 | Sijia Xia, Duo Qiu, and Xiongjun Zhang | (参考訳) 本稿では,観測された画像が未知の領域変換によって変形し,付加ガウス雑音とスパースノイズによって同時に劣化する線形相関画像アライメントのバッチ問題について検討する。
これらの画像を3階テンソルの正面スライスとして積み重ねることで、変換テンソルテンソル積によるテンソル分解法を用いて、基底テンソルの低ランク性を探索し、任意のユニタリ変換の下で変換テンソルテンソル積を介して2つの小さなテンソルの積に分解する。
変換テンソル-テンソル積の主な利点は、その計算複雑性が変換テンソル核ノルムに基づく既存の文献よりも低いことである。
さらに、テンソル$\ell_p$$(0<p<1)$ノルムはスパースノイズの空間性を特徴づけるために使用され、テンソルのフロベニウスノルムは加法ガウスノイズをモデル化するために用いられる。
一般化されたGauss-Newtonアルゴリズムは、ドメイン変換を線形化して得られたモデルを解くために設計され、対応するサブプロブレムを解くために近位Gauss-Seidelアルゴリズムが開発された。
さらに、近位ガウス-セイデルアルゴリズムの収束が確立され、その収束率はクルディカ-$\l$ojasiewicz の性質に基づいて解析される。
実世界の画像データセットに関する広範囲な数値実験を行い,精度と計算時間の両方において,提案手法の優れた性能を示す。 In this paper, we study the problem of a batch of linearly correlated image alignment, where the observed images are deformed by some unknown domain transformations, and corrupted by additive Gaussian noise and sparse noise simultaneously. By stacking these images as the frontal slices of a third-order tensor, we propose to utilize the tensor factorization method via transformed tensor-tensor product to explore the low-rankness of the underlying tensor, which is factorized into the product of two smaller tensors via transformed tensor-tensor product under any unitary transformation. The main advantage of transformed tensor-tensor product is that its computational complexity is lower compared with the existing literature based on transformed tensor nuclear norm. Moreover, the tensor $\ell_p$ $(0<p<1)$ norm is employed to characterize the sparsity of sparse noise and the tensor Frobenius norm is adopted to model additive Gaussian noise. A generalized Gauss-Newton algorithm is designed to solve the resulting model by linearizing the domain transformations and a proximal Gauss-Seidel algorithm is developed to solve the corresponding subproblem. Furthermore, the convergence of the proximal Gauss-Seidel algorithm is established, whose convergence rate is also analyzed based on the Kurdyka-$\L$ojasiewicz property. Extensive numerical experiments on real-world image datasets are carried out to demonstrate the superior performance of the proposed method as compared to several state-of-the-art methods in both accuracy and computational time. | 翻訳日:2022-12-14 14:38:24 公開日:2022-12-13 |
# 極多ラベル長文変換器モデルを用いたICDの自動符号化 Automated ICD Coding using Extreme Multi-label Long Text Transformer-based Models ( http://arxiv.org/abs/2212.05857v2 ) ライセンス: Link先を確認 | Leibo Liu, Oscar Perez-Concha, Anthony Nguyen, Vicki Bennett, Louisa Jorm | (参考訳) 背景:多くの自然言語処理タスクで事前訓練されたトランスフォーマーモデルの成功により、国際疾病分類(icd)コーディングタスクへの使用が積極的に検討されている。
本研究では,3種類のトランスフォーマーモデルについて検討し,自動ICD符号化タスクによって生じる極端なラベルセットと長いテキスト分類課題に対処することを目的とした。
方法: Transformer-based model PLM-ICDは、ICD符号化ベンチマークデータセットMIMIC-III上で、現在の最先端(SOTA)性能を達成した。
さらに最適化するために、ベースラインモデルに選ばれました。
また,XR-Transformerモデルの新たな適応であるXR-LATをMIMIC-IIIデータセット上でトレーニングした。
XR-LATは、ラベルに関する注意、知識伝達、動的負のサンプリング機構を備えた、事前定義された階層コードツリー上の再帰的に訓練されたモデルチェーンである。
結果: より長い総数およびチャンクシーケンス長で訓練したPLM-ICDモデルは, 現行のSOTA PLM-ICDモデルより有意に優れ, マイクロF1スコアは60.8%であった。
XR-Transformerモデルは、一般的なドメインではSOTAだが、すべてのメトリクスでうまく機能しなかった。
XR-LATベースの最良のモデルでは、現在のSOTA PLM-ICDモデルと競合する結果が得られ、マクロAUCは2.1%向上した。
結論:我々の最適化PLM-ICDモデルはMIMIC-IIIデータセット上でのICDの自動符号化のための新しいSOTAモデルであり,新しいXR-LATモデルは以前のSOTA PLM-ICDモデルと競合する。 Background: Encouraged by the success of pretrained Transformer models in many natural language processing tasks, their use for International Classification of Diseases (ICD) coding tasks is now actively being explored. In this study, we investigate three types of Transformer-based models, aiming to address the extreme label set and long text classification challenges that are posed by automated ICD coding tasks. Methods: The Transformer-based model PLM-ICD achieved the current state-of-the-art (SOTA) performance on the ICD coding benchmark dataset MIMIC-III. It was chosen as our baseline model to be further optimised. XR-Transformer, the new SOTA model in the general extreme multi-label text classification domain, and XR-LAT, a novel adaptation of the XR-Transformer model, were also trained on the MIMIC-III dataset. XR-LAT is a recursively trained model chain on a predefined hierarchical code tree with label-wise attention, knowledge transferring and dynamic negative sampling mechanisms. Results: Our optimised PLM-ICD model, which was trained with longer total and chunk sequence lengths, significantly outperformed the current SOTA PLM-ICD model, and achieved the highest micro-F1 score of 60.8%. The XR-Transformer model, although SOTA in the general domain, did not perform well across all metrics. The best XR-LAT based model obtained results that were competitive with the current SOTA PLM-ICD model, including improving the macro-AUC by 2.1%. Conclusion: Our optimised PLM-ICD model is the new SOTA model for automated ICD coding on the MIMIC-III dataset, while our novel XR-LAT model performs competitively with the previous SOTA PLM-ICD model. | 翻訳日:2022-12-14 14:30:56 公開日:2022-12-13 |
# 超多言語自然言語理解2022(MMNLU-22)ワークショップとコンペティション The Massively Multilingual Natural Language Understanding 2022 (MMNLU-22) Workshop and Competition ( http://arxiv.org/abs/2212.06346v1 ) ライセンス: Link先を確認 | Christopher Hench, Charith Peris, Jack FitzGerald, Kay Rottmann | (参考訳) 自然言語理解(NLU)の進歩にもかかわらず、多言語NLUシステムの構築は依然として課題である。
利用可能なデータがないため、NLUシステムは言語のサブセットに制限されることが一般的である。
また、多種多様であることが多い。
我々は、NLUの限界に対処し、NLU技術を新しい高さまで推進する3段階のアプローチをローンチする。
Slot-filling、Intent Classification、Virtual Assistant Evaluation(MASSIVE)のためのマルチ言語Amazon SLUリソースパッケージ(SLURP)と呼ばれる52の言語データセットをリリースし、音声アシスタントの並列データ可用性に対処する。
我々は、競争環境を提供し、モデルの他言語への転送可能性を高めるために、大規模多言語NLU 2022チャレンジを組織する。
最後に、これらのコンポーネントをまとめる最初のMultificively Multilingual NLUワークショップを開催します。
MMNLUワークショップは、この分野における新しい研究のプレゼンテーションと、この研究の方向性に取り組むチームを結ぶためのプラットフォームを提供することで、多言語NLUの背後にある科学の進歩を目指している。
本稿では,データセット,ワークショップ,コンペティション,各フェーズの調査結果を要約する。 Despite recent progress in Natural Language Understanding (NLU), the creation of multilingual NLU systems remains a challenge. It is common to have NLU systems limited to a subset of languages due to lack of available data. They also often vary widely in performance. We launch a three-phase approach to address the limitations in NLU and help propel NLU technology to new heights. We release a 52 language dataset called the Multilingual Amazon SLU resource package (SLURP) for Slot-filling, Intent classification, and Virtual assistant Evaluation, or MASSIVE, in an effort to address parallel data availability for voice assistants. We organize the Massively Multilingual NLU 2022 Challenge to provide a competitive environment and push the state-of-the art in the transferability of models into other languages. Finally, we host the first Massively Multilingual NLU workshop which brings these components together. The MMNLU workshop seeks to advance the science behind multilingual NLU by providing a platform for the presentation of new research in the field and connecting teams working on this research direction. This paper summarizes the dataset, workshop and the competition and the findings of each phase. | 翻訳日:2022-12-14 14:30:23 公開日:2022-12-13 |
# 事前訓練言語モデルを用いたプロンプトチューニングのための競合ソリューション Technical Report -- Competition Solution for Prompt Tuning using Pretrained Language Model ( http://arxiv.org/abs/2212.06369v1 ) ライセンス: Link先を確認 | Jiang-Long Song and Wu-He Zou and Feng Li and Xiao-Lei Qin | (参考訳) 近年、プロンプトチューニングは、特定の下流タスクに対する大規模な事前訓練言語モデルの応用においてホットスポットとなっている。
言語モデル・アズ・ア・サービス (lmaas) に関して、デリバティブフリー最適化 (dfo) を用いたブラックボックスチューニングは、事前訓練されたモデルの実用的なシナリオを拡張し、少数の学習の研究を豊かにする新しいアプローチを提供する。
本稿では,LMaaSのシナリオに基づいたこのコンペティションにおけるソリューションについて述べる。
提案手法は,複数のラベル単語,p0の選択,ロール更新戦略,mlp分類器によるマルチタスク損失など,bbtv2の改良を複数行ない,さらに一般化能力を向上させるためにアンサンブル法を用いた。
また、いくつかの戦略を共有しましたが、最終的な提案では使用していません。
最終的には、snliデータセットと結果への影響、および競合に関する懸念について質問しました。 Prompt tuning recently becomes a hot-spot in the applications of large pretrained language models on specific downstream tasks. Regarding the Language Model as a Service (LMaaS), black-box tuning using derivative-free optimization (DFO) provides a novel approach to expand the practical scenarios of pretrained models and enrich the researches of few-shot learning. In this report, we present our solution in this competition that is based on the LMaaS scenario. Our solution consists of several modifications to BBTv2, including multiple label words, selection of P0, rolling update strategy, multi-task loss from MLP classifier, and finally using the ensemble method to further improve generalization ability. We also shared some strategies that we tried but didn't use in the final submission for further discussion. In the end we raised a question about the SNLI dataset and the impact on the results, as well as our concerns about the competition. | 翻訳日:2022-12-14 14:29:50 公開日:2022-12-13 |
# Sranantongoの汎用機械翻訳システムに向けて Towards a general purpose machine translation system for Sranantongo ( http://arxiv.org/abs/2212.06383v1 ) ライセンス: Link先を確認 | Just Zwennicker, David Stap | (参考訳) スラナントンゴ語(Sranantongo, Sranan, srn)は、スリナムで主に話される低資源クレオール語である。
本研究では,srnのための汎用機械翻訳システムを提案する。
そこで本研究では,srnデータおよび単言語srnデータに対する並列オランダ語(nl)のコレクションであるsrncorpusを紹介する。
我々は、幅広い証明された機械翻訳法を実験する。
本研究は,srnのための強力なベースライン機械翻訳システムを示す。 Machine translation for Sranantongo (Sranan, srn), a low-resource Creole language spoken predominantly in Surinam, is virgin territory. In this study we create a general purpose machine translation system for srn. In order to facilitate this research, we introduce the SRNcorpus, a collection of parallel Dutch (nl) to srn and monolingual srn data. We experiment with a wide range of proven machine translation methods. Our results demonstrate a strong baseline machine translation system for srn. | 翻訳日:2022-12-14 14:29:22 公開日:2022-12-13 |
# Tencent Pretrain: さまざまなモードの事前トレーニングモデルのためのスケーラブルで柔軟なツールキット TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities ( http://arxiv.org/abs/2212.06385v1 ) ライセンス: Link先を確認 | Zhe Zhao and Yudong Li and Cheng Hou and Jing Zhao and Rong Tian and Weijie Liu and Yiren Chen and Ningyuan Sun and Haoyan Liu and Weiquan Mao and Han Guo and Weigang Guo and Taiqiang Wu and Tao Zhu and Wenhang Shi and Chen Chen and Shan Huang and Sihong Chen and Liqun Liu and Feifei Li and Xiaoshuai Chen and Xingwu Sun and Zhanhui Kang and Xiaoyong Du and Linlin Shen and Kimmo Yan | (参考訳) 近年、テキストドメインでの事前トレーニングの成功は、視覚、音声、およびクロスモーダルシナリオに完全に拡張されている。
異なるモダリティの事前学習モデルの提案は、モデル構造における均質性の上昇傾向を示しており、一様フレームワーク内で異なる事前学習モデルを実装する機会を与えている。
本稿では,さまざまなモダリティの事前学習モデルをサポートするツールキットtencentpretrainを提案する。
TencentPretrainの中核となる機能はモジュラーデザインである。
ツールキットはトレーニング済みモデルを、埋め込み、エンコーダ、ターゲット埋め込み、デコーダ、ターゲットの5つのコンポーネントに一様に分割する。
共通モジュールのほとんどすべてが各コンポーネントで提供されているため、ユーザはさまざまなコンポーネントから希望するモジュールを選択して、完全な事前トレーニングモデルを構築することができる。
モジュラーデザインにより、既存のトレーニング済みモデルを効率的に再現したり、新しいモデルを構築することができる。
私たちは、テキスト、視覚、オーディオベンチマークでツールキットをテストし、オリジナルの実装のパフォーマンスにマッチできることを示します。 Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations. | 翻訳日:2022-12-14 14:29:11 公開日:2022-12-13 |
# 適応型教師学習ときめ細かい学生アンサンブルを用いた遠隔指導型エンティティ認識 Distantly-Supervised Named Entity Recognition with Adaptive Teacher Learning and Fine-grained Student Ensemble ( http://arxiv.org/abs/2212.06522v1 ) ライセンス: Link先を確認 | Xiaoye Qu, Jun Zeng, Daizong Liu, Zhefeng Wang, Baoxing Huai, Pan Zhou | (参考訳) Distantly-Supervised Named Entity Recognition (DS-NER) は、トレーニングサンプルを自動的に生成することで、NERのデータ不足を効果的に軽減する。
残念なことに、遠方の監督はノイズの多いラベルを誘導し、学習モデルの堅牢性を損なう可能性があり、実用的な適用を制限する。
この問題を軽減するため,最近の研究では,学習ラベルを徐々に洗練し,nerモデルの一般化能力を向上させるために,教師・教師の自己学習フレームワークが採用されている。
しかし,DS-NERにおける現在の自己学習フレームワークの性能は,不適切な学生学習や粗い教師の更新など,基本的な設計によって著しく過小評価されている。
そこで本稿では,(1)教師と学生のネットワークの協調学習と,教師間の一貫性と一貫性のない予測の両方を考慮し,総合的な学習を促進することによる,これらの問題を緩和するための最初の試みを行う。
2) 教師モデルの各フラグメントを,生徒の対応するフラグメントの時間移動平均値で更新する微細な学生アンサンブルにより,各モデルのフラグメントのノイズに対する一貫した予測が向上する。
提案手法の有効性を検証するため、4つのDS-NERデータセットを用いて実験を行った。
実験の結果,従来の sota 法を大幅に上回ることがわかった。 Distantly-Supervised Named Entity Recognition (DS-NER) effectively alleviates the data scarcity problem in NER by automatically generating training samples. Unfortunately, the distant supervision may induce noisy labels, thus undermining the robustness of the learned models and restricting the practical application. To relieve this problem, recent works adopt self-training teacher-student frameworks to gradually refine the training labels and improve the generalization ability of NER models. However, we argue that the performance of the current self-training frameworks for DS-NER is severely underestimated by their plain designs, including both inadequate student learning and coarse-grained teacher updating. Therefore, in this paper, we make the first attempt to alleviate these issues by proposing: (1) adaptive teacher learning comprised of joint training of two teacher-student networks and considering both consistent and inconsistent predictions between two teachers, thus promoting comprehensive student learning. (2) fine-grained student ensemble that updates each fragment of the teacher model with a temporal moving average of the corresponding fragment of the student, which enhances consistent predictions on each model fragment against noise. To verify the effectiveness of our proposed method, we conduct experiments on four DS-NER datasets. The experimental results demonstrate that our method significantly surpasses previous SOTA methods. | 翻訳日:2022-12-14 14:28:55 公開日:2022-12-13 |
# テキスト対テキストのマルチタスク学習者はタスクの衝突に苦しむか? Do Text-to-Text Multi-Task Learners Suffer from Task Conflict? ( http://arxiv.org/abs/2212.06645v1 ) ライセンス: Link先を確認 | David Mueller, Nicholas Andrews, Mark Dredze | (参考訳) 従来のマルチタスク学習アーキテクチャは、共有エンコーダとタスク固有のデコーダを通じて、複数のタスクにまたがる単一のモデルをトレーニングする。
これらのモデルを学ぶには、共有パラメータ更新のタスク競合に対処する特別なトレーニングアルゴリズムが必要となることが多い。
NLP内の新しいタイプのマルチタスク学習は、多タスクアーキテクチャを共通エンコーダと言語モデルデコーダとして均質化する。
この新しいアーキテクチャは、特別なトレーニングアルゴリズムを必要とするタスクコンフリクトに苦しむだろうか?
テキストからテキストへのモデルへの移行がマルチタスクの競合と負の転送にどのように影響するかを調べ、方向性の競合と転送の両方がアーキテクチャ全体にわたって驚くほど一定であることを突き止めた。 Traditional multi-task learning architectures train a single model across multiple tasks through a shared encoder followed by task-specific decoders. Learning these models often requires specialized training algorithms that address task-conflict in the shared parameter updates, which otherwise can lead to negative transfer. A new type of multi-task learning within NLP homogenizes multi-task architectures as a shared encoder and language model decoder, which does surprisingly well across a range of diverse tasks. Does this new architecture suffer from task-conflicts that require specialized training algorithms? We study how certain factors in the shift towards text-to-text models affects multi-task conflict and negative transfer, finding that both directional conflict and transfer are surprisingly constant across architectures. | 翻訳日:2022-12-14 14:28:31 公開日:2022-12-13 |
# structured prompting: コンテキスト内学習の1000例へのスケールアップ Structured Prompting: Scaling In-Context Learning to 1,000 Examples ( http://arxiv.org/abs/2212.06713v1 ) ライセンス: Link先を確認 | Yaru Hao, Yutao Sun, Li Dong, Zhixiong Han, Yuxian Gu, Furu Wei | (参考訳) 大きな言語モデルでは、興味深いインコンテキスト学習能力を示しており、パラメータを更新せずに、ゼロショットとマイショットのパフォーマンスを実現している。
しかし、従来の文脈内学習は通常、長さの制約によって制限され、多くの例から監督を吸収する効果がない。
数回のショットを越えて、長さ制限を破る構造化プロンプトを導入し、数千の例にインコンテキスト学習をスケールします。
具体的には、デモのサンプルにはよく設計された位置埋め込みが別々にエンコードされ、再スケールされたアテンション機構を使用してテストのサンプルが共同で参加する。
したがって、長さに関して二次的な複雑さではなく、線形複雑度で例示数をスケールできる。
様々なタスクセットにおける実験結果から,本手法はエンドタスクの性能を向上し,実演例の増加に伴って従来のインコンテキスト学習よりも評価ばらつきを低減できることが示された。
コードはhttps://aka.ms/structured-promptingでリリースされた。 Large language models have exhibited intriguing in-context learning capability, achieving promising zero- and few-shot performance without updating the parameters. However, conventional in-context learning is usually restricted by length constraints, rendering it ineffective to absorb supervision from a large number of examples. In order to go beyond few shots, we introduce structured prompting that breaks the length limit and scales in-context learning to thousands of examples. Specifically, demonstration examples are separately encoded with well-designed position embeddings, and then they are jointly attended by the test example using a rescaled attention mechanism. So we can scale the number of exemplars with linear complexity instead of quadratic complexity with respect to length. Experimental results on a diverse set of tasks show that our approach improves end-task performance and reduces evaluation variance over conventional in-context learning as the number of demonstration examples increases. Code has been released at https://aka.ms/structured-prompting. | 翻訳日:2022-12-14 14:28:16 公開日:2022-12-13 |
# インコンテクスト構成の一般化を向上するディバースデモ Diverse Demonstrations Improve In-context Compositional Generalization ( http://arxiv.org/abs/2212.06800v1 ) ライセンス: Link先を確認 | Itay Levy, Ben Bogin, Jonathan Berant | (参考訳) 文脈内学習は、トレーニングとテストセットが同じ分布から引き出されるような意味解析の分割において大きな成功を収めている。
この設定では、モデルは通常、入力質問に類似したデモンストレーションによって促される。
しかし、トレーニングセットにない構造を持つ出力でモデルがテストされる合成一般化のセットアップでは、同様のデモンストレーションを選択するだけでは不十分であり、例が入力と十分に似ていないことが多い。
本研究では,これらの実演から新たな構造への一般化を促すために,出力プログラムに必要な全ての構造を包括的にカバーする多種多様な実演を選択する手法を提案する。
実験により、多種多様な実演とインコンテキスト学習を組み合わせることで、純粋なインコンテキスト学習環境における3つの合成一般化セマンティックパーシングデータセットとファインタニングの併用によるパフォーマンスが大幅に向上することを示した。 In-context learning has shown great success in i.i.d semantic parsing splits, where the training and test sets are drawn from the same distribution. In this setup, models are typically prompted with demonstrations that are similar to the input question. However, in the setup of compositional generalization, where models are tested on outputs with structures that are absent from the training set, selecting similar demonstrations is insufficient, as often no example will be similar enough to the input. In this work, we propose a method to select diverse demonstrations that aims to collectively cover all of the structures required in the output program, in order to encourage the model to generalize to new structures from these demonstrations. We empirically show that combining diverse demonstrations with in-context learning substantially improves performance across three compositional generalization semantic parsing datasets in the pure in-context learning setup and when combined with finetuning. | 翻訳日:2022-12-14 14:28:00 公開日:2022-12-13 |
# 人工知能によるニコチン関連回路の動的検出 Generative artificial intelligence-enabled dynamic detection of nicotine-related circuits ( http://arxiv.org/abs/2212.06330v1 ) ライセンス: Link先を確認 | Changwei Gong, Changhong Jing, Ye Li, Xinan Liu, Zuxin Chen, Shuqiang Wang | (参考訳) 依存症関連回路の同定は、依存症過程の説明と依存症治療に不可欠である。
また、機能的イメージングから開発された機能的依存回路のモデルは、依存的回路の発見と検証に有効なツールである。
しかし、依存症の画像解析と機能的依存回路の検出は依然として課題である。
我々はこれらの課題に対処するため,データ駆動型・エンドツーエンド生成人工知能(AI)フレームワークを開発した。
このフレームワークは動的脳ネットワークモデリングと、時間グラフトランスフォーマーやコントラスト学習モジュールを含む新しいネットワークアーキテクチャネットワークアーキテクチャを統合する。
神経生物学の実験や計算モデリングからエンドツーエンドのニューラルネットワークへの機能的イメージングデータは、動的なニコチン依存関連回路に変換されます。
中毒関連脳回路をダイナミックな特性で検出し、依存の基盤となるメカニズムを明らかにする。 The identification of addiction-related circuits is critical for explaining addiction processes and developing addiction treatments. And models of functional addiction circuits developed from functional imaging are an effective tool for discovering and verifying addiction circuits. However, analyzing functional imaging data of addiction and detecting functional addiction circuits still have challenges. We have developed a data-driven and end-to-end generative artificial intelligence(AI) framework to address these difficulties. The framework integrates dynamic brain network modeling and novel network architecture networks architecture, including temporal graph Transformer and contrastive learning modules. A complete workflow is formed by our generative AI framework: the functional imaging data, from neurobiological experiments, and computational modeling, to end-to-end neural networks, is transformed into dynamic nicotine addiction-related circuits. It enables the detection of addiction-related brain circuits with dynamic properties and reveals the underlying mechanisms of addiction. | 翻訳日:2022-12-14 14:27:44 公開日:2022-12-13 |
# MAntRA:モデルに依存しない信頼性分析のためのフレームワーク MAntRA: A framework for model agnostic reliability analysis ( http://arxiv.org/abs/2212.06303v1 ) ライセンス: Link先を確認 | Yogesh Chandrakant Mathpati and Kalpesh Sanjay More and Tapas Tripura and Rajdip Nayek and Souvik Chakraborty | (参考訳) 時間依存信頼度解析のための新しいモデル非依存データ駆動信頼度解析フレームワークを提案する。
マントラと呼ばれるこのアプローチは、解釈可能な機械学習、ベイズ統計学、確率的動的方程式の同定を組み合わせることで、支配物理学が\textit{apriori} 未知である確率的励起力学系の信頼性を評価する。
最初の段階では、測定された出力データから基礎となる確率微分方程式(SDE)の制御物理を決定するために、効率的な変分ベイズ方程式探索アルゴリズムが開発された。
提案手法は,環境効果と外部励振による環境不確実性,雑音データによる認識の不確かさを考慮し,効率的なアルゴリズムである。
第2段階では、確率積分スキームを用いて発見されたSDEを解き、確率失敗を算出する。
提案手法の有効性を3つの数値例に示す。
その結果, 現場計測から, 現場および遺産の信頼性分析への提案手法の適用可能性が示唆された。 We propose a novel model agnostic data-driven reliability analysis framework for time-dependent reliability analysis. The proposed approach -- referred to as MAntRA -- combines interpretable machine learning, Bayesian statistics, and identifying stochastic dynamic equation to evaluate reliability of stochastically-excited dynamical systems for which the governing physics is \textit{apriori} unknown. A two-stage approach is adopted: in the first stage, an efficient variational Bayesian equation discovery algorithm is developed to determine the governing physics of an underlying stochastic differential equation (SDE) from measured output data. The developed algorithm is efficient and accounts for epistemic uncertainty due to limited and noisy data, and aleatoric uncertainty because of environmental effect and external excitation. In the second stage, the discovered SDE is solved using a stochastic integration scheme and the probability failure is computed. The efficacy of the proposed approach is illustrated on three numerical examples. The results obtained indicate the possible application of the proposed approach for reliability analysis of in-situ and heritage structures from on-site measurements. | 翻訳日:2022-12-14 14:21:59 公開日:2022-12-13 |
# 大規模公開事前学習による個人差分学習の考察 Considerations for Differentially Private Learning with Large-Scale Public Pretraining ( http://arxiv.org/abs/2212.06470v1 ) ライセンス: Link先を確認 | Florian Tram\`er, Gautam Kamath, Nicholas Carlini | (参考訳) 大規模公開データセットで事前訓練された非プライベートモデルの転送学習能力を活用することで、差分プライベート機械学習の性能を大幅に向上させることができる。
このアプローチを批判的にレビューする。
主に、大規模なWebスクラッドデータセットの使用は、差分プライバシ保存と見なされるべきかどうかを問う。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシー定義として損なう可能性があることを警告します。
公開データの利用に関するプライバシー上の考慮を超えて、このパラダイムの有用性をさらに疑問視する。
我々は、既存の機械学習ベンチマークが、事前訓練されたモデルが機密ドメインに一般化する能力を測定するのに適切かどうかを精査する。
最後に、プレトレーニングは、最も大きな利用可能なモデルに対して特に影響があることに気付きました -- エンドユーザーが自身のデバイスでそれらを実行するのを阻止するのに十分な大きさのモデルです。
したがって、今日ではそのようなモデルのデプロイは、(プライベートな)データをより計算力のあるサードパーティにアウトソースする必要があるため、プライバシーにとって純損失になる可能性がある。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりについて論じる。 The performance of differentially private machine learning can be boosted significantly by leveraging the transfer learning capabilities of non-private models pretrained on large public datasets. We critically review this approach. We primarily question whether the use of large Web-scraped datasets should be viewed as differential-privacy-preserving. We caution that publicizing these models pretrained on Web data as "private" could lead to harm and erode the public's trust in differential privacy as a meaningful definition of privacy. Beyond the privacy considerations of using public data, we further question the utility of this paradigm. We scrutinize whether existing machine learning benchmarks are appropriate for measuring the ability of pretrained models to generalize to sensitive domains, which may be poorly represented in public Web data. Finally, we notice that pretraining has been especially impactful for the largest available models -- models sufficiently large to prohibit end users running them on their own devices. Thus, deploying such models today could be a net loss for privacy, as it would require (private) data to be outsourced to a more compute-powerful third party. We conclude by discussing potential paths forward for the field of private learning, as public pretraining becomes more popular and powerful. | 翻訳日:2022-12-14 14:21:42 公開日:2022-12-13 |
# Biomarker Activation Mapによる糖尿病網膜症の診断 Interpretable Diabetic Retinopathy Diagnosis based on Biomarker Activation Map ( http://arxiv.org/abs/2212.06299v1 ) ライセンス: Link先を確認 | Pengxiao Zang, Tristan T. Hormel, Jie Wang, Yukun Guo, Steven T. Bailey, Christina J. Flaxel, David Huang, Thomas S. Hwang, and Yali Jia | (参考訳) 深層学習分類器は、光学コヒーレンス断層撮影(oct)とその血管造影(octa)に基づいて糖尿病網膜症(dr)を自動的に診断する最も正確な手段を提供する。
これらのモデルのパワーは、部分的には、望ましいタスクを達成するのに必要な複雑さを提供する隠されたレイヤを含めることに起因する。
しかし、隠れた層はアルゴリズムの出力を解釈しにくくする。
本稿では, 臨床医が分類器の意思決定を検証・理解するための, 生成的敵対学習に基づく新しいバイオマーカー活性化マップ(BAM)フレームワークを提案する。
456個の黄斑スキャンを含むデータセットを、現在の臨床基準に基づいて非参照型または参照型DRとして評価した。
BAMを評価するのに使われたDR分類器は、このデータセットに基づいて最初に訓練された。
BAM生成フレームワークは、2つのU字型ジェネレータを組み合わせて設計され、この分類器に意味のある解釈性を提供する。
メインジェネレータは、参照可能なスキャンを入力として取り、分類器によって非参照可能な出力を生成するように訓練された。
次に、bamを主発電機の出力と入力との差分画像として構成する。
BAMが分類器を利用したバイオマーカーのみを強調するようにするために、アシスタントジェネレータは反対に行うように訓練され、参照できないスキャンから分類器によって参照可能なスキャンを生成する。
生成したBAMは非灌流領域や網膜液を含む既知の病態の特徴を強調した。
これらのハイライトに基づいて完全に解釈可能な分類器は、臨床医が自動DR診断をよりよく活用し、検証するのに役立ちます。 Deep learning classifiers provide the most accurate means of automatically diagnosing diabetic retinopathy (DR) based on optical coherence tomography (OCT) and its angiography (OCTA). The power of these models is attributable in part to the inclusion of hidden layers that provide the complexity required to achieve a desired task. However, hidden layers also render algorithm outputs difficult to interpret. Here we introduce a novel biomarker activation map (BAM) framework based on generative adversarial learning that allows clinicians to verify and understand classifiers decision-making. A data set including 456 macular scans were graded as non-referable or referable DR based on current clinical standards. A DR classifier that was used to evaluate our BAM was first trained based on this data set. The BAM generation framework was designed by combing two U-shaped generators to provide meaningful interpretability to this classifier. The main generator was trained to take referable scans as input and produce an output that would be classified by the classifier as non-referable. The BAM is then constructed as the difference image between the output and input of the main generator. To ensure that the BAM only highlights classifier-utilized biomarkers an assistant generator was trained to do the opposite, producing scans that would be classified as referable by the classifier from non-referable scans. The generated BAMs highlighted known pathologic features including nonperfusion area and retinal fluid. A fully interpretable classifier based on these highlights could help clinicians better utilize and verify automated DR diagnosis. | 翻訳日:2022-12-14 14:20:54 公開日:2022-12-13 |
# 病理組織学の混合監督は前立腺癌をmriから分類する Mixed Supervision of Histopathology Improves Prostate Cancer Classification from MRI ( http://arxiv.org/abs/2212.06336v1 ) ライセンス: Link先を確認 | Abhejit Rajagopal, Antonio C. Westphalen, Nathan Velarde, Tim Ullrich, Jeffry P. Simko, Hao Nguyen, Thomas A. Hope, Peder E. Z. Larson, Kirti Magudia | (参考訳) mriからの非侵襲性前立腺癌検出は、臨床に重要な疾患(isupグレード群>=2)を早期に検出することで患者のケアに革命をもたらす可能性がある。
そこで本研究では,良性病理からisupグレードグループ~5までの生検結果が得られた患者集団に適用可能な臨床的に有意な前立腺癌を予測するためのmriを用いた深層学習法を提案する。
具体的には,画像ベースセグメンテーションとの整合性の低下にもかかわらず,多種多様な組織学的基盤真理による混在監視が分類性能の向上を実証する。
すなわち, 臨床上有意義ながんの局在を強く監視するために, 対象とする生検および全摘前立腺切除から得られた基礎的真理として, 病理学的結果を利用した場合, 非標的型系統性生検から抽出された弱い監督信号を用いて, 総合的性能を向上させる。
私たちの重要な革新は、単に価値によってではなく、分散による回帰を行うことであり、ディープラーニング戦略によって伝統的に無視される追加の病理所見の使用を可能にします。
我々は,2015-2018年にUCSFで収集された973(n=160)個の多パラメータ前立腺MRI試験とMRI/ultrasound fusion (targeted) biopsy and systematic (nontargeted) biopsy of prostate glandで評価し,病理組織学的に混在した深層ネットワークが,前立腺MRI解釈のためのPI-RADS(Prostate Imaging-Reporting and Data System)臨床標準の性能を大幅に上回ることを示した。 Non-invasive prostate cancer detection from MRI has the potential to revolutionize patient care by providing early detection of clinically-significant disease (ISUP grade group >= 2), but has thus far shown limited positive predictive value. To address this, we present an MRI-based deep learning method for predicting clinically significant prostate cancer applicable to a patient population with subsequent ground truth biopsy results ranging from benign pathology to ISUP grade group~5. Specifically, we demonstrate that mixed supervision via diverse histopathological ground truth improves classification performance despite the cost of reduced concordance with image-based segmentation. That is, where prior approaches have utilized pathology results as ground truth derived from targeted biopsies and whole-mount prostatectomy to strongly supervise the localization of clinically significant cancer, our approach also utilizes weak supervision signals extracted from nontargeted systematic biopsies with regional localization to improve overall performance. Our key innovation is performing regression by distribution rather than simply by value, enabling use of additional pathology findings traditionally ignored by deep learning strategies. We evaluated our model on a dataset of 973 (testing n=160) multi-parametric prostate MRI exams collected at UCSF from 2015-2018 followed by MRI/ultrasound fusion (targeted) biopsy and systematic (nontargeted) biopsy of the prostate gland, demonstrating that deep networks trained with mixed supervision of histopathology can significantly exceed the performance of the Prostate Imaging-Reporting and Data System (PI-RADS) clinical standard for prostate MRI interpretation. | 翻訳日:2022-12-14 14:20:28 公開日:2022-12-13 |
# アコースティックエミッションマップにおける自動太陽地震検出のための機械学習強化手法 A Machine Learning Enhanced Approach for Automated Sunquake Detection in Acoustic Emission Maps ( http://arxiv.org/abs/2212.06717v1 ) ライセンス: Link先を確認 | Vanessa Mercea, Alin Razvan Paraschiv, Daniela Adriana Lacatus, Anca Marginean, Diana Besliu-Ionescu | (参考訳) 太陽地震 (sunquake) は、太陽フレアに伴う太陽表面の地震放射である。
1998年に発見されたが、最近になってより一般的に検出される現象となった。
いくつかの手動検出ガイドラインが利用できるにもかかわらず、我々の知識では、サンコークスで生成された天体物理データは機械学習の分野では新しいものである。
太陽の地震を検知することは人間のオペレーターにとって大変な作業であり、この研究は検出を容易かつ可能ならば改善することを目的としている。
そこで,ホログラフィ法を用いて,太陽周期23,24で得られた太陽活動領域の音響回帰パワーマップから構築したデータセットを提案する。
次に, 自動エンコーダ, コントラスト学習, オブジェクト検出, 再帰的手法を用いたサンクエーカー検出のための機械学習表現法の適用に関する教育的アプローチを提案する。
そこで本研究では,太陽地震自動検出タスクの主な課題である,アクティブ領域シャドウ内外におけるノイズパターンと,太陽地震シグネチャを示すフレーム数の制限による極端クラスの不均衡について述べる。
訓練されたモデルでは、特殊な音響放射の時間的および空間的位置を見つけ、定性的にそれらを爆発的かつ高エネルギー放出に関連付ける。
これらのモデルはまだプロトタイプ段階であり、測定値やバイアスレベルを改善する余地がたくさんあることに留意しながらも、例えばユースケースにおける彼らの合意は、弱い太陽音像の検出を可能にする可能性があると仮定する。 Sunquakes are seismic emissions visible on the solar surface, associated with some solar flares. Although discovered in 1998, they have only recently become a more commonly detected phenomenon. Despite the availability of several manual detection guidelines, to our knowledge, the astrophysical data produced for sunquakes is new to the field of Machine Learning. Detecting sunquakes is a daunting task for human operators and this work aims to ease and, if possible, to improve their detection. Thus, we introduce a dataset constructed from acoustic egression-power maps of solar active regions obtained for Solar Cycles 23 and 24 using the holography method. We then present a pedagogical approach to the application of machine learning representation methods for sunquake detection using AutoEncoders, Contrastive Learning, Object Detection and recurrent techniques, which we enhance by introducing several custom domain-specific data augmentation transformations. We address the main challenges of the automated sunquake detection task, namely the very high noise patterns in and outside the active region shadow and the extreme class imbalance given by the limited number of frames that present sunquake signatures. With our trained models, we find temporal and spatial locations of peculiar acoustic emission and qualitatively associate them to eruptive and high energy emission. While noting that these models are still in a prototype stage and there is much room for improvement in metrics and bias levels, we hypothesize that their agreement on example use cases has the potential to enable detection of weak solar acoustic manifestations. | 翻訳日:2022-12-14 14:19:54 公開日:2022-12-13 |
# ISTAとFISTAの線形収束 Linear Convergence of ISTA and FISTA ( http://arxiv.org/abs/2212.06319v1 ) ライセンス: Link先を確認 | Bowen Li, Bin Shi, Ya-xiang Yuan | (参考訳) 本稿では,信号処理や画像処理において発生する疎表現による線形逆問題の解法として,反復縮小保持アルゴリズム(ISTA)のクラスを再検討する。
数値実験では, 対数スケールのオーディネートにおける収束挙動が対数の代わりに線形になりがちで, ほぼ平坦であることを示す。
微妙な観察により、滑らかな部分を凸とする以前の仮定が最小二乗モデルを弱めることが分かる。
特に、画像行列が不条件であるとしても、滑らかな部分が強い凸となると仮定することは、最小二乗モデルにとってより合理的である。
さらに, [li et al., 2022] に初めて見られる一般凸の代わりに, 滑らかな部分で強凸となるように, 複合最適化のための重要な不等式を改良した。
この中心的不等式に基づいて、線形収束を目的値と2乗近位下次ノルムの両方の合成最適化に一般化する。
一方、元のぼやけた行列の代わりに特異値を簡単に計算できる単純な不条件行列を設定した。
新しい数値実験は、強い凸関数に対するネステロフの加速勾配勾配(NAG)の近位一般化がISTAよりも高速な線形収束速度を持つことを示している。
さらに,より厳密な主成分不等式に基づいて,より高速な線形収束率を,目的値と正方形近位劣勾配ノルムの両方において合成最適化に一般化し,わずかな修正で構築されたリアプノフ関数と,暗黙的速度スキームから高分解能微分方程式の枠組みに基づく位相空間表現を活用した。 In this paper, we revisit the class of iterative shrinkage-thresholding algorithms (ISTA) for solving the linear inverse problem with sparse representation, which arises in signal and image processing. It is shown in the numerical experiment to deblur an image that the convergence behavior in the logarithmic-scale ordinate tends to be linear instead of logarithmic, approximating to be flat. Making meticulous observations, we find that the previous assumption for the smooth part to be convex weakens the least-square model. Specifically, assuming the smooth part to be strongly convex is more reasonable for the least-square model, even though the image matrix is probably ill-conditioned. Furthermore, we improve the pivotal inequality tighter for composite optimization with the smooth part to be strongly convex instead of general convex, which is first found in [Li et al., 2022]. Based on this pivotal inequality, we generalize the linear convergence to composite optimization in both the objective value and the squared proximal subgradient norm. Meanwhile, we set a simple ill-conditioned matrix which is easy to compute the singular values instead of the original blur matrix. The new numerical experiment shows the proximal generalization of Nesterov's accelerated gradient descent (NAG) for the strongly convex function has a faster linear convergence rate than ISTA. Based on the tighter pivotal inequality, we also generalize the faster linear convergence rate to composite optimization, in both the objective value and the squared proximal subgradient norm, by taking advantage of the well-constructed Lyapunov function with a slight modification and the phase-space representation based on the high-resolution differential equation framework from the implicit-velocity scheme. | 翻訳日:2022-12-14 14:19:29 公開日:2022-12-13 |
# 混合スペクトルを持つ音源の非パラメトリック独立成分分析 Nonparametric Independent Component Analysis for the Sources with Mixed Spectra ( http://arxiv.org/abs/2212.06327v1 ) ライセンス: Link先を確認 | Seonjoo Lee, Haipeng Shen and Young K. Truong | (参考訳) 独立成分分析(Independent component analysis, ICA)は、ブラインドソース分離法であり、それらの混合物から興味のあるソース信号を復元する。
既存のicaプロシージャの多くは独立したサンプリングを行う。
2次統計に基づく音源分離法は, 自己相関源からの混合物のパラメトリック時系列モデルに基づいて開発された。
しかし、2次統計に基づく手法では、ソースが混合スペクトルと時間的自己相関を持つ場合、ソースを正確に分離することはできない。
そこで本研究では,各音源信号のスペクトル密度関数と線スペクトルをそれぞれ立方スプラインとインジケータ関数を用いて推定し,新しいICA法を提案する。
ウィトル確率関数を最大化することにより、混合スペクトルと混合行列を推定する。
シミュレーション実験と脳波データアプリケーションを用いて提案手法の性能について述べる。
本手法は,SOBIアルゴリズムを含む既存のICA法よりも優れていることを示す。
また,提案手法の漸近的挙動についても検討した。 Independent component analysis (ICA) is a blind source separation method to recover source signals of interest from their mixtures. Most existing ICA procedures assume independent sampling. Second-order-statistics-based source separation methods have been developed based on parametric time series models for the mixtures from the autocorrelated sources. However, the second-order-statistics-based methods cannot separate the sources accurately when the sources have temporal autocorrelations with mixed spectra. To address this issue, we propose a new ICA method by estimating spectral density functions and line spectra of the source signals using cubic splines and indicator functions, respectively. The mixed spectra and the mixing matrix are estimated by maximizing the Whittle likelihood function. We illustrate the performance of the proposed method through simulation experiments and an EEG data application. The numerical results indicate that our approach outperforms existing ICA methods, including SOBI algorithms. In addition, we investigate the asymptotic behavior of the proposed method. | 翻訳日:2022-12-14 14:18:58 公開日:2022-12-13 |
# 強化学習におけるオフポリシー評価の見直し A Review of Off-Policy Evaluation in Reinforcement Learning ( http://arxiv.org/abs/2212.06355v1 ) ライセンス: Link先を確認 | Masatoshi Uehara, Chengchun Shi, Nathan Kallus | (参考訳) 強化学習(rl)は、機械学習における最も活発な研究分野の1つであり、近年、多くの課題を解決するために適用されている。
本稿では、主に、RLにおける最も基本的なトピックである、オフ・ポリティ・アセスメント(OPE)に焦点を当てる。
近年、統計学や計算機科学の文献において、いくつかのope手法が開発されている。
我々は,OPEの効率バウンダリ,既存のOPE手法のいくつか,その統計的性質,その他現在活発に研究されている研究方向について論じる。 Reinforcement learning (RL) is one of the most vibrant research frontiers in machine learning and has been recently applied to solve a number of challenging problems. In this paper, we primarily focus on off-policy evaluation (OPE), one of the most fundamental topics in RL. In recent years, a number of OPE methods have been developed in the statistics and computer science literature. We provide a discussion on the efficiency bound of OPE, some of the existing state-of-the-art OPE methods, their statistical properties and some other related research directions that are currently actively explored. | 翻訳日:2022-12-14 14:18:46 公開日:2022-12-13 |
# indicxtreme:indic言語評価のためのマルチタスクベンチマーク IndicXTREME: A Multi-Task Benchmark For Evaluating Indic Languages ( http://arxiv.org/abs/2212.05409v2 ) ライセンス: Link先を確認 | Sumanth Doddapaneni, Rahul Aralikatte, Gowtham Ramesh, Shreya Goyal, Mitesh M. Khapra, Anoop Kunchukuttan, Pratyush Kumar | (参考訳) IndicXTREMEは、4つのファミリーに属するIndicサブ大陸から18言語をカバーする9つの多様なタスクからなるベンチマークである。
言語やタスク全体にわたって、IndicXTREMEには合計103の評価セットが含まれており、そのうち51が新たな文献への貢献である。
高品質を維持するには、データセットのキュレーションや翻訳に人間のアノテーションのみを使用します。
我々の知る限りでは、事前訓練された言語モデルのゼロショット機能をテストすることを目的とした、Indic言語の標準ベンチマークを作成するための最初の取り組みである。
IndicCorp v2は、24言語で20.9億のトークンを含むIndicCorpのアップデート版で、はるかに大きなバージョンです。
IndicCorp v2でIndicBERT v2をプレトレーニングし、IndicXTREMEで評価し、XLM-RやMuRILのような既存の多言語言語モデルよりも優れていることを示す。 In this work, we introduce IndicXTREME, a benchmark consisting of nine diverse tasks covering 18 languages from the Indic sub-continent belonging to four different families. Across languages and tasks, IndicXTREME contains a total of 103 evaluation sets, of which 51 are new contributions to the literature. To maintain high quality, we only use human annotators to curate or translate our datasets. To the best of our knowledge, this is the first effort toward creating a standard benchmark for Indic languages that aims to test the zero-shot capabilities of pretrained language models. We also release IndicCorp v2, an updated and much larger version of IndicCorp that contains 20.9 billion tokens in 24 languages. We pretrain IndicBERT v2 on IndicCorp v2 and evaluate it on IndicXTREME to show that it outperforms existing multilingual language models such as XLM-R and MuRIL. | 翻訳日:2022-12-14 14:18:35 公開日:2022-12-13 |
# 政策学習 : 多目的ベイズ最適化と最適政策木の組み合わせ Policy learning for many outcomes of interest: Combining optimal policy trees with multi-objective Bayesian optimisation ( http://arxiv.org/abs/2212.06312v1 ) ライセンス: Link先を確認 | Patrick Rehill | (参考訳) 最適ポリシーの学習方法は、因果機械学習モデルを使用して、異なるポリシー介入の割り当てに関する選択を行うための人間解釈可能なルールを作成する。
しかし、現実的な政策決定の文脈では、意思決定者は結果間のトレードオフを気にすることが多い。
本稿では,政策学習のための最適決定木と,複数の成果間のトレードオフを探索する多目的ベイズ最適化手法を組み合わせた,多目的政策学習(mopol)と呼ばれるアプローチを提案する。
これは、異なるハイパーパラメータ設定のための非支配モデルのParetoフロンティアを構築することで実現している。
ここでの鍵は、低コストのサロゲート関数は、期待された後悔の観点から、非常に計算コストのかかる最適ツリーの正確なプロキシになり得ることである。
このサロゲートは、最適なモデルの性能をプロキシするために、異なるハイパーパラメータ値に何度も適合することができる。
この手法はモロッコにおける条件付現金の現実的なケーススタディに適用され、ハイブリッド(部分的に最適、部分的に欲求)ポリシーツリーは最適な木を代用し、計算的に安価でパレートフロンティアに適合させることができる。 Methods for learning optimal policies use causal machine learning models to create human-interpretable rules for making choices around the allocation of different policy interventions. However, in realistic policy-making contexts, decision-makers often care about trade-offs between outcomes, not just singlemindedly maximising utility for one outcome. This paper proposes an approach termed Multi-Objective Policy Learning (MOPoL) which combines optimal decision trees for policy learning with a multi-objective Bayesian optimisation approach to explore the trade-off between multiple outcomes. It does this by building a Pareto frontier of non-dominated models for different hyperparameter settings. The key here is that a low-cost surrogate function can be an accurate proxy for the very computationally costly optimal tree in terms of expected regret. This surrogate can be fit many times with different hyperparameter values to proxy the performance of the optimal model. The method is applied to a real-world case-study of conditional cash transfers in Morocco where hybrid (partially optimal, partially greedy) policy trees provide good performance as a surrogate for optimal trees while being computationally cheap enough to feasibly fit a Pareto frontier. | 翻訳日:2022-12-14 14:10:36 公開日:2022-12-13 |
# 自然言語処理によるバグレポートの自動ラベリング Auto-labelling of Bug Report using Natural Language Processing ( http://arxiv.org/abs/2212.06334v1 ) ライセンス: Link先を確認 | Avinash Patil, Aryan Jadon | (参考訳) バグトラッキングシステムで同様のバグレポートを検出する作業は、重複バグレポート検出と呼ばれる。
バグレポートの存在を事前に知ることで、デバッグ問題や根本原因を特定する作業が軽減される。
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
さらに、トリアージエンジニアは、広範なリストを通すのに時間を費やすモチベーションが低くなっている。
これにより、重複したバグレポート検索ソリューションの使用が抑えられる。
本論文では,NLP手法の組み合わせによる解を提案する。
当社のアプローチでは、要約、説明と深刻度、影響のある製品、プラットフォーム、カテゴリなど、バグレポートの非構造化と構造化属性を考慮に入れています。
独自のデータトランスフォーマー、ディープニューラルネットワーク、非一般化機械学習メソッドを使用して、既存の同一のバグレポートを取得する。
我々は、何千ものバグレポートを含む重要なデータソースで多くの実験を行い、提案手法がrecall@5で70%高い検索精度を達成することを示した。 The exercise of detecting similar bug reports in bug tracking systems is known as duplicate bug report detection. Having prior knowledge of a bug report's existence reduces efforts put into debugging problems and identifying the root cause. Rule and Query-based solutions recommend a long list of potential similar bug reports with no clear ranking. In addition, triage engineers are less motivated to spend time going through an extensive list. Consequently, this deters the use of duplicate bug report retrieval solutions. In this paper, we have proposed a solution using a combination of NLP techniques. Our approach considers unstructured and structured attributes of a bug report like summary, description and severity, impacted products, platforms, categories, etc. It uses a custom data transformer, a deep neural network, and a non-generalizing machine learning method to retrieve existing identical bug reports. We have performed numerous experiments with significant data sources containing thousands of bug reports and showcased that the proposed solution achieves a high retrieval accuracy of 70% for recall@5. | 翻訳日:2022-12-14 14:10:13 公開日:2022-12-13 |
# スコアベース生成モデルによるワッサーシュタイン距離の極小化 Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance ( http://arxiv.org/abs/2212.06359v1 ) ライセンス: Link先を確認 | Dohyun Kwon, Ying Fan, Kangwook Lee | (参考訳) スコアに基づく生成モデルは、画像生成や音声合成などの様々なアプリケーションにおいて顕著な経験的性能を達成することが示されている。
しかし、スコアに基づく拡散モデルの理論的理解はまだ不完全である。
近年,songらは,スコアベース生成モデルの学習目的は,生成した分布のkullback-leibler発散をデータ分布から最小化することと同値であることを示した。
本研究では,スコアベースモデルがモデル上の適切な仮定の下でのwasserstein距離を最小化することを示す。
具体的には、ワッサーシュタイン距離が乗法定数と固定定数オフセットまで対象関数の平方根によって上界であることが証明される。
我々の証明は、社会に独立した関心を持つことのできる最適輸送理論の新たな応用に基づいている。
我々の数値実験は我々の発見を裏付ける。
上限を解析することにより、より厳密な上限を得るためのいくつかの技術を提供する。 Score-based generative models are shown to achieve remarkable empirical performances in various applications such as image generation and audio synthesis. However, a theoretical understanding of score-based diffusion models is still incomplete. Recently, Song et al. showed that the training objective of score-based generative models is equivalent to minimizing the Kullback-Leibler divergence of the generated distribution from the data distribution. In this work, we show that score-based models also minimize the Wasserstein distance between them under suitable assumptions on the model. Specifically, we prove that the Wasserstein distance is upper bounded by the square root of the objective function up to multiplicative constants and a fixed constant offset. Our proof is based on a novel application of the theory of optimal transport, which can be of independent interest to the society. Our numerical experiments support our findings. By analyzing our upper bounds, we provide a few techniques to obtain tighter upper bounds. | 翻訳日:2022-12-14 14:09:57 公開日:2022-12-13 |
# CropCat:脳波信号の特徴分布の平滑化のためのデータ拡張 CropCat: Data Augmentation for Smoothing the Feature Distribution of EEG Signals ( http://arxiv.org/abs/2212.06413v1 ) ライセンス: Link先を確認 | Sung-Jin Kim, Dae-Hyeok Lee, Yeon-Woo Choi | (参考訳) 脳コンピュータインタフェース(BCI)は、物理的制御装置を使わずに人間の意図を反映する人間とコンピュータの間の通信システムである。
深層学習はデータから特徴を抽出する上で堅牢であるため、深層学習を適用して脳波を復号する研究がBCIドメインで進んでいる。
しかし、bciドメインにおけるディープラーニングの応用には、データの欠如と自信過剰が問題となっている。
そこで本研究では,新しいデータ拡張手法であるcropcatを提案する。
CropCatはCropCat-spatialとCropCat-temporalの2つのバージョンで構成されている。
本手法は,空間軸と時間軸に異なるラベルを持つデータを切り刻んだ後,切り抜いたデータを連結して設計した。
また,クロッピング長さの比に基づいてラベルを調整した。
その結果,提案手法から生成したデータは,不明瞭な決定境界をデータ不足による明らかなものに修正する助けとなった。
提案手法の有効性により,提案手法が適用されない場合と比較して,2つの運動画像公開データセットにおいて4つの脳波信号復号モデルの性能が向上する。
そこで,cropcatが生成したデータによって,脳波信号の特徴分布が円滑になることを示す。 Brain-computer interface (BCI) is a communication system between humans and computers reflecting human intention without using a physical control device. Since deep learning is robust in extracting features from data, research on decoding electroencephalograms by applying deep learning has progressed in the BCI domain. However, the application of deep learning in the BCI domain has issues with a lack of data and overconfidence. To solve these issues, we proposed a novel data augmentation method, CropCat. CropCat consists of two versions, CropCat-spatial and CropCat-temporal. We designed our method by concatenating the cropped data after cropping the data, which have different labels in spatial and temporal axes. In addition, we adjusted the label based on the ratio of cropped length. As a result, the generated data from our proposed method assisted in revising the ambiguous decision boundary into apparent caused by a lack of data. Due to the effectiveness of the proposed method, the performance of the four EEG signal decoding models is improved in two motor imagery public datasets compared to when the proposed method is not applied. Hence, we demonstrate that generated data by CropCat smooths the feature distribution of EEG signals when training the model. | 翻訳日:2022-12-14 14:09:45 公開日:2022-12-13 |
# 強化学習を用いた太陽光発電の公平化へのモデルフリーアプローチ Model-Free Approach to Fair Solar PV Curtailment Using Reinforcement Learning ( http://arxiv.org/abs/2212.06542v1 ) ライセンス: Link先を確認 | Zhuo Wei, Frits de Nijs, Jinhao Li, Hao Wang | (参考訳) 住宅用太陽光発電(PV)の急速な普及は、相関する逆流によって定期的に過電圧が発生する。
現在、PVインバータは過電圧に応じてエネルギー生産量を削減することで電子機器の損傷を防ぐ。
しかし、これは供給者の遠方の世帯に不公平に影響を及ぼし、生産されるエネルギーの潜在的な価値を不当に割り当てる結果となった。
公正な削減のためにグローバルに最適化するには正確なフィードパラメータが必要であるが、しばしば不明である。
本稿では,システムとのインタラクションにより,適切なPV削減戦略を徐々に最適化する強化学習について検討する。
最適解のオラクルと比較して,6つのフェアネスの指標がどの程度学習できるかを評価する。
すべての定義が効率的な学習を可能にすることを示し、強化学習が安全かつ公平なPV協調を達成するための有望なアプローチであることを示唆する。 The rapid adoption of residential solar photovoltaics (PV) has resulted in regular overvoltage events, due to correlated reverse power flows. Currently, PV inverters prevent damage to electronics by curtailing energy production in response to overvoltage. However, this disproportionately affects households at the far end of the feeder, leading to an unfair allocation of the potential value of energy produced. Globally optimizing for fair curtailment requires accurate feeder parameters, which are often unknown. This paper investigates reinforcement learning, which gradually optimizes a fair PV curtailment strategy by interacting with the system. We evaluate six fairness metrics on how well they can be learned compared to an optimal solution oracle. We show that all definitions permit efficient learning, suggesting that reinforcement learning is a promising approach to achieving both safe and fair PV coordination. | 翻訳日:2022-12-14 14:09:28 公開日:2022-12-13 |
# 政策最適化に基づくエネルギー・周波数規制市場における共同入札のための強化学習 Proximal Policy Optimization Based Reinforcement Learning for Joint Bidding in Energy and Frequency Regulation Markets ( http://arxiv.org/abs/2212.06551v1 ) ライセンス: Link先を確認 | Muhammad Anwar, Changlong Wang, Frits de Nijs, Hao Wang | (参考訳) 世界的脱炭の取り組みにより、再生可能エネルギーの従来の電力網への急速な統合は、バッテリーエネルギー貯蔵システム(bess)がエネルギー市場に参加する新たな課題と機会をもたらす。
エネルギー仲裁は、再生可能エネルギーと電力需要のミスマッチに起因するスポット市場における価格変動の増加により、BESSにとって重要な収入源となり得る。
さらに、グリッドを安定させるために設立された周波数制御補助サービス(FCAS)市場は、ミリ秒以内に応答可能なため、BESSに対してより高いリターンを提供することができる。
したがって、不確定な市場条件下での利益を最大化するために、各市場に対してどの程度の能力を割り当てるかをbesが慎重に決定することが重要である。
本稿では,BESSの入札問題をマルコフ決定プロセスとして定式化し,BESSがスポット市場とFCAS市場の両方に参加して利益を最大化できるようにする。
次に,エネルギー市場の動的環境から連続入札スケールで最適な入札戦略を学ぶために,モデルフリーな深層強化学習アルゴリズムである近位政策最適化を適用した。
提案モデルは,オーストラリア国定電力市場の実世界的歴史的データを用いて訓練し,検証する。
その結果, 両市場における共同入札戦略は, 個別市場と比較して有意に有益であることが示された。 Driven by the global decarbonization effort, the rapid integration of renewable energy into the conventional electricity grid presents new challenges and opportunities for the battery energy storage system (BESS) participating in the energy market. Energy arbitrage can be a significant source of revenue for the BESS due to the increasing price volatility in the spot market caused by the mismatch between renewable generation and electricity demand. In addition, the Frequency Control Ancillary Services (FCAS) markets established to stabilize the grid can offer higher returns for the BESS due to their capability to respond within milliseconds. Therefore, it is crucial for the BESS to carefully decide how much capacity to assign to each market to maximize the total profit under uncertain market conditions. This paper formulates the bidding problem of the BESS as a Markov Decision Process, which enables the BESS to participate in both the spot market and the FCAS market to maximize profit. Then, Proximal Policy Optimization, a model-free deep reinforcement learning algorithm, is employed to learn the optimal bidding strategy from the dynamic environment of the energy market under a continuous bidding scale. The proposed model is trained and validated using real-world historical data of the Australian National Electricity Market. The results demonstrate that our developed joint bidding strategy in both markets is significantly profitable compared to individual markets. | 翻訳日:2022-12-14 14:09:14 公開日:2022-12-13 |
# 経験からロボットナビゲーションを学ぶ:原理,方法,最近の成果 Learning Robotic Navigation from Experience: Principles, Methods, and Recent Results ( http://arxiv.org/abs/2212.06759v1 ) ライセンス: Link先を確認 | Sergey Levine, Dhruv Shah | (参考訳) ナビゲーションはロボット工学において最もよく研究されている問題の1つであり、従来の幾何学的マッピングと計画の問題としてアプローチされている。
しかし、現実世界のナビゲーションは、単純な幾何学的抽象化に反する複雑な物理的課題の集合を示す。
機械学習は、幾何学や従来の計画を超える有望な方法を提供し、実際の事前経験に基づいて意思決定を行うナビゲーションシステムを可能にする。
このようなシステムは、幾何学を越えて、行動の物理的結果や現実世界の環境でのパターンの利用を考慮しながら、トラバーサビリティを推論することができる。
また、より多くのデータが収集されると改善でき、強力なネットワーク効果をもたらす可能性がある。
本稿では,ロボットナビゲーション技術の実験的学習ツールについて紹介し,近年のアプローチを統一し,基礎となる設計原則を説明し,最近の論文から実験結果を要約し,今後の課題と方向性について議論する。 Navigation is one of the most heavily studied problems in robotics, and is conventionally approached as a geometric mapping and planning problem. However, real-world navigation presents a complex set of physical challenges that defies simple geometric abstractions. Machine learning offers a promising way to go beyond geometry and conventional planning, allowing for navigational systems that make decisions based on actual prior experience. Such systems can reason about traversability in ways that go beyond geometry, accounting for the physical outcomes of their actions and exploiting patterns in real-world environments. They can also improve as more data is collected, potentially providing a powerful network effect. In this article, we present a general toolkit for experiential learning of robotic navigation skills that unifies several recent approaches, describe the underlying design principles, summarize experimental results from several of our recent papers, and discuss open problems and directions for future work. | 翻訳日:2022-12-14 14:08:54 公開日:2022-12-13 |
# TIER:CLIP型モデルのテキスト画像エントロピー正規化 TIER: Text-Image Entropy Regularization for CLIP-style models ( http://arxiv.org/abs/2212.06710v1 ) ライセンス: Link先を確認 | Anil Palepu, Andrew L. Beam | (参考訳) 本稿では,新しい正規化手法が言語画像事前学習(CLIP)モデルに与える影響について検討する。
我々のアプローチは、多くの領域において、テキストトークンは少数の画像領域のみを記述すべきであり、同様に、各画像領域は少数のテキストトークンに対応すべきである、という観察に基づいている。
クリップスタイルモデルでは、テキストトケン埋め込みは、与えられた画像テキストペアに対する少数のイメージパッチ埋め込みと高い類似性を持つべきである。
この観察を,テキストトケンのエントロピーを画像パッチ類似度スコアにペナライズする新しい正規化スキームを用いて定式化する。
提案手法がテキストとパッチの類似度スコアをゼロに縮小し,所望の効果を達成することを定性的かつ定量的に証明する。
この仮説が自然に生じる重要な医学的文脈において、我々のアプローチの可能性を実証する。
提案手法を用いることで,CheXpert胸部X線データセットから得られた全タスクに対するSOTAゼロショット性能を達成し,非正規化バージョンと最近公開されたいくつかの自己教師型モデルより優れていた。 In this paper, we study the effect of a novel regularization scheme on contrastive language-image pre-trained (CLIP) models. Our approach is based on the observation that, in many domains, text tokens should only describe a small number of image regions and, likewise, each image region should correspond to only a few text tokens. In CLIP-style models, this implies that text-token embeddings should have high similarity to only a small number of image-patch embeddings for a given image-text pair. We formalize this observation using a novel regularization scheme that penalizes the entropy of the text-token to image-patch similarity scores. We qualitatively and quantitatively demonstrate that the proposed regularization scheme shrinks the text-token and image-patch similarity scores towards zero, thus achieving the desired effect. We demonstrate the promise of our approach in an important medical context where this underlying hypothesis naturally arises. Using our proposed approach, we achieve state of the art (SOTA) zero-shot performance on all tasks from the CheXpert chest x-ray dataset, outperforming an unregularized version of the model and several recently published self-supervised models. | 翻訳日:2022-12-14 14:02:39 公開日:2022-12-13 |
# GPViT:グループ伝搬を用いた高分解能非階層視覚変換器 GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation ( http://arxiv.org/abs/2212.06795v1 ) ライセンス: Link先を確認 | Chenhongyi Yang, Jiarui Xu, Shalini De Mello, Elliot J. Crowley, Xiaolong Wang | (参考訳) グループ伝搬型視覚トランスフォーマ(gpvit: group propagation vision transformer, gpvit)は、非階層的(非ピラミダル)トランスフォーマモデルである。
高分解能機能(またはトークン)は、検出やセグメンテーションなどの細かな詳細を知覚するタスクに自然に適合するが、これらの機能間のグローバル情報交換は、自己依存のスケール方法のため、メモリと計算において高価である。
グローバルな情報を交換するための,効率のよいグループ伝搬ブロック(GPブロック)を提供する。
各GPブロックでは、まず一定数の学習可能なグループトークンで特徴をグループ化し、次にグループ間でグローバル情報を交換するグループプロパゲーションを行い、最後に、更新されたグループ化された特徴のグローバル情報を変換器デコーダを介して画像特徴に戻す。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
我々のGPViT-L3はADE20KセマンティックセマンティックセグメンテーションにおいてSwin Transformer-Bを2.0mIoUで上回り、パラメータは半分しかありません。
コードと事前トレーニングされたモデルはhttps://github.com/ChenhongyiYang/GPViT で公開されている。 We present the Group Propagation Vision Transformer (GPViT): a novel nonhierarchical (i.e. non-pyramidal) transformer model designed for general visual recognition with high-resolution features. High-resolution features (or tokens) are a natural fit for tasks that involve perceiving fine-grained details such as detection and segmentation, but exchanging global information between these features is expensive in memory and computation because of the way self-attention scales. We provide a highly efficient alternative Group Propagation Block (GP Block) to exchange global information. In each GP Block, features are first grouped together by a fixed number of learnable group tokens; we then perform Group Propagation where global information is exchanged between the grouped features; finally, global information in the updated grouped features is returned back to the image features through a transformer decoder. We evaluate GPViT on a variety of visual recognition tasks including image classification, semantic segmentation, object detection, and instance segmentation. Our method achieves significant performance gains over previous works across all tasks, especially on tasks that require high-resolution outputs, for example, our GPViT-L3 outperforms Swin Transformer-B by 2.0 mIoU on ADE20K semantic segmentation with only half as many parameters. Code and pre-trained models are available at https://github.com/ChenhongyiYang/GPViT . | 翻訳日:2022-12-14 14:02:17 公開日:2022-12-13 |
# 皮膚癌分類における敵対的攻撃と防御 Adversarial Attacks and Defences for Skin Cancer Classification ( http://arxiv.org/abs/2212.06822v1 ) ライセンス: Link先を確認 | Vinay Jogani, Joy Purohit, Ishaan Shivhare, Samina Attari and Shraddha Surtkar | (参考訳) 近年、分類、検出、分割といったタスクを実行するための機械学習技術の診断と性能向上のために用いられる医用画像は、同時に大幅に改善されている。
その結果、医療業界では、例えば、これらのモデルが人間の医師と同等の診断を達成している医療画像分類システムのような形で、このようなシステムの使用が急速に増加することが観察できる。
これを観察できる応用の1つは、皮膚内視鏡画像における皮膚病変の分類のようなコンピュータビジョンタスクである。
しかし、保険会社などのヘルスケア業界のステークホルダーが機械学習インフラに多大な投資を続けるにつれ、このようなシステムの脆弱性を理解することがますます重要になっている。
これらの機械学習モデルによって実行されるタスクの極めて重要な性質のため、これらの脆弱性とそれに対する防御方法を活用するために使用できる技術を分析する必要がある。
本稿では,共通の攻撃手法について検討する。
皮膚病変の皮膚鏡像を分類するために訓練された畳み込みニューラルネットワークに対して、高速標識勾配法と投射降下勾配を用いる。
続いて、最も人気のある敵の防御技術である敵の訓練についても論じている。
次に、敵の例に基づいて訓練されたモデルの性能を上記の攻撃に対して検証し、実験結果に基づいてニューラルネットワークの堅牢性を改善するための勧告を提供する。 There has been a concurrent significant improvement in the medical images used to facilitate diagnosis and the performance of machine learning techniques to perform tasks such as classification, detection, and segmentation in recent years. As a result, a rapid increase in the usage of such systems can be observed in the healthcare industry, for instance in the form of medical image classification systems, where these models have achieved diagnostic parity with human physicians. One such application where this can be observed is in computer vision tasks such as the classification of skin lesions in dermatoscopic images. However, as stakeholders in the healthcare industry, such as insurance companies, continue to invest extensively in machine learning infrastructure, it becomes increasingly important to understand the vulnerabilities in such systems. Due to the highly critical nature of the tasks being carried out by these machine learning models, it is necessary to analyze techniques that could be used to take advantage of these vulnerabilities and methods to defend against them. This paper explores common adversarial attack techniques. The Fast Sign Gradient Method and Projected Descent Gradient are used against a Convolutional Neural Network trained to classify dermatoscopic images of skin lesions. Following that, it also discusses one of the most popular adversarial defense techniques, adversarial training. The performance of the model that has been trained on adversarial examples is then tested against the previously mentioned attacks, and recommendations to improve neural networks robustness are thus provided based on the results of the experiment. | 翻訳日:2022-12-14 14:01:51 公開日:2022-12-13 |
# ernie-code: プログラミング言語のための英語中心のクロスリンガル事前学習 ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages ( http://arxiv.org/abs/2212.06742v1 ) ライセンス: Link先を確認 | Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu | (参考訳) 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆もまた、コミュニケーションと作業効率に対する大きな障壁を築きます。
近年、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、常に英語中心である。
本研究では,大規模言語モデル(LLM)における多言語NLと多言語PLのギャップを埋めることを目指す。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
普遍的な言語間事前学習には,単言語nlやplからパターンを学習するスパン・腐敗言語モデリングと,多数のnlやplの並列データに依存するpivotに基づく翻訳言語モデリングの2つの手法を用いる。
ERNIE-Codeは、多言語のコード・トゥ・テキスト、テキスト・トゥ・コード、テキスト・トゥ・テキスト生成など、コードインテリジェンスの幅広いタスクにおいて、PLやNLの従来の多言語LLMよりも優れていた。
さらに,多言語コード要約とテキスト間翻訳におけるゼロショットプロンプトの利点を示す。
コードと事前トレーニングされたモデルを公開します。 Software engineers working with the same programming language (PL) may speak different natural languages (NLs) and vice versa, erecting huge barriers to communication and working efficiency. Recent studies have demonstrated the effectiveness of generative pre-training in computer programs, yet they are always English-centric. In this work, we step towards bridging the gap between multilingual NLs and multilingual PLs for large language models (LLMs). We release ERNIE-Code, a unified pre-trained language model for 116 NLs and 6 PLs. We employ two methods for universal cross-lingual pre-training: span-corruption language modeling that learns patterns from monolingual NL or PL; and pivot-based translation language modeling that relies on parallel data of many NLs and PLs. Extensive results show that ERNIE-Code outperforms previous multilingual LLMs for PL or NL across a wide range of end tasks of code intelligence, including multilingual code-to-text, text-to-code, code-to-code, and text-to-text generation. We further show its advantage of zero-shot prompting on multilingual code summarization and text-to-text translation. We will make our code and pre-trained models publicly available. | 翻訳日:2022-12-14 14:01:32 公開日:2022-12-13 |
# MediaEval 2022の動画記録可能性に関する概観 Overview of The MediaEval 2022 Predicting Video Memorability Task ( http://arxiv.org/abs/2212.06516v1 ) ライセンス: Link先を確認 | Lorin Sweeney and Mihai Gabriel Constantin and Claire-H\'el\`ene Demarty and Camilo Fosco and Alba G. Seco de Herrera and Sebastian Halder and Graham Healy and Bogdan Ionescu and Ana Matran-Fernandez and Alan F. Smeaton and Mushfika Sultana | (参考訳) 本稿では,MediaEval2022の一部として,Predicting Video Memorability Taskの第5版について述べる。
今年は、より深い調査を潤滑するために、タスクを再編成し、単純化しました。
昨年と同様に、一般化を容易にするために2つのデータセットが提供されているが、今年は、memento10kデータセットを主要なデータセットとして高揚させることによる短期記憶可能性予測を優先するために、trecvid2019 video-to-textデータセットをvideomemデータセットに置き換えた。
また、完全脳波(eeg)に基づく予測サブタスクも導入されている。
本稿では,タスクのコア・ファセットとその構成サブ・タスクについて概説する。データセット,評価指標,参加者の提出要件について述べる。 This paper describes the 5th edition of the Predicting Video Memorability Task as part of MediaEval2022. This year we have reorganised and simplified the task in order to lubricate a greater depth of inquiry. Similar to last year, two datasets are provided in order to facilitate generalisation, however, this year we have replaced the TRECVid2019 Video-to-Text dataset with the VideoMem dataset in order to remedy underlying data quality issues, and to prioritise short-term memorability prediction by elevating the Memento10k dataset as the primary dataset. Additionally, a fully fledged electroencephalography (EEG)-based prediction sub-task is introduced. In this paper, we outline the core facets of the task and its constituent sub-tasks; describing the datasets, evaluation metrics, and requirements for participant submissions. | 翻訳日:2022-12-14 14:00:55 公開日:2022-12-13 |
# 機械学習のためのカスタマイズ可能な光フィールドデータセット生成のための新しいアプローチ A Novel Approach For Generating Customizable Light Field Datasets for Machine Learning ( http://arxiv.org/abs/2212.06701v1 ) ライセンス: Link先を確認 | Julia Huang, Toure Smith, Aloukika Patro, and Vidhi Chhabra | (参考訳) 従来のアプローチを上回ることが多いディープラーニングモデルをトレーニングするために、画像など特定の媒体の大規模なデータセットが、多くの領域で使用されている。
しかし、ライトフィールド固有の機械学習タスクでは、利用可能なデータセットが不足している。
そこで我々は,光場における情報量が特異画像に比べて豊富であることから,様々な応用の可能性を持つ光場データセットを作成した。
Unity と C# フレームワークを用いて,カスタマイズ可能なハードウェア構成に基づく大規模でスケーラブルで再現可能な光フィールドデータセットを生成し,光フィールド深層学習研究を加速する手法を開発した。 To train deep learning models, which often outperform traditional approaches, large datasets of a specified medium, e.g., images, are used in numerous areas. However, for light field-specific machine learning tasks, there is a lack of such available datasets. Therefore, we create our own light field datasets, which have great potential for a variety of applications due to the abundance of information in light fields compared to singular images. Using the Unity and C# frameworks, we develop a novel approach for generating large, scalable, and reproducible light field datasets based on customizable hardware configurations to accelerate light field deep learning research. | 翻訳日:2022-12-14 14:00:40 公開日:2022-12-13 |
# 人口ベースJPEG画像圧縮:問題再定式化 Population-based JPEG Image Compression: Problem Re-Formulation ( http://arxiv.org/abs/2212.06313v1 ) ライセンス: Link先を確認 | Seyed Jalaleddin Mousavirad, Lu\'is A Alexandre | (参考訳) JPEG標準は様々な画像処理アプリケーションで広く使われている。
jpeg標準の主要なコンポーネントの1つは量子化テーブル(qt)であり、画像品質やファイルサイズなどの画像特性において重要な役割を果たす。
近年,人口ベースメタヒューリスティック(PBMH)アルゴリズムに基づく,特定の画像に対して適切なQT(s)を求める試みがいくつか行われているが,ユーザの意見は考慮されていない。
android開発者を例にとると、小さなサイズのイメージを好むが、最適化プロセスによって高品質なイメージが得られ、巨大なファイルサイズになる。
現在の作業のもう一つの落とし穴は、包括的カバレッジの欠如である。つまり、QT(s)はファイルサイズと品質のすべての組み合わせを提供できない。
そこで本稿では,3つの異なる貢献を提案する。
まず、圧縮プロセスにユーザの意見を含めるために、出力画像のファイルサイズを予めユーザによって制御することができる。
第2に,包括的カバレッジの欠如に対処するために,新しい表現を提案する。
提案した表現は,より包括的なカバレッジを提供するだけでなく,背景知識のない特定の画像の品質係数の適切な値も得られる。
表現と目的関数の変化は検索戦略とは独立であり、任意の種類の集団ベースメタヒューリスティック(PBMH)アルゴリズムで使用することができる。
したがって、3番目のコントリビューションとして、JPEG画像圧縮の新しい定式化に関する22の最先端および最近導入されたPBMHアルゴリズムに関する包括的なベンチマークも提供する。
異なるベンチマーク画像に対する広範な実験と、異なる基準で、JPEG画像圧縮のための新しい定式化が有効であることを示す。 The JPEG standard is widely used in different image processing applications. One of the main components of the JPEG standard is the quantisation table (QT) since it plays a vital role in the image properties such as image quality and file size. In recent years, several efforts based on population-based metaheuristic (PBMH) algorithms have been performed to find the proper QT(s) for a specific image, although they do not take into consideration the user's opinion. Take an android developer as an example, who prefers a small-size image, while the optimisation process results in a high-quality image, leading to a huge file size. Another pitfall of the current works is a lack of comprehensive coverage, meaning that the QT(s) can not provide all possible combinations of file size and quality. Therefore, this paper aims to propose three distinct contributions. First, to include the user's opinion in the compression process, the file size of the output image can be controlled by a user in advance. Second, to tackle the lack of comprehensive coverage, we suggest a novel representation. Our proposed representation can not only provide more comprehensive coverage but also find the proper value for the quality factor for a specific image without any background knowledge. Both changes in representation and objective function are independent of the search strategies and can be used with any type of population-based metaheuristic (PBMH) algorithm. Therefore, as the third contribution, we also provide a comprehensive benchmark on 22 state-of-the-art and recently-introduced PBMH algorithms on our new formulation of JPEG image compression. Our extensive experiments on different benchmark images and in terms of different criteria show that our novel formulation for JPEG image compression can work effectively. | 翻訳日:2022-12-14 14:00:30 公開日:2022-12-13 |
# 離散問題に対するマルチサロゲート支援効率的なグローバル最適化 Multi-surrogate Assisted Efficient Global Optimization for Discrete Problems ( http://arxiv.org/abs/2212.06438v1 ) ライセンス: Link先を確認 | Qi Huang, Roy de Winter, Bas van Stein, Thomas B\"ack, Anna V. Kononova | (参考訳) シミュレーションに基づくサロゲート支援最適化の進歩と計算能力の前例のない成長により、研究者や実践者は、これまで難解だった複雑な工学問題を最適化できるようになった。
本稿では,複雑な離散最適化問題の解法として,複数のシミュレーションに基づくサロゲートモデルの同時利用の可能性について検討する。
これを実現するために,2段階のオンラインモデル管理戦略を特徴とする自己適応型マルチサロゲート支援効率的グローバル最適化アルゴリズム(SAMA-DiEGO)を提案し,複数の最先端非サロゲートや単一サロゲート支援最適化アルゴリズムに対する15のバイナリエンコードと15の順序問題に対してベンチマークを行った。
以上の結果から,SAMA-DiEGOはテスト問題の大部分において,より優れた解に迅速に収束できることが示唆された。 Decades of progress in simulation-based surrogate-assisted optimization and unprecedented growth in computational power have enabled researchers and practitioners to optimize previously intractable complex engineering problems. This paper investigates the possible benefit of a concurrent utilization of multiple simulation-based surrogate models to solve complex discrete optimization problems. To fulfill this, the so-called Self-Adaptive Multi-surrogate Assisted Efficient Global Optimization algorithm (SAMA-DiEGO), which features a two-stage online model management strategy, is proposed and further benchmarked on fifteen binary-encoded combinatorial and fifteen ordinal problems against several state-of-the-art non-surrogate or single surrogate assisted optimization algorithms. Our findings indicate that SAMA-DiEGO can rapidly converge to better solutions on a majority of the test problems, which shows the feasibility and advantage of using multiple surrogate models in optimizing discrete problems. | 翻訳日:2022-12-14 14:00:04 公開日:2022-12-13 |
# 分散メモリシステムにおけるスケーラブルグラフ畳み込みネットワークトレーニング Scalable Graph Convolutional Network Training on Distributed-Memory Systems ( http://arxiv.org/abs/2212.05009v2 ) ライセンス: Link先を確認 | Gunduz Vehbi Demirci, Aparajita Haldar, Hakan Ferhatosmanoglu | (参考訳) グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフの大規模データサイズとその頂点機能は、スケーラブルなトレーニングアルゴリズムと分散メモリシステムを必要とする。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
本ソリューションでは,プロセッサ間で大きな隣接行列と頂点特徴行列を分割する。
我々は,グラフの頂点分割を利用して,プロセッサ間のノンブロッキングなポイント・ツー・ポイント通信操作を用いてスケーラビリティを向上させる。
さらに並列化のオーバーヘッドを最小限に抑えるため,フルバッチ学習のためのハイパーグラフ分割モデルに基づくスパース行列分割方式を提案する。
また,ミニバッチ訓練において期待通信量をエンコードする確率的ハイパーグラフモデルを提案する。
通信コストを正確にエンコードしない標準グラフ分割モデルに対して,これまでGCNトレーニングで探索されていなかったハイパーグラフモデルの利点を示す。
実世界のグラフデータセットで行った実験は、提案アルゴリズムが代替ソリューションよりもかなりのスピードアップを達成することを示した。
通信コストの最適化は、多くのプロセッサで高いスケーラビリティでさらに顕著になる。
パフォーマンス上のメリットは、数十億のグラフだけでなく、より深いgcnにも保存される。 Graph Convolutional Networks (GCNs) are extensively utilized for deep learning on graphs. The large data sizes of graphs and their vertex features make scalable training algorithms and distributed memory systems necessary. Since the convolution operation on graphs induces irregular memory access patterns, designing a memory- and communication-efficient parallel algorithm for GCN training poses unique challenges. We propose a highly parallel training algorithm that scales to large processor counts. In our solution, the large adjacency and vertex-feature matrices are partitioned among processors. We exploit the vertex-partitioning of the graph to use non-blocking point-to-point communication operations between processors for better scalability. To further minimize the parallelization overheads, we introduce a sparse matrix partitioning scheme based on a hypergraph partitioning model for full-batch training. We also propose a novel stochastic hypergraph model to encode the expected communication volume in mini-batch training. We show the merits of the hypergraph model, previously unexplored for GCN training, over the standard graph partitioning model which does not accurately encode the communication costs. Experiments performed on real-world graph datasets demonstrate that the proposed algorithms achieve considerable speedups over alternative solutions. The optimizations achieved on communication costs become even more pronounced at high scalability with many processors. The performance benefits are preserved in deeper GCNs having more layers as well as on billion-scale graphs. | 翻訳日:2022-12-14 13:59:45 公開日:2022-12-13 |
# 多目的木構造パーゼ推定器のメタラーニング Multi-objective Tree-structured Parzen Estimator Meets Meta-learning ( http://arxiv.org/abs/2212.06751v1 ) ライセンス: Link先を確認 | Shuhei Watanabe, Noow Awad, Masaki Onishi, Frank Hutter | (参考訳) ハイパーパラメータ最適化(hpo)はディープラーニングのパフォーマンス向上に不可欠であり、エラーレート、レイテンシ、メモリ要件、堅牢性、アルゴリズムの公平性など、複数のメトリクス間のトレードオフを考慮する必要がある場合が多い。
この需要と深層学習の重い計算のために、多目的最適化(mo)の加速はますます重要になっている。
メタラーニングはHPOを高速化するために広く研究されているが、既存の手法はMO木構造パーゼン推定器(MO-TPE)には適用できない。
本稿では,各タスクの有望領域の重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタ学習環境に拡張する。
総合的な実験において,本手法は表付きHPOベンチマーク上でMO-TPEを高速化し,最先端性能が得られることを示した。
また, AutoML 2022 コンペティション "Multiobjective Hyperparameter Optimization for Transformers" で優勝した。 Hyperparameter optimization (HPO) is essential for the better performance of deep learning, and practitioners often need to consider the trade-off between multiple metrics, such as error rate, latency, memory requirements, robustness, and algorithmic fairness. Due to this demand and the heavy computation of deep learning, the acceleration of multi-objective (MO) optimization becomes ever more important. Although meta-learning has been extensively studied to speedup HPO, existing methods are not applicable to the MO tree-structured parzen estimator (MO-TPE), a simple yet powerful MO-HPO algorithm. In this paper, we extend TPE's acquisition function to the meta-learning setting, using a task similarity defined by the overlap in promising domains of each task. In a comprehensive set of experiments, we demonstrate that our method accelerates MO-TPE on tabular HPO benchmarks and yields state-of-the-art performance. Our method was also validated externally by winning the AutoML 2022 competition on "Multiobjective Hyperparameter Optimization for Transformers". | 翻訳日:2022-12-14 13:54:20 公開日:2022-12-13 |
# 分布シフト時の安定性のminimax最適推定 Minimax Optimal Estimation of Stability Under Distribution Shift ( http://arxiv.org/abs/2212.06338v1 ) ライセンス: Link先を確認 | Hongseok Namkoong, Yuanzhe Ma, Peter W. Glynn | (参考訳) 意思決定方針と予測モデルの性能は、訓練中に見られるものと異なる環境に適用すると、しばしば低下する。
信頼性の高い運用を実現するため,システム性能が許容しきい値を超えて低下する原因となる環境の最小変化として定義される分散シフト下のシステムの安定性を提案し,解析する。
標準的なテールリスク尺度や分散シフトの可能な大きさの特定を必要とする分布的ロバストな損失とは対照的に、安定性尺度はより直感的な量、すなわち許容される性能低下のレベルによって定義される。
我々は,安定性の最小値推定器を開発し,その収束速度を解析し,基本的な位相シフト挙動を示す。
ミニマックス収束速度の特性は, 高い性能劣化に対する安定性の評価が統計的コストをもたらすことを示している。
実証的に,分散シフトへのロバスト性が重要となる問題に対するシステム設計を比較することにより,安定性フレームワークの実用性を示す。 The performance of decision policies and prediction models often deteriorates when applied to environments different from the ones seen during training. To ensure reliable operation, we propose and analyze the stability of a system under distribution shift, which is defined as the smallest change in the underlying environment that causes the system's performance to deteriorate beyond a permissible threshold. In contrast to standard tail risk measures and distributionally robust losses that require the specification of a plausible magnitude of distribution shift, the stability measure is defined in terms of a more intuitive quantity: the level of acceptable performance degradation. We develop a minimax optimal estimator of stability and analyze its convergence rate, which exhibits a fundamental phase shift behavior. Our characterization of the minimax convergence rate shows that evaluating stability against large performance degradation incurs a statistical cost. Empirically, we demonstrate the practical utility of our stability framework by using it to compare system designs on problems where robustness to distribution shift is critical. | 翻訳日:2022-12-14 13:53:26 公開日:2022-12-13 |
# ガウス共変量モデルにおける勾配流:学習曲線の正確な解と多重降下構造 Gradient flow in the gaussian covariate model: exact solution of learning curves and multiple descent structures ( http://arxiv.org/abs/2212.06757v1 ) ライセンス: Link先を確認 | Antione Bodin, Nicolas Macris | (参考訳) 最近の研究は、単純な学習モデルにおける一般化誤差曲線の顕著な挙動を示している。
最小二乗回帰でさえ、モデルワイド二重降下のような非定型的な特徴を示しており、さらに3重あるいは複数の降下を観測している。
もう一つの重要な特徴は、訓練中に出現するエポックな下降構造である。
モデルワイドおよびエポックワイド降下の観測は、限定された理論的設定(ランダム特徴モデルなど)で解析的に導出され、それ以外の実験である。
本研究では,gaussian covariateモデルに基づくより広い理論的設定において,漸近的な大次元構造と勾配流下での一般化曲線全体の時間発展を完全かつ統一的に解析する。
特に,本論文では,すでに異種の症例が報告されており,モデルパラメータや時間の関数として複数の降下構造が存在する例も紹介している。
さらに,我々の理論的予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
理論的には、ランダム行列を含む有理表現の平均を「線形鉛筆」に基づくランダム行列論の最近の展開を用いて計算する。
乱数行列論にも独立した興味を持つ別の貢献は、ダイソンブラウン運動を用いた関連する不動点方程式(およびそれによる拡張)の新しい導出である。 A recent line of work has shown remarkable behaviors of the generalization error curves in simple learning models. Even the least-squares regression has shown atypical features such as the model-wise double descent, and further works have observed triple or multiple descents. Another important characteristic are the epoch-wise descent structures which emerge during training. The observations of model-wise and epoch-wise descents have been analytically derived in limited theoretical settings (such as the random feature model) and are otherwise experimental. In this work, we provide a full and unified analysis of the whole time-evolution of the generalization curve, in the asymptotic large-dimensional regime and under gradient-flow, within a wider theoretical setting stemming from a gaussian covariate model. In particular, we cover most cases already disparately observed in the literature, and also provide examples of the existence of multiple descent structures as a function of a model parameter or time. Furthermore, we show that our theoretical predictions adequately match the learning curves obtained by gradient descent over realistic datasets. Technically we compute averages of rational expressions involving random matrices using recent developments in random matrix theory based on "linear pencils". Another contribution, which is also of independent interest in random matrix theory, is a new derivation of related fixed point equations (and an extension there-off) using Dyson brownian motions. | 翻訳日:2022-12-14 13:53:09 公開日:2022-12-13 |
# ALSO:運転推定による自動車ライダー自己監督 ALSO: Automotive Lidar Self-supervision by Occupancy estimation ( http://arxiv.org/abs/2212.05867v2 ) ライセンス: Link先を確認 | Alexandre Boulch, Corentin Sautier, Bj\"orn Michele, Gilles Puy, Renaud Marlet | (参考訳) 本稿では,ポイントクラウド上で動作する深層知覚モデルのバックボーンを事前学習する新しい自己教師あり手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルを訓練し、基礎となる潜在ベクトルを知覚ヘッドへの入力として使用することである。
直感的には、もしネットワークがシーン表面を再構築できるなら、わずかな入力ポイントのみを与えられた場合、おそらく、実際の知覚タスクを促進するために使用できる意味情報の断片をキャプチャする。
この原理は非常に単純な定式化であり、実装が容易であり、多種多様な3dセンサーや、セマンティックセグメンテーションやオブジェクト検出を行うディープネットワークにも広く適用できる。
実際、ほとんどの対照的な学習アプローチとは対照的に、単一のストリームパイプラインをサポートし、限られたリソースでのトレーニングを可能にする。
セマンティクスセグメンテーションとオブジェクト検出の両面で,異なる種類のライダーを含む様々な自律運転データセットについて広範な実験を行った。
その結果,既存の手法と比較して,アノテーションなしで有用な表現を学習する手法の有効性が示された。
コードはhttps://github.com/valeoai/で入手できる。 We propose a new self-supervised method for pre-training the backbone of deep perception models operating on point clouds. The core idea is to train the model on a pretext task which is the reconstruction of the surface on which the 3D points are sampled, and to use the underlying latent vectors as input to the perception head. The intuition is that if the network is able to reconstruct the scene surface, given only sparse input points, then it probably also captures some fragments of semantic information, that can be used to boost an actual perception task. This principle has a very simple formulation, which makes it both easy to implement and widely applicable to a large range of 3D sensors and deep networks performing semantic segmentation or object detection. In fact, it supports a single-stream pipeline, as opposed to most contrastive learning approaches, allowing training on limited resources. We conducted extensive experiments on various autonomous driving datasets, involving very different kinds of lidars, for both semantic segmentation and object detection. The results show the effectiveness of our method to learn useful representations without any annotation, compared to existing approaches. Code is available at https://github.com/valeoai/ALSO | 翻訳日:2022-12-14 13:52:45 公開日:2022-12-13 |
# 長さ時系列の異なるミニバッチ訓練について On Mini-Batch Training with Varying Length Time Series ( http://arxiv.org/abs/2212.06536v1 ) ライセンス: Link先を確認 | Brian Kenji Iwana | (参考訳) 実世界の時系列認識アプリケーションでは、長さパターンの異なるデータを持つことができる。
しかし、ニューラルネットワーク(ANN)を使用する場合、固定サイズのミニバッチを使用するのが一般的である。
そのため、長さの異なる時系列データは、通常、全てのパターンが同じ長さになるように正規化される。
通常、これはほとんど考慮せずにゼロパディングや切り離しによって行われる。
本稿では,動的時間ウォーピング(dtw)の動的マッチング能力を利用して,データセット内の時系列の長さを正規化する新しい手法を提案する。
このように、データセットの時系列の長さは、データセットに典型的な特徴を維持しながら、一定のサイズに設定できる。
実験では、2018 UCR Time Series Archiveから長さの異なる11のデータセットが使用されている。
提案手法は、畳み込みニューラルネットワーク(CNN)、長短項記憶ネットワーク(LSTM)、双方向LSTM(BLSTM)において、他の18長正規化手法と比較して評価する。 In real-world time series recognition applications, it is possible to have data with varying length patterns. However, when using artificial neural networks (ANN), it is standard practice to use fixed-sized mini-batches. To do this, time series data with varying lengths are typically normalized so that all the patterns are the same length. Normally, this is done using zero padding or truncation without much consideration. We propose a novel method of normalizing the lengths of the time series in a dataset by exploiting the dynamic matching ability of Dynamic Time Warping (DTW). In this way, the time series lengths in a dataset can be set to a fixed size while maintaining features typical to the dataset. In the experiments, all 11 datasets with varying length time series from the 2018 UCR Time Series Archive are used. We evaluate the proposed method by comparing it with 18 other length normalization methods on a Convolutional Neural Network (CNN), a Long-Short Term Memory network (LSTM), and a Bidirectional LSTM (BLSTM). | 翻訳日:2022-12-14 13:51:16 公開日:2022-12-13 |
# OAMixer:ビジョントランスのためのオブジェクト対応混合層 OAMixer: Object-aware Mixing Layer for Vision Transformers ( http://arxiv.org/abs/2212.06595v1 ) ライセンス: Link先を確認 | Hyunwoo Kang, Sangwoo Mo, Jinwoo Shin | (参考訳) パッチベースのモデル、例えばビジョントランスフォーマー(vits)やミキサーは、様々な視覚認識タスクで印象的な結果を示し、古典的な畳み込みネットワークを交代させた。
初期パッチベースモデル (vits) は全てのパッチを等しく扱ったが、近年の研究では、空間性のような帰納的バイアスを組み込むことが表現に効果があることが示されている。
しかし、ほとんどの先行作品はパッチの位置のみに注目し、画像のシーン構造を見渡している。
そこで,本稿では,対象情報を用いたパッチのインタラクションをさらに指導する。
具体的には、オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixer(オブジェクト認識混合層)を提案する。
ここでは、教師なしまたは弱い教師なしのマナーでオブジェクトラベルを得る。つまり、追加のヒューマンアノテートコストは不要である。
オブジェクトラベルを使用すると、OAMixerは学習可能なスケールパラメータで再重み付けマスクを計算し、類似したオブジェクトを含むパッチの相互作用を強化し、パッチ混合層にマスクを適用する。
対象中心表現を学習することにより,vits,mlp-mixers,convmixerなどのパッチベースモデルの分類精度と背景ロバスト性が向上することを示す。
さらに、OAMixerは、大規模分類、自己教師付き学習、多目的認識など様々な下流タスクを強化し、OAMixerの汎用性を検証する。 Patch-based models, e.g., Vision Transformers (ViTs) and Mixers, have shown impressive results on various visual recognition tasks, alternating classic convolutional networks. While the initial patch-based models (ViTs) treated all patches equally, recent studies reveal that incorporating inductive bias like spatiality benefits the representations. However, most prior works solely focused on the location of patches, overlooking the scene structure of images. Thus, we aim to further guide the interaction of patches using the object information. Specifically, we propose OAMixer (object-aware mixing layer), which calibrates the patch mixing layers of patch-based models based on the object labels. Here, we obtain the object labels in unsupervised or weakly-supervised manners, i.e., no additional human-annotating cost is necessary. Using the object labels, OAMixer computes a reweighting mask with a learnable scale parameter that intensifies the interaction of patches containing similar objects and applies the mask to the patch mixing layers. By learning an object-centric representation, we demonstrate that OAMixer improves the classification accuracy and background robustness of various patch-based models, including ViTs, MLP-Mixers, and ConvMixers. Moreover, we show that OAMixer enhances various downstream tasks, including large-scale classification, self-supervised learning, and multi-object recognition, verifying the generic applicability of OAMixer | 翻訳日:2022-12-14 13:51:00 公開日:2022-12-13 |
# PPO-UE:不確実性を考慮した探索による政策最適化 PPO-UE: Proximal Policy Optimization via Uncertainty-Aware Exploration ( http://arxiv.org/abs/2212.06343v1 ) ライセンス: Link先を確認 | Qisheng Zhang, Zhen Guo, Audun J{\o}sang, Lance M. Kaplan, Feng Chen, Dong H. Jeong, Jin-Hee Cho | (参考訳) Proximal Policy Optimization (PPO) は、政策に基づく深層強化学習(DRL)アプローチとして人気が高い。
しかし, PPOの均質探索プロセスは, トレーニング段階で予期せぬ安定性問題を引き起こす可能性がある。
そこで本研究では,PPO-UEを提案する。PPO-UEは自己適応型不確実性探索(UE)を備えたPPOの変種である。
The proposed PPO-UE is designed to improve convergence speed and performance with the optimized ratio uncertainty level。
PPO-UEは,比の不確かさの程度を変化させることで,広範に感度解析を行うことで,ロボスクール連続制御タスクのベースラインPPOを著しく上回っている。 Proximal Policy Optimization (PPO) is a highly popular policy-based deep reinforcement learning (DRL) approach. However, we observe that the homogeneous exploration process in PPO could cause an unexpected stability issue in the training phase. To address this issue, we propose PPO-UE, a PPO variant equipped with self-adaptive uncertainty-aware explorations (UEs) based on a ratio uncertainty level. The proposed PPO-UE is designed to improve convergence speed and performance with an optimized ratio uncertainty level. Through extensive sensitivity analysis by varying the ratio uncertainty level, our proposed PPO-UE considerably outperforms the baseline PPO in Roboschool continuous control tasks. | 翻訳日:2022-12-14 13:42:38 公開日:2022-12-13 |
# 欠落値を用いた交通予測のためのグラフ畳み込みネットワーク Graph Convolutional Networks for Traffic Forecasting with Missing Values ( http://arxiv.org/abs/2212.06419v1 ) ライセンス: Link先を確認 | Jingwei Zuo, Karine Zeitouni, Yehia Taher and Sandra Garcia-Rodriguez | (参考訳) 交通予報は近年広く注目を集めている。
実際には、トラフィックデータは通常、センサーや通信エラーによる欠落値を含む。
トラフィックデータの時空間的特徴は、そのような不足した値を処理するための多くの課題をもたらし、古典的なテクニック(例えば、データインプテーション)は制限される。
1) 時間軸では,値をランダムに又は連続的に失うことができる。
2)空間軸では、1つのセンサまたは複数のセンサで同時に欠落値が発生する。
グラフニューラルネットワークを用いた最近のモデルでは、トラフィック予測タスクのパフォーマンスが達成されている。
しかし、そのような複雑な欠落値コンテキストに適用できるものはほとんどない。
そこで我々は,時空間的文脈における複雑な欠落値を扱うことができるグラフ畳み込みネットワークモデルgcn-mを提案する。
特に,注意に基づくメモリネットワークにおける局所的時空間的特徴とグローバル履歴パターンの両方を考慮して,欠落する値処理とトラヒック予測タスクを共同でモデル化する。
また,学習した局所的グローバル機能に基づく動的グラフ学習モジュールを提案する。
実生活データセットに対する実験結果は,提案手法の信頼性を示す。 Traffic forecasting has attracted widespread attention recently. In reality, traffic data usually contains missing values due to sensor or communication errors. The Spatio-temporal feature in traffic data brings more challenges for processing such missing values, for which the classic techniques (e.g., data imputations) are limited: 1) in temporal axis, the values can be randomly or consecutively missing; 2) in spatial axis, the missing values can happen on one single sensor or on multiple sensors simultaneously. Recent models powered by Graph Neural Networks achieved satisfying performance on traffic forecasting tasks. However, few of them are applicable to such a complex missing-value context. To this end, we propose GCN-M, a Graph Convolutional Network model with the ability to handle the complex missing values in the Spatio-temporal context. Particularly, we jointly model the missing value processing and traffic forecasting tasks, considering both local Spatio-temporal features and global historical patterns in an attention-based memory network. We propose as well a dynamic graph learning module based on the learned local-global features. The experimental results on real-life datasets show the reliability of our proposed method. | 翻訳日:2022-12-14 13:42:26 公開日:2022-12-13 |
# 鍛造エージェントによる強化学習の一般化 Improving generalization in reinforcement learning through forked agents ( http://arxiv.org/abs/2212.06451v1 ) ライセンス: Link先を確認 | Olivier Moulin, Vincent Francois-Lavet and Mark Hoogendoorn | (参考訳) エージェントのエコシステムは、あるが限定的な一般化可能性を持つ独自のポリシーを持ち、手続き的に生成された環境全体の一般化を促進するための信頼できるアプローチであることが証明されている。
このようなアプローチでは、エコシステムの範囲外の新しい環境に遭遇する際に、定期的に新しいエージェントがエコシステムに追加される。
適応の速度とエコシステムアプローチの一般的な効果は、新しいエージェントの初期化に大きく依存する。
本稿では,このような初期化のための異なる手法を提案し,その影響について検討する。
次に,forked agentを使用するためのエコシステム設定を再構築し,トレーニングサイクルを劇的に削減した最初のec2アプローチよりも優れた結果を得るようにした。 An eco-system of agents each having their own policy with some, but limited, generalizability has proven to be a reliable approach to increase generalization across procedurally generated environments. In such an approach, new agents are regularly added to the eco-system when encountering a new environment that is outside of the scope of the eco-system. The speed of adaptation and general effectiveness of the eco-system approach highly depends on the initialization of new agents. In this paper we propose different techniques for such initialization and study their impact. We then rework the ecosystem setup to use forked agents which brings better results than the initial eco-system approach with a drastically reduced number of training cycles. | 翻訳日:2022-12-14 13:42:01 公開日:2022-12-13 |
# テキストローカライゼーションのための拡張TrOCR -フルページスキャン画像のOCR- Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images ( http://arxiv.org/abs/2212.05525v2 ) ライセンス: Link先を確認 | Hongkuan Zhang, Edward Whittaker, Ikuo Kitagishi | (参考訳) スキャンされたレシートのデジタル化は、レシート画像からテキストを取り出し、構造化されたドキュメントに保存することを目的としている。
これは通常、テキストローカライゼーションと光学文字認識(OCR)という2つのサブタスクに分けられる。
既存のocrモデルは、テキスト領域検出モデルが提供するバウンディングボックス情報を必要とするクロッピングされたテキストインスタンスイメージのみに焦点を当てている。
テキストインスタンスイメージを事前に識別するための追加検出器の導入は非効率であるが、インスタンスレベルのOCRモデルでは、さまざまなレイアウトに配置された複数のテキスト行を含むレシート画像など、ドキュメントレベルのOCRの全体像を処理する場合の精度が極めて低い。
そこで本研究では,レシート画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するローカライズフリーな文書レベルOCRモデルを提案する。
具体的には,事前学習されたトランスフォーマーベースのインスタンスレベルモデルtrocrをランダムに切り抜いた画像チャンクで微調整し,画像チャンクサイズを徐々に増やし,インスタンス画像からフルページ画像への認識能力を一般化する。
SROIE受信OCRデータセットを用いた実験では,単語レベルと文字レベルで64.4F1スコアと22.8%の文字誤り率(CER)を達成し,48.5F1スコアと50.6%CERのベースライン結果を上回った。
最良のモデルは、全画像を15の等サイズのチャンクに分割し、87.8 f1-scoreと4.98% cerを与え、出力の予備処理または後処理を最小化する。
また、生成した文書レベルシーケンス内の文字を読み出し順に配置し、実世界のアプリケーションで実用的である。 Digitization of scanned receipts aims to extract text from receipt images and save it into structured documents. This is usually split into two sub-tasks: text localization and optical character recognition (OCR). Most existing OCR models only focus on the cropped text instance images, which require the bounding box information provided by a text region detection model. Introducing an additional detector to identify the text instance images in advance is inefficient, however instance-level OCR models have very low accuracy when processing the whole image for the document-level OCR, such as receipt images containing multiple text lines arranged in various layouts. To this end, we propose a localization-free document-level OCR model for transcribing all the characters in a receipt image into an ordered sequence end-to-end. Specifically, we finetune the pretrained Transformer-based instance-level model TrOCR with randomly cropped image chunks, and gradually increase the image chunk size to generalize the recognition ability from instance images to full-page images. In our experiments on the SROIE receipt OCR dataset, the model finetuned with our strategy achieved 64.4 F1-score and a 22.8% character error rates (CER) on the word-level and character-level metrics, respectively, which outperforms the baseline results with 48.5 F1-score and 50.6% CER. The best model, which splits the full image into 15 equally sized chunks, gives 87.8 F1-score and 4.98% CER with minimal additional pre or post-processing of the output. Moreover, the characters in the generated document-level sequences are arranged in the reading order, which is practical for real-world applications. | 翻訳日:2022-12-14 13:36:20 公開日:2022-12-13 |
# 教師なし異常定位のためのマルチスケール特徴模倣 Multi-scale Feature Imitation for Unsupervised Anomaly Localization ( http://arxiv.org/abs/2212.05786v2 ) ライセンス: Link先を確認 | Chao Hu, Shengxin Lai | (参考訳) 非教師付き異常局在化タスクは、異常サンプルトレーニングの欠如、複数のタイプの異常の検出、複数の異常領域の比率の対応といった課題に直面している。
これらの問題を解決するために,教師と学生の個別の特徴模倣ネットワーク構造と,画像と特徴ピラミッドを組み合わせたマルチスケール処理戦略を提案する。
ネットワーク構造を単純化するために,勾配勾配勾配最適化に基づくネットワークモジュール重要探索手法を提案する。
実験結果から,提案アルゴリズムは実工業製品検出データセット上の特徴モデリング異常な局所化手法よりも,同期間に優れた性能を示した。
マルチスケール戦略は、ベンチマーク手法と比較して効果的に効果を改善できる。 The unsupervised anomaly localization task faces the challenge of missing anomaly sample training, detecting multiple types of anomalies, and dealing with the proportion of the area of multiple anomalies. A separate teacher-student feature imitation network structure and a multi-scale processing strategy combining an image and feature pyramid are proposed to solve these problems. A network module importance search method based on gradient descent optimization is proposed to simplify the network structure. The experimental results show that the proposed algorithm performs better than the feature modeling anomaly localization method on the real industrial product detection dataset in the same period. The multi-scale strategy can effectively improve the effect compared with the benchmark method. | 翻訳日:2022-12-14 13:35:34 公開日:2022-12-13 |
# 顔アライメント、トレーニング最適化、スケジューリングによる顔画像の抑うつ推定の改善 Improving Depression estimation from facial videos with face alignment, training optimization and scheduling ( http://arxiv.org/abs/2212.06400v1 ) ライセンス: Link先を確認 | Manuel Lage Ca\~nellas, Constantino \'Alvarez Casado, Le Nguyen, Miguel Bordallo L\'opez | (参考訳) 深層学習モデルは、ビデオベースの表情を用いた抑うつ状態の認識において有望な結果を示している。
成功したモデルは一般的に3d-cnnsまたはビデオ蒸留技術を利用するが、プリトレーニング、データ拡張、プリプロセッシング、および実験全体にわたる最適化技術が異なるため、公正な比較を行うことは困難である。
そこで本稿では,ResNet-50をベースとした2つの簡易モデルを提案する。2つの顔アライメント手法と,データ拡張,最適化,スケジューリング技術の改良により,静的空間情報のみを使用する。
ベンチマークデータセットに関する広範な実験は、シングルストリームの洗練された時空間モデルと同様の結果を得る一方、2つの異なるストリームのスコアレベルの融合は最先端の手法よりも優れている。
この結果から,前処理およびトレーニングプロセスの特定の変更が,モデルの性能に顕著な違いをもたらすことが示唆され,ニューラルネットワークアーキテクチャの違いによる実際の原因を隠蔽する可能性が示唆された。 Deep learning models have shown promising results in recognizing depressive states using video-based facial expressions. While successful models typically leverage using 3D-CNNs or video distillation techniques, the different use of pretraining, data augmentation, preprocessing, and optimization techniques across experiments makes it difficult to make fair architectural comparisons. We propose instead to enhance two simple models based on ResNet-50 that use only static spatial information by using two specific face alignment methods and improved data augmentation, optimization, and scheduling techniques. Our extensive experiments on benchmark datasets obtain similar results to sophisticated spatio-temporal models for single streams, while the score-level fusion of two different streams outperforms state-of-the-art methods. Our findings suggest that specific modifications in the preprocessing and training process result in noticeable differences in the performance of the models and could hide the actual originally attributed to the use of different neural network architectures. | 翻訳日:2022-12-14 13:35:04 公開日:2022-12-13 |
# 物体検出のためのオブジェクトファブリケーションターゲット攻撃 Object-fabrication Targeted Attack for Object Detection ( http://arxiv.org/abs/2212.06431v1 ) ライセンス: Link先を確認 | Xuchong Zhang, Changfeng Sun, Haoliang Han, Hang Wang, Hongbin Sun and Nanning Zheng | (参考訳) 近年の研究では、ディープラーニングに基づく物体検出は敵の例に弱いことが示されている。
一般的に、対象検出に対する敵攻撃は、標的攻撃と未目標攻撃を含む。
我々の詳細な調査によると、前者に対する研究は後者よりも比較的少なく、標的攻撃のための既存の手法はすべて同じモード、すなわち検出対象を特定の間違ったラベルとして誤ってラベル付けするために検出器を誤解するオブジェクトミスラベルモードに従う。
しかし、このモードは攻撃成功率、普遍的および一般化性能に制限がある。
本稿では,対象ラベルを指定した追加の偽物を「ファブリケート」するために,検出器を誤認できる新たな対象ファブリケーションターゲット攻撃モードを提案する。
さらに,提案した攻撃モードを実装するために,二重注意に基づく特徴空間攻撃法を設計する。
提案モードと手法の攻撃性能を,FasterRCNNとYOLOv5を用いてMS COCOとBDD100Kデータセットで評価した。
評価結果から,提案した対象ファブリケーション目標攻撃モードとそれに対応する特徴空間攻撃手法は,対象検出に対する従来の目標攻撃と比較して,画像特異的攻撃,普遍的性能,一般化能力の面で著しく改善されていることが示された。
コードは利用可能になる。 Recent researches show that the deep learning based object detection is vulnerable to adversarial examples. Generally, the adversarial attack for object detection contains targeted attack and untargeted attack. According to our detailed investigations, the research on the former is relatively fewer than the latter and all the existing methods for the targeted attack follow the same mode, i.e., the object-mislabeling mode that misleads detectors to mislabel the detected object as a specific wrong label. However, this mode has limited attack success rate, universal and generalization performances. In this paper, we propose a new object-fabrication targeted attack mode which can mislead detectors to `fabricate' extra false objects with specific target labels. Furthermore, we design a dual attention based targeted feature space attack method to implement the proposed targeted attack mode. The attack performances of the proposed mode and method are evaluated on MS COCO and BDD100K datasets using FasterRCNN and YOLOv5. Evaluation results demonstrate that, the proposed object-fabrication targeted attack mode and the corresponding targeted feature space attack method show significant improvements in terms of image-specific attack, universal performance and generalization capability, compared with the previous targeted attack for object detection. Code will be made available. | 翻訳日:2022-12-14 13:34:47 公開日:2022-12-13 |
# 視覚と語彙のセマンティクスの調整 Aligning Visual and Lexical Semantics ( http://arxiv.org/abs/2212.06629v1 ) ライセンス: Link先を確認 | Fausto Giunchiglia, Mayukh Bagchi and Xiaolei Diao | (参考訳) コンピュータビジョン(cv)システムの視覚意味論と語彙意味論に関連する2種類の意味論について考察する。
視覚的意味論は、視覚を用いて対象の現実を知覚するときに、人間がどのように概念を構築するかに焦点を当てる一方で、語彙的意味論は、言語を用いて、人間が同じターゲットの現実の概念を構築する方法に焦点を当てる。
視覚的意味論と語彙的意味論の一致の欠如は、セマンティックギャップ問題(SGP)の形でCVシステムに大きな影響を与えている。
この論文は、上記のような偶然の欠如を広く例示する一方で、視覚的意味論と語彙的意味論の整合を強制する一般的なドメインに依存しない方法論を導入している。 We discuss two kinds of semantics relevant to Computer Vision (CV) systems - Visual Semantics and Lexical Semantics. While visual semantics focus on how humans build concepts when using vision to perceive a target reality, lexical semantics focus on how humans build concepts of the same target reality through the use of language. The lack of coincidence between visual and lexical semantics, in turn, has a major impact on CV systems in the form of the Semantic Gap Problem (SGP). The paper, while extensively exemplifying the lack of coincidence as above, introduces a general, domain-agnostic methodology to enforce alignment between visual and lexical semantics. | 翻訳日:2022-12-14 13:34:24 公開日:2022-12-13 |
# image-to-point masked autoencoderによる2次元事前学習モデルからの3次元表現の学習 Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders ( http://arxiv.org/abs/2212.06785v1 ) ライセンス: Link先を確認 | Renrui Zhang, Liuhui Wang, Yu Qiao, Peng Gao, Hongsheng Li | (参考訳) 多数の画像データによる事前学習は、ロバストな2d表現のデファクトとなっている。
対照的に、高価なデータ取得とアノテーションのため、大規模な3Dデータセットの不完全さは、高品質な3D機能の学習を著しく妨げます。
本稿では,イメージ・ツー・ポイント・マスクド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により,十分に学習された2次元知識を活用し,エンコーダ-デコーダアーキテクチャを用いてマスクドポイントトークンを再構築する3dマスク付き自動エンコーディングをガイドする。
具体的には,市販の2dモデルを用いて入力ポイントクラウドの多視点視覚特徴を抽出し,その上に2種類の画像対ポイント学習スキームを展開する。
まず,意味的に重要なポイントトークンをエンコーダに表示するための2次元誘導マスキング方式を提案する。
ランダムマスキングと比較して、ネットワークは重要な3d構造に集中し、主要な空間的手がかりからマスキングトークンを回収することができる。
別の例として、デコーダの後に対応するマルチビュー2D特徴を再構成するために、これらの可視トークンを強制する。
これにより、差別的な3Dモデリングのためにリッチな画像データから得られた高レベルの2Dセマンティクスを効果的に継承することができる。
イメージ・ツー・ポイントの事前トレーニングによって、凍結したI2P-MAEは微調整なしで、ModelNet40上の線形SVMに対して93.4%の精度を達成し、既存の手法の完全に訓練された結果と競合する。
ScanObjectNNの最も難しい分割をさらに微調整することで、I2P-MAEは最先端の90.11%の精度、+3.68%の精度を達成でき、転送能力に優れていた。
コードはhttps://github.com/ZrrSkywalker/I2P-MAEで入手できる。 Pre-training by numerous image data has become de-facto for robust 2D representations. In contrast, due to the expensive data acquisition and annotation, a paucity of large-scale 3D datasets severely hinders the learning for high-quality 3D features. In this paper, we propose an alternative to obtain superior 3D representations from 2D pre-trained models via Image-to-Point Masked Autoencoders, named as I2P-MAE. By self-supervised pre-training, we leverage the well learned 2D knowledge to guide 3D masked autoencoding, which reconstructs the masked point tokens with an encoder-decoder architecture. Specifically, we first utilize off-the-shelf 2D models to extract the multi-view visual features of the input point cloud, and then conduct two types of image-to-point learning schemes on top. For one, we introduce a 2D-guided masking strategy that maintains semantically important point tokens to be visible for the encoder. Compared to random masking, the network can better concentrate on significant 3D structures and recover the masked tokens from key spatial cues. For another, we enforce these visible tokens to reconstruct the corresponding multi-view 2D features after the decoder. This enables the network to effectively inherit high-level 2D semantics learned from rich image data for discriminative 3D modeling. Aided by our image-to-point pre-training, the frozen I2P-MAE, without any fine-tuning, achieves 93.4% accuracy for linear SVM on ModelNet40, competitive to the fully trained results of existing methods. By further fine-tuning on on ScanObjectNN's hardest split, I2P-MAE attains the state-of-the-art 90.11% accuracy, +3.68% to the second-best, demonstrating superior transferable capacity. Code will be available at https://github.com/ZrrSkywalker/I2P-MAE. | 翻訳日:2022-12-14 13:34:11 公開日:2022-12-13 |
# 異なるタイプの知識グラフに対する推論:静的、時間的、マルチモーダル Reasoning over Different Types of Knowledge Graphs: Static, Temporal and Multi-Modal ( http://arxiv.org/abs/2212.05767v2 ) ライセンス: Link先を確認 | Ke Liang, Lingyuan Meng, Meng Liu, Yue Liu, Wenxuan Tu, Siwei Wang, Sihang Zhou, Xinwang Liu, Fuchun Sun | (参考訳) 知識グラフ推論(KGR)は,知識グラフに基づくマイニング論理則に基づいて,既存の事実から新たな事実を推論することを目的として,急速に発展する研究方向となっている。
質問応答やレコメンデーションシステムなど、多くのAIアプリケーションでKGを使うことに大きなメリットがあることが証明されている。
グラフの種類により、既存のkgrモデルは、静的モデル、時間モデル、マルチモーダルモデルという3つのカテゴリに大まかに分類することができる。
この領域の初期の研究は主に静的KGRに焦点を当てており、推論タスクに直接一般知識グラフ埋め込みモデルを適用する傾向がある。
しかし、これらのモデルは、帰納的静的KGR、時間的KGR、マルチモーダルKGRのようなより複雑で実用的なタスクには適していない。
この目的のために、最近複数の研究が開発されているが、調査論文やオープンソースリポジトリは、この重要な方向へのモデルを包括的に要約し、議論している。
このギャップを埋めるために、静的から時間的、そしてマルチモーダルなKGをトレースする知識グラフの調査を行う。
具体的には、KGRモデルの予備項、要約、典型的なデータセットを導入し、議論する。
さらに,課題と可能性についても論じる。
対応するオープンソースリポジトリはGitHubで共有されている。 Knowledge graph reasoning (KGR), aiming to deduce new facts from existing facts based on mined logic rules underlying knowledge graphs (KGs), has become a fast-growing research direction. It has been proven to significantly benefit the usage of KGs in many AI applications, such as question answering and recommendation systems, etc. According to the graph types, the existing KGR models can be roughly divided into three categories, i.e., static models, temporal models, and multi-modal models. The early works in this domain mainly focus on static KGR and tend to directly apply general knowledge graph embedding models to the reasoning task. However, these models are not suitable for more complex but practical tasks, such as inductive static KGR, temporal KGR, and multi-modal KGR. To this end, multiple works have been developed recently, but no survey papers and open-source repositories comprehensively summarize and discuss models in this important direction. To fill the gap, we conduct a survey for knowledge graph reasoning tracing from static to temporal and then to multi-modal KGs. Concretely, the preliminaries, summaries of KGR models, and typical datasets are introduced and discussed consequently. Moreover, we discuss the challenges and potential opportunities. The corresponding open-source repository is shared on GitHub: https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoning. | 翻訳日:2022-12-14 13:33:38 公開日:2022-12-13 |
# 音声合成におけるVAEの量子化と話者の正規化によるスタイルラベルなし:クロススピーカスタイルの伝達 Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and Speaker-wise Normalization in Speech Synthesis ( http://arxiv.org/abs/2212.06397v1 ) ライセンス: Link先を確認 | Chunyu Qiang, Peng Yang, Hao Che, Xiaorui Wang, Zhongyuan Wang | (参考訳) 音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色合成音声へスタイルを伝達することを目的としている。
従来のアプローチのほとんどはスタイルラベルのデータに依存しているが、手動で注釈を付けるラベルは高価であり、必ずしも信頼できるものではない。
そこで,本稿では,音源話者から対象話者へのスタイル転送を実現するクロススピーカー方式であるstyle-label-freeを提案する。
まず、量子化変分オートエンコーダ(q-vae)とスタイルボトルネックに基づく参照エンコーダ構造により、離散的なスタイル表現を抽出する。
次に,話者単位のバッチ正規化層を提案し,音源リークを低減する。
参照エンコーダのスタイル抽出能力を向上させるために,スタイル不変およびコントラストデータ拡張手法を提案する。
実験の結果,本手法はベースラインよりも優れていた。
オーディオサンプルをWebサイトに提供する。 Cross-speaker style transfer in speech synthesis aims at transferring a style from source speaker to synthesised speech of a target speaker's timbre. Most previous approaches rely on data with style labels, but manually-annotated labels are expensive and not always reliable. In response to this problem, we propose Style-Label-Free, a cross-speaker style transfer method, which can realize the style transfer from source speaker to target speaker without style labels. Firstly, a reference encoder structure based on quantized variational autoencoder (Q-VAE) and style bottleneck is designed to extract discrete style representations. Secondly, a speaker-wise batch normalization layer is proposed to reduce the source speaker leakage. In order to improve the style extraction ability of the reference encoder, a style invariant and contrastive data augmentation method is proposed. Experimental results show that the method outperforms the baseline. We provide a website with audio samples. | 翻訳日:2022-12-14 13:33:14 公開日:2022-12-13 |
# ワンショットの機械教育:より速く収束するための例はごくわずか One-shot Machine Teaching: Cost Very Few Examples to Converge Faster ( http://arxiv.org/abs/2212.06416v1 ) ライセンス: Link先を確認 | Chen Zhang, Xiaofeng Cao, Yi Chang, Ivor W Tsang | (参考訳) 人工知能は機械に人間のような行動を起こさせる。
知的な教育を達成するために、機械学習コミュニティは、教師がターゲットモデルと特定の学習者に与えられた最適な(通常最小限の)教育セットを設計する、機械教育と呼ばれる有望なトピックについて考えるようになる。
しかし、従来の作品では、学習者の収束を導くために、多くの指導例と大きなイテレーションが必要であり、これはコストがかかる。
本稿では,よりインテリジェントな教育パラダイムであるone-shot machine teachingについて考察する。
典型的な教示と異なり、この先進パラダイムは、教示集合からモデルパラメータへの扱いやすいマッピングを確立する。
理論的には、この写像が全射であることを証明し、最適な教示集合の存在を保証する。
そこで,本研究では,授業セットからパラメータへの主観的マッピングに基づいて,2つの一般的な効率指標,教示次元,反復的教示次元が1つである最適教示セットの設計戦略を開発する。
広範な実験により,我々の戦略の効率を検証し,この新しい教育パラダイムの知性をさらに実証した。 Artificial intelligence is to teach machines to take actions like humans. To achieve intelligent teaching, the machine learning community becomes to think about a promising topic named machine teaching where the teacher is to design the optimal (usually minimal) teaching set given a target model and a specific learner. However, previous works usually require numerous teaching examples along with large iterations to guide learners to converge, which is costly. In this paper, we consider a more intelligent teaching paradigm named one-shot machine teaching which costs fewer examples to converge faster. Different from typical teaching, this advanced paradigm establishes a tractable mapping from the teaching set to the model parameter. Theoretically, we prove that this mapping is surjective, which serves to an existence guarantee of the optimal teaching set. Then, relying on the surjective mapping from the teaching set to the parameter, we develop a design strategy of the optimal teaching set under appropriate settings, of which two popular efficiency metrics, teaching dimension and iterative teaching dimension are one. Extensive experiments verify the efficiency of our strategy and further demonstrate the intelligence of this new teaching paradigm. | 翻訳日:2022-12-14 13:26:42 公開日:2022-12-13 |
# DiffStack: 自動運転車の差別化とモジュール制御のスタック DiffStack: A Differentiable and Modular Control Stack for Autonomous Vehicles ( http://arxiv.org/abs/2212.06437v1 ) ライセンス: Link先を確認 | Peter Karkus, Boris Ivanovic, Shie Mannor, Marco Pavone | (参考訳) 自動運転車(av)スタックは通常、モジュール形式で構築され、明示的なコンポーネントが検出、追跡、予測、計画、制御などを実行する。
モジュラリティは再利用性、解釈可能性、一般化性を改善するが、エラー、情報のボトルネック、統合上の課題も複雑化する。
これらの課題を克服するために、注目すべきアプローチは、AVスタックをエンドツーエンドのニューラルネットワークに変換し、データでトレーニングすることだ。
このようなアプローチは印象的な成果を上げているが、一般的には解釈可能性や再利用性に欠けており、計画や制御などの分析的コンポーネントを設計し、ディープニューラルネットワークを支持した。
モジュール性を維持しつつ,AVスタックの協調最適化を実現するために,予測,計画,制御のための微分可能モジュールスタックDiffStackを提案する。
当社のモデルベース計画制御アルゴリズムは,近年の微分可能最適化の進歩を活かして勾配を生成し,計画と制御を通じたバックプロパゲーションを通じて,予測などの上流コンポーネントの最適化を可能にしている。
nuScenesデータセットの結果から、DiffStackによるエンドツーエンドトレーニングは、例えば、計画に影響を与える予測エラーを減らすことを学ぶことで、オープンループおよびクローズループ計画メトリクスを大幅に改善することが示された。
これらの直接的なメリットに加えて、DiffStackは完全なデータ駆動でモジュール化され、解釈可能なAVアーキテクチャの新たな機会を開く。
プロジェクトウェブサイト: https://sites.google.com/view/diffstack Autonomous vehicle (AV) stacks are typically built in a modular fashion, with explicit components performing detection, tracking, prediction, planning, control, etc. While modularity improves reusability, interpretability, and generalizability, it also suffers from compounding errors, information bottlenecks, and integration challenges. To overcome these challenges, a prominent approach is to convert the AV stack into an end-to-end neural network and train it with data. While such approaches have achieved impressive results, they typically lack interpretability and reusability, and they eschew principled analytical components, such as planning and control, in favor of deep neural networks. To enable the joint optimization of AV stacks while retaining modularity, we present DiffStack, a differentiable and modular stack for prediction, planning, and control. Crucially, our model-based planning and control algorithms leverage recent advancements in differentiable optimization to produce gradients, enabling optimization of upstream components, such as prediction, via backpropagation through planning and control. Our results on the nuScenes dataset indicate that end-to-end training with DiffStack yields substantial improvements in open-loop and closed-loop planning metrics by, e.g., learning to make fewer prediction errors that would affect planning. Beyond these immediate benefits, DiffStack opens up new opportunities for fully data-driven yet modular and interpretable AV architectures. Project website: https://sites.google.com/view/diffstack | 翻訳日:2022-12-14 13:26:24 公開日:2022-12-13 |
# ヘイトフルミームは次の動きに挑戦する The Hateful Memes Challenge Next Move ( http://arxiv.org/abs/2212.06655v1 ) ライセンス: Link先を確認 | Weijun Jin and Lance Wilhelm | (参考訳) Convectional Neural NetworksやTransformersのような最先端の画像とテキストの分類モデルは、人間の正確性に近い精度で、それぞれの一助的推論を満足して分類することができる。
しかし、嫌悪感のあるミームのようなテキストで埋め込まれた画像は、良性共作者のような難しい例がデータセットに組み込まれている場合、ユニモーダル推論を使って分類することは困難である。
私たちは、Hateful Meme Challengeで優勝したチームのフレームワークに基づいて、Facebook AIのHateful Memesデータセットに加えて、より多くのラベル付きミームを生成しようとしています。
ラベル付きミームの数を増やすため,Memotion Dataset 7Kから収集した新たなラベル付きミームに対して擬似ラベルを用いた半教師付き学習を提案する。
ラベル付きデータに対する半教師付き学習課題には人間の介入とフィルタリングが必要であり、新しいデータに限られた量を加えると、余分な分類性能が得られないことが判明した。 State-of-the-art image and text classification models, such as Convectional Neural Networks and Transformers, have long been able to classify their respective unimodal reasoning satisfactorily with accuracy close to or exceeding human accuracy. However, images embedded with text, such as hateful memes, are hard to classify using unimodal reasoning when difficult examples, such as benign confounders, are incorporated into the data set. We attempt to generate more labeled memes in addition to the Hateful Memes data set from Facebook AI, based on the framework of a winning team from the Hateful Meme Challenge. To increase the number of labeled memes, we explore semi-supervised learning using pseudo-labels for newly introduced, unlabeled memes gathered from the Memotion Dataset 7K. We find that the semi-supervised learning task on unlabeled data required human intervention and filtering and that adding a limited amount of new data yields no extra classification performance. | 翻訳日:2022-12-14 13:25:38 公開日:2022-12-13 |
# 汎用グローバルプール運用のための正規化最適輸送層 Regularized Optimal Transport Layers for Generalized Global Pooling Operations ( http://arxiv.org/abs/2212.06339v1 ) ライセンス: Link先を確認 | Hongteng Xu and Minjie Cheng | (参考訳) グローバルプーリングは、多くの機械学習モデルとタスクにおいて最も重要なオペレーションの1つであり、情報融合と構造化データ(セットやグラフなど)表現を扱う。
しかし、厳密な数学的基礎がなければ、その実践的実装はしばしば経験的なメカニズムに依存し、従って準最適であり、不満足な性能につながる。
本研究では,最適輸送のレンズを用いて,新しい汎用的なグローバルプールフレームワークを開発する。
提案フレームワークは期待最大化の観点から解釈可能である。
基本的に、サンプル指標と特徴次元をまたいだ最適な輸送を学習することを目的としており、対応するプール操作は入力データの条件付き期待値を最大化する。
既存のプーリング手法の多くは、特殊化の異なる正規化最適輸送(ROT)問題と等価であり、より洗練されたプーリング操作は複数のROT問題を階層的に解くことで実現できることを示す。
ROT問題のパラメータを学習可能にし、正規化された最適輸送プーリング(ROTP)層群を開発する。
ROTP層を新しい種類の深い暗黙の層として実装する。
これらのモデルアーキテクチャは異なる最適化アルゴリズムに対応している。
マルチインスタンス学習(mil)、グラフ分類、グラフ集合表現、画像分類など、いくつかの代表的なセットレベルの機械学習シナリオでrotp層をテストする。
我々のROTPレイヤは、既存のグローバルプーリングメソッドを模倣するか、データに適合する新しいプーリングレイヤをより良いものにするかのどちらかです。
コードは \url{https://github.com/SDS-Lab/ROT-Pooling} で公開されている。 Global pooling is one of the most significant operations in many machine learning models and tasks, which works for information fusion and structured data (like sets and graphs) representation. However, without solid mathematical fundamentals, its practical implementations often depend on empirical mechanisms and thus lead to sub-optimal, even unsatisfactory performance. In this work, we develop a novel and generalized global pooling framework through the lens of optimal transport. The proposed framework is interpretable from the perspective of expectation-maximization. Essentially, it aims at learning an optimal transport across sample indices and feature dimensions, making the corresponding pooling operation maximize the conditional expectation of input data. We demonstrate that most existing pooling methods are equivalent to solving a regularized optimal transport (ROT) problem with different specializations, and more sophisticated pooling operations can be implemented by hierarchically solving multiple ROT problems. Making the parameters of the ROT problem learnable, we develop a family of regularized optimal transport pooling (ROTP) layers. We implement the ROTP layers as a new kind of deep implicit layer. Their model architectures correspond to different optimization algorithms. We test our ROTP layers in several representative set-level machine learning scenarios, including multi-instance learning (MIL), graph classification, graph set representation, and image classification. Experimental results show that applying our ROTP layers can reduce the difficulty of the design and selection of global pooling -- our ROTP layers may either imitate some existing global pooling methods or lead to some new pooling layers fitting data better. The code is available at \url{https://github.com/SDS-Lab/ROT-Pooling}. | 翻訳日:2022-12-14 13:25:20 公開日:2022-12-13 |
# トレーニングニューラルネットワークと実脳における創発的計算 Emergent Computations in Trained Artificial Neural Networks and Real Brains ( http://arxiv.org/abs/2212.04938v2 ) ライセンス: Link先を確認 | N\'estor Parga, Luis Serrano-Fern\'andez, Joan Falc\'o-Roget | (参考訳) シナプス可塑性により、皮質回路は新しいタスクを学習し、変化する環境に適応することができる。
皮質回路はどのように可塑性を用いて意思決定や作業記憶などの機能を取得するのか?
ニューロンは複雑な方法で接続され、リカレントニューラルネットワークを形成し、学習は接続の強度を変化させる。
さらに、ニューロンは短い離散電気信号を発する。
ここでは、神経科学研究所で動物を訓練するために使われたタスクや、トレーニングされたネットワークにどのように計算が現れるかについて説明する。
驚くべきことに、人工ネットワークと実際の脳は、同様の計算戦略を利用することができる。 Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies. | 翻訳日:2022-12-14 13:24:53 公開日:2022-12-13 |
# 超人的」なパフォーマンスにもかかわらず、現在のllmは倫理と安全に関する決定に適していない Despite "super-human" performance, current LLMs are unsuited for decisions about ethics and safety ( http://arxiv.org/abs/2212.06295v1 ) ライセンス: Link先を確認 | Joshua Albrecht, Ellie Kitanidis, Abraham J. Fetterman | (参考訳) 大規模言語モデル(LLM)はここ数年で爆発的に普及し、問合せやテキストの要約など、さまざまなベンチマークで見事な成果を上げている。
ETHICSデータセットのサブセットの精度によって測定されるように) 共通の倫理的推論において、人間よりも優れた結果をもたらす、より単純な新しいプロンプト戦略を提供する。
残念ながら、平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
LLMエラーは人的エラーと体系的に異なるので、敵の例を簡単に作成したり、既存の例を乱して出力ラベルを反転させたりすることさえできる。
モデルサイズによる逆スケーリングの兆候をいくつかの例で観察し、モデルに「推論を説明する」ように促すことは、しばしば非倫理的な行動の正当化を脅かす結果となることを示した。
我々の結果は、人間のようなパフォーマンスが必ずしも人間のような理解や推論を含まないことを強調している。 Large language models (LLMs) have exploded in popularity in the past few years and have achieved undeniably impressive results on benchmarks as varied as question answering and text summarization. We provide a simple new prompting strategy that leads to yet another supposedly "super-human" result, this time outperforming humans at common sense ethical reasoning (as measured by accuracy on a subset of the ETHICS dataset). Unfortunately, we find that relying on average performance to judge capabilities can be highly misleading. LLM errors differ systematically from human errors in ways that make it easy to craft adversarial examples, or even perturb existing examples to flip the output label. We also observe signs of inverse scaling with model size on some examples, and show that prompting models to "explain their reasoning" often leads to alarming justifications of unethical actions. Our results highlight how human-like performance does not necessarily imply human-like understanding or reasoning. | 翻訳日:2022-12-14 13:24:43 公開日:2022-12-13 |
# 人間と言語モデルにおける実用的言語理解の細部的比較 A fine-grained comparison of pragmatic language understanding in humans and language models ( http://arxiv.org/abs/2212.06801v1 ) ライセンス: Link先を確認 | Jennifer Hu, Sammy Floyd, Olessia Jouravlev, Evelina Fedorenko, Edward Gibson | (参考訳) プラグマティクスはコミュニケーションの重要な部分であるが、人間のプラグマティクスコミュニケーションを支えるメカニズムと、nlpシステムがプラグマティクス言語理解を捉えているかどうかは不明である。
これら2つの問題について,専門家による英語教材のゼロショットプロンプトを用いて,言語モデルと人間を7つの現実的な現象について詳細に比較する。
モデルが話者発話の実用的解釈を選択し、(2)人間と同様の誤りパターンを作り、(3)人間と同様の言語的手がかりを用いて課題を解決するかを問う。
私たちは、最大のモデルが高い精度を達成し、ヒューマンエラーパターンと一致することを見出します。
また、モデルと人間は類似した言語的手がかりに敏感である証拠も発見する。
本研究は, 他エージェントの精神状態の明示的な表現を伴わずに, パラダイム的実用的現象さえ解決でき, 人工モデルを用いて人間の実用的処理の機械的洞察を得ることを示唆している。 Pragmatics is an essential part of communication, but it remains unclear what mechanisms underlie human pragmatic communication and whether NLP systems capture pragmatic language understanding. To investigate both these questions, we perform a fine-grained comparison of language models and humans on seven pragmatic phenomena, using zero-shot prompting on an expert-curated set of English materials. We ask whether models (1) select pragmatic interpretations of speaker utterances, (2) make similar error patterns as humans, and (3) use similar linguistic cues as humans to solve the tasks. We find that the largest models achieve high accuracy and match human error patterns: within incorrect responses, models favor the literal interpretation of an utterance over heuristic-based distractors. We also find evidence that models and humans are sensitive to similar linguistic cues. Our results suggest that even paradigmatic pragmatic phenomena may be solved without explicit representations of other agents' mental states, and that artificial models can be used to gain mechanistic insights into human pragmatic processing. | 翻訳日:2022-12-14 13:24:26 公開日:2022-12-13 |
# POPNASv3:画像および時系列分類のためのパレート最適ニューラルネットワーク探索ソリューション POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image and Time Series Classification ( http://arxiv.org/abs/2212.06735v1 ) ライセンス: Link先を確認 | Andrea Falanti, Eugenio Lomurno, Danilo Ardagna and Matteo Matteucci | (参考訳) 自動化機械学習(automl)分野は近年ますます重要になっている。
これらのアルゴリズムは、専門家の知識を必要とせずにモデルを開発することができ、業界における機械学習技術の適用を促進する。
ニューラルネットワーク探索(NAS)は、AI専門家が手作りした最先端のモデルに匹敵するニューラルネットワークアーキテクチャを自律的に生成するためのディープラーニング技術を活用する。
しかし、このアプローチには重要な計算資源とハードウェア投資が必要であり、実際のアプリケーションでは魅力が低下する。
本稿では,pareto-optimal progressive neural architecture search(popnasv3)の第3版について述べる。
本手法は,様々なタスクに適応できる柔軟な構造とデータ処理パイプラインを維持しつつ,大きな検索空間内で競合するアーキテクチャを見つけることができる。
このアルゴリズムは、探索中にサンプリングされたアーキテクチャの数を減らし、精度を損なうことなく時間効率を大幅に改善する。
画像と時系列分類データセットで実施された実験は、POPNASv3が膨大な数の演算子を探索し、異なるシナリオで提供されるデータの種類に適した最適なアーキテクチャに収束できることを示す。 The automated machine learning (AutoML) field has become increasingly relevant in recent years. These algorithms can develop models without the need for expert knowledge, facilitating the application of machine learning techniques in the industry. Neural Architecture Search (NAS) exploits deep learning techniques to autonomously produce neural network architectures whose results rival the state-of-the-art models hand-crafted by AI experts. However, this approach requires significant computational resources and hardware investments, making it less appealing for real-usage applications. This article presents the third version of Pareto-Optimal Progressive Neural Architecture Search (POPNASv3), a new sequential model-based optimization NAS algorithm targeting different hardware environments and multiple classification tasks. Our method is able to find competitive architectures within large search spaces, while keeping a flexible structure and data processing pipeline to adapt to different tasks. The algorithm employs Pareto optimality to reduce the number of architectures sampled during the search, drastically improving the time efficiency without loss in accuracy. The experiments performed on images and time series classification datasets provide evidence that POPNASv3 can explore a large set of assorted operators and converge to optimal architectures suited for the type of data provided under different scenarios. | 翻訳日:2022-12-14 13:17:58 公開日:2022-12-13 |
# Few-Shot分類における一般化予測の統計的モデル A Statistical Model for Predicting Generalization in Few-Shot Classification ( http://arxiv.org/abs/2212.06461v1 ) ライセンス: Link先を確認 | Yassir Bendou, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Stefan Uhlich, Fabien Cardinaux, Ghouthi Boukli Hacene, Javier Alonso Garcia | (参考訳) 分類器の一般化誤差の推定は、しばしば検証セットに依存する。
このようなセットは、現場では非常に無視されている欠点である、数ショットの学習シナリオではほとんど利用できない。
これらのシナリオでは、事前学習されたニューラルネットワークから抽出された特徴と、最も近いクラス平均のような距離ベースの分類器を組み合わせることが一般的である。
本研究では,特徴分布のガウスモデルを提案する。
このモデルのパラメータを推定することにより、サンプルが少ない新しい分類タスクの一般化誤差を予測できる。
一般化性能の正確な推定には,クラス条件密度間の正確な距離推定が重要であることを確かめた。
そこで,これらの距離に対する偏りのない推定器を提案し,数値解析に組み込む。
提案手法は, 複数ショット設定で一括検証戦略などの代替手法より優れていることを示す。 The estimation of the generalization error of classifiers often relies on a validation set. Such a set is hardly available in few-shot learning scenarios, a highly disregarded shortcoming in the field. In these scenarios, it is common to rely on features extracted from pre-trained neural networks combined with distance-based classifiers such as nearest class mean. In this work, we introduce a Gaussian model of the feature distribution. By estimating the parameters of this model, we are able to predict the generalization error on new classification tasks with few samples. We observe that accurate distance estimates between class-conditional densities are the key to accurate estimates of the generalization performance. Therefore, we propose an unbiased estimator for these distances and integrate it in our numerical analysis. We show that our approach outperforms alternatives such as the leave-one-out cross-validation strategy in few-shot settings. | 翻訳日:2022-12-14 13:17:35 公開日:2022-12-13 |
# RT-1:ロボットトランスによる実世界制御 RT-1: Robotics Transformer for Real-World Control at Scale ( http://arxiv.org/abs/2212.06817v1 ) ライセンス: Link先を確認 | Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich | (参考訳) 大規模で多様なタスクに依存しないデータセットから知識を移すことで、現代の機械学習モデルは、ゼロショットまたは小さなタスク固有のデータセットで特定の下流タスクを高いレベルのパフォーマンスに解決することができる。
この機能はコンピュータビジョン、自然言語処理、音声認識といった他の分野で実証されているが、ロボット工学では、実世界のロボットデータの収集が困難であるため、モデルの一般化能力が特に重要である。
このような一般的なロボットモデルの成功の鍵の1つは、オープンなタスク非依存のトレーニングと、多様なロボットデータをすべて吸収できる高容量アーキテクチャである、と我々は主張する。
本稿では,ロボットトランスフォーマーと呼ばれる,有望なスケーラブルなモデル特性を示すモデルクラスを提案する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
プロジェクトのウェブサイトとビデオはrobotics-transformer.github.ioで見ることができる。 By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io | 翻訳日:2022-12-14 13:17:24 公開日:2022-12-13 |
# 微調整ビジョンランゲージモデルにおける局所潜時更新 Localized Latent Updates for Fine-Tuning Vision-Language Models ( http://arxiv.org/abs/2212.06556v1 ) ライセンス: Link先を確認 | Moritz Ibing, Isaak Lim, Leif Kobbelt | (参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、多くのタスクに対して印象的な一般化能力を示しているが、特定のデータセットのパフォーマンスを改善するためにそれらを微調整する必要性がまだある。
そのためには、モデル更新が高速であり、古典的な微調整アプローチの場合のように、モデルがデータセット外のデータで能力を失うことはないことが望ましい。
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
この比較的単純なアプローチの有効性とスピードを,マイナショット学習の文脈で実証する。トレーニング中に見られるクラスと見えないクラスの両方での結果は,芸術の状況に匹敵するか,あるいは改善されている。 Although massive pre-trained vision-language models like CLIP show impressive generalization capabilities for many tasks, still it often remains necessary to fine-tune them for improved performance on specific datasets. When doing so, it is desirable that updating the model is fast and that the model does not lose its capabilities on data outside of the dataset, as is often the case with classical fine-tuning approaches. In this work we suggest a lightweight adapter, that only updates the models predictions close to seen datapoints. We demonstrate the effectiveness and speed of this relatively simple approach in the context of few-shot learning, where our results both on classes seen and unseen during training are comparable with or improve on the state of the art. | 翻訳日:2022-12-14 13:15:57 公開日:2022-12-13 |