このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200915となっている論文です。

PDF登録状況(公開日: 20200915)

TitleAuthorsAbstract論文公表日・翻訳日
# 熱処理による帯電

Charging assisted by thermalization ( http://arxiv.org/abs/2001.07696v3 )

ライセンス: Link先を確認
Karen V. Hovhannisyan, Felipe Barra, Alberto Imparato(参考訳) 浴槽と熱平衡の系は通常、系と浴のカップリングが強い場合、熱平衡状態にある。 場合によっては、システムを風呂から切り離した後、その熱水状態から作業を抽出することができる。 この観測で、バッテリーの充電と貯蔵ユニットを考案し、単にシステムで構成され、バッテリーとして機能し、浴槽として機能する。 充電サイクル-接続、熱化、切断、作業の抽出-外部制御をほとんど必要とせず、バッテリーの充電状態は、大域的な熱平衡の一部であり、無期限かつ無償で維持することができる。 電池に格納された抽出可能な作業と接続と切断に費やされた全作業の比率として定義される効率は常に$\leq 1$であり、これは熱力学の第2法則の表れである。 充電サイクル毎のエントロピー生成は常に重要であり、すべての結合強度の領域において効率が強く制限される。 また, 一般的なマイクロカノニカル浴においても, 一般的な結果が得られた。 本研究では,高調波振動子(バッテリ)と高調波浴を結合したカルデイラ・レゲットモデルについて,弱結合系と超強結合系の両方における一般漸近公式を任意のオーミックスペクトル密度に対して導出する理論について述べる。 その結果,バッテリの複数コピーを浴槽につなぐことで効率を向上できることがわかった。 最後に、副次的な結果として、ガウスエルゴトロピーの一般公式、すなわち多部連続変数系のガウス状態からガウスユニタリ演算によって抽出できる極大演算を導出する。

A system in thermal equilibrium with a bath will generally be in an athermal state, if the system-bath coupling is strong. In some cases, it will be possible to extract work from that athermal state, after disconnecting the system from the bath. We use this observation to devise a battery charging and storing unit, simply consisting of a system, acting as the battery, and a bath. The charging cycle---connect, let thermalize, disconnect, extract work---requires very little external control and the charged state of the battery, being a part of global thermal equilibrium, can be maintained indefinitely and for free. The efficiency, defined as the ratio of the extractable work stored in the battery and the total work spent on connecting and disconnecting, is always $\leq 1$, which is a manifestation of the second law of thermodynamics. Moreover, coupling, being a resource for the device, is also a source of dissipation: the entropy production per charging cycle is always significant, strongly limiting the efficiency in all coupling strength regimes. We show that our general results also hold for generic microcanonical baths. We illustrate our theory on the Caldeira-Leggett model with a harmonic oscillator (the battery) coupled to a harmonic bath, for which we derive general asymptotic formulas in both weak and ultrastrong coupling regimes, for arbitrary Ohmic spectral densities. We show that the efficiency can be increased by connecting several copies of the battery to the bath. Finally, as a side result, we derive a general formula for Gaussian ergotropy, that is, the maximal work extractable by Gaussian unitary operations from Gaussian states of multipartite continuous-variable systems.
翻訳日:2023-06-06 09:13:12 公開日:2020-09-15
# 物質の量子電気力制御:キャビティ強化強誘電相転移

Quantum Electrodynamic Control of Matter: Cavity-Enhanced Ferroelectric Phase Transition ( http://arxiv.org/abs/2003.13695v3 )

ライセンス: Link先を確認
Yuto Ashida, Atac Imamoglu, Jerome Faist, Dieter Jaksch, Andrea Cavalleri, Eugene Demler(参考訳) 光-物質相互作用は、材料の物理的特性を質的に変化させるのに利用できる。 近年の理論的および実験的研究は、強い古典的電磁放射による多体系の駆動に基づく光による物質制御の可能性を探究し、電子的または格子的自由度に対する時間依存ハミルトニアンを導いた。 避けられない加熱を避けるため、超短パルスのポンププローブは、材料の過渡的な光誘起変化を研究するためにこれまで用いられてきた。 ここでは、電磁環境の量子揺らぎを変化させることで、量子物質を制御する別の方向を追求する。 光-電子相互作用に関する以前の提案とは対照的に、金属ミラーからなる空洞に埋め込まれた双極子量子多体系を検討し、量子光-物質相互作用に基づいて平衡特性を操作する理論的枠組みを定式化する。 本研究は, 金属鏡における双極子フォノン, キャビティフォトン, プラズモンなどの基本励起のハイブリッド化を, 強い光・物質相互作用の過程におけるキャビティ閉じ込めから生じている。 このハイブリダイゼーションは集団励起の性質を定性的に変化させ、幅広いプラットフォームにおけるエネルギー準位構造を選択的に制御するために使用できる。 特に量子パラ誘電体では、空洞誘起光フォノンの軟化により、バルク材料と比較して強誘電相が促進されることが示されている。 以上の結果から,外部ポンプを使わずに光物質結合により超ラジカル型遷移を誘導する可能性が示唆された。 分子材料や励起デバイスへの集合励起におけるキャビティ誘起修飾の可能性についても論じる。

The light-matter interaction can be utilized to qualitatively alter physical properties of materials. Recent theoretical and experimental studies have explored this possibility of controlling matter by light based on driving many-body systems via strong classical electromagnetic radiation, leading to a time-dependent Hamiltonian for electronic or lattice degrees of freedom. To avoid inevitable heating, pump-probe setups with ultrashort laser pulses have so far been used to study transient light-induced modifications in materials. Here, we pursue yet another direction of controlling quantum matter by modifying quantum fluctuations of its electromagnetic environment. In contrast to earlier proposals on light-enhanced electron-electron interactions, we consider a dipolar quantum many-body system embedded in a cavity composed of metal mirrors, and formulate a theoretical framework to manipulate its equilibrium properties on the basis of quantum light-matter interaction. We analyze hybridization of different types of the fundamental excitations, including dipolar phonons, cavity photons, and plasmons in metal mirrors, arising from the cavity confinement in the regime of strong light-matter interaction. This hybridization qualitatively alters the nature of the collective excitations and can be used to selectively control energy-level structures in a wide range of platforms. Most notably, in quantum paraelectrics, we show that the cavity-induced softening of infrared optical phonons enhances the ferroelectric phase in comparison with the bulk materials. Our findings suggest an intriguing possibility of inducing a superradiant-type transition via the light-matter coupling without external pumping. We also discuss possible applications of the cavity-induced modifications in collective excitations to molecular materials and excitonic devices.
翻訳日:2023-05-27 12:02:58 公開日:2020-09-15
# シリコン中のロバスト量子ドットの作製過程と故障解析

Fabrication process and failure analysis for robust quantum dots in silicon ( http://arxiv.org/abs/2004.05683v3 )

ライセンス: Link先を確認
J. P. Dodson (1), Nathan Holman (1), Brandur Thorgrimsson (1), Samuel F. Neyens (1), E. R. MacQuarrie (1), Thomas McJunkin (1), Ryan H. Foote (1), L. F. Edge (2), S. N. Coppersmith (1 and 3), M. A. Eriksson (1) ((1) Department of Physics, University of Wisconsin-Madison, Madison, WI, USA, (2) HRL Laboratories, LLC, Malibu, CA, USA, (3) University of New South Wales, Sydney, Australia)(参考訳) 本報告では,Si/SiGeヘテロ構造上にアルミニウムゲート量子ドットを重畳し,低温ゲート酸化,ゲート酸化の熱アニール,オンチップ静電放電(ESD)保護,熱収支を考慮した最適化プロセスを提案する。 このプロセスは、ゲート・ツー・ゲートの漏れ、ESDによる損傷、アルミニウムの脱織、デバイス配線における不必要な合金の形成を低減する。 さらに、デバイス形状として活性領域のゲート電極形態を解明する断面走査透過電子顕微鏡(STEM)画像が変化する。 重なり合うアルミニウムゲート層は、その下のトポロジーに均一に適合し、ゲート幾何学とは独立に、パターン伝達が非理想的になるゲート幾何学における臨界次元を同定し、デバイス故障を引き起こすことを示す。

We present an improved fabrication process for overlapping aluminum gate quantum dot devices on Si/SiGe heterostructures that incorporates low-temperature inter-gate oxidation, thermal annealing of gate oxide, on-chip electrostatic discharge (ESD) protection, and an optimized interconnect process for thermal budget considerations. This process reduces gate-to-gate leakage, damage from ESD, dewetting of aluminum, and formation of undesired alloys in device interconnects. Additionally, cross-sectional scanning transmission electron microscopy (STEM) images elucidate gate electrode morphology in the active region as device geometry is varied. We show that overlapping aluminum gate layers homogeneously conform to the topology beneath them, independent of gate geometry, and identify critical dimensions in the gate geometry where pattern transfer becomes non-ideal, causing device failure.
翻訳日:2023-05-25 02:18:05 公開日:2020-09-15
# 量子場モードに結合した電子のビリアル関係

Virial relations for electrons coupled to quantum field modes ( http://arxiv.org/abs/2005.08240v2 )

ライセンス: Link先を確認
Iris Theophilou, Markus Penz, Michael Ruggenthaler and Angel Rubio(参考訳) 本研究では、ポール・フィエルツ・ハミルトニアンが双極子近似と長さゲージを用いて記述した、場モードに結合した多くの電子系のビリアル関係について述べる。 現在、このハミルトニアンの解法に対する関心は、キャビティ内のフォトニックモードに強く結合した分子系を記述することや、そのような系の化学的性質を自由空間にあるものと比較して変更する可能性があることから高まっている。 このようなビリアル関係の関連性は、質量再正規化との関係を示し、量子電磁気密度汎関数理論の枠組みにおけるポテンシャルから全エネルギーを得る正確な方法を提供することによって証明される。

In this work we present a set of virial relations for many electron systems coupled to field modes, described by the Pauli--Fierz Hamiltonian in dipole approximation and using length gauge. Currently, there is growing interest in solutions of this Hamiltonian due to its relevance for describing molecular systems strongly coupled to photonic modes in cavities, and in the possible modification of chemical properties of such systems compared to the ones in free space. The relevance of such virial relations is demonstrated by showing a connection to mass renormalization and by providing an exact way to obtain total energies from potentials in the framework of Quantum Electrodynamical Density Functional Theory.
翻訳日:2023-05-19 23:05:26 公開日:2020-09-15
# バンバンプロトコルに基づく量子近似最適化アルゴリズムの検討

Investigating Quantum Approximate Optimization Algorithms under Bang-bang Protocols ( http://arxiv.org/abs/2005.13103v3 )

ライセンス: Link先を確認
Daniel Liang, Li Li, Stefan Leichenauer(参考訳) 量子近似最適化アルゴリズム(QAOA)は、ノイズの多い中間スケール量子(NISQ)デバイスとして広く利用されている。 アルゴリズムをバンバンプロトコルとして解析し,全時間固定と無作為グリーディ最適化方式を提案する。 我々は,max-2-satにおけるバンバン・バン・カオアの性能を調べ,全時間に対する相転移の出現について検討した。 合計時間が増えるにつれて、最適バンバンプロトコルは、標準QAOAの定式化におけるスイッチ数の増加に対応する、多数のジャンプとプラトーを経験する。 多くの場合、グローバルに最適なバンバンプロトコルを見つけることが難しくなり、パフォーマンスが損なわれる。 また、ランダム化最適化アルゴリズムの初期条件を変更した効果について検討し、断熱的初期化を用いてより良い局所的オプティマを見出すことができることを示した。

The quantum approximate optimization algorithm (QAOA) is widely seen as a possible usage of noisy intermediate-scale quantum (NISQ) devices. We analyze the algorithm as a bang-bang protocol with fixed total time and a randomized greedy optimization scheme. We investigate the performance of bang-bang QAOA on MAX-2-SAT, finding the appearance of phase transitions with respect to the total time. As the total time increases, the optimal bang-bang protocol experiences a number of jumps and plateaus in performance, which match up with an increasing number of switches in the standard QAOA formulation. At large times, it becomes more difficult to find a globally optimal bang-bang protocol and performances suffer. We also investigate the effects of changing the initial conditions of the randomized optimization algorithm and see that better local optima can be found by using an adiabatic initialization.
翻訳日:2023-05-18 05:25:09 公開日:2020-09-15
# 多体基底状態のディジタル量子シミュレーションのための加速変分アルゴリズム

Accelerated variational algorithms for digital quantum simulation of many-body ground states ( http://arxiv.org/abs/2006.09415v3 )

ライセンス: Link先を確認
Chufan Lyu, Victor Montenegro, Abolfazl Bayat(参考訳) 量子シミュレータにおける重要な応用の一つは多体系の基底状態をエミュレートすることであり、凝縮物物理学から物質科学まで様々な分野に興味を持っている。 伝統的に、アナログ的な意味で、断熱的進化は、その基底状態において初期化された単純なハミルトン状態が、最終状態が所望の基底状態となるような関心のハミルトン状態にゆっくりと進化するように提案されている。 近年,多体系の基底状態をエミュレートする量子シミュレータにおいて,変分法が提案され,実現されている。 本稿では,まず,ディジタル量子シミュレータにおける必要な量子資源,すなわち回路の深さと2量子ビットの量子ゲート数について,断熱的手法と変分的手法の定量的比較を行った。 以上の結果から,これらの資源に対する変動手法の需要は低かった。 しかし、それらはゆっくりと収束できる古典的な最適化とハイブリッド化する必要がある。 そこで,本論文の2番目の結果として,変分回路のパラメータを推定し,古典的オプティマイザの収束を高速化するための2つのアプローチを提案する。 これらのアプローチは広範囲のハミルトニアンに適用可能であり,最適化手順の大幅な改善が期待できる。

One of the key applications for the emerging quantum simulators is to emulate the ground state of many-body systems, as it is of great interest in various fields from condensed matter physics to material science. Traditionally, in an analog sense, adiabatic evolution has been proposed to slowly evolve a simple Hamiltonian, initialized in its ground state, to the Hamiltonian of interest such that the final state becomes the desired ground state. Recently, variational methods have also been proposed and realized in quantum simulators for emulating the ground state of many-body systems. Here, we first provide a quantitative comparison between the adiabatic and variational methods with respect to required quantum resources on digital quantum simulators, namely the depth of the circuit and the number of two-qubit quantum gates. Our results show that the variational methods are less demanding with respect to these resources. However, they need to be hybridized with a classical optimization which can converge slowly. Therefore, as the second result of the paper, we provide two different approaches for speeding the convergence of the classical optimizer by taking a good initial guess for the parameters of the variational circuit. We show that these approaches are applicable to a wide range of Hamiltonian and provide significant improvement in the optimization procedure.
翻訳日:2023-05-13 17:49:50 公開日:2020-09-15
# 機械学習を活用した生態系修復プロジェクトにおける伝統的な生態知識の活用

Leveraging traditional ecological knowledge in ecosystem restoration projects utilizing machine learning ( http://arxiv.org/abs/2006.12387v3 )

ライセンス: Link先を確認
Bogdana Rakova and Alexander Winter(参考訳) 生態系の回復は、国連の持続可能な開発目標の全てにおいて、加速的な進歩を達成するために重要であると認識されている。 意思決定者、政策立案者、データサイエンティスト、地球科学者、そしてこれらのプロジェクトに取り組んでいる他の学者は、明示的な考察と多様な視点の包含の恩恵を受けるかもしれない。 生態系修復プロジェクトにおけるコミュニティの関与は、地域社会の健全性の向上、生物多様性の保全、生態系機能、社会生態システムのレジリエンスに寄与する可能性がある。 概念的フレームワークは、先住民や地域社会の伝統的な生態学的知識とデータサイエンスと機械学習の実践を有意義に統合するために必要である。 適応的なフレームワークは、地域社会と地理的な場所のニーズと課題を考察し、修復・保全プロジェクトに関するコミュニティとエージェント間のコミュニケーションを改善し、関連するリアルタイムデータをアクセス可能にする。 本稿では,森林生態系修復プロジェクトにおける既存の機械学習(ml)アプリケーションの簡単な分析を行う。 我々は、それらの固有の制限が、関与するすべての利害関係者の幸福の社会文化的側面を適切に扱うことができないかどうか疑問に思う。 バイアスと意図しない結果は、MLベースのソリューションの下流のネガティブな影響の重大なリスクを引き起こす。 適応的かつスケーラブルなプラクティスは,エコシステム型ml修復プロジェクトのすべての段階において学際的なコラボレーションをインセンティブにし,人間とアルゴリズムのアクタ間のインセンティブを調整できることを示唆する。 さらに、オープンかつ反復的なプロセスとしてMLプロジェクトをフレーミングすることで、さまざまなレベルへのアクセスを容易にし、修復作業のスケーリングにおいて触媒協力につながるインセンティブを生み出すことができる。

Ecosystem restoration has been recognized to be critical to achieving accelerating progress on all of the United Nations' Sustainable Development Goals. Decision makers, policymakers, data scientists, earth scientists, and other scholars working on these projects could positively benefit from the explicit consideration and inclusion of diverse perspectives. Community engagement throughout the stages of ecosystem restoration projects could contribute to improved community well-being, the conservation of biodiversity, ecosystem functions, and the resilience of socio-ecological systems. Conceptual frameworks are needed for the meaningful integration of traditional ecological knowledge of indigenous peoples and local communities with data science and machine learning work practices. Adaptive frameworks would consider and address the needs and challenges of local communities and geographic locations by improving community and inter-agent communication around restoration and conservation projects and by making relevant real-time data accessible. In this paper, we provide a brief analysis of existing Machine Learning (ML) applications for forest ecosystem restoration projects. We go on to question if their inherent limitations may prevent them from being able to adequately address socio-cultural aspects of the well-being of all involved stakeholders. Bias and unintended consequences pose significant risks of downstream negative implications of ML-based solutions. We suggest that adaptive and scalable practices could incentivize interdisciplinary collaboration during all stages of ecosystemic ML restoration projects and align incentives between human and algorithmic actors. Furthermore, framing ML projects as open and reiterative processes can facilitate access on various levels and create incentives that lead to catalytic cooperation in the scaling of restoration efforts.
翻訳日:2023-05-13 05:00:29 公開日:2020-09-15
# AIのための倫理的・権利に基づく規範原則の実践の基盤としての幸福度評価の強化

Enhanced well-being assessment as basis for the practical implementation of ethical and rights-based normative principles for AI ( http://arxiv.org/abs/2007.14826v2 )

ライセンス: Link先を確認
Marek Havrda and Bogdana Rakova(参考訳) 人工知能(AI)は、人々の生活のあらゆる領域に影響を及ぼす。 既存の学際的および横断的なメトリクスフレームワークを詳細に見てみると、新たな洞察をもたらし、実践者が自律的およびインテリジェントシステム(A/IS)の影響を理解し評価する上での課題をナビゲートすることができる。 学者、政府、公民権団体、テクノロジー企業によって提案された基本的な倫理的および権利に基づくAI原則に関する合意が浮上している。 原則から現実の実施に移行するために、規制の影響評価と公共政策における幸福運動に動機付けられたレンズを採用する。 公共政策の介入と同様に、AIシステムの実装の結果は、はるかに複雑な影響を与える可能性がある。 公共政策では指標はより広範なツールボックスの一部に過ぎず、指標は本質的にゲームやインセンティブや目的の解消につながる。 同様に、a/isの場合、特定された影響の反復的な評価、分析への新たな影響の包含、新興のトレードオフの識別を可能にする、より大きなツールボックスが必要である。 本稿では、AIにおける倫理的・権利的規範に対処するために使用できるA/ISの強化された影響評価フレームワークの実践的応用を提案する。 このプロセスにより、AIシステムの影響を理解するための人間中心のアルゴリズム支援アプローチが可能になる。 最後に、政府、公民権団体等が、A/IS開発者と協力して、より良い影響評価の強化を実現するための新しいテストインフラを提案する。

Artificial Intelligence (AI) has an increasing impact on all areas of people's livelihoods. A detailed look at existing interdisciplinary and transdisciplinary metrics frameworks could bring new insights and enable practitioners to navigate the challenge of understanding and assessing the impact of Autonomous and Intelligent Systems (A/IS). There has been emerging consensus on fundamental ethical and rights-based AI principles proposed by scholars, governments, civil rights organizations, and technology companies. In order to move from principles to real-world implementation, we adopt a lens motivated by regulatory impact assessments and the well-being movement in public policy. Similar to public policy interventions, outcomes of AI systems implementation may have far-reaching complex impacts. In public policy, indicators are only part of a broader toolbox, as metrics inherently lead to gaming and dissolution of incentives and objectives. Similarly, in the case of A/IS, there's a need for a larger toolbox that allows for the iterative assessment of identified impacts, inclusion of new impacts in the analysis, and identification of emerging trade-offs. In this paper, we propose the practical application of an enhanced well-being impact assessment framework for A/IS that could be employed to address ethical and rights-based normative principles in AI. This process could enable a human-centered algorithmically-supported approach to the understanding of the impacts of AI systems. Finally, we propose a new testing infrastructure which would allow for governments, civil rights organizations, and others, to engage in cooperating with A/IS developers towards implementation of enhanced well-being impact assessments.
翻訳日:2023-05-07 20:33:07 公開日:2020-09-15
# すべての一階特性を満たす静的シュウィンガーレベル電場非線形性によって生成されるカオスに基づく光子モデル

A photon model based upon chaos produced by static, Schwinger-level electric field nonlinearities that satisfies all first-order properties ( http://arxiv.org/abs/2008.11614v3 )

ライセンス: Link先を確認
Dale M. Grimes, Craig A. Grimes(参考訳) 本研究では,空間非線形性を誘導する動的電界強度に対するシュウィンガーのしきい値が特別な場合であり,より一般的には静的電界と動的電界の両方のしきい値場であると仮定する。 この大きさの磁場は正のエネルギー特性に適応するために負のエネルギー電荷を誘導し、原子内では状態間エネルギー移動や時間変化場の状態内カオス混合もサポートする。 非線形性によるカオスは光子生成の確率的性質の基礎となる。 原子スケールと低スケールでの物理問題に対する答えは、カオス的な電子の動きが10 zsの時間スケールでその構成を変えるため、継続的に進化する。 原子内では、光周波数場を生成する周波数混合は、核を囲む非線形領域で起こる。 確率的に、真空電荷の環は、原子から永久に離れた方向に移動するときにエネルギーを閉じ込める等価導波路を形成する。 相対論的に拡張された伝播場は、エネルギー輸送場を束縛し保護する電荷を損失なく誘導する。 ローカライズ可能な光子電荷場アンサンブルは熱力学的に閉じており、ゼロレスト質量と永続安定性を含む全ての一階光子特性を有する。 近傍の光子がcに近づく速度で移動すると、円対平行偏光を持つ光子の間に、小さく、一定で魅力的な力が見つかる。

In this work we postulate that Schwinger's threshold for a dynamic electric field intensity to induce spatial nonlinearity is a special case and, more generally, it is the threshold field for both static and dynamic electric fields. Fields of this magnitude induce negative energy charges to adapt positive energy attributes; within an atom they also support inter-state energy transfers and intra-state chaotic mixing of time-varying fields. Nonlinearity-induced chaos forms the basis for the probabilistic nature of photon creation. Answers to physical problems at atomic and lower scales continuously evolve because chaotic-like electron movements change their configurations on a time scale of 10 zs. Within atoms, frequency mixing that creates an optical frequency field occurs in the nonlinear region surrounding the nucleus. On a probabilistic basis a ring of vacuum charge can be induced that forms into an equivalent waveguide that confines the energy as it travels permanently away from the atom. The propagating relativistically augmented fields losslessly induce charges that bind and protect the energy carrying fields. The photon charge-field ensemble, which we show is localizable, is thermodynamically closed and possesses all first-order photon properties including zero rest mass and permanent stability. For near neighbor photons traveling at a speed approaching c we find a small, constant, attractive force between photons with circularly antiparallel polarization.
翻訳日:2023-05-04 21:51:47 公開日:2020-09-15
# 飽和原子のサブラグランス:長寿命状態の人口増加

Subradiance with saturated atoms: population enhancement of the long-lived states ( http://arxiv.org/abs/2009.05172v2 )

ライセンス: Link先を確認
A. Cipris, N. A. Moreira, T. S. do Espirito Santo, P. Weiss, C. J. Villas-Boas, R. Kaiser, W. Guerin, R. Bachelard(参考訳) 双極子-双極子相互作用は、しばしばサブラディアントと呼ばれる長寿命の集合原子状態の起源であり、新しいフォトニックデバイスや量子プロトコルでの可能性を探究している。 ここでは, 線形光学以外のサブラジオアンスについて検討し, 駆動場の飽和パラメータが増大するにつれて, このモードの個体群が200倍に増加することを示した。 この強化は、よく結合した超ラジアント状態を通して光ポンピングに類似した機構に特徴づける。 寿命はポンプの強度の影響を受けず、最終的にシステムは単一励起セクターに向けられる。

Dipole-dipole interactions are at the origin of long-lived collective atomic states, often called subradiant, which are explored for their potential use in novel photonic devices or in quantum protocols. Here, we study subradiance beyond linear optics and experimentally demonstrate a two hundred-fold increase in the population of these modes, as the saturation parameter of the driving field is increased. We attribute this enhancement to a mechanism similar to optical pumping through the well-coupled superradiant states. The lifetimes are unaffected by the pump strength, as the system is ultimately driven toward the single-excitation sector.
翻訳日:2023-05-03 00:27:54 公開日:2020-09-15
# 立方相ゲートはGKP状態上の非クリフォード演算には適さない

Cubic phase gates are not suitable for non-Clifford operations on GKP states ( http://arxiv.org/abs/2009.05309v2 )

ライセンス: Link先を確認
Jacob Hastrup, Mikkel V. Larsen, Jonas S. Neergaard-Nielsen, Nicolas C. Menicucci and Ulrik L. Andersen(参考訳) Gottesman-Kitaev-Preskill (GKP)エンコーディングでは、単純なガウス演算を用いてクリフォードゲートと誤り訂正を行うことができる。 それでも、普遍性に必要な非クリフォードゲートは非ガウス的要素を必要とする。 元々の提案では、GKPは論理的非クリフォードTゲートを実行するために立方相ゲートの1つの応用を特に単純な方法を提案した。 ここでは、この立方相ゲートのアプローチは、GKP状態において任意に大量のスクイーズを行う場合でも、極端に貧弱であることを示す。 したがって、一般的な信念に反して、立方相ゲートはGKP状態で普遍的なフォールトトレラント量子計算を達成するには適していない。

With the Gottesman-Kitaev-Preskill (GKP) encoding, Clifford gates and error correction can be carried out using simple Gaussian operations. Still, non-Clifford gates, required for universality, require non-Gaussian elements. In their original proposal, GKP suggested a particularly simple method of using a single application of the cubic phase gate to perform the logical non-Clifford T-gate. Here we show that this cubic phase gate approach performs extraordinarily poorly, even for arbitrarily large amounts of squeezing in the GKP state. Thus, contrary to common belief, the cubic phase gate is not suitable for achieving universal fault-tolerant quantum computation with GKP states.
翻訳日:2023-05-02 22:40:25 公開日:2020-09-15
# 空間的ブロッホ振動原子干渉計の感度境界

Sensitivity bounds of a spatial Bloch-oscillations Atom Interferometer ( http://arxiv.org/abs/2009.06908v1 )

ライセンス: Link先を確認
I. Na{\l}\c{e}cz, L. Masi, G. Ferioli, T. Petrucciani, M. Fattori and J. Chwede\'nczuk(参考訳) オンサイト原子密度の測定から外部力の推定を行うブロッホ振動原子干渉計の感度に関する究極の限界について検討した。 格子点間のエネルギー差がトンネルエネルギーよりも小さい外部力では、原子波動関数は多くの格子点に広がり、格子の占有モード間の分離を増加させ、干渉計の感度を自然に向上させる。 本手法の適用性を検討するため,トンネルエネルギーの非制御変動と原子検出の有限分解能の影響を推定した。 解析の結果, 水平格子と弱い外力を組み合わせることで高い感度が得られることがわかった。 したがって、このセットアップはコンパクトデバイスや高空間解像度の測定に有望なソリューションである。

We study the ultimate bounds on the sensitivity of a Bloch-oscillation atom interferometer where the external force is estimated from the measurement of the on-site atomic density. For external forces such that the energy difference between lattice sites is smaller than the tunneling energy, the atomic wave-function spreads over many lattice sites, increasing the separation between the occupied modes of the lattice and naturally enhancing the sensitivity of the interferometer. To investigate the applicability of this scheme we estimate the effect of uncontrolled fluctuations of the tunneling energy and the finite resolution of the atom detection. Our analysis shows that a horizontal lattice combined with a weak external force allow for high sensitivities. Therefore, this setup is a promising solution for compact devices or for measurements with high spatial resolution.
翻訳日:2023-05-02 04:37:23 公開日:2020-09-15
# 集合的雑音チャネル上の2者量子鍵合意に対する置換攻撃と反撃

Permutation attack and counterattack on the two-party quantum key agreement over a collective noisy channel ( http://arxiv.org/abs/2009.06871v1 )

ライセンス: Link先を確認
Jun Gu, Tzonelih Hwang(参考訳) 最近、yangら(quantum inf process 18, 74, 2019)は、集合的なノイズチャネル上に2つの量子鍵合意プロトコルを提案した。 彼らは、彼らのquantum key agreementプロトコルは、両参加者が最終共有鍵に等しく影響を与えることを保証できると主張した。 しかし, 置換操作をアナウンスした参加者は, 他者に検出されることなく, 自分自身で共有鍵を操作できることを示した。 この抜け穴を避けるため、ここで改善を提案する。

Recently, Yang et al. (Quantum Inf Process 18, 74, 2019) proposed a two-party quantum key agreement protocol over a collective noisy channel. They claimed that their quantum key agreement protocol can ensure both of the participants have equal influence on the final shared key. However, this study shows that the participant who announces the permutation operation can manipulate the final shared key by himself/herself without being detected by the other. To avoid this loophole, an improvement is proposed here.
翻訳日:2023-05-02 04:37:09 公開日:2020-09-15
# 参加予算のためのKnapsack投票

Knapsack Voting for Participatory Budgeting ( http://arxiv.org/abs/2009.06856v1 )

ライセンス: Link先を確認
Ashish Goel, Anilesh K. Krishnaswamy, Sukolsak Sakshuwong, Tanja Aitamurto(参考訳) 我々は、参加型予算の文脈で有権者の選好を集約する問題に対処する。 我々は,現在実施中の投票方式を精査し,その欠点を概観し,この設定に合わせた新しい方式を導入し,これを「Knapsack Voting」と呼ぶ。 我々は,その戦略特性について検討し,自然効用モデル(結果と投票者の真の嗜好の間の$$$\ell_1$の差による不利)と,一般効用モデルにおける「部分的」な戦略防衛性を示す。 我々は、Knapsack Votingを、収益、赤字または余剰額のより一般的な設定にまで拡張し、同様の戦略保護結果を示す。 さらに,本方式の適用性を示すため,全国各地の地方自治体と連携して展開したデジタル投票プラットフォームの実装について検討する。 そこで得られた投票データから、Knapsack Votingが実際にうまくいくという実証的な証拠を提示する。

We address the question of aggregating the preferences of voters in the context of participatory budgeting. We scrutinize the voting method currently used in practice, underline its drawbacks, and introduce a novel scheme tailored to this setting, which we call "Knapsack Voting". We study its strategic properties - we show that it is strategy-proof under a natural model of utility (a dis-utility given by the $\ell_1$ distance between the outcome and the true preference of the voter), and "partially" strategy-proof under general additive utilities. We extend Knapsack Voting to more general settings with revenues, deficits or surpluses, and prove a similar strategy-proofness result. To further demonstrate the applicability of our scheme, we discuss its implementation on the digital voting platform that we have deployed in partnership with the local government bodies in many cities across the nation. From voting data thus collected, we present empirical evidence that Knapsack Voting works well in practice.
翻訳日:2023-05-02 04:36:50 公開日:2020-09-15
# XYモデルの非平衡相と相転移

Nonequilibrium phases and phase transitions of the XY-model ( http://arxiv.org/abs/2009.06845v1 )

ライセンス: Link先を確認
Tharnier O. Puel and Stefano Chesi and Stefan Kirchner and Pedro Ribeiro(参考訳) 我々は、横磁場XYスピン鎖の定常相図を、その端で異なる磁気ポテンシャルで保持される磁気貯留層に結合する。 長時間の限界では、系全体の磁化バイアスは電流が流れる非平衡定常状態を生成する。 異なる非平衡相を、それらの相関関数と絡み合い量の観点から、鎖のパラメータと磁気ポテンシャルの関数として特徴づける。 逆場イジング鎖の特定の場合において最近観察された混合次転移は、一般的な平衡外特徴として現れ、その臨界指数を解析的に決定する。 結果はマルコフ貯水池の限界で得られたものと対比される。 本研究は, 拡張開放量子系の非平衡相と相転移の性質の確立に有効であることを示す。

We obtain the steady-state phase diagram of a transverse field XY spin chain coupled at its ends to magnetic reservoirs held at different magnetic potentials. In the long-time limit, the magnetization bias across the system generates a current-carrying non-equilibrium steady-state. We characterize the different non-equilibrium phases as functions of the chain's parameters and magnetic potentials, in terms of their correlation functions and entanglement content. The mixed-order transition, recently observed for the particular case of a transverse field Ising chain, is established to emerge as a generic out-of-equilibrium feature and its critical exponents are determined analytically. Results are also contrasted with those obtained in the limit of Markovian reservoirs. Our findings should prove helpful in establishing the properties of non-equilibrium phases and phase transitions of extended open quantum systems.
翻訳日:2023-05-02 04:36:31 公開日:2020-09-15
# 全光量子メモリ間の位相ロック

Phase Locking between Two All-Optical Quantum Memories ( http://arxiv.org/abs/2009.06811v1 )

ライセンス: Link先を確認
Fumiya Okamoto, Mamoru Endo, Mikihisa Matsuyama, Yuya Ishizuka, Yang Liu, Rei Sakakibara, Yosuke Hashimoto, Jun-ichi Yoshikawa, Peter van Loock, Akira Furusawa(参考訳) 量子計算への光学的アプローチは、制御された方法でマルチモードフォトニック量子状態を生成する必要がある。 そこで本研究では,位相基準ビームを用いた結合キャビティシステムに基づく2つの全光量子メモリの位相ロックを実験的に実証し,2モード絡み合い単光子状態の時間制御解放について述べる。 各モードのリリース時間は独立して決定できる。 生成した状態は2モードの光学ホモダイントモグラフィによって特徴づけられる。 対数ネガティビティとウィグナー関数ネガティビティによって確認される400nsまでの解放時間差のために、絡み合いと非古典性が保存される。

Optical approaches to quantum computation require the creation of multi-mode photonic quantum states in a controlled fashion. Here we experimentally demonstrate phase locking of two all-optical quantum memories, based on a concatenated cavity system with phase reference beams, for the time-controlled release of two-mode entangled single-photon states. The release time for each mode can be independently determined. The generated states are characterized by two-mode optical homodyne tomography. Entanglement and nonclassicality are preserved for release-time differences up to 400 ns, confirmed by logarithmic negativities and Wigner-function negativities, respectively.
翻訳日:2023-05-02 04:36:19 公開日:2020-09-15
# 古典的Li\'{e}nard発振子の微視的量子一般化

Microscopic quantum generalization of classical Li\'{e}nard oscillators ( http://arxiv.org/abs/2009.07142v1 )

ライセンス: Link先を確認
Srijan Bhattacharyya, Arnab Ghosh and Deb Shankar Ray(参考訳) システム-貯留層モデルと非線形結合の適切な選択に基づいて、古典的なLi\'{e}nard系の微視的量子一般化を検討した。 発振子コヒーレント状態と関連するc数の標準熱分布を用いて、単一または多重リミットサイクルを許容する還元系の量子ランジュバン方程式を導出した。 ゆらぎ-散逸関係の形での詳細なバランスは、真空励起の場合においても引力の動的安定性を保っていることが示されている。 rayleigh, van der pol および li\'{e}nard 発振器の量子バージョンは、平均場記述における理論スキームの特別な場合として導出される。

Based on a system-reservoir model and an appropriate choice of nonlinear coupling, we have explored the microscopic quantum generalization of classical Li\'{e}nard systems. Making use of oscillator coherent states and canonical thermal distributions of the associated c-numbers, we have derived the quantum Langevin equation of the reduced system which admits of single or multiple limit cycles. It has been shown that detailed balance in the form of fluctuation-dissipation relation preserves the dynamical stability of the attractors even in case of vacuum excitation. The quantum versions of Rayleigh, Van der Pol and several other variants of Li\'{e}nard oscillators are derived as special cases in our theoretical scheme within a mean-field description.
翻訳日:2023-05-02 04:28:19 公開日:2020-09-15
# 単光子レベルでの機械学習によるマルチパラメータセンサのロバスト校正

Robust calibration of multiparameter sensors via machine learning at the single-photon level ( http://arxiv.org/abs/2009.07122v1 )

ライセンス: Link先を確認
Valeria Cimini, Emanuele Polino, Mauro Valeri, Ilaria Gianani, Nicol\`o Spagnolo, Giacomo Corrielli, Andrea Crespi, Roberto Osellame, Marco Barbieri, and Fabio Sciarrino(参考訳) センサーの校正は、その動作を検証するための基本的なステップである。 これは要求のあるタスクであり、複数のパラメータに依存する可能性があるため、デバイスの詳細なモデリングを取得することに依存する。 マシンラーニングは、パラメータとデバイス応答のマッピングを操作することで、その機能に関する追加の情報を必要とせずに、この問題に対する便利なソリューションを提供する。 本稿では,2つのパラメータに依存する統合フォトニックデバイスの校正のためのニューラルネットワークに基づくアルゴリズムの適用例を示す。 適切なネットワークトレーニング戦略を慎重に選択することで,信頼性の高い評価が達成可能であることを示す。 これらの結果から, 複雑な変換関数を特徴とするセンサのマルチパラメータキャリブレーションのための有効なツールとしての有効性が示された。

Calibration of sensors is a fundamental step to validate their operation. This can be a demanding task, as it relies on acquiring a detailed modelling of the device, aggravated by its possible dependence upon multiple parameters. Machine learning provides a handy solution to this issue, operating a mapping between the parameters and the device response, without needing additional specific information on its functioning. Here we demonstrate the application of a Neural Network based algorithm for the calibration of integrated photonic devices depending on two parameters. We show that a reliable characterization is achievable by carefully selecting an appropriate network training strategy. These results show the viability of this approach as an effective tool for the multiparameter calibration of sensors characterized by complex transduction functions.
翻訳日:2023-05-02 04:28:00 公開日:2020-09-15
# 非エルミート系における例外点における量子計量と波束

Quantum metric and wavepackets at exceptional points in non-Hermitian systems ( http://arxiv.org/abs/2009.06987v1 )

ライセンス: Link先を確認
D. D. Solnyshkov, C. Leblanc, L. Bessonart, A. Nalitov, J. Ren, Q. Liao, F. Li, G. Malpuech(参考訳) ベリー曲率のような位相物理学の通常の概念は、非エルミート系に直接適用することはできない。 エルミート系において二次的な役割を果たす別の対象である量子計量は、非エルミート系における例外点の近くで重要な量となり、ウェーブパック軌道の記述を完全に制御する方法で発散する。 量子メトリックの挙動は、一定の方向の一定加速度と、制御可能な方向の非破壊的な定数速度に責任がある。 どちらのコントリビューションもwavepacketサイズに依存しています。

The usual concepts of topological physics, such as the Berry curvature, cannot be applied directly to non-Hermitian systems. We show that another object, the quantum metric, which often plays a secondary role in Hermitian systems, becomes a crucial quantity near exceptional points in non-Hermitian systems, where it diverges in a way that fully controls the description of wavepacket trajectories. The quantum metric behaviour is responsible for a constant acceleration with a fixed direction, and for a non-vanishing constant velocity with a controllable direction. Both contributions are independent of the wavepacket size.
翻訳日:2023-05-02 04:26:59 公開日:2020-09-15
# バイモーダルおよびスピン-1ボース-アインシュタイン凝縮体におけるツイストとストアの絡み合い

Twist-and-store entanglement in bimodal and spin-1 Bose-Einstein condensates ( http://arxiv.org/abs/2009.07372v1 )

ライセンス: Link先を確認
Artur Niezgoda, Emilia Witkowska, Safoura Sadat Mirkhalaf(参考訳) 量子フィッシャー情報によって定量化されたエンタングルメントの動的安定化のためのスキームを原子間干渉の文脈で二様およびスピン-1ボース・アインシュタイン凝縮の数値的および解析的に解析する。 このスキームは、平均場位相空間における安定中心固定点周辺のさらなる進化を制限する状態の単一の回転に続くねじれ力学からなる。 結果として生じる絡み合いのレベルは、回転の瞬間よりも順番かそれ以上である。 パリティの読み出し測定は、全進化中の絡み合いのレベルを定量化することを示した。

A scheme for dynamical stabilization of entanglement quantified by the quantum Fisher information is analyzed numerically and analytically for bimodal and spin-1 Bose-Einstein condensates in the context of atomic interferometry. The scheme consists of twisting dynamics followed by a single rotation of a state which limits further evolution around stable center fixed points in the mean-field phase space. The resulting level of entanglement is of the order or larger than at the moment of rotation. It is demonstrated that the readout measurement of parity quantifies the level of entanglement during entire evolution.
翻訳日:2023-05-02 04:18:56 公開日:2020-09-15
# 量子系の部品と複合材料

Parts and Composites of Quantum Systems ( http://arxiv.org/abs/2009.07371v1 )

ライセンス: Link先を確認
Stan Gudder(参考訳) 量子測定のための3種類の実体を考える。 一般性の順に、これらのタイプは、可観測物、計器、測定モデルである。 もし$\alpha$と$\beta$がエンティティであれば、$\alpha$が$\beta$の一部となるための意味を定義する。 この関係は本質的に$\beta$の関数である$\alpha$と等価であり、この場合$\beta$を使って$\alpha$を測定することができる。 次に、概念を用いてエンティティの共存を定義し、その特性を研究する。 重要な役割はマップ $\alphahat$ によって果たされる。 例えば、$\iscript$ が計器であれば、$\iscripthat$ は$\iscript$ で測定される唯一の可観測性である。 次に複合システムについて述べる。 これらは、結合されるシステムのヒルベルト空間のテンソル積を取ることによって構成される。 3種類の測定の複合材料とその部品について検討した。 ローカルコンポーネントへの型還元について論じる。 測定の逐次的生成も検討する。 l\"uders, kraus and trivial instrumentsの具体例は、様々な概念を説明するために用いられる。 本項では有限次元系のみを考える。

We consider three types of entities for quantum measurements. In order of generality, these types are: observables, instruments and measurement models. If $\alpha$ and $\beta$ are entities, we define what it means for $\alpha$ to be a part of $\beta$. This relationship is essentially equivalent to $\alpha$ being a function of $\beta$ and in this case $\beta$ can be employed to measure $\alpha$. We then use the concept to define coexistence of entities and study its properties. A crucial role is played by a map $\alphahat$ which takes an entity of a certain type to one of lower type. For example, if $\iscript$ is an instrument, then $\iscripthat$ is the unique observable measured by $\iscript$. Composite systems are discussed next. These are constructed by taking the tensor product of the Hilbert spaces of the systems being combined. Composites of the three types of measurements and their parts are studied. Reductions of types to their local components are discussed. We also consider sequential products of measurements. Specific examples of L\"uders, Kraus and trivial instruments are used to illustrate various concepts. We only consider finite-dimensional systems in this article.
翻訳日:2023-05-02 04:18:44 公開日:2020-09-15
# Googleのランダム量子回路シミュレーション実験で量子優位性について説明できるものは何か?

What Have Google's Random Quantum Circuit Simulation Experiments Demonstrated about Quantum Supremacy? ( http://arxiv.org/abs/2009.07359v1 )

ライセンス: Link先を確認
Jack K. Horner and John F. Symons(参考訳) 量子コンピューティングは、古典的コンピュータよりもはるかに高速に、少なくともある種の計算を実行することを約束するので、非常に興味深い。 Arute et al. 2019(正式には"Google Quantum Team")は、いくつかの量子コンピュータのパフォーマンスが、いくつかの問題において古典的コンピュータよりも優れていると主張する"量子優位性"を示す実験の結果を報告している。 これらの結果は量子超越性に関する議論を終わらせるのか? 私たちは彼らがそうではないと主張する。 Google Quantum Teamの実験の概要を提供し、量子超越性を実証するために、いくつかのオープンな質問を特定します。

Quantum computing is of high interest because it promises to perform at least some kinds of computations much faster than classical computers. Arute et al. 2019 (informally, "the Google Quantum Team") report the results of experiments that purport to demonstrate "quantum supremacy" -- the claim that the performance of some quantum computers is better than that of classical computers on some problems. Do these results close the debate over quantum supremacy? We argue that they do not. We provide an overview of the Google Quantum Team's experiments, then identify some open questions in the quest to demonstrate quantum supremacy.
翻訳日:2023-05-02 04:18:25 公開日:2020-09-15
# サイト制御単光子発光用ナノ拘束単層WSe$_2$の最大150K照射

Irradiation of Nanostrained Monolayer WSe$_2$ for Site-Controlled Single-Photon Emission up to 150 K ( http://arxiv.org/abs/2009.07315v1 )

ライセンス: Link先を確認
Kamyar Parto, Kaustav Banerjee, Galan Moody(参考訳) 量子ドットのようなwse$_2$単光子エミッターは、将来のオンチップのスケーラブルな量子光源にとって有望なプラットフォームとなり、既存の技術、特にサイト固有のエンジニアリングの可能性に対してユニークな利点がある。 しかしながら、これらの資源の機能に必要とされる低温温度は、そのポテンシャルの完全な抑制要因となっている。 既存のひずみ工学手法は、エミッタの製造歩留まりと純度を維持しながら作業温度を延ばすという根本的な課題に直面している。 本研究は, ナノスケール応力による独立・同時ひずみ工学と電子ビーム照射による欠陥工学を応用した, 原子状に薄い WSe$_2$ でサイト特異的単一光子エミッタを設計する方法を実証する。 これらのエミッタの多くは、エキシトン-ビエクシトンカスケード放出、95%以上の純度、150Kまでの作業温度を示しており、これはパーセル増強のないファンデルワールス半導体単光子エミッタの中で最も高い。 この手法はプラズモンや光学マイクロキャビティの統合と組み合わせて、将来のスケーラブルで室温で高品質なファンデルワールス量子光源の実現を促進する可能性がある。

Quantum-dot-like WSe$_2$ single-photon emitters have become a promising platform for future on-chip scalable quantum light sources with unique advantages over existing technologies, notably the potential for site-specific engineering. However, the required cryogenic temperatures for the functionality of these sources have been an inhibitor of their full potential. Existing strain engineering methods face fundamental challenges in extending the working temperature while maintaining the emitter's fabrication yield and purity. In this work, we demonstrate a novel method of designing site-specific single-photon emitters in atomically thin WSe$_2$ with near-unity yield utilizing independent and simultaneous strain engineering via nanoscale stressors and defect engineering via electron-beam irradiation. Many of these emitters exhibit exciton-biexciton cascaded emission, purities above 95%, and working temperatures extending up to 150 K, which is the highest observed in van der Waals semiconductor single-photon emitters without Purcell enhancement. This methodology, coupled with possible plasmonic or optical micro-cavity integration, potentially furthers the realization of future scalable, room-temperature, and high-quality van der Waals quantum light sources.
翻訳日:2023-05-02 04:18:13 公開日:2020-09-15
# 空間効率な埋め込みによるグラフ色問題に対する量子最適化

Quantum Optimization for the Graph Coloring Problem with Space-Efficient Embedding ( http://arxiv.org/abs/2009.07314v1 )

ライセンス: Link先を確認
Zsolt Tabi and Kareem H. El-Safty and Zs\'ofia Kallus and P\'eter H\'aga and Tam\'as Kozsik and Adam Glos and Zolt\'an Zimbor\'as(参考訳) 現在の量子コンピューティングデバイスは、アーキテクチャによって長所と短所が異なる。 これは、回路設計への柔軟なアプローチが必要であることを意味する。 グラフカラー化問題に対して,空間効率のよい量子最適化アルゴリズムを導入することで,この問題に対処する。 私たちの回路は標準的なアプローチよりも深いです。 しかし、必要な量子ビットの数は、色数で指数関数的に減少する。 提案手法の性能を示す数値シミュレーションを広範囲に実施する。 さらに、現在利用可能な代替案を検討するために、量子アニーラのランダムグラフ色付けの研究を行い、そのアプローチの制限因子についても検証する。

Current quantum computing devices have different strengths and weaknesses depending on their architectures. This means that flexible approaches to circuit design are necessary. We address this task by introducing a novel space-efficient quantum optimization algorithm for the graph coloring problem. Our circuits are deeper than the ones of the standard approach. However, the number of required qubits is exponentially reduced in the number of colors. We present extensive numerical simulations demonstrating the performance of our approach. Furthermore, to explore currently available alternatives, we perform a study of random graph coloring on a quantum annealer to test the limiting factors of that approach, too.
翻訳日:2023-05-02 04:17:50 公開日:2020-09-15
# 変分計算のための空間効率二元最適化

Space-efficient binary optimization for variational computing ( http://arxiv.org/abs/2009.07309v1 )

ライセンス: Link先を確認
Adam Glos and Aleksandra Krawiec and Zolt\'an Zimbor\'as(参考訳) 雑音中間スケール量子(NISQ)コンピュータの時代には、多くの量子ビットや深い回路を必要としない量子アルゴリズムを設計することが不可欠である。 残念なことに、最もよく知られた量子アルゴリズムは、現在利用可能な量子デバイス上で動くように要求されている。 さらに、NISQ時代に開発された最先端のアルゴリズムでさえ、特定の問題クラスに対する高い空間複雑性の要求に悩まされることが多い。 本稿では,パラダイム最適化タスクであるトラベルセールスマン問題(tsp)に必要な量子ビット数を,より深い変動回路を持つコストで大幅に削減できることを示す。 この問題に焦点が当てられているが、標準的なビットエンコーディングが極めて非効率な他の問題に対して、このアプローチは一般化できると主張している。 最後に、量子ビット効率モデルと回路深度効率モデルの間をスムーズに補間する符号化方式を提案する。 提案するエンコーディングはすべて、量子近似最適化アルゴリズムフレームワークで実装するのが効率的である。

In the era of Noisy Intermediate-Scale Quantum (NISQ) computers it is crucial to design quantum algorithms which do not require many qubits or deep circuits. Unfortunately, the most well-known quantum algorithms are too demanding to be run on currently available quantum devices. Moreover, even the state-of-the-art algorithms developed for the NISQ era often suffer from high space complexity requirements for particular problem classes. In this paper, we show that it is possible to greatly reduce the number of qubits needed for the Traveling Salesman Problem (TSP), a paradigmatic optimization task, at the cost of having deeper variational circuits. While the focus is on this particular problem, we claim that the approach can be generalized for other problems where the standard bit-encoding is highly inefficient. Finally, we also propose encoding schemes which smoothly interpolate between the qubit-efficient and the circuit depth-efficient models. All the proposed encodings remain efficient to implement within the Quantum Approximate Optimization Algorithm framework.
翻訳日:2023-05-02 04:17:42 公開日:2020-09-15
# 超伝導量子回路制御のための連続測定

Continuous measurements for control of superconducting quantum circuits ( http://arxiv.org/abs/2009.07297v1 )

ライセンス: Link先を確認
Shay Hacohen-Gourgy and Leigh S. Martin(参考訳) 過去20年にわたる開発は、寒冷原子、閉じ込められたイオン、キャビティ量子電磁力学(qed)、回路qedなど、多くの量子システムにおける量子技術への道を開いた。 しかし、測定とデコヒーレンスの影響に対する量子状態の脆弱さは、今でも量子技術における最大の課題の1つとなっている。 この経路における命令的能力は、制御可能性を高め、量子エラー補正によるコヒーレンス時間延長を可能にする量子フィードバックである。 実験や手順のショットからショットへのパラメータの変更はフィードバックと見なすことができるが、量子力学は測定プロセス自体でフィードバック操作を行うという興味深い可能性も得る。 測度に対するこのより広いアプローチは、弱い測定、量子軌道、古典的なアナログを持たない多くの種類のフィードバックの概念につながる。 この種のプロセスは、このレビューの主要な焦点です。 量子フィードバックと技術において有意なポテンシャルを持つ実験プラットフォームである回路qedの文脈で量子フィードバックの概念を導入する。 次に,いくつかの実験を議論し,連続計測とフィードバックの概念を解明する。 最後に,コヒーレントフィードバックの概要とフォールトトレラント誤り訂正への適用について述べる。

Developments over the last two decades have opened the path towards quantum technologies in many quantum systems, such as cold atoms, trapped ions, cavity-quantum electrodynamics (QED), and circuit-QED. However the fragility of quantum states to the effects of measurement and decoherence still poses one of the greatest challenges in quantum technology. An imperative capability in this path is quantum feedback, as it enhances the control possibilities and allows for prolonging coherence times through quantum error correction. While changing parameters from shot to shot of an experiment or procedure can be considered feedback, quantum mechanics also allows for the intriguing possibility of performing feedback operations during the measurement process itself. This broader approach to measurements leads to the concepts of weak measurement, quantum trajectories and numerous types of feedback with no classical analogues. These types of processes are the primary focus of this review. We introduce the concept of quantum feedback in the context of circuit QED, an experimental platform with significant potential in quantum feedback and technology. We then discuss several experiments and see how they elucidate the concepts of continuous measurements and feedback. We conclude with an overview of coherent feedback, with application to fault-tolerant error correction.
翻訳日:2023-05-02 04:17:08 公開日:2020-09-15
# FaceShifter: 顔のスワッピングを意識し、高忠実度を目指す

FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping ( http://arxiv.org/abs/1912.13457v3 )

ライセンス: Link先を確認
Lingzhi Li, Jianmin Bao, Hao Yang, Dong Chen, Fang Wen(参考訳) 本研究では,顔の忠実度と隠蔽性を考慮した顔交換のための新しい2段階フレームワークFaceShifterを提案する。 置換面を合成する際に対象画像からの限られた情報のみを利用する既存の顔交換作業とは異なり、我々のフレームワークは、ターゲット属性を徹底的かつ適応的に利用し、その交換面を高忠実に生成する。 本稿では,多レベル顔属性を抽出するための新しい属性エンコーダと,適応的意図的非正規化(Adaptive Attentional Denormalization, AAD)層を慎重に設計した新しいジェネレータを提案する。 難解な顔面咬合に対処するために,新しいヒューリスティックエラー認識改善ネットワーク(hear-net)からなる第2段階を付加する。 手動のアノテーションを使わずに、自己管理的な方法で異常領域の回復を訓練する。 野生の顔に対する大規模な実験は、私たちの顔交換の結果が、知覚的に魅力的であるだけでなく、他の最先端の方法と比較して優れたアイデンティティ保存であることを示している。

In this work, we propose a novel two-stage framework, called FaceShifter, for high fidelity and occlusion aware face swapping. Unlike many existing face swapping works that leverage only limited information from the target image when synthesizing the swapped face, our framework, in its first stage, generates the swapped face in high-fidelity by exploiting and integrating the target attributes thoroughly and adaptively. We propose a novel attributes encoder for extracting multi-level target face attributes, and a new generator with carefully designed Adaptive Attentional Denormalization (AAD) layers to adaptively integrate the identity and the attributes for face synthesis. To address the challenging facial occlusions, we append a second stage consisting of a novel Heuristic Error Acknowledging Refinement Network (HEAR-Net). It is trained to recover anomaly regions in a self-supervised way without any manual annotations. Extensive experiments on wild faces demonstrate that our face swapping results are not only considerably more perceptually appealing, but also better identity preserving in comparison to other state-of-the-art methods.
翻訳日:2023-01-16 20:50:03 公開日:2020-09-15
# 空中画像のセマンティックセグメンテーションのためのハイブリッド多重注意ネットワーク

Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images ( http://arxiv.org/abs/2001.02870v3 )

ライセンス: Link先を確認
Ruigang Niu, Xian Sun, Yu Tian, Wenhui Diao, Kaiqiang Chen, Kun Fu(参考訳) 超高解像度(VHR)空中画像におけるセマンティックセグメンテーションは、リモートセンシング画像理解において最も困難な課題の1つである。 現在のアプローチのほとんどは、ディープ畳み込みニューラルネットワーク(DCNN)に基づいている。 しかし、グローバルな依存関係のモデリングでは、ローカルな受容フィールドとの標準の畳み込みは失敗する。 従来の研究では、注意に基づく手法が長距離依存を捉え、より優れた表現のために特徴マップを再構築できることが示されている。 とはいえ、空間的・チャネル的注意と自己注意機構の膨大な計算複雑性に制限されているため、複雑なスペクトルのリモートセンシングデータの画素ペア間の効果的なセマンティック相互依存性をモデル化することは不可能である。 本研究では,空間,チャネル,カテゴリの観点から,より効率的かつ効率的な方法でグローバル相関を適応的に捉えるための,hybrid multiple attention network (hmanet) と呼ばれる新しい注意ベースフレームワークを提案する。 具体的には、クラスチャネルアテンション(CCA)モジュールに埋め込まれたクラス拡張アテンション(CAA)モジュールを使用して、カテゴリベースの相関を計算し、クラスレベルの情報を校正することができる。 さらに,機能的冗長性を低減し,領域表現による自己認識機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを導入する。 ISPRS Vaihingen と Potsdam のベンチマークによる大規模な実験結果は,HMANet の他の最先端手法に対する有効性と効率を実証している。

Semantic segmentation in very high resolution (VHR) aerial images is one of the most challenging tasks in remote sensing image understanding. Most of the current approaches are based on deep convolutional neural networks (DCNNs). However, standard convolution with local receptive fields fails in modeling global dependencies. Prior researches have indicated that attention-based methods can capture long-range dependencies and further reconstruct the feature maps for better representation. Nevertheless, limited by the mere perspective of spacial and channel attention and huge computation complexity of self-attention mechanism, it is unlikely to model the effective semantic interdependencies between each pixel-pair of remote sensing data of complex spectra. In this work, we propose a novel attention-based framework named Hybrid Multiple Attention Network (HMANet) to adaptively capture global correlations from the perspective of space, channel and category in a more effective and efficient manner. Concretely, a class augmented attention (CAA) module embedded with a class channel attention (CCA) module can be used to compute category-based correlation and recalibrate the class-level information. Additionally, we introduce a simple yet effective region shuffle attention (RSA) module to reduce feature redundant and improve the efficiency of self-attention mechanism via region-wise representations. Extensive experimental results on the ISPRS Vaihingen and Potsdam benchmark demonstrate the effectiveness and efficiency of our HMANet over other state-of-the-art methods.
翻訳日:2023-01-13 05:16:07 公開日:2020-09-15
# 非線形光学を用いたUnruh-DeWitt検出器の量子シミュレーション

Quantum simulation of Unruh-DeWitt detectors with nonlinear optics ( http://arxiv.org/abs/2001.04987v3 )

ライセンス: Link先を確認
Eugene Adjei and Kevin J. Resch and Agata M. Bra\'nczyk(参考訳) 我々は,unruh-dewitt検出器を1+1次元マスレススカラー場と結合し,適切に設計した$\chi^{(2)}$非線形相互作用をシミュレートする方法を提案する。 このシミュレーションでは、検出器加速の役割を担うパラメータは、非線形材料内の相対的逆群速度勾配によって行われる。 検出器のエネルギーギャップ,加速度,スイッチング機能をチューニングする実験パラメータを同定する。 このシステムは、時間依存加速度、時間依存検出器エネルギーギャップ、非真空初期検出器フィールド状態をシミュレートすることができる。 さらに、非常に短い材料では、検出器の応答が加速とともに減少する弱い反アンルー効果をシミュレートすることができる。 非線形光学ではいくつかのunruh関連現象が研究されているが、これらの系でunruh-dewitt検出器をシミュレートする最初の提案である。

We propose a method for simulating an Unruh-DeWitt detector, coupled to a 1+1-dimensional massless scalar field, with a suitably-engineered $\chi^{(2)}$ nonlinear interaction. In this simulation, the parameter playing the role of the detector acceleration is played by the relative inverse-group-velocity gradient inside the nonlinear material. We identify experimental parameters that tune the detector energy gap, acceleration, and switching function. This system can simulate time-dependent acceleration, time-dependent detector energy gaps, and non-vacuum initial detector-field states. Furthermore, for very short materials, the system can simulate the weak anti-Unruh effect, in which the response of the detector decreases with acceleration. While some Unruh-related phenomena have been investigated in nonlinear optics, this is the first proposal for simulating an Unruh-DeWitt detector in these systems.
翻訳日:2023-01-11 13:35:07 公開日:2020-09-15
# 画像検索のための深部機能とグローバル機能の統合

Unifying Deep Local and Global Features for Image Search ( http://arxiv.org/abs/2001.05027v4 )

ライセンス: Link先を確認
Bingyi Cao, Andre Araujo, Jack Sim(参考訳) 画像検索は、検索画像に類似した項目の画像データベースを検索する問題である。 この課題に対処するため,グローバル画像とローカル画像の2種類の画像表現が研究されている。 本研究では,グローバルな特徴と局所的な特徴を単一のディープモデルに統合し,効率的な特徴抽出による正確な検索を可能にする。 私たちは新しいモデルをDELGと呼び、Dreep LocalとGlobalの機能を表しています。 我々は,最近の機能学習から得た教訓を活用し,グローバル特徴の一般化平均プーリングと局所特徴の注意的選択を組み合わせたモデルを提案する。 ネットワーク全体は、2つのヘッド間の勾配フローを慎重にバランスさせることで、エンドツーエンドで学習することができる。 また、局所特徴量に対するオートエンコーダに基づく次元性低減手法を導入し、モデルに統合し、トレーニング効率とマッチング性能を改善した。 総合的な実験により、我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。 コードとモデルはhttps://github.com/tensorflow/models/tree/master/research/delfで入手できる。

Image retrieval is the problem of searching an image database for items that are similar to a query image. To address this task, two main types of image representations have been studied: global and local image features. In this work, our key contribution is to unify global and local features into a single deep model, enabling accurate retrieval with efficient feature extraction. We refer to the new model as DELG, standing for DEep Local and Global features. We leverage lessons from recent feature learning work and propose a model that combines generalized mean pooling for global features and attentive selection for local features. The entire network can be learned end-to-end by carefully balancing the gradient flow between two heads -- requiring only image-level labels. We also introduce an autoencoder-based dimensionality reduction technique for local features, which is integrated into the model, improving training efficiency and matching performance. Comprehensive experiments show that our model achieves state-of-the-art image retrieval on the Revisited Oxford and Paris datasets, and state-of-the-art single-model instance-level recognition on the Google Landmarks dataset v2. Code and models are available at https://github.com/tensorflow/models/tree/master/research/delf .
翻訳日:2023-01-11 12:51:30 公開日:2020-09-15
# ボース・アインシュタイン凝縮体を用いた原子ファブリ・ペロ干渉計

An atomic Fabry-Perot interferometer using a pulsed interacting Bose-Einstein condensate ( http://arxiv.org/abs/2001.05206v2 )

ライセンス: Link先を確認
Manju Perumbil, Kyle S Hardman, Paul B Wigley, John D Close, Nicholas P Robins, Stuart S Szigeti(参考訳) 二重ガウス障壁を透過するbose-einstein condensate(bec)源の原子ファブリ・ペロ共鳴を数値的に示す。 これらの共鳴は実験的に実現可能なパラメータ選択のために観測可能であり、二角形バリアシステム上の平面マター波入射の解析モデルを用いて検討した。 実効1次元gross-pitaevskii方程式をシミュレーションし,原子数,散乱長,bec運動量幅が共振透過ピークに及ぼす影響について検討した。 実験可能な運動量幅が0.02 \hbar k_0$ [$k_0 = 2\pi/(780~\text{nm})$] の$^{85}$rb原子源については、コントラストのファブリ・ペロ共鳴伝送ピークが観測可能であることを示す。 a) 10^5$原子の非相互作用BEC b)10^5$原子と$s$波散乱長$a_s=\pm 0.1a_0$[$a_0$ is the Bohr radius]の相互作用 c) 10^3$原子と$a_s=\pm 1.0a_0$との相互作用bec。 我々の理論的研究は、超低温原子源を持つ原子ファブリペロ干渉計の将来の実験的実現に影響を及ぼす。

We numerically demonstrate atomic Fabry-Perot resonances for a pulsed interacting Bose-Einstein condensate (BEC) source transmitting through double Gaussian barriers. These resonances are observable for an experimentally-feasible parameter choice, which we determined using a previously-developed analytical model for a plane matter-wave incident on a double rectangular barrier system. By simulating an effective one-dimensional Gross-Pitaevskii equation, we investigate the effect of atom number, scattering length, and BEC momentum width on the resonant transmission peaks. For $^{85}$Rb atomic sources with the current experimentally-achievable momentum width of $0.02 \hbar k_0$ [$k_0 = 2\pi/(780~\text{nm})$], we show that reasonably high contrast Fabry-Perot resonant transmission peaks can be observed using a) non-interacting BECs of $10^5$ atoms, b) interacting BECs of $10^5$ atoms with $s$-wave scattering lengths $a_s=\pm 0.1a_0$ [$a_0$ is the Bohr radius], and c) interacting BECs of $10^3$ atoms with $a_s=\pm 1.0a_0$. Our theoretical investigation impacts any future experimental realisation of an atomic Fabry-Perot interferometer with an ultracold atomic source.
翻訳日:2023-01-11 07:08:42 公開日:2020-09-15
# duma: 転置思考による理解を読む

DUMA: Reading Comprehension with Transposition Thinking ( http://arxiv.org/abs/2001.09415v5 )

ライセンス: Link先を確認
Pengfei Zhu and Hai Zhao and Xiaoguang Li(参考訳) mrc(multi-choice machine reading comprehension)は、文と質問が与えられたとき、答えの選択肢の集合から正しい答えを決定するモデルを必要とする。 したがって、エンコーダとしての強力な事前学習言語モデル(prlm)に加えて、マルチチョイスmrcは特に、通過、質問、回答の三重項間の関係を効果的に捉えるためのマッチングネットワーク設計に依存している。 より新しく、より強力なPrLMは、マッチングネットワークの支援なしにも、その強みを示してきたが、我々は、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされた、新しい Dual Multi-head Co-Attention (DUMA) モデルを提案する。 提案するDUMAは有効であることが示され,一般にPrLMを促進できる。 提案手法は,DREAM と RACE という2つのベンチマークマルチ選択型 MRC タスクで評価され,強力な PrLM の観点からも,DUMA は新たな最先端性能を実現するためにモデルを強化可能であることを示す。

Multi-choice Machine Reading Comprehension (MRC) requires model to decide the correct answer from a set of answer options when given a passage and a question. Thus in addition to a powerful Pre-trained Language Model (PrLM) as encoder, multi-choice MRC especially relies on a matching network design which is supposed to effectively capture the relationships among the triplet of passage, question and answers. While the newer and more powerful PrLMs have shown their mightiness even without the support from a matching network, we propose a new DUal Multi-head Co-Attention (DUMA) model, which is inspired by human's transposition thinking process solving the multi-choice MRC problem: respectively considering each other's focus from the standpoint of passage and question. The proposed DUMA has been shown effective and is capable of generally promoting PrLMs. Our proposed method is evaluated on two benchmark multi-choice MRC tasks, DREAM and RACE, showing that in terms of powerful PrLMs, DUMA can still boost the model to reach new state-of-the-art performance.
翻訳日:2023-01-06 19:25:34 公開日:2020-09-15
# ノイズ2逆:トモグラフィのための自己教師型深部畳み込み

Noise2Inverse: Self-supervised deep convolutional denoising for tomography ( http://arxiv.org/abs/2001.11801v3 )

ライセンス: Link先を確認
Allard A. Hendriksen, Daniel M. Pelt and K. Joost Batenburg(参考訳) ノイズの多い間接測定から高品質な画像を復元することは、多くのアプリケーションにおいて重要な問題である。 このような逆問題に対して、教師付き深層畳み込みニューラルネットワーク(CNN)に基づく denoising method は強い結果を示しているが、これらの教師付き手法の成功は、同様の測定の高品質なトレーニングデータセットの可用性に大きく依存している。 画像の復調には、2つの異なるピクセルのノイズが非相関であると仮定することで、個別のトレーニングデータセットなしでトレーニングを可能にする方法が利用できる。 しかし、この仮定は逆問題には当てはまらないため、既存の手法によって生成された復号化画像にアーチファクトが生じる。 本稿では,線形画像再構成アルゴリズムのための深層cnnに基づく雑音除去手法である noise2inverse を提案する。 CNNベースのデノイザの訓練は、複数の統計的に独立した再構成を計算するためにノイズモデルを利用する。 本研究では,実測ノイズが要素的に独立かつゼロ平均であると仮定して,そのような学習が実演CNNが得られることを示す理論的枠組みを開発する。 シミュレーションctデータセットでは, ピーク信号対雑音比と構造類似度指数が, 最先端画像の雑音化法や全変動最小化などの従来の再構成法と比較して改善されていることを示す。 また,本手法は実世界の課題実験データセットにおいて,ノイズを著しく低減できることを実証する。

Recovering a high-quality image from noisy indirect measurements is an important problem with many applications. For such inverse problems, supervised deep convolutional neural network (CNN)-based denoising methods have shown strong results, but the success of these supervised methods critically depends on the availability of a high-quality training dataset of similar measurements. For image denoising, methods are available that enable training without a separate training dataset by assuming that the noise in two different pixels is uncorrelated. However, this assumption does not hold for inverse problems, resulting in artifacts in the denoised images produced by existing methods. Here, we propose Noise2Inverse, a deep CNN-based denoising method for linear image reconstruction algorithms that does not require any additional clean or noisy data. Training a CNN-based denoiser is enabled by exploiting the noise model to compute multiple statistically independent reconstructions. We develop a theoretical framework which shows that such training indeed obtains a denoising CNN, assuming the measured noise is element-wise independent and zero-mean. On simulated CT datasets, Noise2Inverse demonstrates an improvement in peak signal-to-noise ratio and structural similarity index compared to state-of-the-art image denoising methods and conventional reconstruction methods, such as Total-Variation Minimization. We also demonstrate that the method is able to significantly reduce noise in challenging real-world experimental datasets.
翻訳日:2023-01-05 05:45:55 公開日:2020-09-15
# ランダム化平滑化による逆行構造摂動に対するコミュニティ検出の認定ロバスト性

Certified Robustness of Community Detection against Adversarial Structural Perturbation via Randomized Smoothing ( http://arxiv.org/abs/2002.03421v2 )

ライセンス: Link先を確認
Jinyuan Jia, Binghui Wang, Xiaoyu Cao, Neil Zhenqiang Gong(参考訳) コミュニティ検出は、グラフ構造を理解する上で重要な役割を果たす。 しかし、近年の研究では、コミュニティ検出は対向構造摂動に弱いことが示されている。 特に、グラフに慎重に選択された少数のエッジを追加または削除することで、攻撃者は検出されたコミュニティを操作できる。 しかし,我々の知る限り,このような対向的構造摂動に対するコミュニティ検出の堅牢性を証明する研究は存在しない。 この作業では、このギャップを埋めることを目指しています。 具体的には, 対向構造摂動に対するコミュニティ検出の信頼性保証を初めて開発した。 任意のコミュニティ検出方法を与えられた場合,グラフ構造をランダムに摂動させることで,新しい平滑化コミュニティ検出手法を構築する。 このスムーズなコミュニティ検出手法は,攻撃者が付加・削除したエッジの数が有界である場合に,任意のノード群を同一のコミュニティ(または異なるコミュニティ)にグループ化する。 さらに、認定された堅牢性は厳密であることを示す。 また,本手法を複数の実世界グラフ上で実験的に評価した。

Community detection plays a key role in understanding graph structure. However, several recent studies showed that community detection is vulnerable to adversarial structural perturbation. In particular, via adding or removing a small number of carefully selected edges in a graph, an attacker can manipulate the detected communities. However, to the best of our knowledge, there are no studies on certifying robustness of community detection against such adversarial structural perturbation. In this work, we aim to bridge this gap. Specifically, we develop the first certified robustness guarantee of community detection against adversarial structural perturbation. Given an arbitrary community detection method, we build a new smoothed community detection method via randomly perturbing the graph structure. We theoretically show that the smoothed community detection method provably groups a given arbitrary set of nodes into the same community (or different communities) when the number of edges added/removed by an attacker is bounded. Moreover, we show that our certified robustness is tight. We also empirically evaluate our method on multiple real-world graphs with ground truth communities.
翻訳日:2023-01-02 15:02:27 公開日:2020-09-15
# PDDLGym:PDDL問題からのガイム環境

PDDLGym: Gym Environments from PDDL Problems ( http://arxiv.org/abs/2002.06432v2 )

ライセンス: Link先を確認
Tom Silver and Rohan Chitnis(参考訳) PDDLGymはPDDLドメインと問題からOpenAI Gym環境を自動的に構築するフレームワークである。 pddlgymの観察と行動はリレーショナルであり、このフレームワークはリレーショナル強化学習とリレーショナルシーケンシャルな意思決定の研究に特に適している。 PDDLGymは簡潔で使い慣れた仕様言語から様々なベンチマークを迅速に構築するための汎用フレームワークとしても有用である。 設計決定と実装の詳細を議論し,計画とモデル学習の難易度の観点から20の組込み環境間の経験的変動を例示する。 我々は、PDDLGymが強化学習コミュニティ(Gymが誕生した)とAI計画コミュニティ(PDDLを作成した)の間の橋渡しを促進することを期待している。 興味のある人たちからフィードバックを集め、それに応じて利用可能な環境と機能セットを拡大することを楽しみにしています。 コード: https://github.com/tomsilver/pddlgym

We present PDDLGym, a framework that automatically constructs OpenAI Gym environments from PDDL domains and problems. Observations and actions in PDDLGym are relational, making the framework particularly well-suited for research in relational reinforcement learning and relational sequential decision-making. PDDLGym is also useful as a generic framework for rapidly building numerous, diverse benchmarks from a concise and familiar specification language. We discuss design decisions and implementation details, and also illustrate empirical variations between the 20 built-in environments in terms of planning and model-learning difficulty. We hope that PDDLGym will facilitate bridge-building between the reinforcement learning community (from which Gym emerged) and the AI planning community (which produced PDDL). We look forward to gathering feedback from all those interested and expanding the set of available environments and features accordingly. Code: https://github.com/tomsilver/pddlgym
翻訳日:2022-12-31 23:10:58 公開日:2020-09-15
# UniVL:マルチモーダル理解と生成のための統合ビデオおよび言語事前学習モデル

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation ( http://arxiv.org/abs/2002.06353v3 )

ライセンス: Link先を確認
Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Jason Li, Taroon Bharti, Ming Zhou(参考訳) 最近のNLPおよび画像言語タスクの事前学習技術の成功により、ビデオテキスト関連下流タスクを改善するために、ビデオ言語事前学習作業が徐々に発展していく。 しかし、既存のマルチモーダルモデルのほとんどは理解タスクのために事前訓練されているため、生成タスクに対する事前訓練ファイントゥン差が生じている。 本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。 video-text joint, conditioned masked language model (cmlm), conditioned masked frame model (cmfm), video-text alignment, language reconstructionの5つの目的がそれぞれのコンポーネントをトレーニングするために設計されている。 さらに、ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。 プリトレインは、大容量のインストラクショナルビデオデータセットHowTo100Mで実行される。 実験の結果、UniVLは強力なビデオテキスト表現を学習し、5つの下流タスクで最先端の結果を得ることができた。

With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.
翻訳日:2022-12-31 22:43:17 公開日:2020-09-15
# 『あなたは土台にいる!』:事前訓練された言語モデルにおける潜在名前アーティファクト

"You are grounded!": Latent Name Artifacts in Pre-trained Language Models ( http://arxiv.org/abs/2004.03012v2 )

ライセンス: Link先を確認
Vered Shwartz, Rachel Rudinger, and Oyvind Tafjord(参考訳) 事前学習言語モデル(LM)は、トレーニングコーパスから下流モデルへのバイアスを持続させる可能性がある。 私たちは、次のトークン予測(例えば、トランプ)で示されるように、コーパスによって特定のエンティティに関連付けられる可能性がある所定の名前(例えばドナルド)の表現に関連するアーティファクトに焦点を当てます。 いくつかの文脈では役立つが、接地は不特定または不適切な文脈でも起こる。 例えば、'Donald is a'の語尾は他の名前の語尾とは大きく異なり、しばしば平均的な否定的な感情を持つ。 名前の摂動がモデルの答えを変えるような理解プローブを読み取ることで、下流タスクに潜在的な効果を示す。 銀の裏打ちとして、異なるコーパスで追加の事前訓練を行うことで、このバイアスが軽減される可能性が示唆された。

Pre-trained language models (LMs) may perpetuate biases originating in their training corpus to downstream models. We focus on artifacts associated with the representation of given names (e.g., Donald), which, depending on the corpus, may be associated with specific entities, as indicated by next token prediction (e.g., Trump). While helpful in some contexts, grounding happens also in under-specified or inappropriate contexts. For example, endings generated for `Donald is a' substantially differ from those of other names, and often have more-than-average negative sentiment. We demonstrate the potential effect on downstream tasks with reading comprehension probes where name perturbation changes the model answers. As a silver lining, our experiments suggest that additional pre-training on different corpora may mitigate this bias.
翻訳日:2022-12-16 06:45:42 公開日:2020-09-15
# セルフトークによる教師なしコモンセンス質問応答

Unsupervised Commonsense Question Answering with Self-Talk ( http://arxiv.org/abs/2004.05483v2 )

ライセンス: Link先を確認
Vered Shwartz, Peter West, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi(参考訳) 自然言語理解は暗黙の背景知識を持つ行間を読むことを伴う。 現在のシステムは、世界知識の唯一の暗黙の源として事前訓練された言語モデルに依存するか、または追加の関連する知識を組み込むために外部知識ベース(KB)を利用する。 本稿では,マルチチョイス・コモンセンスタスクの代替として,セルフトークに基づく教師なしフレームワークを提案する。 調査に基づく発見学習(Bruner, 1961)に触発されて,我々のアプローチは,"$\textit{what is the definition of ...}$"など,多くの情報を求める言語モデルを用いて,新たな背景知識の発見を行う。 実験の結果,6つのcommonsenseベンチマークのうち4つにおいて,ゼロショット言語モデルのベースラインの性能が大幅に向上し,外部kbから知識を得るモデルと競合することがわかった。 提案手法は,いくつかのベンチマークの性能向上に寄与するが,正しい回答を導いた場合でも,自己学習による知識が必ずしも人間の判断に有用であるとは限らない。

Natural language understanding involves reading between the lines with implicit background knowledge. Current systems either rely on pre-trained language models as the sole implicit source of world knowledge, or resort to external knowledge bases (KBs) to incorporate additional relevant knowledge. We propose an unsupervised framework based on self-talk as a novel alternative to multiple-choice commonsense tasks. Inspired by inquiry-based discovery learning (Bruner, 1961), our approach inquires language models with a number of information seeking questions such as "$\textit{what is the definition of ...}$" to discover additional background knowledge. Empirical results demonstrate that the self-talk procedure substantially improves the performance of zero-shot language model baselines on four out of six commonsense benchmarks, and competes with models that obtain knowledge from external KBs. While our approach improves performance on several benchmarks, the self-talk induced knowledge even when leading to correct answers is not always seen as useful by human judges, raising interesting questions about the inner-workings of pre-trained language models for commonsense reasoning.
翻訳日:2022-12-14 12:40:15 公開日:2020-09-15
# ドラゴンの追跡方法:リアルタイムRGB-D 6-DOFオブジェクト追跡のためのマルチアテンショナルフレームワーク

How to track your dragon: A Multi-Attentional Framework for real-time RGB-D 6-DOF Object Pose Tracking ( http://arxiv.org/abs/2004.10335v3 )

ライセンス: Link先を確認
Isidoros Marougkas, Petros Koutras, Nikos Kardaris, Georgios Retsinas, Georgia Chalvatzaki, and Petros Maragos(参考訳) 本稿では,実時間rgb-d 6dオブジェクトポーズ追跡問題に取り組むための,新しいマルチタッチ畳み込みアーキテクチャを提案する。 このような問題は、オブジェクトの性質と、それ以前のアプローチが完全に対処できなかった環境との相互作用の両方から生じる複数の課題を引き起こす。 提案フレームワークは,マルチタスク畳み込みニューラルネットワーク(CNN)アーキテクチャに複数のソフト空間アテンションモジュールを統合することで,背景クラッタとオクルージョン処理の手法をカプセル化する。 さらに、物体の3次元モデルとポーズ空間の両方の特殊幾何学的性質を考察し、トレーニング中にデータ拡張のためにより洗練されたアプローチを用いる。 提案したマルチアテンショナルアーキテクチャの有効性は,RGB-Dオブジェクトトラッキングの問題に対して,これまで設計された最も完全なデータセット上でテストされた場合,平均34.03%,回転40.01%のスコアで,SoA(State-of-the-Art)トラッキング性能を向上させることによって確認された。

We present a novel multi-attentional convolutional architecture to tackle the problem of real-time RGB-D 6D object pose tracking of single, known objects. Such a problem poses multiple challenges originating both from the objects' nature and their interaction with their environment, which previous approaches have failed to fully address. The proposed framework encapsulates methods for background clutter and occlusion handling by integrating multiple parallel soft spatial attention modules into a multitask Convolutional Neural Network (CNN) architecture. Moreover, we consider the special geometrical properties of both the object's 3D model and the pose space, and we use a more sophisticated approach for data augmentation during training. The provided experimental results confirm the effectiveness of the proposed multi-attentional architecture, as it improves the State-of-the-Art (SoA) tracking performance by an average score of 34.03% for translation and 40.01% for rotation, when tested on the most complete dataset designed, up to date,for the problem of RGB-D object tracking.
翻訳日:2022-12-11 07:14:02 公開日:2020-09-15
# 動的トラベリングティフ問題:進化的アルゴリズムのベンチマークと性能

The Dynamic Travelling Thief Problem: Benchmarks and Performance of Evolutionary Algorithms ( http://arxiv.org/abs/2004.12045v3 )

ライセンス: Link先を確認
Ragav Sachdeva, Frank Neumann, Markus Wagner(参考訳) 実世界の最適化問題の多くは動的および確率的要素を含む。 複数の相互作用するコンポーネントの問題は、サプライチェーンの最適化やロジスティクスといった本質的に動的領域において一様であるが、動的問題に関するほとんどの研究は単成分問題に焦点を当てている。 本稿では,サブコンポーネントへの動的変更の影響を研究するために,旅行泥棒問題に基づくシナリオをいくつか定義する。 72のシナリオと7つのアルゴリズムを調査した結果、 – インスタンス、変更の規模、ポートフォリオ内のアルゴリズムによって -- 最適化をゼロから再開するか、あるいは以前有効だったソリューションを継続することが望ましいことが分かりました。

Many real-world optimisation problems involve dynamic and stochastic components. While problems with multiple interacting components are omnipresent in inherently dynamic domains like supply-chain optimisation and logistics, most research on dynamic problems focuses on single-component problems. With this article, we define a number of scenarios based on the Travelling Thief Problem to enable research on the effect of dynamic changes to sub-components. Our investigations of 72 scenarios and seven algorithms show that -- depending on the instance, the magnitude of the change, and the algorithms in the portfolio -- it is preferable to either restart the optimisation from scratch or to continue with the previously valid solutions.
翻訳日:2022-12-09 21:25:24 公開日:2020-09-15
# リプシッツ境界を用いたロバストニューラルネットワークのトレーニング

Training robust neural networks using Lipschitz bounds ( http://arxiv.org/abs/2005.02929v2 )

ライセンス: Link先を確認
Patricia Pauli, Anne Koch, Julian Berberich, Paul Kohler, Frank Allg\"ower(参考訳) 敵の摂動に対する感受性のため、ニューラルネットワーク(NN)は安全クリティカルなアプリケーションではほとんど使われない。 入力におけるそのような摂動に対するロバスト性の1つの尺度は、NNによって定義される入出力マップのリプシッツ定数である。 本研究では,多層nnを訓練する枠組みを提案すると同時に,リプシッツ定数を小さくすることでロバスト性を促進することにより,ロバスト性問題に対処する。 より具体的には、NNのトレーニング損失だけでなく、リプシッツ定数も最小限に抑えたマルチプライヤの交互方向法に基づく最適化スキームを設計し、ロバスト性を促進する半定プログラミングベースのトレーニング手順を提案する。 この訓練手順の2つのバージョンを設計する。 1つ目は、リプシッツ定数の正確な上界を罰する正則化器を含む。 2つ目は、トレーニング中に常にNNに望ましいリプシッツを強制することである。 最後に,提案フレームワークがNNのロバスト性を高めたことを示す2つの例を示す。

Due to their susceptibility to adversarial perturbations, neural networks (NNs) are hardly used in safety-critical applications. One measure of robustness to such perturbations in the input is the Lipschitz constant of the input-output map defined by an NN. In this work, we propose a framework to train multi-layer NNs while at the same time encouraging robustness by keeping their Lipschitz constant small, thus addressing the robustness issue. More specifically, we design an optimization scheme based on the Alternating Direction Method of Multipliers that minimizes not only the training loss of an NN but also its Lipschitz constant resulting in a semidefinite programming based training procedure that promotes robustness. We design two versions of this training procedure. The first one includes a regularizer that penalizes an accurate upper bound on the Lipschitz constant. The second one allows to enforce a desired Lipschitz bound on the NN at all times during training. Finally, we provide two examples to show that the proposed framework successfully increases the robustness of NNs.
翻訳日:2022-12-06 05:23:03 公開日:2020-09-15
# S2IGAN: 逆学習による音声対画像生成

S2IGAN: Speech-to-Image Generation via Adversarial Learning ( http://arxiv.org/abs/2005.06968v2 )

ライセンス: Link先を確認
Xinsheng Wang, Tingting Qiao, Jihua Zhu, Alan Hanjalic, Odette Scharenborg(参考訳) 世界の言語の半分は書式を持っておらず、これらの言語が既存のテキストベースの技術から恩恵を受けることは不可能である。 本稿では,テキスト情報を用いずに音声記述をフォトリアリスティックな画像に変換するs2ig( speech-to-image generation)フレームワークを提案する。 提案するS2IGフレームワークは、S2IGANと呼ばれ、音声埋め込みネットワーク(SEN)と、関係教師付き密集型生成モデル(RDG)から構成される。 センは対応する視覚情報の監督の下で音声埋め込みを学ぶ。 提案したRDGは,SENによる音声埋め込みに基づいて,対応する音声記述と意味的に一致した画像を合成する。 CUBとOxford-102の2つの公開ベンチマークデータセットに対する大規模な実験は、提案したS2IGANが音声信号から高品質でセマンティックに一貫性のある画像を合成し、良好な性能とS2IGタスクのベースラインが得られることを示す。

An estimated half of the world's languages do not have a written form, making it impossible for these languages to benefit from any existing text-based technologies. In this paper, a speech-to-image generation (S2IG) framework is proposed which translates speech descriptions to photo-realistic images without using any text information, thus allowing unwritten languages to potentially benefit from this technology. The proposed S2IG framework, named S2IGAN, consists of a speech embedding network (SEN) and a relation-supervised densely-stacked generative model (RDG). SEN learns the speech embedding with the supervision of the corresponding visual information. Conditioned on the speech embedding produced by SEN, the proposed RDG synthesizes images that are semantically consistent with the corresponding speech descriptions. Extensive experiments on two public benchmark datasets CUB and Oxford-102 demonstrate the effectiveness of the proposed S2IGAN on synthesizing high-quality and semantically-consistent images from the speech signal, yielding a good performance and a solid baseline for the S2IG task.
翻訳日:2022-12-03 04:12:34 公開日:2020-09-15
# 計算・統計の不均一性を考慮した連合型モバイルデバイスの効率的なスケジューリングに向けて

Towards Efficient Scheduling of Federated Mobile Devices under Computational and Statistical Heterogeneity ( http://arxiv.org/abs/2005.12326v2 )

ライセンス: Link先を確認
Cong Wang, Yuanyuan Yang and Pengzhan Zhou(参考訳) 分散学習から生まれたfederated learningは,モデルパラメータのみを共有することで,新たな抽象化レベルでのプライバシ保護コラボレーションを可能にする。 現在の研究は主に、学習アルゴリズムの最適化と分散学習による通信オーバーヘッドの最小化に重点を置いているが、モバイルデバイスにおける実際の実装に関してはまだ大きなギャップがある。 本稿では,次世代のバッテリ駆動型モバイルデバイスにおける通信よりも,計算の不均一性の方が明らかなボトルネックであることを示す実証実験を行い,既存の手法はモバイルストラグラーに悩まされる。 さらに,モバイルユーザ間での非識別的分散データにより,参加者の選択が精度と収束性に極めて重要である。 計算的および統計的不均一性に対処するために、チューニングノブとしてデータを使用し、データを同一あるいは同一に分散した場合に、様々なモバイルデバイス上で異なるワークロードをスケジュールする2つの効率的な多項式時間アルゴリズムを提案する。 同一分散データに対して、分割と線形ボトルネック割り当てを組み合わせて、ほぼ最適トレーニング時間を精度損失なく達成する。 非特定分散データの場合、平均コスト最小化問題に変換し、計算時間と精度の合理的なバランスを見つけるための欲望アルゴリズムを提案する。 また,スケジューリングアルゴリズムの入力として機能する,異なるデバイスの実行動作を定量化するオフラインプロファイラも構築した。 2つのデータセットと最大20台のデバイスで,モバイルテストベッド上で広範な実験を行う。 一般的なベンチマークと比較すると,提案アルゴリズムは2-100倍の高速化,2-7%の精度向上を実現し,CIFAR10上での収束率を100%以上向上する。

Originated from distributed learning, federated learning enables privacy-preserved collaboration on a new abstracted level by sharing the model parameters only. While the current research mainly focuses on optimizing learning algorithms and minimizing communication overhead left by distributed learning, there is still a considerable gap when it comes to the real implementation on mobile devices. In this paper, we start with an empirical experiment to demonstrate computation heterogeneity is a more pronounced bottleneck than communication on the current generation of battery-powered mobile devices, and the existing methods are haunted by mobile stragglers. Further, non-identically distributed data across the mobile users makes the selection of participants critical to the accuracy and convergence. To tackle the computational and statistical heterogeneity, we utilize data as a tuning knob and propose two efficient polynomial-time algorithms to schedule different workloads on various mobile devices, when data is identically or non-identically distributed. For identically distributed data, we combine partitioning and linear bottleneck assignment to achieve near-optimal training time without accuracy loss. For non-identically distributed data, we convert it into an average cost minimization problem and propose a greedy algorithm to find a reasonable balance between computation time and accuracy. We also establish an offline profiler to quantify the runtime behavior of different devices, which serves as the input to the scheduling algorithms. We conduct extensive experiments on a mobile testbed with two datasets and up to 20 devices. Compared with the common benchmarks, the proposed algorithms achieve 2-100x speedup epoch-wise, 2-7% accuracy gain and boost the convergence rate by more than 100% on CIFAR10.
翻訳日:2022-11-29 05:48:39 公開日:2020-09-15
# METASET:データ駆動型メタマテリアル設計のための形状と特性空間の探索

METASET: Exploring Shape and Property Spaces for Data-Driven Metamaterials Design ( http://arxiv.org/abs/2006.02142v3 )

ライセンス: Link先を確認
Yu-Chin Chan, Faez Ahmed, Liwei Wang, Wei Chen(参考訳) メカニカルメタマテリアルのデータ駆動設計は、高価な物理シミュレーションと膨大な、しばしば難解な幾何学的設計空間と戦うためにますます普及している手法である。 プリ計算された単位セルのデータセットを使用して、組合せ探索アルゴリズムによって、マルチスケール構造を迅速に満たし、そのプロセスを加速するために機械学習モデルを訓練することができる。 しかし、データへの依存は、ユニークな課題を招き、特定の形状や物理的性質を多く含む不均衡データセットは、データ駆動アプローチの有効性を損なう可能性がある。 答えとして、より小さく多様なユニットセルの集合は、スケーラブルな検索と偏りのない学習につながると仮定する。 このようなサブセットを選択するために、我々はmetasetを提案します。 1)類似度測定値と正半定核を用いて、形状と特性空間の両方における単位細胞の近接度を共同測定し、 2) 効率的なサブセット選択のために決定点プロセスを導入する。 さらにMETASETは、形状とプロパティの多様性のトレードオフを可能にし、サブセットを様々なアプリケーション向けに調整することができる。 目的の変位プロファイルを持つ2次元メタマテリアルの設計を通じて、より小型で多様なサブセットが実際に探索プロセスと構造性能を向上できることを示す。 対称性の規則で生成された3次元単位セルのデータセットに固有の重なりを取り除くことにより、我々のフレキシブルな手法は、使用する計量に関係なく、独自の部分集合を蒸留できることを示す。 私たちの多様なサブセットは、デザイナが使用するために公開されています。

Data-driven design of mechanical metamaterials is an increasingly popular method to combat costly physical simulations and immense, often intractable, geometrical design spaces. Using a precomputed dataset of unit cells, a multiscale structure can be quickly filled via combinatorial search algorithms, and machine learning models can be trained to accelerate the process. However, the dependence on data induces a unique challenge: An imbalanced dataset containing more of certain shapes or physical properties can be detrimental to the efficacy of data-driven approaches. In answer, we posit that a smaller yet diverse set of unit cells leads to scalable search and unbiased learning. To select such subsets, we propose METASET, a methodology that 1) uses similarity metrics and positive semi-definite kernels to jointly measure the closeness of unit cells in both shape and property spaces, and 2) incorporates Determinantal Point Processes for efficient subset selection. Moreover, METASET allows the trade-off between shape and property diversity so that subsets can be tuned for various applications. Through the design of 2D metamaterials with target displacement profiles, we demonstrate that smaller, diverse subsets can indeed improve the search process as well as structural performance. By eliminating inherent overlaps in a dataset of 3D unit cells created with symmetry rules, we also illustrate that our flexible method can distill unique subsets regardless of the metric employed. Our diverse subsets are provided publicly for use by any designer.
翻訳日:2022-11-26 06:49:20 公開日:2020-09-15
# ドロップアウト不確実性のあるASRシステムにおけるオーディオアタックの検出

Detecting Audio Attacks on ASR Systems with Dropout Uncertainty ( http://arxiv.org/abs/2006.01906v2 )

ライセンス: Link先を確認
Tejas Jayashankar, Jonathan Le Roux, Pierre Moulin(参考訳) 音声認識システム(asr)を騙すために、様々な逆オーディオ攻撃が最近開発されている。 本稿では,ニューラルネットワークのドロップアウトによる不確実性に基づく攻撃に対する防御を提案する。 我々の防御は、最先端のasrシステム上で最適化された摂動と周波数マスキングによって生成される攻撃を検知できることを示します。 さらに、ノイズ低減に免疫のある攻撃に対して、防御を堅牢にすることができる。 我々は、MozillaのCommonVoiceデータセット、UrbanSoundデータセット、およびLibriSpeechデータセットの抜粋に対する防御をテストする。

Various adversarial audio attacks have recently been developed to fool automatic speech recognition (ASR) systems. We here propose a defense against such attacks based on the uncertainty introduced by dropout in neural networks. We show that our defense is able to detect attacks created through optimized perturbations and frequency masking on a state-of-the-art end-to-end ASR system. Furthermore, the defense can be made robust against attacks that are immune to noise reduction. We test our defense on Mozilla's CommonVoice dataset, the UrbanSound dataset, and an excerpt of the LibriSpeech dataset, showing that it achieves high detection accuracy in a wide range of scenarios.
翻訳日:2022-11-26 00:21:04 公開日:2020-09-15
# 整数制約を満たすサロゲートモデルを用いたブラックボックス混合変数最適化

Black-box Mixed-Variable Optimisation using a Surrogate Model that Satisfies Integer Constraints ( http://arxiv.org/abs/2006.04508v2 )

ライセンス: Link先を確認
Laurens Bliek, Arthur Guijt, Sicco Verwer, Mathijs de Weerdt(参考訳) 工学と計算機科学の両方において難しい問題は、数学的な定式化ができない関数を最小化することであり、評価に費用がかかり、例えば自動アルゴリズムの構成のように連続変数と整数変数を含むことである。 代理型アルゴリズムはこの種の問題に非常に適しているが、既存のほとんどの手法は連続変数や離散変数のみを念頭に設計されている。 Mixed-Variable ReLU-based Surrogate Modelling (MVRSM) は、(局所的な)最適化が整数制約を満たすように定義された正則線形単位の線形結合を利用するサロゲートベースのアルゴリズムである。 この手法は、最大238の連続変数と整数変数を持つ複数の合成ベンチマークの技術を上回り、xgboostハイパーパラメータチューニングと静電沈降器最適化の2つの実寿命ベンチマークで競合性能を達成する。

A challenging problem in both engineering and computer science is that of minimising a function for which we have no mathematical formulation available, that is expensive to evaluate, and that contains continuous and integer variables, for example in automatic algorithm configuration. Surrogate-based algorithms are very suitable for this type of problem, but most existing techniques are designed with only continuous or only discrete variables in mind. Mixed-Variable ReLU-based Surrogate Modelling (MVRSM) is a surrogate-based algorithm that uses a linear combination of rectified linear units, defined in such a way that (local) optima satisfy the integer constraints. This method outperforms the state of the art on several synthetic benchmarks with up to 238 continuous and integer variables, and achieves competitive performance on two real-life benchmarks: XGBoost hyperparameter tuning and Electrostatic Precipitator optimisation.
翻訳日:2022-11-24 01:26:39 公開日:2020-09-15
# LAMP:イメージセグメンテーションのためのモデル並列性自動化による大規模ディープネット

LAMP: Large Deep Nets with Automated Model Parallelism for Image Segmentation ( http://arxiv.org/abs/2006.12575v3 )

ライセンス: Link先を確認
Wentao Zhu, Can Zhao, Wenqi Li, Holger Roth, Ziyue Xu, Daguang Xu(参考訳) ディープラーニング(DL)モデルは、モデルサイズの増加が大幅な精度向上をもたらす可能性があるため、大きくなりつつある。 大規模ディープネットワークのトレーニングを可能にするために、データ並列処理とモデル並列処理は、並列トレーニングでよく知られた2つのアプローチである。 しかし、データの並列処理はデバイスごとのメモリフットプリントを減らすのに役立たない。 本研究では,LAMP(Large Deep 3D ConvNets with Automated Model Parallelism)を導入し,入力と深部3D ConvNetsのサイズがセグメンテーション精度に与える影響について検討する。 自動モデル並列化により、画像全体でさえも大きな入力パッチで大きな3D ConvNetをトレーニングすることが可能である。 広範囲な実験により、自動モデル並列化により、モデルサイズと入力コンテキストサイズを増加させることで、セグメンテーション精度が向上し、大きな入力は推論の小さなパッチのスライディングウィンドウに比べて大きな推論スピードアップをもたらすことが示されている。 コードは"footnote{https://monai.io/research/lamp-automated-model-parallelism}"である。

Deep Learning (DL) models are becoming larger, because the increase in model size might offer significant accuracy gain. To enable the training of large deep networks, data parallelism and model parallelism are two well-known approaches for parallel training. However, data parallelism does not help reduce memory footprint per device. In this work, we introduce Large deep 3D ConvNets with Automated Model Parallelism (LAMP) and investigate the impact of both input's and deep 3D ConvNets' size on segmentation accuracy. Through automated model parallelism, it is feasible to train large deep 3D ConvNets with a large input patch, even the whole image. Extensive experiments demonstrate that, facilitated by the automated model parallelism, the segmentation accuracy can be improved through increasing model size and input context size, and large input yields significant inference speedup compared with sliding window of small patches in the inference. Code is available\footnote{https://monai.io/research/lamp-automated-model-parallelism}.
翻訳日:2022-11-18 04:18:27 公開日:2020-09-15
# リスクに敏感な強化学習:不確実性に対するmartingaleアプローチ

Risk-Sensitive Reinforcement Learning: a Martingale Approach to Reward Uncertainty ( http://arxiv.org/abs/2006.12686v2 )

ライセンス: Link先を確認
Nelson Vadori and Sumitra Ganesh and Prashant Reddy and Manuela Veloso(参考訳) 逐次意思決定問題における不確実性に対する感性を考慮した新しい枠組みを提案する。 これまでに研究されているマルコフ決定過程のリスクに敏感な定式化は累積報酬全体の分布に焦点をあてるが、我々は、概念的に有意義であるという利点を持つ報酬の不確実かつ統計的性質に敏感な政策を学ぶことを目的としている。 この目的のために,確率過程のDoob分解に基づく累積報酬に含まれるランダム性の新たな分解を提案し,累積報酬過程に関連するマーチンゲール成分のリスク尺度として厳密に解釈できる新しい概念ツールである「textit{chaotic variation}」を紹介した。 我々は、ポリシー勾配と価値関数に基づくモデルフリーアルゴリズムにこの新たなリスクに敏感なアプローチを取り入れ、グリッドの世界とポートフォリオ最適化問題との関連性を説明することで、強化学習の側面を革新する。

We introduce a novel framework to account for sensitivity to rewards uncertainty in sequential decision-making problems. While risk-sensitive formulations for Markov decision processes studied so far focus on the distribution of the cumulative reward as a whole, we aim at learning policies sensitive to the uncertain/stochastic nature of the rewards, which has the advantage of being conceptually more meaningful in some cases. To this end, we present a new decomposition of the randomness contained in the cumulative reward based on the Doob decomposition of a stochastic process, and introduce a new conceptual tool - the \textit{chaotic variation} - which can rigorously be interpreted as the risk measure of the martingale component associated to the cumulative reward process. We innovate on the reinforcement learning side by incorporating this new risk-sensitive approach into model-free algorithms, both policy gradient and value function based, and illustrate its relevance on grid world and portfolio optimization problems.
翻訳日:2022-11-17 22:35:52 公開日:2020-09-15
# 4S-DT:トランスファー学習のための自己監督型スーパーサンプル分解と新型コロナウイルス検出への応用

4S-DT: Self Supervised Super Sample Decomposition for Transfer learning with application to COVID-19 detection ( http://arxiv.org/abs/2007.11450v2 )

ライセンス: Link先を確認
Asmaa Abbas, Mohammed M. Abdelsamea, and Mohamed Gaber(参考訳) 大規模アノテート画像データセットの高可用性のため,事前学習モデルからの知識伝達は医用画像分類において優れた性能を示した。 しかし、データ不規則や不均衡なクラスを持つデータセットに対する堅牢な画像分類モデルを構築することは、特に医療画像領域において非常に難しい課題である。 本稿では,新しい深層畳み込みニューラルネットワークであるSelf Supervised Super Sample Decomposition for Transfer Learning (4S-DT)モデルを提案する。 4S-DTは,大規模画像認識タスクから胸部X線画像分類タスクへの粗大な伝達学習を,汎用的な自己監督型サンプル分解手法を用いて促進する。 本研究の主な貢献は,胸部X線像の超解像による自己監督学習機構である。 4s-dtは,クラス分解層を用いた下流学習戦略による知識変換の堅牢性向上を支援し,データの局所構造を簡素化する。 4S-DTは、下流のクラス分解機構を使用して、そのクラス境界を調べることで、イメージデータセットの異常に対処できる。 約5万枚の胸部x線画像を用いて、新型コロナウイルス(covid-19)検出への応用を例に挙げた。 4S-DTの精度は99.8%(95% CI: 99.44%, 99.98%)で、大規模なデータセット上でのCOVID-19感染者の検出には97.54%(95%$ CI: 96.22%, 98.91%)の精度が達成されている。

Due to the high availability of large-scale annotated image datasets, knowledge transfer from pre-trained models showed outstanding performance in medical image classification. However, building a robust image classification model for datasets with data irregularity or imbalanced classes can be a very challenging task, especially in the medical imaging domain. In this paper, we propose a novel deep convolutional neural network, we called Self Supervised Super Sample Decomposition for Transfer learning (4S-DT) model. 4S-DT encourages a coarse-to-fine transfer learning from large-scale image recognition tasks to a specific chest X-ray image classification task using a generic self-supervised sample decomposition approach. Our main contribution is a novel self-supervised learning mechanism guided by a super sample decomposition of unlabelled chest X-ray images. 4S-DT helps in improving the robustness of knowledge transformation via a downstream learning strategy with a class-decomposition layer to simplify the local structure of the data. 4S-DT can deal with any irregularities in the image dataset by investigating its class boundaries using a downstream class-decomposition mechanism. We used 50,000 unlabelled chest X-ray images to achieve our coarse-to-fine transfer learning with an application to COVID-19 detection, as an exemplar. 4S-DT has achieved a high accuracy of 99.8% (95% CI: 99.44%, 99.98%) in the detection of COVID-19 cases on a large dataset and an accuracy of 97.54% (95%$ CI: 96.22%, 98.91%) on an extended test set enriched by augmented images of a small dataset, out of which all real COVID-19 cases were detected, which was the highest accuracy obtained when compared to other methods.
翻訳日:2022-11-16 21:50:13 公開日:2020-09-15
# 正確な心臓運動推定のための運動ピラミッドネットワーク

Motion Pyramid Networks for Accurate and Efficient Cardiac Motion Estimation ( http://arxiv.org/abs/2006.15710v3 )

ライセンス: Link先を確認
Hanchao Yu, Xiao Chen, Humphrey Shi, Terrence Chen, Thomas S. Huang, Shanhui Sun(参考訳) 心臓運動推定は、mriの心機能追跡や心筋ひずみなどの機能評価において重要な役割を果たす。 本稿では,心臓の運動推定を高精度かつ効率的に行うための,ディープラーニングに基づく新しいアプローチであるMotion Pyramid Networksを提案する。 我々は複数の特徴表現から運動場のピラミッドを予測・融合し、より洗練された運動場を生成する。 そこで我々は,新しい循環型教員教育戦略を用いて,推論をエンドツーエンドにし,トラッキング性能をさらに向上させる。 教師モデルは,プログレッシブモーション補償を通じて,より正確な動作推定を行う。 生徒モデルは,教師モデルから学習し,精度を維持しながら1ステップで動作を推定する。 教師/学生の知識蒸留は、さらなる性能向上のために循環的に行われる。 提案手法は, さまざまな指標と推定時間によって評価された2つの臨床データセットにおいて, 強力なベースラインモデルを上回る。 臨床的に有意義な方法でエラーを表現するために、新しい評価指標も提案されている。

Cardiac motion estimation plays a key role in MRI cardiac feature tracking and function assessment such as myocardium strain. In this paper, we propose Motion Pyramid Networks, a novel deep learning-based approach for accurate and efficient cardiac motion estimation. We predict and fuse a pyramid of motion fields from multiple scales of feature representations to generate a more refined motion field. We then use a novel cyclic teacher-student training strategy to make the inference end-to-end and further improve the tracking performance. Our teacher model provides more accurate motion estimation as supervision through progressive motion compensations. Our student model learns from the teacher model to estimate motion in a single step while maintaining accuracy. The teacher-student knowledge distillation is performed in a cyclic way for a further performance boost. Our proposed method outperforms a strong baseline model on two public available clinical datasets significantly, evaluated by a variety of metrics and the inference time. New evaluation metrics are also proposed to represent errors in a clinically meaningful manner.
翻訳日:2022-11-16 02:33:32 公開日:2020-09-15
# 非盲検画像のエンドツーエンド解釈学習

End-to-end Interpretable Learning of Non-blind Image Deblurring ( http://arxiv.org/abs/2007.01769v2 )

ライセンス: Link先を確認
Thomas Eboli, Jian Sun, Jean Ponce(参考訳) 非ブラインド画像の退化は、通常、対応するシャープ画像の勾配に関する自然の先行によって正規化される線形最小二乗問題として定式化され、例えば、最小二乗更新のためにリチャードソン固定点反復による半四分法分割法と、補助変数更新のための近似演算子を用いて解決することができる。 我々は(既知の)ぼやけの近似逆フィルタと自然画像先行カーネルを用いてリチャードソン解法を前提条件として提案する。 汎用線形プリコンディショナーの代わりに畳み込みを用いることで、画像全体で非常に効率的なパラメータ共有が可能となり、従来のfftや共役勾配法に比べて精度や速度が著しく向上する。 さらに,提案アーキテクチャは,CNN埋め込みを用いたプレコンディショナと近位演算子の両方の学習に容易に適応できる。 これは、完全に解釈可能で、エンドツーエンドで学習可能であり、非一様の場合において、精度が芸術の状態と一致するか、はるかに上回っている非盲検画像分解のための単純で効率的なアルゴリズムである。

Non-blind image deblurring is typically formulated as a linear least-squares problem regularized by natural priors on the corresponding sharp picture's gradients, which can be solved, for example, using a half-quadratic splitting method with Richardson fixed-point iterations for its least-squares updates and a proximal operator for the auxiliary variable updates. We propose to precondition the Richardson solver using approximate inverse filters of the (known) blur and natural image prior kernels. Using convolutions instead of a generic linear preconditioner allows extremely efficient parameter sharing across the image, and leads to significant gains in accuracy and/or speed compared to classical FFT and conjugate-gradient methods. More importantly, the proposed architecture is easily adapted to learning both the preconditioner and the proximal operator using CNN embeddings. This yields a simple and efficient algorithm for non-blind image deblurring which is fully interpretable, can be learned end to end, and whose accuracy matches or exceeds the state of the art, quite significantly, in the non-uniform case.
翻訳日:2022-11-14 05:47:12 公開日:2020-09-15
# 半教師付き学習のための生成逆ネットワークによる一貫性規則化

Consistency Regularization with Generative Adversarial Networks for Semi-Supervised Learning ( http://arxiv.org/abs/2007.03844v2 )

ライセンス: Link先を確認
Zexi Chen, Bharathkumar Ramachandra, Ranga Raju Vatsavai(参考訳) GAN(Generative Adversarial Networks)に基づく半教師付き学習(SSL)アプローチは,限られたラベル付きサンプルとともに多数のラベル付きサンプルを活用することで分類性能を向上させる。 しかし、彼らのパフォーマンスは、最先端の非GANベースのSSLアプローチよりも遅れている。 この主な原因は,局所摂動下における同一画像上のクラス確率予測の一貫性の欠如にあると考えられる。 一般的な文献に従えば、様々な意味保存摂動の下で入力画像のクラス確率予測が変化するよう強制するラベル一貫性規則化によってこの問題に対処できる。 本研究では,この限界に対処するため,バニラ半GANに整合正則化を導入する。 特に, 局所一貫性と補間一貫性を両立させる新しい複合一貫性正規化法を提案する。 提案手法の有効性を,SVHNとCIFAR-10の2つのSSL画像分類ベンチマークデータセットに示す。 実験により,この合成整合正則化に基づく半GANは,その性能を著しく向上し,GANベースのSSLアプローチにおける新たな最先端性能を実現することが示された。

Generative Adversarial Networks (GANs) based semi-supervised learning (SSL) approaches are shown to improve classification performance by utilizing a large number of unlabeled samples in conjunction with limited labeled samples. However, their performance still lags behind the state-of-the-art non-GAN based SSL approaches. We identify that the main reason for this is the lack of consistency in class probability predictions on the same image under local perturbations. Following the general literature, we address this issue via label consistency regularization, which enforces the class probability predictions for an input image to be unchanged under various semantic-preserving perturbations. In this work, we introduce consistency regularization into the vanilla semi-GAN to address this critical limitation. In particular, we present a new composite consistency regularization method which, in spirit, leverages both local consistency and interpolation consistency. We demonstrate the efficacy of our approach on two SSL image classification benchmark datasets, SVHN and CIFAR-10. Our experiments show that this new composite consistency regularization based semi-GAN significantly improves its performance and achieves new state-of-the-art performance among GAN-based SSL approaches.
翻訳日:2022-11-12 09:44:12 公開日:2020-09-15
# Visual Analyticsによるコンセプトドリフトの診断

Diagnosing Concept Drift with Visual Analytics ( http://arxiv.org/abs/2007.14372v3 )

ライセンス: Link先を確認
Weikai Yang, Zhen Li, Mengchen Liu, Yafeng Lu, Kelei Cao, Ross Maciejewski, Shixia Liu(参考訳) 概念ドリフトは、データストリームの分布が予期せぬ方法で時間とともに変化し、履歴データ上に構築された予測モデルが不正確なものになる現象である。 概念ドリフトが発生する時期を特定するために、様々な自動化手法が開発されているが、ドリフトが検出されたときにモデルを理解し修正する必要があるアナリストのサポートは限られている。 本稿では,ストリーミングデータにおける概念ドリフトの同定と修正において,モデル構築者やアナリストを支援するビジュアル分析手法であるdodowvisを提案する。 DriftVisは、分散ベースのドリフト検出方法とストリーミングスキャッタープロットを組み合わせることで、データストリームの分布変化によるドリフトの分析を支援し、これらの変更がモデルの精度に与える影響を調べる。 気象予測とテキスト分類に関する定量的実験と2つのケーススタディを実施し,提案手法を実証し,概念ドリフトの検出,検査,補正にビジュアル解析をどのように利用できるかを示した。

Concept drift is a phenomenon in which the distribution of a data stream changes over time in unforeseen ways, causing prediction models built on historical data to become inaccurate. While a variety of automated methods have been developed to identify when concept drift occurs, there is limited support for analysts who need to understand and correct their models when drift is detected. In this paper, we present a visual analytics method, DriftVis, to support model builders and analysts in the identification and correction of concept drift in streaming data. DriftVis combines a distribution-based drift detection method with a streaming scatterplot to support the analysis of drift caused by the distribution changes of data streams and to explore the impact of these changes on the model's accuracy. A quantitative experiment and two case studies on weather prediction and text classification have been conducted to demonstrate our proposed tool and illustrate how visual analytics can be used to support the detection, examination, and correction of concept drift.
翻訳日:2022-11-06 02:02:33 公開日:2020-09-15
# 注意および重ね合わせ画像適応による心筋構造分節の一般化

Generalisable Cardiac Structure Segmentation via Attentional and Stacked Image Adaptation ( http://arxiv.org/abs/2008.01216v2 )

ライセンス: Link先を確認
Hongwei Li, Jianguo Zhang, and Bjoern Menze(参考訳) マルチセンタおよびマルチベンダデータセットにおける領域シフトに取り組むことは、心画像のセグメンテーションにおいて依然として困難である。 本稿では,マルチセントレ,マルチベンダ,マルチディスリーズデータセットが関与する心臓画像分割のための一般化可能なセグメンテーションフレームワークを提案する。 既存のソースドメインからターゲットドメインへ画像を変換し,良質な合成心臓構造を生成し,トレーニングセットを拡大するために,注意損失を伴う生成型逆ネットワークを提案する。 さらに,未発見領域のセグメンテーション性能を高めるために,実世界の変換をシミュレートするために,左室平均90.3%,心筋85.9%,心室右室86.5%を達成した。 異種心画像データセットにおける領域シフトを2つの側面により大幅に低減できることを示す。 1)対象領域分布の学習による良質な合成データ 2) データ拡張のための古典的画像処理技術。

Tackling domain shifts in multi-centre and multi-vendor data sets remains challenging for cardiac image segmentation. In this paper, we propose a generalisable segmentation framework for cardiac image segmentation in which multi-centre, multi-vendor, multi-disease datasets are involved. A generative adversarial networks with an attention loss was proposed to translate the images from existing source domains to a target domain, thus to generate good-quality synthetic cardiac structure and enlarge the training set. A stack of data augmentation techniques was further used to simulate real-world transformation to boost the segmentation performance for unseen domains.We achieved an average Dice score of 90.3% for the left ventricle, 85.9% for the myocardium, and 86.5% for the right ventricle on the hidden validation set across four vendors. We show that the domain shifts in heterogeneous cardiac imaging datasets can be drastically reduced by two aspects: 1) good-quality synthetic data by learning the underlying target domain distribution, and 2) stacked classical image processing techniques for data augmentation.
翻訳日:2022-11-03 07:18:51 公開日:2020-09-15
# elsevier oa cc-byコーパス

Elsevier OA CC-By Corpus ( http://arxiv.org/abs/2008.00774v3 )

ライセンス: Link先を確認
Daniel Kershaw and Rob Koeling(参考訳) 我々はElsevier OA CC-BYコーパスを紹介する。 これは科学研究論文の最初の公開コーパスであり、科学の分野からの代表的なサンプルがある。 このコーパスには、記事の全文だけでなく、文書のメタデータや、参照毎の書誌情報が含まれています。

We introduce the Elsevier OA CC-BY corpus. This is the first open corpus of Scientific Research papers which has a representative sample from across scientific disciplines. This corpus not only includes the full text of the article, but also the metadata of the documents, along with the bibliographic information for each reference.
翻訳日:2022-11-03 06:48:43 公開日:2020-09-15
# 多発性硬化症における脳と病変の同時分節の縦断法

A Longitudinal Method for Simultaneous Whole-Brain and Lesion Segmentation in Multiple Sclerosis ( http://arxiv.org/abs/2008.05117v2 )

ライセンス: Link先を確認
Stefano Cerri, Andrew Hoopes, Douglas N. Greve, Mark M\"uhlau, Koen Van Leemput(参考訳) 本稿では,多発性硬化症患者の経時的脳MRI像の分割法を提案する。 この方法は、脳と病変のセグメンテーションを同時に行う既存の断面積法に基づいており、縦断スキャン間の時間的一貫性を促進するために、被検者固有の潜伏変数を導入する。 スキャナやMRIプロトコル、縦方向フォローアップスキャンの回数やタイミングについて、事前の仮定をしていないため、非常に一般的な方法である。 3つの縦断データセットに関する予備実験は,提案手法がより信頼性の高いセグメンテーションを生成し,それに基づく横断的手法よりも優れた疾患効果を検出できることを示す。

In this paper we propose a novel method for the segmentation of longitudinal brain MRI scans of patients suffering from Multiple Sclerosis. The method builds upon an existing cross-sectional method for simultaneous whole-brain and lesion segmentation, introducing subject-specific latent variables to encourage temporal consistency between longitudinal scans. It is very generally applicable, as it does not make any prior assumptions on the scanner, the MRI protocol, or the number and timing of longitudinal follow-up scans. Preliminary experiments on three longitudinal datasets indicate that the proposed method produces more reliable segmentations and detects disease effects better than the cross-sectional method it is based upon.
翻訳日:2022-10-31 05:03:13 公開日:2020-09-15
# complete the missing half: グラフ畳み込みネットワークの多様化によるアグリゲーションフィルタリングの強化

Complete the Missing Half: Augmenting Aggregation Filtering with Diversification for Graph Convolutional Networks ( http://arxiv.org/abs/2008.08844v3 )

ライセンス: Link先を確認
Sitao Luan, Mingde Zhao, Chenqing Hua, Xiao-Wen Chang, Doina Precup(参考訳) 現在のグラフニューラルネットワーク(gnns)のコアオペレーションは、グラフラプラシアンまたはメッセージパッシングによって有効となる集約であり、近傍ノード情報をフィルタリングする。 本稿では、様々なタスクに有効であるが、ノード表現の類似性を強要し、ノードが徐々にアイデンティティを失い、識別不能になるため、特定のデータセット上で学習する全てのgnnメソッドの基盤となる可能性のある問題因子であることを示す。 したがって、それらの双対、すなわち、ノードをより区別し、アイデンティティを保存する多様化演算子で集約操作を増強する。 このような拡張は、アグリゲーションを2チャネルのフィルタリングプロセスに置き換え、理論上、ノード表現を豊かにするのに役立つ。 実際に提案した2チャネルフィルタは,スペクトル法や空間法(メッセージパッシング)など,多様なトレーニング戦略を持つ既存のGNN手法に容易に適用することができる。 実験では,モデルの望ましい特性と,9ノード分類タスクのベースライン上での性能向上について検討した。

The core operation of current Graph Neural Networks (GNNs) is the aggregation enabled by the graph Laplacian or message passing, which filters the neighborhood node information. Though effective for various tasks, in this paper, we show that they are potentially a problematic factor underlying all GNN methods for learning on certain datasets, as they force the node representations similar, making the nodes gradually lose their identity and become indistinguishable. Hence, we augment the aggregation operations with their dual, i.e. diversification operators that make the node more distinct and preserve the identity. Such augmentation replaces the aggregation with a two-channel filtering process that, in theory, is beneficial for enriching the node representations. In practice, the proposed two-channel filters can be easily patched on existing GNN methods with diverse training strategies, including spectral and spatial (message passing) methods. In the experiments, we observe desired characteristics of the models and significant performance boost upon the baselines on 9 node classification tasks.
翻訳日:2022-10-27 02:55:49 公開日:2020-09-15
# リーマン多様体上のベイズ測地線回帰

Bayesian Geodesic Regression on Riemannian Manifolds ( http://arxiv.org/abs/2009.05108v2 )

ライセンス: Link先を確認
Youshan Zhang(参考訳) 測地線曲線に適合する測地線回帰法が提案されている。 しかし、データの次元を自動で選ぶことはできない。 本稿では,リーマン多様体(bgrm)モデル上のベイズ測地線回帰モデルを開発した。 オーバーフィッティング問題を避けるため,モデルの有効性を制御するために正規化項を追加する。 次元を自動的に選択するために,不必要な接ベクトルをゼロに駆動することで,関係する次元の数を自動選択できる測地回帰モデルの開発を行う。 このモデルの妥当性を示すために,まず3次元合成球面と2次元五角形データに適用した。 次に,人間のコーパス・カロサムと下顎骨データの寸法変化を低減し,形状変化を解析するためのモデルの有効性を示す。

Geodesic regression has been proposed for fitting the geodesic curve. However, it cannot automatically choose the dimensionality of data. In this paper, we develop a Bayesian geodesic regression model on Riemannian manifolds (BGRM) model. To avoid the overfitting problem, we add a regularization term to control the effectiveness of the model. To automatically select the dimensionality, we develop a prior for the geodesic regression model, which can automatically select the number of relevant dimensions by driving unnecessary tangent vectors to zero. To show the validation of our model, we first apply it in the 3D synthetic sphere and 2D pentagon data. We then demonstrate the effectiveness of our model in reducing the dimensionality and analyzing shape variations of human corpus callosum and mandible data.
翻訳日:2022-10-25 12:17:16 公開日:2020-09-15
# デモによるデータプログラミング:ラベリング関数を対話的に学習するフレームワーク

Data Programming by Demonstration: A Framework for Interactively Learning Labeling Functions ( http://arxiv.org/abs/2009.01444v3 )

ライセンス: Link先を確認
Sara Evensen and Chang Ge and Dongjin Choi and \c{C}a\u{g}atay Demiralp(参考訳) データプログラミングは、大規模ラベル付きトレーニングデータを効率的にキュレートするためのプログラム弱監督手法である。 データプログラム(ラベル関数)を書くには、リテラシーとドメインの専門知識の両方を必要とする。 多くの主題の専門家は、プログラムの熟練度もデータプログラムを効果的に書く時間も持たない。 さらに、コーディングや機械学習の専門知識にかかわらず、ルールやしきい値の列挙によって、ドメインの専門知識をラベル付け関数に移すことは、時間消費だけでなく、本質的にも困難である。 本稿では,ユーザによるインタラクティブなデモンストレーションによるラベル付けルールを生成するために,DPBD(Data Programming by Demo)という新しいフレームワークを提案する。 dpbdは、ユーザからのラベル付け機能の記述の負担を軽減し、ラベル付けタスクに関連するシグナルを識別するといった、より高いレベルのセマンティクスに重点を置くことを目的としている。 ドキュメント例のユーザによるスパンレベルアノテーションを用いて,文書分類のためのラベリングルールを合成する対話型システムである ruler を用いて,このフレームワークを運用する。 従来のデータプログラミングと比較し,10人のデータ科学者が感情分類やスパム分類タスクのラベル付け機能を構築した。 Rulerは使いやすく、学習し、全体的な満足度を高め、従来のデータプログラミングに匹敵する差別的なモデルパフォーマンスを提供する。

Data programming is a programmatic weak supervision approach to efficiently curate large-scale labeled training data. Writing data programs (labeling functions) requires, however, both programming literacy and domain expertise. Many subject matter experts have neither programming proficiency nor time to effectively write data programs. Furthermore, regardless of one's expertise in coding or machine learning, transferring domain expertise into labeling functions by enumerating rules and thresholds is not only time consuming but also inherently difficult. Here we propose a new framework, data programming by demonstration (DPBD), to generate labeling rules using interactive demonstrations of users. DPBD aims to relieve the burden of writing labeling functions from users, enabling them to focus on higher-level semantics such as identifying relevant signals for labeling tasks. We operationalize our framework with Ruler, an interactive system that synthesizes labeling rules for document classification by using span-level annotations of users on document examples. We compare Ruler with conventional data programming through a user study conducted with 10 data scientists creating labeling functions for sentiment and spam classification tasks. We find that Ruler is easier to use and learn and offers higher overall satisfaction, while providing discriminative model performances comparable to ones achieved by conventional data programming.
翻訳日:2022-10-22 06:50:03 公開日:2020-09-15
# 言語埋め込みにおける生体インスパイア構造同定

Bio-inspired Structure Identification in Language Embeddings ( http://arxiv.org/abs/2009.02459v2 )

ライセンス: Link先を確認
Hongwei (Henry) Zhou, Oskar Elek, Pranav Anand, Angus G. Forbes(参考訳) 単語埋め込みは、現代言語モデリングにおける下流のパフォーマンスを改善する一般的な方法である。 しかし、埋め込み空間の基本的な幾何学的構造はよく分かっていない。 バイオインスパイアされた手法を用いて,単語の埋め込みを行ない,可視化し,識別可能な構造の証拠を示す。 さらに,本モデルでは,コサイン類似度やユークリッド距離など,一般的な類似度指標とは大きく異なる単語類似度ランキングを生成する。 バイオインスパイアされたモデルを用いて、異なる単語埋め込み技術が、テキストデータの特定の解釈を強調または曖昧にできる、異なるセマンティックアウトプットをもたらすかを調べることができることを示す。

Word embeddings are a popular way to improve downstream performances in contemporary language modeling. However, the underlying geometric structure of the embedding space is not well understood. We present a series of explorations using bio-inspired methodology to traverse and visualize word embeddings, demonstrating evidence of discernible structure. Moreover, our model also produces word similarity rankings that are plausible yet very different from common similarity metrics, mainly cosine similarity and Euclidean distance. We show that our bio-inspired model can be used to investigate how different word embedding techniques result in different semantic outputs, which can emphasize or obscure particular interpretations in textual data.
翻訳日:2022-10-21 21:00:04 公開日:2020-09-15
# マレー語、ヒンディー語、タミル語、中国音楽のデータセットと分類モデル

A dataset and classification model for Malay, Hindi, Tamil and Chinese music ( http://arxiv.org/abs/2009.04459v2 )

ライセンス: Link先を確認
Fajilatun Nahar, Kat Agres, Balamurali BT and Dorien Herremans(参考訳) 本稿では,シンガポールの3つの主要民族(中国,マレー,インド(ヒンディー語,タミル語)を除く)の音楽を除いた新しいデータセットを提案する。 この新しいデータセットを用いて、異なる分類モデルを訓練し、これらの民族集団の観点から音楽の起源を区別する。 分類モデルは、入力として異なる音楽的特徴の使用を探索することで最適化された。 音楽的に有意義な特徴と低レベルの特徴、すなわちスペクトログラムに基づく特徴の両方をオーディオファイルから抽出し、異なる分類モデルの性能を最適化した。

In this paper we present a new dataset, with musical excepts from the three main ethnic groups in Singapore: Chinese, Malay and Indian (both Hindi and Tamil). We use this new dataset to train different classification models to distinguish the origin of the music in terms of these ethnic groups. The classification models were optimized by exploring the use of different musical features as the input. Both high level features, i.e., musically meaningful features, as well as low level features, i.e., spectrogram based features, were extracted from the audio files so as to optimize the performance of the different classification models.
翻訳日:2022-10-20 12:25:12 公開日:2020-09-15
# AlphaZeroでゲームバランスを評価する - チェスの代替ルールセットを探る

Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess ( http://arxiv.org/abs/2009.04374v2 )

ライセンス: Link先を確認
Nenad Toma\v{s}ev, Ulrich Paquet, Demis Hassabis and Vladimir Kramnik(参考訳) ゲームルールのエンゲージメントとバランスの取れたセットを設計するのは自明ではない。 現代のチェスは数世紀にわたって進化してきたが、歴史に類似した反省がなければ、ゲームダイナミクスへのルール変更の結果を予測することは困難である。 alphazeroは、シリコのゲームバランスアセスメントの代替手段を提供する。 人間の監督なしに、自身の経験から継続的に学習することで、スクラッチから設定されたあらゆるルールの最適に近い戦略を学ぶことができるシステムである。 本研究ではAlphaZeroを使って新しいチェスの変種を創造的に探索し設計する。 フィッシャー・ランダム・チェス (Fischer Random Chess) のようなチェスの変種への関心が高まっているのは、古典的なチェスの卓越したオープニング理論、プロのプレーにおけるドロー率の高さ、そして両方のプレイヤーがまだホーム準備中である間に終わる非無視の数のゲームのためである。 チェスのルールに原子的変化を含む他の9つの変種を比較した。 この変更により、新しい戦略的および戦術的パターンが出現し、ゲームはオリジナルに近づき続けることができる。 AlphaZeroを用いて各変種に対する準最適戦略を学習することにより、これらの変種が採用された場合、強い人間プレイヤー間のゲームがどのように見えるかを決定する。 定性的には、いくつかの変種は非常に動的である。 分析的な比較では、断片は変種によって異なる価値を持ち、いくつかの変種は古典的なチェスよりも決定的なものである。 本研究は,現代チェスのルールを超えた豊かな可能性を示す。

It is non-trivial to design engaging and balanced sets of game rules. Modern chess has evolved over centuries, but without a similar recourse to history, the consequences of rule changes to game dynamics are difficult to predict. AlphaZero provides an alternative in silico means of game balance assessment. It is a system that can learn near-optimal strategies for any rule set from scratch, without any human supervision, by continually learning from its own experience. In this study we use AlphaZero to creatively explore and design new chess variants. There is growing interest in chess variants like Fischer Random Chess, because of classical chess's voluminous opening theory, the high percentage of draws in professional play, and the non-negligible number of games that end while both players are still in their home preparation. We compare nine other variants that involve atomic changes to the rules of chess. The changes allow for novel strategic and tactical patterns to emerge, while keeping the games close to the original. By learning near-optimal strategies for each variant with AlphaZero, we determine what games between strong human players might look like if these variants were adopted. Qualitatively, several variants are very dynamic. An analytic comparison show that pieces are valued differently between variants, and that some variants are more decisive than classical chess. Our findings demonstrate the rich possibilities that lie beyond the rules of modern chess.
翻訳日:2022-10-20 08:48:10 公開日:2020-09-15
# RECOApy: エンドツーエンド音声ベースアプリケーションのためのデータ記録、前処理、音声書き起こし

RECOApy: Data recording, pre-processing and phonetic transcription for end-to-end speech-based applications ( http://arxiv.org/abs/2009.05493v2 )

ライセンス: Link先を確認
Adriana Stan(参考訳) ディープラーニングは、専門言語や信号処理機能の必要性を回避しつつ、効率的なエンドツーエンドの音声処理アプリケーションの開発を可能にする。 しかし、近年の研究では、良質な音声資源と訓練データの音声転写が、これらの応用結果を高めることが示されている。 本稿では,RECOApyツールを紹介する。 RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。 このツールは、音声記録、スペクトログラム、波形分析、発話レベルの正規化、サイレントトリミング、チェコ語、英語、フランス語、ドイツ語、イタリア語、ポーランド語、ルーマニア語、スペイン語の8つの言語でのプロンプトの音素変換のための使い勝手の良いインタフェースを実装している。 Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。 異なるレベルの正書法透過性、および言語間の様々な音素エントリにより、DNNのハイパーパラメータは進化戦略によって最適化される。 結果のg2p変換器の音素および単語誤り率について述べる。 このツール、処理された音韻レキシコンおよび訓練されたg2pモデルが自由に利用できる。

Deep learning enables the development of efficient end-to-end speech processing applications while bypassing the need for expert linguistic and signal processing features. Yet, recent studies show that good quality speech resources and phonetic transcription of the training data can enhance the results of these applications. In this paper, the RECOApy tool is introduced. RECOApy streamlines the steps of data recording and pre-processing required in end-to-end speech-based applications. The tool implements an easy-to-use interface for prompted speech recording, spectrogram and waveform analysis, utterance-level normalisation and silence trimming, as well grapheme-to-phoneme conversion of the prompts in eight languages: Czech, English, French, German, Italian, Polish, Romanian and Spanish. The grapheme-to-phoneme (G2P) converters are deep neural network (DNN) based architectures trained on lexicons extracted from the Wiktionary online collaborative resource. With the different degree of orthographic transparency, as well as the varying amount of phonetic entries across the languages, the DNN's hyperparameters are optimised with an evolution strategy. The phoneme and word error rates of the resulting G2P converters are presented and discussed. The tool, the processed phonetic lexicons and trained G2P models are made freely available.
翻訳日:2022-10-19 22:02:02 公開日:2020-09-15
# P-DIFF:確率差分布に基づく雑音ラベル付き学習分類器

P-DIFF: Learning Classifier with Noisy Labels based on Probability Difference Distributions ( http://arxiv.org/abs/2009.06382v2 )

ライセンス: Link先を確認
Wei Hu, QiHao Zhao, Yangyu Huang and Fan Zhang(参考訳) ノイズラベル付きディープニューラルネットワーク(dnn)分類器の学習は、dnnが高機能であるため、これらのノイズラベルに簡単にオーバーフィットできるため、難しい課題である。 本稿では、DNN分類器を訓練するが、明らかにノイズラベルの悪影響を軽減できるP-DIFFという、非常に単純で効果的な訓練パラダイムを提案する。 提案する確率差分布は, トレーニングサンプルのクリーン化確率を暗黙的に反映し, この確率を用いてトレーニングプロセス中に対応するサンプルを再重み付けする。 P-DIFFは、トレーニングサンプルのノイズ率に関する事前知識がなくても、良好な性能が得られる。 ベンチマークデータセットの実験では、P-DIFFは最先端のサンプル選択方法よりも優れていることが示されている。

Learning deep neural network (DNN) classifier with noisy labels is a challenging task because the DNN can easily over-fit on these noisy labels due to its high capability. In this paper, we present a very simple but effective training paradigm called P-DIFF, which can train DNN classifiers but obviously alleviate the adverse impact of noisy labels. Our proposed probability difference distribution implicitly reflects the probability of a training sample to be clean, then this probability is employed to re-weight the corresponding sample during the training process. P-DIFF can also achieve good performance even without prior knowledge on the noise rate of training samples. Experiments on benchmark datasets also demonstrate that P-DIFF is superior to the state-of-the-art sample selection methods.
翻訳日:2022-10-18 12:34:48 公開日:2020-09-15
# セキュアアグリゲーションを用いたフェデレーション動的GNN

Federated Dynamic GNN with Secure Aggregation ( http://arxiv.org/abs/2009.07351v1 )

ライセンス: Link先を確認
Meng Jiang and Taeho Jung and Ryan Karl and Tong Zhao(参考訳) 複数のパーソナルデバイスやストリートカメラのビデオデータがあれば、ユーザプライバシの侵害につながる中央サーバにデータを格納することなく、構造化情報や動的情報を利用して分散監視などのアプリケーションのためのオブジェクトの動的表現を学べるだろうか? 本研究では,複数ユーザグラフ列からオブジェクト表現を学習するための分散セキュアなフレームワークであるfederated dynamic graph neural network (feddy)を提案する。 i)現在のグラフ内の近傍のオブジェクトからの構造情報を集約するとともに、前のグラフにあるものから動的情報を集約する。 オブジェクトの軌跡を予測する自己教師付き損失を使う。 二 連帯学習の仕方で訓練すること。 中央に位置するサーバは、モデルをユーザデバイスに送信する。 各ユーザデバイス上のローカルモデルは、ユーザのデータをサーバに公開することなく、学習を中央サーバに定期的に送信する。 三) サーバが重み付け平均を行った後、モデル同期のためにクライアントにブロードキャストしたときは復号化されながら、集約されたパラメータを検査できることを示した。 我々は,分散学習におけるセキュリティとプライバシを保護するための,セキュアなアグリゲーションプリミティブの適切なアグリゲーション機構を設計する。 4つのビデオカメラデータセット(4つの異なるシーン)の実験とシミュレーションは、Feddyが優れた有効性とセキュリティを実現することを示す。

Given video data from multiple personal devices or street cameras, can we exploit the structural and dynamic information to learn dynamic representation of objects for applications such as distributed surveillance, without storing data at a central server that leads to a violation of user privacy? In this work, we introduce Federated Dynamic Graph Neural Network (Feddy), a distributed and secured framework to learn the object representations from multi-user graph sequences: i) It aggregates structural information from nearby objects in the current graph as well as dynamic information from those in the previous graph. It uses a self-supervised loss of predicting the trajectories of objects. ii) It is trained in a federated learning manner. The centrally located server sends the model to user devices. Local models on the respective user devices learn and periodically send their learning to the central server without ever exposing the user's data to server. iii) Studies showed that the aggregated parameters could be inspected though decrypted when broadcast to clients for model synchronizing, after the server performed a weighted average. We design an appropriate aggregation mechanism of secure aggregation primitives that can protect the security and privacy in federated learning with scalability. Experiments on four video camera datasets (in four different scenes) as well as simulation demonstrate that Feddy achieves great effectiveness and security.
翻訳日:2022-10-18 06:58:33 公開日:2020-09-15
# 顕微鏡によるHER2スコーリングシステム

Microscope Based HER2 Scoring System ( http://arxiv.org/abs/2009.06816v1 )

ライセンス: Link先を確認
Jun Zhang, Kuan Tian, Pei Dong, Haocheng Shen, Kezhou Yan, Jianhua Yao, Junzhou Huang, Xiao Han(参考訳) ヒト上皮成長因子受容体2(HER2)の過剰発現は、乳癌や胃癌などの複数の種類のがんの治療標的として確立されている。 免疫組織化学(IHC)は、HER2陽性、境界線、およびHER2陰性患者を特定するための基礎的HER2試験として用いられる。 しかし、her2スコアリングの信頼性と精度は、病理医の経験など多くの要因に影響されている。 近年,診断精度と信頼性を向上させるために人工知能(AI)が用いられているが,診断結果の解釈は未解決の問題である。 本稿では,HER2スコアリングガイドラインに従って診断を完了するリアルタイムHER2スコアリングシステムを提案する。 これまでのスコアシステムとは異なり、HER2スコアシステムは拡張現実(AR)顕微鏡に統合されており、スライドを読みながらAI結果を病理医にフィードバックすることができる。 病理学者はfov(informative fields of view)を選択し、dcisのような結合領域を避けることができる。 ここでは, 膜染色条件と細胞分類結果の中間結果について概説し, 診断結果の信頼性を評価することを可能とする。 また,関心領域の選択のインタラクティブな修正もサポートし,臨床実践においてシステムをより柔軟にする。 AIと病理学者の協力は、システムの堅牢性を大幅に改善する。 285個の胸部IHC HER2スライスを用いて本システムの評価を行い,95 %の分類精度で本システムの有効性を示した。

The overexpression of human epidermal growth factor receptor 2 (HER2) has been established as a therapeutic target in multiple types of cancers, such as breast and gastric cancers. Immunohistochemistry (IHC) is employed as a basic HER2 test to identify the HER2-positive, borderline, and HER2-negative patients. However, the reliability and accuracy of HER2 scoring are affected by many factors, such as pathologists' experience. Recently, artificial intelligence (AI) has been used in various disease diagnosis to improve diagnostic accuracy and reliability, but the interpretation of diagnosis results is still an open problem. In this paper, we propose a real-time HER2 scoring system, which follows the HER2 scoring guidelines to complete the diagnosis, and thus each step is explainable. Unlike the previous scoring systems based on whole-slide imaging, our HER2 scoring system is integrated into an augmented reality (AR) microscope that can feedback AI results to the pathologists while reading the slide. The pathologists can help select informative fields of view (FOVs), avoiding the confounding regions, such as DCIS. Importantly, we illustrate the intermediate results with membrane staining condition and cell classification results, making it possible to evaluate the reliability of the diagnostic results. Also, we support the interactive modification of selecting regions-of-interest, making our system more flexible in clinical practice. The collaboration of AI and pathologists can significantly improve the robustness of our system. We evaluate our system with 285 breast IHC HER2 slides, and the classification accuracy of 95\% shows the effectiveness of our HER2 scoring system.
翻訳日:2022-10-18 06:57:58 公開日:2020-09-15
# 強化学習による極性符号の復号化

Decoding Polar Codes with Reinforcement Learning ( http://arxiv.org/abs/2009.06796v1 )

ライセンス: Link先を確認
Nghia Doan, Seyyed Ali Hashemi and Warren Gross(参考訳) 本稿では,信念伝達(bp)デコード下での極性符号の因子グラフ置換を選択する問題を解決し,符号の誤り訂正性能を大幅に向上させる。 特に,強化学習における多腕バンディット問題として因子グラフ置換の選択を定式化し,デコード中によい因子グラフ置換を選択することを学ぶオンライン学習エージェントとして機能するデコーダを提案する。 マルチアームバンディット問題に対して最先端アルゴリズムを用い,64情報ビット長128の5g極符号に対して,提案するデコーダは10^{-4}の目標フレーム誤り率で約0.125dbの誤り訂正性能向上率を示す。

In this paper we address the problem of selecting factor-graph permutations of polar codes under belief propagation (BP) decoding to significantly improve the error-correction performance of the code. In particular, we formalize the factor-graph permutation selection as the multi-armed bandit problem in reinforcement learning and propose a decoder that acts like an online-learning agent that learns to select the good factor-graph permutations during the course of decoding. We use state-of-the-art algorithms for the multi-armed bandit problem and show that for a 5G polar codes of length 128 with 64 information bits, the proposed decoder has an error-correction performance gain of around 0.125 dB at the target frame error rate of 10^{-4}, when compared to the approach that randomly selects the factor-graph permutations.
翻訳日:2022-10-18 06:57:33 公開日:2020-09-15
# リンク予測はソフトウェア製品ライン(SPL)の機能相互作用の検出に役立つか?

Does Link Prediction Help Detect Feature Interactions in Software Product Lines (SPLs)? ( http://arxiv.org/abs/2009.07392v1 )

ライセンス: Link先を確認
Seyedehzahra Khoshmanesh and Robyn Lutz(参考訳) ソフトウェア製品ラインの要件エンジニアリングにおける継続的な課題は、新しい機能(機能ユニット)の新たな組み合わせが望ましくない、あるいは危険な機能インタラクションを生み出すかどうかを予測することである。 そこで我々は、開発の初期段階において望ましくない機能相互作用の予測を改善し、自動化することを模索する。 本稿では,ソフトウェア製品ラインにおける不要な機能インタラクションの検出が,リンク予測問題として効果的に表現できることを示す。 リンク予測は、グラフのノード間の機械学習アルゴリズムと類似度スコアを使用して、おそらく新しいエッジを特定する。 ここでは、ソフトウェア製品ラインの特徴をノードとして、不要な相互作用をエッジとしてモデル化します。 この文脈で使用する6つのリンクベースの類似度メトリクスについて検討し,その一部はローカル,一部はグラフのグローバル知識を用いている。 ソフトウェア製品ラインベンチマークのアプローチを文献で評価し,グラフに基づく類似度データから6つの機械学習モデルを構築した。 その結果、この小さな研究では、機能間相互作用を望ましくない、あるいは欲しがるものとして分類するために、最高のMLアルゴリズムが 0.75 から 1 の精度を達成し、グローバルな類似度指標が局所的な類似度指標よりも優れた結果を示した。 この研究は、開発中の早い段階で、文書化されていない、あるいは認識されていない、望ましくない機能インタラクションを表現する、リンク予測モデルが欠落したエッジを見つけるのにどのように役立つかを示している。

An ongoing challenge for the requirements engineering of software product lines is to predict whether a new combination of features (units of functionality) will create an unwanted or even hazardous feature interaction. We thus seek to improve and automate the prediction of unwanted feature interactions early in development. In this paper, we show how the detection of unwanted feature interactions in a software product line can be effectively represented as a link prediction problem. Link prediction uses machine learning algorithms and similarity scores among a graph's nodes to identify likely new edges. We here model the software product line features as nodes and the unwanted interactions among the features as edges. We investigate six link-based similarity metrics, some using local and some using global knowledge of the graph, for use in this context. We evaluate our approach on a software product line benchmark in the literature, building six machine-learning models from the graph-based similarity data. Results show that the best ML algorithms achieved an accuracy of 0.75 to 1 for classifying feature interactions as unwanted or wanted in this small study and that global similarity metrics performed better than local similarity metrics. The work shows how link-prediction models can help find missing edges, which represent unwanted feature interactions that are undocumented or unrecognized, earlier in development.
翻訳日:2022-10-18 06:57:19 公開日:2020-09-15
# 計算機モデルに対するオンラインベイズ校正の固定誘導点とスケール分解cfdシミュレーションへの応用

Fixed Inducing Points Online Bayesian Calibration for Computer Models with an Application to a Scale-Resolving CFD Simulation ( http://arxiv.org/abs/2009.07184v1 )

ライセンス: Link先を確認
Yu Duan, Matthew Eaton, and Michael Bluck(参考訳) 本稿では,ベンチマークデータベースを用いてモデルパラメータを効率的に学習するオンラインベイズ校正(FIPO-BC)アルゴリズムを提案する。 標準的なベイズ校正(STD-BC)アルゴリズムは、計算に高価なモデルのパラメータを校正する統計手法を提供する。 しかし、STD-BCアルゴリズムはデータポイントの数で非常にスケールが悪く、オンライン学習能力に欠ける。 提案したFIPO-BCアルゴリズムは計算効率を大幅に改善し、予め定義された誘導点のセットで校正を行うことでオンライン校正を可能にする。 FIPO-BCアルゴリズムの手順を実証するため,最適値の探索と後部分布の探索という2つの試験を行った。 1) 簡単な関数のパラメータ、及び 2) スケール分解乱流モデルにおける高波数減衰係数(sas-sst) 誘導点が異なるFIPO-BCの結果(校正モデルパラメータとその後部分布など)をSTD-BCの結果と比較した。 FIPO-BC と STD-BC は、FIPO-BC における誘導点のセットが十分に良ければ、非常によく似た結果が得られる。 しかし、FIPO-BCアルゴリズムはSTD-BCアルゴリズムの少なくとも10倍高速である。 一方、fipo-bcのオンライン機能は、キャリブレーション出力の継続的な更新を可能にし、データベース生成時のワークロードを削減できる。

This paper proposes a novel fixed inducing points online Bayesian calibration (FIPO-BC) algorithm to efficiently learn the model parameters using a benchmark database. The standard Bayesian calibration (STD-BC) algorithm provides a statistical method to calibrate the parameters of computationally expensive models. However, the STD-BC algorithm scales very badly with the number of data points and lacks online learning capability. The proposed FIPO-BC algorithm greatly improves the computational efficiency and enables the online calibration by executing the calibration on a set of predefined inducing points. To demonstrate the procedure of the FIPO-BC algorithm, two tests are performed, finding the optimal value and exploring the posterior distribution of 1) the parameter in a simple function, and 2) the high-wave number damping factor in a scale-resolving turbulence model (SAS-SST). The results (such as the calibrated model parameter and its posterior distribution) of FIPO-BC with different inducing points are compared to those of STD-BC. It is found that FIPO-BC and STD-BC can provide very similar results, once the predefined set of inducing point in FIPO-BC is sufficiently fine. But, the FIPO-BC algorithm is at least ten times faster than the STD-BC algorithm. Meanwhile, the online feature of the FIPO-BC allows continuous updating of the calibration outputs and potentially reduces the workload on generating the database.
翻訳日:2022-10-18 06:53:07 公開日:2020-09-15
# 保険における不正検出を監督するソーシャルネットワーク分析

Social network analytics for supervised fraud detection in insurance ( http://arxiv.org/abs/2009.08313v1 )

ライセンス: Link先を確認
Mar\'ia \'Oskarsd\'ottir, Waqas Ahmed, Katrien Antonio, Bart Baesens, R\'emi Dendievel, Tom Donas, Tom Reynkens(参考訳) 保険詐欺は、政策立案者が誇張された、または意図的な損害に基づいて請求を行うときに発生する。 この貢献は、クレームのソーシャルネットワークから洞察力のある情報を抽出して不正検出戦略を開発する。 まず、私たちは、ポリシーホルダー、ブローカー、専門家、ガレージを含むすべての関係者とクレームをリンクすることでネットワークを構築します。 次に,ネットワーク内の社会現象として詐欺を確立し,不正特定クエリベクトルを用いたBiRankアルゴリズムを用いて,クレーム毎の不正スコアを算出する。 ネットワークから,クレームの周辺構造だけでなく,不正スコアに関連する特徴を抽出する。 最後に,これらのネットワーク機能とクレーム特有の特徴を組み合わせることで,対象変数として自動車保険の不正行為を伴う監視モデルを構築する。 自動車保険のみのモデルを構築していますが、ネットワークにはすべての利用可能なビジネスラインからの請求が含まれています。 以上の結果から,ネットワークから派生した特徴を有するモデルは,不正行為の検出や,古典的なクレーム特有の特徴のみを用いたモデルよりも優れていた。 ネットワークとクレーム固有の特徴を組み合わせることで、教師付き学習モデルの性能を改善し、不正を検出する。 結果として得られたモデルフラグは、さらなる調査が必要であるという主張を高く疑っている。 当社のアプローチは,クレームの誘導的かつインテリジェントな選択を提供し,より効果的な不正調査プロセスに寄与する。

Insurance fraud occurs when policyholders file claims that are exaggerated or based on intentional damages. This contribution develops a fraud detection strategy by extracting insightful information from the social network of a claim. First, we construct a network by linking claims with all their involved parties, including the policyholders, brokers, experts, and garages. Next, we establish fraud as a social phenomenon in the network and use the BiRank algorithm with a fraud specific query vector to compute a fraud score for each claim. From the network, we extract features related to the fraud scores as well as the claims' neighborhood structure. Finally, we combine these network features with the claim-specific features and build a supervised model with fraud in motor insurance as the target variable. Although we build a model for only motor insurance, the network includes claims from all available lines of business. Our results show that models with features derived from the network perform well when detecting fraud and even outperform the models using only the classical claim-specific features. Combining network and claim-specific features further improves the performance of supervised learning models to detect fraud. The resulting model flags highly suspicions claims that need to be further investigated. Our approach provides a guided and intelligent selection of claims and contributes to a more effective fraud investigation process.
翻訳日:2022-10-18 06:51:56 公開日:2020-09-15
# 同じデータが競合の結果をもたらす可能性がある:破壊的な指標の使用に注意

Same data may bring conflict results: a caution to use the disruptive index ( http://arxiv.org/abs/2009.06888v1 )

ライセンス: Link先を確認
Guoqiang Liang, Yi Jiang, Haiyan Hou(参考訳) 過去20年間、学者は画期的な学業業績を特定するために様々な書誌関連指標を設計してきた。 本研究では,将来性のある破壊的指標の特性を検討するためのさらなる一歩を踏み出し,この指標の理解を深め,書誌学におけるその賢明な利用をさらに促進する。 1900年から2016年までのノーベル賞受賞論文の出版記録を用いて、ノーベル賞受賞論文のdiとそのベンチマーク論文を毎年算出し、中央値diを用いて毎年の中央傾向を示し、医学、化学、物理学の比較を行う。 DIに基づく結論は、引用時間ウィンドウの長さに依存しており、異なる引用時間ウィンドウは異なる、あるいは議論の余地のある結果を引き起こす可能性がある。 また、規律と時間は、科学作品の革新性を測定するためにDIを使用する場合、引用窓の長さにおいて役割を果たす。 最後に、di が 1 に等しいすべての記事がブレークスルークラスの成果であるとは限らない。 言い換えれば、DIは理論的に立ち上がっているが、DIは引用記事の数や参照回数によってのみ形作られており、これらのデータはデータベースからデータベースまで様々であるということを無視するべきではない。

In the last two decades, scholars have designed various types of bibliographic related indicators to identify breakthrough-class academic achievements. In this study, we take a further step to look at properties of the promising disruptive index, thus deepening our understanding of this index and further facilitating its wise use in bibliometrics. Using publication records for Nobel laureates between 1900 and 2016, we calculate the DI of Nobel Prize-winning articles and its benchmark articles in each year and use the median DI to denote the central tendency in each year, and compare results between Medicine, Chemistry, and Physics. We find that conclusions based on DI depend on the length of their citation time window, and different citation time windows may cause different, even controversial, results. Also, discipline and time play a role on the length of citation window when using DI to measure the innovativeness of a scientific work. Finally, not all articles with DI equals to 1 were the breakthrough-class achievements. In other words, the DI stands up theoretically, but we should not neglect that the DI was only shaped by the number of citing articles and times the references have been cited, these data may vary from database to database.
翻訳日:2022-10-18 06:51:16 公開日:2020-09-15
# 幼児期における機能的脳ネットワークの多機能化

Co-evolution of Functional Brain Network at Multiple Scales during Early Infancy ( http://arxiv.org/abs/2009.06899v1 )

ライセンス: Link先を確認
Xuyun Wen, Liming Hsu, Weili Lin, Han Zhang, Dinggang Shen(参考訳) 人間の脳は階層的なモジュラーネットワークに組織され、効率的で安定した情報処理を促進し、開発過程における多様な認知プロセスをサポートする。 機能的脳ネットワークの顕著な再構成は、初期の段階においてしっかりと確立されてきたが、これらの研究はすべて、その階層的性質によって引き起こされた豊かさを無視する「シングルスケール」の観点からネットワーク開発を調査した。 このギャップを埋めるために, 乳幼児の2歳から2歳までの機能的磁気共鳴画像データセットを活用するとともに, 機能的脳ネットワークのマルチスケール再構成を早期に行うための高度な方法論的枠組みを提案する。 提案する枠組みは2つの部分からなる。 第1部では,データ駆動方式で複数スケールの縦型データセットの効率的かつ一貫性のあるモジュール構造を明らかにするための,新たな2段階多スケールモジュール検出手法を開発した。 第2部では,線形混合効果モデルを4つのグローバルモジュールおよびnodalモジュール関連メトリクスに適用して,ネットワーク組織におけるスケール固有の年齢関連変化を記述した体系的アプローチを考案した。 収集した縦断的幼児データセットに提案手法の枠組みを適用して,最初の2年間で,脳機能ネットワークは異なるスケールで共進化し,各スケールがモジュール構造の観点から独自の再構成パターンを表示するという最初の証拠を提示した。

The human brains are organized into hierarchically modular networks facilitating efficient and stable information processing and supporting diverse cognitive processes during the course of development. While the remarkable reconfiguration of functional brain network has been firmly established in early life, all these studies investigated the network development from a "single-scale" perspective, which ignore the richness engendered by its hierarchical nature. To fill this gap, this paper leveraged a longitudinal infant resting-state functional magnetic resonance imaging dataset from birth to 2 years of age, and proposed an advanced methodological framework to delineate the multi-scale reconfiguration of functional brain network during early development. Our proposed framework is consist of two parts. The first part developed a novel two-step multi-scale module detection method that could uncover efficient and consistent modular structure for longitudinal dataset from multiple scales in a completely data-driven manner. The second part designed a systematic approach that employed the linear mixed-effect model to four global and nodal module-related metrics to delineate scale-specific age-related changes of network organization. By applying our proposed methodological framework on the collected longitudinal infant dataset, we provided the first evidence that, in the first 2 years of life, the brain functional network is co-evolved at different scales, where each scale displays the unique reconfiguration pattern in terms of modular organization.
翻訳日:2022-10-18 06:50:56 公開日:2020-09-15
# ネットワークにおける階層的コミュニティ構造

Hierarchical community structure in networks ( http://arxiv.org/abs/2009.07196v1 )

ライセンス: Link先を確認
Michael T. Schaub and Leto Peel(参考訳) モジュラー構造と階層構造は現実世界の複雑なシステムで広く普及している。 これらの構造を検知し研究するために、多くの努力が費やされた。 モジュラーの発見における重要な理論的進歩は、確率的生成モデルを用いてコミュニティ構造を正式に定義することによって、検出可能性の基本的限界を特定することを含む。 階層型コミュニティ構造の検出は、コミュニティ検出から受け継いだものと並行して、さらなる課題をもたらす。 本稿では,ネットワークにおける階層的コミュニティ構造に関する理論的研究について述べる。 1) - コミュニティの有効な階層をどのように定義すべきか? 2)–階層構造がネットワークに存在するかどうかをどうやって判断するか。 3) どのように効率的に階層構造を検出できるか? 確率的外的同値分割の概念と確率的ブロックモデルのような確率的モデルとの関係に基づいて階層構造の定義を導入することにより,これらの疑問にアプローチする。 階層構造の検出に関わる課題を列挙し,階層構造のスペクトル特性を調べることにより,効率的かつ原理的に検出する手法を提案する。

Modular and hierarchical structures are pervasive in real-world complex systems. A great deal of effort has gone into trying to detect and study these structures. Important theoretical advances in the detection of modular, or "community", structures have included identifying fundamental limits of detectability by formally defining community structure using probabilistic generative models. Detecting hierarchical community structure introduces additional challenges alongside those inherited from community detection. Here we present a theoretical study on hierarchical community structure in networks, which has thus far not received the same rigorous attention. We address the following questions: 1)~How should we define a valid hierarchy of communities? 2)~How should we determine if a hierarchical structure exists in a network? and 3)~how can we detect hierarchical structure efficiently? We approach these questions by introducing a definition of hierarchy based on the concept of stochastic externally equitable partitions and their relation to probabilistic models, such as the popular stochastic block model. We enumerate the challenges involved in detecting hierarchies and, by studying the spectral properties of hierarchical structure, present an efficient and principled method for detecting them.
翻訳日:2022-10-18 06:50:32 公開日:2020-09-15
# 中断を赦す:合衆国最高裁判所の口頭弁論におけるジェンダーとターンテイクの分析

Pardon the Interruption: An Analysis of Gender and Turn-Taking in U.S. Supreme Court Oral Arguments ( http://arxiv.org/abs/2009.07391v1 )

ライセンス: Link先を確認
Haley Lepp, Gina-Anne Levow(参考訳) 本研究は,米国最高裁判所の口頭弁論における話者間の交代変化のコーパスを示す。 それぞれのターン変更は、「協力的」から「競争的」までのスペクトルに、米国で法的な経験を持つ人間のアノテーターによってラベル付けされる。 我々は,音声の特徴,交換の性質,および話者のジェンダーと法的役割との関係を分析する。 最後に、このモデルを用いて、適度な成功を伴う交換のラベルを予測できることを実証する。 交換の性質の自動分類は、口頭弁論におけるターンテイクの研究は、より大きなラベルのないコーパスに頼ることができることを示している。

This study presents a corpus of turn changes between speakers in U.S. Supreme Court oral arguments. Each turn change is labeled on a spectrum of "cooperative" to "competitive" by a human annotator with legal experience in the United States. We analyze the relationship between speech features, the nature of exchanges, and the gender and legal role of the speakers. Finally, we demonstrate that the models can be used to predict the label of an exchange with moderate success. The automatic classification of the nature of exchanges indicates that future studies of turn-taking in oral arguments can rely on larger, unlabeled corpora.
翻訳日:2022-10-18 06:44:35 公開日:2020-09-15
# Attention-SLAM:人間の視線から学ぶ視覚単眼のSLAM

Attention-SLAM: A Visual Monocular SLAM Learning from Human Gaze ( http://arxiv.org/abs/2009.06886v1 )

ライセンス: Link先を確認
Jinquan Li, Ling Pei, Danping Zou, Songpengcheng Xia, Qi Wu, Tao Li, Zhen Sun, Wenxian Yu(参考訳) 本稿では,視覚サリエンシーモデル (salnavnet) と従来の単眼視覚スラムを組み合わせることにより,人間のナビゲーションモードをシミュレートする,新しい同時局所化マッピング (slam) 手法を提案する。 ほとんどのslamメソッドは、画像から抽出された全ての機能を最適化プロセスにおいて等しく重要視している。 しかし、人間のナビゲーション過程において、シーンの健全な特徴点がより大きな影響を及ぼす。 そこで我々はまず,相関モジュールを導入し,適応型指数移動平均(EMA)モジュールを提案するSalVavNetというビジュアル・サリエンシ・モデルを提案する。 これらのモジュールは中心バイアスを緩和し、SalNavNetが生成したサリアントマップが同じサリアントオブジェクトにより多くの注意を払うことができる。 さらに,サリエンシーマップは,slam結果の精細化のために人間の行動をシミュレートする。 サリエント領域から抽出された特徴点は最適化プロセスにおいてより重要である。 セマンティック・サリエンシ情報をEurocデータセットに追加し、オープンソースのサリエンシSLAMデータセットを生成します。 総合的なテスト結果から、Attention-SLAMは直接スパースオドメトリー(DSO)、ORB-SLAM、Salient DSOなどのベンチマークよりも効率、正確性、堅牢性が高いことが証明された。

This paper proposes a novel simultaneous localization and mapping (SLAM) approach, namely Attention-SLAM, which simulates human navigation mode by combining a visual saliency model (SalNavNet) with traditional monocular visual SLAM. Most SLAM methods treat all the features extracted from the images as equal importance during the optimization process. However, the salient feature points in scenes have more significant influence during the human navigation process. Therefore, we first propose a visual saliency model called SalVavNet in which we introduce a correlation module and propose an adaptive Exponential Moving Average (EMA) module. These modules mitigate the center bias to enable the saliency maps generated by SalNavNet to pay more attention to the same salient object. Moreover, the saliency maps simulate the human behavior for the refinement of SLAM results. The feature points extracted from the salient regions have greater importance in optimization process. We add semantic saliency information to the Euroc dataset to generate an open-source saliency SLAM dataset. Comprehensive test results prove that Attention-SLAM outperforms benchmarks such as Direct Sparse Odometry (DSO), ORB-SLAM, and Salient DSO in terms of efficiency, accuracy, and robustness in most test cases.
翻訳日:2022-10-18 06:44:24 公開日:2020-09-15
# JPEG画像アーチファクト除去のための幅広い品質要因を持つ単一モデル学習

Learning a Single Model with a Wide Range of Quality Factors for JPEG Image Artifacts Removal ( http://arxiv.org/abs/2009.06912v1 )

ライセンス: Link先を確認
Jianwei Li, Yongtao Wang, Haihua Xie, Kai-Kuang Ma(参考訳) 損失のある圧縮は、圧縮された画像にアーティファクトをもたらし、視覚品質を低下させる。 近年,畳み込みニューラルネットワーク(CNN)に基づく圧縮アーティファクト除去法が数多く開発され,大きな成功を収めている。 しかしながら、これらの手法は通常、1つの特定の値または少数の品質要因に基づいてモデルを訓練する。 明らかに、テスト画像の品質要因が想定値の範囲と一致しない場合、劣化したパフォーマンスが得られます。 本論文では, このモチベーションと実用化のさらなる考察により, 高度に堅牢な圧縮アーティファクト除去ネットワークを提案する。 提案するネットワークは,優れた画像アーティファクト除去性能を一貫して提供しながら,幅広い品質要因を処理するためのトレーニングが可能な,単一モデルアプローチである。 デモでは,1から60までのクオリティファクタによるjpeg圧縮に注目する。 提案するネットワークのターンキー成功は,トレーニングデータの一部としての量子化テーブルの新たな活用に起因している。 さらに、並列に2つのブランチ、すなわち復元ブランチとグローバルブランチがある。 前者は、リングアーティファクト除去などの局所的なアーティファクトを効果的に除去する。 一方、後者は画像全体の全体的特徴を抽出し、特にブロッキングやカラーシフトといったグローバルアーティファクトの処理に有効である、高機能な画質改善を提供する。 カラー画像とグレースケール画像の総合的な実験結果から, 圧縮アーチファクトのデコード画像からの除去に対する単一モデルアプローチの有効性と有効性を明らかにした。

Lossy compression brings artifacts into the compressed image and degrades the visual quality. In recent years, many compression artifacts removal methods based on convolutional neural network (CNN) have been developed with great success. However, these methods usually train a model based on one specific value or a small range of quality factors. Obviously, if the test image's quality factor does not match to the assumed value range, then degraded performance will be resulted. With this motivation and further consideration of practical usage, a highly robust compression artifacts removal network is proposed in this paper. Our proposed network is a single model approach that can be trained for handling a wide range of quality factors while consistently delivering superior or comparable image artifacts removal performance. To demonstrate, we focus on the JPEG compression with quality factors, ranging from 1 to 60. Note that a turnkey success of our proposed network lies in the novel utilization of the quantization tables as part of the training data. Furthermore, it has two branches in parallel---i.e., the restoration branch and the global branch. The former effectively removes the local artifacts, such as ringing artifacts removal. On the other hand, the latter extracts the global features of the entire image that provides highly instrumental image quality improvement, especially effective on dealing with the global artifacts, such as blocking, color shifting. Extensive experimental results performed on color and grayscale images have clearly demonstrated the effectiveness and efficacy of our proposed single-model approach on the removal of compression artifacts from the decoded image.
翻訳日:2022-10-18 06:43:59 公開日:2020-09-15
# 効率的超解法に関するAIM 2020の課題:方法と結果

AIM 2020 Challenge on Efficient Super-Resolution: Methods and Results ( http://arxiv.org/abs/2009.06943v1 )

ライセンス: Link先を確認
Kai Zhang, Martin Danelljan, Yawei Li, Radu Timofte, Jie Liu, Jie Tang, Gangshan Wu, Yu Zhu, Xiangyu He, Wenjie Xu, Chenghua Li, Cong Leng, Jian Cheng, Guangyang Wu, Wenyi Wang, Xiaohong Liu, Hengyuan Zhao, Xiangtao Kong, Jingwen He, Yu Qiao, Chao Dong, Xiaotong Luo, Liang Chen, Jiangtao Zhang, Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan, Xiaochuan Li, Zhiqiang Lang, Jiangtao Nie, Wei Wei, Lei Zhang, Abdul Muqeet, Jiwon Hwang, Subin Yang, JungHeum Kang, Sung-Ho Bae, Yongwoo Kim, Liang Chen, Jiangtao Zhang, Xiaotong Luo, Yanyun Qu, Geun-Woo Jeon, Jun-Ho Choi, Jun-Hyuk Kim, Jong-Seok Lee, Steven Marty, Eric Marty, Dongliang Xiong, Siang Chen, Lin Zha, Jiande Jiang, Xinbo Gao, Wen Lu, Haicheng Wang, Vineeth Bhaskara, Alex Levinshtein, Stavros Tsogkas, Allan Jepson, Xiangzhen Kong, Tongtong Zhao, Shanshan Zhao, Hrishikesh P S, Densen Puthussery, Jiji C V, Nan Nan, Shuai Liu, Jie Cai, Zibo Meng, Jiaming Ding, Chiu Man Ho, Xuehui Wang, Qiong Yan, Yuzhi Zhao, Long Chen, Jiangtao Zhang, Xiaotong Luo, Liang Chen, Yanyun Qu, Long Sun, Wenhao Wang, Zhenbing Liu, Rushi Lan, Rao Muhammad Umer, and Christian Micheloni(参考訳) 本稿では,AIM 2020における高効率単一画像超解像に関する課題を,提案手法と結果に焦点をあててレビューする。 課題は、低解像度および対応する高解像度画像の先行例に基づいて、倍率x4で入力画像の超解法を行うことであった。 目標は、少なくともMSRResNetのPSNRを維持しながら、ランタイム、パラメータカウント、FLOP、アクティベーション、メモリ消費などの1つまたは複数の側面を減らすネットワークを考案することである。 150人の登録メンバーが参加し、25チームが最終結果を提出した。 彼らは効率の良い単一画像の超解像で最先端の計測を行う。

This paper reviews the AIM 2020 challenge on efficient single image super-resolution with focus on the proposed solutions and results. The challenge task was to super-resolve an input image with a magnification factor x4 based on a set of prior examples of low and corresponding high resolution images. The goal is to devise a network that reduces one or several aspects such as runtime, parameter count, FLOPs, activations, and memory consumption while at least maintaining PSNR of MSRResNet. The track had 150 registered participants, and 25 teams submitted the final results. They gauge the state-of-the-art in efficient single image super-resolution.
翻訳日:2022-10-18 06:43:38 公開日:2020-09-15
# ワーンドアセスメントにおける画像ベース人工知能:システムレビュー

Image Based Artificial Intelligence in Wound Assessment: A Systematic Review ( http://arxiv.org/abs/2009.07141v1 )

ライセンス: Link先を確認
D. M. Anisuzzaman (1), Chuanbo Wang (1), Behrouz Rostami (2), Sandeep Gopalakrishnan (3), Jeffrey Niezgoda (4), and Zeyun Yu (1) ((1) Department of Computer Science, University of Wisconsin-Milwaukee, Milwaukee, WI, USA, (2) Department of Electrical Engineering, University of Wisconsin-Milwaukee, Milwaukee, WI, USA, (3) College of Nursing, University of Wisconsin-Milwaukee, Milwaukee, WI, USA, (4) Jeffrey Niezgoda is with the AZH Wound Center, Milwaukee, WI, USA.)(参考訳) 急性および慢性の創傷を効果的かつ効果的に評価することは、臨床実践における創傷ケアチームにとって、創傷診断の大幅な改善、治療計画の最適化、作業負荷の緩和、患者の健康関連品質を達成するのに役立つ。 人工知能(AI)は、医療関連科学や技術に広く応用されているが、AIベースのシステムは、高品質な創傷治療のために、臨床および計算的に開発されている。 そこで我々は,創傷評価のためのインテリジェントな画像ベースデータ解析とシステム開発を体系的に検討した。 具体的には,創傷計測(セグメンテーション)と創傷診断(分類)に関する研究方法の広範なレビューを行う。 また,創傷評価システム(ハードウェア,ソフトウェア,モバイルアプリを含む)に関する最近の研究についてもレビューした。 様々な出版物データベースやオンラインリソースから250件以上の記事が検索され、115件が慎重に選抜され、最新の関連作品の幅と深さを網羅し、現在のレビューをその成果に伝達した。

Efficient and effective assessment of acute and chronic wounds can help wound care teams in clinical practice to greatly improve wound diagnosis, optimize treatment plans, ease the workload and achieve health related quality of life to the patient population. While artificial intelligence (AI) has found wide applications in health-related sciences and technology, AI-based systems remain to be developed clinically and computationally for high-quality wound care. To this end, we have carried out a systematic review of intelligent image-based data analysis and system developments for wound assessment. Specifically, we provide an extensive review of research methods on wound measurement (segmentation) and wound diagnosis (classification). We also reviewed recent work on wound assessment systems (including hardware, software, and mobile apps). More than 250 articles were retrieved from various publication databases and online resources, and 115 of them were carefully selected to cover the breadth and depth of most recent and relevant work to convey the current review to its fulfillment.
翻訳日:2022-10-18 06:42:41 公開日:2020-09-15
# 電力系統における故障検出のための注意機構を用いた周波数ベースマルチタスク学習

Frequency-based Multi Task learning With Attention Mechanism for Fault Detection In Power Systems ( http://arxiv.org/abs/2009.06825v1 )

ライセンス: Link先を確認
Peyman Tehrani, Marco Levorato(参考訳) 送電線の故障や異常の迅速かつ正確な検出は、スマートグリッドシステムにおける重要な課題である。 既存の手法は主にモデルに基づくアプローチに依存しており、これら複雑な時間系列の全ての側面を捉えることはできないかもしれない。 近年、マイクロ秒の時間スケールで測定を行うマイクロパス計測装置(PMU)などの先進的な計測装置を用いて収集されたデータセットが利用可能になり、データ駆動手法の開発が促進された。 本稿では,障害検出のための新しい深層学習に基づく手法を提案し,それを実際のデータセット,すなわち部分放電検出タスクのためのkaggleプラットフォーム上でテストする。 提案手法は,時系列特徴抽出のための注意機構を備えた長期記憶アーキテクチャを採用し,信号の周波数情報を利用した1次元畳み込みニューラルネットワーク構造を用いて予測を行う。 さらに,その周波数成分に基づいて信号をクラスタ化するための教師なし手法を提案し,異なるクラスタにマルチタスク学習を適用する。 提案手法は,kaggleコンペティションの勝者ソリューションや,様々なパフォーマンス指標におけるartメソッドの他の状態よりも優れており,解析の解釈性が向上する。

The prompt and accurate detection of faults and abnormalities in electric transmission lines is a critical challenge in smart grid systems. Existing methods mostly rely on model-based approaches, which may not capture all the aspects of these complex temporal series. Recently, the availability of data sets collected using advanced metering devices, such as Micro-Phasor Measurement units ($\mu$ PMU), which provide measurements at microsecond timescale, boosted the development of data-driven methodologies. In this paper, we introduce a novel deep learning-based approach for fault detection and test it on a real data set, namely, the Kaggle platform for a partial discharge detection task. Our solution adopts a Long-Short Term Memory architecture with attention mechanism to extract time series features, and uses a 1D-Convolutional Neural Network structure to exploit frequency information of the signal for prediction. Additionally, we propose an unsupervised method to cluster signals based on their frequency components, and apply multi task learning on different clusters. The method we propose outperforms the winner solutions in the Kaggle competition and other state of the art methods in many performance metrics, and improves the interpretability of analysis.
翻訳日:2022-10-18 06:34:14 公開日:2020-09-15
# gpt-3およびadvanced neural language modelの過激化リスク

The Radicalization Risks of GPT-3 and Advanced Neural Language Models ( http://arxiv.org/abs/2009.06807v1 )

ライセンス: Link先を確認
Kris McGuffie, Alex Newhouse(参考訳) 本稿では、GPT-3の評価により、生成言語モデルの悪用の可能性に関するこれまでの研究を拡大する。 GPT-3は, 過激主義の物語, 社会的相互作用の構造, 過激なイデオロギーを代表して実験したところ, 過激主義のテキストを生成する上で, 先行するGPT-2よりも顕著に改善されていることがわかった。 また, GPT-3の強みは, 対話的, 情報的, 影響力のあるコンテンツを正確にエミュレートし, 個人を暴力的極右過激主義のイデオロギーや行動へと過激化させる。 OpenAIの予防措置は強いが、規制されていないコピーキャット技術の可能性は、大規模なオンライン過激化と採用に重大なリスクをもたらす。 AI利害関係者、政策作成コミュニティ、政府は、機械生成の偽情報やプロパガンダの流入を抑えるために、できるだけ早く、社会規範、公共政策、教育イニシアチブの構築に投資し始めるべきである。 緩和には、産業、政府、市民社会にまたがる効果的な政策とパートナーシップが必要である。

In this paper, we expand on our previous research of the potential for abuse of generative language models by assessing GPT-3. Experimenting with prompts representative of different types of extremist narrative, structures of social interaction, and radical ideologies, we find that GPT-3 demonstrates significant improvement over its predecessor, GPT-2, in generating extremist texts. We also show GPT-3's strength in generating text that accurately emulates interactive, informational, and influential content that could be utilized for radicalizing individuals into violent far-right extremist ideologies and behaviors. While OpenAI's preventative measures are strong, the possibility of unregulated copycat technology represents significant risk for large-scale online radicalization and recruitment; thus, in the absence of safeguards, successful and efficient weaponization that requires little experimentation is likely. AI stakeholders, the policymaking community, and governments should begin investing as soon as possible in building social norms, public policy, and educational initiatives to preempt an influx of machine-generated disinformation and propaganda. Mitigation will require effective policy and partnerships across industry, government, and civil society.
翻訳日:2022-10-18 06:33:54 公開日:2020-09-15
# 科学的フロンティアの高度化と自律システム

Advancing the Scientific Frontier with Increasingly Autonomous Systems ( http://arxiv.org/abs/2009.07363v1 )

ライセンス: Link先を確認
Rashied Amini, Abigail Azari, Shyam Bhaskaran, Patricia Beauchamp, Julie Castillo-Rogez, Rebecca Castano, Seung Chung, John Day, Richard Doyle, Martin Feather, Lorraine Fesq, Jeremy Frank, P. Michael Furlong, Michel Ingham, Brian Kennedy, Ksenia Kolcio, Issa Nesnas, Robert Rasmussen, Glenn Reeves, Cristina Sorice, Bethany Theiling, Jay Wyatt(参考訳) 人と部分的に自律的な機械との密接なパートナーシップは、数十年にわたる宇宙探査を可能にした。 しかし、さらに地平線を広げるためには、我々のシステムはより有能でなければならない。 自律性の性質と程度の向上 – ミッションチームによって指示された独自の決定を,私たちのシステムで実施し,行動可能にする – によって,新たな科学能力が実現され,科学のリターンが向上します。 2011年のPlanetary Science Decadal Survey(PSDS)と現在進行中のミッション前研究は、将来のミッションに必要なコア技術として自律性の向上を特定している。 しかし、科学的な発見が自律システムの開発を必要とし、過去の飛行実証が成功したにもかかわらず、制度上の障壁は、その成熟と既存の惑星ミッションへの注入を制限している。 そこで,本稿の著者や支持者は,自律性を注入する新たなプログラム・パスの開発,自律システムを支援するためのインフラの整備,新しいプラクティスの導入,運用のための費用節約価値の研究を推奨する。

A close partnership between people and partially autonomous machines has enabled decades of space exploration. But to further expand our horizons, our systems must become more capable. Increasing the nature and degree of autonomy - allowing our systems to make and act on their own decisions as directed by mission teams - enables new science capabilities and enhances science return. The 2011 Planetary Science Decadal Survey (PSDS) and on-going pre-Decadal mission studies have identified increased autonomy as a core technology required for future missions. However, even as scientific discovery has necessitated the development of autonomous systems and past flight demonstrations have been successful, institutional barriers have limited its maturation and infusion on existing planetary missions. Consequently, the authors and endorsers of this paper recommend that new programmatic pathways be developed to infuse autonomy, infrastructure for support autonomous systems be invested in, new practices be adopted, and the cost-saving value of autonomy for operations be studied.
翻訳日:2022-10-18 06:32:56 公開日:2020-09-15
# 領域分離によるネットワーク状構造物の接続促進

Promoting Connectivity of Network-Like Structures by Enforcing Region Separation ( http://arxiv.org/abs/2009.07011v1 )

ライセンス: Link先を確認
Doruk Oner and Mateusz Kozi\'nski and Leonardo Citraro and Nathan C. Dadap and Alexandra G. Konings and Pascal Fua(参考訳) 本研究では,深い畳み込みネットワークを訓練し,道路や灌水路などのネットワーク構造を空中画像から再構築する,新たな接続指向損失関数を提案する。 私たちの喪失の背後にある主な考え方は、画像の背景領域間で発生する断線の観点から、道路や運河の接続性を表現することです。 簡単に言うと、予測された道路の隙間は、地上の真理道路の反対側にある2つの背景領域を、予測において接触させる。 損失関数は,背景領域間の不必要な接続を防止し,予測道路の隙間を狭めるように設計されている。 また、背景領域の不当な断線を罰することで、偽陽性道路や運河の予測を防止している。 さらに, 道路区間の短寿命化を図るために, 小型画像作物の損失を評価する。 2つの標準的な道路ベンチマークと、新しい灌水用運河の実験において、損失関数で訓練されたコンブネットが道路接続を回復し、その出力をスケルトン化し、アートマップの状態を生成するのに十分であることを示す。 このアプローチの明確な利点は、損失を追加変更することなく、既存のトレーニングセットアップにプラグインできることです。

We propose a novel, connectivity-oriented loss function for training deep convolutional networks to reconstruct network-like structures, like roads and irrigation canals, from aerial images. The main idea behind our loss is to express the connectivity of roads, or canals, in terms of disconnections that they create between background regions of the image. In simple terms, a gap in the predicted road causes two background regions, that lie on the opposite sides of a ground truth road, to touch in prediction. Our loss function is designed to prevent such unwanted connections between background regions, and therefore close the gaps in predicted roads. It also prevents predicting false positive roads and canals by penalizing unwarranted disconnections of background regions. In order to capture even short, dead-ending road segments, we evaluate the loss in small image crops. We show, in experiments on two standard road benchmarks and a new data set of irrigation canals, that convnets trained with our loss function recover road connectivity so well, that it suffices to skeletonize their output to produce state of the art maps. A distinct advantage of our approach is that the loss can be plugged in to any existing training setup without further modifications.
翻訳日:2022-10-18 06:26:06 公開日:2020-09-15
# 深層学習を用いた創傷位置推定用モバイルアプリ

A Mobile App for Wound Localization using Deep Learning ( http://arxiv.org/abs/2009.07133v1 )

ライセンス: Link先を確認
D. M. Anisuzzaman (1), Yash Patel (1), Jeffrey Niezgoda (2), Sandeep Gopalakrishnan (3), and Zeyun Yu (1,4) ((1) Department of Computer Science, University of Wisconsin-Milwaukee, Milwaukee, WI, USA,(2) Advancing the Zenith of Healthcare (AZH) Wound and Vascular Center, Milwaukee, WI, USA, (3) College of Nursing, University of Wisconsin Milwaukee, Milwaukee, WI, USA,(4) Department of Biomedical Engineering, University of Wisconsin-Milwaukee, Milwaukee, WI, USA.)(参考訳) 深層ニューラルネットワークを用いた2次元創傷・潰瘍画像からの創傷ローカライザーについて, 創傷診断システムの構築に向けた第一歩として紹介する。 創傷ローカライザは、YOLOv3モデルを使用して開発され、iOSモバイルアプリケーションに変換される。 本発明の開発したローカライザは、創傷とその周囲の組織を検出して、創傷領域を画像から分離することができるので、創傷領域の除去による創傷セグメント化や分類などの今後の処理に非常に有用である。 ビデオ処理を備えたモバイルアプリ開発では、小さなYOLOv3と呼ばれるYOLOv3の軽量バージョンが使用されている。 このモデルは、ウィスコンシン州ミルウォーキーのazh wound and vascular centerと共同で、私たちのイメージデータセットでトレーニングとテストを行っています。 YOLOv3モデルはSSDモデルと比較され、YOLOv3はmAP値が93.9%であることを示し、SSDモデル(86.4%)よりもはるかに優れている。 これらのモデルの堅牢性と信頼性も、medetecという公開データセット上でテストされ、非常に優れたパフォーマンスを示している。

We present an automated wound localizer from 2D wound and ulcer images by using deep neural network, as the first step towards building an automated and complete wound diagnostic system. The wound localizer has been developed by using YOLOv3 model, which is then turned into an iOS mobile application. The developed localizer can detect the wound and its surrounding tissues and isolate the localized wounded region from images, which would be very helpful for future processing such as wound segmentation and classification due to the removal of unnecessary regions from wound images. For Mobile App development with video processing, a lighter version of YOLOv3 named tiny-YOLOv3 has been used. The model is trained and tested on our own image dataset in collaboration with AZH Wound and Vascular Center, Milwaukee, Wisconsin. The YOLOv3 model is compared with SSD model, showing that YOLOv3 gives a mAP value of 93.9%, which is much better than the SSD model (86.4%). The robustness and reliability of these models are also tested on a publicly available dataset named Medetec and shows a very good performance as well.
翻訳日:2022-10-18 06:25:00 公開日:2020-09-15
# hgcn-gjs: 追跡予測のためのグループワイズジョイントサンプリングを用いた階層型グラフ畳み込みネットワーク

HGCN-GJS: Hierarchical Graph Convolutional Network with Groupwise Joint Sampling for Trajectory Prediction ( http://arxiv.org/abs/2009.07140v1 )

ライセンス: Link先を確認
Yuying Chen, Congcong Liu, Bertram E. Shi and Ming Liu(参考訳) 正確な歩行者軌道予測は、自動運転や移動ロボットナビゲーションといった下流作業において非常に重要である。 群衆内の社会的相互作用を完全に調査することは、正確な歩行者軌道予測に不可欠である。 しかし、既存の手法の多くはグループレベルの相互作用をうまく捉えておらず、ペア的な相互作用とグループ的な相互作用を無視することだけに焦点を当てている。 本研究では,集団間のグループレベルの相互作用をうまく活用する軌道予測のための階層型グラフ畳み込みネットワークHGCN-GJSを提案する。 さらに,今後,複数の歩行者の関節分布をモデル化するための新しい共同サンプリング手法を提案する。 グループ情報に基づいて、このスキームは、ある人の軌跡とグループ内の他の人々の軌跡を関連付けるが、外部者の軌跡の独立性を維持する。 我々は,複数の軌道予測データセット上でのネットワークの性能を実証し,検討した全データセットの最新の結果を得る。

Accurate pedestrian trajectory prediction is of great importance for downstream tasks such as autonomous driving and mobile robot navigation. Fully investigating the social interactions within the crowd is crucial for accurate pedestrian trajectory prediction. However, most existing methods do not capture group level interactions well, focusing only on pairwise interactions and neglecting group-wise interactions. In this work, we propose a hierarchical graph convolutional network, HGCN-GJS, for trajectory prediction which well leverages group level interactions within the crowd. Furthermore, we introduce a novel joint sampling scheme for modeling the joint distribution of multiple pedestrians in the future trajectories. Based on the group information, this scheme associates the trajectory of one person with the trajectory of other people in the group, but maintains the independence of the trajectories of outsiders. We demonstrate the performance of our network on several trajectory prediction datasets, achieving state-of-the-art results on all datasets considered.
翻訳日:2022-10-18 06:24:42 公開日:2020-09-15
# ビデオ超解像における変形性アライメントの理解

Understanding Deformable Alignment in Video Super-Resolution ( http://arxiv.org/abs/2009.07265v1 )

ライセンス: Link先を確認
Kelvin C.K. Chan, Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy(参考訳) 変形可能な畳み込み(Deformable convolution)は、元来、幾何学的変化に適応するために提案されたが、最近、複数のフレームの整列において魅力的な性能を示しており、ビデオ超解像に採用されている。 その顕著な性能にもかかわらず、その基盤となるアライメントのメカニズムはいまだ不明である。 本研究では,変形可能なアライメントと古典的なフローベースアライメントとの関係を慎重に検討する。 変形可能な畳み込みは,空間的ゆがみと畳み込みの組み合わせに分解できることを示す。 この分解は変形可能なアライメントとフローベースのアライメントの共通性を明らかにするが、オフセットの多様性において重要な違いがある。 さらに、変形可能なアライメントの多様性の増大により、より良いアライメントが得られ、ビデオ超解像出力の品質が大幅に向上することを示す。 本稿では,光学的フローによるオフセット学習を誘導するオフセット忠実度損失を提案する。 実験により、我々の損失はオフセットのオーバーフローを回避し、変形可能なアライメントの不安定性問題を軽減できた。 変形可能なアライメントへの貢献とは別に、私たちの定式化は、フローベースのアライメントにオフセットの多様性を導入し、そのパフォーマンスを向上する、より柔軟なアプローチを生み出します。

Deformable convolution, originally proposed for the adaptation to geometric variations of objects, has recently shown compelling performance in aligning multiple frames and is increasingly adopted for video super-resolution. Despite its remarkable performance, its underlying mechanism for alignment remains unclear. In this study, we carefully investigate the relation between deformable alignment and the classic flow-based alignment. We show that deformable convolution can be decomposed into a combination of spatial warping and convolution. This decomposition reveals the commonality of deformable alignment and flow-based alignment in formulation, but with a key difference in their offset diversity. We further demonstrate through experiments that the increased diversity in deformable alignment yields better-aligned features, and hence significantly improves the quality of video super-resolution output. Based on our observations, we propose an offset-fidelity loss that guides the offset learning with optical flow. Experiments show that our loss successfully avoids the overflow of offsets and alleviates the instability problem of deformable alignment. Aside from the contributions to deformable alignment, our formulation inspires a more flexible approach to introduce offset diversity to flow-based alignment, improving its performance.
翻訳日:2022-10-18 06:23:44 公開日:2020-09-15
# 映像関連課題学習のための時空間ネットワークの比較

Comparison of Spatiotemporal Networks for Learning Video Related Tasks ( http://arxiv.org/abs/2009.07338v1 )

ライセンス: Link先を確認
Logan Courtney, Ramavarapu Sreenivas(参考訳) ビデオシーケンスから学習する多くの方法は、個々のフレームから2D CNNの特徴を時間的に処理することや、高性能な2D CNNアーキテクチャ内の3D畳み込みを直接利用することである。 一般に、時間的処理をすでに安定している空間アーキテクチャに組み込む方法に焦点が当てられている。 この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。 このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。 経験的分析は、空間次元と時間次元の複雑な相互依存関係と、適切な時空間の特徴を学習するネットワークの能力に大きな影響を与える設計選択を示す。

Many methods for learning from video sequences involve temporally processing 2D CNN features from the individual frames or directly utilizing 3D convolutions within high-performing 2D CNN architectures. The focus typically remains on how to incorporate the temporal processing within an already stable spatial architecture. This work constructs an MNIST-based video dataset with parameters controlling relevant facets of common video-related tasks: classification, ordering, and speed estimation. Models trained on this dataset are shown to differ in key ways depending on the task and their use of 2D convolutions, 3D convolutions, or convolutional LSTMs. An empirical analysis indicates a complex, interdependent relationship between the spatial and temporal dimensions with design choices having a large impact on a network's ability to learn the appropriate spatiotemporal features.
翻訳日:2022-10-18 06:23:01 公開日:2020-09-15
# ファイングラインド名前認識のためのカスケードモデル

Cascaded Models for Better Fine-Grained Named Entity Recognition ( http://arxiv.org/abs/2009.07317v1 )

ライセンス: Link先を確認
Parul Awasthy and Taesun Moon and Jian Ni and Radu Florian(参考訳) 名前付きエンティティ認識(NER)は、関係抽出やイベント抽出など、多くの自然言語アプリケーションにとって必須のタスクである。 NERの研究の多くは、いくつかのエンティティタイプ(PER、LOC、ORG、MISCなど)を持つデータセットで行われているが、多くの現実世界のアプリケーション(災害救助、複雑なイベント抽出、法執行)はより大きなNERタイプセットの恩恵を受けることができる。 最近では、数百から数千種類のエンティティを持つデータセットが作成され、新しい研究のラインが引き起こされた(Sekine, 2008;Ling and Weld, 2012; Gillick et al., 2014; Choiet al., 2018)。 本稿では,TAC KBP 2019評価(Ji et al., 2019)で新たにリリースされた粒度NERデータセットに適用した,粒度NERのラベル付けに対するカスケード手法を提案する。 トランスフォーマーネットワークの組み合わせを用いて,完全細粒度型に構築された単純なモデルと比較して,約20f1の絶対値で性能が向上できることを示し,驚くことに,3つの言語でコースラベルデータを使用することで,英語データの改善につながることを示した。

Named Entity Recognition (NER) is an essential precursor task for many natural language applications, such as relation extraction or event extraction. Much of the NER research has been done on datasets with few classes of entity types (e.g. PER, LOC, ORG, MISC), but many real world applications (disaster relief, complex event extraction, law enforcement) can benefit from a larger NER typeset. More recently, datasets were created that have hundreds to thousands of types of entities, sparking new lines of research (Sekine, 2008;Ling and Weld, 2012; Gillick et al., 2014; Choiet al., 2018). In this paper we present a cascaded approach to labeling fine-grained NER, applying to a newly released fine-grained NER dataset that was used in the TAC KBP 2019 evaluation (Ji et al., 2019), inspired by the fact that training data is available for some of the coarse labels. Using a combination of transformer networks, we show that performance can be improved by about 20 F1 absolute, as compared with the straightforward model built on the full fine-grained types, and show that, surprisingly, using course-labeled data in three languages leads to an improvement in the English data.
翻訳日:2022-10-18 06:17:26 公開日:2020-09-15
# 適応テストの実践における単調性

Monotonicity in practice of adaptive testing ( http://arxiv.org/abs/2009.06981v1 )

ライセンス: Link先を確認
Martin Plajner and Ji\v{r}\'i Vomlel(参考訳) これまでの研究では,ベイジアンネットワークが学生のスキルの適応テストにどのように利用できるかを示した。 その後,データに適合するモデルをよりよく学習するために,単調性制限の利点を生かした。 本稿では,この2つの相間の相乗効果について,計算機適応テストに使用されるベイズネットワークモデルを評価し,最近提案する単調性勾配アルゴリズムを用いて学習する。 この学習法は他のモノトーン法である等調回帰EMアルゴリズムと比較する。 方法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。 適応テストアプローチの利点に加えて、特に学習データセットのサイズが小さい場合、単調手法の有利な振る舞いも観察した。 この研究のもう1つの目新しさは、学生の最終スコアと成績を予測するために使用されるスコア分布の信頼性区間の使用である。 実験では、信頼性を維持しながらテストを短縮できることを明確に示しました。 また,単調性はトレーニングデータセットに制限を加えて予測品質を向上することを示した。 グラデーション法で学習した単音モデルは,制約のないモデルよりも質問予測品質が低いが,本アプリケーションの主な目標である学生スコア予測の方が優れている。 モデルの可能性や予測精度の最適化が必ずしも生徒のベストを記述したモデルに繋がるとは限らないことは重要な観察である。

In our previous work we have shown how Bayesian networks can be used for adaptive testing of student skills. Later, we have taken the advantage of monotonicity restrictions in order to learn models fitting data better. This article provides a synergy between these two phases as it evaluates Bayesian network models used for computerized adaptive testing and learned with a recently proposed monotonicity gradient algorithm. This learning method is compared with another monotone method, the isotonic regression EM algorithm. The quality of methods is empirically evaluated on a large data set of the Czech National Mathematics Exam. Besides advantages of adaptive testing approach we observed also advantageous behavior of monotonic methods, especially for small learning data set sizes. Another novelty of this work is the use of the reliability interval of the score distribution, which is used to predict student's final score and grade. In the experiments we have clearly shown we can shorten the test while keeping its reliability. We have also shown that the monotonicity increases the prediction quality with limited training data sets. The monotone model learned by the gradient method has a lower question prediction quality than unrestricted models but it is better in the main target of this application, which is the student score prediction. It is an important observation that a mere optimization of the model likelihood or the prediction accuracy do not necessarily lead to a model that describes best the student.
翻訳日:2022-10-18 06:16:22 公開日:2020-09-15
# 疾患予測のための一般DeepLCPモデル : 肺癌の1例

General DeepLCP model for disease prediction : Case of Lung Cancer ( http://arxiv.org/abs/2009.07362v1 )

ライセンス: Link先を確認
Mayssa Ben Kahla and Dalel Kanzari and Ahmed Maalel(参考訳) gho(global health observatory, gho)によると、虚血性心疾患、脳卒中、肺癌、呼吸器感染症などの多種多様な疾患が、過去10年間にわたってトップキラーに留まっている。 これらの疾患による死亡数の増大は、非常に遅れた症状の検出によるものである。 早期から症状は無意味で良性疾患(インフルエンザなど)と類似しており、進行段階においてのみ検出できる。 さらに、健康に有害な不適切な行為の頻度、遺伝要因、ストレスの多い生活条件が死亡率を増加させる可能性がある。 多くの研究がこの致命的な病気に対処し、その多くは画像診断に機械学習モデルを適用した。 しかし、画像の欠点は、非常に遅延した段階でのみ病気を検出でき、患者を救えなくなることである。 本稿では,人命の危険を冒す致命的な病気を予測するための新しいアプローチ「DeepLCP」を提案する。 主に、関係する(または未試験の)人の生データと異種データに基づいています。 自然言語処理 (nlp) と深層学習パラダイムの組み合わせによる「深層lcp」の結果について, 肺がん予測における提案モデルの実験結果から, 高い精度と低損失データ率が確認された。

According to GHO (Global Health Observatory (GHO), the high prevalence of a large variety of diseases such as Ischaemic heart disease, stroke, lung cancer disease and lower respiratory infections have remained the top killers during the past decade. The growth in the number of mortalities caused by these disease is due to the very delayed symptoms'detection. Since in the early stages, the symptoms are insignificant and similar to those of benign diseases (e.g. the flu ), and we can only detect the disease at an advanced stage. In addition, The high frequency of improper practices that are harmful to health, the hereditary factors, and the stressful living conditions can increase the death rates. Many researches dealt with these fatal disease, and most of them applied advantage machine learning models to deal with image diagnosis. However the drawback is that imagery permit only to detect disease at a very delayed stage and then patient can hardly be saved. In this Paper we present our new approach "DeepLCP" to predict fatal diseases that threaten people's lives. It's mainly based on raw and heterogeneous data of the concerned (or under-tested) person. "DeepLCP" results of a combination combination of the Natural Language Processing (NLP) and the deep learning paradigm.The experimental results of the proposed model in the case of Lung cancer prediction have approved high accuracy and a low loss data rate during the validation of the disease prediction.
翻訳日:2022-10-18 06:16:03 公開日:2020-09-15
# 3dpvnet: 6次元ポーズ推定のためのパッチレベルの3dハフ投票ネットワーク

3DPVNet: Patch-level 3D Hough Voting Network for 6D Pose Estimation ( http://arxiv.org/abs/2009.06887v1 )

ライセンス: Link先を確認
Yuanpeng Liu, Jun Zhou, Yuqi Zhang, Chao Ding, Jun Wang(参考訳) 本稿では,点雲中の物体の6次元ポーズを推定することに焦点を当てる。 この話題は広く研究されているが、ノイズや閉塞のため、点雲でのポーズ推定は難しい問題である。 この問題に対処するために、3Dローカルパッチを使用してオブジェクト6Dポーズに投票する新しい3DPVNetを提案する。 3DPVNetは3つのモジュールで構成される。 特に、Patch Unification(\textbf{PU})モジュールが最初に導入され、入力パッチを正規化し、標準のローカル座標フレームを作成して信頼性の高い投票を生成する。 次に、ネットワーク内の重み付き隣り合う特徴フュージョン(\textbf{WNFF})モジュールを考案し、隣り合う特徴を融合させて中心パッチに半グローバルな特徴を与える。 WNFFモジュールは局所的なパッチの隣り合う情報をマイニングし、局所的な幾何学的特徴に対する表現能力が大幅に向上し、あるレベルのノイズに頑健になる。 さらに,パッチレベルの投票 (\textbf{pv}) モジュールを導入し,変換をレグレッションし,投票結果を生成する。 パッチから全ての投票を集計し、改良ステップを施した後、オブジェクトの最終的なポーズを得ることができる。 最近の投票方式と比較して、3DPVNetはパッチレベルであり、ポイントクラウド上で直接実行される。 したがって、3DPVNetは点/画素レベルの投票方式よりも少ない計算を実現し、部分データに対して堅牢である。 いくつかのデータセットの実験では、3DPVNetが最先端のパフォーマンスを実現し、ノイズや閉塞に対して堅牢であることが示された。

In this paper, we focus on estimating the 6D pose of objects in point clouds. Although the topic has been widely studied, pose estimation in point clouds remains a challenging problem due to the noise and occlusion. To address the problem, a novel 3DPVNet is presented in this work, which utilizes 3D local patches to vote for the object 6D poses. 3DPVNet is comprised of three modules. In particular, a Patch Unification (\textbf{PU}) module is first introduced to normalize the input patch, and also create a standard local coordinate frame on it to generate a reliable vote. We then devise a Weight-guided Neighboring Feature Fusion (\textbf{WNFF}) module in the network, which fuses the neighboring features to yield a semi-global feature for the center patch. WNFF module mines the neighboring information of a local patch, such that the representation capability to local geometric characteristics is significantly enhanced, making the method robust to a certain level of noise. Moreover, we present a Patch-level Voting (\textbf{PV}) module to regress transformations and generates pose votes. After the aggregation of all votes from patches and a refinement step, the final pose of the object can be obtained. Compared to recent voting-based methods, 3DPVNet is patch-level, and directly carried out on point clouds. Therefore, 3DPVNet achieves less computation than point/pixel-level voting scheme, and has robustness to partial data. Experiments on several datasets demonstrate that 3DPVNet achieves the state-of-the-art performance, and is also robust against noise and occlusions.
翻訳日:2022-10-18 06:15:39 公開日:2020-09-15
# ビデオ行動認識のためのパラメータ領域とスペクトル領域の協調蒸留

Collaborative Distillation in the Parameter and Spectrum Domains for Video Action Recognition ( http://arxiv.org/abs/2009.06902v1 )

ライセンス: Link先を確認
Haisheng Su, Jing Su, Dongliang Wang, Weihao Gan, Wei Wu, Mengmeng Wang, Junjie Yan, Yu Qiao(参考訳) 近年、ディープネットワークによる行動認識タスクの著しい進歩が目撃されている。 しかし、現在のビデオネットワークのほとんどが大きなメモリと計算リソースを必要とするため、実際の運用を妨げている。 既存の知識蒸留法は画像レベルの空間領域に限定され、構造的知識を提供し、映像解析に重要な時間的・周波数的情報を無視している。 本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。 具体的には,周波数領域,すなわち特徴スペクトルとパラメータ分布蒸留の2つの蒸留方法を提案する。 私たちの洞察では、アクション認識の魅力的な性能には、ビデオ機能の時間周波数スペクトルをモデル化する \textit{explicitly} が必要です。 そこで,本研究では,教師ネットワークの時間周波数スペクトルを再現するために学生ネットワークを強制するスペクトル損失について紹介する。 第二に、生徒ネットワークを誘導するためにパラメータ頻度分布を更に導入し、教師から外観モデリング過程を学習する。 さらに,確率的視点から学習プロセスを最適化するための協調学習戦略も提示されている。 提案手法の有効性を連続的に検証し, 提案手法が, 同じバックボーンを持つ最先端手法よりも高い性能を達成できることを実証する。

Recent years have witnessed the significant progress of action recognition task with deep networks. However, most of current video networks require large memory and computational resources, which hinders their applications in practice. Existing knowledge distillation methods are limited to the image-level spatial domain, ignoring the temporal and frequency information which provide structural knowledge and are important for video analysis. This paper explores how to train small and efficient networks for action recognition. Specifically, we propose two distillation strategies in the frequency domain, namely the feature spectrum and parameter distribution distillations respectively. Our insight is that appealing performance of action recognition requires \textit{explicitly} modeling the temporal frequency spectrum of video features. Therefore, we introduce a spectrum loss that enforces the student network to mimic the temporal frequency spectrum from the teacher network, instead of \textit{implicitly} distilling features as many previous works. Second, the parameter frequency distribution is further adopted to guide the student network to learn the appearance modeling process from the teacher. Besides, a collaborative learning strategy is presented to optimize the training process from a probabilistic view. Extensive experiments are conducted on several action recognition benchmarks, such as Kinetics, Something-Something, and Jester, which consistently verify effectiveness of our approach, and demonstrate that our method can achieve higher performance than state-of-the-art methods with the same backbone.
翻訳日:2022-10-18 06:15:09 公開日:2020-09-15
# エンドツーエンド中国の意味的役割ラベル作成のための高次精錬

High-order Refining for End-to-end Chinese Semantic Role Labeling ( http://arxiv.org/abs/2009.06957v1 )

ライセンス: Link先を確認
Hao Fei and Yafeng Ren and Donghong Ji(参考訳) 現在のエンドツーエンドのセマンティックロールラベリングは、主にグラフベースのニューラルモデルによって実現されている。 しかし、これらは全て一階モデルであり、述語対を検出するための各決定は、局所的な特徴と独立に行われる。 本稿では,すべての述語対間の相互作用を行う高次精製機構を提案する。 ベースライングラフモデルに基づいて、我々の高次精製モジュールは、後に元のトークン表現を更新するために使用される注意計算により、すべての候補ペア間の高次特徴を学習する。 改良を繰り返した後、基盤となるトークン表現は、グローバルに相互作用した機能で拡張することができる。 当社の高次モデルでは,CoNLL09やUniversal Proposition Bankなど,中国のSRLデータに関する最新結果が得られている。

Current end-to-end semantic role labeling is mostly accomplished via graph-based neural models. However, these all are first-order models, where each decision for detecting any predicate-argument pair is made in isolation with local features. In this paper, we present a high-order refining mechanism to perform interaction between all predicate-argument pairs. Based on the baseline graph model, our high-order refining module learns higher-order features between all candidate pairs via attention calculation, which are later used to update the original token representations. After several iterations of refinement, the underlying token representations can be enriched with globally interacted features. Our high-order model achieves state-of-the-art results on Chinese SRL data, including CoNLL09 and Universal Proposition Bank, meanwhile relieving the long-range dependency issues.
翻訳日:2022-10-18 06:07:38 公開日:2020-09-15
# 大規模フィードバックデータを用いた対話応答ランキングトレーニング

Dialogue Response Ranking Training with Large-Scale Human Feedback Data ( http://arxiv.org/abs/2009.06978v1 )

ライセンス: Link先を確認
Xiang Gao, Yizhe Zhang, Michel Galley, Chris Brockett, Bill Dolan(参考訳) 既存のオープンドメインダイアログモデルは通常、ターゲットとする人間の応答の難易度を最小限に抑えるために訓練される。 しかしながら、一部のヒトの反応は他の反応よりも活発であり、フォローアップの相互作用を生じさせる。 現在の会話モデルは、コンテキストに関連のあるターンを生成する能力がますます高まっているが、説得力のあるエージェントを生成するためには、これらのモデルは真に魅力的なターンを予測し、最適化する必要がある。 我々は,ソーシャルメディアのフィードバックデータ(応答数と起動数)を活用して,フィードバック予測のための大規模トレーニングデータセットを構築する。 フィードバックとエンゲージメントのゆがみを緩和するため,ランキング問題を,結合要因の少ない応答対の比較に転換する。 我々は,1300万組の人間のフィードバックデータに基づくGPT-2に基づくモデルであるDialogRPTを訓練した。 特に,我々のランキングは,Redditのフィードバック予測において,従来のダイアログの難易度ベースラインよりも優れていた。 最後に、フィードバック予測モデルと人間ライクなスコアリングモデルを組み合わせて、マシンが生成したダイアログ応答をランク付けする。 クラウドソーシングによる人格評価では,評価手法がベースラインモデルよりも実際の人格とよく相関することが示された。

Existing open-domain dialog models are generally trained to minimize the perplexity of target human responses. However, some human replies are more engaging than others, spawning more followup interactions. Current conversational models are increasingly capable of producing turns that are context-relevant, but in order to produce compelling agents, these models need to be able to predict and optimize for turns that are genuinely engaging. We leverage social media feedback data (number of replies and upvotes) to build a large-scale training dataset for feedback prediction. To alleviate possible distortion between the feedback and engagingness, we convert the ranking problem to a comparison of response pairs which involve few confounding factors. We trained DialogRPT, a set of GPT-2 based models on 133M pairs of human feedback data and the resulting ranker outperformed several baselines. Particularly, our ranker outperforms the conventional dialog perplexity baseline with a large margin on predicting Reddit feedback. We finally combine the feedback prediction models and a human-like scoring model to rank the machine-generated dialog responses. Crowd-sourced human evaluation shows that our ranking method correlates better with real human preferences than baseline models.
翻訳日:2022-10-18 06:07:24 公開日:2020-09-15
# 構文特徴を用いた関節層rnnに基づくキーフレーズ抽出の改善

Improving Joint Layer RNN based Keyphrase Extraction by Using Syntactical Features ( http://arxiv.org/abs/2009.07119v1 )

ライセンス: Link先を確認
Miftahul Mahfuzh, Sidik Soleman, Ayu Purwarianti(参考訳) キーワード抽出は、テキストから重要な単語やフレーズを識別するタスクであり、ソーシャルメディアプラットフォームからテキストを分析する際、主要なトピックを識別する重要なプロセスである。 本研究では,インドネシア語で書かれたテキストをTwitterから抽出した。 本稿では,1つのキーワード列を出力し,単語埋め込みのみを用いることで,元の関節層リカレントニューラルネットワーク(JRNN)とは違って,音声の一部,名前付きエンティティタイプ,依存関係構造といった構文的特徴の付加情報を用いて,複数のキーワード列を抽出するために,JRNNの入力層を変更することを提案する。 JRNNは,トレーニング例として大量のデータを必要とし,それらの作成には費用がかかるため,トレーニング例の数を増やすためにデータ拡張手法を用いた。 実験の結果,本手法がベースライン法を上回った。 精度は.9597、F1は.7691であった。

Keyphrase extraction as a task to identify important words or phrases from a text, is a crucial process to identify main topics when analyzing texts from a social media platform. In our study, we focus on text written in Indonesia language taken from Twitter. Different from the original joint layer recurrent neural network (JRNN) with output of one sequence of keywords and using only word embedding, here we propose to modify the input layer of JRNN to extract more than one sequence of keywords by additional information of syntactical features, namely part of speech, named entity types, and dependency structures. Since JRNN in general requires a large amount of data as the training examples and creating those examples is expensive, we used a data augmentation method to increase the number of training examples. Our experiment had shown that our method outperformed the baseline methods. Our method achieved .9597 in accuracy and .7691 in F1.
翻訳日:2022-10-18 06:06:38 公開日:2020-09-15
# 電子商取引商品のマルチモーダル共同属性予測と価値抽出

Multimodal Joint Attribute Prediction and Value Extraction for E-commerce Product ( http://arxiv.org/abs/2009.07162v1 )

ライセンス: Link先を確認
Tiangang Zhu, Yue Wang, Haoran Li, Youzheng Wu, Xiaodong He and Bowen Zhou(参考訳) 製品属性の価値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのeコマースシナリオにおいて不可欠です。 現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。 本稿では,商品の属性を共同で予測し,製品画像の助けを借りてテキストによる製品記述から価値を抽出するマルチモーダル手法を提案する。 製品属性と価値は高い相関関係にあり、例えば、製品属性が与えられることを条件に値を抽出するのが容易である。 そこで我々は属性と値の相互作用に向け,属性予測と値抽出タスクを複数の側面から共同でモデル化する。 さらに、製品イメージは、異なる製品属性と値のタスクに異なる影響を与えます。 そこで,製品画像から有用な視覚情報を選択的に抽出し,モデルを強化する。 本研究では,87,194のインスタンスを含むマルチモーダル製品属性値データセットに注釈を付けるとともに,属性と値の関係を明示的にモデル化することで,それらの対応性を確立し,視覚的製品情報を選択的に活用できることを実証する。 私たちのコードとデータセットは一般公開されます。

Product attribute values are essential in many e-commerce scenarios, such as customer service robots, product recommendations, and product retrieval. While in the real world, the attribute values of a product are usually incomplete and vary over time, which greatly hinders the practical applications. In this paper, we propose a multimodal method to jointly predict product attributes and extract values from textual product descriptions with the help of the product images. We argue that product attributes and values are highly correlated, e.g., it will be easier to extract the values on condition that the product attributes are given. Thus, we jointly model the attribute prediction and value extraction tasks from multiple aspects towards the interactions between attributes and values. Moreover, product images have distinct effects on our tasks for different product attributes and values. Thus, we selectively draw useful visual information from product images to enhance our model. We annotate a multimodal product attribute value dataset that contains 87,194 instances, and the experimental results on this dataset demonstrate that explicitly modeling the relationship between attributes and values facilitates our method to establish the correspondence between them, and selectively utilizing visual product information is necessary for the task. Our code and dataset will be released to the public.
翻訳日:2022-10-18 06:06:03 公開日:2020-09-15
# 非自己回帰型ニューラルマシン翻訳における連続空間の反復的洗練

Iterative Refinement in the Continuous Space for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2009.07177v1 )

ライセンス: Link先を確認
Jason Lee, Raphael Shu, Kyunghyun Cho(参考訳) 連続空間において純粋に翻訳を洗練する非自己回帰機械翻訳の効率的な推論手法を提案する。 機械翻訳のための連続潜時変数モデル(Shu et al., 2020)が与えられた場合、我々は、潜時変数のみを入力として、ターゲット文の限界対数確率の勾配を近似するために推論ネットワークを訓練する。 これにより、勾配に基づく最適化を用いて、その限界確率をほぼ最大化する推定時間で対象文を見つけることができる。 各改良ステップは低次元の潜在空間でのみ計算を行うため(実験では8個)、トークン空間でしばしば洗練される既存の非自己回帰推論手順によって生じる計算オーバーヘッドを回避する。 提案手法は, 離散変数と連続変数の両方からなるハイブリッド空間を最適化する最近提案されているemライクな推論手順 (shu et al., 2020) と比較する。 wmt'14 en-de, wmt'16 ro-en および iwslt'16 de-en に対するアプローチを評価し,em 的な推論に対する2つの利点を考察した。 例えば、WMT'14 En-Deでは、翻訳品質(0.9BLEU)の低下を最小限に抑えた自己回帰モデルよりも6.2倍高速にデコードできる。

We propose an efficient inference procedure for non-autoregressive machine translation that iteratively refines translation purely in the continuous space. Given a continuous latent variable model for machine translation (Shu et al., 2020), we train an inference network to approximate the gradient of the marginal log probability of the target sentence, using only the latent variable as input. This allows us to use gradient-based optimization to find the target sentence at inference time that approximately maximizes its marginal probability. As each refinement step only involves computation in the latent space of low dimensionality (we use 8 in our experiments), we avoid computational overhead incurred by existing non-autoregressive inference procedures that often refine in token space. We compare our approach to a recently proposed EM-like inference procedure (Shu et al., 2020) that optimizes in a hybrid space, consisting of both discrete and continuous variables. We evaluate our approach on WMT'14 En-De, WMT'16 Ro-En and IWSLT'16 De-En, and observe two advantages over the EM-like inference: (1) it is computationally efficient, i.e. each refinement step is twice as fast, and (2) it is more effective, resulting in higher marginal probabilities and BLEU scores with the same number of refinement steps. On WMT'14 En-De, for instance, our approach is able to decode 6.2 times faster than the autoregressive model with minimal degradation to translation quality (0.9 BLEU).
翻訳日:2022-10-18 06:05:43 公開日:2020-09-15
# 言語間のトリガー検出を支援するEvent Presence Prediction

Event Presence Prediction Helps Trigger Detection Across Languages ( http://arxiv.org/abs/2009.07188v1 )

ライセンス: Link先を確認
Parul Awasthy and Tahira Naseem and Jian Ni and Taesun Moon and Radu Florian(参考訳) イベント検出と分類のタスクは、ほとんどの情報検索アプリケーションの中心である。 トランスフォーマティブベースのアーキテクチャは,イベント抽出をシーケンスラベリングタスクとして効果的にモデル化できることを示す。 本稿では,bertに基づくイベント抽出モデルの性能を著しく向上させる文レベルとトークンレベルのトレーニング目標の組み合わせを提案する。 提案手法は,英語と中国語のACE 2005データに対する最先端性能を実現する。 また、ere spanishでモデルをテストし、事前のベストパフォーマンスモデルよりも2つの絶対的なf1ポイントを獲得しました。

The task of event detection and classification is central to most information retrieval applications. We show that a Transformer based architecture can effectively model event extraction as a sequence labeling task. We propose a combination of sentence level and token level training objectives that significantly boosts the performance of a BERT based event extraction model. Our approach achieves a new state-of-the-art performance on ACE 2005 data for English and Chinese. We also test our model on ERE Spanish, achieving an average gain of 2 absolute F1 points over prior best performing model.
翻訳日:2022-10-18 06:05:15 公開日:2020-09-15
# グラフインダクティブ学習表現を用いたpolyp-artifact関係解析

Polyp-artifact relationship analysis using graph inductive learned representations ( http://arxiv.org/abs/2009.07109v1 )

ライセンス: Link先を確認
Roger D. Soberanis-Mukul, Shadi Albarqouni, Nassir Navab(参考訳) 大腸癌の診断プロセスは主にポリープとして知られる大腸組織における異常増殖の局在と特徴に焦点を当てている。 近年の深層物体の局在化の進展にもかかわらず、組織と高レベルのアーティファクトとの類似性のため、ポリプの局在は依然として困難である。 近年の研究では、ポリープ検出タスクにおけるアーティファクトの存在によるネガティブな影響が示されており、トレーニングプロセス内でこれらを考慮し始めている。 しかし, ポリープやアーティファクトの空間的相互作用に関する事前知識の利用は検討されていない。 この作業では、アーティファクト知識を後処理のステップに組み込む。 本手法は,この課題をインダクティブグラフ表現学習問題としてモデル化し,学習手順と推論ステップから構成する。 検出されたポリプとアーティファクトのバウンディングボックスは、定義された基準によって接続されるノードとみなされる。 トレーニングステップは、接地真理境界ボックスを持つノード分類器を生成する。 推論では、この分類器を用いて、地域提案ネットワークによって与えられるアーティファクトとポリプ予測から生成された第2のグラフを分析する。 接続性やアーティファクトの選択が提案手法の性能にどのように影響するかを評価し,地域提案ネットワークの結果から偽陽性を低減できる可能性が示された。

The diagnosis process of colorectal cancer mainly focuses on the localization and characterization of abnormal growths in the colon tissue known as polyps. Despite recent advances in deep object localization, the localization of polyps remains challenging due to the similarities between tissues, and the high level of artifacts. Recent studies have shown the negative impact of the presence of artifacts in the polyp detection task, and have started to take them into account within the training process. However, the use of prior knowledge related to the spatial interaction of polyps and artifacts has not yet been considered. In this work, we incorporate artifact knowledge in a post-processing step. Our method models this task as an inductive graph representation learning problem, and is composed of training and inference steps. Detected bounding boxes around polyps and artifacts are considered as nodes connected by a defined criterion. The training step generates a node classifier with ground truth bounding boxes. In inference, we use this classifier to analyze a second graph, generated from artifact and polyp predictions given by region proposal networks. We evaluate how the choices in the connectivity and artifacts affect the performance of our method and show that it has the potential to reduce the false positives in the results of a region proposal network.
翻訳日:2022-10-18 05:59:39 公開日:2020-09-15
# PointIso:注意に基づくセグメンテーションによるLC-MSマップの任意精度ペプチド特徴検出のためのポイントクラウドに基づくディープラーニングモデル

PointIso: Point Cloud Based Deep Learning Model for Detecting Arbitrary-Precision Peptide Features in LC-MS Map through Attention Based Segmentation ( http://arxiv.org/abs/2009.07250v1 )

ライセンス: Link先を確認
Fatema Tuz Zohora, M Ziaur Rahman, Ngoc Hieu Tran, Lei Xin, Baozhen Shan, Ming Li(参考訳) 疾患バイオマーカーを発見するための有望な技術は、タンデム質量分析法(LC-MS/MS)を用いた液体クロマトグラフィーにより、複数のバイオ流体試料中の相対的なタンパク質量を測定することである。 重要なステップは、LC-MSマップにおけるペプチドの特徴の検出と、その電荷と強度である。 既存のヒューリスティックアルゴリズムはパラメータの異なる設定が著しく異なる結果をもたらすため、不正確なパラメータに悩まされる。 そこで,本研究では,ペプチド特徴検出のための自動システムの必要性を満たすため,適切なパラメータ自体を探索し,異なる種類のデータセットに容易に適応できるポイントイソを提案する。 ペプチドの特徴の多相性パターンをセグメンテーションするための注意に基づく走査ステップと、これらの同位体を潜在的ペプチドの特徴に分類するシーケンス分類ステップから構成される。 PointIsoは、この問題に対処する最初のポイントクラウドベースの、任意の精度のディープラーニングネットワークであり、他の広く使われているアルゴリズムよりも高いベンチマークデータセットにおいて、高品質なMS/MS識別を98%検出する。 プロテオミクス研究に寄与するだけでなく、我々の新しいセグメンテーション技術は一般的な画像処理領域にも役立つべきだと考えています。

A promising technique of discovering disease biomarkers is to measure the relative protein abundance in multiple biofluid samples through liquid chromatography with tandem mass spectrometry (LC-MS/MS) based quantitative proteomics. The key step involves peptide feature detection in LC-MS map, along with its charge and intensity. Existing heuristic algorithms suffer from inaccurate parameters since different settings of the parameters result in significantly different outcomes. Therefore, we propose PointIso, to serve the necessity of an automated system for peptide feature detection that is able to find out the proper parameters itself, and is easily adaptable to different types of datasets. It consists of an attention based scanning step for segmenting the multi-isotopic pattern of peptide features along with charge and a sequence classification step for grouping those isotopes into potential peptide features. PointIso is the first point cloud based, arbitrary-precision deep learning network to address the problem and achieves 98% detection of high quality MS/MS identifications in a benchmark dataset, which is higher than several other widely used algorithms. Besides contributing to the proteomics study, we believe our novel segmentation technique should serve the general image processing domain as well.
翻訳日:2022-10-18 05:59:02 公開日:2020-09-15
# the facechannel: 表情認識のための高速で激怒するディープニューラルネットワーク

The FaceChannel: A Fast & Furious Deep Neural Network for Facial Expression Recognition ( http://arxiv.org/abs/2009.07635v1 )

ライセンス: Link先を確認
Pablo Barros, Nikhil Churamani and Alessandra Sciutti(参考訳) 顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。 FERの動的条件を考えると、この特性は一般的な影響認識として使用されるようなモデルを妨げる。 本稿では、一般的なディープニューラルネットワークよりもパラメータが少ない軽量ニューラルネットワークであるFaceChannelを形式化し、この問題に対処する。 本稿では,ネットワーク最終層における顔特徴の学習を支援する抑制層を導入し,学習可能なパラメータの数を削減しつつ性能を向上させる。 モデルを評価するために、我々は異なるベンチマークデータセットで一連の実験を行い、FaceChannelがFERの現在の最先端技術に匹敵するパフォーマンスを達成しているかを実証した。 我々の実験は、モデルが異なる感情認識条件でどのように振る舞うかを推定するクロスデータセット分析を含む。 結論として,facechannelが学習した顔の特徴を異なるデータセットに適応させる方法について分析した。

Current state-of-the-art models for automatic Facial Expression Recognition (FER) are based on very deep neural networks that are effective but rather expensive to train. Given the dynamic conditions of FER, this characteristic hinders such models of been used as a general affect recognition. In this paper, we address this problem by formalizing the FaceChannel, a light-weight neural network that has much fewer parameters than common deep neural networks. We introduce an inhibitory layer that helps to shape the learning of facial features in the last layer of the network and thus improving performance while reducing the number of trainable parameters. To evaluate our model, we perform a series of experiments on different benchmark datasets and demonstrate how the FaceChannel achieves a comparable, if not better, performance to the current state-of-the-art in FER. Our experiments include cross-dataset analysis, to estimate how our model behaves on different affective recognition conditions. We conclude our paper with an analysis of how FaceChannel learns and adapt the learned facial features towards the different datasets.
翻訳日:2022-10-18 05:58:15 公開日:2020-09-15
# 新型ct分類のためのネット再設計によるコントラスト型クロスサイト学習

Contrastive Cross-site Learning with Redesigned Net for COVID-19 CT Classification ( http://arxiv.org/abs/2009.07652v1 )

ライセンス: Link先を確認
Zhao Wang, Quande Liu, and Qi Dou(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックにより、世界の公衆衛生危機が数百カ国で拡大している。 新規感染の継続的な拡大に伴い,CT画像を用いた新型コロナウイルス自動診断ツールの開発が望まれており,画像解釈の面倒な作業量を削減することが望まれている。 機械学習手法を開発するためのデータセットを拡大するためには、さまざまな医療システムからケースを集約して、堅牢で一般化可能なモデルを学ぶことが本質的に有用である。 本稿では、分布不一致のある異種データセットを効果的に学習することにより、正確な新型コロナウイルス識別を行うための新しい共同学習フレームワークを提案する。 我々は,最近提案されたcovid-19-netをネットワークアーキテクチャと学習戦略の観点から再設計し,予測精度と学習効率を向上させることで,強力なバックボーンを構築した。 改良されたバックボーンに加えて、潜在空間における特徴正規化を別々に行うことで、クロスサイト領域シフトに対処する。 さらに,各データセットの分類性能を高めるために,セマンティック埋め込みの領域不変性を高めるために,対照的な学習目標を提案する。 CT画像を用いた2つの大規模COVID-19診断データセットを用いて本手法の開発と評価を行った。 大規模な実験により、我々のアプローチは両方のデータセットのパフォーマンスを一貫して改善し、各データセットでトレーニングされたオリジナルのCOVID-Netをそれぞれ12.16%、AUCで14.23%上回る結果となった。

The pandemic of coronavirus disease 2019 (COVID-19) has lead to a global public health crisis spreading hundreds of countries. With the continuous growth of new infections, developing automated tools for COVID-19 identification with CT image is highly desired to assist the clinical diagnosis and reduce the tedious workload of image interpretation. To enlarge the datasets for developing machine learning methods, it is essentially helpful to aggregate the cases from different medical systems for learning robust and generalizable models. This paper proposes a novel joint learning framework to perform accurate COVID-19 identification by effectively learning with heterogeneous datasets with distribution discrepancy. We build a powerful backbone by redesigning the recently proposed COVID-Net in aspects of network architecture and learning strategy to improve the prediction accuracy and learning efficiency. On top of our improved backbone, we further explicitly tackle the cross-site domain shift by conducting separate feature normalization in latent space. Moreover, we propose to use a contrastive training objective to enhance the domain invariance of semantic embeddings for boosting the classification performance on each dataset. We develop and evaluate our method with two public large-scale COVID-19 diagnosis datasets made up of CT images. Extensive experiments show that our approach consistently improves the performances on both datasets, outperforming the original COVID-Net trained on each dataset by 12.16% and 14.23% in AUC respectively, also exceeding existing state-of-the-art multi-site learning methods.
翻訳日:2022-10-18 05:57:45 公開日:2020-09-15
# 胸部x線画像を用いたcovid-19診断のための深層畳み込みニューラルネットワーク

Fused Deep Convolutional Neural Network for Precision Diagnosis of COVID-19 Using Chest X-Ray Images ( http://arxiv.org/abs/2009.08831v1 )

ライセンス: Link先を確認
Hussin K. Ragb, Ian T. Dover, Redha Ali(参考訳) 新型コロナウイルス(COVID-19)の感染者は世界中で1000万人を超えており、診断能力の必要性が高まっている。 診断能力を向上させる主な変数は、コストの削減、ターンアラウンドまたは診断時間、前身設備のコストとアクセシビリティである。 機械学習による新型コロナウイルスの診断には、CTスキャンと胸部X線検査の2つの候補がある。 CTスキャンは感度が高いが、通常の胸部X線と比較すると、コスト、メンテナンス要件、ターンアラウンド時間が高い。 携帯型胸部X線撮影(CXR)の使用は,CTを用いて放射線治療に多大な負担をかけるため,米国放射線学大学(ACR)が推奨している。 したがって、機械学習技術と組み合わせたx線画像は、新型コロナウイルス診断のための第一線トリアージツールとして提案されている。 本稿では,複数のニューラルネットワーク(ResNet18,ResNet50,DenseNet201)をImageNetデータセットで事前トレーニングすることで,新型コロナウイルスおよび正常者の胸部X線スキャンを正確に分類するコンピュータ支援診断(CAD)を提案する。 これらのニューラルネットワークは並列アーキテクチャで融合され、各ニューラルネットワークの出力が単一の投票を表す候補オブジェクトクラス間の最終的な分類決定に投票基準が適用される。 PubMed Central Open Accessサブセットから抽出された263のCOVID-19-CT-CXRイメージと25の通常の分類CXRイメージを組み合わせた、弱ラベル付きCOVID-19-CT-CXRデータセット上で、いくつかの実験が行われた。 これらの実験は,提案モデルがいくつかの測度で多くの最先端アルゴリズムより優れているという楽観的な結果と能力を示す。 k-foldクロスバリデーションとバッキング分類器アンサンブルを用いることで、99.7%の精度と100%の感度が得られる。

With a Coronavirus disease (COVID-19) case count exceeding 10 million worldwide, there is an increased need for a diagnostic capability. The main variables in increasing diagnostic capability are reduced cost, turnaround or diagnosis time, and upfront equipment cost and accessibility. Two candidates for machine learning COVID-19 diagnosis are Computed Tomography (CT) scans and plain chest X-rays. While CT scans score higher in sensitivity, they have a higher cost, maintenance requirement, and turnaround time as compared to plain chest X-rays. The use of portable chest X-radiograph (CXR) is recommended by the American College of Radiology (ACR) since using CT places a massive burden on radiology services. Therefore, X-ray imagery paired with machine learning techniques is proposed a first-line triage tool for COVID-19 diagnostics. In this paper we propose a computer-aided diagnosis (CAD) to accurately classify chest X-ray scans of COVID-19 and normal subjects by fine-tuning several neural networks (ResNet18, ResNet50, DenseNet201) pre-trained on the ImageNet dataset. These neural networks are fused in a parallel architecture and the voting criteria are applied in the final classification decision between the candidate object classes where the output of each neural network is representing a single vote. Several experiments are conducted on the weakly labeled COVID-19-CT-CXR dataset consisting of 263 COVID-19 CXR images extracted from PubMed Central Open Access subsets combined with 25 normal classification CXR images. These experiments show an optimistic result and a capability of the proposed model to outperforming many state-of-the-art algorithms on several measures. Using k-fold cross-validation and a bagging classifier ensemble, we achieve an accuracy of 99.7% and a sensitivity of 100%.
翻訳日:2022-10-18 05:57:20 公開日:2020-09-15
# 確率的拡張ラグランジアンアプローチによる物理的制約下でのニューラルネットワークのトレーニング

Training neural networks under physical constraints using a stochastic augmented Lagrangian approach ( http://arxiv.org/abs/2009.07330v1 )

ライセンス: Link先を確認
Alp Dener, Marco Andres Miller, Randy Michael Churchill, Todd Munson, Choong-Seock Chang(参考訳) XGCにおける5次元運動核融合シミュレーションにおいて,Fokker-Planck-Landau衝突作用素を近似するためのエンコーダ・デコーダニューラルネットワークの物理制約付きトレーニングについて検討した。 このネットワークを訓練するために,pytorchの固有確率勾配降下法を応用して,外部拡張ラグランジアンループにおけるペナルティ係数とラグランジ乗算値のヒューリスティックな更新と組み合わせて,内部制約のない最小化部分問題を解く確率的拡張ラグランジアン手法を提案する。 自己結合と電子との衝突を伴う単一イオン種の場合の訓練結果から,提案する確率的拡張ラグランジアンアプローチは,応用問題に対する一定のペナルティ法による訓練よりも高いモデル予測精度を達成でき,シミュレーションの実用的応用に十分な精度が得られた。

We investigate the physics-constrained training of an encoder-decoder neural network for approximating the Fokker-Planck-Landau collision operator in the 5-dimensional kinetic fusion simulation in XGC. To train this network, we propose a stochastic augmented Lagrangian approach that utilizes pyTorch's native stochastic gradient descent method to solve the inner unconstrained minimization subproblem, paired with a heuristic update for the penalty factor and Lagrange multipliers in the outer augmented Lagrangian loop. Our training results for a single ion species case, with self-collisions and collision against electrons, show that the proposed stochastic augmented Lagrangian approach can achieve higher model prediction accuracy than training with a fixed penalty method for our application problem, with the accuracy high enough for practical applications in kinetic simulations.
翻訳日:2022-10-18 05:56:52 公開日:2020-09-15
# 光はあなたの顔をハックできる! 顔認識システムにおけるブラックボックスバックドア攻撃

Light Can Hack Your Face! Black-box Backdoor Attack on Face Recognition Systems ( http://arxiv.org/abs/2009.06996v1 )

ライセンス: Link先を確認
Haoliang Li (1), Yufei Wang (1), Xiaofei Xie (1), Yang Liu (1), Shiqi Wang (2), Renjie Wan (1), Lap-Pui Chau (1), and Alex C. Kot (1) ((1) Nanyang Technological University, Singapore, (2) City University of Hong Kong)(参考訳) ディープニューラルネットワーク(DNN)は多くのコンピュータビジョンアプリケーションで大きな成功を収めている。 しかし、バックドア攻撃の影響を受けやすいことも知られている。 バックドアアタックを行う場合、既存のアプローチのほとんどは、ターゲットのDNNは常に利用可能であり、アタッカーは常にトレーニングデータに特定のパターンを注入してDNNモデルをさらに微調整することができる。 しかし実際には、DNNモデルが暗号化され、セキュアなエンクレーブでのみ利用できるため、そのような攻撃は実現できないかもしれない。 本稿では,対象とするdnnモデルの知識を必要とせず,顔認識システムにおける新しいブラックボックスバックドア攻撃手法を提案する。 具体的には,LEDを特殊な波形で変調することで生成可能な,新しいカラーストライプパターントリガを用いたバックドア攻撃を提案する。 バックドアアタックのための波形最適化には進化的コンピューティング戦略も使用しています。 私たちのバックドア攻撃は非常に穏やかな状態で実行できます 1) 敵は,不自然な方法で入力を操作できない(例えば,敵の騒音を注入する)。 2) 敵は,トレーニングデータベースにアクセスできない。 3) 敵は, 被害者が使用する訓練セットだけでなく, 訓練モデルに関する知識も持っていない。 バックドアトリガは極めて有効であり, シミュレーション調査により攻撃成功率は最大8.8.%, 物理ドメイン調査では最大40.%と, 認証中の最大3回の試行に基づく顔認証と検証のタスクを考慮すれば有効であることを示す。 最後に,バックドア攻撃に対するいくつかの最先端の防御効果を評価し,攻撃が有効であることを示す。 そこで本研究では,既存の顔認識/検証技術におけるセキュリティ問題に注意を喚起する,新たな物理的バックドア攻撃を明らかにした。

Deep neural networks (DNN) have shown great success in many computer vision applications. However, they are also known to be susceptible to backdoor attacks. When conducting backdoor attacks, most of the existing approaches assume that the targeted DNN is always available, and an attacker can always inject a specific pattern to the training data to further fine-tune the DNN model. However, in practice, such attack may not be feasible as the DNN model is encrypted and only available to the secure enclave. In this paper, we propose a novel black-box backdoor attack technique on face recognition systems, which can be conducted without the knowledge of the targeted DNN model. To be specific, we propose a backdoor attack with a novel color stripe pattern trigger, which can be generated by modulating LED in a specialized waveform. We also use an evolutionary computing strategy to optimize the waveform for backdoor attack. Our backdoor attack can be conducted in a very mild condition: 1) the adversary cannot manipulate the input in an unnatural way (e.g., injecting adversarial noise); 2) the adversary cannot access the training database; 3) the adversary has no knowledge of the training model as well as the training set used by the victim party. We show that the backdoor trigger can be quite effective, where the attack success rate can be up to $88\%$ based on our simulation study and up to $40\%$ based on our physical-domain study by considering the task of face recognition and verification based on at most three-time attempts during authentication. Finally, we evaluate several state-of-the-art potential defenses towards backdoor attacks, and find that our attack can still be effective. We highlight that our study revealed a new physical backdoor attack, which calls for the attention of the security issue of the existing face recognition/verification techniques.
翻訳日:2022-10-18 05:50:39 公開日:2020-09-15
# グラディエントDescentを用いたファクタの学習

Learning Functors using Gradient Descent ( http://arxiv.org/abs/2009.06837v1 )

ライセンス: Link先を確認
Bruno Gavranovi\'c(参考訳) ニューラルネットワークは、特に多くの機械学習アプローチを含む、微分可能最適化の一般的なフレームワークである。 本稿では,CycleGANと呼ばれるニューラルネットワークシステムを中心に,カテゴリ理論の形式性を構築する。 CycleGANは、近年注目を集めている画像から画像への翻訳の一般的なアプローチである。 分類的データベースシステムから着想を得て、cyclegan は "schema" であることを示した。すなわち、特定のパラメータインスタンス化が単にこのスキーマ上の集合値関手であるジェネレータとリレーションによって提示される特定のカテゴリである。 サイクル整合性の強制は、このカテゴリーにおける構成不変量の強制に等しいことを示す。 学習手順を任意のカテゴリに一般化し、勾配降下を用いて学習できる関数ではなく、特殊クラスの関手を示す。 このフレームワークを用いて,画像からのオブジェクトの挿入および削除を学習可能な,新たなニューラルネットワークシステムを設計する。 celebaデータセット上でシステムを定性的に評価し,有望な結果を得る。

Neural networks are a general framework for differentiable optimization which includes many other machine learning approaches as special cases. In this paper we build a category-theoretic formalism around a neural network system called CycleGAN. CycleGAN is a general approach to unpaired image-to-image translation that has been getting attention in the recent years. Inspired by categorical database systems, we show that CycleGAN is a "schema", i.e. a specific category presented by generators and relations, whose specific parameter instantiations are just set-valued functors on this schema. We show that enforcing cycle-consistencies amounts to enforcing composition invariants in this category. We generalize the learning procedure to arbitrary such categories and show a special class of functors, rather than functions, can be learned using gradient descent. Using this framework we design a novel neural network system capable of learning to insert and delete objects from images without paired data. We qualitatively evaluate the system on the CelebA dataset and obtain promising results.
翻訳日:2022-10-18 05:50:11 公開日:2020-09-15
# 伝達学習プロセスの説明と診断のためのビジュアル分析フレームワーク

A Visual Analytics Framework for Explaining and Diagnosing Transfer Learning Processes ( http://arxiv.org/abs/2009.06876v1 )

ライセンス: Link先を確認
Yuxin Ma, Arlen Fan, Jingrui He, Arun Reddy Nelakurthi, Ross Maciejewski(参考訳) 多くの統計学習モデルは、トレーニングデータと将来のラベルなしデータが同じ分布から引き出されるという仮定を持っている。 しかし、この仮定は現実のシナリオでは達成が困難であり、類似のアプリケーションドメインから既存のラベルを再利用する障壁を生み出します。 転送学習はドメイン間の関係をモデル化することでこの仮定を緩和することを目的としており、ラベル付きデータの需要とトレーニング時間を減らすためにディープラーニングアプリケーションによく適用されている。 ビジュアル分析ツールによるディープラーニングモデル探索の最近の進歩にもかかわらず、ディープラーニングモデル間の知識伝達プロセスの説明と診断に関する問題はほとんど研究されていない。 本稿では,深層ニューラルネットワークの学習における伝達学習過程の多段階探索のための視覚分析フレームワークを提案する。 本フレームワークは,ニューラルネットワークの深層学習において,既存のモデルから学習した知識がどのように新たな学習タスクに変換されるかを説明するために,マルチアスペクト設計を確立する。 総合的な要件とタスク分析に基づいて、性能測定と統計、例、特徴、モデル構造レベルからのモデル行動の詳細な検査を行う。 我々は,alexnetsの微調整による画像分類に関する2つのケーススタディを通じて,このフレームワークを実証する。

Many statistical learning models hold an assumption that the training data and the future unlabeled data are drawn from the same distribution. However, this assumption is difficult to fulfill in real-world scenarios and creates barriers in reusing existing labels from similar application domains. Transfer Learning is intended to relax this assumption by modeling relationships between domains, and is often applied in deep learning applications to reduce the demand for labeled data and training time. Despite recent advances in exploring deep learning models with visual analytics tools, little work has explored the issue of explaining and diagnosing the knowledge transfer process between deep learning models. In this paper, we present a visual analytics framework for the multi-level exploration of the transfer learning processes when training deep neural networks. Our framework establishes a multi-aspect design to explain how the learned knowledge from the existing model is transferred into the new learning task when training deep neural networks. Based on a comprehensive requirement and task analysis, we employ descriptive visualization with performance measures and detailed inspections of model behaviors from the statistical, instance, feature, and model structure levels. We demonstrate our framework through two case studies on image classification by fine-tuning AlexNets to illustrate how analysts can utilize our framework.
翻訳日:2022-10-18 05:49:55 公開日:2020-09-15
# 階層型コミュニティ検出手法の効率向上のための局所構造特性の利用について

On the use of local structural properties for improving the efficiency of hierarchical community detection methods ( http://arxiv.org/abs/2009.06798v1 )

ライセンス: Link先を確認
Julio-Omar Palacio-Ni\~no and Fernando Berzal(参考訳) コミュニティ検出は複雑なネットワーク解析における根本的な問題である。 これはネットワークデータマイニングにおけるクラスタリングの例である。 コミュニティ検出手法では階層型アルゴリズムが一般的である。 しかし、それらの反復的な性質と、ネットワークを分割するために使用される構造的特性(例えば、ギルバンとニューマンのアルゴリズムのエッジ間)を再計算する必要があるため、大きなネットワークデータセットには適さない。 本稿では,局所的な構造的ネットワーク特性をプロキシとして利用することで,階層的コミュニティ検出の効率を向上させると同時に,モジュール性の観点からの競争的成果を実現した。 特に,コミュニティ内の他のノードとの新たなリンクを確立する傾向にあるため,コミュニティ構造が関係する教師あり学習問題であるローカルリンク予測を行うために一般的に使用される構造特性の潜在的利用について検討する。 さらに,ネットワークプルーニングヒューリスティックスの性能への影響を,階層的コミュニティ検出をより効率的にするための補助的手法として確認する。

Community detection is a fundamental problem in the analysis of complex networks. It is the analogue of clustering in network data mining. Within community detection methods, hierarchical algorithms are popular. However, their iterative nature and the need to recompute the structural properties used to split the network (i.e. edge betweenness in Girvan and Newman's algorithm), make them unsuitable for large network data sets. In this paper, we study how local structural network properties can be used as proxies to improve the efficiency of hierarchical community detection while, at the same time, achieving competitive results in terms of modularity. In particular, we study the potential use of the structural properties commonly used to perform local link prediction, a supervised learning problem where community structure is relevant, as nodes are prone to establish new links with other nodes within their communities. In addition, we check the performance impact of network pruning heuristics as an ancillary tactic to make hierarchical community detection more efficient
翻訳日:2022-10-18 05:49:34 公開日:2020-09-15
# 戦略的勧告のための強化学習

Reinforcement Learning for Strategic Recommendations ( http://arxiv.org/abs/2009.07346v1 )

ライセンス: Link先を確認
Georgios Theocharous, Yash Chandak, Philip S. Thomas, Frits de Nijs(参考訳) ストラテジックレコメンデーション(SR)とは、知的エージェントがユーザのシーケンシャルな行動や活動を観察し、いつ、どのように相互作用するかを決めて、ユーザとビジネスの両方の長期的な目的を最適化する問題を指す。 これらのシステムは、業界の初期段階にあり、いくつかの基本的な研究課題に対する実用的な解決策を必要としています。 adobe researchでは、関心点推奨、チュートリアル推奨、マルチメディア編集ソフトウェアにおける次のステップガイダンス、ライフタイム価値を最適化するための広告推奨など、様々なユースケース向けにこのようなシステムを実装しています。 There are many research challenges when building these systems, such as modeling the sequential behavior of users, deciding when to intervene and offer recommendations without annoying the user, evaluating policies offline with high confidence, safe deployment, non-stationarity, building systems from passive data that do not contain past recommendations, resource constraint optimization in multi-user systems, scaling to large and dynamic actions spaces, and handling and incorporating human cognitive biases. 本稿では,これらのシステムを実用化するために解決した様々なユースケースと研究課題について述べる。

Strategic recommendations (SR) refer to the problem where an intelligent agent observes the sequential behaviors and activities of users and decides when and how to interact with them to optimize some long-term objectives, both for the user and the business. These systems are in their infancy in the industry and in need of practical solutions to some fundamental research challenges. At Adobe research, we have been implementing such systems for various use-cases, including points of interest recommendations, tutorial recommendations, next step guidance in multi-media editing software, and ad recommendation for optimizing lifetime value. There are many research challenges when building these systems, such as modeling the sequential behavior of users, deciding when to intervene and offer recommendations without annoying the user, evaluating policies offline with high confidence, safe deployment, non-stationarity, building systems from passive data that do not contain past recommendations, resource constraint optimization in multi-user systems, scaling to large and dynamic actions spaces, and handling and incorporating human cognitive biases. In this paper we cover various use-cases and research challenges we solved to make these systems practical.
翻訳日:2022-10-18 05:48:03 公開日:2020-09-15
# Detecci\'on de comunidades en redes: Algoritmos y aplicaciones

Detecci\'on de comunidades en redes: Algoritmos y aplicaciones ( http://arxiv.org/abs/2009.08390v1 )

ライセンス: Link先を確認
Julio Omar Palacio Ni\~no(参考訳) この修士論文は,ネットワーク内のコミュニティを検出する手法を解析することを目的としている。 はじめに、私はグラフ理論とコミュニティの主な特徴とこの問題における一般的な尺度について研究しました。 続いて, コミュニティの検出, 分類, その特徴と計算の複雑さを考慮に入れて, コミュニティの強弱, 弱弱を検出するための主な手法のレビューを行った。 次に, クラスタリング手法の分類問題について検討し, 異なる尺度を解析して検出したコミュニティの質を評価する。 最後に、結論は詳しく述べられ、導出できる仕事のラインが考えられる。

This master's thesis work has the objective of performing an analysis of the methods for detecting communities in networks. As an initial part, I study of the main features of graph theory and communities, as well as common measures in this problem. Subsequently, I was performed a review of the main methods of detecting communities, developing a classification, taking into account its characteristics and computational complexity for the detection of strengths and weaknesses in the methods, as well as later works. Then, study the problem of classification of a clustering method, this in order to evaluate the quality of the communities detected by analyzing different measures. Finally conclusions are elaborated and possible lines of work that can be derived.
翻訳日:2022-10-18 05:47:46 公開日:2020-09-15
# 畳み込みニューラルネットワークを用いたマルチスペクトル衛星データの最適利用

Optimal Use of Multi-spectral Satellite Data with Convolutional Neural Networks ( http://arxiv.org/abs/2009.07000v1 )

ライセンス: Link先を確認
Sagar Vaze, James Foley, Mohamed Seddiq, Alexey Unagaev, Natalia Efremova(参考訳) 衛星画像の解析は持続可能な開発を追求する上で重要な道具となる。 畳み込みニューラルネットワーク(cnns)は自然画像解析において大きな進歩を遂げているが、そのマルチスペクトル衛星画像(入力画像が多数のチャネルを持つ)への応用は比較的未探査のままである。 本稿では,CNNとマルチバンド情報を利用する異なる手法を比較し,農作物のセマンティックセグメンテーション(ブドウ園)におけるすべての比較手法の性能を実証する。 ドメインエキスパートが選択したバンドを使用する標準的な業界慣行は、比較した他の方法よりもはるかにテスト精度が低下することを示す。 具体的には、専門家が指定したバンドの使用、利用可能なすべてのバンドの使用、入力バンド上の注意マップの学習、ベイズ最適化を活用してバンドの選択を決定する。 本研究では,すでに利用可能なすべてのバンド情報を使用することで,テスト時間性能が向上し,ベイズ最適化がまずバンド選択に適用され,精度を高めることができることを示す。

The analysis of satellite imagery will prove a crucial tool in the pursuit of sustainable development. While Convolutional Neural Networks (CNNs) have made large gains in natural image analysis, their application to multi-spectral satellite images (wherein input images have a large number of channels) remains relatively unexplored. In this paper, we compare different methods of leveraging multi-band information with CNNs, demonstrating the performance of all compared methods on the task of semantic segmentation of agricultural vegetation (vineyards). We show that standard industry practice of using bands selected by a domain expert leads to a significantly worse test accuracy than the other methods compared. Specifically, we compare: using bands specified by an expert; using all available bands; learning attention maps over the input bands; and leveraging Bayesian optimisation to dictate band choice. We show that simply using all available band information already increases test time performance, and show that the Bayesian optimisation, first applied to band selection in this work, can be used to further boost accuracy.
翻訳日:2022-10-18 05:47:34 公開日:2020-09-15
# 回帰学習と対応防衛に関するデータ中毒攻撃

Data Poisoning Attacks on Regression Learning and Corresponding Defenses ( http://arxiv.org/abs/2009.07008v1 )

ライセンス: Link先を確認
Nicolas Michael M\"uller, Daniel Kowatsch, Konstantin B\"ottinger(参考訳) 逆データ中毒は機械学習に対する効果的な攻撃であり、トレーニングデータセットに有毒データを導入することでモデルの完全性を脅かす。 これまでのところ、回帰学習は多くのミッションクリティカルシステム(医薬品の服用、サイバー物理システムの制御、電源管理など)で使われているが、分類のために研究されている。 そこで本研究では, 回帰学習におけるデータ中毒攻撃のすべての側面を, 幅と深さの両面から評価することを目的としている。 データ中毒攻撃が生産システムを脅かす現実的なシナリオを示し、新たなブラックボックス攻撃を導入し、それを実単語の医療ユースケースに適用する。 その結果, 残留剤の平均二乗誤差(MSE)は, わずか2%の毒素を挿入することにより150パーセントに増加することがわかった。 最後に,新規および先行攻撃に対する新たな防御戦略を提示し,26のデータセットについて徹底的に評価する。 実験の結果,提案した防衛戦略は検討された攻撃を効果的に軽減することがわかった。

Adversarial data poisoning is an effective attack against machine learning and threatens model integrity by introducing poisoned data into the training dataset. So far, it has been studied mostly for classification, even though regression learning is used in many mission critical systems (such as dosage of medication, control of cyber-physical systems and managing power supply). Therefore, in the present research, we aim to evaluate all aspects of data poisoning attacks on regression learning, exceeding previous work both in terms of breadth and depth. We present realistic scenarios in which data poisoning attacks threaten production systems and introduce a novel black-box attack, which is then applied to a real-word medical use-case. As a result, we observe that the mean squared error (MSE) of the regressor increases to 150 percent due to inserting only two percent of poison samples. Finally, we present a new defense strategy against the novel and previous attacks and evaluate it thoroughly on 26 datasets. As a result of the conducted experiments, we conclude that the proposed defence strategy effectively mitigates the considered attacks.
翻訳日:2022-10-18 05:41:56 公開日:2020-09-15
# 複雑な方向微分を用いた2次ニューラルネットワークトレーニング

Second-order Neural Network Training Using Complex-step Directional Derivative ( http://arxiv.org/abs/2009.07098v1 )

ライセンス: Link先を確認
Siyuan Shen, Tianjia Shao, Kun Zhou, Chenfanfu Jiang, Feng Luo, Yin Yang(参考訳) ニュートン法のような二階最適化法の優れた性能はよく知られているが、ヘッセン行列の組み立ても逆計算も大規模問題には実現できないため、深層学習にはほとんど使われない。 既存の二階法では、ヘシアンの様々な対角あるいは低ランク近似が用いられるが、これは多くの場合、かなりの改善を生み出すために必要な曲率情報の取得に失敗する。 一方、訓練がバッチベース(確率的)になると、騒がしい二階情報が高価なセーフガードを使わない限り、容易に訓練手順を汚染する。 本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。 複素ステップ有限差分 (CSFD) を用いて, 微分計算関数に虚摂動を付加した数値計算法により, ヘッセン計算の現実的障害に対処する。 CSFDは非常に堅牢で効率的で正確(解析結果と同じくらい正確)である。 この手法により、既知の2階最適化手法を文字通り深層学習訓練に適用できる。 それに基づいて、効果的なニュートン・クリロフ法を設計。 鍵となるメカニズムは、不必要な計算を避けるために邪魔な方向が見つかるとすぐに確率的クリロフ反復を終了することである。 最適化中,テイラー展開の近似誤差を監視し,ステップサイズを調整した。 本手法は, 回線探索と信頼領域法を併用して, 良好な局所収束とグローバル収束を同時に維持する。 我々は様々な深層学習タスクで手法をテストした。 実験の結果,本手法は出口法よりも優れており,一階収束が速いことが判明した。 本手法は,深層学習と数値最適化のための新しいアルゴリズムを広範に導入すると考えられる。

While the superior performance of second-order optimization methods such as Newton's method is well known, they are hardly used in practice for deep learning because neither assembling the Hessian matrix nor calculating its inverse is feasible for large-scale problems. Existing second-order methods resort to various diagonal or low-rank approximations of the Hessian, which often fail to capture necessary curvature information to generate a substantial improvement. On the other hand, when training becomes batch-based (i.e., stochastic), noisy second-order information easily contaminates the training procedure unless expensive safeguard is employed. In this paper, we adopt a numerical algorithm for second-order neural network training. We tackle the practical obstacle of Hessian calculation by using the complex-step finite difference (CSFD) -- a numerical procedure adding an imaginary perturbation to the function for derivative computation. CSFD is highly robust, efficient, and accurate (as accurate as the analytic result). This method allows us to literally apply any known second-order optimization methods for deep learning training. Based on it, we design an effective Newton Krylov procedure. The key mechanism is to terminate the stochastic Krylov iteration as soon as a disturbing direction is found so that unnecessary computation can be avoided. During the optimization, we monitor the approximation error in the Taylor expansion to adjust the step size. This strategy combines advantages of line search and trust region methods making our method preserves good local and global convergency at the same time. We have tested our methods in various deep learning tasks. The experiments show that our method outperforms exiting methods, and it often converges one-order faster. We believe our method will inspire a wide-range of new algorithms for deep learning and numerical optimization.
翻訳日:2022-10-18 05:41:22 公開日:2020-09-15
# 成層集団に対するイベントベースモデルを用いたapoeのアルツハイマー病発症に及ぼす影響の解析

Analyzing the effect of APOE on Alzheimer's disease progression using an event-based model for stratified populations ( http://arxiv.org/abs/2009.07139v1 )

ライセンス: Link先を確認
Vikram Venkatraghavan, Stefan Klein, Lana Fani, Leontine S. Ham, Henri Vrooman, M. Kamran Ikram, Wiro J. Niessen, Esther E. Bron (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) アルツハイマー病(ad)は認知症で最も一般的な形態であり、表現型的に異種である。 APOEは、ADの表現型不均一性と相関するトリル酸遺伝子である。 本研究では,apoeアレルがadの疾患進行タイムラインに及ぼす影響を識別イベントベースモデル(debm)を用いて決定した。 DEBMはデータ駆動モデルであるため、より小さな疾患サブグループへの成層化は、データセット全体のモデルに適合するよりも不正確なモデルにつながる。 そこで本研究の目的は,DEBMの異なるステップをグループ固有部分とグループ固有部分に分割し,データセット全体を用いてグループ固有部分をトレーニングし,特定のグループからのデータのみを用いてグループ固有部分をトレーニングするという,新たなアプローチを提案することである。 提案手法の精度をベンチマークし,最適手法を選択するためのシミュレーション実験を行った。 その後, 認知正常417例, 軽度認知障害235例, 3年以内にADに転換した235例, アルツハイマー病神経イメージングイニシアチブ(ADNI)データセット342例を対象に, APOEキャリアシップがADの進行タイムラインに及ぼす影響について新たな知見を得た。 提示されたモデルは、疾患の理解を助け、臨床治験の症状の発症リスクにおいて、症状前患者の同種グループを選択するのに役立つ。

Alzheimer's disease (AD) is the most common form of dementia and is phenotypically heterogeneous. APOE is a triallelic gene which correlates with phenotypic heterogeneity in AD. In this work, we determined the effect of APOE alleles on the disease progression timeline of AD using a discriminative event-based model (DEBM). Since DEBM is a data-driven model, stratification into smaller disease subgroups would lead to more inaccurate models as compared to fitting the model on the entire dataset. Hence our secondary aim is to propose and evaluate novel approaches in which we split the different steps of DEBM into group-aspecific and group-specific parts, where the entire dataset is used to train the group-aspecific parts and only the data from a specific group is used to train the group-specific parts of the DEBM. We performed simulation experiments to benchmark the accuracy of the proposed approaches and to select the optimal approach. Subsequently, the chosen approach was applied to the baseline data of 417 cognitively normal, 235 mild cognitively impaired who convert to AD within 3 years, and 342 AD patients from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset to gain new insights into the effect of APOE carriership on the disease progression timeline of AD. The presented models could aid understanding of the disease, and in selecting homogeneous group of presymptomatic subjects at-risk of developing symptoms for clinical trials.
翻訳日:2022-10-18 05:40:33 公開日:2020-09-15
# メッセージパッシングとマルチソース類似機能を用いたcircRNA-disease Association予測のためのグラフ畳み込みネットワーク

Graph Convolution Networks Using Message Passing and Multi-Source Similarity Features for Predicting circRNA-Disease Association ( http://arxiv.org/abs/2009.07173v1 )

ライセンス: Link先を確認
Thosini Bamunu Mudiyanselage, Xiujuan Lei, Nipuna Senanayake, Yanqing Zhang, Yi Pan(参考訳) グラフは複雑なデータ構造を効果的に表現するために使用できる。 これらの不規則なデータをグラフで学ぶのは困難であり、浅い学習に苦しむ。 グラフにディープラーニングを適用することで、社会分析やバイオインフォマティクスなど、多くのアプリケーションで優れたパフォーマンスが得られている。 メッセージパッシンググラフ畳み込みネットワークは、グラフ構造を学ぶための表現力を持つ強力な方法である。 一方、circRNAはヒト疾患において重要な役割を果たす非コードRNAの一種である。 複雑な疾患の診断と治療には、circRNAと疾患の関連が重要である。 しかし、それらの間には既知の協会が限られており、新しい協会を特定するための生物学的実験は時間と費用がかかる。 その結果, 循環RNA放出関連性を予測するために, 効率的かつ実現可能な計算手法を構築する必要がある。 本稿では,複数ソースの類似性情報を用いて構築されたグラフから特徴を学習し,循環RNA関連性を予測する新しいグラフ畳み込みネットワークフレームワークを提案する。 まず、第1のグラフ畳み込みを用いた特徴抽出のために、circRNAの類似性、疾患、およびcircRNA Gaussian Interaction Profile(GIP)カーネルの類似性のマルチソース情報を用いる。 次に、第2のグラフ畳み込みによる各 circRNA の疾患関連を予測した。 種々の実験で5倍のクロスバリデーションが提案されたフレームワークは、circRNA-diseaseアソシエーションを予測し、他の既存手法より優れていることを示す。

Graphs can be used to effectively represent complex data structures. Learning these irregular data in graphs is challenging and still suffers from shallow learning. Applying deep learning on graphs has recently showed good performance in many applications in social analysis, bioinformatics etc. A message passing graph convolution network is such a powerful method which has expressive power to learn graph structures. Meanwhile, circRNA is a type of non-coding RNA which plays a critical role in human diseases. Identifying the associations between circRNAs and diseases is important to diagnosis and treatment of complex diseases. However, there are limited number of known associations between them and conducting biological experiments to identify new associations is time consuming and expensive. As a result, there is a need of building efficient and feasible computation methods to predict potential circRNA-disease associations. In this paper, we propose a novel graph convolution network framework to learn features from a graph built with multi-source similarity information to predict circRNA-disease associations. First we use multi-source information of circRNA similarity, disease and circRNA Gaussian Interaction Profile (GIP) kernel similarity to extract the features using first graph convolution. Then we predict disease associations for each circRNA with second graph convolution. Proposed framework with five-fold cross validation on various experiments shows promising results in predicting circRNA-disease association and outperforms other existing methods.
翻訳日:2022-10-18 05:39:39 公開日:2020-09-15
# ユーザフィードバックの制限によるブラックボックスシーケンシャル異常検出関係の改善

Improve black-box sequential anomaly detector relevancy with limited user feedback ( http://arxiv.org/abs/2009.07241v1 )

ライセンス: Link先を確認
Luyang Kong, Lifan Chen, Ming Chen, Parminder Bhatia, Laurent Callot(参考訳) 異常検出器は、しばしば統計的異常を捉えるように設計された。 エンドユーザは通常、検出されたすべての外れ値に関心を持たないが、アプリケーションに関連するものだけに限られる。 既存のブラックボックスシーケンシャルな異常検知器を前提として,少数のフィードバックを用いてユーザ関連性を改善する手法を提案する。 最初のコントリビューションとして、この手法は検出器に非依存であり、内部に追加情報を加えることなく、異常スコアへのアクセスを前提としています。 異常が異なる型であるという事実に触発されて,本手法はこれらの型を特定し,ユーザフィードバックを用いて型に関連性を割り当てる。 この関連性スコアは、第2の貢献として、その後の異常選択プロセスを調整するために使用される。 合成データと実世界のデータセットを用いた実験結果から,本手法は精度を著しく向上させ,様々な異常検出器をリコールできることがわかった。

Anomaly detectors are often designed to catch statistical anomalies. End-users typically do not have interest in all of the detected outliers, but only those relevant to their application. Given an existing black-box sequential anomaly detector, this paper proposes a method to improve its user relevancy using a small number of human feedback. As our first contribution, the method is agnostic to the detector: it only assumes access to its anomaly scores, without requirement on any additional information inside it. Inspired by a fact that anomalies are of different types, our approach identifies these types and utilizes user feedback to assign relevancy to types. This relevancy score, as our second contribution, is used to adjust the subsequent anomaly selection process. Empirical results on synthetic and real-world datasets show that our approach yields significant improvements on precision and recall over a range of anomaly detectors.
翻訳日:2022-10-18 05:39:14 公開日:2020-09-15
# マルチスケールアテンションu-net(msaunet) : シーンセグメンテーションのための修正u-netアーキテクチャ

Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for Scene Segmentation ( http://arxiv.org/abs/2009.06911v1 )

ライセンス: Link先を確認
Soham Chattopadhyay, Hritam Basak(参考訳) シーンセグメンテーションのタスクにおける近年の畳み込みニューラルネットワーク(CNN)の成功にもかかわらず、標準モデルは、サブ最適セグメンテーション出力をもたらす可能性のある重要な特徴を欠いている。 広く使われているエンコーダ・デコーダアーキテクチャは、異なるステップと異なるスケールで複数の冗長かつ低レベルの特徴を抽出し、利用する。 また、これらのネットワークは、局所的な特徴の長距離依存性をマッピングできず、結果として、各セグメンテーションイメージのセグメンテーションクラスに対応する識別的特徴写像が生成される。 本稿では,画像からのリッチなコンテキスト情報を用いて,シーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。 従来のunetアーキテクチャとは異なり、エンコーダからの特徴とピラミッドプールの出力を入力とし、出力出力を生成するアテンションゲートは、以前のピラミッドプール層のアップサンプリング出力とさらに結合され、次のレイヤにマッピングされます。 このネットワークは、グローバルな特徴を精度良くマッピングし、関連する特徴のみに焦点をあてることで、識別画像領域を強調する。 また、IoU損失の最適化とDice Lossと重み付きクロスエントロピー損失の融合による複合損失関数を提案し、より高速な収束率で最適解を得る。 我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価し、それぞれ79.88%と44.88%の平均IoUを達成した。

Despite the growing success of Convolution neural networks (CNN) in the recent past in the task of scene segmentation, the standard models lack some of the important features that might result in sub-optimal segmentation outputs. The widely used encoder-decoder architecture extracts and uses several redundant and low-level features at different steps and different scales. Also, these networks fail to map the long-range dependencies of local features, which results in discriminative feature maps corresponding to each semantic class in the resulting segmented image. In this paper, we propose a novel multi-scale attention network for scene segmentation purposes by using the rich contextual information from an image. Different from the original UNet architecture we have used attention gates which take the features from the encoder and the output of the pyramid pool as input and produced out-put is further concatenated with the up-sampled output of the previous pyramid-pool layer and mapped to the next subsequent layer. This network can map local features with their global counterparts with improved accuracy and emphasize on discriminative image regions by focusing on relevant local features only. We also propose a compound loss function by optimizing the IoU loss and fusing Dice Loss and Weighted Cross-entropy loss with it to achieve an optimal solution at a faster convergence rate. We have evaluated our model on two standard datasets named PascalVOC2012 and ADE20k and was able to achieve mean IoU of 79.88% and 44.88% on the two datasets respectively, and compared our result with the widely known models to prove the superiority of our model over them.
翻訳日:2022-10-18 05:38:49 公開日:2020-09-15
# 言語モデルの現在の制限: 必要なのは検索だ

Current Limitations of Language Models: What You Need is Retrieval ( http://arxiv.org/abs/2009.06857v1 )

ライセンス: Link先を確認
Aran Komatsuzaki(参考訳) 本研究では,(1)非コーサルモデル(マスキング言語モデルなど),(2)効率的なバッチ長の拡張,(3)再帰,(4)条件計算,(5)検索など,言語モデルのパフォーマンス比較トレードオフを改善するための現在のアプローチのいくつかを分類し,再検討する。 我々はいくつかの制限 (1) - (4) に苦しむ。 例えば、(1)現在、入力によってゆるく制約された出力とともに、特定の微調整データセットを必要とするため、GPT-2/3のような一般的なテキストタスクを実行するオープンエンドテキスト生成に苦労している。 (2)および(3)は、最初の$\sim 10^3$トークンの予測を改善しない。 モデルサイズをスケールアップする(例: (4) で効率的にスケールアップする)と、いくつかのタスクのパフォーマンスが低下する。 我々は (5) がこれらの制限の多くを解決し、それを解決できると主張している。 (a)監督と監督の量を減らすこと b) トレーニングデータセット全体と現在のサンプルの過去全体にわたって、コンテキストを効率的に拡張する。 我々は、MARGEを修正して、教師なし因果モデリングを行う方法を推測する。 b) 検索者が共同で訓練した。

We classify and re-examine some of the current approaches to improve the performance-computes trade-off of language models, including (1) non-causal models (such as masked language models), (2) extension of batch length with efficient attention, (3) recurrence, (4) conditional computation and (5) retrieval. We identify some limitations (1) - (4) suffer from. For example, (1) currently struggles with open-ended text generation with the output loosely constrained by the input as well as performing general textual tasks like GPT-2/3 due to its need for a specific fine-tuning dataset. (2) and (3) do not improve the prediction of the first $\sim 10^3$ tokens. Scaling up a model size (e.g. efficiently with (4)) still results in poor performance scaling for some tasks. We argue (5) would resolve many of these limitations, and it can (a) reduce the amount of supervision and (b) efficiently extend the context over the entire training dataset and the entire past of the current sample. We speculate how to modify MARGE to perform unsupervised causal modeling that achieves (b) with the retriever jointly trained.
翻訳日:2022-10-18 05:32:09 公開日:2020-09-15
# プライバシセーフな非個人的アプローチによるグループレベルの感情認識

Group-Level Emotion Recognition Using a Unimodal Privacy-Safe Non-Individual Approach ( http://arxiv.org/abs/2009.07013v1 )

ライセンス: Link先を確認
Anastasia Petrova (PERVASIVE), Dominique Vaufreydaz (PERVASIVE), Philippe Dessus (LaRAC)(参考訳) 本稿は、Emotion Recognition in the Wild (EmotiW) Challenge 2020 1における、オーディオビデオグループ感情認識サブタスクに対する、プライバシー保護と非個人的提案について述べる。 このサブチャレンジはワイルドビデオの3つのカテゴリ(ポジティブ、ニュートラル、ネガティブ)に分類することを目指している。 近年の深層学習モデルでは、人間間の相互作用を分析し、人間の振る舞いを予測し、感情的評価を行う。 それにもかかわらず、それらのパフォーマンスは個人ベースの分析によるもので、それは個々の検出からスコアをまとめて平均化することを意味する。 本研究では,顔やポーズの検出や個々の特徴を入力として使用せずに,画像全体からグローバルムードを捉えることができるモデルに対する粗末なアプローチについて検討した。 提案手法は,最先端の合成コーパスと専用合成コーパスを訓練源として混合する。 グループレベルの感情認識のためのニューラルネットワークアーキテクチャの詳細な調査により、VGAFテストセット(チャレンジの11位)で59.13%の精度を達成するVGGベースのモデルを構築しました。 分析はグローバルな特徴のみに基づいて一様であり、実世界のデータセットで評価されることを考えると、これらの結果は有望であり、教室環境評価のためにこのモデルをマルチモーダルに拡張することを想定する。

This article presents our unimodal privacy-safe and non-individual proposal for the audio-video group emotion recognition subtask at the Emotion Recognition in the Wild (EmotiW) Challenge 2020 1. This sub challenge aims to classify in the wild videos into three categories: Positive, Neutral and Negative. Recent deep learning models have shown tremendous advances in analyzing interactions between people, predicting human behavior and affective evaluation. Nonetheless, their performance comes from individual-based analysis, which means summing up and averaging scores from individual detections, which inevitably leads to some privacy issues. In this research, we investigated a frugal approach towards a model able to capture the global moods from the whole image without using face or pose detection, or any individual-based feature as input. The proposed methodology mixes state-of-the-art and dedicated synthetic corpora as training sources. With an in-depth exploration of neural network architectures for group-level emotion recognition, we built a VGG-based model achieving 59.13% accuracy on the VGAF test set (eleventh place of the challenge). Given that the analysis is unimodal based only on global features and that the performance is evaluated on a real-world dataset, these results are promising and let us envision extending this model to multimodality for classroom ambiance evaluation, our final target application.
翻訳日:2022-10-18 05:31:35 公開日:2020-09-15
# 制御機能の自律学習--身体的・位置的エージェントを用いた実験

Autonomous Learning of Features for Control: Experiments with Embodied and Situated Agents ( http://arxiv.org/abs/2009.07132v1 )

ライセンス: Link先を確認
Nicola Milano, Stefano Nolfi(参考訳) 前述したように、進化的あるいは強化的学習アルゴリズムによる継続的制御最適化の有効性は、自己教師付き手法で訓練された特徴抽出に特化したニューラルモジュールを含めることで向上することができる。 本稿では,この仮説を支持する追加実験を報告し,特徴抽出によって得られる利点が,次元減少の恩恵を受ける問題や,同心性知覚に基づいて作用するエージェントに限らないことを示す。 本稿では,ポリシネットワークのトレーニング中に機能抽出モジュールのトレーニングを継続し,特徴抽出の有効性を高める手法を提案する。 最後に,選択特徴抽出法を比較し,シーケンスからシーケンスへの学習が先行研究で検討した方法よりも優れた結果が得られることを示す。

As discussed in previous studies, the efficacy of evolutionary or reinforcement learning algorithms for continuous control optimization can be enhanced by including a neural module dedicated to feature extraction trained through self-supervised methods. In this paper we report additional experiments supporting this hypothesis and we demonstrate how the advantage provided by feature extraction is not limited to problems that benefit from dimensionality reduction or that involve agents operating on the basis of allocentric perception. We introduce a method that permits to continue the training of the feature-extraction module during the training of the policy network and that increases the efficacy of feature extraction. Finally, we compare alternative feature-extracting methods and we show that sequence-to-sequence learning yields better results than the methods considered in previous studies.
翻訳日:2022-10-18 05:30:58 公開日:2020-09-15
# dual-track advantage estimatorを用いたソフトポリシー最適化

Soft policy optimization using dual-track advantage estimator ( http://arxiv.org/abs/2009.06858v1 )

ライセンス: Link先を確認
Yubo Huang, Xuechun Wang, Luobao Zou, Zhiwei Zhuang, Weidong Zhang(参考訳) 強化学習(RL)において、エージェントはトレーニングの初期段階で可能な限り多くの状態を探索し、その後の段階で探索された情報を利用して最も回復可能な軌道を発見することを常に期待する。 本稿では,エントロピーを導入し,探索と搾取の機会のバランスをとるために温度係数を動的に設定することにより,近位政策の最適化を軟化する。 期待される報酬を最大化しながら、エージェントは局所最適政策を避けるために他の軌道も探す。 それにもかかわらず、エントロピーによって引き起こされるランダム性の増加は、初期の列車速度を減少させる。 時間差分法 (TD) とGAE (General advantage estimator) を統合することで,値関数の収束を加速し,アルゴリズムの性能をさらに向上する二トラック利得推定器 (DTAE) を提案する。 mujoco環境における他のオンポリシーrlアルゴリズムと比較すると,提案手法はトレーニングを高速化するだけでなく,累積帰納法において最も高度な結果を得る。

In reinforcement learning (RL), we always expect the agent to explore as many states as possible in the initial stage of training and exploit the explored information in the subsequent stage to discover the most returnable trajectory. Based on this principle, in this paper, we soften the proximal policy optimization by introducing the entropy and dynamically setting the temperature coefficient to balance the opportunity of exploration and exploitation. While maximizing the expected reward, the agent will also seek other trajectories to avoid the local optimal policy. Nevertheless, the increase of randomness induced by entropy will reduce the train speed in the early stage. Integrating the temporal-difference (TD) method and the general advantage estimator (GAE), we propose the dual-track advantage estimator (DTAE) to accelerate the convergence of value functions and further enhance the performance of the algorithm. Compared with other on-policy RL algorithms on the Mujoco environment, the proposed method not only significantly speeds up the training but also achieves the most advanced results in cumulative return.
翻訳日:2022-10-18 05:30:11 公開日:2020-09-15
# graph infoclust: 教師なしグラフ表現学習にクラスタレベルのノード情報を活用する

Graph InfoClust: Leveraging cluster-level node information for unsupervised graph representation learning ( http://arxiv.org/abs/2009.06946v1 )

ライセンス: Link先を確認
Costas Mavromatis, George Karypis(参考訳) 教師なし(あるいは自己教師付き)グラフ表現学習は、外部監視が不可能なときに、様々なグラフデータマイニングタスクを容易にするために不可欠である。 課題は、グラフ構造に関する情報とノードとエッジに関連する属性を低次元空間にエンコードすることである。 既存の教師なし手法の多くは、トポロジカルに近いノード間の類似した表現を促進する。 近年,全てのノード間で共有される情報などのグラフレベルの追加情報を活用することにより,グラフのグローバルな特性に留意し,その品質を大幅に向上することが示されている。 しかし、ほとんどのグラフでは、ノードは構造的に類似したノードを表す(複数の)クラスタに属する傾向があります。 本稿では,クラスタレベルの情報コンテンツを付加的にキャプチャするグラフ表現学習手法であるGraph InfoClust(GIC)を提案する。 これらのクラスタは、微分可能なK平均法で計算され、同一クラスタのノード間の相互情報を最大化することにより、共同最適化される。 この最適化により、ノード表現はよりリッチな情報とnodalインタラクションをキャプチャし、それによって品質が向上する。 実験の結果、GICは様々な下流タスク(ノード分類、リンク予測、ノードクラスタリング)における最先端の手法よりも0.9%から6.1%向上していることがわかった。

Unsupervised (or self-supervised) graph representation learning is essential to facilitate various graph data mining tasks when external supervision is unavailable. The challenge is to encode the information about the graph structure and the attributes associated with the nodes and edges into a low dimensional space. Most existing unsupervised methods promote similar representations across nodes that are topologically close. Recently, it was shown that leveraging additional graph-level information, e.g., information that is shared among all nodes, encourages the representations to be mindful of the global properties of the graph, which greatly improves their quality. However, in most graphs, there is significantly more structure that can be captured, e.g., nodes tend to belong to (multiple) clusters that represent structurally similar nodes. Motivated by this observation, we propose a graph representation learning method called Graph InfoClust (GIC), that seeks to additionally capture cluster-level information content. These clusters are computed by a differentiable K-means method and are jointly optimized by maximizing the mutual information between nodes of the same clusters. This optimization leads the node representations to capture richer information and nodal interactions, which improves their quality. Experiments show that GIC outperforms state-of-art methods in various downstream tasks (node classification, link prediction, and node clustering) with a 0.9% to 6.1% gain over the best competing approach, on average.
翻訳日:2022-10-18 05:29:52 公開日:2020-09-15
# 生成配列ラベリングのための拡張自然言語

Augmented Natural Language for Generative Sequence Labeling ( http://arxiv.org/abs/2009.13272v1 )

ライセンス: Link先を確認
Ben Athiwaratkun, Cicero Nogueira dos Santos, Jason Krone, Bing Xiang(参考訳) 共同シーケンスラベリングと文レベルの分類のための生成フレームワークを提案する。 本モデルは,1つの共有自然言語出力空間を用いて,複数のシーケンスラベリングタスクを同時に実行する。 従来の判別手法とは異なり、我々のモデルは自然にラベルセマンティクスを取り入れ、タスク間で知識を共有する。 私たちのフレームワークは汎用的で、少数、低リソース、高リソースのタスクでうまく動作します。 一般的な名前付きエンティティ認識、スロットラベリング、意図分類ベンチマークにおいてこれらの利点を実証する。 従来の5ショット (75.0\% \rightarrow 90.9\%$) と1ショット (70.4\% \rightarrow 81.0\%$) で大幅に改善した。 さらに,BERTベースライン上での低リソーススロットラベリングにおいて,ラベルセマンティクスを組み込むことにより,大きな改善(46.27\% \rightarrow 63.83\%$)を生んでいる。 また、高リソースタスクの競合結果も維持し、すべてのタスクで最先端の2ポイント以内に実行し、SNIPSデータセットに新たな最先端のデータセットを設定します。

We propose a generative framework for joint sequence labeling and sentence-level classification. Our model performs multiple sequence labeling tasks at once using a single, shared natural language output space. Unlike prior discriminative methods, our model naturally incorporates label semantics and shares knowledge across tasks. Our framework is general purpose, performing well on few-shot, low-resource, and high-resource tasks. We demonstrate these advantages on popular named entity recognition, slot labeling, and intent classification benchmarks. We set a new state-of-the-art for few-shot slot labeling, improving substantially upon the previous 5-shot ($75.0\% \rightarrow 90.9\%$) and 1-shot ($70.4\% \rightarrow 81.0\%$) state-of-the-art results. Furthermore, our model generates large improvements ($46.27\% \rightarrow 63.83\%$) in low-resource slot labeling over a BERT baseline by incorporating label semantics. We also maintain competitive results on high-resource tasks, performing within two points of the state-of-the-art on all tasks and setting a new state-of-the-art on the SNIPS dataset.
翻訳日:2022-10-18 05:23:26 公開日:2020-09-15
# 重力モデルが人間の視覚注意の変化を説明

Gravitational Models Explain Shifts on Human Visual Attention ( http://arxiv.org/abs/2009.06963v1 )

ライセンス: Link先を確認
Dario Zanca, Marco Gori, Stefano Melacci, Alessandra Rufa(参考訳) 視覚的注意(英: visual attention)とは、視覚的および認知的タスクのパフォーマンスを向上させるために、人間の脳が適切な感覚情報を選択する能力を指す。 2段階に分けて進行する。 視覚的特徴マップが取得され、並列に処理されるもの。 もうひとつは、より複雑な計算と推論のために単一の場所を選択するために、これらのマップからの情報をマージする。 その計算的記述は、特にプロセスの時間的ダイナミクスが考慮されている場合、困難である。 過去30年間に、健康を推定する多くの方法が提案されてきた。 解像度をピクセルレベルで推定する上で、ほぼ完璧な性能を達成するが、視覚的注意のシフトを生成する方法は、入賞者すべて(WTA)回路に依存している。 wtaは生物学的ハードウェアによって実装され、最大塩分濃度の場所を選択でき、その場所が過度な注意を向けられる。 本稿では,注目シフトを記述するための重力モデル(GRAV)を提案する。 すべての特徴がアトラクタとして機能し、そのシフトはアトラクタのジョイント効果の結果である。 現在のフレームワークでは、単一の集中的サルマンシーマップの仮定はもはや必要ではない。 2つの大きな画像データセットの定量的結果は、このモデルが勝者の全てよりも正確にシフトを予測することを示している。

Visual attention refers to the human brain's ability to select relevant sensory information for preferential processing, improving performance in visual and cognitive tasks. It proceeds in two phases. One in which visual feature maps are acquired and processed in parallel. Another where the information from these maps is merged in order to select a single location to be attended for further and more complex computations and reasoning. Its computational description is challenging, especially if the temporal dynamics of the process are taken into account. Numerous methods to estimate saliency have been proposed in the last three decades. They achieve almost perfect performance in estimating saliency at the pixel level, but the way they generate shifts in visual attention fully depends on winner-take-all (WTA) circuitry. WTA is implemented} by the biological hardware in order to select a location with maximum saliency, towards which to direct overt attention. In this paper we propose a gravitational model (GRAV) to describe the attentional shifts. Every single feature acts as an attractor and {the shifts are the result of the joint effects of the attractors. In the current framework, the assumption of a single, centralized saliency map is no longer necessary, though still plausible. Quantitative results on two large image datasets show that this model predicts shifts more accurately than winner-take-all.
翻訳日:2022-10-18 05:21:42 公開日:2020-09-15
# データ空間におけるカーネル距離を持つ生成モデル

Generative models with kernel distance in data space ( http://arxiv.org/abs/2009.07327v1 )

ライセンス: Link先を確認
Szymon Knop, Marcin Mazur, Przemys{\l}aw Spurek, Jacek Tabor, Igor Podolak(参考訳) 共役データ分散のモデル化を扱う生成モデルは、一般にオートエンコーダまたはGANベースである。 どちらも長所と短所があり、ぼやけた画像を生成したり、トレーニング中に不安定になったり、モード崩壊現象を起こしやすい。 本論文の目的は, 上記のアーキテクチャの間に位置するモデルを構築することであり, 主な弱点を継承しないモデルを構築することである。 提案するlcw生成器(latent cramer-wold generator)はガウス雑音をデータ空間に変換する古典的なganに似ている。 lcwジェネレータは、識別器の代わりにカーネル距離を使用する。 敵の訓練は使用せず、そのため名前生成器が使用される。 訓練は2段階で行われる。 まず、カーネル測度を用いたオートエンコーダベースのアーキテクチャを構築し、データの多様体をモデル化する。 最終モデルを得るために,ガウス型を潜在型にマッピングする潜在型トリックを提案する。 これにより、非常に競合的なFID値が得られる。

Generative models dealing with modeling a~joint data distribution are generally either autoencoder or GAN based. Both have their pros and cons, generating blurry images or being unstable in training or prone to mode collapse phenomenon, respectively. The objective of this paper is to construct a~model situated between above architectures, one that does not inherit their main weaknesses. The proposed LCW generator (Latent Cramer-Wold generator) resembles a classical GAN in transforming Gaussian noise into data space. What is of utmost importance, instead of a~discriminator, LCW generator uses kernel distance. No adversarial training is utilized, hence the name generator. It is trained in two phases. First, an autoencoder based architecture, using kernel measures, is built to model a manifold of data. We propose a Latent Trick mapping a Gaussian to latent in order to get the final model. This results in very competitive FID values.
翻訳日:2022-10-18 05:21:22 公開日:2020-09-15
# 機械翻訳におけるニューラルネットワークのハイパーパラメータ最適化のための遺伝的アルゴリズムの検討

A Study of Genetic Algorithms for Hyperparameter Optimization of Neural Networks in Machine Translation ( http://arxiv.org/abs/2009.08928v1 )

ライセンス: Link先を確認
Keshav Ganapathy(参考訳) ニューラルネットワークはその汎用性とメリットを実証しているため、最適なパフォーマンスの必要性は、かつてないほど一般的である。 定義特性であるハイパーパラメータは、その性能に大きな影響を与える。 したがって、エンジニアは最適なハイパーパラメータを特定し、実装するためのプロセス、チューニングを行う。 とはいえ、ネットワークアーキテクチャのチューニング、設定のトレーニング、バイトペアエンコーディング(bpe)のような前処理設定には、余分な手作業が必要となる。 本研究では,遺伝的アルゴリズム(GA)を用いたダーウィンのファイトテスト理論の生存をモデルとした自動チューニング手法を提案する。 その結果,提案手法であるgaはハイパーパラメータのランダム選択よりも優れていることがわかった。

With neural networks having demonstrated their versatility and benefits, the need for their optimal performance is as prevalent as ever. A defining characteristic, hyperparameters, can greatly affect its performance. Thus engineers go through a process, tuning, to identify and implement optimal hyperparameters. That being said, excess amounts of manual effort are required for tuning network architectures, training configurations, and preprocessing settings such as Byte Pair Encoding (BPE). In this study, we propose an automatic tuning method modeled after Darwin's Survival of the Fittest Theory via a Genetic Algorithm (GA). Research results show that the proposed method, a GA, outperforms a random selection of hyperparameters.
翻訳日:2022-10-18 05:21:10 公開日:2020-09-15
# MLMLM: 平均的マッシュアップ言語モデルによるリンク予測

MLMLM: Link Prediction with Mean Likelihood Masked Language Model ( http://arxiv.org/abs/2009.07058v1 )

ライセンス: Link先を確認
Louis Clouatre, Philippe Trempe, Amal Zouaq, Sarath Chandar(参考訳) 知識ベース(KB)は、クエリ、検証、解釈が容易である。 しかし、時間と高品質のデータでスケールする。 bertのようなマスク言語モデル(mlms)は、構造化されていないテキストデータだけでなく、計算能力も備えている。 しかし、これらのモデルに含まれる知識は直接解釈できない。 本稿では,KB のスケーラビリティ問題と MLM の解釈可能性問題の両方に対処するため,リンク予測を MLM で行うことを提案する。 そこで,我々はmlmlm,平均ラバースマスク言語モデルを導入する。このモデルでは,異なるエンティティを生成する平均ラバースを比較し,抽出可能な方法でリンク予測を行う。 我々は、wn18rrデータセットとfb15k-237データセットに基づく最高の非entity-embedding結果に基づいて、the art (sota) 結果を得る。 また,既知のエンティティに対するリンク予測に関する説得力のある結果を得ることで,mlmlmをkbに新たなエンティティを導入するための適切なアプローチとする。

Knowledge Bases (KBs) are easy to query, verifiable, and interpretable. They however scale with man-hours and high-quality data. Masked Language Models (MLMs), such as BERT, scale with computing power as well as unstructured raw text data. The knowledge contained within those models is however not directly interpretable. We propose to perform link prediction with MLMs to address both the KBs scalability issues and the MLMs interpretability issues. To do that we introduce MLMLM, Mean Likelihood Masked Language Model, an approach comparing the mean likelihood of generating the different entities to perform link prediction in a tractable manner. We obtain State of the Art (SotA) results on the WN18RR dataset and the best non-entity-embedding based results on the FB15k-237 dataset. We also obtain convincing results on link prediction on previously unseen entities, making MLMLM a suitable approach to introducing new entities to a KB.
翻訳日:2022-10-18 05:21:00 公開日:2020-09-15
# 回折光ネットワークのアンサンブル学習

Ensemble learning of diffractive optical networks ( http://arxiv.org/abs/2009.06869v1 )

ライセンス: Link先を確認
Md Sadman Sakib Rahman, Jingxi Li, Deniz Mengu, Yair Rivenson and Aydogan Ozcan(参考訳) 機械学習のパワーを活用することの恩恵を受ける光学やフォトニクスの分野では、数多くの研究が進んでいる。 具体的には、並列化、電力効率、計算速度の観点から機械学習タスクの潜在的な優位性のため、光学コンピューティングハードウェアに対する関心が復活している。 ディフューティブ深層ニューラルネットワーク(d2nns)は、これらのパッシブ層を通して入力光ディフューレットとして情報を処理するために、連続したディフューティブ層をディープラーニングベースの設計から恩恵を受ける光コンピューティングフレームワークを形成する。 d2nnは、オブジェクトの分類、情報のスペクトルエンコーディング、光パルス整形、イメージングなど、様々なタスクで成功を収めている。 本稿では,特徴工学とアンサンブル学習を用いて,回折光学ネットワークの推論性能を大幅に向上させる。 様々なパッシブ入力フィルタを多用した1252種類のd2nnを独立にトレーニングした後,画像分類精度を総合的に向上する最適化されたd2nnのアンサンブルを選択するためにpruningアルゴリズムを適用した。 これにより,CIFAR-10テスト画像の分類において,N=14とN=30のD2NNのアンサンブルがそれぞれ61.14%,62.13%のブラインドテスト精度を達成でき,各アンサンブル内の個々のD2NNの平均性能に比べて16%の推論精度が得られた。 これらの結果は、同じデータセット上の任意の回折光学ニューラルネットワーク設計によって達成された最も高い推定精度であり、微分光学画像分類と機械ビジョンシステムの適用範囲を拡大するための重要な飛躍的な飛躍をもたらす可能性がある。

A plethora of research advances have emerged in the fields of optics and photonics that benefit from harnessing the power of machine learning. Specifically, there has been a revival of interest in optical computing hardware, due to its potential advantages for machine learning tasks in terms of parallelization, power efficiency and computation speed. Diffractive Deep Neural Networks (D2NNs) form such an optical computing framework, which benefits from deep learning-based design of successive diffractive layers to all-optically process information as the input light diffracts through these passive layers. D2NNs have demonstrated success in various tasks, including e.g., object classification, spectral-encoding of information, optical pulse shaping and imaging, among others. Here, we significantly improve the inference performance of diffractive optical networks using feature engineering and ensemble learning. After independently training a total of 1252 D2NNs that were diversely engineered with a variety of passive input filters, we applied a pruning algorithm to select an optimized ensemble of D2NNs that collectively improve their image classification accuracy. Through this pruning, we numerically demonstrated that ensembles of N=14 and N=30 D2NNs achieve blind testing accuracies of 61.14% and 62.13%, respectively, on the classification of CIFAR-10 test images, providing an inference improvement of >16% compared to the average performance of the individual D2NNs within each ensemble. These results constitute the highest inference accuracies achieved to date by any diffractive optical neural network design on the same dataset and might provide a significant leapfrog to extend the application space of diffractive optical image classification and machine vision systems.
翻訳日:2022-10-18 05:13:22 公開日:2020-09-15
# オープンエンド言語生成のためのサンプリングアルゴリズムの体系的評価

A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation ( http://arxiv.org/abs/2009.07243v1 )

ライセンス: Link先を確認
Moin Nadeem, Tianxing He, Kyunghyun Cho, James Glass(参考訳) 本研究は,自己回帰言語モデルに広く採用されている祖先サンプリングアルゴリズムについて研究する。 品質多様性(Q-D)トレードオフを用いて,3つの一般的なサンプリングアルゴリズム(トップk,核,テンパレートサンプリング)について検討する。 オープンエンド言語生成の課題に焦点を当てる。 まず,既存のサンプリングアルゴリズムに類似した性能を示す。 異なるサンプリングアルゴリズムによって定義される変換を注意深く検査した結果,エントロピー低減,秩序保存,斜面保存の3つの特性を同定した。 同定された特性の重要性を検証するために,新たなサンプリングアルゴリズムを2セット設計した。1セットは各アルゴリズムが3つの特性を満たし,もう1セットは少なくともその特性の1つに違反する。 これらの性能を既存のサンプリングアルゴリズムと比較し,q-dトレードオフによって測定されたように,識別された特性に違反すると劇的な性能低下を引き起こす可能性があることを見出した。 一方,これらの特性を満たすサンプリングアルゴリズムのセットは,既存のサンプリングアルゴリズムと同等の性能を持つことがわかった。 私たちのデータとコードはhttps://github.com/moinnadeem/characterizing-sampling-algorithmsで利用可能です。

This work studies the widely adopted ancestral sampling algorithms for auto-regressive language models, which is not widely studied in the literature. We use the quality-diversity (Q-D) trade-off to investigate three popular sampling algorithms (top-k, nucleus and tempered sampling). We focus on the task of open-ended language generation. We first show that the existing sampling algorithms have similar performance. After carefully inspecting the transformations defined by different sampling algorithms, we identify three key properties that are shared among them: entropy reduction, order preservation, and slope preservation. To validate the importance of the identified properties, we design two sets of new sampling algorithms: one set in which each algorithm satisfies all three properties, and one set in which each algorithm violates at least one of the properties. We compare their performance with existing sampling algorithms, and find that violating the identified properties could lead to drastic performance degradation, as measured by the Q-D trade-off. On the other hand, we find that the set of sampling algorithms that satisfies these properties performs on par with the existing sampling algorithms. Our data and code are available at https://github.com/moinnadeem/characterizing-sampling-algorithms
翻訳日:2022-10-18 05:12:29 公開日:2020-09-15
# tete-a-tetesのための教師なし抽象対話要約

Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes ( http://arxiv.org/abs/2009.06851v1 )

ライセンス: Link先を確認
Xinyuan Zhang, Ruiyi Zhang, Manzil Zaheer, Amr Ahmed(参考訳) 高品質な対話要約データの作成とドメインセンシティブ化は高価であり、抽象的対話要約は難しい課題である。 本研究では,tete-a-tete (sutat) に対する非教師なし抽象対話要約モデルを提案する。 標準テキスト要約とは異なり、対話要約法は話者が異なる役割、目標、言語スタイルを持つマルチスピーカーシナリオを考慮すべきである。 顧客とエージェントの会話のようなテテテテでは、SuTaTは顧客発話とエージェント発話を別々にモデル化し、相関を保ちながら各話者を要約することを目的としている。 SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。 条件生成モジュールは、2つの潜伏空間間の依存関係をキャプチャする変分オートエンコーダフレームワークにおいて、2つのエンコーダと2つのデコーダを含む。 同じエンコーダとデコーダで、文レベルの自己保持機構を備えた2つの教師なし要約モジュールは、アノテーションを使わずに要約を生成する。 実験の結果,sutatは自動評価と人間評価の両方において教師なしの対話要約に優れ,対話分類と単ターン会話生成が可能であることがわかった。

High-quality dialogue-summary paired data is expensive to produce and domain-sensitive, making abstractive dialogue summarization a challenging task. In this work, we propose the first unsupervised abstractive dialogue summarization model for tete-a-tetes (SuTaT). Unlike standard text summarization, a dialogue summarization method should consider the multi-speaker scenario where the speakers have different roles, goals, and language styles. In a tete-a-tete, such as a customer-agent conversation, SuTaT aims to summarize for each speaker by modeling the customer utterances and the agent utterances separately while retaining their correlations. SuTaT consists of a conditional generative module and two unsupervised summarization modules. The conditional generative module contains two encoders and two decoders in a variational autoencoder framework where the dependencies between two latent spaces are captured. With the same encoders and decoders, two unsupervised summarization modules equipped with sentence-level self-attention mechanisms generate summaries without using any annotations. Experimental results show that SuTaT is superior on unsupervised dialogue summarization for both automatic and human evaluations, and is capable of dialogue classification and single-turn conversation generation.
翻訳日:2022-10-18 05:12:09 公開日:2020-09-15
# Devil is the Classificationifier: Investigationing Long Tail Relation Classification with Decoupling Analysis

The Devil is the Classifier: Investigating Long Tail Relation Classification with Decoupling Analysis ( http://arxiv.org/abs/2009.07022v1 )

ライセンス: Link先を確認
Haiyang Yu, Ningyu Zhang, Shumin Deng, Zonggang Yuan, Yantao Jia, Huajun Chen(参考訳) ロングテール関係分類は、ヘッドクラスがトレーニングフェーズを支配する可能性があるため、テールパフォーマンスの低下につながるため、難しい問題である。 既存のソリューションは通常、データ再サンプリングや損失再重み付けといったクラスバランス戦略を通じてこの問題に対処するが、これらの手法はすべて表現と分類器の密接な学習のスキーマに従う。 本研究は,ロングテール問題に関する詳細な実証実験を行い,インスタンスバランスサンプリングを用いた事前学習モデルが,すべてのクラスで十分に学習された表現を既に捉えていることを見出し,さらに,分類器を調整するだけで,より低コストでロングテールの分類能力を向上できることを示す。 この観測にインスピレーションを得て,関係を自動的に集約することでソフトウェイトを割り当てる,注意関係ルーティング付きロバストな分類器を提案する。 2つのデータセットに関する広範な実験により,提案手法の有効性が示された。 コードとデータセットはhttps://github.com/zjunlp/deepke.comで入手できる。

Long-tailed relation classification is a challenging problem as the head classes may dominate the training phase, thereby leading to the deterioration of the tail performance. Existing solutions usually address this issue via class-balancing strategies, e.g., data re-sampling and loss re-weighting, but all these methods adhere to the schema of entangling learning of the representation and classifier. In this study, we conduct an in-depth empirical investigation into the long-tailed problem and found that pre-trained models with instance-balanced sampling already capture the well-learned representations for all classes; moreover, it is possible to achieve better long-tailed classification ability at low cost by only adjusting the classifier. Inspired by this observation, we propose a robust classifier with attentive relation routing, which assigns soft weights by automatically aggregating the relations. Extensive experiments on two datasets demonstrate the effectiveness of our proposed approach. Code and datasets are available in https://github.com/zjunlp/deepke.
翻訳日:2022-10-18 05:11:51 公開日:2020-09-15