このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221204となっている論文です。

PDF登録状況(公開日: 20221204)

TitleAuthorsAbstract論文公表日・翻訳日
# 局所スクランブル量子力学を用いた古典影トモグラフィ

Classical Shadow Tomography with Locally Scrambled Quantum Dynamics ( http://arxiv.org/abs/2107.04817v4 )

ライセンス: Link先を確認
Hong-Ye Hu, Soonwon Choi, Yi-Zhuang You(参考訳) 古典影トモグラフィを、局所スクランブル量子力学として知られる有限深さまたは有限時間局所ユニタリアンサンブルの広いクラスに一般化し、ユニタリアンサンブルは局所基底変換の下で不変である。 この場合、古典的影トモグラフィーの再構成マップは、古典的スナップショットの平均的絡み合いの特徴にのみ依存する。 我々は、全てのサブシステムにおける古典スナップショットの線形結合として量子状態の非バイアス推定器を提供し、この結合係数は、絡み合い特徴によってのみ決定される。 また, エンタングルメント特徴形式において, 演算子シャドウノルムを定式化することにより, トモグラフィー法に必要な実験値, いわゆるサンプル複雑性の数を制限した。 有限深部局所ユニタリ回路と有限時間局所ハミルトニアン生成進化に対する我々のアプローチを数値的に示す。 浅い回路測定は、パウリやクリフォードの測定に基づく既存の手法と比較して、断層撮影の複雑さを低くすることができる。 我々のアプローチは、ほぼ局所的にスクランブルされたユニタリアンサンブルにも適用可能である。 驚くべきことに、時間依存的な局所ハミルトン進化の単一の例は、イオンを閉じ込めた後にモデル化されたパラダイム的スピンチェーンやリドバーグ原子量子シミュレータを用いて、近似トモグラフィーを実行するのに十分である。 近距離量子デバイスにおける古典的シャドウトモグラフィーの適用を大幅に拡大する。

We generalize the classical shadow tomography scheme to a broad class of finite-depth or finite-time local unitary ensembles, known as locally scrambled quantum dynamics, where the unitary ensemble is invariant under local basis transformations. In this case, the reconstruction map for the classical shadow tomography depends only on the average entanglement feature of classical snapshots. We provide an unbiased estimator of the quantum state as a linear combination of reduced classical snapshots in all subsystems, where the combination coefficients are solely determined by the entanglement feature. We also bound the number of experimental measurements required for the tomography scheme, so-called sample complexity, by formulating the operator shadow norm in the entanglement feature formalism. We numerically demonstrate our approach for finite-depth local unitary circuits and finite-time local-Hamiltonian generated evolutions. The shallow-circuit measurement can achieve a lower tomography complexity compared to the existing method based on Pauli or Clifford measurements. Our approach is also applicable to approximately locally scrambled unitary ensembles with a controllable bias that vanishes quickly. Surprisingly, we find a single instance of time-dependent local Hamiltonian evolution is sufficient to perform an approximate tomography as we numerically demonstrate it using a paradigmatic spin chain Hamiltonian modeled after trapped ion or Rydberg atom quantum simulators. Our approach significantly broadens the application of classical shadow tomography on near-term quantum devices.
翻訳日:2023-03-22 21:57:09 公開日:2022-12-04
# 量子センシング強化のための散逸超ラジアントスピン増幅器

Dissipative superradiant spin amplifier for enhanced quantum sensing ( http://arxiv.org/abs/2111.15647v3 )

ライセンス: Link先を確認
Martin Koppenh\"ofer, Peter Groszkowski, Hoi-Kwan Lau, A. A. Clerk(参考訳) n$2-レベルシステムのアンサンブルとラムジー形式の測定を利用する量子メロロジープロトコルはユビキタスである。 しかし、多くの場合、過剰な読み出しノイズは測定感度を著しく低下させ、特に固体欠陥スピンのアンサンブルに基づくセンサーにおいてである。 本稿では,現実的な本質的な散逸とノイズの存在下でも,このようなスキームの感度を劇的に向上させる「スピン増幅」プロトコルを提案する。 本手法は,スピンスケーシングプロトコルに制限があるため,通常は迷惑と見なされる,集団的(すなわち超ラジアント)スピン減衰を利用したものである。 我々は,本手法により,実読出機構を変更することなく,極めて不完全なスピン・リードアウトを持つシステムに対して,SQLライクなスケーリングを2倍以内で実現可能であることを示す。 我々のアイデアは、固体スピン(NV中心、SiV中心)のアンサンブルが共通のマイクロ波または機械的モードに結合される、最先端の実験プラットフォームと互換性がある。

Quantum metrology protocols exploiting ensembles of $N$ two-level systems and Ramsey-style measurements are ubiquitous. However, in many cases excess readout noise severely degrades the measurement sensitivity; in particular in sensors based on ensembles of solid-state defect spins. We present a dissipative "spin amplification" protocol that allows one to dramatically improve the sensitivity of such schemes, even in the presence of realistic intrinsic dissipation and noise. Our method is based on exploiting collective (i.e., superradiant) spin decay, an effect that is usually seen as a nuisance because it limits spin-squeezing protocols. We show that our approach can allow a system with a highly imperfect spin readout to approach SQL-like scaling in $N$ within a factor of two, without needing to change the actual readout mechanism. Our ideas are compatible with several state-of-the-art experimental platforms where an ensemble of solid-state spins (NV centers, SiV centers) is coupled to a common microwave or mechanical mode.
翻訳日:2023-03-06 06:50:26 公開日:2022-12-04
# サブシステム対称性を持つフラクトン符号とランダムスピンモデルの最適閾値

Optimal Thresholds for Fracton Codes and Random Spin Models with Subsystem Symmetry ( http://arxiv.org/abs/2112.05122v2 )

ライセンス: Link先を確認
Hao Song, Janik Sch\"onmeier-Kromer, Ke Liu, Oscar Viyuela, Lode Pollet, M. A. Martin-Delgado(参考訳) フラクトンモデル(Fracton model)は、本質的に不動励起をホストし、従って従来のトポロジカル秩序の概念を超越した新しい量子相の例を提供する。 本稿では,フラクトンモデルに基づく量子誤り訂正符号の最適誤差閾値を計算する。 ビットフリップノイズと位相フリップノイズの誤差補正過程を、イジング変数とランダムな多体結合を持つ新しい統計モデルにマッピングすることにより、より通常の大域的対称性の代わりに非慣習的なサブシステム対称性を示すモデルを得る。 我々はモンテカルロシミュレーションを大規模に並列化し, 異常温度位相図を求め, 対応するフラクトン符号の最適誤差閾値を予測する。 驚くべきことに、x-cubeフラクトン符号は、トーリック符号 (3.3\%$) やカラーコード (1.9\%$$) のような3d位相符号よりもはるかに高い最小誤差しきい値 (7.5\%$) を示すことがわかった。 この結果、西森線でのガラスオーダーの欠落が予測されたことから、フラクトン相が量子メモリプラットフォームとして使われる可能性が示唆された。

Fracton models provide examples of novel gapped quantum phases of matter that host intrinsically immobile excitations and therefore lie beyond the conventional notion of topological order. Here, we calculate optimal error thresholds for quantum error correcting codes based on fracton models. By mapping the error-correction process for bit-flip and phase-flip noises into novel statistical models with Ising variables and random multi-body couplings, we obtain models that exhibit an unconventional subsystem symmetry instead of a more usual global symmetry. We perform large-scale parallel tempering Monte Carlo simulations to obtain disorder-temperature phase diagrams, which are then used to predict optimal error thresholds for the corresponding fracton code. Remarkably, we found that the X-cube fracton code displays a minimum error threshold ($7.5\%$) that is much higher than 3D topological codes such as the toric code ($3.3\%$), or the color code ($1.9\%$). This result, together with the predicted absence of glass order at the Nishimori line, shows great potential for fracton phases to be used as quantum memory platforms.
翻訳日:2023-03-05 00:50:05 公開日:2022-12-04
# IETF会議の例を例に, 会議の航空便のCO_2$等価エミッションの推定

Estimating Meetings' Air Flight $CO_2$ Equivalent Emissions An Illustrative Example with IETF meetings ( http://arxiv.org/abs/2212.03172v1 )

ライセンス: Link先を確認
Daniel Migault(参考訳) これらのメモには、CO2eqは航空交通に関連するCO_2$相当の排出量を推定し、それを年間3回開催される国際標準開発組織であるIETF(Internet Engineering Task Force)に適用するツールについて書かれている。 CO2eqはIETFの会合への参加は、例えばドイツやポーランドのような石炭で発電するヨーロッパ諸国の1人当たりのCO_2$排出量と同等のCO_2$を発生させると見積もっている。 これは、いくつかの急進的な変更がIETFによって考慮されるべきであることを示している。 国連事務総長 ant\'onio guterres の "26^{th}$ conference of the parties" (cop26) の結論によれば、2021年には会議の数は年 1 回に制限される。 さらに、ietfの戦略にサステナビリティ原則を組み込むには、例えば、その戦略を整合させ、サステナビリティへの進捗を報告するために、プログラム(国連グローバルコンパクトや気候イニシアチブなど)に固執すると同時に、参加を「リモート」する体験を強化する努力を増やすことを含めるべきである。

These notes describe CO2eq a tool that estimates $CO_2$ equivalent emissions associated with air traffic and applies it to the Internet Engineering Task Force (IETF), an international standard developing organization that meets 3 times a year. CO2eq estimates that the participation to IETF meetings (by a single participant) generates as much $CO_2$ equivalent as the $CO_2$ emissions per capita of European countries generating their energy using coal -- like Germany or Poland for example. This suggests some radical changes should be considered by the IETF. According to the conclusion of the $26^{th}$ Conference of the Parties (COP26) from the United Nations Secretary-General Ant\'onio Guterres; in 2021, the number of meetings should be limited to a maximum of one meeting per year. In addition, the incorporation of sustainability principles into the IETF's strategy, should include, for example, increasing the effort to enhance the experience of 'remote' participation as well as adhering to programs (such as for example the United Nations Global Compact and the caring for climate initiative) to align its strategy and report progress toward sustainability.
翻訳日:2023-02-19 12:52:37 公開日:2022-12-04
# パーソナライズなグリーンIT活用 - 文献レビューからの発見

Personal Green IT Use: Findings from a Literature Review ( http://arxiv.org/abs/2212.03074v1 )

ライセンス: Link先を確認
Ayodhya Wathuge, Darshana Sedera and Golam Sorwar(参考訳) ヘドニックおよび実用レベルでのインターネットユーザーの行動の緑化に対処する研究はほとんどない。 モチベーションから生じる次元,スケール,強い関係を識別するために,個人のグリーンITコンテキストに関する研究論文のサンプルをレビューした。 要因を異なる動機次元に分類するための理論的枠組みとして自己決定理論を用いた。 定性的文献は、理論の動機づけの構成物とそれを用いた緑との5つの対関係を分析した。 本研究は、個人のグリーンIT行動の評価に適用される措置を要約し、自己決定理論で広く定義された関係を検証し、ヘドニックと実用的グリーンITの使用を区別することによって、環境モチベーションに関する先行研究を基盤としている。

Research addressing the greening of internet user behaviours at hedonic and utilitarian levels is scarce. To identify dimensions, scales and strong relationships arising from motivation, we reviewed a sample of research articles related to the personal green IT context. We used Self-determination theory as the theoretical framework to categorize factors into different motivation dimensions. A qualitative literature review analyses five pair-wise associations between motivation constructs of the theory and green IT use. This work builds on the prior research related to environmental motivation by summarizing the measures applied to the evaluation of personal green IT behaviours and by examining the relationships broadly defined in the Self-determination theory, distinguishing between hedonic and utilitarian green IT use.
翻訳日:2023-02-19 12:51:44 公開日:2022-12-04
# ITは重要なのか? グローバルパネルによる2018-2020年7地域のデジタル化と経済成長への影響に関するデータ分析

Does IT Matter (Now)? A Global Panel Data Analysis of 7 Regions from 2018-2020 on Digitalization and its Impact on Economic Growth ( http://arxiv.org/abs/2212.03071v1 )

ライセンス: Link先を確認
Mahikala Niranga, Darshana Sedera and Golam Sorwar(参考訳) デジタル化と国家の経済成長に関するitの反対の議論については、情報技術(it)と経済学文献で長く議論が続いている。 多くの実証研究がそれの有意義な価値を示したが、他の研究は有害な影響を示した。 新型コロナウイルス(covid-19)の世界的なパンデミックによるデジタル化の増加に関するあいまいな結果と逸話的な解説を踏まえて,2018~2020年にかけての相関分析と回帰分析を用いて,7地域59カ国の経済成長・デジタル化nexusについて検討することを目的とする。 その結果,中・下級デジタル化国区分と地域評価において,経済成長とデジタル化の正の相関が示唆された。 北アフリカ、西アジア、サハラ以南のアフリカ地域を除く地域の結果と一致し、残りの地域は正の相関と回帰の結果を示す。 本研究の成果は今後の国家IT・経済開発政策に有効である。

There has been a long-running debate in Information Technology (IT) and economics literature about the contrary arguments of IT concerning digitalization and the economic growth of nations. While many empirical studies have shown a significant value of IT, others revealed a detrimental impact. Given the ambiguous results and anecdotal commentary on the increase in digitalization attributed to the COVID19 global pandemic, this paper aims to explore the economic growth-digitalization nexus of 59 countries in 7 regions by employing correlation and regression analyses over the period 2018-2020. The findings indicate a positive relationship between economic growth and digitalization for both HIGH and LOW digitalized country categorization and regional assessment. Consistent with regional results, except for Northern Africa and Western Asia, and Sub-Saharan Africa regions, the remaining regions show a positive correlation and regression results. The findings of this study can be helpful in future prospective national IT and economic development policies.
翻訳日:2023-02-19 12:51:31 公開日:2022-12-04
# データ駆動イノベーション:未来研究の方向性を理解する

Data-driven Innovation: Understanding the Direction for Future Research ( http://arxiv.org/abs/2212.03061v1 )

ライセンス: Link先を確認
Sasari Samarasinghe and Sachithra Lokuge(参考訳) 現代の情報時代において、組織はデータの革新と競争上の優位性を実現するためにの重要性を認識してきた。 その結果、企業はデータ駆動イノベーション(DDI)を実現する可能性を理解することに注力している。 研究者もこの現象を広い範囲で調べることに注力している。 本研究では,DDI現象を理解するために,文献の体系的,包括的レビューを行った。 本研究の成果は,現在の知識体系のギャップを解明し,実践者がイノベーション能力の向上と発展のためにデータ戦略を改善する上で有益である。

In the contemporary age of information, organisations have realised the importance of data to innovate and thereby attain a competitive advantage. As a result, firms are more focused on understanding the potential to achieve data-driven innovation (DDI). Researchers too have focused on examining this novel phenomenon in a broader scope. In this study, we conducted a systematic and comprehensive review of the literature to understand the DDI phenomenon. The findings of this study benefit scholars in determining the gaps in the current body of knowledge as well as for practitioners to improve their data strategy to enhance and develop innovation capabilities.
翻訳日:2023-02-19 12:51:14 公開日:2022-12-04
# データ民主化の重要な成功要因を探る

Exploring the Critical Success Factors for Data Democratization ( http://arxiv.org/abs/2212.03059v1 )

ライセンス: Link先を確認
Sasari Samarasinghe and Sachithra Lokuge(参考訳) データ時代が到来すると、組織は常に、技術や非技術系従業員のためのデータ分析ツールへのデータスキルの拡散、データ責任、アクセシビリティの管理に注意を払うように圧力をかけています。 このように、最近では、組織はデータの民主化のようなデータガバナンスと管理戦略に注力しています。 データ民主化は、データサイロを除去してデータを見つけ、アクセスし、自己分析し、共有するための、従業員へのデータアクセスを拡大するプロセスである。 組織のデータを民主化することによって、組織は従業員がデータの言語を話せるようにし、ビジネス機能を改善するためにデータを効率的に使用できるようにする。 本稿では,データの民主化における重要な成功要因を明らかにすることを目的とする。 分析の結果から,データ民主化戦略の後継として9つの重要な成功要因が確認された。

With the advent of the Data Age, organisations are constantly under pressure to pay attention to the diffusion of data skills, data responsibilities, and management of accessibility to data analysis tools for the technical as well as non-technical employees. As such, in recent times, organisations are focusing on data governance and management strategies such as data democratization. Data democratization is an ongoing process of broadening data access to employees to find, access, self-analyse, and share data by removing data silos. By democratizing organisational data, organisations attempt to ensure that employees can speak the language of data and empower them to use data efficiently to improve their business functionalities. This paper aims to identify the critical success factors for data democratization through an in-depth review of the literature. Based on the findings of the analysis, nine critical success factors were identified as successors of the data democratization strategy.
翻訳日:2023-02-19 12:51:04 公開日:2022-12-04
# 健康オントロジーの社会的決定因子(SDoHO)の体系設計と評価

Systematic Design and Evaluation of Social Determinants of Health Ontology (SDoHO) ( http://arxiv.org/abs/2212.01941v1 )

ライセンス: Link先を確認
Yifang Dang, Fang Li, Xinyue Hu, Vipina K. Keloth, Meng Zhang, Sunyang Fu, Jingcheng Du, J. Wilfred Fan, Muhammad F. Amith, Evan Yu, Hongfang Liu, Xiaoqian Jiang, Hua Xu, Cui Tao(参考訳) 健康の社会的決定因子(SDoH)は、健康の結果と幸福に重大な影響を及ぼす。 SDoHに対処することは、医療の不平等を減らし、病気のケアシステムを健康増進システムに変えるための鍵である。 sdohの用語のギャップに対処し、より高度な生体医学情報学に関連要素を組み込むため、sdohoオントロジー(sdoho)を提案し、sdohの基本因子とその関係を標準化され、測定可能な方法で表現する。 オントロジーは、複数のSDoH関連リソースに基づいて、クラス、関係、制約を正式にモデル化する。 臨床ノートデータと全国調査を用いた専門家レビューとカバレッジ評価の結果は良好であった。 SDoHOは、SDoHと健康結果の関係を包括的に理解するための基盤を提供し、人口間の健康的平等への道を開く上で、不可欠な役割を果たす可能性がある。

Social determinants of health (SDoH) have a significant impact on health outcomes and well-being. Addressing SDoH is the key to reducing healthcare inequalities and transforming a sick care system into a health-promoting system. To address the SDOH terminology gap and better embed relevant elements in advanced biomedical informatics, we propose an SDoH ontology (SDoHO), which represents fundamental SDoH factors and their relationships in a standardized and measurable way. The ontology formally models classes, relationships, and constraints based on multiple SDoH-related resources. Expert review and coverage evaluation, using clinical notes data and a national survey, showed satisfactory results. SDoHO could potentially play an essential role in providing a foundation for a comprehensive understanding of the associations between SDoH and health outcomes and providing a path toward health equity across populations.
翻訳日:2023-02-19 12:50:40 公開日:2022-12-04
# プログラミング課題の自動グルーピングツールのグルーピング形式に関する調査

A survey on grading format of automated grading tools for programming assignments ( http://arxiv.org/abs/2212.01714v1 )

ライセンス: Link先を確認
Aditi Agrawal, Benjamin Reed(参考訳) オンラインプラットフォームや研究が普及したことで、自動採点ツールの需要が高まり、その結果、市場にはたくさんのものが存在する。 このようなツールは、コーディングの割り当てを素早く、正確に、努力的に評価するために開発されている。 プログラミング言語や概念の多様な選択肢に対応できる様々なツールがあるので、どのインストラクターが自分の要求に合うかを決めることは圧倒的である。 ツールについて調査し、機能やサポート内容に関する洞察を提供する調査がいくつか行われている。 しかし、機能を知ること以外は、インストラクターが、割り当てがどのように評価され、テストケースの形式が何かを知ることが重要です。 これはインストラクタがグレーディングフォーマットを設計しなければならないため、学習曲線を必要とするため重要です。 本調査は,評価形式に基づいて自動採点ツールを調査し,評価する。 このことは、読者がどのツールを選択するかを決めるのに役立ち、特定のグレーティングツールのコーディング代入のグレードに使用する評価設定とアプローチに関する洞察を提供するのに役立つ。

The prevalence of online platforms and studies has generated the demand for automated grading tools, and as a result, there are plenty in the market. Such tools are developed to grade coding assignments quickly, accurately, and effortlessly. Since there are varieties of tools available to cater to the diverse options of programming languages and concepts, it is overwhelming for any instructor to decide which one suits one's requirements. There are several surveys studying the tools and giving insights into how they function and what they support. However other than knowing the functionality, it is important for an instructor to know how the assignments are graded and what is the format of the test cases. This is crucial since the instructor has to design the grading format and therefore requires a learning curve. This survey studies and evaluates the automated grading tools based on their evaluation format. This in turn helps a reader in deciding which tool to choose and provides an insight into what are the assessment settings and approaches used in grading the coding assignment in any specific grading tool.
翻訳日:2023-02-19 12:50:23 公開日:2022-12-04
# 保険市場におけるブロックチェーンの破壊力を革新的機会に変える

Turning disruptive power of Blockchain in the insurance market into innovative opportunities ( http://arxiv.org/abs/2211.05830v2 )

ライセンス: Link先を確認
Wadnerson Boileau(参考訳) 保険は数世紀以上存在してきた。 このリスク軽減戦略は、数千年前から海上商取引で利用されており、アジアの商船商は、個人船の損害賠償のために集団資金で商品をプールしている。 2018年、保険業界は世界のgdpの6%を占め、金融業界は米国のgdpの約7%から9%を占め、業界純プレミアムは1.28兆ドル、2030年までにブロックチェーン保険市場は39.5億ドルに達すると推定されている。 改革の進展にもかかわらず、保険市場は、人々が保険のニーズに合うように支援する仲介者によって支配されている。 多くの予測が人工知能やクラウドコンピューティングに焦点を当てているが、ブロックチェーンは世界経済を支える原動力を変える最も破壊的な技術である。 本稿では、ブロックチェーンのビジネスユースケースと、保険業界がブロックチェーンの破壊力を革新的な機会に変える方法について述べる。

Insurance has been around for more than centuries. This risk mitigation strategy has been utilized in maritime commerce as early thousand years ago, where Asian merchant seafarers were pooling together their wares in collective funds to pay for damages of individual capsized ship. In 2018, insurance industry made up 6 percent of global GDP while financial industry amounted to about 7 to 9 percent of the US GDP.2020, the industry net premiums totaled USD1.28 trillion, by 2030, blockchain insurance market value is estimated to reach USD39.5 Billion. Despite of growing reform, the insurance market is dominated by intermediaries assisting people to match their insurance needs. While many predictions focused on artificial intelligence, cloud computing, blockchain stands out as the most disruptive technology that can change the driving forces underlying the global economy. This paper presents a blockchain business use case and how insurance industry can turn blockchain disruptive power into innovative opportunities.
翻訳日:2023-02-19 12:20:36 公開日:2022-12-04
# 位相共変チャネル:進化の量子速度限界

Phase covariant channel: Quantum speed limit of evolution ( http://arxiv.org/abs/2204.08149v2 )

ライセンス: Link先を確認
Riya Baruah, K.G. Paulson, Subhashish Banerjee(参考訳) 位相共変写像の量子進化速度について検討した。 これは吸収、放出、脱落プロセスを含む。 上記のプロセスの様々な組み合わせの下で,位相共変写像が量子速度制限時間に与える影響を考察する。 吸収のない位相共変写像では、消散性およびcp-(in)分割性(non)-マルコフ位相強調雑音の組み合わせを考える。 真空および有限温度効果の両方が存在する場合, 速度限界時間におけるコヒーレンス混合バランスの役割を確認する。 また、位相共変写像の特定の場合におけるホレボの情報の変化速度と進化の作用量子速度についても検討する。

The quantum speed of evolution for the phase covariant map is investigated. This involves absorption, emission and dephasing processes. We consider the maps under various combinations of the above processes to investigate the effect of phase covariant maps on quantum speed limit time. For absorption-free phase covariant maps, combinations of dissipative and CP-(in)divisible (non)-Markovian dephasing noises are considered. The role of coherence-mixedness balance on the speed limit time is checked in the presence of both vacuum and finite temperature effects. We also investigate the rate at which Holevo's information changes and the action quantum speed of evolution for specific cases of the phase covariant map.
翻訳日:2023-02-16 11:50:18 公開日:2022-12-04
# 強スピン軌道結合を有する2次元ディラック材料のスピン緩和に及ぼす基板効果

Substrate Effects on Spin Relaxation in Two-Dimensional Dirac Materials with Strong Spin-Orbit Coupling ( http://arxiv.org/abs/2206.00784v2 )

ライセンス: Link先を確認
Junqing Xu and Yuan Ping(参考訳) 二次元(2次元)材料におけるスピンダイナミクスと緩和に対する基質効果の理解は、スピントロニクスや量子情報応用において重要である。 しかし、特に強いスピン軌道結合を持つ材料において、スピン緩和に対する基質効果を決定する重要な要因はよく理解されていない。 本研究では,スピン軌道結合(soc)と電子-フォノン及び電子-不純物散乱の量子記述を用いた第一原理のリアルタイム密度行列動力学シミュレーションを行った。 スピン寿命に対する異なる基板の効果は、2桁の等級で驚くほど異なることが示されている。 我々は,SOC-フィールド異方性の変化がスピン-フリップ散乱行列要素を変化させることに,$\tau_s$の基板効果が密接に関係していることを発見した。 スピン-フリップ散乱によるスピン緩和を特徴付けるために,スピン-フリップ角$\theta^{\uparrow\downarrow}$という新しい電子量を提案する。 スピン緩和速度は、スピン緩和を制御するための誘導パラメータとして使用できる$\mathrm{sin}^{2}\left(\theta^{\uparrow\downarrow}/2\right)$の平均値にほぼ比例する。

Understanding substrate effects on spin dynamics and relaxation in two-dimensional (2D) materials is of key importance for spintronics and quantum information applications. However, the key factors that determine the substrate effect on spin relaxation, in particular for materials with strong spin-orbit coupling, have not been well understood. Here we performed first-principles real-time density-matrix dynamics simulations with spin-orbit coupling (SOC) and quantum descriptions of electron-phonon and electron-impurity scattering for the spin lifetimes of supported/free-standing germanene, a prototypical strong SOC 2D Dirac material. We show that the effects of different substrates on spin lifetime can surprisingly differ by two orders of magnitude. We find that substrate effects on $\tau_s$ are closely related to substrate-induced modifications of the SOC-field anisotropy, which changes the spin-flip scattering matrix elements. We propose a new electronic quantity, named spin-flip angle $\theta^{\uparrow\downarrow}$, to characterize spin relaxation caused by intervalley spin-flip scattering. We find that the spin relaxation rate is approximately proportional to the averaged value of $\mathrm{sin}^{2}\left(\theta^{\uparrow\downarrow}/2\right)$, which can be used as a guiding parameter of controlling spin relaxation.
翻訳日:2023-02-11 01:06:14 公開日:2022-12-04
# 先駆ビーコンを用いた適応光学による移動古典・量子音源の自由空間光通信速度の向上

Improving Free-Space Optical Communication Rate Of Moving Classical Or Quantum Sources Via Adaptive Optics With A Pioneer Beacon ( http://arxiv.org/abs/2206.12173v2 )

ライセンス: Link先を確認
Kai Sum Chan and H. F. Chau(参考訳) 乱気流を通り抜ける光の波面は歪む。 これにより、光線が広がり受信端をさまようと、自由空間光通信における信号損失が発生する。 周波数および/または時間分割多重適応光学(ao)技術は、この種の波面歪みを共役するために用いられる。 しかし、信号ビームが大気に対して移動すると、aoシステムの性能は高いグリーンウッド周波数のため劣化する。 本稿では,信号ビームから空間的に分離した先駆的ビーコンを,空間的に分離されたパルス間の時間遅延で追加することにより,この問題を解決する。 さらに重要なことは、我々のプロトコルは信号ビームの強度に関係なく機能するため、秘密量子通信にも適用できる。 特に、半経験的大気乱流計算を用いて、低地球軌道衛星-地上デコイ状態量子鍵分布において、周波数および/または時間分割多重化を用いるシステムよりも秘密鍵率を約27%向上させることを示す。 最後に,この問題に対する有効な代替ソリューションとして,既存の波長分割多重システムの修正を提案する。

Wavefront of light passing through turbulent atmosphere gets distorted. This causes signal loss in free-space optical communication as the light beam spreads and wanders at the receiving end. Frequency and/or time division multiplexing adaptive optics (AO) techniques have been used to conjugate this kind of wavefront distortion. However, if the signal beam moves relative to the atmosphere, the AO system performance degrades due to higher Greenwood frequency. Here we solve this problem by adding a pioneer beacon that is spatially separated from the signal beam with time delay between spatially separated pulses. More importantly, our protocol works irrespective of the signal beam intensity and hence is also applicable to secret quantum communication. In particular, using semi-empirical atmospheric turbulence calculation, we show that for low earth orbit satellite-to-ground decoy state quantum key distribution, our method increases the secret key rate by about 27% over systems that use frequency and/or time division multiplexing. Finally, we propose a modification of existing wavelength division multiplexing systems as an effective alternative solution to this problem.
翻訳日:2023-02-08 04:39:53 公開日:2022-12-04
# 絡み合ったシステムの完全な説明について(第2報) : (メタ)物理的状態と意味的側面

On The Complete Description Of Entangled Systems Part II: The (Meta)Physical Status And Semantic Aspects ( http://arxiv.org/abs/2211.03205v2 )

ライセンス: Link先を確認
Karl Svozil(参考訳) 量子力学に違反したブールの「可能な経験に関する条件」から確率境界の意味論的側面を概観する。 また、量子化のエピノメノンとして出現する時空圏と、非単項過程と非線形過程による相対性理論の分解を推測する。

We review some semantical aspects of probability bounds from Boole's "conditions on possible experience" violated by quantum mechanics. We also speculate about emerging space-time categories as an epiphenomenon of quantization and the resulting breakdown of relativity theory by non-unitary and non-linear processes.
翻訳日:2023-01-20 04:20:55 公開日:2022-12-04
# ガッピング境界を持つトーリック符号に対する代数的量子場理論的アプローチ

An algebraic quantum field theoretic approach to toric code with gapped boundary ( http://arxiv.org/abs/2212.01952v1 )

ライセンス: Link先を確認
Daniel Wallick(参考訳) トポロジカルに順序付けられた量子スピン系は、量子計算のフォールトトレラントな手段を提供するため、大きな関心を集めている。 そのようなスピン系の最も単純な例の1つは、キタエフのトーリック符号である。 ナイケンスは、代数量子場理論による作用素代数的アプローチを用いて、無限平面格子(熱力学的極限)上のトーリック符号の扱いを数学的に厳密にした。 我々は、ガッピング境界を持つトーリック符号の場合を調べるために、彼の手法を適用する。 特に、キタエフとコングで記述された凝縮結果を復元し、境界理論が予想通りバルク上の加群テンソル圏であることを示す。

Topologically ordered quantum spin systems have become an area of great interest, as they may provide a fault-tolerant means of quantum computation. One of the simplest examples of such a spin system is Kitaev's toric code. Naaijkens made mathematically rigorous the treatment of toric code on an infinite planar lattice (the thermodynamic limit), using an operator algebraic approach via algebraic quantum field theory. We adapt his methods to study the case of toric code with gapped boundary. In particular, we recover the condensation results described in Kitaev and Kong and show that the boundary theory is a module tensor category over the bulk, as expected.
翻訳日:2023-01-09 22:58:37 公開日:2022-12-04
# ファイバーループレーザーの低温スペクトル

Low temperature spectrum of a fiber loop laser ( http://arxiv.org/abs/2212.01759v1 )

ライセンス: Link先を確認
Eyal Buks(参考訳) ファイバベースの多波長レーザーは、通信や気象学に様々な重要な応用がある。 本研究では,エルビウムドープファイバ(EDF)を用いたファイバループレーザーの実験的検討を行った。 出力光スペクトルは、EDF温度の関数として測定される。 臨界温度が約10\unit{% k}$以下の場合、測定された光スペクトルは狭く不等間隔のピークの列を示す。 ピークの波長と素数の列の間の興味深い接続について論じる。 コム形成をモード間カップリングに分類する仮説を考察した。

Fiber-based multi-wavelength lasers have a variety of important applications in telecommunication and meteorology. We experimentally study a fiber loop laser with an integrated Erbium doped fiber (EDF). The output optical spectrum is measured as a function of the EDF temperature. We find that below a critical temperature of about $10\unit{% K}$ the measured optical spectrum exhibits a sequence of narrow and unequally-spaced peaks. An intriguing connection between the peaks' wavelengths and the sequence of prime numbers is discussed. An hypothesis, which attributes the comb formation to intermode coupling, is explored.
翻訳日:2023-01-09 22:46:21 公開日:2022-12-04
# 量子ハミルトン・ヤコビ量子化と形状不変性

Quantum Hamilton-Jacobi Quantization and Shape Invariance ( http://arxiv.org/abs/2212.01871v1 )

ライセンス: Link先を確認
Rathi Dasgupta and Asim Gangopadhyaya(参考訳) 量子ハミルトン-ヤコビ量子化スキームは量子力学系のポテンシャルの特異性構造を用いて固有スペクトル \cite{Leacock,Gozzi} を生成する。 超対称量子力学における最近の研究を用いて、量子ハミルトン-ヤコビ形式を持つすべての従来のポテンシャルの可解性はその形状不変性から従うことを証明した。

Quantum Hamilton-Jacobi quantization scheme uses the singularity structure of the potential of a quantum mechanical system to generate its eigenspectrum \cite{Leacock,Gozzi}, and its efficacy has been demonstrated for many well known conventional potentials \cite{Kapoor}. Using some recent work in supersymmetric quantum mechanics we prove that the solvability of all conventional potentials with the quantum Hamilton-Jacobi formalism follows from their shape invariance.
翻訳日:2023-01-09 22:46:15 公開日:2022-12-04
# 効率的な符号化とアンサッツスキームを用いたフェルミオンハミルトニアンの量子シミュレーション

Quantum simulations of Fermionic Hamiltonians with efficient encoding and ansatz schemes ( http://arxiv.org/abs/2212.01912v1 )

ライセンス: Link先を確認
Benchen Huang, Nan Sheng, Marco Govoni, Giulia Galli(参考訳) 量子コンピュータ上でのフェルミオンハミルトニアンの量子シミュレーションのための計算プロトコルを提案する。 本研究では,slater 行列式を qubit にマッピングする qubit 効率の高い符号化方式と,改良された qubit 結合クラスタ ansatz とノイズ緩和手法を組み合わせた。 提案手法は,回路ゲート数のスケーリングを著しく改善し,必要な変動パラメータの数を減少させ,ノイズに対するレジリエンスを増大させる。 量子技術のスピン欠陥は, ダイヤモンド中の負電荷窒素空孔中心と4H炭化ケイ素(4H-SiC)中の二重空孔の最小モデルを超え, 4H-SiCにおける負電荷シリコン空孔としての欠陥に初めて対処する。

We propose a computational protocol for quantum simulations of Fermionic Hamiltonians on a quantum computer, enabling calculations which were previously not feasible with conventional encoding and ansatses of variational quantum eigensolvers (VQE). We combine a qubit-efficient encoding scheme mapping Slater determinants onto qubits with a modified qubit-coupled cluster ansatz and noise-mitigation techniques. Our strategy leads to a substantial improvement in the scaling of circuit gate counts and to a decrease in the number of required variational parameters, thus increasing the resilience to noise. We present results for spin defects of interest for quantum technologies, going beyond minimum models for the negatively charged nitrogen vacancy center in diamond and the double vacancy in 4H silicon carbide (4H-SiC) and tackling a defect as complex as negatively charged silicon vacancy in 4H-SiC for the first time.
翻訳日:2023-01-09 20:21:35 公開日:2022-12-04
# 空間光モードの工学的光子統計

Engineering Photon Statistics of Spatial Light Modes ( http://arxiv.org/abs/2212.01734v1 )

ライセンス: Link先を確認
Mingyuan Hong, Ashe Miller, Roberto de J. Le\'on-Montiel, Chenglong You, Omar S. Maga\~na-Loaiza(参考訳) 光源の性質は、電磁場の統計的変動によって定義される。 このように、光源の光子統計は典型的には異なるエミッターと関連している。 本稿では,コヒーレント光の空間変調によって様々な光子統計量を持つ光線を生成できる可能性を示す。 これはデジタルマイクロミラー装置における制御可能なコルモゴロフ位相スクリーンのシーケンシャルエンコーディングによって達成される。 興味深いことに,本手法の柔軟性は,異なる空間位置における光子統計学による空間光モードの任意な整形を可能にする。 本手法の性能は,光子統計を用いた空間光モードの異なるファミリーの光子数分解特性によって評価される。 任意の空間位置における光場の光子ゆらぎを制御できることは、量子分光、センシング、イメージングに重要な意味を持つと考えている。

The nature of light sources is defined by the statistical fluctuations of the electromagnetic field. As such, the photon statistics of light sources are typically associated with distinct emitters. Here, we demonstrate the possibility of producing light beams with various photon statistics through the spatial modulation of coherent light. This is achieved by the sequential encoding of controllable Kolmogorov phase screens in a digital micromirror device. Interestingly, the flexibility of our scheme allows for the arbitrary shaping of spatial light modes with engineered photon statistics at different spatial positions. The performance of our scheme is assessed through the photon-number-resolving characterization of different families of spatial light modes with engineered photon statistics. We believe that the possibility of controlling the photon fluctuations of the light field at arbitrary spatial locations has important implications for quantum spectroscopy, sensing, and imaging.
翻訳日:2023-01-09 20:10:50 公開日:2022-12-04
# マルチパートエンタングルメント分布スイッチの解析について

On the Analysis of a Multipartite Entanglement Distribution Switch ( http://arxiv.org/abs/2212.01784v1 )

ライセンス: Link先を確認
Philippe Nain, Gayane Vardoyan, Saikat Guha, Don Towsley(参考訳) 本研究では,最大エンタングル状態の量子スイッチをユーザ集合に分散する。 絡み込み切替プロセスは、まず、各ユーザが自身とスイッチの間の二分割絡みを発生させようとする、次に、スイッチがローカル操作と測定を行い、一組のユーザに対して多分割絡みを発生させる、という2つのステップを必要とする。 本研究では,スイッチのメモリが無限であり,ユーザとスイッチを接続するリンクが同一となる,このシステムの簡単な変形について検討する。 さらに、全ての量子状態が、成功すれば完全に忠実であり、デコヒーレンスが無視可能であると仮定する。 この問題の定式化は、いくつかの分散量子アプリケーションに興味を持ち、一方、この研究の技術的な側面はキューイング理論における新しい貢献をもたらす。 Lyapunov関数の広範な使用により、システムの安定性とスイッチ容量およびメモリ上の期待数に対する閉形式表現に必要な十分条件が導出される。

We study a quantum switch that distributes maximally entangled multipartite states to sets of users. The entanglement switching process requires two steps: first, each user attempts to generate bipartite entanglement between itself and the switch; and second, the switch performs local operations and a measurement to create multipartite entanglement for a set of users. In this work, we study a simple variant of this system, wherein the switch has infinite memory and the links that connect the users to the switch are identical. Further, we assume that all quantum states, if generated successfully, have perfect fidelity and that decoherence is negligible. This problem formulation is of interest to several distributed quantum applications, while the technical aspects of this work result in new contributions within queueing theory. Via extensive use of Lyapunov functions, we derive necessary and sufficient conditions for the stability of the system and closed-form expressions for the switch capacity and the expected number of qubits in memory.
翻訳日:2023-01-09 20:10:38 公開日:2022-12-04
# 量子近似最適化における近似ボルツマン分布

Approximate Boltzmann Distributions in Quantum Approximate Optimization ( http://arxiv.org/abs/2212.01857v1 )

ライセンス: Link先を確認
Phillip C. Lotshaw, George Siopsis, James Ostrowski, Rebekah Herrman, Rizwanul Alam, Sarah Powers, and Travis S. Humble(参考訳) 量子近似最適化アルゴリズム(QAOA)は、近距離量子コンピュータで組合せ最適化問題を解くための量子アルゴリズムである。 最大カット問題を解決する最適化qaoaインスタンスに存在する構造を,n=14-23$ qubits と深さパラメータ $p\leq12$ のランダムグラフアンサンブル上で解析する。 驚くべきことに、最適化qaoa回路の出力分布における平均基底状態確率はボルツマン分布を通じて記述できる: 平均基底状態確率はエネルギー(カット値)とともに指数関数的にスケールし、最適な解でピークとなる。 これは以前の結果を$p=1$から一般化する。 さらに、指数的スケーリングの速度や、様々な深さや大きさのインスタンス間での「有効温度」を記述する統一的な経験的関係を見つけ、これを用いて近似QAOA出力分布を生成する。 真のシミュレーション結果と比較すると、これらの近似分布は、正確にシミュレートした7200のインスタンスに対して、n$とp$ごとに$\leq0.6\%$の中央値近似比誤差と2.9\%の最悪のケース誤差を生成する。 近似分布は最適解と累積分布関数の確率も考慮しているが、誤差が大きい。 指数パターンは乱グラフアンサンブルにおけるQAOA測定統計の重要かつ一般的な側面を捉え、最大38キュービットおよび深さパラメータ$p\leq 12$のランダムグラフ上でのQAOA性能測定のスケーリングを予測した。

The quantum approximate optimization algorithm (QAOA) is a quantum algorithm for approximately solving combinatorial optimization problems with near-term quantum computers. We analyze structure that is present in optimized QAOA instances solving the MaxCut problem, on random graph ensembles with $n=14-23$ qubits and depth parameters $p\leq12$. Remarkably, we find that the average basis state probabilities in the output distribution of optimized QAOA circuits can be described through a Boltzmann distribution: The average basis state probabilities scale exponentially with their energy (cut value), with a peak at the optimal solution. This generalizes previous results from $p=1$. We further find a unified empirical relation that describes the rate of exponential scaling or "effective temperature" across instances at varying depths and sizes, and use this to generate approximate QAOA output distributions. Compared to the true simulation results, these approximate distributions produce median approximation ratio errors of $\leq0.6\%$ at each $n$ and $p$ and worst-case error of $2.9\%$ across the 7,200 instances we simulated exactly. The approximate distributions also account for the probability for the optimal solution and cumulative distribution functions, but with larger errors. We conclude that exponential patterns capture important and prevalent aspects of QAOA measurement statistics on random graph ensembles, and make predictions for QAOA performance metric scalings on random graphs with up to 38 qubits and depth parameters $p\leq 12$.
翻訳日:2023-01-09 20:10:20 公開日:2022-12-04
# 固体スピンを用いた常温超放射光加工

Superradiant Masing with Solid-state Spins at Room Temperature ( http://arxiv.org/abs/2212.01864v1 )

ライセンス: Link先を確認
Qilong Wu, Yuan Zhang, Hao Wu, Shi-Lei Su, Kai-Kai Liu, Mark Oxborrow, Chongxin Shan, Klaus M{\o}lmer(参考訳) 定常超放射光と超放射ラジングは光学格子時計の分野で大きな注目を集めているが、技術的課題や原子損失の問題により今のところ達成されていない。 本稿では,その対向部をマイクロ波領域で観測し,固体スピン・マイクロ波共振器を室温で動作させ,現実的な技術制約を課すことを提案する。 本提案を検証するために,数兆回のスピンのマルチレベル・マルチプロセスダイナミクスに対する量子マスター方程式を解いて,システムダイナミクスと定常状態を体系的に検討する。 この目的のために、平均場アプローチを採用し、スピンアンサンブルの平均場ダイナミクスをより直感的なディッケ状態図に変換する。 我々は, 窒素空孔中心スピンとペンタセン分子スピンを持つ系では, ディック状態の遷移によってまず超放射ラビ振動が発生し, その後の連続波超放射ラビアントメーシングはミリヘルツ以下で直線幅が得られることを示した。 我々の研究は、炭化ケイ素のシリコン空洞中心や窒化ホウ素のホウ素空洞中心のような、超狭線幅のコヒーレント放射が深宇宙通信、電波天文学、高精度メトロロジーに応用できるような、上記およびその他の固体スピン系との過渡的かつ定常的な超ラジアントマッシングのさらなる探索を導くかもしれない。

Steady-state superradiance and superradiant lasing attract significant attentions in the field of optical lattice clocks, but have not been achieved so far due to the technical challenges and atom loss problem. In this article, we propose that their counter-part may be observed in the microwave domain with solid-state spins-microwave resonator systems at room temperature with realistic technical restrictions. To validate our proposal, we investigate systematically the system dynamics and steady-state by solving quantum master equations for the multi-level and multi-process dynamic of trillions of spins. To this end, we employ a mean-field approach, and convert the mean-field dynamics of the spin ensemble into the one in a more intuitive Dicke state picture. Our calculations show that for systems with nitrogen vacancy center spins and pentacene molecular spins the superradiant Rabi oscillations occur firstly due to transitions among different Dicke states, and the subsequent continuous-wave superradiant masing can achieve a linewidth well below millihertz. Our work may guide further exploration of transient and steady-state superradiant masing with the mentioned and other solid-state spins systems, such as silicon vacancy centers in silicon carbide and boron vacancy centers in hexagonal boron nitride, where the coherent radiation with ultra-narrow linewidth may find applications in deep-space communications, radio astronomy and high-precision metrology.
翻訳日:2023-01-09 20:09:52 公開日:2022-12-04
# 一般暗モード制御による耐熱ノイズ光機械的絡み合い

Thermal-noise-resistant optomechanical entanglement via general dark-mode control ( http://arxiv.org/abs/2212.01827v1 )

ライセンス: Link先を確認
Jian Huang, Deng-Gao Lai, and Jie-Qiao Liao(参考訳) 量子絡み合いは量子論の基礎の研究において重要な役割を果たすだけでなく、量子情報科学における重要な資源と考えられている。 複数の光学モードと機械モードを含むマクロな絡み合いの生成は、キャビティ光学において望ましい課題である。 しかし、ダークモード効果は、共通キャビティモードに結合した多重縮退または近縮退したメカニカルモードからなる多モード光学系における量子絡み合いの発生に対する重要な障害である。 本稿では,ダークモード効果を破ってマルチモード光機械系の光力学的絡み合いを高める補助キャビティモード法を提案する。 補助キャビティモードの導入は,キャビティモードとメカニカルモードの絡み合いの発生を補助するだけでなく,熱励起に対するオプトメカニカルな絡み合いの免疫性を約3桁改善する。 また、2つのメカニカルモードと2つのキャビティモードからなるネットワーク結合型オプティメカニカルシステムにおけるオプティメカニカルエンタングルメントについて検討した。 その結果,光機械的絡み合いとダークモード効果の対応を解析した結果,ダークモードが破れれば光力学的絡み合いが大きく向上することがわかった。 さらに, 機械的絡み合いについて検討し, 無視できるほど小さいことがわかった。 また,マイクロ波光力学系による実験実装,ダークモード破壊機構と質量中心と相対座標の関係,および光力学的絡み合いの強化におけるダークモード破壊の重要な役割について述べる。 その結果, 絡み合った光機械ネットワークとノイズ耐性量子リソースの構築への道が開けた。

Quantum entanglement not only plays an important role in the study of the fundamentals of quantum theory, but also is considered as a crucial resource in quantum information science. The generation of macroscopic entanglement involving multiple optical and mechanical modes is a desired task in cavity optomechanics. However, the dark-mode effect is a critical obstacle against the generation of quantum entanglement in multimode optomechanical systems consisting of multiple degenerate or near-degenerate mechanical modes coupled to a common cavity mode. Here we propose an auxiliary-cavity-mode method to enhance optomechanical entanglement in a multimode optomechanical system by breaking the dark-mode effect. We find that the introduction of the auxiliary cavity mode not only assists the entanglement creation between the cavity mode and the mechanical modes, but also improves the immunity of the optomechanical entanglement to the thermal excitations by about three orders of magnitude. We also study the optomechanical entanglement in the network-coupled optomechanical system consisting of two mechanical modes and two cavity modes. By analyzing the correspondence between the optomechanical entanglement and the dark-mode effect, we find that optomechanical entanglement can be largely enhanced once the dark mode is broken. In addition, we study the mechanical entanglement and find that it is negligibly small. We also present some discussions on the experimental implementation with a microwave optomechanical setup, on the relationship between the dark-mode-breaking mechanism and the center-of-mass and relative coordinates, and on the explanation of the important role of the dark-mode breaking in the enhancement of optomechanical entanglement. Our results pave the way towards the preparation of entangled optomechanical networks and noise-resistant quantum resources.
翻訳日:2023-01-09 19:45:16 公開日:2022-12-04
# パッシブ連続可変量子鍵分布

Passive continuous variable quantum key distribution ( http://arxiv.org/abs/2212.01876v1 )

ライセンス: Link先を確認
Chenyang Li, Chengqiu Hu, Wenyuan Wang, Rong Wang, and Hoi-Kwong Lo(参考訳) パッシブ量子鍵分布(qkd)は、ソース内のサイドチャネルを排除するために離散変数プロトコルのために提案されている。 残念ながら、受動DV-QKDプロトコルの鍵レートは、損失の縮小と追加の量子エラーに悩まされている。 本研究では、受動的連続変数量子鍵分布の一般的な枠組みを提案する。 意外なことに、パッシブソースは離散変調連続可変量子鍵分布(DMCV QKD)プロトコルの完全な候補であることがわかった。 位相空間再マッピング方式により,パッシブDMCV QKDが活性値と同じキーレートを有することを示す。 アクティブチャネルを除去する重要な利点を考えると、パッシブDMCV QKDは有望な代替手段である。 さらに,変調器のない量子鍵分布を許すことにより,システムをさらに単純化する。 最後に,受動DMCVQKD源の特性を実験的に評価し,実用性を示した。

Passive quantum key distribution (QKD) has been proposed for discrete variable protocols to eliminate side channels in the source. Unfortunately, the key rate of passive DV-QKD protocols suffers from sifting loss and additional quantum errors. In this work, we propose the general framework of passive continuous variable quantum key distribution. Rather surprisingly, we find that the passive source is a perfect candidate for the discrete-modulated continuous variable quantum key distribution (DMCV QKD) protocol. With the phase space remapping scheme, we show that passive DMCV QKD offers the same key rate as its active counterpart. Considering the important advantage of removing side channels that have plagued the active ones, passive DMCV QKD is a promising alternative. In addition, our protocol makes the system much simpler by allowing modulator-free quantum key distribution. Finally, we experimentally characterize the passive DMCV QKD source, thus showing its practicality.
翻訳日:2023-01-09 19:44:48 公開日:2022-12-04
# 行列積状態と数値モード分解を用いた空洞量子電磁力学の数値解析

Numerical analysis for cavity quantum electrodynamics using matrix product states and numerical mode decomposition ( http://arxiv.org/abs/2212.01935v1 )

ライセンス: Link先を確認
Christopher J. Ryu, Dong-Yeop Na, and Weng C. Chew(参考訳) ラビ・ハミルトニアンとのゲージ曖昧性の問題は、形式的に異なるが物理的に等価な2つの基本ハミルトニアンから導かれるという事実から生じた。 この問題は1つの量子化電磁モードを持つモデルに対して最近解決された。 本研究では,マルチモードモデルの数学的および数値的検証を行う。 これにより,キャビティqedシステムを解析するための数値解法,行列積状態(mps)と数値モード分解(nmd)を組み合わせた。 MPS法は量子状態の効率的な表現と時間発展に使用される。 しかし、ラビ・ハミルトニアンのカップリング構造はMPSとは相容れないため、数値的にMPSの効率的な適用を可能にする鎖結合構造を持つ等価ハミルトニアンに変換される。 nmdの手法は任意の環境の数値電磁モードを抽出するために用いられる。 概念実証として, 種々の環境下での1次元空洞QEDシステムの解析により, この組み合わせを実証した。

There has been a problem of gauge ambiguities with the Rabi Hamiltonian due to the fact that it can be derived from two formally different but physically equivalent fundamental Hamiltonians. This problem has recently been resolved for models with single quantized electromagnetic mode. In this work, we mathematically and numerically verify this for multimode models. With this established, we combine the numerical methods, matrix product states (MPS) and numerical mode decomposition (NMD), for analyzing cavity QED systems. The MPS method is used to efficiently represent and time evolve a quantum state. However, since the coupling structure of the Rabi Hamiltonian is incompatible with MPS, it is numerically transformed into an equivalent Hamiltonian that has a chain coupling structure, which allows efficient application of MPS. The technique of NMD is used to extract the numerical electromagnetic modes of an arbitrary environment. As a proof of concept, this combined approach is demonstrated by analyzing 1D cavity QED systems in various settings.
翻訳日:2023-01-09 19:44:35 公開日:2022-12-04
# QIRとLLVMパスを用いたMicrosoftの量子開発キットの自動オラクル生成

Automatic oracle generation in Microsoft's Quantum Development Kit using QIR and LLVM passes ( http://arxiv.org/abs/2212.01740v1 )

ライセンス: Link先を確認
Mathias Soeken, Mariia Mykhailova(参考訳) oracleの自動生成技術は、量子アルゴリズムの古典的コンポーネントに対して最適化された量子回路を見つけることができる。 しかし、oracleジェネレーション技術の実装の多くは、古典的なコンポーネントが論理ネットワーク、真理表、決定ダイアグラムといった従来の論理表現で表現される必要がある。 我々は,従来のQ#関数を表すQIR関数を量子的に実装したQIRコードに自動生成するLLVMパスを実装した。 私たちはこの目的のために、最先端のロジック最適化とxorとグラフに基づくoracle生成技術を使用しています。 これにより、より抽象的なレベルでの量子アルゴリズムのより自然な記述だけでなく、技術に依存した、あるいはアプリケーション固有のオラクルの生成を可能にします。

Automatic oracle generation techniques can find optimized quantum circuits for classical components in quantum algorithms. However, most implementations of oracle generation techniques require that the classical component is expressed in terms of a conventional logic representation such as logic networks, truth tables, or decision diagrams. We implemented LLVM passes that can automatically generate QIR functions representing classical Q# functions into QIR code implementing such functions quantumly. We are using state-of-the-art logic optimization and oracle generation techniques based on XOR-AND graphs for this purpose. This enables not only a more natural description of the quantum algorithm on a higher level of abstraction, but also enables technology-dependent or application-specific generation of the oracles.
翻訳日:2023-01-09 19:34:55 公開日:2022-12-04
# ハイブリッド自由空間とファイバリンクによる量子双方向時間伝達

Quantum two-way time transfer over a hybrid free-space and fiber link ( http://arxiv.org/abs/2212.01741v1 )

ライセンス: Link先を確認
Xiao Xiang, Bingke Shi, Runai Quan, Yuting Liu, Zhiguang Xia, Huibo Hong, Tao Liu, Jincai Wu, Jia Qiang, Jianjun Jia, Shougang Zhang, Ruifang Dong(参考訳) 量子双方向時間転送(Q-TWTT)の優位性は、ファイバーリンクよりも著しく証明されているため、その自由空間リンクへの実装は、大陸横断距離にまで拡張するための緊急の必要となる。 本研究では, 2 km の乱流自由空間と 7 km の場ファイバーのハイブリッドリンクに関する最初のq-twtt実験を行った。 25dB以上の大気乱流が著しく失われているにもかかわらず、1ピコ秒未満の時間偏差の時間安定性により、一晩にわたる信頼性の高い時間伝達性能が実現された。 この成果は、空間結合型光学リンクにおける量子エンハンスド時間移動の実現可能性を示し、最先端のマイクロ波原子時計の比較と同期におけるq-twttの能力を良好に証明する。

As the superiority of quantum two-way time transfer (Q-TWTT) has been proved convincingly over fiber links, its implementation on free-space links becomes an urgent need for remote time transfer expanding to the transcontinental distance. In this paper, the first Q-TWTT experimental demonstration over a hybrid link of 2 km-long turbulent free space and 7 km-long field fiber is reported. Despite the significant loss of more than 25 dB and atmospheric turbulence, reliable time transfer performance lasting for overnights has been realized with time stability in terms of time deviation far below 1 picosecond. This achievement shows the good feasibility of quantum-enhanced time transfer in the space-ground integrated optical links and nicely certifies the capability of Q-TWTT in comparing and synchronizing the state-of-the-art space microwave atomic clocks.
翻訳日:2023-01-09 19:34:44 公開日:2022-12-04
# パリティを持つ量子ビット状態間の量子仮説試験

Quantum hypothesis testing between qubit states with parity ( http://arxiv.org/abs/2212.01766v1 )

ライセンス: Link先を確認
Yi Shen and Carlo Maria Scandolo and Lin Chen(参考訳) 量子仮説テスト(QHT)は、2つの量子状態を2つの正の演算子値測度(POVM)を用いて識別する有効な方法を提供する。 QHTにおける2種類の決定エラーが発生する。 本稿では,2種類の判定誤差が不等に扱われるQHTの非対称な設定に焦点をあてる。 すべてのPOVMを採用する代わりに、特にカイラリティに対する参照フレームの欠如に起因する運用上の制限を考えます。 この参照フレームは、恒等変換とパリティ変換からなる群 $\mathbb{Z}_2$ に関連付けられている。 パリティの資源理論によれば、$\mathbb{Z}_2$-invariant POVMs のみを実行することによって、2つのキュービット状態の区別をしなければならない。 このタスクは、$\mathbb{z}_2$-twirlingと呼ばれる演算と有用な双対性を通じて、1変数関数の条件付き最適化問題に変換できる。 私たちは2つの純粋状態の区別から始めます。 特定の最適化問題を解くことで、タイプIIエラーの最小確率の漸近挙動を完全に特徴づける。 我々の結果は、そのような2つの純粋な状態の$\mathbb{Z}_2$-twirlingsが異なる場合、最小確率が有限個のコピーでゼロに減少することを示した。 さらに、最小確率がゼロとなるようなコピーの臨界数を導出する。 最後に、2つの純状態のうちの1つを最大混合状態に置き換え、同様にタイプII誤差の最小確率の漸近挙動を特徴づける。

Quantum hypothesis testing (QHT) provides an effective method to discriminate between two quantum states using a two-outcome positive operator valued measure (POVM). Two types of decision errors in a QHT would occur. In this paper we focus on the asymmetric setting of QHT, where the two types of decision errors are treated unequally. Instead of adopting all POVMs, we particularly consider the operational limitations arising from the lack of a reference frame for chirality. This reference frame is associated with the group $\mathbb{Z}_2$ consisting of the identity transformation and the parity transformation. According to the resource theory of parity, we have to discriminate between two qubit states by performing the $\mathbb{Z}_2$-invariant POVMs only. This task can be transformed to a conditional optimization problem of a one-variable function via the operation called $\mathbb{Z}_2$-twirling and a useful duality. We start from the discrimination between two pure states. By solving the specific optimization problem we completely characterize the asymptotic behavior of the minimal probability of type-II error. Our results reveal that the minimal probability reduces to zero in a finite number of copies, if the $\mathbb{Z}_2$-twirlings of such two pure states are different. We further derive the critical number of copies such that the minimal probability reduces to zero. Finally, we replace one of the two pure states with a maximally mixed state, and similarly characterize the asymptotic behavior of the minimal probability of type-II error.
翻訳日:2023-01-09 19:34:30 公開日:2022-12-04
# 量子アニーリングによる原子の相対論的効果の精密決定

Accurate Determination of Relativistic Effects in Atoms by Quantum Annealing ( http://arxiv.org/abs/2212.01801v1 )

ライセンス: Link先を確認
Vikrant Kumar, Nishanth Baskaran, V. S. Prasannaa, Kenji Sugisaki, Debashis Mukherjee, B. P. Das(参考訳) 最近提案された量子古典的ハイブリッド量子アニーリング固有解法(qae)アルゴリズムの相対論的バージョンを実装し,d-waveアドバンテージハードウェアにおける等電子高電荷ホウ素様イオンの微細構造分割を正確に予測するワークフローを改良した。 改善されたワークフローがコンバージェンスの向上と,オーバーヘッドの少ない精度の向上につながったことが分かりました。 実験において,本手法は最大で1.9%の差を生じさせることがわかった。

We implement the relativistic version (with the Dirac-Coulomb-Breit Hamiltonian) of the recently proposed quantum-classical hybrid Quantum Annealing Eigensolver (QAE) algorithm and couple it with an improved workflow to accurately predict on D-Wave Advantage hardware the fine structure splittings of isoelectronic highly-charged Boron-like ions. We found that our improved workflow led to better convergence and increased precision with little overhead. We show that our method results in a difference of at most 1.9 percent with respect to experiment.
翻訳日:2023-01-09 19:34:06 公開日:2022-12-04
# 文脈確率帯域問題におけるモデル選択

Model Selection in Contextual Stochastic Bandit Problems ( http://arxiv.org/abs/2003.01704v3 )

ライセンス: Link先を確認
Aldo Pacchiano, My Phan, Yasin Abbasi-Yadkori, Anup Rao, Julian Zimmert, Tor Lattimore, Csaba Szepesvari(参考訳) 確率環境における帯域モデル選択について検討する。 提案手法は,候補ベースアルゴリズムを選択するメタアルゴリズムに依存する。 本稿では,基本アルゴリズムの一般クラスと異なる種類の対向メタアルゴリズムを扱うメタアルゴリズムの抽象化を開発する。 提案手法は,確率的文脈的帯域幅問題に対する最適$O(\sqrt{T})$モデル選択保証を,最適基底アルゴリズムが高い確率後悔保証を満たす限り得られるような,バンディットアルゴリズムの新規で汎用的なスムージング変換に依存する。 基本アルゴリズムの1つが$O(\log T)$後悔している場合でも、一般に、モデル選択において$Omega(\sqrt{T})$後悔よりも良くなることは不可能である。 本手法を用いて,不特定な線形文脈バンディット,未知次元の線形バンディット,未知特徴マップを用いた強化学習など,様々な問題におけるモデル選択に対処する。 本アルゴリズムは,メタアルゴリズム学習率の調整に最適なベース後悔の知識を必要とする。 このような事前の知識がなければ、メタアルゴリズムは最適な基本的後悔よりも大きな後悔を被る可能性がある。

We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
翻訳日:2022-12-26 22:08:11 公開日:2022-12-04
# DFEE: インタラクティブなデータフローの実行と評価キット

DFEE: Interactive DataFlow Execution and Evaluation Kit ( http://arxiv.org/abs/2212.08099v1 )

ライセンス: Link先を確認
Han He, Song Feng, Daniele Bonadiman, Yi Zhang, Saab Mansour(参考訳) DataFlowは、対話タスクの表現力のあるセマンティック表現のため、タスク指向のチャットボットを構築するための新しいパラダイムとして現れています。 大きなデータセットsmcalflowとシンプルな構文が利用可能であるにもかかわらず、システム複雑さと下流ツールチェーンの欠如により、dataflowベースのチャットボットの開発と評価は依然として困難である。 本稿では,対話入力とバックエンドデータベースを与えられた意味的パーサの実行,可視化,ベンチマークを支援する対話型データフロー実行評価ツールキットdfeeを提案する。 複雑なダイアログタスク:時間的推論を伴うイベントスケジューリングを通じてシステムを示す。 また、動的データフローと対応する実行結果を調べるためのフレンドリーなインターフェースを通じて、パース結果の診断もサポートする。 そこで本研究では,より洗練されたイベントスケジューリングシナリオを網羅した新しいベンチマークと,タスク成功評価の新しい指標を提案する。 DFEEのコードはhttps://github.com/amazonscience/dataflow-evaluation-toolkitで公開されている。

DataFlow has been emerging as a new paradigm for building task-oriented chatbots due to its expressive semantic representations of the dialogue tasks. Despite the availability of a large dataset SMCalFlow and a simplified syntax, the development and evaluation of DataFlow-based chatbots remain challenging due to the system complexity and the lack of downstream toolchains. In this demonstration, we present DFEE, an interactive DataFlow Execution and Evaluation toolkit that supports execution, visualization and benchmarking of semantic parsers given dialogue input and backend database. We demonstrate the system via a complex dialog task: event scheduling that involves temporal reasoning. It also supports diagnosing the parsing results via a friendly interface that allows developers to examine dynamic DataFlow and the corresponding execution results. To illustrate how to benchmark SoTA models, we propose a novel benchmark that covers more sophisticated event scheduling scenarios and a new metric on task success evaluation. The codes of DFEE have been released on https://github.com/amazonscience/dataflow-evaluation-toolkit.
翻訳日:2022-12-25 03:11:11 公開日:2022-12-04
# 干渉型合成アパーチャーレーダによるカリフォルニア中部谷の地質組成の遠隔推定

Remote estimation of geologic composition using interferometric synthetic-aperture radar in California's Central Valley ( http://arxiv.org/abs/2212.04813v1 )

ライセンス: Link先を確認
Kyongsik Yun, Kyra Adams, John Reager, Zhen Liu, Caitlyn Chavez, Michael Turmon, Thomas Lu(参考訳) カリフォルニア州の中央バレーは全国的農業中心であり、国内の食料の1/4を生産している。 しかし、セントラルバレーの土地は、地下水の汲み上げが続いているため、急速に(年間最大20cm)沈んでいる。 土地の沈下はインフラの回復力と地下水の持続性に大きな影響を与える。 本研究では,地すべりの時間動態の異なる特定地域を同定し,基盤となる地質組成との関係を明らかにすることを目的とする。 そこで我々は,インターフェロメトリ合成開口レーダ(InSAR)を用いた地表面変形時間変化を機械学習技術を用いてリモートで推定することを目的とする。 地すべりの時間的特性が異なる地域を同定し, 粗粒地質組成を持つ地域(ヘルムなど)は, 可逆的地すべり(弾性地すべり)の可能性が示された。 InSARによる土地変形と地質組成の有意な相関をランダム森林とディープニューラルネットワーク回帰モデルを用いて明らかにした。 また1/4スパースサンプリングにより,データ間の空間的相関を低減し,地質組成を間接的に推定するために他の領域に一般化できる可能性が示唆された。 InSARによる地形変形データを用いて地質組成を推定できることを示す。 地質組成のその場測定は高価で時間がかかり、一部の地域では実用的ではない。 模型の一般化性は, 既存の測定値を用いた高空間分解能地質組成推定に光をあてる。

California's Central Valley is the national agricultural center, producing 1/4 of the nation's food. However, land in the Central Valley is sinking at a rapid rate (as much as 20 cm per year) due to continued groundwater pumping. Land subsidence has a significant impact on infrastructure resilience and groundwater sustainability. In this study, we aim to identify specific regions with different temporal dynamics of land displacement and find relationships with underlying geological composition. Then, we aim to remotely estimate geologic composition using interferometric synthetic aperture radar (InSAR)-based land deformation temporal changes using machine learning techniques. We identified regions with different temporal characteristics of land displacement in that some areas (e.g., Helm) with coarser grain geologic compositions exhibited potentially reversible land deformation (elastic land compaction). We found a significant correlation between InSAR-based land deformation and geologic composition using random forest and deep neural network regression models. We also achieved significant accuracy with 1/4 sparse sampling to reduce any spatial correlations among data, suggesting that the model has the potential to be generalized to other regions for indirect estimation of geologic composition. Our results indicate that geologic composition can be estimated using InSAR-based land deformation data. In-situ measurements of geologic composition can be expensive and time consuming and may be impractical in some areas. The generalizability of the model sheds light on high spatial resolution geologic composition estimation utilizing existing measurements.
翻訳日:2022-12-18 18:58:56 公開日:2022-12-04
# 交通状況に対するロバスト推論のための背景知識の利用

Utilizing Background Knowledge for Robust Reasoning over Traffic Situations ( http://arxiv.org/abs/2212.07798v1 )

ライセンス: Link先を確認
Jiarui Zhang, Filip Ilievski, Aravinda Kollaa, Jonathan Francis, Kaixin Ma, Alessandro Oltramari(参考訳) 交通領域における新しい状況を理解するには、ドメイン特化知識と因果コモンセンス知識の複雑な組み合わせが必要である。 先行研究は交通監視に十分な認識に基づくモダリティを提供してきたが,本稿では,インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点をあてる。 本研究では,大規模コーパスと知識グラフから言語モデルを用いて抽出できる豊富な常識知識をテキストベースの手法とデータセットに適用する。 我々は,従来の自然言語推論手法,知識グラフを用いたコモンセンスモデル,高密度検索モデルに基づく,交通状況に対するゼロショットQAのための3つの知識駆動アプローチを採用する。 我々は,交通領域における因果推論を評価するBDD-QAと,運転免許試験に類似したドメイン知識の所有を計測するHDT-QAの2つのテキストベースの質問応答セットを構築した。 メソッドの中では、Unified-QAがBDD-QAデータセット上で最高のパフォーマンスに達し、複数の形式の質問応答が適応される。 推論情報とコモンセンス知識でトレーニングされた言語モデルは、トラフィックドメインの原因と効果を予測するのにも適していますが、人間運転のqaセットに応答するのには役立ちます。 このような集合に対して、DPR+Unified-QAはその効率的な知識抽出のために最善を尽くす。

Understanding novel situations in the traffic domain requires an intricate combination of domain-specific and causal commonsense knowledge. Prior work has provided sufficient perception-based modalities for traffic monitoring, in this paper, we focus on a complementary research aspect of Intelligent Transportation: traffic understanding. We scope our study to text-based methods and datasets given the abundant commonsense knowledge that can be extracted using language models from large corpus and knowledge graphs. We adopt three knowledge-driven approaches for zero-shot QA over traffic situations, based on prior natural language inference methods, commonsense models with knowledge graph self-supervision, and dense retriever-based models. We constructed two text-based multiple-choice question answering sets: BDD-QA for evaluating causal reasoning in the traffic domain and HDT-QA for measuring the possession of domain knowledge akin to human driving license tests. Among the methods, Unified-QA reaches the best performance on the BDD-QA dataset with the adaptation of multiple formats of question answers. Language models trained with inference information and commonsense knowledge are also good at predicting the cause and effect in the traffic domain but perform badly at answering human-driving QA sets. For such sets, DPR+Unified-QA performs the best due to its efficient knowledge extraction.
翻訳日:2022-12-18 18:48:24 公開日:2022-12-04
# rere: 時系列のための軽量なリアルタイムアノマリー検出手法

ReRe: A Lightweight Real-time Ready-to-Go Anomaly Detection Approach for Time Series ( http://arxiv.org/abs/2004.02319v4 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 異常検出は、侵入検知、ネットワーク監視、システムヘルスモニタリング、IoTヘルスケアなど、さまざまな分野で活発な研究トピックである。 しかし、既存の多くの異常検出アプローチは人間の介入やドメイン知識を必要とするため、計算の複雑さに悩まされ、現実のシナリオにおける適用性を妨げている。 したがって、リアルタイムに異常を検知できる軽量で準備の整ったアプローチが求められている。 このようなアプローチは、任意の商品マシン上で時系列異常検出を行うために、簡単かつ即座に適用することができる。 このアプローチは、タイムリーな異常アラートを提供し、可能な限り早期に適切な対策を実施することができる。 これらの目標を念頭に置いて,ストリーミング時系列のためのリアルタイムproactive anomaly検出アルゴリズムであるrereを提案する。 ReReは2つの軽量Long Short-Term Memory (LSTM)モデルを使用して、短期的な履歴データポイントと2つの長期的自己適応しきい値に基づいて、次のデータポイントが異常であるか否かを予測し、共同で判断する。 実世界の時系列データセットに基づく実験は、人間の介入やドメイン知識を必要とせずにリアルタイム異常検出におけるrereの優れた性能を示す。

Anomaly detection is an active research topic in many different fields such as intrusion detection, network monitoring, system health monitoring, IoT healthcare, etc. However, many existing anomaly detection approaches require either human intervention or domain knowledge, and may suffer from high computation complexity, consequently hindering their applicability in real-world scenarios. Therefore, a lightweight and ready-to-go approach that is able to detect anomalies in real-time is highly sought-after. Such an approach could be easily and immediately applied to perform time series anomaly detection on any commodity machine. The approach could provide timely anomaly alerts and by that enable appropriate countermeasures to be undertaken as early as possible. With these goals in mind, this paper introduces ReRe, which is a Real-time Ready-to-go proactive Anomaly Detection algorithm for streaming time series. ReRe employs two lightweight Long Short-Term Memory (LSTM) models to predict and jointly determine whether or not an upcoming data point is anomalous based on short-term historical data points and two long-term self-adaptive thresholds. Experiments based on real-world time-series datasets demonstrate the good performance of ReRe in real-time anomaly detection without requiring human intervention or domain knowledge.
翻訳日:2022-12-16 12:18:29 公開日:2022-12-04
# 畳み込みニューラルネットワークを用いた医用画像分割における校正と分散検出の改善

Improving Calibration and Out-of-Distribution Detection in Medical Image Segmentation with Convolutional Neural Networks ( http://arxiv.org/abs/2004.06569v3 )

ライセンス: Link先を確認
Davood Karimi, Ali Gholipour(参考訳) 畳み込みニューラルネットワーク(CNN)は強力な医用画像分割モデルであることが示されている。 本研究では,これらのモデルに関する主要な未解決問題に対処する。 特に、小さな医用画像データセットでこれらのモデルのトレーニングは依然として困難であり、転送学習のような技術を促進する多くの研究がある。 さらに、これらのモデルは、過度に信頼された予測を生成し、テスト時にアウト・オブ・ディストリビューション(OOD)データを提示すると静かに失敗すると悪名高い。 本稿では,マルチタスク学習を提唱する。例えば,複数の異なるデータセット上で1つのモデルをトレーニングし,関心のある複数の臓器と異なるイメージングモダリティにまたがる。 1つのCNNがコンテキストを自動的に認識し、各コンテキストにおける関心の組織を正確にセグメント化することを学ぶだけでなく、そのようなジョイントモデルの方が、各データセットで個別にトレーニングされた専用モデルよりも正確で、より良い校正された予測を持つことも示している。 実験により,マルチタスク学習は,医用画像分割作業において伝達学習より優れることが示された。 OODデータを検出するために,CNN特徴マップのスペクトル解析に基づく手法を提案する。 異なる画像モダリティおよび/または異なる興味のある臓器を表す異なるデータセットは、異なるスペクトルシグネチャを持ち、テスト画像がモデルのトレーニングに使用されるイメージと類似しているかどうかを識別するために使用できる。 本手法は予測不確実性に基づくOOD検出よりもはるかに精度が高いことを示す。 本稿では,CNNを用いた医用画像分割モデルの精度と信頼性の向上に大きく貢献する。

Convolutional Neural Networks (CNNs) have shown to be powerful medical image segmentation models. In this study, we address some of the main unresolved issues regarding these models. Specifically, training of these models on small medical image datasets is still challenging, with many studies promoting techniques such as transfer learning. Moreover, these models are infamous for producing over-confident predictions and for failing silently when presented with out-of-distribution (OOD) data at test time. In this paper, we advocate for multi-task learning, i.e., training a single model on several different datasets, spanning several different organs of interest and different imaging modalities. We show that not only a single CNN learns to automatically recognize the context and accurately segment the organ of interest in each context, but also that such a joint model often has more accurate and better-calibrated predictions than dedicated models trained separately on each dataset. Our experiments show that multi-task learning can outperform transfer learning in medical image segmentation tasks. For detecting OOD data, we propose a method based on spectral analysis of CNN feature maps. We show that different datasets, representing different imaging modalities and/or different organs of interest, have distinct spectral signatures, which can be used to identify whether or not a test image is similar to the images used to train a model. We show that this approach is far more accurate than OOD detection based on prediction uncertainty. The methods proposed in this paper contribute significantly to improving the accuracy and reliability of CNN-based medical image segmentation models.
翻訳日:2022-12-14 04:54:02 公開日:2022-12-04
# ディジタルフットプリント最適化によるデバイス識別

Device identification using optimized digital footprints ( http://arxiv.org/abs/2212.04354v1 )

ライセンス: Link先を確認
Rajarshi Roy Chowdhury, Azam Che Idris, Pg Emeroylariffion Abas(参考訳) モノのインターネット(IoT)や非IoTデバイスの増加は、ネットワーク管理者に新たなセキュリティ課題をもたらしている。 複雑なネットワーク構造における正確なデバイス識別が必要である。 本稿では,ネットワーク上の通信に使用されるデジタルフットプリントに基づいて,デバイス識別のためのデバイスフィンガープリント(DFP)手法を提案する。 wekaの属性評価器に基づいた単一の送信制御プロトコル/インターネットプロトコルパケットのネットワーク層とトランスポート層から9つの機能のサブセットが選択され、デバイス固有の署名を生成する。 この手法は、異なる教師付き機械学習(ML)アルゴリズムを用いて、2つのオンラインデータセットと実験データセットで評価されている。 その結果、ランダムフォレスト(rf)分類器を用いて最大100%の精度でデバイスタイプを識別でき、95.7%の精度で個々のデバイスを分類できることがわかった。 これらの結果は,よりセキュアでロバストなネットワークを実現するため,デバイス識別のためのdfp法の適用性を示す。

The rapidly increasing number of internet of things (IoT) and non-IoT devices has imposed new security challenges to network administrators. Accurate device identification in the increasingly complex network structures is necessary. In this paper, a device fingerprinting (DFP) method has been proposed for device identification, based on digital footprints, which devices use for communication over a network. A subset of nine features have been selected from the network and transport layers of a single transmission control protocol/internet protocol packet based on attribute evaluators in Weka, to generate device-specific signatures. The method has been evaluated on two online datasets, and an experimental dataset, using different supervised machine learning (ML) algorithms. Results have shown that the method is able to distinguish device type with up to 100% precision using the random forest (RF) classifier, and classify individual devices with up to 95.7% precision. These results demonstrate the applicability of the proposed DFP method for device identification, in order to provide a more secure and robust network.
翻訳日:2022-12-09 16:51:26 公開日:2022-12-04
# 順序ラベリングと規則に準拠した識別のためのきめ細かい中国のソフトウェアプライバシーポリシーデータセット

A Fine-grained Chinese Software Privacy Policy Dataset for Sequence Labeling and Regulation Compliant Identification ( http://arxiv.org/abs/2212.04357v1 )

ライセンス: Link先を確認
Kaifa Zhao, Le Yu, Shiyao Zhou, Jing Li, Xiapu Luo, Yat Fei Aemon Chiu, Yutong Liu(参考訳) プライバシー保護は、法的レベルとユーザーの意識の両方に大きな注目を集める。 ユーザのプライバシを保護するため、国は行動の規制にソフトウェアプライバシポリシーを必要とする法律や規制を制定している。 しかし、プライバシーポリシーは多くの法律用語とソフトウェア用語で自然言語で書かれており、ユーザーがそれを理解したり読むことさえできない。 ユーザの理解を支援するために,NLP技術を用いてプライバシポリシを分析することが望ましい。 さらに、既存のデータセットは法律の要件を無視し、英語に限定されている。 本稿では,プライバシポリシとソフトウェア間のシーケンスラベリング作業と規制コンプライアンスの識別を容易にするために,中国初のプライバシポリシデータセットであるCA4P-483を構築した。 私たちのデータセットには、中国のAndroidアプリケーションプライバシポリシ483、11K以上の文、52Kの細かいアノテーションが含まれています。 データセット上のロバストおよび代表的なベースラインモデルのファミリーを評価します。 ベースラインのパフォーマンスに基づいて、データセットに関する発見と潜在的研究の方向性を提供する。 最後に,CA4P-483を組み込んだ規制要件とプログラム解析の適用可能性について検討した。

Privacy protection raises great attention on both legal levels and user awareness. To protect user privacy, countries enact laws and regulations requiring software privacy policies to regulate their behavior. However, privacy policies are written in natural languages with many legal terms and software jargon that prevent users from understanding and even reading them. It is desirable to use NLP techniques to analyze privacy policies for helping users understand them. Furthermore, existing datasets ignore law requirements and are limited to English. In this paper, we construct the first Chinese privacy policy dataset, namely CA4P-483, to facilitate the sequence labeling tasks and regulation compliance identification between privacy policies and software. Our dataset includes 483 Chinese Android application privacy policies, over 11K sentences, and 52K fine-grained annotations. We evaluate families of robust and representative baseline models on our dataset. Based on baseline performance, we provide findings and potential research directions on our dataset. Finally, we investigate the potential applications of CA4P-483 combing regulation requirements and program analysis.
翻訳日:2022-12-09 16:07:56 公開日:2022-12-04
# ペルソナに基づく会話型AIの現状と課題

Persona-Based Conversational AI: State of the Art and Challenges ( http://arxiv.org/abs/2212.03699v1 )

ライセンス: Link先を確認
Junfeng Liu, Christopher Symons, Ranga Raju Vatsavai(参考訳) 会話型AIは、機械学習の目立った実践的応用になりつつある。 しかし、既存の会話型ai技術には様々な制限がある。 そのような制限の一つは、モデルが会話の文脈をよりよく理解するのに役立つ補助情報を組み込む方法が十分に開発されていないことである。 本稿では,会話における応答生成の質向上にペルソナ情報がどのように役立つかを検討する。 まず,ペルソナ情報を利用した最先端の手法に着目した文献レビューを行う。 neurips convai2ベンチマークデータセット上で,ランキングプロファイルメモリネットワークとポリエンコーダという2つの強力なベースライン手法を評価した。 本分析は,会話システムにおけるペルソナ情報の導入の重要性を明らかにする。 さらに、現在の最先端の手法に対するいくつかの制限を強調し、パーソナライズされた対話型AI技術を推進するための課題と今後の研究方向性を概説する。

Conversational AI has become an increasingly prominent and practical application of machine learning. However, existing conversational AI techniques still suffer from various limitations. One such limitation is a lack of well-developed methods for incorporating auxiliary information that could help a model understand conversational context better. In this paper, we explore how persona-based information could help improve the quality of response generation in conversations. First, we provide a literature review focusing on the current state-of-the-art methods that utilize persona information. We evaluate two strong baseline methods, the Ranking Profile Memory Network and the Poly-Encoder, on the NeurIPS ConvAI2 benchmark dataset. Our analysis elucidates the importance of incorporating persona information into conversational systems. Additionally, our study highlights several limitations with current state-of-the-art methods and outlines challenges and future research directions for advancing personalized conversational AI technology.
翻訳日:2022-12-08 14:56:57 公開日:2022-12-04
# イベントカメラを用いたプライバシー保護型ビジュアルローカライゼーション

Privacy-Preserving Visual Localization with Event Cameras ( http://arxiv.org/abs/2212.03177v1 )

ライセンス: Link先を確認
Junho Kim, Young Min Kim, Yicheng Wu, Ramzi Zahreddine, Weston A. Welge, Gurunandan Krishnan, Sizhuo Ma, Jian Wang(参考訳) イベントカメラを用いた頑健でプライバシーに配慮した視覚的ローカライゼーションアルゴリズムを提案する。 イベントカメラは、高いダイナミックレンジと小さな動きのぼかしによるロバストなローカライゼーションを実現する可能性があるが、センサーは大きな領域ギャップを示し、従来の画像ベースのローカライゼーションアルゴリズムを直接適用することは困難である。 このギャップを緩和するために,ローカライゼーションに先立ってイベントから画像への変換を適用することを提案する。 プライバシの観点からは、イベントカメラは通常のカメラに比べてわずかな視覚情報しかキャプチャできないため、敏感な視覚的詳細を自然に隠すことができる。 当社のイベントベースのパイプラインにおけるプライバシ保護をさらに強化するために,センサとネットワークレベルという2つのレベルでプライバシ保護を導入します。 センサレベルの保護は、軽量なフィルタリングで顔の詳細を隠すことを目的としており、ネットワークレベルの保護は、新しいニューラルネットワーク推論パイプラインを使用して、プライベートなシーンアプリケーションでユーザ全体のビューを隠すことを目標としている。 どちらのレベルの保護も軽量な計算を伴い、少ない性能損失しか発生しない。 そこで我々は,イベントカメラを用いた実用的な位置情報サービスのためのビルディングブロックとして,提案手法を推し進める。 コードとデータセットは以下のリンクで公開される予定だ。

We present a robust, privacy-preserving visual localization algorithm using event cameras. While event cameras can potentially make robust localization due to high dynamic range and small motion blur, the sensors exhibit large domain gaps making it difficult to directly apply conventional image-based localization algorithms. To mitigate the gap, we propose applying event-to-image conversion prior to localization which leads to stable localization. In the privacy perspective, event cameras capture only a fraction of visual information compared to normal cameras, and thus can naturally hide sensitive visual details. To further enhance the privacy protection in our event-based pipeline, we introduce privacy protection at two levels, namely sensor and network level. Sensor level protection aims at hiding facial details with lightweight filtering while network level protection targets hiding the entire user's view in private scene applications using a novel neural network inference pipeline. Both levels of protection involve light-weight computation and incur only a small performance loss. We thus project our method to serve as a building block for practical location-based services using event cameras. The code and dataset will be made public through the following link: https://github.com/82magnolia/event_localization.
翻訳日:2022-12-07 17:18:32 公開日:2022-12-04
# 機能的医用画像の領域適応と一般化:システム的調査

Domain Adaptation and Generalization on Functional Medical Images: A Systematic Survey ( http://arxiv.org/abs/2212.03176v1 )

ライセンス: Link先を確認
Gita Sarafraz, Armin Behnamnia, Mehran Hosseinzadeh, Ali Balapour, Amin Meghrazi, and Hamid R. Rabiee(参考訳) 機械学習アルゴリズムは、自然言語処理、コンピュータビジョン、信号処理、医療データ処理など、さまざまな分野に革命をもたらした。 さまざまなタスクや領域における機械学習アルゴリズムの優れた能力にもかかわらず、これらのモデルの性能は、テストやトレーニングデータ分布の変化によって主に低下する。 このギャップは、トレーニングデータとテストデータが独立して均等に分散されているという基本的な仮定に違反しているためである。 トレーニングのためにすべての可能なドメインからデータを集めることが高価で不可能である現実のシナリオでは、i.i.dの仮定はほとんど満足できない。 医療画像や信号の場合には、高価な機器か、単一のドメインであってもデータの収集に精巧な実験装置が必要になるため、この問題はさらに深刻である。 さらに、パフォーマンスの低下は、医療記録の分析に深刻な影響を与える可能性がある。 このような問題の結果として、医療データの分析には、分散シフト(ドメイン一般化(DG)とドメイン適応(DA))の下で一般化および適応する能力が不可欠である。 本稿では,機能的脳信号に関するDGとDAの体系的レビューを行い,この時代の包括的研究の欠如のギャップを埋める。 機能的脳画像におけるDGおよびDAで使用されるデータセット、アプローチ、アーキテクチャの詳細な説明と分類について述べる。 さらに、この分野における注目に値する将来のトラックに対処する。

Machine learning algorithms have revolutionized different fields, including natural language processing, computer vision, signal processing, and medical data processing. Despite the excellent capabilities of machine learning algorithms in various tasks and areas, the performance of these models mainly deteriorates when there is a shift in the test and training data distributions. This gap occurs due to the violation of the fundamental assumption that the training and test data are independent and identically distributed (i.i.d). In real-world scenarios where collecting data from all possible domains for training is costly and even impossible, the i.i.d assumption can hardly be satisfied. The problem is even more severe in the case of medical images and signals because it requires either expensive equipment or a meticulous experimentation setup to collect data, even for a single domain. Additionally, the decrease in performance may have severe consequences in the analysis of medical records. As a result of such problems, the ability to generalize and adapt under distribution shifts (domain generalization (DG) and domain adaptation (DA)) is essential for the analysis of medical data. This paper provides the first systematic review of DG and DA on functional brain signals to fill the gap of the absence of a comprehensive study in this era. We provide detailed explanations and categorizations of datasets, approaches, and architectures used in DG and DA on functional brain images. We further address the attention-worthy future tracks in this field.
翻訳日:2022-12-07 16:24:11 公開日:2022-12-04
# エレクトロ・オプティカルを用いたsarによる土地利用予測

Land Use Prediction using Electro-Optical to SAR Few-Shot Transfer Learning ( http://arxiv.org/abs/2212.03084v1 )

ライセンス: Link先を確認
Marcel Hussing, Karen Li, Eric Eaton(参考訳) 衛星画像解析は、土地利用、都市化、生態系モニタリングに重要な意味を持つ。 深層学習法は、個々の欠点を補うためのモダリティ間の知識伝達を支援することにより、電気光学(EO)や合成開口レーダ(SAR)画像などの異なる衛星モードの分析を容易にすることができる。 近年の進歩は、スライスされたワッサースタイン距離(SWD)損失を用いることで、ニューラルネットワークの埋め込みの分布アライメントが強力な伝達学習モデルを生成することを示す。 本研究では,この手法がSentinel-1,-2衛星画像にどのように適用できるかを解析し,実用化に向けてのいくつかの拡張を開発する。 数ショットのローカル気候ゾーン(LCZ)予測への応用として、これらのネットワークは、多数のクラスを持つデータセット上で、複数の共通ベースラインより優れていることを示す。 さらに,インスタンス正規化がトレーニングプロセスを著しく安定化し,教師付きコントラスト学習を用いて埋め込み空間を明示的に形作ることが,パフォーマンス向上につながることを示す。

Satellite image analysis has important implications for land use, urbanization, and ecosystem monitoring. Deep learning methods can facilitate the analysis of different satellite modalities, such as electro-optical (EO) and synthetic aperture radar (SAR) imagery, by supporting knowledge transfer between the modalities to compensate for individual shortcomings. Recent progress has shown how distributional alignment of neural network embeddings can produce powerful transfer learning models by employing a sliced Wasserstein distance (SWD) loss. We analyze how this method can be applied to Sentinel-1 and -2 satellite imagery and develop several extensions toward making it effective in practice. In an application to few-shot Local Climate Zone (LCZ) prediction, we show that these networks outperform multiple common baselines on datasets with a large number of classes. Further, we provide evidence that instance normalization can significantly stabilize the training process and that explicitly shaping the embedding space using supervised contrastive learning can lead to improved performance.
翻訳日:2022-12-07 15:39:54 公開日:2022-12-04
# 最適輸送としての階層的政策

Hierarchical Policy Blending As Optimal Transport ( http://arxiv.org/abs/2212.01938v1 )

ライセンス: Link先を確認
An T. Le, Kay Hansel, Jan Peters, Georgia Chalvatzaki(参考訳) 最適輸送 (HiPBOT) として階層的政策ブレンディングを提案する。 この階層的なフレームワークは、低レベルのリアクティブなエキスパートポリシーの重みに適応し、エキスパートポリシーとエージェントのプロダクトのパラメータ空間にルックアヘッド計画層を追加します。 我々のハイレベルプランナーは,不均衡な最適輸送,基盤となるリーマン運動政策のスケーリングの統合,リーマン行列の効果的な調整,専門家とエージェント間の優先順位決定,安全性とタスク成功の保証などを通じて,政策のブレンドを実現する。 低次元ナビゲーションから高次元全身制御まで多岐にわたる応用シナリオの結果から,ロボット制御への最適輸送の新たな応用への道を開くとともに,確率的推論を行うか,専門家のツリー構造を定義する最先端ベースラインを上回るhipbotの有効性と効率を示す。 詳細はhttps://sites.google.com/view/hipobotを参照。

We present hierarchical policy blending as optimal transport (HiPBOT). This hierarchical framework adapts the weights of low-level reactive expert policies, adding a look-ahead planning layer on the parameter space of a product of expert policies and agents. Our high-level planner realizes a policy blending via unbalanced optimal transport, consolidating the scaling of underlying Riemannian motion policies, effectively adjusting their Riemannian matrix, and deciding over the priorities between experts and agents, guaranteeing safety and task success. Our experimental results in a range of application scenarios from low-dimensional navigation to high-dimensional whole-body control showcase the efficacy and efficiency of HiPBOT, which outperforms state-of-the-art baselines that either perform probabilistic inference or define a tree structure of experts, paving the way for new applications of optimal transport to robot control. More material at https://sites.google.com/view/hipobot
翻訳日:2022-12-06 19:37:07 公開日:2022-12-04
# スパース添加モデルによる分類

Classification by sparse additive models ( http://arxiv.org/abs/2212.01792v1 )

ライセンス: Link先を確認
Felix Abramovich(参考訳) 我々は(非パラメトリック)スパース加法モデル(SpAM)を分類する。 SpAM分類器の設計は、正規直列(フーリエやウェーブレットなど)における単変量成分の展開係数に対するスパース群Lasso/Slope型ペナルティによるロジスティック損失の最小化に基づいている。 結果の分類器は、本質的に未知の空間性と滑らかさに適応する。 分析, ソボレフ, ベッソフの全クラスにおいて, ほぼ最小値(ログファクタまで)であり, その性能を実データ例で示す。

We consider (nonparametric) sparse additive models (SpAM) for classification. The design of a SpAM classifier is based on minimizing the logistic loss with a sparse group Lasso/Slope-type penalties on the coefficients of univariate components' expansions in orthonormal series (e.g., Fourier or wavelets). The resulting classifier is inherently adaptive to the unknown sparsity and smoothness. We show that it is nearly-minimax (up to log-factors) within the entire range of analytic, Sobolev and Besov classes, and illustrate its performance on the real-data example.
翻訳日:2022-12-06 19:28:25 公開日:2022-12-04
# 自由制御ランダムリシャッフル勾配アルゴリズムのリプシッツ平滑性による収束

Convergence under Lipschitz smoothness of ease-controlled Random Reshuffling gradient Algorithms ( http://arxiv.org/abs/2212.01848v1 )

ライセンス: Link先を確認
Giampaolo Liuzzi, Laura Palagi and Ruggiero Seccia(参考訳) 非常に多くの滑らかかつ非凸関数の平均を最小化することを検討する。 この最適化問題は、さまざまな分野のアプリケーションが多いため、ここ数年で多くの注目を集めており、最も難しいのは機械学習モデルのトレーニングである。 この問題を解決するために広く使われているアプローチはミニバッチ勾配法であり、各イテレーションでコンポーネント関数のミニバッチの勾配に沿って移動する決定ベクトルを更新する。 漸進勾配 (ig) とランダムリシャッフル法 (rr) は周期的に進行し, バッチを一定の順序で選択するか, または各エポックの後の順序を再シャッフルすることによって検討する。 これらのスキームの収束性は異なる仮定の下で証明され、通常は非常に強い。 IG/RRスキームの緩和制御的な修正は, 計算作業の軽量化と, 非常に弱い標準仮定の下で収束することが証明できる。 特に、モノトーンまたは非モノトーンという2つのアルゴリズムスキームを定義し、ig/rr反復をウォッチドッグ規則と、収束を保証するために散発的にのみ活性化するデリバティブフリーライン探索を用いて制御する。 この2つのスキームは、メインIG/RRイテレーションで使用されるステップサイズの更新を制御でき、プリセットルールの使用を避けることができる。 コンポーネント関数の勾配のリプシッツ連続性の孤独な仮定の下で収束を証明し、深層ニューラルネットワークとデータセットのベンチマークを用いて広範な計算解析を行う。 我々は,本手法を全バッチ勾配法とIG/RR法のオンライン標準法の両方と比較し,計算作業が対応するオンライン手法に匹敵するものであり,学習率の制御が高速化できることを示した。

We consider minimizing the average of a very large number of smooth and possibly non-convex functions. This optimization problem has deserved much attention in the past years due to the many applications in different fields, the most challenging being training Machine Learning models. Widely used approaches for solving this problem are mini-batch gradient methods which, at each iteration, update the decision vector moving along the gradient of a mini-batch of the component functions. We consider the Incremental Gradient (IG) and the Random reshuffling (RR) methods which proceed in cycles, picking batches in a fixed order or by reshuffling the order after each epoch. Convergence properties of these schemes have been proved under different assumptions, usually quite strong. We aim to define ease-controlled modifications of the IG/RR schemes, which require a light additional computational effort and can be proved to converge under very weak and standard assumptions. In particular, we define two algorithmic schemes, monotone or non-monotone, in which the IG/RR iteration is controlled by using a watchdog rule and a derivative-free line search that activates only sporadically to guarantee convergence. The two schemes also allow controlling the updating of the stepsize used in the main IG/RR iteration, avoiding the use of preset rules. We prove convergence under the lonely assumption of Lipschitz continuity of the gradients of the component functions and perform extensive computational analysis using Deep Neural Architectures and a benchmark of datasets. We compare our implementation with both full batch gradient methods and online standard implementation of IG/RR methods, proving that the computational effort is comparable with the corresponding online methods and that the control on the learning rate may allow faster decrease.
翻訳日:2022-12-06 19:13:50 公開日:2022-12-04
# 強化学習のためのオンラインシールド

Online Shielding for Reinforcement Learning ( http://arxiv.org/abs/2212.01861v1 )

ライセンス: Link先を確認
Bettina K\"onighofer, Julian Rudolf, Alexander Palmisano, Martin Tappler and Roderick Bloem(参考訳) 強化学習(RL)の最近の顕著な成果に加えて、安全はRLの主要な研究課題の1つである。 RLは、マルコフ決定プロセス(MDP)における準最適ポリシーを決定する機械学習アプローチである。 本稿では,MDPの安全性関連フラグメントを時間論理的安全性仕様とともに付与し,短期的に計画することで,多くの安全違反を回避できる設定について考察する。 RLエージェントのオンライン安全保護のためのアプローチを提案する。 実行時、shieldは利用可能な各アクションの安全性を分析する。 任意のアクションに対して、シールドは、このアクションの実行時に次の$k$ステップで安全仕様に違反しない最大確率を計算する。 この確率と所定の閾値に基づいて、シールドはエージェントからアクションをブロックするかどうかを決定する。 既存のオフラインシールドアプローチは、前もって全ての状態-動作の組み合わせの安全性を徹底的に計算し、計算時間とメモリ消費を大きくする。 オンラインシールドの背景にある直感は、近い将来に到達可能なすべての状態のセットを実行時に計算することだ。 これら各州について、利用可能なすべての行動の安全は分析され、検討された状態の1つが到達した直後に遮蔽に使用される。 提案手法は,安全計算に決定間時間を使用でき,これらの計算が完了するまでエージェントが待機できるような高レベルの計画問題に適している。 本評価では,従来のコンピュータゲームSNAKEの2プレイヤー版を選択した。 ゲームは高速な意思決定を必要とする高レベルの計画問題であり、マルチプレイヤー設定は大きな状態空間を誘導する。

Besides the recent impressive results on reinforcement learning (RL), safety is still one of the major research challenges in RL. RL is a machine-learning approach to determine near-optimal policies in Markov decision processes (MDPs). In this paper, we consider the setting where the safety-relevant fragment of the MDP together with a temporal logic safety specification is given and many safety violations can be avoided by planning ahead a short time into the future. We propose an approach for online safety shielding of RL agents. During runtime, the shield analyses the safety of each available action. For any action, the shield computes the maximal probability to not violate the safety specification within the next $k$ steps when executing this action. Based on this probability and a given threshold, the shield decides whether to block an action from the agent. Existing offline shielding approaches compute exhaustively the safety of all state-action combinations ahead of time, resulting in huge computation times and large memory consumption. The intuition behind online shielding is to compute at runtime the set of all states that could be reached in the near future. For each of these states, the safety of all available actions is analysed and used for shielding as soon as one of the considered states is reached. Our approach is well suited for high-level planning problems where the time between decisions can be used for safety computations and it is sustainable for the agent to wait until these computations are finished. For our evaluation, we selected a 2-player version of the classical computer game SNAKE. The game represents a high-level planning problem that requires fast decisions and the multiplayer setting induces a large state space, which is computationally expensive to analyse exhaustively.
翻訳日:2022-12-06 19:13:19 公開日:2022-12-04
# 次の位置予測のためのコンテキストアウェアマルチヘッド自己アテンショナルニューラルネットワークモデル

Context-aware multi-head self-attentional neural network model for next location prediction ( http://arxiv.org/abs/2212.01953v1 )

ライセンス: Link先を確認
Ye Hong, Yatao Zhang, Konrad Schindler, Martin Raubal(参考訳) 正確な活動位置予測は多くのモビリティアプリケーションにおいて重要な要素であり、特にパーソナライズされた持続可能な輸送システムを開発するために必要である。 ディープラーニングモデルの普及にもかかわらず、次の位置予測モデルは、モビリティに関連する時空間コンテキストの包括的な議論と統合を欠いている。 本稿では,マルチヘッド・セルフ・アテンション(mhsa)ニューラルネットワークを用いて,過去の場所訪問,訪問時間,活動時間,周辺の土地利用機能から位置遷移パターンを学習し,個人の次の位置を推定する。 具体的には,複数の空間的スケールで場所の土地利用コンテキストを表現し,時空間的特徴の埋め込みベクトルを生成し,mhsaネットワークを用いて次の位置を予測することを学ぶ。 2つの大規模GNSS追跡データセットの実験を通して、提案モデルが他の最先端予測モデルより優れており、様々な時空間がモデルの性能に与える影響を明らかにする。 さらに,集団行動パターンからの学習により,個体群データに基づくモデルが個人レベルでのモデルよりも少ないパラメータで高い予測性能を達成することがわかった。 また,過去および1週間前に実施したモビリティが現在の予測に最も大きな影響を与え,過去のモビリティのサブセットからの学習が正確な位置予測結果を得るために十分であることを示す。 我々は,提案モデルがコンテキスト認識モビリティ予測に不可欠であると考えている。 得られた洞察は、位置予測モデルを理解し、モビリティアプリケーションの実装を促進するのに役立つだろう。

Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
翻訳日:2022-12-06 19:12:54 公開日:2022-12-04
# 文脈資源配分システムの公正性:メトリクスと非互換性

Fairness in Contextual Resource Allocation Systems: Metrics and Incompatibility Results ( http://arxiv.org/abs/2212.01725v1 )

ライセンス: Link先を確認
Nathanael Jo, Bill Tang, Kathryn Dullerud, Sina Aghaei, Eric Rice, Phebe Vayanos(参考訳) 本研究は、住宅を提供するホームレスサービスなど、基本的なニーズを満たすために不足資源を割り当てるクリティカルシステムについて研究する。 これらのシステムは、しばしば体系的な人種、性別、その他の不正によって不釣り合いに影響を受けるコミュニティをサポートするため、公平性を念頭に置いてこれらのシステムを設計することが不可欠である。 そこで本研究では,機械学習における公平度メトリクスに触発されたコンテキスト資源割当システムの公平性を評価するフレームワークを提案する。 この枠組みは、歴史政策の公正性の評価や、新しい(非現実的な)アロケーションポリシーの設計に制約を加えるために適用することができる。 我々の研究は、我々が提案する異なる公平度メトリクス間の相互作用を研究する一連の非互換性の結果で締めくくられる。 特に、私たちはこう示しています。 1) 配当の公平性及び結果の公正性は,通常,相容れない。 2 脆弱性スコアに基づいて優先するポリシーは、たとえスコアが完全に校正されているとしても、通常、グループ間で不平等な結果をもたらす。 3)基準リスクと治療効果を特徴付けるために必要となる以上の文脈情報を用いた政策は、基準リスクと治療効果のみを使用する政策よりも結果が公平である。 4) 基本リスク及び治療効果に加えて,グループステータスを使用するポリシーは,利用可能なすべての情報から可能な限り公平である。 私たちのフレームワークは、不足するリソースを割り当てるときに課すべき公平度メトリクスを決定する上で、ステークホルダ間の議論をガイドするのに役立ちます。

We study critical systems that allocate scarce resources to satisfy basic needs, such as homeless services that provide housing. These systems often support communities disproportionately affected by systemic racial, gender, or other injustices, so it is crucial to design these systems with fairness considerations in mind. To address this problem, we propose a framework for evaluating fairness in contextual resource allocation systems that is inspired by fairness metrics in machine learning. This framework can be applied to evaluate the fairness properties of a historical policy, as well as to impose constraints in the design of new (counterfactual) allocation policies. Our work culminates with a set of incompatibility results that investigate the interplay between the different fairness metrics we propose. Notably, we demonstrate that: 1) fairness in allocation and fairness in outcomes are usually incompatible; 2) policies that prioritize based on a vulnerability score will usually result in unequal outcomes across groups, even if the score is perfectly calibrated; 3) policies using contextual information beyond what is needed to characterize baseline risk and treatment effects can be fairer in their outcomes than those using just baseline risk and treatment effects; and 4) policies using group status in addition to baseline risk and treatment effects are as fair as possible given all available information. Our framework can help guide the discussion among stakeholders in deciding which fairness metrics to impose when allocating scarce resources.
翻訳日:2022-12-06 19:04:39 公開日:2022-12-04
# 機械学習を用いた極端に観測不能な電力系統の高速状態推定

High-Speed State Estimation in Power Systems with Extreme Unobservability Using Machine Learning ( http://arxiv.org/abs/2212.01729v1 )

ライセンス: Link先を確認
Antos Cheeramban Varghese, Hritik Shah, Behrouz Azimian, Anamitra Pal, Evangelos Farantatos, Mahendra Patel, and Paul Myrda(参考訳) 大きな電力系統の高速な時間スケール状態推定は、測定を行うセンサが少ない場合、困難である。 これは、最小位相測定ユニット(PMU)カバレッジを持つ伝送システムに対して、時間同期状態推定を行う場合に特に当てはまる。 本稿では,Deep Neural Network-based State Estimator (DeNSE)を提案する。 既存のPMUインフラストラクチャがDeNSEを使用して許容範囲内で推定エラーを発生できないシステムに対しては,データ駆動型インクリメンタルPMU配置手法も導入されている。 提案手法の実用性は, トポロジー変化, 非ガウス計測ノイズ, 悪いデータ検出と修正, および大規模システム応用を考慮することで実証される。

Fast timescale state estimation for a large power system can be challenging if the sensors producing the measurements are few in number. This is particularly true for doing time-synchronized state estimation for a transmission system that has minimal phasor measurement unit (PMU) coverage. This paper proposes a Deep Neural network-based State Estimator (DeNSE) to overcome this extreme unobservability problem. For systems in which the existing PMU infrastructure is not able to bring the estimation errors within acceptable limits using the DeNSE, a data-driven incremental PMU placement methodology is also introduced. The practical utility of the proposed approach is demonstrated by considering topology changes, non-Gaussian measurement noise, bad data detection and correction, and large system application.
翻訳日:2022-12-06 19:04:15 公開日:2022-12-04
# 絡み合い制御回路と重ね合わせ符号化を用いた量子フェデレーション学習

Quantum Federated Learning with Entanglement Controlled Circuits and Superposition Coding ( http://arxiv.org/abs/2212.01732v1 )

ライセンス: Link先を確認
Won Joon Yun, Jae Pyoung Kim, Hankyul Baek, Soyi Jung, Jihong Park, Mehdi Bennis, Joongheon Kim(参考訳) ノイズの多い中間規模量子(NISQ)時代を目撃する一方で、量子連合学習(QFL)は近年、新たな研究分野となっている。 QFLでは、各量子コンピュータまたはデバイスが、トレーニング可能なゲートを持つ量子ニューラルネットワーク(QNN)をローカルにトレーニングし、これらのゲートパラメータのみを古典的なチャネル上で通信する。 本稿では, 様々なチャネル条件下でのQFLの実現に向けて, エンタングル可能な量子ニューラルネットワーク(eSQNN)の深度制御可能なアーキテクチャを開発し, eS-QNNの重畳符号化パラメータを伝達するエンタングル可能なQFL(eSQFL)を提案する。 深度制御可能なeSQNNアーキテクチャのトレーニングは、既存の深度固定QNNと比較して、深い量子状態差をペナライズするインプレースフィラリティ蒸留器(IPFD)と、絡み合い制御ユニバーサルゲート(CU)を導入して緩和される高絡み合いエントロピーと深度干渉により、より困難である。 さらに,esqflの収束限界を導出して最小化することにより,重畳符号化パワー割当を最適化する。 画像分類タスクでは,Vanilla QFLと比較して,予測精度,忠実度,エントロピーの面でのeSQFLの有効性を,異なるチャネル条件や様々なデータ分布の下で相関させる。

While witnessing the noisy intermediate-scale quantum (NISQ) era and beyond, quantum federated learning (QFL) has recently become an emerging field of study. In QFL, each quantum computer or device locally trains its quantum neural network (QNN) with trainable gates, and communicates only these gate parameters over classical channels, without costly quantum communications. Towards enabling QFL under various channel conditions, in this article we develop a depth-controllable architecture of entangled slimmable quantum neural networks (eSQNNs), and propose an entangled slimmable QFL (eSQFL) that communicates the superposition-coded parameters of eS-QNNs. Compared to the existing depth-fixed QNNs, training the depth-controllable eSQNN architecture is more challenging due to high entanglement entropy and inter-depth interference, which are mitigated by introducing entanglement controlled universal (CU) gates and an inplace fidelity distillation (IPFD) regularizer penalizing inter-depth quantum state differences, respectively. Furthermore, we optimize the superposition coding power allocation by deriving and minimizing the convergence bound of eSQFL. In an image classification task, extensive simulations corroborate the effectiveness of eSQFL in terms of prediction accuracy, fidelity, and entropy compared to Vanilla QFL as well as under different channel conditions and various data distributions.
翻訳日:2022-12-06 19:04:00 公開日:2022-12-04
# FedKNOW: エッジでの署名型タスク知識統合による継続的な学習

FedKNOW: Federated Continual Learning with Signature Task Knowledge Integration at Edge ( http://arxiv.org/abs/2212.01738v1 )

ライセンス: Link先を確認
Yaxin Luopan, Rui Han, Qinglong Zhang, Chi Harold Liu, Guoren Wang(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、物のインターネットに広く採用されており、私たちの日常生活に不可欠なものになりつつある。 さまざまな種類のオブジェクトを分類するなど、現実世界で進化する学習タスクに取り組む場合、DNNは、異なるエッジデバイス上のタスクに応じて、継続的に自分自身をトレーニングするという課題に直面します。 フェデレーション型連続学習(Federated continual learning)は、部分解を提供するが、デバイス上での処理の制限による大幅な精度低下、非IIDデータの通信の制限による負の知識伝達、タスクやエッジデバイスでのスケーラビリティの制限といった課題を克服しない有望な手法である。 本稿では,シグネチャタスク知識という新しい概念を通して,精度が高くスケーラブルな連続学習フレームワークであるfeedknowを提案する。 FedKNOWはクライアントサイドソリューションで、現在のタスクに強く影響された署名タスクの知識を継続的に抽出し、統合します。 FedKNOWの各クライアントは、知識抽出器、勾配復元器、そして最も重要なのは勾配積分器で構成されている。 グラデーションインテグレータは、新しいタスクのトレーニング時に、過去のローカルタスクと他のクライアントの現在のタスクからグローバルモデルを通して識別された署名タスクを効果的に組み合わせることで、負の知識伝達の破滅的な忘れと軽減を確実にする。 我々はPyTorchでFedKNOWを実装し、一般的なフェデレート連続学習ベンチマークを用いて最先端技術に対して広範囲に評価する。 ヘテロジニアスエッジデバイスの大規模な評価結果から、FedKNOWはモデルトレーニング時間を増やすことなくモデル精度を63.24%改善し、通信コストを34.28%削減し、多数のタスクやクライアント、異なる複雑なネットワークのトレーニングといった困難なシナリオ下でのさらなる改善を実現している。

Deep Neural Networks (DNNs) have been ubiquitously adopted in internet of things and are becoming an integral of our daily life. When tackling the evolving learning tasks in real world, such as classifying different types of objects, DNNs face the challenge to continually retrain themselves according to the tasks on different edge devices. Federated continual learning is a promising technique that offers partial solutions but yet to overcome the following difficulties: the significant accuracy loss due to the limited on-device processing, the negative knowledge transfer caused by the limited communication of non-IID data, and the limited scalability on the tasks and edge devices. In this paper, we propose FedKNOW, an accurate and scalable federated continual learning framework, via a novel concept of signature task knowledge. FedKNOW is a client side solution that continuously extracts and integrates the knowledge of signature tasks which are highly influenced by the current task. Each client of FedKNOW is composed of a knowledge extractor, a gradient restorer and, most importantly, a gradient integrator. Upon training for a new task, the gradient integrator ensures the prevention of catastrophic forgetting and mitigation of negative knowledge transfer by effectively combining signature tasks identified from the past local tasks and other clients' current tasks through the global model. We implement FedKNOW in PyTorch and extensively evaluate it against state-of-the-art techniques using popular federated continual learning benchmarks. Extensive evaluation results on heterogeneous edge devices show that FedKNOW improves model accuracy by 63.24% without increasing model training time, reduces communication cost by 34.28%, and achieves more improvements under difficult scenarios such as large numbers of tasks or clients, and training different complex networks.
翻訳日:2022-12-06 19:03:33 公開日:2022-12-04
# Axial-LOB: Axial Attention を用いた高周波取引

Axial-LOB: High-Frequency Trading with Axial Attention ( http://arxiv.org/abs/2212.01807v1 )

ライセンス: Link先を確認
Damian Kisiel, Denise Gorse(参考訳) 制限順序帳(LOB)データから株価を予測しようとする以前の試みは、主に深層畳み込みニューラルネットワークに基づいている。 畳み込みは、操作をローカルなインタラクションに制限することで効率性を提供するが、長距離の依存関係の検出を欠く可能性がある。 近年の研究では、計算複雑性を増大させる再帰層や注意層を用いることでこの問題に対処している。 本研究では,LOBデータから在庫の価格変動を予測するための,完全意図型ディープラーニングアーキテクチャであるAxial-LOBを提案する。 ゲート位置感応性アキシャルアテンションレイヤを利用することで、我々のアーキテクチャはグローバルな相互作用を取り入れた特徴マップを構築することができ、パラメータ空間のサイズを著しく削減することができる。 以前の研究とは異なり、Axial-LOBは手作りの畳み込みカーネルに依存しておらず、入力の順応の下で安定した性能と追加のLOB機能を組み込む能力を持っている。 Axial-LOBの有効性は、数百万の高周波取引イベントの時系列表現を含む大規模なベンチマークデータセット上で実証され、そこでは、我々のモデルが新しい技術の状態を確立し、テストされた全ての予測地平線における優れた方向分類性能を達成する。

Previous attempts to predict stock price from limit order book (LOB) data are mostly based on deep convolutional neural networks. Although convolutions offer efficiency by restricting their operations to local interactions, it is at the cost of potentially missing out on the detection of long-range dependencies. Recent studies address this problem by employing additional recurrent or attention layers that increase computational complexity. In this work, we propose Axial-LOB, a novel fully-attentional deep learning architecture for predicting price movements of stocks from LOB data. By utilizing gated position-sensitive axial attention layers our architecture is able to construct feature maps that incorporate global interactions, while significantly reducing the size of the parameter space. Unlike previous works, Axial-LOB does not rely on hand-crafted convolutional kernels and hence has stable performance under input permutations and the capacity to incorporate additional LOB features. The effectiveness of Axial-LOB is demonstrated on a large benchmark dataset, containing time series representations of millions of high-frequency trading events, where our model establishes a new state of the art, achieving an excellent directional classification performance at all tested prediction horizons.
翻訳日:2022-12-06 19:02:57 公開日:2022-12-04
# 隠れノードの存在下でのガウス観測による合同グラフ学習

Joint graph learning from Gaussian observations in the presence of hidden nodes ( http://arxiv.org/abs/2212.01816v1 )

ライセンス: Link先を確認
Samuel Rey, Madeline Navarro, Andrei Buciulea, Santiago Segarra, and Antonio G. Marques(参考訳) グラフ学習の問題は通常、すべてのノードからの信号が利用可能な場合、単一のグラフのトポロジを学習することに集中することで解決される。 しかし、現代の多くの設定では複数の関連ネットワークが絡み合っており、さらにノードのサブセットのみが観測され、残りは隠れている場合が多い。 そこで本研究では,隠れ(相対)変数の存在を考慮したグラフ学習手法を提案する。 直感的には、隠れたノードの存在は推論タスクの不備と解決の難しさを反映するので、推定されたグラフの類似性を利用して、この有害な影響を克服する。 この目的のために、観測された信号は潜在変数を持つガウスマルコフ確率場から引き出されると仮定し、隠れ(相対)ノード間のグラフ類似性を慎重にモデル化する。 次に,先行する考察から得られた構造を活用し,正規化最大度推定器を提供することにより,合同グラフ学習タスクを解く凸最適化問題を提案する。 最後に,提案アルゴリズムを異なるベースラインと比較し,合成グラフと実世界グラフの性能評価を行った。

Graph learning problems are typically approached by focusing on learning the topology of a single graph when signals from all nodes are available. However, many contemporary setups involve multiple related networks and, moreover, it is often the case that only a subset of nodes is observed while the rest remain hidden. Motivated by this, we propose a joint graph learning method that takes into account the presence of hidden (latent) variables. Intuitively, the presence of the hidden nodes renders the inference task ill-posed and challenging to solve, so we overcome this detrimental influence by harnessing the similarity of the estimated graphs. To that end, we assume that the observed signals are drawn from a Gaussian Markov random field with latent variables and we carefully model the graph similarity among hidden (latent) nodes. Then, we exploit the structure resulting from the previous considerations to propose a convex optimization problem that solves the joint graph learning task by providing a regularized maximum likelihood estimator. Finally, we compare the proposed algorithm with different baselines and evaluate its performance over synthetic and real-world graphs.
翻訳日:2022-12-06 19:02:36 公開日:2022-12-04
# 自動学習が遮蔽と出会う

Automata Learning meets Shielding ( http://arxiv.org/abs/2212.01838v1 )

ライセンス: Link先を確認
Martin Tappler, Stefan Pranger, Bettina K\"onighofer, Edi Mu\v{s}kardin, Roderick Bloem and Kim Larsen(参考訳) 安全は、強化学習(RL)における主要な研究課題の1つである。 本稿では,確率的および部分的未知環境における調査中に,rlエージェントの安全性侵害を回避する方法について述べる。 提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的に組み合わせた手法である。 はじめに、環境を表すmdpは未知である。 エージェントは環境を探索し、トレースを収集します。 収集した痕跡から,環境の安全関連側面を抽象的に表現するMDPを受動的に学習する。 学習済みのMDPと安全仕様を考えると、シールドを構築します。 学習されたMDP内の各状態-アクションペアに対して、シールドは、アクションの実行によって次の$k$ステップで現在の状態から仕様を違反する確率を正確に計算する。 シールドが構築された後、シールドは実行中に使用され、エージェントから大きすぎるリスクを引き起こすアクションをブロックする。 シールドされたエージェントは環境を探索し続け、環境上の新しいデータを収集する。 繰り返して、収集したデータを使って新しいMDPを高い精度で学習し、それによってシールドがより多くの安全違反を防ぐことができる。 我々は,この手法を実装し,滑りやすいグリッドワールドを探索するQラーニングエージェントの詳細な事例研究を行った。 実験では,エージェントが訓練中に環境を探索するにつれて,学習モデルの改善がシールドにつながり,多数の安全侵害を防止できることを示した。

Safety is still one of the major research challenges in reinforcement learning (RL). In this paper, we address the problem of how to avoid safety violations of RL agents during exploration in probabilistic and partially unknown environments. Our approach combines automata learning for Markov Decision Processes (MDPs) and shield synthesis in an iterative approach. Initially, the MDP representing the environment is unknown. The agent starts exploring the environment and collects traces. From the collected traces, we passively learn MDPs that abstractly represent the safety-relevant aspects of the environment. Given a learned MDP and a safety specification, we construct a shield. For each state-action pair within a learned MDP, the shield computes exact probabilities on how likely it is that executing the action results in violating the specification from the current state within the next $k$ steps. After the shield is constructed, the shield is used during runtime and blocks any actions that induce a too large risk from the agent. The shielded agent continues to explore the environment and collects new data on the environment. Iteratively, we use the collected data to learn new MDPs with higher accuracy, resulting in turn in shields able to prevent more safety violations. We implemented our approach and present a detailed case study of a Q-learning agent exploring slippery Gridworlds. In our experiments, we show that as the agent explores more and more of the environment during training, the improved learned models lead to shields that are able to prevent many safety violations.
翻訳日:2022-12-06 19:02:18 公開日:2022-12-04
# GraphGDP: 置換不変グラフ生成のための生成拡散プロセス

GraphGDP: Generative Diffusion Processes for Permutation Invariant Graph Generation ( http://arxiv.org/abs/2212.01842v1 )

ライセンス: Link先を確認
Han Huang, Leilei Sun, Bowen Du, Yanjie Fu, Weifeng Lv(参考訳) グラフ生成モデルは生物学、化学、社会科学に広く応用されている。 しかしながら、グラフの生成過程のモデリングと理解は、グラフの離散的かつ高次元の性質と、下位のグラフ分布におけるノード順序への置換不変性のため、困難である。 現在の先行的自己回帰モデルでは、生成順序に依存するグラフの置換不変性が捉えられず、高い時間複雑性を持つ。 本稿では,これらの問題を緩和するために,変分不変グラフ生成のための連続時間生成拡散プロセスを提案する。 具体的には、まず確率微分方程式(SDE)によって定義される前方拡散過程を構築し、複素分布内のグラフを既知のエッジ確率に従うランダムグラフに滑らかに変換する。 対応する逆時間SDEを解くと、新たにサンプリングされたランダムグラフからグラフを生成することができる。 逆時間sdeを容易にするために,位置強調グラフスコアネットワークを新たに設計し,摂動同変スコア推定のための摂動グラフから進化構造と位置情報を取得する。 包括的メトリクスの評価により,提案手法はグラフ分布学習において競争的性能を達成する。 実験の結果,グラフGDPは,従来の自己回帰モデルよりもはるかに高速に,24関数評価で高品質なグラフを生成することができた。

Graph generative models have broad applications in biology, chemistry and social science. However, modelling and understanding the generative process of graphs is challenging due to the discrete and high-dimensional nature of graphs, as well as permutation invariance to node orderings in underlying graph distributions. Current leading autoregressive models fail to capture the permutation invariance nature of graphs for the reliance on generation ordering and have high time complexity. Here, we propose a continuous-time generative diffusion process for permutation invariant graph generation to mitigate these issues. Specifically, we first construct a forward diffusion process defined by a stochastic differential equation (SDE), which smoothly converts graphs within the complex distribution to random graphs that follow a known edge probability. Solving the corresponding reverse-time SDE, graphs can be generated from newly sampled random graphs. To facilitate the reverse-time SDE, we newly design a position-enhanced graph score network, capturing the evolving structure and position information from perturbed graphs for permutation equivariant score estimation. Under the evaluation of comprehensive metrics, our proposed generative diffusion process achieves competitive performance in graph distribution learning. Experimental results also show that GraphGDP can generate high-quality graphs in only 24 function evaluations, much faster than previous autoregressive models.
翻訳日:2022-12-06 19:01:55 公開日:2022-12-04
# 音声MOSマルチタスク学習とレーダバイアス補正

Speech MOS multi-task learning and rater bias correction ( http://arxiv.org/abs/2212.01911v1 )

ライセンス: Link先を確認
Haleh Akrami, Hannes Gamper(参考訳) 音声品質は遠隔会議アプリケーションにとって重要なパフォーマンス指標である。 平均意見スコア(mos)は、音声品質の知覚評価のために標準化され、聴取者に音声サンプルの品質を評価するように依頼することで得られる。 近年,mosを盲目的に推定するモデルの開発が研究されている。 本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。 実験結果から,MOSラベルのみを含む2つの解離データセットと,T60ラベルとC50ラベルのみを含む2つの解離データセットを組み合わせることで,MOS,残響時間(T60),明度(C50)を共同で推定できることがわかった。 さらに、トレーニング中の2つのMOSデータセット(ITU-TレコメンデーションP.808あたり)と、音声信号、バックグラウンドノイズ、全体的な品質(ITU-TレコメンデーションP.835あたり)の別々のスコアを含む半教師付きフレームワークを用いて、MOSラベルのみを含む。 最後に,mosラベルの個別利率バイアスに対処するための予備的な結果を示す。

Perceptual speech quality is an important performance metric for teleconferencing applications. The mean opinion score (MOS) is standardized for the perceptual evaluation of speech quality and is obtained by asking listeners to rate the quality of a speech sample. Recently, there has been increasing research interest in developing models for estimating MOS blindly. Here we propose a multi-task framework to include additional labels and data in training to improve the performance of a blind MOS estimation model. Experimental results indicate that the proposed model can be trained to jointly estimate MOS, reverberation time (T60), and clarity (C50) by combining two disjoint data sets in training, one containing only MOS labels and the other containing only T60 and C50 labels. Furthermore, we use a semi-supervised framework to combine two MOS data sets in training, one containing only MOS labels (per ITU-T Recommendation P.808), and the other containing separate scores for speech signal, background noise, and overall quality (per ITU-T Recommendation P.835). Finally, we present preliminary results for addressing individual rater bias in the MOS labels.
翻訳日:2022-12-06 18:45:39 公開日:2022-12-04
# 車両追跡システムを用いたPM2.5濃度予測フレームワーク:原因から効果へ

A PM2.5 concentration prediction framework with vehicle tracking system: From cause to effect ( http://arxiv.org/abs/2212.01761v1 )

ライセンス: Link先を確認
Chuong D. Le, Hoang V. Pham, Duy A. Pham, An D. Le, Hien B. Vo(参考訳) 大気汚染は特に先進国や発展途上国で解決する必要がある新興問題である。 ベトナムでは、大気汚染はハノイやホーチミンのような大都市でも問題となっている。 そこで本研究では,道路交通の車両数を計算してpm2.5汚染物質を推定する手法の開発に注目する。 まず,最近の物体検出モデルを調査し,交通監視システムを開発した。 観測された交通密度は, PM2.5とほぼ同様の傾向を示し, 交通密度とPM2.5の関係が示唆された。 さらに、観測された交通密度に基づいてPM2.5値を推定できる数学的モデルとの関係を述べる。 その結果, 都市域におけるPM2.5プロットの測定値と大きな相関が認められた。

Air pollution is an emerging problem that needs to be solved especially in developed and developing countries. In Vietnam, air pollution is also a concerning issue in big cities such as Hanoi and Ho Chi Minh cities where air pollution comes mostly from vehicles such as cars and motorbikes. In order to tackle the problem, the paper focuses on developing a solution that can estimate the emitted PM2.5 pollutants by counting the number of vehicles in the traffic. We first investigated among the recent object detection models and developed our own traffic surveillance system. The observed traffic density showed a similar trend to the measured PM2.5 with a certain lagging in time, suggesting a relation between traffic density and PM2.5. We further express this relationship with a mathematical model which can estimate the PM2.5 value based on the observed traffic density. The estimated result showed a great correlation with the measured PM2.5 plots in the urban area context.
翻訳日:2022-12-06 18:36:40 公開日:2022-12-04
# MouseGAN++: マウス脳の複数のMRIモダリティ合成と構造的セグメンテーションのための教師なしアンタングルメントとコントラスト表現

MouseGAN++: Unsupervised Disentanglement and Contrastive Representation for Multiple MRI Modalities Synthesis and Structural Segmentation of Mouse Brain ( http://arxiv.org/abs/2212.01825v1 )

ライセンス: Link先を確認
Ziqi Yu, Xiaoyang Han, Shengjie Zhang, Jianfeng Feng, Tingying Peng, Xiao-Yong Zhang(参考訳) 磁気共鳴(MR)画像にマウス脳の微細構造を分割することは、形態的領域の描写、脳機能の解析、それらの関係の理解に重要である。 単一のMRIモダリティと比較して、マルチモーダルMRIデータは、深層学習モデルによって活用できる相補的な組織特徴を提供し、より良いセグメンテーション結果をもたらす。 しかし、マルチモーダルマウスの脳mriデータはしばしば不足しており、マウスの脳の微細な構造の自動分割は非常に難しい課題である。 この問題に対処するには、異なる脳構造において異なるコントラストを生成するために、マルチモーダルMRIデータを融合する必要がある。 そこで本研究では,MormoGAN++という,GANをベースとした新しいフレームワークを提案する。このフレームワークは,単一のMRモードを構造保存的に合成し,欠落したモダリティと多モード融合を推算することでセグメント化性能を向上させる。 その結果,本手法の翻訳性能は最先端手法よりも優れていた。 その後学習したモダリティ不変情報とモダリティ変換画像を用いて、mousegan++は平均ディス係数が90.0% (t2w) と87.9% (t1w) の微細な脳構造を分割し、最先端アルゴリズムと比較して約10%のパフォーマンス向上を達成している。 この結果から,MマウスGAN++は画像合成とセグメンテーションを同時に行うことで,不適切な方法でモダリティ情報を融合し,マルチモーダルデータがない場合により堅牢な性能が得られることを示した。 我々は、この手法をマウス脳構造分割ツールとしてリリースし、無料の学術的利用をhttps://github.com/yu02019で提供する。

Segmenting the fine structure of the mouse brain on magnetic resonance (MR) images is critical for delineating morphological regions, analyzing brain function, and understanding their relationships. Compared to a single MRI modality, multimodal MRI data provide complementary tissue features that can be exploited by deep learning models, resulting in better segmentation results. However, multimodal mouse brain MRI data is often lacking, making automatic segmentation of mouse brain fine structure a very challenging task. To address this issue, it is necessary to fuse multimodal MRI data to produce distinguished contrasts in different brain structures. Hence, we propose a novel disentangled and contrastive GAN-based framework, named MouseGAN++, to synthesize multiple MR modalities from single ones in a structure-preserving manner, thus improving the segmentation performance by imputing missing modalities and multi-modality fusion. Our results demonstrate that the translation performance of our method outperforms the state-of-the-art methods. Using the subsequently learned modality-invariant information as well as the modality-translated images, MouseGAN++ can segment fine brain structures with averaged dice coefficients of 90.0% (T2w) and 87.9% (T1w), respectively, achieving around +10% performance improvement compared to the state-of-the-art algorithms. Our results demonstrate that MouseGAN++, as a simultaneous image synthesis and segmentation method, can be used to fuse cross-modality information in an unpaired manner and yield more robust performance in the absence of multimodal data. We release our method as a mouse brain structural segmentation tool for free academic usage at https://github.com/yu02019.
翻訳日:2022-12-06 18:36:27 公開日:2022-12-04
# カメラ再局在化のための高速軽量シーンレグレッシャ

Fast and Lightweight Scene Regressor for Camera Relocalization ( http://arxiv.org/abs/2212.01830v1 )

ライセンス: Link先を確認
Thuan B. Bui, Dinh-Tuan Tran, and Joo-Ho Lee(参考訳) 以前の3D再構成を含むカメラの再局在は、多くの複合現実とロボット工学の応用において重要な役割を果たす。 プリビルドされた3Dモデルに対して直接カメラのポーズを推定することは、ストレージや通信帯域が限られているいくつかのアプリケーションにとって、極めて高価である。 最近のシーンや絶対ポーズ回帰手法は、効率的なカメラローカライズに普及しているが、そのほとんどは計算資源集中型であり、高い精度の制約を持つリアルタイム推論を得るのが困難である。 本研究では,シーン座標をマッピングして正確なカメラポーズ推定を実現するために,多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。 提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。 スパース機能の使用にはいくつかの利点がある。 第一に、提案する回帰器ネットワークは、以前の研究よりかなり小さい。 これにより、システムは極めて効率的でスケーラブルになります。 第二に、プレビルドされた3Dモデルは最も信頼性が高く堅牢な2D-3Dマッチを提供する。 したがって、それらからの学習は同等の機能の認識につながり、一般化性能が大幅に向上する。 提案手法を支援するために,提案手法の詳細な分析と既存データセットを用いた広範な評価を行った。 実装の詳細はhttps://github.com/aislab/feat2mapで確認できる。

Camera relocalization involving a prior 3D reconstruction plays a crucial role in many mixed reality and robotics applications. Estimating the camera pose directly with respect to pre-built 3D models can be prohibitively expensive for several applications with limited storage and/or communication bandwidth. Although recent scene and absolute pose regression methods have become popular for efficient camera localization, most of them are computation-resource intensive and difficult to obtain a real-time inference with high accuracy constraints. This study proposes a simple scene regression method that requires only a multi-layer perceptron network for mapping scene coordinates to achieve accurate camera pose estimations. The proposed approach uses sparse descriptors to regress the scene coordinates, instead of a dense RGB image. The use of sparse features provides several advantages. First, the proposed regressor network is substantially smaller than those reported in previous studies. This makes our system highly efficient and scalable. Second, the pre-built 3D models provide the most reliable and robust 2D-3D matches. Therefore, learning from them can lead to an awareness of equivalent features and substantially improve the generalization performance. A detailed analysis of our approach and extensive evaluations using existing datasets are provided to support the proposed method. The implementation detail is available at https://github.com/aislab/feat2map
翻訳日:2022-12-06 18:35:54 公開日:2022-12-04
# 室内シーン理解に着目した6次元物体ポーズ推定法の検討

Review on 6D Object Pose Estimation with the focus on Indoor Scene Understanding ( http://arxiv.org/abs/2212.01920v1 )

ライセンス: Link先を確認
Negar Nejatishahidin and Pooya Fayyazsanavi(参考訳) 6Dオブジェクトのポーズ推定問題はコンピュータビジョンとロボティクスの分野で広く研究されている。 ロボット操作、拡張現実、そして3dシーン理解といった幅広い応用がある。 ディープラーニングの出現により、多くのブレークスルーが行われたが、見知らぬケースや新しいカテゴリ、あるいは散らかった背景やオクルージョンといった現実世界の課題に遭遇するアプローチは、引き続き苦労している。 本研究では、入力モダリティ、問題定式化、およびそれがカテゴリレベルのアプローチなのかインスタンスレベルのアプローチなのかを考察する。 議論の一環として、我々は6Dオブジェクトのポーズ推定が3Dシーンの理解にどのように役立つかに焦点を当てる。

6D object pose estimation problem has been extensively studied in the field of Computer Vision and Robotics. It has wide range of applications such as robot manipulation, augmented reality, and 3D scene understanding. With the advent of Deep Learning, many breakthroughs have been made; however, approaches continue to struggle when they encounter unseen instances, new categories, or real-world challenges such as cluttered backgrounds and occlusions. In this study, we will explore the available methods based on input modality, problem formulation, and whether it is a category-level or instance-level approach. As a part of our discussion, we will focus on how 6D object pose estimation can be used for understanding 3D scenes.
翻訳日:2022-12-06 18:35:36 公開日:2022-12-04
# 太陽フレア予測のための極域データの導入

Incorporating Polar Field Data for Improved Solar Flare Prediction ( http://arxiv.org/abs/2212.01730v1 )

ライセンス: Link先を確認
Mehmet Aktukmak, Zeyu Sun, Monica Bobra, Tamas Gombosi, Ward B. Manchester, Yang Chen and Alfred Hero(参考訳) 本稿では,太陽の北および南の極地強度に関連するデータを取り込んで,機械学習モデルを用いた太陽フレア予測性能を向上させることを検討する。 太陽の光球磁場の活性領域からの局所データを補足するために使用すると、極地データは予測者に大域的な情報を提供する。 このようなグローバルな特徴は、これまで次世代の太陽周期の強度を予測するために提案されてきたが、本稿では、個々の太陽フレアの分類に利用することを提案する。 極域情報を活用できる4種類の機械学習アルゴリズムを用いて,hmiデータを用いて実験を行う。 さらに, 極域データを簡易かつ効果的に組み込むことができ, リカレントニューラルネットワーク(recurrent neural network, rnn)などの最新の太陽フレア予測アルゴリズムによるオンパリティ予測性能を提供する, 専門家モデルの新たな確率的混合を提案する。 実験の結果,太陽フレア予測における極域データの有用性が示唆され,ハイドケスキルスコア(HSS2)は最大10.1%向上した。

In this paper, we consider incorporating data associated with the sun's north and south polar field strengths to improve solar flare prediction performance using machine learning models. When used to supplement local data from active regions on the photospheric magnetic field of the sun, the polar field data provides global information to the predictor. While such global features have been previously proposed for predicting the next solar cycle's intensity, in this paper we propose using them to help classify individual solar flares. We conduct experiments using HMI data employing four different machine learning algorithms that can exploit polar field information. Additionally, we propose a novel probabilistic mixture of experts model that can simply and effectively incorporate polar field data and provide on-par prediction performance with state-of-the-art solar flare prediction algorithms such as the Recurrent Neural Network (RNN). Our experimental results indicate the usefulness of the polar field data for solar flare prediction, which can improve Heidke Skill Score (HSS2) by as much as 10.1%.
翻訳日:2022-12-06 18:27:46 公開日:2022-12-04
# 統計的深層学習による極端地中海山火事の要因と時空間的傾向

Insights into the drivers and spatio-temporal trends of extreme Mediterranean wildfires with statistical deep-learning ( http://arxiv.org/abs/2212.01796v1 )

ライセンス: Link先を確認
Jordan Richards, Raphael Huser, Emanuele Bevacqua, Jakob Zscheischler(参考訳) 極度の山火事は、地中海盆地を含む国々における人命と生物多様性の破壊の重要な原因であり続けている。 近年の山火事(すなわち発生と拡散)の動向から、山火事は気候変動の影響を強く受けている可能性が示唆されている。 適切なリスク軽減を図るためには, 地球温暖化が火災活動に与える影響を理解するため, 極端な山火事の主な要因を特定し, 時空間的傾向を評価することが不可欠である。 この目的のために,2001年から2020年にかけて,ヨーロッパと地中海流域のほぼ全域で発生した森林火災による毎月の火災地域を分析し,東ヨーロッパ,アルジェリア,イタリア,ポルトガルにおける火災活動の高まりを確認した。 我々は,気象条件,土地被覆利用,地形を記述する高次元予測器セットを用いて,極端に質的回帰モデルを構築した。 予測変数と山火事の複雑な関係をモデル化するために,水蒸気圧不足(vpd),気温,干ばつが山火事活動に及ぼす影響を分離できるハイブリッド統計ディープラーニングフレームワークを用いた。 以上の結果から,vpd,気温,干ばつが野火の発生に大きく影響するのに対し,vpdのみが極端に野火の拡散に影響を及ぼすことが明らかとなった。 さらに,近い将来の森林火災活動に対する気候変動の影響に関する知見を得るため,その観測された傾向に従ってvddと気温を摂動させ,地球温暖化が空間的に不均一な森林火災活動の変化をもたらす可能性を示唆する。

Extreme wildfires continue to be a significant cause of human death and biodiversity destruction within countries that encompass the Mediterranean Basin. Recent worrying trends in wildfire activity (i.e., occurrence and spread) suggest that wildfires are likely to be highly impacted by climate change. In order to facilitate appropriate risk mitigation, it is imperative to identify the main drivers of extreme wildfires and assess their spatio-temporal trends, with a view to understanding the impacts of global warming on fire activity. To this end, we analyse the monthly burnt area due to wildfires over a region encompassing most of Europe and the Mediterranean Basin from 2001 to 2020, and identify high fire activity during this period in eastern Europe, Algeria, Italy and Portugal. We build an extreme quantile regression model with a high-dimensional predictor set describing meteorological conditions, land cover usage, and orography, for the domain. To model the complex relationships between the predictor variables and wildfires, we make use of a hybrid statistical deep-learning framework that allows us to disentangle the effects of vapour-pressure deficit (VPD), air temperature, and drought on wildfire activity. Our results highlight that whilst VPD, air temperature, and drought significantly affect wildfire occurrence, only VPD affects extreme wildfire spread. Furthermore, to gain insights into the effect of climate change on wildfire activity in the near future, we perturb VPD and temperature according to their observed trends and find evidence that global warming may lead to spatially non-uniform changes in wildfire activity.
翻訳日:2022-12-06 18:27:29 公開日:2022-12-04
# アクセラレーションAI倫理、イノベーションと安全の議論、安定したAIの拡散、OpenAIのDall-E

Acceleration AI Ethics, the Debate between Innovation and Safety, and Stability AI's Diffusion versus OpenAI's Dall-E ( http://arxiv.org/abs/2212.01834v1 )

ライセンス: Link先を確認
James Brusseau(参考訳) 従来のAI倫理に対する反対の1つは、イノベーションを遅らせることである。 このプレゼンテーションは、倫理をイノベーションアクセラレータとして再構成することで反応する。 重要な要素は、Stable AIのDiffusionとOpenAIのDall-Eの対比から生まれる。 開発・展開戦略の根底にある分岐値を分析することにより、加速倫理に共通する5つの概念が特定される。 不確かさは否定するよりも、肯定的かつ奨励的であると理解されている。 イノベーションは本質的に価値のあるものだと考えられており、社会的効果によってのみ媒介される価値がある。 AIの問題は、AIによって解決される。 AIを管理する許可と規制は、統一された権限ではなく、分散されたプロセスから現れます。 倫理学の研究は、外部からの機能ではなく、AI開発と応用に組み込まれている。 これらの態度と実践は、人工知能を抑えるのではなく、倫理を挑発的なものにしている。

One objection to conventional AI ethics is that it slows innovation. This presentation responds by reconfiguring ethics as an innovation accelerator. The critical elements develop from a contrast between Stability AI's Diffusion and OpenAI's Dall-E. By analyzing the divergent values underlying their opposed strategies for development and deployment, five conceptions are identified as common to acceleration ethics. Uncertainty is understood as positive and encouraging, rather than discouraging. Innovation is conceived as intrinsically valuable, instead of worthwhile only as mediated by social effects. AI problems are solved by more AI, not less. Permissions and restrictions governing AI emerge from a decentralized process, instead of a unified authority. The work of ethics is embedded in AI development and application, instead of functioning from outside. Together, these attitudes and practices remake ethics as provoking rather than restraining artificial intelligence.
翻訳日:2022-12-06 18:17:41 公開日:2022-12-04
# 半教師付き分類のためのマルチ計測学習を用いた意味グラフニューラルネットワーク

Semantic Graph Neural Network with Multi-measure Learning for Semi-supervised Classification ( http://arxiv.org/abs/2212.01749v1 )

ライセンス: Link先を確認
Junchao Lin, Yuan Wan, Jingwen Xu, Xingchen Qi(参考訳) 近年,グラフニューラルネットワーク (GNN) が注目され,半教師付きノード分類タスクにおいて優れた性能を発揮している。 ほとんどのGNNの成功は1つの基本的な前提、すなわち元のグラフ構造データが利用できることに依存している。 しかし、最近の研究では、gnnはグラフの複雑な基盤構造に弱いことを示しており、生のグラフ構造のみに頼るのではなく、下流タスクのための包括的かつ堅牢なグラフ構造を学ぶ必要がある。 そこで我々は,下流タスクのための最適グラフ構造を学習し,半教師付き分類のための新しいフレームワークを提案する。 具体的には、グラフとノード表現の構造的コンテキスト情報に基づいて、意味論における複雑な相互作用をエンコードし、大域構造を保存するために意味グラフを生成する。 さらに,事前設定よりも類似度を最適化する新しい多測度アテンション層を開発し,その類似度を尺度の統合により適応的に評価できるようにする。 これらのグラフはgnnと融合され、半教師付き分類目的に向かって最適化される。 6つの実世界のデータセットに対する大規模な実験とアブレーション研究により,提案モデルの有効性と各成分の寄与が明らかに示された。

Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
翻訳日:2022-12-06 18:09:56 公開日:2022-12-04
# 正弦波ニューラルネットワークの理解

Understanding Sinusoidal Neural Networks ( http://arxiv.org/abs/2212.01833v1 )

ライセンス: Link先を確認
Tiago Novello(参考訳) 本研究では,正弦波ニューラルネットを活性化関数として用いる多層パーセプトロンネットワークの表現能力について検討する。 このようなネットワークの層構成が情報をコンパクト化することを示す。 そこで本研究では,ネットワークの第1層重みの線形結合によって与えられる多数の新しい周波数からなるサイネの和として正弦波層の組成が膨張することを示す。 我々は、対応する振幅をベッセル関数の項で表現し、それらの上界を与え、その結果の近似を制御できる。

In this work, we investigate the representation capacity of multilayer perceptron networks that use the sine as activation function - sinusoidal neural networks. We show that the layer composition in such networks compacts information. For this, we prove that the composition of sinusoidal layers expands as a sum of sines consisting of a large number of new frequencies given by linear combinations of the weights of the network's first layer. We provide the expression of the corresponding amplitudes in terms of the Bessel functions and give an upper bound for them that can be used to control the resulting approximation.
翻訳日:2022-12-06 18:09:37 公開日:2022-12-04
# 分類と回帰問題におけるインスタンスハードネスの特徴化

Characterizing instance hardness in classification and regression problems ( http://arxiv.org/abs/2212.01897v1 )

ライセンス: Link先を確認
Gustavo P. Torquette and Victor S. Nunes and Pedro Y. A. Paiva and Louren\c{c}o B. C. Neto and Ana C. Lorena(参考訳) 機械学習(ML)文学における最近の研究は、どの観察がどのラベルを正確に予測することが最も困難であるかを評価するのに有用であることを示した。 このようなインスタンスを特定することで、対処すべき品質上の問題があるかどうかを検査することができる。 観察の難易度に基づく学習戦略も考案できる。 本稿では,データセットのどのインスタンスが,そのラベルを正確に予測することが最も難しいか,なぜそれがそうであるのかを特徴付けることを目的としたメタ機能セット,すなわちインスタンスのハードネス尺度を提案する。 分類問題と回帰問題の両方が考慮される。 複雑さのレベルが異なる合成データセットを構築し、分析する。 すべての実装を含むPythonパッケージも提供されている。

Some recent pieces of work in the Machine Learning (ML) literature have demonstrated the usefulness of assessing which observations are hardest to have their label predicted accurately. By identifying such instances, one may inspect whether they have any quality issues that should be addressed. Learning strategies based on the difficulty level of the observations can also be devised. This paper presents a set of meta-features that aim at characterizing which instances of a dataset are hardest to have their label predicted accurately and why they are so, aka instance hardness measures. Both classification and regression problems are considered. Synthetic datasets with different levels of complexity are built and analyzed. A Python package containing all implementations is also provided.
翻訳日:2022-12-06 18:09:29 公開日:2022-12-04
# 大規模生成言語モデルを用いたオートマトンによるタスク知識表現の学習

Learning Automata-Based Task Knowledge Representation from Large-Scale Generative Language Models ( http://arxiv.org/abs/2212.01944v1 )

ライセンス: Link先を確認
Yunhao Yang, Jean-Rapha\"el Gaglione, Ufuk Topcu(参考訳) オートマトンに基づく表現は、逐次的な意思決定における制御と計画において重要な役割を果たすが、オートマトンを構築するための高度なタスク知識を得ることは、しばしば困難である。 大規模生成言語モデル(GLM)はタスク知識を自動抽出するのに役立つが、GLMからのテキスト出力はシーケンシャルな意思決定では直接利用できない。 タスクゴールの簡単な記述から有限状態オートマトン(FSA)で表される高レベルなタスク知識を得るGLM2FSAという新しいアルゴリズムを提案することでこの問題を解決する。 GLM2FSAは、タスク知識をテキスト形式でGLMに送信し、テキスト知識を表現するためのFSAを構築する。 このアルゴリズムはテキストと自動表現のギャップを埋め、構築されたFSAはシーケンシャルな意思決定で直接利用できる。 GLM2FSAは、大規模なGLMによって生成されたテキストに符号化された知識を表現するために、FSAの構築方法を示す。

Automata-based representations play an important role in control and planning in sequential decision-making, but obtaining high-level task knowledge for building automata is often difficult. Although large-scale generative language models (GLMs) can help automatically distill task knowledge, the textual outputs from GLMs are not directly utilizable in sequential decision-making. We resolve this problem by proposing a novel algorithm named GLM2FSA, which obtains high-level task knowledge, represented in a finite state automaton (FSA), from a given brief description of the task goal. GLM2FSA sends queries to a GLM for task knowledge in textual form and then builds a FSA to represent the textual knowledge. This algorithm fills the gap between text and automata-based representations, and the constructed FSA can be directly utilized in sequential decision-making. We provide examples to demonstrate how GLM2FSA constructs FSAs to represent knowledge encoded in the texts generated by the large-scale GLMs.
翻訳日:2022-12-06 18:01:42 公開日:2022-12-04
# Twitter知覚分析のためのLSTMモデル

An LSTM model for Twitter Sentiment Analysis ( http://arxiv.org/abs/2212.01791v1 )

ライセンス: Link先を確認
Md Parvez Mollah(参考訳) Twitterのようなソーシャルメディア上の感情分析は、組織や個人に対して、彼らとその競合に対する公衆の感情を監視する効果的な方法を提供する。 その結果,感情分析は重要かつ困難な課題となっている。 この研究で、私たちは7つの公開公開および手動で利用可能なtwitterセンチメントデータセットを収集しました。 収集したデータセットから、新たなトレーニングとテストデータセットを作成します。 我々は、ツイートの感情を分類し、新しいデータセットでモデルを評価するLSTMモデルを開発した。

Sentiment analysis on social media such as Twitter provides organizations and individuals an effective way to monitor public emotions towards them and their competitors. As a result, sentiment analysis has become an important and challenging task. In this work, we have collected seven publicly available and manually annotated twitter sentiment datasets. We create a new training and testing dataset from the collected datasets. We develop an LSTM model to classify sentiment of a tweet and evaluate the model with the new dataset.
翻訳日:2022-12-06 17:50:07 公開日:2022-12-04
# CSTAR: 対向ロバスト性を持つコンパクトかつ安定なディープニューラルネットワークを目指して

CSTAR: Towards Compact and STructured Deep Neural Networks with Adversarial Robustness ( http://arxiv.org/abs/2212.01957v1 )

ライセンス: Link先を確認
Huy Phan, Miao Yin, Yang Sui, Bo Yuan, Saman Zonouz(参考訳) ディープニューラルネットワーク(DNN)のモデル圧縮とモデル防御について,大規模かつ個別に研究されている。 実用的応用におけるモデルコンパクト性とロバスト性の組み合わせを考慮して、スパースニューラルネットワークの敵対的ロバスト性を改善するためのいくつかの先行研究が進められている。 しかし, 流出作業により得られた構造的スパースモデルは, 良性および頑健性の両方において深刻な性能劣化を被り, コンパクトDNNの頑健性と構造性との間には難易度が生じる。 この問題に対処するため,本論文では,低ランクのコンパクト性,高安定度,高逆ロバスト性を目標とするDNNモデルに同時に適用可能なCSTARを提案する。 同じフレームワーク内で低ランク性とロバスト性要件を定式化し、そのランクをグローバルに決定することにより、圧縮dnnは高い圧縮性能と強力な敵対的ロバスト性を同時に達成することができる。 異なるデータセット上での様々なDNNモデルの評価は、CSTARの有効性を示す。 CSTARは、最先端のロバストな構造化プルーニング法と比較すると、常に優れた性能を示している。 例えば、CIFAR-10でResNet-18を圧縮すると、CSTARはそれぞれ20.07%と1.91%の改善を達成できる。 Imagenet上で16倍圧縮比のResNet-18を圧縮するために、CSTARは既存の頑丈な構造化プルーニング法と比較して8.58%の良性精度ゲインと4.27%の堅牢な精度ゲインを得ることができる。

Model compression and model defense for deep neural networks (DNNs) have been extensively and individually studied. Considering the co-importance of model compactness and robustness in practical applications, several prior works have explored to improve the adversarial robustness of the sparse neural networks. However, the structured sparse models obtained by the exiting works suffer severe performance degradation for both benign and robust accuracy, thereby causing a challenging dilemma between robustness and structuredness of the compact DNNs. To address this problem, in this paper, we propose CSTAR, an efficient solution that can simultaneously impose the low-rankness-based Compactness, high STructuredness and high Adversarial Robustness on the target DNN models. By formulating the low-rankness and robustness requirement within the same framework and globally determining the ranks, the compressed DNNs can simultaneously achieve high compression performance and strong adversarial robustness. Evaluations for various DNN models on different datasets demonstrate the effectiveness of CSTAR. Compared with the state-of-the-art robust structured pruning methods, CSTAR shows consistently better performance. For instance, when compressing ResNet-18 on CIFAR-10, CSTAR can achieve up to 20.07% and 11.91% improvement for benign accuracy and robust accuracy, respectively. For compressing ResNet-18 with 16x compression ratio on Imagenet, CSTAR can obtain 8.58% benign accuracy gain and 4.27% robust accuracy gain compared to the existing robust structured pruning method.
翻訳日:2022-12-06 17:26:43 公開日:2022-12-04
# マルチモーダルモデルのゼロショット一般化とロバスト性の改善

Improving Zero-shot Generalization and Robustness of Multi-modal Models ( http://arxiv.org/abs/2212.01758v1 )

ライセンス: Link先を確認
Yunhao Ge, Jie Ren, Yuxiao Wang, Andrew Gallagher, Ming-Hsuan Yang, Laurent Itti, Hartwig Adam, Balaji Lakshminarayanan, Jiaping Zhao(参考訳) CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著なパフォーマンスを示しており、そのゼロショットの一般化能力は特にエキサイティングである。 これらのモデルの上位5のゼロショットアキュラティは極めて高いが、上位1アキュラティはずっと低い(場合によっては25%以上のギャップ)。 本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。 まず,複数のプロンプトと画像変換の一貫性を計測することにより,top-1予測が誤りである可能性のある画像を特定するための簡易かつ効率的なゼロショットポストホック手法を開発した。 提案手法は,選択予測タスクにおいてmax logitベースラインよりも高い精度で誤りを予測できることを示す。 次に,wordnet階層を用いて,このような不確実性画像の精度を向上させるための簡易かつ効率的な方法を提案する。具体的には,親子を意味ラベル階層から取り込むことにより,元のクラスを補完し,テキストのpromtに付加する。 5つの異なるImageNetベースのデータセットを用いて,CLIPモデルとLiTモデルの両方で実験を行った。 CLIPでは、不確実なサブセットでは17.13%、ImageNet検証セットでは3.6%の精度でトップ1の精度が向上する。 また,この手法は,imagenetシフトデータセットやlitなどのモデルアーキテクチャにまたがって改善されることを示した。 提案手法はハイパーパラメータフリーで,追加のモデルトレーニングを必要とせず,他の大規模マルチモーダルアーキテクチャにも容易に拡張できる。

Multi-modal image-text models such as CLIP and LiT have demonstrated impressive performance on image classification benchmarks and their zero-shot generalization ability is particularly exciting. While the top-5 zero-shot accuracies of these models are very high, the top-1 accuracies are much lower (over 25% gap in some cases). We investigate the reasons for this performance gap and find that many of the failure cases are caused by ambiguity in the text prompts. First, we develop a simple and efficient zero-shot post-hoc method to identify images whose top-1 prediction is likely to be incorrect, by measuring consistency of the predictions w.r.t. multiple prompts and image transformations. We show that our procedure better predicts mistakes, outperforming the popular max logit baseline on selective prediction tasks. Next, we propose a simple and efficient way to improve accuracy on such uncertain images by making use of the WordNet hierarchy; specifically we augment the original class by incorporating its parent and children from the semantic label hierarchy, and plug the augmentation into text promts. We conduct experiments on both CLIP and LiT models with five different ImageNet-based datasets. For CLIP, our method improves the top-1 accuracy by 17.13% on the uncertain subset and 3.6% on the entire ImageNet validation set. We also show that our method improves across ImageNet shifted datasets and other model architectures such as LiT. Our proposed method is hyperparameter-free, requires no additional model training and can be easily scaled to other large multi-modal architectures.
翻訳日:2022-12-06 17:18:00 公開日:2022-12-04
# 自己管理型オートフロー

Self-supervised AutoFlow ( http://arxiv.org/abs/2212.01762v1 )

ライセンス: Link先を確認
Hsin-Ping Huang, Charles Herrmann, Junhwa Hur, Erika Lu, Kyle Sargent, Austin Stone, Ming-Hsuan Yang, Deqing Sun(参考訳) 最近のautoflowは、光学フローのトレーニングセットを学習する有望な結果を示しているが、対象領域の基底真理ラベルを検索メトリックを計算する必要がある。 地上の真理検索指標と自己監督的損失との間には強い相関関係がみられ, 地上の真理ラベルを使わずに実世界のビデオを扱うための自己監督型AutoFlowを導入する。 自己監督的損失を検索指標として、自己監督型AutoFlowは、地上真実が利用できるSintelやKITTIのAutoFlowと同等に動作し、現実世界のDAVISデータセットでより優れた性能を発揮する。 さらに,自己教師型AutoFlowを(半)教師型設定で活用し,最先端技術に対する競争結果を得る。

Recently, AutoFlow has shown promising results on learning a training set for optical flow, but requires ground truth labels in the target domain to compute its search metric. Observing a strong correlation between the ground truth search metric and self-supervised losses, we introduce self-supervised AutoFlow to handle real-world videos without ground truth labels. Using self-supervised loss as the search metric, our self-supervised AutoFlow performs on par with AutoFlow on Sintel and KITTI where ground truth is available, and performs better on the real-world DAVIS dataset. We further explore using self-supervised AutoFlow in the (semi-)supervised setting and obtain competitive results against the state of the art.
翻訳日:2022-12-06 17:17:34 公開日:2022-12-04
# 合成境界:弱い監視対象検出のための境界対応自己整合性フレームワーク

Synthesize Boundaries: A Boundary-aware Self-consistent Framework for Weakly Supervised Salient Object Detection ( http://arxiv.org/abs/2212.01764v1 )

ライセンス: Link先を確認
Binwei Xu, Haoran Liang, Ronghua Liang, Peng Chen(参考訳) 完全教師付きサルエントオブジェクト検出(SOD)は、ピクセル単位のアノテーションによる高価で時間を要するデータに基づいてかなり進歩している。 近年,性能を維持しながらラベル付け負担を軽減するため,スクリブル方式のSOD法が提案されている。 しかし、エッジ情報に欠けるスクリブルアノテーションから正確な境界の詳細を学ぶことは依然として困難である。 本稿では, 補助データを導入することなく, 設計した合成画像とラベルから正確な境界を学習することを提案する。 合成画像は、サリエントオブジェクトの実凹領域をシミュレートする合成凹領域を挿入することにより境界情報を生成する。 さらに,グローバル積分分枝 (gib) と境界認識分枝 (bab) からなる,サリエンシー検出器を訓練する新しい自己整合フレームワークを提案する。 GIBは、入力が元のイメージである統合正当性オブジェクトを識別することを目的としている。 BABは、入力が合成画像である正確な境界の予測を支援することを目指している。 これら2つの枝は自己整合損失を介して接続され、塩分検出器が塩分のある物体を識別しながら正確な境界を予測できるように導かれる。 5つのベンチマークによる実験結果から,本手法は弱教師付きSOD法よりも優れ,完全教師付きSOD法とのギャップをさらに狭めることが示された。

Fully supervised salient object detection (SOD) has made considerable progress based on expensive and time-consuming data with pixel-wise annotations. Recently, to relieve the labeling burden while maintaining performance, some scribble-based SOD methods have been proposed. However, learning precise boundary details from scribble annotations that lack edge information is still difficult. In this paper, we propose to learn precise boundaries from our designed synthetic images and labels without introducing any extra auxiliary data. The synthetic image creates boundary information by inserting synthetic concave regions that simulate the real concave regions of salient objects. Furthermore, we propose a novel self-consistent framework that consists of a global integral branch (GIB) and a boundary-aware branch (BAB) to train a saliency detector. GIB aims to identify integral salient objects, whose input is the original image. BAB aims to help predict accurate boundaries, whose input is the synthetic image. These two branches are connected through a self-consistent loss to guide the saliency detector to predict precise boundaries while identifying salient objects. Experimental results on five benchmarks demonstrate that our method outperforms the state-of-the-art weakly supervised SOD methods and further narrows the gap with the fully supervised methods.
翻訳日:2022-12-06 17:17:18 公開日:2022-12-04
# 3次元物体を用いた自己監督単眼深度推定

3D Object Aided Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2212.01768v1 )

ライセンス: Link先を確認
Songlin Wei, Guodong Chen, Wenzheng Chi, Zhenhua Wang and Lining Sun(参考訳) 単眼深度推定は、ロボットビジョン、自律運転、三次元シーン理解などの分野で積極的に研究されている。 色画像のシーケンスが与えられると、構造から動き(sfm)の枠組みに基づく教師なし学習手法は、深度とカメラの相対的なポーズを同時に予測する。 しかし、シーン内で動的に動く物体は静的世界仮定に反し、動的物体の深さが不正確な結果となる。 本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。 具体的には、まず画像中の3dオブジェクトを検出し、カメラの動きでモデル化する硬い背景に対応する静的ピクセルを残しながら、検出されたオブジェクトポーズと動的ピクセルのピクセル単位の対応を構築する。 このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。 さらに、物体は絶対スケールの立方体として検出され、単眼に固有のスケール曖昧性問題を取り除くために用いられる。 KITTI深度データセットの実験により,本手法は深度推定のための最先端性能を実現する。 さらに、深度、カメラモーション、オブジェクトポーズのジョイントトレーニングにより、モノクロ3Dオブジェクト検出性能も向上する。 私たちの知る限りでは、これは単眼の3dオブジェクト検出ネットワークを自己監督で微調整できる最初の仕事です。

Monocular depth estimation has been actively studied in fields such as robot vision, autonomous driving, and 3D scene understanding. Given a sequence of color images, unsupervised learning methods based on the framework of Structure-From-Motion (SfM) simultaneously predict depth and camera relative pose. However, dynamically moving objects in the scene violate the static world assumption, resulting in inaccurate depths of dynamic objects. In this work, we propose a new method to address such dynamic object movements through monocular 3D object detection. Specifically, we first detect 3D objects in the images and build the per-pixel correspondence of the dynamic pixels with the detected object pose while leaving the static pixels corresponding to the rigid background to be modeled with camera motion. In this way, the depth of every pixel can be learned via a meaningful geometry model. Besides, objects are detected as cuboids with absolute scale, which is used to eliminate the scale ambiguity problem inherent in monocular vision. Experiments on the KITTI depth dataset show that our method achieves State-of-The-Art performance for depth estimation. Furthermore, joint training of depth, camera motion and object pose also improves monocular 3D object detection performance. To the best of our knowledge, this is the first work that allows a monocular 3D object detection network to be fine-tuned in a self-supervised manner.
翻訳日:2022-12-06 17:16:55 公開日:2022-12-04
# coupalign: 画像セグメンテーション参照のための単語-ピクセルと文-マスクアライメントの結合

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation ( http://arxiv.org/abs/2212.01769v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang, Wei Ke(参考訳) 参照画像分割は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。 以前の研究は、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを直接調整することを学ぶが、同じオブジェクト内のピクセルのセマンティック一貫性を無視し、不完全なマスクと予測におけるローカライズエラーをもたらす。 この問題に対処するために,文マスクアライメントとワードピクセルアライメントを結合し,オブジェクトマスク制約を強制し,より正確なローカライゼーションとセグメンテーションを実現する,簡易かつ効果的なマルチレベルビジュアル・セマンティクスアライメント手法であるcoupalignを提案する。 特に、ワード・ピクセルアライメント(wpa)モジュールは、視覚および言語エンコーダの中間層において、言語およびピクセルレベルの特徴を早期に融合する。 ワードピクセル整列埋め込みに基づいて、可能なオブジェクトを仮説化するマスクの提案セットを生成する。 次に、文マスクアライメント(sma)モジュールにおいて、参照対象を局所化する文埋め込みによりマスクを重み付け、最終的に投影して対象の画素を集約する。 2つのアライメントモジュールの学習をさらに強化するために、前景と背景画素を対比するように補助的損失を設計する。 階層的にピクセルとマスクを言語的特徴に合わせることで、CoupAlignは視覚的および意味的なレベルでピクセルのコヒーレンスをキャプチャし、より正確な予測を生成する。 一般的なデータセット(RefCOCOやG-Refなど)に対する大規模な実験により,我々の手法は,RefCOCOの検証とテストセットにおける約2%のoIoUの増加など,最先端の手法よりも一貫した改善を実現していることが示された。 特にCoupAlignは、同じクラスの複数のオブジェクトとターゲットを区別する優れた能力を持っている。

Referring image segmentation aims at localizing all pixels of the visual objects described by a natural language sentence. Previous works learn to straightforwardly align the sentence embedding and pixel-level embedding for highlighting the referred objects, but ignore the semantic consistency of pixels within the same object, leading to incomplete masks and localization errors in predictions. To tackle this problem, we propose CoupAlign, a simple yet effective multi-level visual-semantic alignment method, to couple sentence-mask alignment with word-pixel alignment to enforce object mask constraint for achieving more accurate localization and segmentation. Specifically, the Word-Pixel Alignment (WPA) module performs early fusion of linguistic and pixel-level features in intermediate layers of the vision and language encoders. Based on the word-pixel aligned embedding, a set of mask proposals are generated to hypothesize possible objects. Then in the Sentence-Mask Alignment (SMA) module, the masks are weighted by the sentence embedding to localize the referred object, and finally projected back to aggregate the pixels for the target. To further enhance the learning of the two alignment modules, an auxiliary loss is designed to contrast the foreground and background pixels. By hierarchically aligning pixels and masks with linguistic features, our CoupAlign captures the pixel coherence at both visual and semantic levels, thus generating more accurate predictions. Extensive experiments on popular datasets (e.g., RefCOCO and G-Ref) show that our method achieves consistent improvements over state-of-the-art methods, e.g., about 2% oIoU increase on the validation and testing set of RefCOCO. Especially, CoupAlign has remarkable ability in distinguishing the target from multiple objects of the same class.
翻訳日:2022-12-06 17:16:33 公開日:2022-12-04
# 領域一般化拡散モデルによる画像の劣化

Image Deblurring with Domain Generalizable Diffusion Models ( http://arxiv.org/abs/2212.01789v1 )

ライセンス: Link先を確認
Mengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, Peyman Milanfar(参考訳) DPM(Diffusion Probabilistic Models)は近年,画像の劣化に用いられている。 DPMは、結合したぼやけた入力に基づいて、ガウスノイズを高品質な画像にマッピングする確率的デノナイジングプロセスによって訓練される。 高品質に生成されたサンプルにもかかわらず、画像条件付き拡散確率モデル(icDPM)は、実世界の見えない画像(ドメイン外)に対する潜在的に不明確な堅牢性を持つ合成ペアトレーニングデータ(ドメイン内)に依存している。 本研究では,デブラリングにおけるicdpmの一般化について検討し,アーティファクトを著しく軽減するための簡易かつ効果的なガイダンスを提案し,分散性能を向上させる。 特に,入力画像から複数の領域を一般化可能な表現を抽出し,基礎となる画像構造を保ちながらドメイン固有情報を除去する手法を提案する。 表現は、一般化を改善する追加のガイダンスとして条件拡散モデルの特徴マップに追加される。 ベンチマークでは,外部および多種多様なテストセットに単一データセットのトレーニングモデルを適用することで,分散性能に重点を置きます。 提案手法の有効性は,標準のICDPMに対する改良と,既存の手法と比較して知覚品質および競争歪指標に対する最先端性能によって実証される。

Diffusion Probabilistic Models (DPMs) have recently been employed for image deblurring. DPMs are trained via a stochastic denoising process that maps Gaussian noise to the high-quality image, conditioned on the concatenated blurry input. Despite their high-quality generated samples, image-conditioned Diffusion Probabilistic Models (icDPM) rely on synthetic pairwise training data (in-domain), with potentially unclear robustness towards real-world unseen images (out-of-domain). In this work, we investigate the generalization ability of icDPMs in deblurring, and propose a simple but effective guidance to significantly alleviate artifacts, and improve the out-of-distribution performance. Particularly, we propose to first extract a multiscale domain-generalizable representation from the input image that removes domain-specific information while preserving the underlying image structure. The representation is then added into the feature maps of the conditional diffusion model as an extra guidance that helps improving the generalization. To benchmark, we focus on out-of-distribution performance by applying a single-dataset trained model to three external and diverse test sets. The effectiveness of the proposed formulation is demonstrated by improvements over the standard icDPM, as well as state-of-the-art performance on perceptual quality and competitive distortion metrics compared to existing methods.
翻訳日:2022-12-06 17:15:54 公開日:2022-12-04
# プロンプティングによる制御可能な画像キャプション

Controllable Image Captioning via Prompting ( http://arxiv.org/abs/2212.01803v1 )

ライセンス: Link先を確認
Ning Wang, Jiahao Xie, Jihao Wu, Mingbo Jia, Linlin Li(参考訳) 画像キャプションの顕著な進歩にもかかわらず、既存のキャプションは一般的に、望まれるイメージキャプションを生成するためのコントロール可能な能力が欠如している。 本稿では、統一モデルが多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。 このような制御可能な能力は、画像キャプションフレームワークにプロンプト学習を埋め込むことによって実現される。 具体的には、訓練済みの画像キャプションを微調整する一連のプロンプトを設計する。 これらのプロンプトにより、モデルは各ドメインのパフォーマンス低下を伴わずに、異なるドメインのスタイル化されたデータを統合トレーニングのために吸収することができる。 さらに、連続語埋め込み空間における学習可能なベクトルによるプロンプトを最適化し、ヒューリスティックなプロンプトエンジニアリングを回避し、優れた性能を示す。 推測段階では,提案モデルでは,対応するプロンプトを選択することで,所望のスタイライゼーションキャプションを生成することができる。 大規模実験により提案手法の可制御性を検証する。 特に,COCO Karpathy split と TextCaps を含む2種類の画像キャプションベンチマークにおいて,統一モデルによる優れた性能を実現した。

Despite the remarkable progress of image captioning, existing captioners typically lack the controllable capability to generate desired image captions, e.g., describing the image in a rough or detailed manner, in a factual or emotional view, etc. In this paper, we show that a unified model is qualified to perform well in diverse domains and freely switch among multiple styles. Such a controllable capability is achieved by embedding the prompt learning into the image captioning framework. To be specific, we design a set of prompts to fine-tune the pre-trained image captioner. These prompts allow the model to absorb stylized data from different domains for joint training, without performance degradation in each domain. Furthermore, we optimize the prompts with learnable vectors in the continuous word embedding space, avoiding the heuristic prompt engineering and meanwhile exhibiting superior performance. In the inference stage, our model is able to generate desired stylized captions by choosing the corresponding prompts. Extensive experiments verify the controllable capability of the proposed method. Notably, we achieve outstanding performance on two diverse image captioning benchmarks including COCO Karpathy split and TextCaps using a unified model.
翻訳日:2022-12-06 17:15:29 公開日:2022-12-04
# 階層的地形注意と多スケール降雨誘導による精密洪水予測に向けて

Towards Precise Flood Prediction via Hierachical Terrain Attention and Multi-Scale Rainfall Guidance ( http://arxiv.org/abs/2212.01819v1 )

ライセンス: Link先を確認
Feifei Wang, Yong Wang, Shaoqing Chen, Bing Li, Qidong Huang(参考訳) 気候の悪化に伴い、降雨による洪水現象が頻発している。 影響を軽減するため、最近の研究では、洪水を予測するために畳み込みニューラルネットワークやその他の変種が採用されている。 しかし,これらの手法は,地形の特徴や降雨パターンに含まれる高次情報を無視して,画素レベルの差を制約することで,水深マップの原画素を復元する。 そこで本稿では,地形の空間的特徴量に着目した階層的地形空間的注意を取り入れ,降水パターン情報の生成を広範囲に統合する多スケール降雨埋設モデルを構築した,gan型精密洪水予測フレームワークを提案する。 種々の降雨条件下でモデルに適応するため, 発電機と判別器の双方に降雨回帰損失を付加監督として活用する。 実漁獲量データセットの広範な評価は,降雨条件の異なる過去の技術を大きく上回る,本手法の優れた性能を示す。

With the deterioration of climate, the phenomenon of rain-induced flooding has become frequent. To mitigate its impact, recent works adopt convolutional neural networks or other variants to predict the floods. However, these methods directly force the model to reconstruct the raw pixels of water depth maps through constraining pixel-level differences, ignoring the high-level information contained in terrain features and rainfall patterns. To address this, we present a novel GAN-based framework for precise flood prediction, which incorporates hierarchical terrain spatial attention to help the model focus on spatially-salient areas of terrain features and constructs multi-scale rainfall embedding to extensively integrate rainfall pattern information into generation. To better adapt the model in various rainfall conditions, we leverage a rainfall regression loss for both the generator and the discriminator as additional supervision. Extensive evaluations on real catchment datasets demonstrate the superior performance of our method, which greatly surpasses the previous arts under different rainfall conditions.
翻訳日:2022-12-06 17:15:08 公開日:2022-12-04
# コントラスト内クラスタリングによる自己監督型画像量表現学習

Joint Self-Supervised Image-Volume Representation Learning with Intra-Inter Contrastive Clustering ( http://arxiv.org/abs/2212.01893v1 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Hoang Nguyen, Mai T. N. Truong, Tri Cao, Binh T. Nguyen, Nhat Ho, Paul Swoboda, Shadi Albarqouni, Pengtao Xie, Daniel Sonntag(参考訳) ディープネットワークのトレーニングのための完全な注釈付きサンプルで大規模な医療データセットを収集するのは、特に3Dボリュームデータにとって、極めて高価である。 最近の自己教師付き学習(ssl)のブレークスルーは、ラベルなしデータから特徴表現を学習することでラベル付きトレーニングサンプルの欠如を克服する機能を提供する。 しかし、現在の医療分野のssl技術のほとんどは、2d画像または3dボリューム用に設計されている。 実際には、2Dデータと3Dデータの両方を含む可能性のある、多数のソースからのラベルなしデータを完全に活用する能力を制限する。 さらに、これらの事前訓練されたネットワークの使用は、互換性のあるデータ次元を持つ下流タスクに制限される。 本稿では,2次元および3次元データモダリティの教師なし共同学習のための新しいフレームワークを提案する。 3Dボリュームから抽出した2D画像や2Dスライスを与えられた場合、異なるクラスに対する2Dコントラストクラスタリング問題に基づいてSSLタスクを構築する。 3dボリュームは、各スライスにベクトル埋め込みを計算し、トランスフォーマーの変形可能な自己アテンション機構を介して全体的特徴を組み立てることで活用され、3dボリューム内のスライス間の長距離依存性を組み込むことができる。 これらの全体的な特徴は、新しい3Dクラスタリング合意に基づくSSLタスクと、事前訓練された言語モデルにインスパイアされた埋め込み予測を定義するためにさらに活用される。 3次元脳セグメンテーション,肺結節検出,3次元心臓組織セグメンテーション,異常胸部x線検出などの下流課題の実験は,関節2次元および3次元sslアプローチの有効性を示している。 通常の2D Deep-ClusterV2 と SwAV を大きなマージンで改善するとともに,現代の2D と 3D SSL のアプローチを超越しています。

Collecting large-scale medical datasets with fully annotated samples for training of deep networks is prohibitively expensive, especially for 3D volume data. Recent breakthroughs in self-supervised learning (SSL) offer the ability to overcome the lack of labeled training samples by learning feature representations from unlabeled data. However, most current SSL techniques in the medical field have been designed for either 2D images or 3D volumes. In practice, this restricts the capability to fully leverage unlabeled data from numerous sources, which may include both 2D and 3D data. Additionally, the use of these pre-trained networks is constrained to downstream tasks with compatible data dimensions. In this paper, we propose a novel framework for unsupervised joint learning on 2D and 3D data modalities. Given a set of 2D images or 2D slices extracted from 3D volumes, we construct an SSL task based on a 2D contrastive clustering problem for distinct classes. The 3D volumes are exploited by computing vectored embedding at each slice and then assembling a holistic feature through deformable self-attention mechanisms in Transformer, allowing incorporating long-range dependencies between slices inside 3D volumes. These holistic features are further utilized to define a novel 3D clustering agreement-based SSL task and masking embedding prediction inspired by pre-trained language models. Experiments on downstream tasks, such as 3D brain segmentation, lung nodule detection, 3D heart structures segmentation, and abnormal chest X-ray detection, demonstrate the effectiveness of our joint 2D and 3D SSL approach. We improve plain 2D Deep-ClusterV2 and SwAV by a significant margin and also surpass various modern 2D and 3D SSL approaches.
翻訳日:2022-12-06 17:14:49 公開日:2022-12-04
# 指紋認証のための複数マーカの組み合わせ:優れたバイオセキュリティーネットワークを事例として

Combining multiple matchers for fingerprint verification: A case study in biosecure network of excellence ( http://arxiv.org/abs/2212.01906v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez-Aguilar, Hartwig Fronthaler, Klaus Kollreider, Javier Ortega-Garcia, Joaquin Gonzalez-Rodriguez, Josef Bigun(参考訳) 第1回バイオセキュリティ住宅ワークショップにおける指紋モダリティ実験について報告する。 指紋認証のための2つの参照システムが、2つの追加の非参照システムと共にテストされている。 これらのシステムは指紋処理の異なるアプローチに従っており、詳細に議論されている。 核融合実験 利用可能なシステムの異なる組み合わせについて述べる。 実験の結果,最善の認識戦略は,minutiaeに基づく測定と相関に基づく測定の両方を含むことがわかった。 融合実験では, 特徴抽出および/又はマッチングのための異種戦略に基づく融合系において, 最適相対改善が得られる。 2つ/3つ/4つのシステムの最良の組み合わせは、常に最良の個々のシステムを含んでいる。

We report on experiments for the fingerprint modality conducted during the First BioSecure Residential Workshop. Two reference systems for fingerprint verification have been tested together with two additional non-reference systems. These systems follow different approaches of fingerprint processing and are discussed in detail. Fusion experiments I volving different combinations of the available systems are presented. The experimental results show that the best recognition strategy involves both minutiae-based and correlation-based measurements. Regarding the fusion experiments, the best relative improvement is obtained when fusing systems that are based on heterogeneous strategies for feature extraction and/or matching. The best combinations of two/three/four systems always include the best individual systems whereas the best verification performance is obtained when combining all the available systems.
翻訳日:2022-12-06 17:14:20 公開日:2022-12-04
# デュアルラベル分布を用いた軽量顔魅力予測

Lightweight Facial Attractiveness Prediction Using Dual Label Distribution ( http://arxiv.org/abs/2212.01742v1 )

ライセンス: Link先を確認
Shu Liu, Enquan Huang, Yan Xu, Kexuan Wang, Xiaoyan Kui, Tao Lei, Hongying Meng(参考訳) 顔の魅力予測(FAP)は、人間の美的知覚に基づいて顔の魅力を自動的に評価することを目的としている。 ディープ畳み込みニューラルネットワークを使った従来の手法では性能が向上したが、その巨大なモデルは柔軟性の欠如につながった。 さらに、その多くはデータセットのフル活用に失敗しています。 本稿では,両ラベル分布と軽量設計を統合した新しいエンドツーエンドFAP手法を提案する。 データセットを最大限に利用するために、手動のレーティング、魅力スコア、標準偏差を明示的に集計して、魅力分布及び評価分布を含む二重ラベル分布を構成する。 このような分布と魅力スコアは、ラベル分布学習(ldl)パラダイムに基づいた共同学習枠組みに基づいて最適化されている。 軽量な設計では、データ処理を最小限に単純化し、MobileNetV2をバックボーンとして選択します。 2つのベンチマークデータセットで広範な実験が行われ、このアプローチは有望な結果を達成し、パフォーマンスと効率のバランスを取ることに成功しています。 アブレーション研究は、繊細に設計された学習モジュールが不可欠で相関していることを示している。 さらに, この手法は, 顔の魅力を知覚し, 魅力ある顔領域を捉え, セマンティックな予測を容易にすることができることを示す。

Facial attractiveness prediction (FAP) aims to assess the facial attractiveness automatically based on human aesthetic perception. Previous methods using deep convolutional neural networks have boosted the performance, but their giant models lead to a deficiency in flexibility. Besides, most of them fail to take full advantage of the dataset. In this paper, we present a novel end-to-end FAP approach integrating dual label distribution and lightweight design. To make the best use of the dataset, the manual ratings, attractiveness score, and standard deviation are aggregated explicitly to construct a dual label distribution, including the attractiveness distribution and the rating distribution. Such distributions, as well as the attractiveness score, are optimized under a joint learning framework based on the label distribution learning (LDL) paradigm. As for the lightweight design, the data processing is simplified to minimum, and MobileNetV2 is selected as our backbone. Extensive experiments are conducted on two benchmark datasets, where our approach achieves promising results and succeeds in striking a balance between performance and efficiency. Ablation studies demonstrate that our delicately designed learning modules are indispensable and correlated. Additionally, the visualization indicates that our approach is capable of perceiving facial attractiveness and capturing attractive facial regions to facilitate semantic predictions.
翻訳日:2022-12-06 17:05:34 公開日:2022-12-04
# 直線流による高速点雲生成

Fast Point Cloud Generation with Straight Flows ( http://arxiv.org/abs/2212.01747v1 )

ライセンス: Link先を確認
Lemeng Wu, Dilin Wang, Chengyue Gong, Xingchao Liu, Yunyang Xiong, Rakesh Ranjan, Raghuraman Krishnamoorthi, Vikas Chandra, Qiang Liu(参考訳) 拡散モデルはポイントクラウド生成の強力なツールとして登場した。 ノイズから高品質なサンプルを生成するための印象的なパフォーマンスを駆動する重要なコンポーネントは、何千ものステップで繰り返し発生する。 メリットはあるものの、学習手順の複雑さは応用を多くの3D現実世界に限定している。 この制限に対処するため,一ステップで優れた性能を示すモデルとして,PSF(Point Straight Flow)を提案する。 我々の考えは、曲線学習軌道を直線的な経路に最適化する標準拡散モデルの再構成に基づいている。 さらに, ストレートパスを1ステップに短縮し, 性能を損なうことなく蒸留戦略を考案し, 遅延制約のある3次元実世界のアプリケーションを実現する。 我々は,複数の3Dタスクの評価を行い,PSFが標準拡散モデルと相容れない性能を示し,他の効率的な3Dポイントクラウド生成手法よりも優れていることを示す。 低レイテンシ設定でのポイントクラウド補完やトレーニング不要なテキスト誘導生成といった現実世界のアプリケーションでは、PSFが好適に機能する。

Diffusion models have emerged as a powerful tool for point cloud generation. A key component that drives the impressive performance for generating high-quality samples from noise is iteratively denoise for thousands of steps. While beneficial, the complexity of learning steps has limited its applications to many 3D real-world. To address this limitation, we propose Point Straight Flow (PSF), a model that exhibits impressive performance using one step. Our idea is based on the reformulation of the standard diffusion model, which optimizes the curvy learning trajectory into a straight path. Further, we develop a distillation strategy to shorten the straight path into one step without a performance loss, enabling applications to 3D real-world with latency constraints. We perform evaluations on multiple 3D tasks and find that our PSF performs comparably to the standard diffusion model, outperforming other efficient 3D point cloud generation methods. On real-world applications such as point cloud completion and training-free text-guided generation in a low-latency setup, PSF performs favorably.
翻訳日:2022-12-06 17:05:15 公開日:2022-12-04
# KPT:接地ダイアログ生成のためのキーワード誘導事前学習

KPT: Keyword-guided Pre-training for Grounded Dialog Generation ( http://arxiv.org/abs/2212.01739v1 )

ライセンス: Link先を確認
Qi Zhu, Fei Mi, Zheng Zhang, Yasheng Wang, Yitong Li, Xin Jiang, Qun Liu, Xiaoyan Zhu, Minlie Huang(参考訳) 応答生成プロセスに外部知識を組み込むことは、より便利で信頼性の高いダイアログエージェントを構築するのに不可欠である。 しかし、知識に基づく会話の収集はコストがかかることが多く、様々な種類の知識をうまく一般化する接地ダイアログ生成のためのより良い事前学習モデルを求める。 本研究では,知識の余分なアノテーションを使わずに,接地ダイアログ生成のための新しい自己教師付き事前学習手法であるkptを提案する。 具体的には、事前訓練された言語モデルを用いて、ダイアログ内の最も不確実なトークンをキーワードとして抽出する。 これらのキーワードを用いて2種類の知識を構築し,知識接地応答生成モデルを事前学習し,(1)知識を忠実に接地すべき,(2)選択的に使用できる,という2つのシナリオを扱うことを目的とした。 前者の場合、接地知識は応答から抽出されたキーワードからなる。 後者の場合、基底知識は、同じダイアログ内の他の発話から抽出されたキーワードで拡張される。 ダイアログ自体から知識が抽出されるので、KPTは多種多様なダイアログデータに対して容易に実行することができる。 我々は3つのデータソース(オープンドメイン、タスク指向、会話型QA)を合計2.5Mの対話で検討した。 我々は,対話行為,知識グラフ,ペルソナ記述,ウィキペディアの文節など,数発の知識ベース生成タスクについて広範な実験を行った。 包括的実験と分析により,kptは様々な基礎知識を持つタスクにおいて,最先端の手法を一貫して上回っていることが示された。

Incorporating external knowledge into the response generation process is essential to building more helpful and reliable dialog agents. However, collecting knowledge-grounded conversations is often costly, calling for a better pre-trained model for grounded dialog generation that generalizes well w.r.t. different types of knowledge. In this work, we propose KPT (Keyword-guided Pre-Training), a novel self-supervised pre-training method for grounded dialog generation without relying on extra knowledge annotation. Specifically, we use a pre-trained language model to extract the most uncertain tokens in the dialog as keywords. With these keywords, we construct two kinds of knowledge and pre-train a knowledge-grounded response generation model, aiming at handling two different scenarios: (1) the knowledge should be faithfully grounded; (2) it can be selectively used. For the former, the grounding knowledge consists of keywords extracted from the response. For the latter, the grounding knowledge is additionally augmented with keywords extracted from other utterances in the same dialog. Since the knowledge is extracted from the dialog itself, KPT can be easily performed on a large volume and variety of dialogue data. We considered three data sources (open-domain, task-oriented, conversational QA) with a total of 2.5M dialogues. We conduct extensive experiments on various few-shot knowledge-grounded generation tasks, including grounding on dialog acts, knowledge graphs, persona descriptions, and Wikipedia passages. Our comprehensive experiments and analyses demonstrate that KPT consistently outperforms state-of-the-art methods on these tasks with diverse grounding knowledge.
翻訳日:2022-12-06 16:41:30 公開日:2022-12-04
# MiLMo:ミニリティ多言語事前学習言語モデル

MiLMo:Minority Multilingual Pre-trained Language Model ( http://arxiv.org/abs/2212.01779v1 )

ライセンス: Link先を確認
Hanru Shi, Sisi Liu, Xinhe Yu, Wugedele Bao, Yuan Sun, Xiaobing Zhao(参考訳) 事前訓練された言語モデルは、大規模な教師なしデータに基づいて訓練され、小さなラベル付きデータセットで微調整され、良好な結果が得られる。 複数の言語で事前訓練された言語モデルをトレーニングし、同時に複数の言語を理解することができる。 現在、事前学習されたモデルの研究は、主にリッチリソース言語に焦点を当てているが、マイノリティ言語のような低リソース言語に関する研究は少なく、パブリックな多言語事前学習言語モデルはマイノリティ言語ではうまく機能しない。 そこで本稿では,モンゴル語,チベット語,ウイグル語,カザフ語,韓国語などのマイノリティ言語タスクにおいて,milmoという多言語事前学習言語モデルを構築した。 マイノリティ言語におけるデータセットの不足を解消し、MiLMoモデルの有効性を検証するために、MITCと呼ばれる少数多言語テキスト分類データセットを構築し、各言語に対してワード2vecモデルを訓練する。 本稿では,テキスト分類タスクにおけるword2vecモデルと事前学習モデルを比較し,マイノリティ言語の下流タスク研究に最適な手法を提案する。 最終実験の結果から,事前学習モデルの性能はword2vecモデルよりも優れており,多言語テキストの分類において最良であることがわかった。 多言語事前学習言語モデル milmo, multilingual word2vec model, multilingual text classification dataset mitcはhttps://milmo.cmli-nlp.comで公開されている。

Pre-trained language models are trained on large-scale unsupervised data, and they can be fine-tuned on small-scale labeled datasets and achieve good results. Multilingual pre-trained language models can be trained on multiple languages and understand multiple languages at the same time. At present, the research on pre-trained models mainly focuses on rich-resource language, while there is relatively little research on low-resource languages such as minority languages, and the public multilingual pre-trained language model can not work well for minority languages. Therefore, this paper constructs a multilingual pre-trained language model named MiLMo that performs better on minority language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To solve the problem of scarcity of datasets on minority languages and verify the effectiveness of the MiLMo model, this paper constructs a minority multilingual text classification dataset named MiTC, and trains a word2vec model for each language. By comparing the word2vec model and the pre-trained model in the text classification task, this paper provides an optimal scheme for the downstream task research of minority languages. The final experimental results show that the performance of the pre-trained model is better than that of the word2vec model, and it has achieved the best results in minority multilingual text classification. The multilingual pre-trained language model MiLMo, multilingual word2vec model and multilingual text classification dataset MiTC are published on https://milmo.cmli-nlp.com.
翻訳日:2022-12-06 16:41:04 公開日:2022-12-04
# 制御可能な逆生成による対話安全のための高帰納的文脈の構築

Constructing Highly Inductive Contexts for Dialogue Safety through Controllable Reverse Generation ( http://arxiv.org/abs/2212.01810v1 )

ライセンス: Link先を確認
Zhexin Zhang, Jiale Cheng, Hao Sun, Jiawen Deng, Fei Mi, Yasheng Wang, Lifeng Shang, Minlie Huang(参考訳) 大規模な事前訓練された言語モデルは、有毒または偏見のあるコンテンツを容易に生成することができる。 このような有害な世代を検出するために、既存の手法はテンプレート、現実世界のデータ抽出、クラウドソーシングワーカー、自動生成に依存し、有害な世代を引き起こす可能性のある敵対的なコンテキストを構築する。 しかしながら、どのタイプのコンテキストが安全でない応答を誘発する可能性が高いかはまだ未検討である。 本稿では,コンテキスト毒性とコンテキストカテゴリ(例えば, \textit{profanity}, \textit{insult}, \textit{drugs}など)を特定する。 ) 応答生成において安全性の問題を引き起こす重要な要因が2つある。 そこで本研究では, カテゴリー, 毒性レベル, および生成したコンテキストの帰納率を制御できる柔軟性を持って, 与えられた応答を条件とした逆文脈を構成する方法である \emph{reverse generation} を提案する。 逆生成により、既存のBADデータセットを拡張し、12のカテゴリで120K以上の多様性と高帰納的コンテキストを含む新しいBAD+データセットを構築します。 我々は3つの一般的な事前学習された対話モデル(blender、dialogpt、plato2)をテストし、bad+が安全性の問題の多くを露呈できることを発見した。 さらに,BAD+は生成の安全性を大幅に向上させ,安全性向上の鍵となる要因を明らかにする。 コードとデータセットは \url{https://github.com/thu-coai/Reverse_Generation} で公開しています。

Large pretrained language models can easily produce toxic or biased content, which is prohibitive for practical use. In order to detect such toxic generations, existing methods rely on templates, real-world data extraction, crowdsourcing workers, or automatic generation to construct adversarial contexts that are likely to induce toxic generations. However, what type of context is more likely to induce unsafe responses is still under-explored. In this paper, we identify that context toxicity and context category (e.g., \textit{profanity}, \textit{insult}, \textit{drugs}, etc.) are two important factors to cause safety issues in response generation. Hence, we propose a method called \emph{reverse generation} to construct adversarial contexts conditioned on a given response, with the flexibility to control category, toxicity level, and inductivity of the generated contexts. Via reverse generation, we augment the existing BAD dataset and construct a new dataset BAD+ which contains more than 120K diverse and highly inductive contexts in 12 categories. We test three popular pretrained dialogue models (Blender, DialoGPT, and Plato2) and find that BAD+ can largely expose their safety problems. Furthermore, we show that BAD+ can greatly enhance the safety of generation and reveal the key factors of safety improvement. Our code and dataset is available at \url{https://github.com/thu-coai/Reverse_Generation}.
翻訳日:2022-12-06 16:40:37 公開日:2022-12-04
# 自己進化による効率的な言語モデルの事前学習と下流適応に向けて:SuperGLUEを事例として

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE ( http://arxiv.org/abs/2212.01853v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao, Xiaoou Tang and Dacheng Tao(参考訳) この技術レポートでは、SuperGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。 SuperGLUEは、質問応答、自然言語推論、単語感覚の曖昧さ、コア参照解決、推論を含む8つの難しい言語理解タスクを含む、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難しい。 [方法]事前訓練された言語モデル(PLM)のサイズを任意に増やすのではなく、我々の目的である。 1)特定のパラメータ予算(例えば6B)が与えられた入力事前学習データから知識を完全に抽出し、 2)この知識を効果的に下流タスクに転送する。 目的1を達成するために, PLMの自己進化学習を提案し, マスクすべき情報トークンを適切に予測し, 修正されたスムーズなラベル付きマスキング言語モデリング(MLM)プロセスを監督する。 目標2)については,基礎モデルと関連する下流タスクの知識を対象タスクに転送することにより,プロンプト転送技術を活用して低リソースタスクを改善する。 結果〕2022年10月8日にスーパーGLUEのリーダーボード上に座って,4/8タスクにおいて,最適化された事前学習と微調整を施した6B Vega法を平均91.3で達成した。

This technical report briefly describes our JDExplore d-team's Vega v2 submission on the SuperGLUE leaderboard. SuperGLUE is more challenging than the widely used general language understanding evaluation (GLUE) benchmark, containing eight difficult language understanding tasks, including question answering, natural language inference, word sense disambiguation, coreference resolution, and reasoning. [Method] Instead of arbitrarily increasing the size of a pretrained language model (PLM), our aim is to 1) fully extract knowledge from the input pretraining data given a certain parameter budget, e.g., 6B, and 2) effectively transfer this knowledge to downstream tasks. To achieve goal 1), we propose self-evolution learning for PLMs to wisely predict the informative tokens that should be masked, and supervise the masked language modeling (MLM) process with rectified smooth labels. For goal 2), we leverage the prompt transfer technique to improve the low-resource tasks by transferring the knowledge from the foundation model and related downstream tasks to the target task. [Results] According to our submission record (Oct. 2022), with our optimized pretraining and fine-tuning strategies, our 6B Vega method achieved new state-of-the-art performance on 4/8 tasks, sitting atop the SuperGLUE leaderboard on Oct. 8, 2022, with an average score of 91.3.
翻訳日:2022-12-06 16:40:10 公開日:2022-12-04
# OPUS-MTによる機械翻訳の民主化

Democratizing Machine Translation with OPUS-MT ( http://arxiv.org/abs/2212.01936v1 )

ライセンス: Link先を確認
J\"org Tiedemann, Mikko Aulamo, Daria Bakshandaeva, Michele Boggia, Stig-Arne Gr\"onroos, Tommi Nieminen, Alessandro Raganato, Yves Scherrer, Raul Vazquez, Sami Virpioja(参考訳) 本稿では,オープン機械翻訳モデルとツールの開発,エンドユーザーアプリケーション,開発プラットフォーム,プロフェッショナルワークフローへの統合に焦点をあてたOPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質の向上に関するミッションについて論じるとともに,モジュール型翻訳モデルの開発と,通常のデスクトップや小型デバイス上でのリアルタイム翻訳のための高速化されたコンパクトソリューションについて述べる。

This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
翻訳日:2022-12-06 16:39:44 公開日:2022-12-04
# 接地鍵-テキスト生成:Factual Open Ended Generationを目指して

Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation ( http://arxiv.org/abs/2212.01956v1 )

ライセンス: Link先を確認
Faeze Brahman, Baolin Peng, Michel Galley, Sudha Rao, Bill Dolan, Snigdha Chaturvedi, Jianfeng Gao(参考訳) 大規模な事前訓練された言語モデルは、最近、従来のデータからテキストへの生成を超える様々なタスクに取り組むために、オープンエンドな生成フレームワーク(例えば、プロンプトからテキストへのNLG)を有効にした。 このフレームワークはより一般的なものであるが、過小評価されており、しばしば実世界の使用を制限する制御可能性の欠如に繋がる。 提案するタスクは,キーのセットと接地文が与えられたエンティティに関する事実記述を生成することである。 この課題に対処するため、EntDeGenと呼ばれる新しいデータセットを導入しました。 近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。 当社のEntDescriptorモデルは強力なローダを備えており、有用なパスを取得し、エンティティ記述を生成する。 実験の結果,提案手法と人為的事実判断との間に,良好な相関(60.14)が得られた。 我々のランクは生成した記述の事実的正しさを著しく向上させた(15.95%と34.51%)。 最後に,本研究では,キーと接地の組み合わせの利点を強調する。

Large pre-trained language models have recently enabled open-ended generation frameworks (e.g., prompt-to-text NLG) to tackle a variety of tasks going beyond the traditional data-to-text generation. While this framework is more general, it is under-specified and often leads to a lack of controllability restricting their real-world usage. We propose a new grounded keys-to-text generation task: the task is to generate a factual description about an entity given a set of guiding keys, and grounding passages. To address this task, we introduce a new dataset, called EntDeGen. Inspired by recent QA-based evaluation measures, we propose an automatic metric, MAFE, for factual correctness of generated descriptions. Our EntDescriptor model is equipped with strong rankers to fetch helpful passages and generate entity descriptions. Experimental result shows a good correlation (60.14) between our proposed metric and human judgments of factuality. Our rankers significantly improved the factual correctness of generated descriptions (15.95% and 34.51% relative gains in recall and precision). Finally, our ablation study highlights the benefit of combining keys and groundings.
翻訳日:2022-12-06 16:39:35 公開日:2022-12-04
# 適応型GANを用いた脳腫瘍合成データ生成

Brain Tumor Synthetic Data Generation with Adaptive StyleGANs ( http://arxiv.org/abs/2212.01772v1 )

ライセンス: Link先を確認
Usama Tariq, Rizwan Qureshi, Anas Zafar, Danyal Aftab, Jia Wu, Tanvir Alam, Zubair Shah, Hazrat Ali(参考訳) 生成モデルは長年にわたって非常に成功し、合成データ生成に大きな注目を集めてきた。 ディープラーニングモデルはますます複雑になりつつあるので、正確に実行するには大量のデータが必要である。 医療画像解析において、データプライバシ、データの多様性の欠如、不均一なデータ分布に関する問題により、利用可能なデータが制限されるため、このような生成モデルは重要な役割を果たす。 本稿では,脳腫瘍のMRI画像を生成する手法について述べる。 stylegan2 と ada 法を併用し, 既存の手法に比べてはるかに少ないトレーニングデータを用いながら, 高画質脳mri を腫瘍で生成した。 転送学習には3つの事前学習モデルを用いる。 その結果, 提案手法は脳腫瘍の分布を学習できることがわかった。 さらに、このモデルは、小さなサンプルサイズの問題を制限することができる腫瘍を持つ高品質の合成脳MRIを生成することができる。 このアプローチは、腫瘍のある現実的な脳MRIを生成することで、限られたデータ可用性に対処することができる。 コードは以下の通りである。 ~\url{https://github.com/rizwanqureshi123/Brain-Tumor-Synthetic-Data}。

Generative models have been very successful over the years and have received significant attention for synthetic data generation. As deep learning models are getting more and more complex, they require large amounts of data to perform accurately. In medical image analysis, such generative models play a crucial role as the available data is limited due to challenges related to data privacy, lack of data diversity, or uneven data distributions. In this paper, we present a method to generate brain tumor MRI images using generative adversarial networks. We have utilized StyleGAN2 with ADA methodology to generate high-quality brain MRI with tumors while using a significantly smaller amount of training data when compared to the existing approaches. We use three pre-trained models for transfer learning. Results demonstrate that the proposed method can learn the distributions of brain tumors. Furthermore, the model can generate high-quality synthetic brain MRI with a tumor that can limit the small sample size issues. The approach can addresses the limited data availability by generating realistic-looking brain MRI with tumors. The code is available at: ~\url{https://github.com/rizwanqureshi123/Brain-Tumor-Synthetic-Data}.
翻訳日:2022-12-06 16:24:06 公開日:2022-12-04
# 生成前訓練によるメロディ転写

Melody transcription via generative pre-training ( http://arxiv.org/abs/2212.01884v1 )

ライセンス: Link先を確認
Chris Donahue, John Thickstun, Percy Liang(参考訳) 音楽知覚においてメロディが果たす中心的な役割にもかかわらず、任意の音楽録音に存在するメロディの音符を確実に検出することは、音楽情報検索においてオープンな課題である。 メロディの書き起こしにおける重要な課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを扱う方法を構築することだ。 この課題に対処するために,広帯域音楽音声の生成モデルであるJukebox (Dhariwal et al. 2020) の表現を活用し,従来のスペクトログラムの特徴と比較してメロディの書き起こし性能を20ドル%向上させる。 メロディの書き起こしのもうひとつの障害は、トレーニングデータの欠如です - 私たちは、幅広い音楽のクラウドソースアノテーションから、50ドルのメロディの書き起こしを含む新しいデータセットを導出します。 生成前訓練とこのタスクのための新しいデータセットの組み合わせにより、メロディの書き起こしが最強のベースラインと比較して7,7$%向上する。 新たなメロディ書き起こし手法をビート検出,キー推定,コード認識のソリューションと組み合わせることで,人間の読みやすいリードシートを音楽オーディオから直接書き起こせるシステムであるシートセージを開発した。 オーディオサンプルはhttps://chrisdonahue.com/sheetsageとhttps://github.com/chrisdonahue/sheetsageにある。

Despite the central role that melody plays in music perception, it remains an open challenge in music information retrieval to reliably detect the notes of the melody present in an arbitrary music recording. A key challenge in melody transcription is building methods which can handle broad audio containing any number of instrument ensembles and musical styles - existing strategies work well for some melody instruments or styles but not all. To confront this challenge, we leverage representations from Jukebox (Dhariwal et al. 2020), a generative model of broad music audio, thereby improving performance on melody transcription by $20$% relative to conventional spectrogram features. Another obstacle in melody transcription is a lack of training data - we derive a new dataset containing $50$ hours of melody transcriptions from crowdsourced annotations of broad music. The combination of generative pre-training and a new dataset for this task results in $77$% stronger performance on melody transcription relative to the strongest available baseline. By pairing our new melody transcription approach with solutions for beat detection, key estimation, and chord recognition, we build Sheet Sage, a system capable of transcribing human-readable lead sheets directly from music audio. Audio examples can be found at https://chrisdonahue.com/sheetsage and code at https://github.com/chrisdonahue/sheetsage .
翻訳日:2022-12-06 16:21:54 公開日:2022-12-04
# マルチモーダル知識グラフ上のマルチモーダルパス融合を用いたクエリ駆動知識ベース補完

Query-Driven Knowledge Base Completion using Multimodal Path Fusion over Multimodal Knowledge Graph ( http://arxiv.org/abs/2212.01923v1 )

ライセンス: Link先を確認
Yang Peng and Daisy Zhe Wang(参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。 しかし、これらの知識ベースは非常に不完全であり、例えば、freebaseの70%以上の人は出生地を知らない。 そこで本研究では,非構造化情報と構造化情報のマルチモーダル融合による問合せ型知識ベース補完システムを提案する。 構造化されていない情報をwebと知識ベースに効果的に融合し、優れた性能を実現するため、本システムは質問応答と規則推論に基づくマルチモーダル知識グラフを構築する。 本稿では,マルチモーダル知識グラフの異なる経路に基づいて候補回答をランク付けし,質問応答,ルール推論,ベースライン融合アルゴリズムよりも優れた性能を実現するマルチモーダルパス融合アルゴリズムを提案する。 システム効率を向上させるために,クエリ駆動技術を用いてシステムの実行時間を短縮し,ユーザクエリに対する迅速な応答を提供する。 システムの有効性と効率を実証する大規模な実験が実施されている。

Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete, for example, over 70% of people in Freebase have no known place of birth. To solve this problem, we propose a query-driven knowledge base completion system with multimodal fusion of unstructured and structured information. To effectively fuse unstructured information from the Web and structured information in knowledge bases to achieve good performance, our system builds multimodal knowledge graphs based on question answering and rule inference. We propose a multimodal path fusion algorithm to rank candidate answers based on different paths in the multimodal knowledge graphs, achieving much better performance than question answering, rule inference and a baseline fusion algorithm. To improve system efficiency, query-driven techniques are utilized to reduce the runtime of our system, providing fast responses to user queries. Extensive experiments have been conducted to demonstrate the effectiveness and efficiency of our system.
翻訳日:2022-12-06 16:14:48 公開日:2022-12-04
# ディープニューラルネットワークの統計物理:最適チャネルへの初期化

Statistical Physics of Deep Neural Networks: Initialization toward Optimal Channels ( http://arxiv.org/abs/2212.01744v1 )

ライセンス: Link先を確認
Kangyu Weng, Aohua Cheng, Ziyang Zhang, Pei Sun, Yang Tian(参考訳) ディープラーニングでは、ニューラルネットワークは入力データとその表現の間のノイズチャネルとして機能する。 この視点は、情報伝達と表現において最適な性能を持つチャネルの構築を追求する深層学習と自然に関係している。 ネットワーク最適化における最適なチャネル特性の実現にかなりの努力が注がれているが、ニューラルネットワークが最適なチャネルに向けて初期化できる可能性について、しばしば見過ごされている。 我々の理論は、実験的な検証と一致し、この未知の可能性の根底にある一次力学を特定し、統計物理学と深層学習の本質的な関係を示唆している。 従来の平均ファイル近似を適用したニューラルネットワークを特徴付ける従来の理論とは異なり、この広範囲に応用された単純化スキームが、ニューラルネットワークを情報チャネルとして研究するのに有効ではないことを解析的に証明する。 このギャップを埋めるために、ニューラルネットワークにおける情報伝達の制限挙動を入力に強く仮定せずに特徴付けるための補正平均場フレームワークを開発する。 そこで本研究では,ニューラルネットワークが動的等長法で初期化されると,入力信号と伝搬信号の間で相互情報最大化が実現されることを示す解析理論を提案する。 これらの理論予測は実際のニューラルネットワークの実験によって検証され、有限サイズ効果に対する我々の理論の堅牢性が示唆される。 最後に,情報ボトルネック理論を用いて解析を行い,動的アイソメトリ,相互情報の最大化,深層学習におけるチャネル特性の正確な関係を確認する。

In deep learning, neural networks serve as noisy channels between input data and its representation. This perspective naturally relates deep learning with the pursuit of constructing channels with optimal performance in information transmission and representation. While considerable efforts are concentrated on realizing optimal channel properties during network optimization, we study a frequently overlooked possibility that neural networks can be initialized toward optimal channels. Our theory, consistent with experimental validation, identifies primary mechanics underlying this unknown possibility and suggests intrinsic connections between statistical physics and deep learning. Unlike the conventional theories that characterize neural networks applying the classic mean-filed approximation, we offer analytic proof that this extensively applied simplification scheme is not valid in studying neural networks as information channels. To fill this gap, we develop a corrected mean-field framework applicable for characterizing the limiting behaviors of information propagation in neural networks without strong assumptions on inputs. Based on it, we propose an analytic theory to prove that mutual information maximization is realized between inputs and propagated signals when neural networks are initialized at dynamic isometry, a case where information transmits via norm-preserving mappings. These theoretical predictions are validated by experiments on real neural networks, suggesting the robustness of our theory against finite-size effects. Finally, we analyze our findings with information bottleneck theory to confirm the precise relations among dynamic isometry, mutual information maximization, and optimal channel properties in deep learning.
翻訳日:2022-12-06 16:13:13 公開日:2022-12-04
# ランダム部分空間上の正規化EMM

Regularized ERM on random subspaces ( http://arxiv.org/abs/2212.01866v1 )

ライセンス: Link先を確認
Andrea Della Vecchia, Jaouad Mourtada, Ernesto De Vito, Lorenzo Rosasco(参考訳) 仮説空間は与えられた空間のランダム部分空間である古典的経験的リスク最小化の自然な拡張を研究する。 特に、データのランダムなサブセットにまたがるデータ依存部分空間を考慮し、カーネルメソッドに対するnystromアプローチの特別なケースとして復元する。 ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。 これらの統計計算トレードオフは、ロジスティック損失のような最小二乗損失と自己調和損失関数のために最近研究されている。 ここでは、これらの結果を、サポートベクトルマシンで使用されるヒンジ損失など、滑らかでないかもしれない凸リプシッツ損失関数に拡張する。 この統一分析には、高速なレートを達成するために、サブガウス入力のような異なる技術ツールを使用する新しい証明を開発する必要がある。 本研究の主目的は,学習の困難さによって異なる設定が存在することを示し,性能の低下を伴わずに計算効率を向上できることを示した。

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
翻訳日:2022-12-06 16:12:47 公開日:2022-12-04
# SplitFed Learning のセキュリティ分析

Security Analysis of SplitFed Learning ( http://arxiv.org/abs/2212.01716v1 )

ライセンス: Link先を確認
Momin Ahmad Khan, Virat Shejwalkar, Amir Houmansadr, Fatima Muhammad Anwar(参考訳) Split Learning(SL)とFederated Learning(FL)は、クライアントが他のクライアントやサーバとプライベートデータを共有しないことを許し、スマートヘルスケア、スマートシティ、スマート産業における広範なIoTアプリケーションに罰金を課すことによって、データのプライバシを維持する2つの著名な分散コラボレーティブ学習テクニックである。 以前の研究は、毒殺攻撃の形でflのセキュリティ脆弱性を広範囲に調査してきた。 これらの攻撃の効果を軽減するため、いくつかの防衛策も提案されている。 最近、両方の学習テクニックのハイブリッド(一般にSplitFedと呼ばれる)が出現し、その利点(高速トレーニング)を活かし、本質的な欠点(集中型モデル更新)を排除している。 本稿では,SplitFedの強力なモデル中毒攻撃に対する堅牢性に関する実験的検討を行った。 SplitFedのモデル更新は,次元性の呪いが知られているFLに比べて,次元性が非常に小さいことが観察された。 高次元の大規模モデルはプライバシやセキュリティ攻撃の影響を受けやすいが、splitfedのクライアントは完全なモデルを持っておらず、低次元であり、既存のモデル中毒攻撃に対してより堅牢であることを示している。 FLと比較して, SplitFedでは, モデル中毒による精度低下が5倍低かった。

Split Learning (SL) and Federated Learning (FL) are two prominent distributed collaborative learning techniques that maintain data privacy by allowing clients to never share their private data with other clients and servers, and fined extensive IoT applications in smart healthcare, smart cities, and smart industry. Prior work has extensively explored the security vulnerabilities of FL in the form of poisoning attacks. To mitigate the effect of these attacks, several defenses have also been proposed. Recently, a hybrid of both learning techniques has emerged (commonly known as SplitFed) that capitalizes on their advantages (fast training) and eliminates their intrinsic disadvantages (centralized model updates). In this paper, we perform the first ever empirical analysis of SplitFed's robustness to strong model poisoning attacks. We observe that the model updates in SplitFed have significantly smaller dimensionality as compared to FL that is known to have the curse of dimensionality. We show that large models that have higher dimensionality are more susceptible to privacy and security attacks, whereas the clients in SplitFed do not have the complete model and have lower dimensionality, making them more robust to existing model poisoning attacks. Our results show that the accuracy reduction due to the model poisoning attack is 5x lower for SplitFed compared to FL.
翻訳日:2022-12-06 16:02:49 公開日:2022-12-04
# 回帰ネットワークのためのラベル符号化

Label Encoding for Regression Networks ( http://arxiv.org/abs/2212.01927v1 )

ライセンス: Link先を確認
Deval Shah, Zi Yu Xue, Tor M. Aamodt(参考訳) ディープニューラルネットワークは、幅広い回帰問題に使われている。 しかし、特殊なアプローチと、出力ラベルの2乗あるいは絶対誤差を最小化してネットワークを訓練する一般的な直接回帰の間には、精度にかなりのギャップがある。 先行研究により、回帰問題をバイナリ分類器の集合で解くことは、よく研究されたバイナリ分類アルゴリズムを用いて精度を向上させることが示されている。 ターゲット値の符号化時に任意のマルチビット値を考慮するフレームワークを提供することにより,バイナリ分類の回帰への応用を一般化したbinary-encoded labels(bel)を導入する。 実値ラベルとバイナリエンコードラベルの変換に使用される適切な符号化および復号関数の望ましい特性を理論的および経験的研究に基づいて同定する。 これらの特性は、ラベル符号化の分類誤り確率と誤り訂正能力のトレードオフを強調する。 BELは、既製のタスク固有の特徴抽出器と、訓練されたエンドツーエンドとを組み合わせることができる。 本稿では,BELにおける一連のサンプル符号化,復号化,訓練損失関数を提案し,それらの誤差が直接回帰よりも低いことを示すとともに,様々な回帰問題,ネットワークアーキテクチャ,評価指標に適合することを示す。 BELはいくつかの回帰ベンチマークで最先端の精度を達成する。 コードはhttps://github.com/ubc-aamodt-group/bel_regressionで入手できる。

Deep neural networks are used for a wide range of regression problems. However, there exists a significant gap in accuracy between specialized approaches and generic direct regression in which a network is trained by minimizing the squared or absolute error of output labels. Prior work has shown that solving a regression problem with a set of binary classifiers can improve accuracy by utilizing well-studied binary classification algorithms. We introduce binary-encoded labels (BEL), which generalizes the application of binary classification to regression by providing a framework for considering arbitrary multi-bit values when encoding target values. We identify desirable properties of suitable encoding and decoding functions used for the conversion between real-valued and binary-encoded labels based on theoretical and empirical study. These properties highlight a tradeoff between classification error probability and error-correction capabilities of label encodings. BEL can be combined with off-the-shelf task-specific feature extractors and trained end-to-end. We propose a series of sample encoding, decoding, and training loss functions for BEL and demonstrate they result in lower error than direct regression and specialized approaches while being suitable for a diverse set of regression problems, network architectures, and evaluation metrics. BEL achieves state-of-the-art accuracies for several regression benchmarks. Code is available at https://github.com/ubc-aamodt-group/BEL_regression.
翻訳日:2022-12-06 15:56:32 公開日:2022-12-04
# ニューラルフーリエフィルタバンク

Neural Fourier Filter Bank ( http://arxiv.org/abs/2212.01735v1 )

ライセンス: Link先を確認
Zhijie Wu and Yuhe Jin and Kwang Moo Yi(参考訳) 本稿では, 効率的かつ高精度な再構築手法を提案する。 ウェーブレットにインスパイアされた私たちの主なアイデアは、空間的にも周波数的にも信号を分解する神経場を学ぶことです。 空間分解のための最近のグリッドベースのパラダイムに従っているが、既存の作業とは異なり、フーリエ特徴エンコーディングを通じて各グリッドに特定の周波数を格納することを推奨している。 次に、正の活性化を持つ多層パーセプトロンを適用し、これらフーリエエンコードされた特徴を適切な層に配置することで、高周波数成分を低周波成分の上に順次蓄積し、最終的な出力を形成する。 提案手法は,2次元画像整合,3次元形状再構成,神経放射場など,複数のタスクにおけるモデルコンパクト性および効率性に関する技術よりも優れていることを示す。

We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, our main idea is to learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and efficiency on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields.
翻訳日:2022-12-06 15:53:54 公開日:2022-12-04
# 双曲曲線グラフニューラルネットワーク

Hyperbolic Curvature Graph Neural Network ( http://arxiv.org/abs/2212.01793v1 )

ライセンス: Link先を確認
Menglin Yang, Min Zhou, Lujia Pan, Irwin King(参考訳) ハイパーボリック・スペースは、指数関数的な成長量を持つ表現学習のための有望な学習空間として現れつつある。 平坦なユークリッド空間と比較すると、曲線双曲空間は、特に階層やパワーロー分布のような暗黙的な木のようなアーキテクチャを持つデータセットに対して、より環境的かつ埋め込み可能である。 一方、現実世界のネットワークの構造は通常複雑であり、一部は木のような構造で、一部は平らで、その他の部分は円形である。 ヘテロジニアス構造ネットワークを均質な埋め込み空間に直接埋め込むことは、誘導的バイアスと歪みをもたらす。 離散曲率ではノードとその周辺部の局所構造をよく記述することができ、ネットワークトポロジが明示的に伝達する情報を幾何学的学習を改善する動機付けている。 この目的のために、グラフトポロジーの局所離散曲率と埋め込み空間の連続的大域曲率の性質を考察する。 さらに,ハイパーボリック曲線対応グラフニューラルネットワーク HCGNN も提案されている。 特に、HCGNNは離散曲率を用いて周囲のメッセージパッシングを誘導し、連続曲率を適応的に調整する。 ノード分類とリンク予測タスクの広範囲な実験により,提案手法は高次グラフデータと低次グラフデータの両方において,大きなマージンで様々な競合モデルを上回る性能を示した。 ケーススタディはさらに、局所的なクラスターの発見と双曲幾何学による歪みの緩和における離散曲率の有効性を説明している。

Hyperbolic space is emerging as a promising learning space for representation learning, owning to its exponential growth volume. Compared with the flat Euclidean space, the curved hyperbolic space is far more ambient and embeddable, particularly for datasets with implicit tree-like architectures, such as hierarchies and power-law distributions. On the other hand, the structure of a real-world network is usually intricate, with some regions being tree-like, some being flat, and others being circular. Directly embedding heterogeneous structural networks into a homogeneous embedding space unavoidably brings inductive biases and distortions. Inspiringly, the discrete curvature can well describe the local structure of a node and its surroundings, which motivates us to investigate the information conveyed by the network topology explicitly in improving geometric learning. To this end, we explore the properties of the local discrete curvature of graph topology and the continuous global curvature of embedding space. Besides, a Hyperbolic Curvature-aware Graph Neural Network, HCGNN, is further proposed. In particular, HCGNN utilizes the discrete curvature to lead message passing of the surroundings and adaptively adjust the continuous curvature simultaneously. Extensive experiments on node classification and link prediction tasks show that the proposed method outperforms various competitive models by a large margin in both high and low hyperbolic graph data. Case studies further illustrate the efficacy of discrete curvature in finding local clusters and alleviating the distortion caused by hyperbolic geometry.
翻訳日:2022-12-06 15:49:07 公開日:2022-12-04
# ConfounderGAN:Causal Confounderで画像データのプライバシーを保護する

ConfounderGAN: Protecting Image Data Privacy with Causal Confounder ( http://arxiv.org/abs/2212.01767v1 )

ライセンス: Link先を確認
Qi Tian, Kun Kuang, Kelu Jiang, Furui Liu, Zhihua Wang, Fei Wu(参考訳) ディープラーニングの成功の一部は、インターネットから自由にダウンロードされた大量のデータの提供によるものだ。 しかし、これはまた、ユーザのプライベートデータが同意なく商業組織によって収集され、モデルのトレーニングに使用されることも意味している。 そのため、不正なデータ利用を防止する方法やツールを開発することが重要である。 本稿では,個人の画像データを管理不能にし,所有者のデータプライバシを保護することを目的とした,gan(generative adversarial network)であるconfounderganを提案する。 具体的には、画像毎にジェネレータが生成するノイズは、共起特性を有する。 画像とラベルの間にスパーラスな相関関係を構築することができるため、このノイズ付加データセットでは、モデルが画像からラベルへの正しいマッピングを学習できない。 一方、この判別器は、生成されたノイズが小さく知覚不能であることを保証するために使用され、人間の暗号化画像の正常な有用性が保たれる。 3つの自然オブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実験を行った。 その結果,本手法は,標準設定において最先端メソッドよりも優れるだけでなく,高速な暗号化シナリオにも適用できることがわかった。 さらに,本手法の有効性と優位性を示すために,一連の伝達性および安定性実験を示す。

The success of deep learning is partly attributed to the availability of massive data downloaded freely from the Internet. However, it also means that users' private data may be collected by commercial organizations without consent and used to train their models. Therefore, it's important and necessary to develop a method or tool to prevent unauthorized data exploitation. In this paper, we propose ConfounderGAN, a generative adversarial network (GAN) that can make personal image data unlearnable to protect the data privacy of its owners. Specifically, the noise produced by the generator for each image has the confounder property. It can build spurious correlations between images and labels, so that the model cannot learn the correct mapping from images to labels in this noise-added dataset. Meanwhile, the discriminator is used to ensure that the generated noise is small and imperceptible, thereby remaining the normal utility of the encrypted image for humans. The experiments are conducted in six image classification datasets, consisting of three natural object datasets and three medical datasets. The results demonstrate that our method not only outperforms state-of-the-art methods in standard settings, but can also be applied to fast encryption scenarios. Moreover, we show a series of transferability and stability experiments to further illustrate the effectiveness and superiority of our method.
翻訳日:2022-12-06 15:37:58 公開日:2022-12-04
# 効率的な舗装難易度認識のためのカーネル逆ピラミッドリサイズネットワーク

Kernel Inversed Pyramidal Resizing Network for Efficient Pavement Distress Recognition ( http://arxiv.org/abs/2212.01790v1 )

ライセンス: Link先を確認
Rong Qin and Luwen Huangfu and Devon Hood and James Ma and Sheng Huang(参考訳) 舗装難易度認識(pdr)は舗装検査の重要なステップであり、画像ベースの自動化によってプロセスを迅速化し、労働コストを削減することができる。 舗装画像は、しばしば高分解能で、非抵抗領域に対する苦難の割合が低い。 高度なアプローチでは、イメージをパッチに分割することでこれらの特性を活用し、スケールスペースにおける識別的特徴を探求する。 しかしながら、これらのアプローチは通常、画像リサイズ時の情報損失と複雑な学習フレームワークによる低効率に悩まされる。 本稿では,PDRの新規かつ効率的な手法を提案する。 画像再サイズのために、kernel inversed pyramidal resizing network(kiprn)という光ネットワークが導入され、解像度とスケール情報を利用するためのプリネットワークとして画像分類ネットワークに柔軟に接続することができる。 KIPRNでは、ピラミッドの畳み込みとカーネルの逆転畳み込みは、異なる特徴の粒度とスケールで識別情報をマイニングするように設計されている。 マイニングされた情報をリサイズ画像に渡して情報的画像ピラミッドを生成し、PDRの画像分類ネットワークを支援する。 提案手法を3つの有名な畳み込みニューラルネットワーク(CNN)に適用し,CQU-BPDDと呼ばれる大規模舗装画像データセットの評価を行った。 その結果、KIPRNは一般的にこれらのCNNモデルの舗装苦難認識を改善し、KIPRNとEfficientNet-B3の単純な組み合わせは、パフォーマンスと効率の両面で最先端のパッチベースの手法よりも大幅に優れていることを示した。

Pavement Distress Recognition (PDR) is an important step in pavement inspection and can be powered by image-based automation to expedite the process and reduce labor costs. Pavement images are often in high-resolution with a low ratio of distressed to non-distressed areas. Advanced approaches leverage these properties via dividing images into patches and explore discriminative features in the scale space. However, these approaches usually suffer from information loss during image resizing and low efficiency due to complex learning frameworks. In this paper, we propose a novel and efficient method for PDR. A light network named the Kernel Inversed Pyramidal Resizing Network (KIPRN) is introduced for image resizing, and can be flexibly plugged into the image classification network as a pre-network to exploit resolution and scale information. In KIPRN, pyramidal convolution and kernel inversed convolution are specifically designed to mine discriminative information across different feature granularities and scales. The mined information is passed along to the resized images to yield an informative image pyramid to assist the image classification network for PDR. We applied our method to three well-known Convolutional Neural Networks (CNNs), and conducted an evaluation on a large-scale pavement image dataset named CQU-BPDD. Extensive results demonstrate that KIPRN can generally improve the pavement distress recognition of these CNN models and show that the simple combination of KIPRN and EfficientNet-B3 significantly outperforms the state-of-the-art patch-based method in both performance and efficiency.
翻訳日:2022-12-06 15:37:37 公開日:2022-12-04
# 補助音声とテキストデータを活用したエンドツーエンド音声翻訳の改善

Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data ( http://arxiv.org/abs/2212.01778v1 )

ライセンス: Link先を確認
Yuhao Zhang, Chen Xu, Bojie Hu, Chunliang Zhang, Tong Xiao, Jingbo Zhu(参考訳) 本稿では,事前学習された音声翻訳システムに対して,テキストエンコーダを導入する手法を提案する。 これは、あるモダリティ(すなわち、ソース言語音声)を別の(すなわち、ソース言語テキスト)に適応する能力を高める。 これにより、特にソース言語テキストデータが豊富である場合には、ラベル付きデータとラベル付きデータの両方から音声翻訳モデルを学ぶことができる。 さらに,正規およびノイズの多いテキストデータを扱う頑健なテキストエンコーダを構築するためのデノイング手法を提案する。 本システムでは, MuST-C En-De, En-Fr, LibriSpeech En-Fr タスクに新たな最先端技術を設定する。

We present a method for introducing a text encoder into pre-trained end-to-end speech translation systems. It enhances the ability of adapting one modality (i.e., source-language speech) to another (i.e., source-language text). Thus, the speech translation model can learn from both unlabeled and labeled data, especially when the source-language text data is abundant. Beyond this, we present a denoising method to build a robust text encoder that can deal with both normal and noisy text data. Our system sets new state-of-the-arts on the MuST-C En-De, En-Fr, and LibriSpeech En-Fr tasks.
翻訳日:2022-12-06 15:36:36 公開日:2022-12-04
# CityLearn Challengeに勝つ: 軌道に基づく誘導による進化探索による適応最適化

Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance ( http://arxiv.org/abs/2212.01939v1 )

ライセンス: Link先を確認
Vanshaj Khattar and Ming Jin(参考訳) 電力需要のピークによる都市部での頻繁な停電、断続的な再生可能エネルギー発生によるグリッド不安定化、二酸化炭素排出量の増加による世界的な気候変動などだ。 現在のプラクティスはますます不十分になっているが、人工知能(AI)メソッドの普及への道は、信頼性の欠如によって妨げられている。 CityLearn Challengeは、複数の分野の研究者が、エネルギー領域におけるこれらのプレッシャー問題に取り組むAIの可能性を調べるための模範的な機会であり、総合的に強化学習(RL)タスクとしてモデル化されている。 現代のRL技術が直面する現実的な課題は、問題の定式化に具体化されている。 本稿では,オンライン観察から最適化モデルのパラメータを適応しつつ,逐次意思決定のためのアクションを計算するためのポリシーとして最適化の解関数を用いる新しい手法を提案する。 アルゴリズム上、これは新しい軌道に基づく誘導法の下で進化的アルゴリズムによって達成される。 正式には、グローバル収束特性が確立される。 当社のエージェントは,2021年のcitylearn challengeで第1位にランクインし,解釈可能性の重要な面を維持しながら,ほぼすべての指標で優れたパフォーマンスを達成できた。

Modern power systems will have to face difficult challenges in the years to come: frequent blackouts in urban areas caused by high power demand peaks, grid instability exacerbated by intermittent renewable generation, and global climate change amplified by rising carbon emissions. While current practices are growingly inadequate, the path to widespread adoption of artificial intelligence (AI) methods is hindered by missing aspects of trustworthiness. The CityLearn Challenge is an exemplary opportunity for researchers from multiple disciplines to investigate the potential of AI to tackle these pressing issues in the energy domain, collectively modeled as a reinforcement learning (RL) task. Multiple real-world challenges faced by contemporary RL techniques are embodied in the problem formulation. In this paper, we present a novel method using the solution function of optimization as policies to compute actions for sequential decision-making, while notably adapting the parameters of the optimization model from online observations. Algorithmically, this is achieved by an evolutionary algorithm under a novel trajectory-based guidance scheme. Formally, the global convergence property is established. Our agent ranked first in the latest 2021 CityLearn Challenge, being able to achieve superior performance in almost all metrics while maintaining some key aspects of interpretability.
翻訳日:2022-12-06 15:29:03 公開日:2022-12-04
# 質問応答に対する多言語モデルの適用(QA)

Applying Multilingual Models to Question Answering (QA) ( http://arxiv.org/abs/2212.01933v1 )

ライセンス: Link先を確認
Ayrton San Joaquin and Filip Skubacz(参考訳) 英語,フィンランド語,日本語の3つの多様な言語における質問応答(qa)タスクにおける単言語および多言語言語モデルの性能について検討した。 我々は,(1)質問が応答可能かどうかを判断するタスクのモデルを開発し,(2)IOBタグを用いたコンテキスト内の回答テキストを識別する。 さらに,事前学習された多言語エンコーダ(多言語bert)が,応答性とiob系列分類器の両方に対するクロスランゲージゼロショット学習に与える影響について評価する。

We study the performance of monolingual and multilingual language models on the task of question-answering (QA) on three diverse languages: English, Finnish and Japanese. We develop models for the tasks of (1) determining if a question is answerable given the context and (2) identifying the answer texts within the context using IOB tagging. Furthermore, we attempt to evaluate the effectiveness of a pre-trained multilingual encoder (Multilingual BERT) on cross-language zero-shot learning for both the answerability and IOB sequence classifiers.
翻訳日:2022-12-06 15:28:08 公開日:2022-12-04
# 一般データ生成政策による対物学習

Counterfactual Learning with General Data-generating Policies ( http://arxiv.org/abs/2212.01925v1 )

ライセンス: Link先を確認
Yusuke Narita, Kyohei Okumura, Akihiro Shimizu, Kohei Yata(参考訳) off-policy evaluation(ope)は、異なるポリシーからログデータを使用して、偽のポリシーのパフォーマンスを予測する。 我々は、文脈帯域設定における完全サポートと不足サポートのログポリシーの両方のクラスに対して、opeメソッドを開発することで、その適用性を拡張する。 このクラスには、決定論的バンディット(高信頼境界など)と、教師なしおよび教師なし学習に基づく決定論的意思決定が含まれる。 サンプルサイズが大きくなるにつれて,本手法の予測は反事実ポリシーの真の性能に確率的に収束することを証明する。 本手法を,部分的および完全決定論的ロギングポリシーの実験により検証する。 最後に、主要なオンラインプラットフォームによるクーポンターゲティングポリシーの評価を行い、既存のポリシーを改善する方法を示す。

Off-policy evaluation (OPE) attempts to predict the performance of counterfactual policies using log data from a different policy. We extend its applicability by developing an OPE method for a class of both full support and deficient support logging policies in contextual-bandit settings. This class includes deterministic bandit (such as Upper Confidence Bound) as well as deterministic decision-making based on supervised and unsupervised learning. We prove that our method's prediction converges in probability to the true performance of a counterfactual policy as the sample size increases. We validate our method with experiments on partly and entirely deterministic logging policies. Finally, we apply it to evaluate coupon targeting policies by a major online platform and show how to improve the existing policy.
翻訳日:2022-12-06 15:20:16 公開日:2022-12-04
# 進化的クラスタリングは理論的保証を持つか?

Can Evolutionary Clustering Have Theoretical Guarantees? ( http://arxiv.org/abs/2212.01771v1 )

ライセンス: Link先を確認
Chao Qian(参考訳) クラスタリングは多くの領域において基本的な問題であり、ある距離測度に基づいて与えられたデータセットをグループに分割することを目的としている。 その重要性とnpの難しさから、進化アルゴリズムが一般的なアルゴリズムのクラスである多くの手法が提案されている。 進化的クラスタリングは多くの応用が成功したが、全ての結果は経験的であり、理論的サポートが欠如している。 本稿では,gsemo(単純な多目的進化アルゴリズム)によるクラスタリングの3つの一般的な定式化,すなわち$k$-center,$k$-median,$k$-meansの近似性能を理論的に保証できることを証明し,このギャップを埋める。 さらに,アルゴリズムバイアスを回避しようとする公平性を考える場合においても,進化的クラスタリングは理論的保証をも有することを示すとともに,最近では機械学習において重要な研究課題となっている。

Clustering is a fundamental problem in many areas, which aims to partition a given data set into groups based on some distance measure, such that the data points in the same group are similar while that in different groups are dissimilar. Due to its importance and NP-hardness, a lot of methods have been proposed, among which evolutionary algorithms are a class of popular ones. Evolutionary clustering has found many successful applications, but all the results are empirical, lacking theoretical support. This paper fills this gap by proving that the approximation performance of the GSEMO (a simple multi-objective evolutionary algorithm) for solving the three popular formulations of clustering, i.e., $k$-center, $k$-median and $k$-means, can be theoretically guaranteed. Furthermore, we prove that evolutionary clustering can have theoretical guarantees even when considering fairness, which tries to avoid algorithmic bias, and has recently been an important research topic in machine learning.
翻訳日:2022-12-06 15:19:39 公開日:2022-12-04
# リレーショナルグラフ畳み込みネットワークを用いた感情因果対抽出のためのペアベースジョイントエンコーディング

Pair-Based Joint Encoding with Relational Graph Convolutional Networks for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2212.01844v1 )

ライセンス: Link先を確認
Junlong Liu, Xichen Shang, Qianli Ma(参考訳) 感情誘発ペア抽出(ecpe)は、最近注目を集めている感情節と対応する原因節を抽出することを目的としている。 以前のメソッドは、特徴を指定された順序でシーケンシャルにエンコードする。 最初に感情をエンコードし、節抽出のための特徴を発生させ、それらを組み合わせてペア抽出を行う。 これにより、後から抽出した特徴が前者と直接接触しないタスク間特徴相互作用の不均衡が生じる。 そこで本研究では,節間の因果関係をモデル化するために,結合特徴符号化方式でペアと節を同時に生成するペア・ベース・ジョイント・エンコーディング(pbje)ネットワークを提案する。 PBJEは感情節間の情報の流れをバランスさせ、節とペアを引き起こすことができる。 多関係性の観点から、不均一な非方向性グラフを構築し、RGCN(Relational Graph Convolutional Network)を用いて、節間の様々な関係とペアと節の関係をキャプチャする。 実験の結果,PBJEは中国のベンチマークコーパスで最先端の性能を発揮することがわかった。

Emotion-cause pair extraction (ECPE) aims to extract emotion clauses and corresponding cause clauses, which have recently received growing attention. Previous methods sequentially encode features with a specified order. They first encode the emotion and cause features for clause extraction and then combine them for pair extraction. This lead to an imbalance in inter-task feature interaction where features extracted later have no direct contact with the former. To address this issue, we propose a novel Pair-Based Joint Encoding (PBJE) network, which generates pairs and clauses features simultaneously in a joint feature encoding manner to model the causal relationship in clauses. PBJE can balance the information flow among emotion clauses, cause clauses and pairs. From a multi-relational perspective, we construct a heterogeneous undirected graph and apply the Relational Graph Convolutional Network (RGCN) to capture the various relationship between clauses and the relationship between pairs and clauses. Experimental results show that PBJE achieves state-of-the-art performance on the Chinese benchmark corpus.
翻訳日:2022-12-06 15:18:22 公開日:2022-12-04
# モデルサイズが少数の命令プロンプトに与える影響を理解する

Understanding How Model Size Affects Few-shot Instruction Prompting ( http://arxiv.org/abs/2212.01907v1 )

ライセンス: Link先を確認
Ayrton San Joaquin and Ardy Haroen(参考訳) 大規模言語モデルは、トレーニングデータを記憶したり忘れたりする現象に影響を受けます。 しかし、モデルのサイズによってどう違うのか? モデルのサイズが、与えられた文脈で単語の意味を識別するモデルの能力にどのように影響するかを調べることで、この問題に取り組みます。 我々はDeltaWordsと呼ばれるデータセットを導入し、モデルが対象の単語を同義語に置き換える文を選択するための指示に従う能力を評価する。 モデルサイズが増加するにつれてタスクの精度が低下する,極めて少ないプロンプト環境下での逆スケーリング傾向を示す。 サンプル数の増加は、より小さなモデルよりも大きなモデルに不均等に利益をもたらす傾向があることを示す。

Large Language Models are affected by the phenomena of memorizing and forgetting their training data. But how do these vary by model size? We work towards this question by investigating how the model size affects the model's ability to discriminate a word's meaning in a given context. We introduce a dataset called DeltaWords, which evaluates a model's ability to follow instructions to select a sentence which replaces the target word with its antonym. We show a weak inverse scaling trend, where task accuracy degrades as model size increase, under extremely few-shot prompting regimes. We show that increasing the number of examples tend to disproportionately benefit larger models than smaller models.
翻訳日:2022-12-06 15:12:23 公開日:2022-12-04
# RLogist: 深部強化学習による全スライディング画像の高速観察戦略

RLogist: Fast Observation Strategy on Whole-slide Images with Deep Reinforcement Learning ( http://arxiv.org/abs/2212.01737v1 )

ライセンス: Link先を確認
Boxuan Zhao, Jun Zhang, Deheng Ye, Jian Cao, Xiao Han, Qiang Fu, Wei Yang(参考訳) 計算病理学における全スリッド画像(wsi)は、ギガピクセルサイズで高解像度であるが、一般的には関心領域が乏しいため、スライド内の各領域の診断妥当性やデータの非効率性が低下する。 既存のメソッドのほとんどは、複数のインスタンス学習フレームワークに依存しており、高い倍率でローカルパッチを密にサンプリングする必要がある。 パッチレベルの特徴を抽出する重い計算は避けられないため、アプリケーション段階では制限は明らかである。 本稿では,WSI 上での高速観測のためのベンチマーク深部強化学習 (DRL) 手法である RLogist を開発した。 我々のRLエージェントは、ヒト病理医の診断ロジックを省略し、高分解能でWSIの各部分を分析することなく、観察値の領域を見つけ、複数の解像度レベルの代表的特徴を得る方法を学ぶ。 リンパ節切除のwsisにおける転移の検出と肺癌の亜型診断を含む2つのslideレベル分類課題について検討を行った。 実験結果から, RLogist は, 観測経路が極めて短いため, 典型的な複数のインスタンス学習アルゴリズムと比較して, 競合する分類性能が得られた。 さらに、RLogistが与える観察経路は、優れた意思決定の解釈可能性を提供し、パスナビゲーションを読む能力は、病理学者が教育・補助目的に利用できる可能性がある。 私たちのコードは、 \url{https://github.com/tencent-ailab/rologist} で利用可能です。

Whole-slide images (WSI) in computational pathology have high resolution with gigapixel size, but are generally with sparse regions of interest, which leads to weak diagnostic relevance and data inefficiency for each area in the slide. Most of the existing methods rely on a multiple instance learning framework that requires densely sampling local patches at high magnification. The limitation is evident in the application stage as the heavy computation for extracting patch-level features is inevitable. In this paper, we develop RLogist, a benchmarking deep reinforcement learning (DRL) method for fast observation strategy on WSIs. Imitating the diagnostic logic of human pathologists, our RL agent learns how to find regions of observation value and obtain representative features across multiple resolution levels, without having to analyze each part of the WSI at the high magnification. We benchmark our method on two whole-slide level classification tasks, including detection of metastases in WSIs of lymph node sections, and subtyping of lung cancer. Experimental results demonstrate that RLogist achieves competitive classification performance compared to typical multiple instance learning algorithms, while having a significantly short observation path. In addition, the observation path given by RLogist provides good decision-making interpretability, and its ability of reading path navigation can potentially be used by pathologists for educational/assistive purposes. Our code is available at: \url{https://github.com/tencent-ailab/RLogist}.
翻訳日:2022-12-06 15:10:31 公開日:2022-12-04
# 深部ニューラルネットワークの逆ロバスト性を高める人間の事前知識を持つ要素による物体認識

Recognizing Object by Components with Human Prior Knowledge Enhances Adversarial Robustness of Deep Neural Networks ( http://arxiv.org/abs/2212.01806v1 )

ライセンス: Link先を確認
Xiao Li, Ziqi Wang, Bo Zhang, Fuchun Sun, Xiaolin Hu(参考訳) 敵対的攻撃はディープニューラルネットワーク(DNN)に基づくオブジェクト認識システムを簡単に騙すことができる。 近年,多くの防御方法が提案されているが,そのほとんどは適応的に回避可能である。 敵対的堅牢性の弱い理由の1つは、DNNがカテゴリーラベルによってのみ監督され、人間の認識プロセスのような部分ベースの帰納バイアスを持たないことである。 認知心理学においてよく知られた理論である認知関連概念に触発され,新しい物体認識モデル ROCK (Recognizing Object by Components with Human prior Knowledge) を提案する。 画像からオブジェクトの一部を分割し、事前に定義された人間の事前知識で部分分割結果をスコアし、最後にスコアに基づいて予測を出力する。 ROCKの第1段階は、物体を人間の視覚の一部に分解する過程に対応する。 第2段階は人間の脳の決定過程に対応する。 ROCKは、様々な攻撃設定における古典的な認識モデルよりも堅牢性が高い。 これらの結果は、現在広く使われているDNNベースのオブジェクト認識モデルの合理性を再考し、頑健性を改善するために、かつて重要で最近無視された部分ベースモデルの可能性を探ることを促す。

Adversarial attacks can easily fool object recognition systems based on deep neural networks (DNNs). Although many defense methods have been proposed in recent years, most of them can still be adaptively evaded. One reason for the weak adversarial robustness may be that DNNs are only supervised by category labels and do not have part-based inductive bias like the recognition process of humans. Inspired by a well-known theory in cognitive psychology -- recognition-by-components, we propose a novel object recognition model ROCK (Recognizing Object by Components with human prior Knowledge). It first segments parts of objects from images, then scores part segmentation results with predefined human prior knowledge, and finally outputs prediction based on the scores. The first stage of ROCK corresponds to the process of decomposing objects into parts in human vision. The second stage corresponds to the decision process of the human brain. ROCK shows better robustness than classical recognition models across various attack settings. These results encourage researchers to rethink the rationality of currently widely-used DNN-based object recognition models and explore the potential of part-based models, once important but recently ignored, for improving robustness.
翻訳日:2022-12-06 15:10:06 公開日:2022-12-04
# 説明可能な深層学習を用いた色眼底画像におけるAMD関連病変の検出

Weakly-supervised detection of AMD-related lesions in color fundus images using explainable deep learning ( http://arxiv.org/abs/2212.00565v2 )

ライセンス: Link先を確認
Jos\'e Morano, \'Alvaro S. Hervella, Jos\'e Rouco, Jorge Novo, Jos\'e I. Fern\'andez-Vigo, Marcos Ortega(参考訳) 加齢関連黄斑変性 (AMD) は、網膜の視力にとって重要な領域である黄斑に影響を及ぼす変性疾患である。 現在では、先進国で最も頻繁な盲目の原因となっている。 有望な治療法がいくつか開発されているが、その有効性は進行段階において低い。 これは大規模なスクリーニングプログラムの重要性を強調している。 それにもかかわらず、AMDのこのようなプログラムの実装は、リスクの高い人口が大きく、診断が難しいため、通常は不可能である。 これらすべてが自動手法の開発を動機付けている。 この意味で、畳み込みニューラルネットワーク(CNN)を用いたAMD診断では、いくつかの研究が肯定的な結果を得た。 しかし、説明可能性のメカニズムは組み込まれておらず、臨床での使用を制限する。 そこで本研究では,関連網膜病変の同時同定によるAMD診断のための説明可能な深層学習手法を提案する。 本提案では,画像レベルラベルを用いた共同作業に対して,CNNをエンドツーエンドで訓練する。 得られた病変情報は、AMDの発達段階を評価することができるため、臨床的に興味深い。 さらに、このアプローチは、同定された病変からの診断を説明できる。 これは、病変と診断を関連付けるカスタム設定を備えたCNNを使用することで可能になる。 さらに, 提案手法により, 粗い病変のセグメンテーションマップを弱教師付きで取得し, さらに説明可能性を向上させることができる。 このアプローチのトレーニングデータは、臨床医が余計な作業をすることなく得られる。 実験では,amdとその関連病変を良好に同定し,最も一般的な病変に対して十分な粗粒分画マップを提供することができた。

Age-related macular degeneration (AMD) is a degenerative disorder affecting the macula, a key area of the retina for visual acuity. Nowadays, it is the most frequent cause of blindness in developed countries. Although some promising treatments have been developed, their effectiveness is low in advanced stages. This emphasizes the importance of large-scale screening programs. Nevertheless, implementing such programs for AMD is usually unfeasible, since the population at risk is large and the diagnosis is challenging. All this motivates the development of automatic methods. In this sense, several works have achieved positive results for AMD diagnosis using convolutional neural networks (CNNs). However, none incorporates explainability mechanisms, which limits their use in clinical practice. In that regard, we propose an explainable deep learning approach for the diagnosis of AMD via the joint identification of its associated retinal lesions. In our proposal, a CNN is trained end-to-end for the joint task using image-level labels. The provided lesion information is of clinical interest, as it allows to assess the developmental stage of AMD. Additionally, the approach allows to explain the diagnosis from the identified lesions. This is possible thanks to the use of a CNN with a custom setting that links the lesions and the diagnosis. Furthermore, the proposed setting also allows to obtain coarse lesion segmentation maps in a weakly-supervised way, further improving the explainability. The training data for the approach can be obtained without much extra work by clinicians. The experiments conducted demonstrate that our approach can identify AMD and its associated lesions satisfactorily, while providing adequate coarse segmentation maps for most common lesions.
翻訳日:2022-12-06 15:02:58 公開日:2022-12-04
# スパースフュージョン:3次元再構成のためのビューコンディショニング拡散

SparseFusion: Distilling View-conditioned Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2212.00792v2 )

ライセンス: Link先を確認
Zhizhuo Zhou, Shubham Tulsiani(参考訳) ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。 既存のアプローチは通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。 代替手法は、これを(確率的な)2D合成タスクとして扱い、可塑性2D画像を生成することができるが、一貫した基礎となる3Dを推論しない。 しかし,この3次元一貫性と確率的画像生成のトレードオフが存在する必要はない。 実際、幾何学的整合性と生成的推論は、モード探索動作において相補的であることを示す。 ビュー条件付き潜伏拡散モデルから3次元一貫したシーン表現を蒸留することにより、レンダリングが正確かつリアルな3次元表現を復元することができる。 提案手法は,CO3Dデータセットの51カテゴリにまたがって評価され,歪みと知覚の両指標において,スパースビューの新規ビュー合成において,既存の手法よりも優れていることを示す。

We propose SparseFusion, a sparse view 3D reconstruction approach that unifies recent advances in neural rendering and probabilistic image generation. Existing approaches typically build on neural rendering with re-projected features but fail to generate unseen regions or handle uncertainty under large viewpoint changes. Alternate methods treat this as a (probabilistic) 2D synthesis task, and while they can generate plausible 2D images, they do not infer a consistent underlying 3D. However, we find that this trade-off between 3D consistency and probabilistic image generation does not need to exist. In fact, we show that geometric consistency and generative inference can be complementary in a mode-seeking behavior. By distilling a 3D consistent scene representation from a view-conditioned latent diffusion model, we are able to recover a plausible 3D representation whose renderings are both accurate and realistic. We evaluate our approach across 51 categories in the CO3D dataset and show that it outperforms existing methods, in both distortion and perception metrics, for sparse-view novel view synthesis.
翻訳日:2022-12-06 15:02:37 公開日:2022-12-04
# 学習者に影響を与える言語:多言語テキスト・テキスト・トランスファーにおける言語特性の影響

Languages You Know Influence Those You Learn: Impact of Language Characteristics on Multi-Lingual Text-to-Text Transfer ( http://arxiv.org/abs/2212.01757v1 )

ライセンス: Link先を確認
Benjamin Muller, Deepanshu Gupta, Siddharth Patwardhan, Jean-Philippe Fauconnier, David Vandyke, Sachin Agarwal(参考訳) mBERT、XLM-R、mT5、mBARTのような多言語言語モデル(LM)は、高リソース言語からの言語間移動を通じて低リソース言語での自然言語タスクの実現に成功している。 本研究では,事前学習中に明示的な言語横断信号が提供されないにもかかわらず,これらのモデル,特にmt5,*any*言語的,意味的知識を言語間で伝達する方法の理解を深める。 むしろ、各言語からの注釈のないテキストだけが、互いに独立してモデルに提示され、モデルが暗黙的に言語間接続を学ぶように見える。 これは、我々の研究を動機づけるいくつかの疑問を提起する。 すべての言語ペア間の言語間接続は、等しく強くなっているか? ソースとターゲット言語の性質が言語間移動の強さに影響を与えるか? これらの性質が言語間移動に与える影響を定量化できますか。 本研究では,事前学習したmT5を解析し,モデルが学習した言語間接続の特性を明らかにする。 3つのタスクにまたがる90以上の言語対の統計的解釈フレームワークを通じて、転送性能は言語的およびデータに基づくいくつかの特徴によってモデル化可能であることを示す。 これらの観察により、mt5モデルの言語間理解を解釈できる。 これらの観察を通じて、タスクに最適なソース言語を選択することができ、そのトレーニングデータ要求を予測できる。 この研究の鍵となる発見は、文法、形態学、音韻学の類似性は言語間移動の優れた予測因子であり、言語の語彙的類似性よりもはるかに大きいことである。 与えられた言語では、ゼロショットのパフォーマンスを予測でき、これは数ショットのターゲット言語データポイントの数で対数スケールで増加する。

Multi-lingual language models (LM), such as mBERT, XLM-R, mT5, mBART, have been remarkably successful in enabling natural language tasks in low-resource languages through cross-lingual transfer from high-resource ones. In this work, we try to better understand how such models, specifically mT5, transfer *any* linguistic and semantic knowledge across languages, even though no explicit cross-lingual signals are provided during pre-training. Rather, only unannotated texts from each language are presented to the model separately and independently of one another, and the model appears to implicitly learn cross-lingual connections. This raises several questions that motivate our study, such as: Are the cross-lingual connections between every language pair equally strong? What properties of source and target language impact the strength of cross-lingual transfer? Can we quantify the impact of those properties on the cross-lingual transfer? In our investigation, we analyze a pre-trained mT5 to discover the attributes of cross-lingual connections learned by the model. Through a statistical interpretation framework over 90 language pairs across three tasks, we show that transfer performance can be modeled by a few linguistic and data-derived features. These observations enable us to interpret cross-lingual understanding of the mT5 model. Through these observations, one can favorably choose the best source language for a task, and can anticipate its training data demands. A key finding of this work is that similarity of syntax, morphology and phonology are good predictors of cross-lingual transfer, significantly more than just the lexical similarity of languages. For a given language, we are able to predict zero-shot performance, that increases on a logarithmic scale with the number of few-shot target language data points.
翻訳日:2022-12-06 15:00:58 公開日:2022-12-04
# 再訪された多言語表現の言語間類似性

Cross-lingual Similarity of Multilingual Representations Revisited ( http://arxiv.org/abs/2212.01924v1 )

ライセンス: Link先を確認
Maksym Del and Mark Fishel(参考訳) 関連する作業では、CKAのようなインデックスとCCAの変種を使用して、多言語言語モデルにおける言語間表現の類似度を測定した。 本稿では,CKA/CCAの仮定が,言語間学習分析のモチベーションの1つ,すなわちゼロショット言語間移動の説明とよく一致していないことを論じる。 我々は、これらの指標が捉えられなかった言語間類似性の価値のある側面を強調し、経験的なケーススタディ \textit{demonstrating the problem empirically} を提供する。 そこで我々は,CKA/CCAの難しさを排除し,言語横断的な文脈で特に優れている簡単な代替手段として,‘textit{Average Neuron-Wise correlation(ANC)’を紹介した。 最後に、ANCを用いて、以前に導入された 'firstaligned, then predict'' パターンがマスク言語モデル (MLM) だけでなく、 \textit{causal language modeling} objectives (CLMs) を用いた多言語モデルでも発生することを示す。 さらに、このパターンは、MLM と CLM の \textit{scaled version} にまで拡張されている(85倍のmBERT)。 \footnote{Our code is public available at \url{https://github.com/TartuNLP/xsim}}

Related works used indexes like CKA and variants of CCA to measure the similarity of cross-lingual representations in multilingual language models. In this paper, we argue that assumptions of CKA/CCA align poorly with one of the motivating goals of cross-lingual learning analysis, i.e., explaining zero-shot cross-lingual transfer. We highlight what valuable aspects of cross-lingual similarity these indexes fail to capture and provide a motivating case study \textit{demonstrating the problem empirically}. Then, we introduce \textit{Average Neuron-Wise Correlation (ANC)} as a straightforward alternative that is exempt from the difficulties of CKA/CCA and is good specifically in a cross-lingual context. Finally, we use ANC to construct evidence that the previously introduced ``first align, then predict'' pattern takes place not only in masked language models (MLMs) but also in multilingual models with \textit{causal language modeling} objectives (CLMs). Moreover, we show that the pattern extends to the \textit{scaled versions} of the MLMs and CLMs (up to 85x original mBERT).\footnote{Our code is publicly available at \url{https://github.com/TartuNLP/xsim}}
翻訳日:2022-12-06 15:00:30 公開日:2022-12-04
# 箱の中で考えるか 箱の中から考えるか? 洞察と概念の相互関係による科学的発見

To think inside the box, or to think out of the box? Scientific discovery via the reciprocation of insights and concepts ( http://arxiv.org/abs/2212.00258v2 )

ライセンス: Link先を確認
Yu-Zhe Shi, Manjie Xu, Wenjuan Han, Yixin Zhu(参考訳) 科学的発見が人間の進歩の主要な推進力であるなら、その洞察はエンジンの燃料であり、その基礎となる認知過程を理解しモデル化するために、長年にわたって行動レベルの研究を惹きつけてきた。 しかし、現在の抽象科学的発見のタスクは、主に洞察の出現に焦点を合わせ、ドメイン知識が果たす特別な役割を無視している。 この概念的な論文では、科学的な発見を、洞察に富んだ解を求める$thinking \out \ of \ the \ box$と、概念的なドメイン知識を一般化して正しい状態を維持する$thinking \ inside \ the \ box$の間の相互作用と見なしている。 そこで我々は,科学的発見を大規模に探求するための基盤として,科学的発見的な思考を自然に引き起こす意味探索ゲームMindleを提案する。 この観点から、洞察のメタストラテジーと概念の利用を相互に検討することができる。 パイロット研究では、いくつかの興味深い観察がメタストラテジー、文脈、個人の多様性に関する仮説を解明し、さらなる調査を行った。

If scientific discovery is one of the main driving forces of human progress, insight is the fuel for the engine, which has long attracted behavior-level research to understand and model its underlying cognitive process. However, current tasks that abstract scientific discovery mostly focus on the emergence of insight, ignoring the special role played by domain knowledge. In this concept paper, we view scientific discovery as an interplay between $thinking \ out \ of \ the \ box$ that actively seeks insightful solutions and $thinking \ inside \ the \ box$ that generalizes on conceptual domain knowledge to keep correct. Accordingly, we propose Mindle, a semantic searching game that triggers scientific-discovery-like thinking spontaneously, as infrastructure for exploring scientific discovery on a large scale. On this basis, the meta-strategies for insights and the usage of concepts can be investigated reciprocally. In the pilot studies, several interesting observations inspire elaborated hypotheses on meta-strategies, context, and individual diversity for further investigations.
翻訳日:2022-12-06 14:51:28 公開日:2022-12-04