このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221219となっている論文です。

PDF登録状況(公開日: 20221219)

TitleAuthorsAbstract論文公表日・翻訳日
# クラウドソーシングはアイデアのソーシャルマーケットを救えるか?

Can crowdsourcing rescue the social marketplace of ideas? ( http://arxiv.org/abs/2104.13754v5 )

ライセンス: Link先を確認
Taha Yasseri and Filippo Menczer(参考訳) FacebookとTwitterは最近、誤情報に対処するコミュニティベースのレビュープラットフォームを発表した。 本稿では,過去の研究とtwitterのbirdwatchデータの予備分析に基づいて,コンテンツモデレーションに対するコミュニティベースのアプローチの可能性を概観する。 コンテントモデレーションに対するコミュニティベースのアプローチを概ね支持する一方で,特に新たなインフラストラクチャの実装では,“コラボレーション”ではなく,クラウドベースの“バリデーション”に注目している場合には,潜在的な落とし穴に対して警告する。 本稿では,複雑なシステム研究,行動社会学,計算社会科学の手法を駆使して,クラウドベースのコンテンツモデレーションの研究を進める。

Facebook and Twitter recently announced community-based review platforms to address misinformation. We provide an overview of the potential affordances of such community-based approaches to content moderation based on past research and preliminary analysis of Twitter's Birdwatch data. While our analysis generally supports a community-based approach to content moderation, it also warns against potential pitfalls, particularly when the implementation of the new infrastructure focuses on crowd-based "validation" rather than "collaboration." We call for multidisciplinary research utilizing methods from complex systems studies, behavioural sociology, and computational social science to advance the research on crowd-based content moderation.
翻訳日:2023-04-02 04:28:08 公開日:2022-12-19
# 量子不複雑性の資源理論

Resource theory of quantum uncomplexity ( http://arxiv.org/abs/2110.11371v2 )

ライセンス: Link先を確認
Nicole Yunger Halpern, Naga B. T. Kothakonda, Jonas Haferkamp, Anthony Munson, Jens Eisert, Philippe Faist(参考訳) 量子複雑性は、ブラックホール、トポロジカル材料、初期の量子コンピュータなど、多体系の重要な性質として現れつつある。 状態の複雑性は、単純なテンソル積から状態を作成するのに必要な計算ゲートの数を定量化する。 状態の最大複雑性や「複雑でない」からの距離が大きいほど、量子計算への入力としてより有用である。 それとは別に、制約を受けるエージェントの単純なモデルであるリソース理論は、量子情報理論に波及している。 我々は2つの領域を結合し、ブラウンとススキンドの予想が非複素性の資源理論を定義できると確認する。 許可された操作、ファジィ演算はエージェントが選択した2ビットゲートのランダムな実装である。 複雑でない抽出と支出という2つの運用タスクを形式化する。 彼らの最適効率は、複雑さを反映するエントロピーに依存します。 また, ファジィ操作下で単調に低下する2つの単調な非複雑度尺度を, 一定の条件下で提示する。 この研究は、量子情報理論から資源理論ツールキットの多体複雑性を解き放つ。

Quantum complexity is emerging as a key property of many-body systems, including black holes, topological materials, and early quantum computers. A state's complexity quantifies the number of computational gates required to prepare the state from a simple tensor product. The greater a state's distance from maximal complexity, or "uncomplexity," the more useful the state is as input to a quantum computation. Separately, resource theories -- simple models for agents subject to constraints -- are burgeoning in quantum information theory. We unite the two domains, confirming Brown and Susskind's conjecture that a resource theory of uncomplexity can be defined. The allowed operations, fuzzy operations, are slightly random implementations of two-qubit gates chosen by an agent. We formalize two operational tasks, uncomplexity extraction and expenditure. Their optimal efficiencies depend on an entropy that we engineer to reflect complexity. We also present two monotones, uncomplexity measures that decline monotonically under fuzzy operations, in certain regimes. This work unleashes on many-body complexity the resource-theory toolkit from quantum information theory.
翻訳日:2023-03-10 21:20:52 公開日:2022-12-19
# 公開量子コンピュータの精度テストとしてのボーンルール

Born rule as a test of the accuracy of a public quantum computer ( http://arxiv.org/abs/2112.07567v3 )

ライセンス: Link先を確認
Tomasz Bia{\l}ecki, Tomasz Rybotycki, Jakub Tworzyd{\l}o, Adam Bednorz(参考訳) 我々はIBMが提供する公開量子コンピュータ上でのBornルールの試験結果を分析する。 ランダムな角度で回転した単一の量子ビットを測定し、結果の膨大な統計を蓄積する。 異なるデバイスで行ったテストでは、ボルン則の予測から体系的な逸脱が示され、それは10^{-3}$で表される。 5つの標準偏差を超える差のいくつかは、パルス生成の非線形性による単純な補正では説明できない。 偏差の大きさは、ゲートのランダム化ベンチマークに匹敵するが、同時に発音されたパラメトリック依存性も観察する。 単一量子空間以外の状態を含む、偏差の可能性のある他の理由について論じる。 偏差は異なるタイミングで使用される様々なデバイスに類似した構造を持つため、不完全なゲート実装や関連する物理システムの忠実な記述を排除する診断ツールとしても機能する。

We analyze the results of the test of Born rule on the public quantum computer provided by IBM. We measure a single qubit rotated by a random angle, and we accumulate vast statistics of the results. The test performed on different devices shows systematic deviations from the prediction of the Born rule, which appear at the level $10^{-3}$. Some of the differences, beyond 5 standard deviations, cannot be explained by simple corrections due to nonlinearities of pulse generations. The magnitude of the deviation is comparable with the randomized benchmarking of the gate, but we additionally observe a pronounced parametric dependence. We discuss other possible reasons of the deviations, including states beyond the single-qubit space. The deviations have a similar structure for various devices used at different times, and so they can also serve as a diagnostic tool to eliminate imperfect gate implementations, and faithful description of the involved physical systems.
翻訳日:2023-03-04 14:02:45 公開日:2022-12-19
# 確率と強度の制約のないスケーラブルな2次元量子鍵分布ネットワーク

Scalable High-Rate Twin-Field Quantum Key Distribution Networks without Constraint of Probability and Intensity ( http://arxiv.org/abs/2112.11165v2 )

ライセンス: Link先を確認
Yuan-Mei Xie, Chen-Xun Weng, Yu-Shuo Lu, Yao Fu, Yang Wang, Hua-Lei Yin, Zeng-Bing Chen(参考訳) ツインフィールド量子鍵分布ネットワークの実装は、位相マッチング型プロトコルの干渉エラーの耐性の低さや、送受信型プロトコルの強度と確率に関する厳密な制約など、制限に直面している。 本稿では,量子リピータの多重化にインスパイアされた2光子ツインフィールド量子鍵分布プロトコルを提案する。 単光子干渉による2光子干渉を後マッチングにより実現した。 非干渉モードを符号モードとして利用し、干渉誤差を高度に許容し、2光子干渉は自然に強度と確率の制約を取り除く。 したがって、このプロトコルは、繰り返し量子鍵分布の秘密鍵容量を破りながら、上記の制限を超越することができる。 これらの機能はスケーラブルな量子ネットワーク向けに調整されており、固定されたシステムパラメータを持つ各ノードは異なる減衰リンクを動的に切り替えることができる。 シミュレーションにより,4ユーザネットワークでは,6つのリンクすべてに対するプロトコルの鍵レートが秘密鍵容量を超えたり近づいたりすることが示された。 しかし、位相マッチング型プロトコルを使用する場合、すべてのリンクのキーレートはキー容量よりも低い。 さらに、4つのリンクは、送信または送信しない型プロトコルを使用する場合、キーを抽出できなかった。 我々は,本プロトコルが,実用的で効率的な量子ネットワークの開発を促進することを期待する。

Implementation of a twin-field quantum key distribution network faces limitations, including the low tolerance of interference errors for phase-matching type protocols and the strict constraint regarding intensity and probability for sending-or-not-sending type protocols. Here, we propose a two-photon twin-field quantum key distribution protocol inspired by multiplexing in quantum repeaters. We achieve twin-field-type two-photon interference through post-matching phase-correlated single-photon interference events. We exploit the non-interference mode as the code mode to highly tolerate interference errors, and the two-photon interference naturally removes the intensity and probability constraint. Therefore, our protocol can transcend the abovementioned limitations while breaking the secret key capacity of repeaterless quantum key distribution. These features are tailored for scalable quantum networks, under which each node with fixed system parameters can dynamically switch different attenuation links. Simulations show that for a four-user network, the key rates of our protocol for all six links can either exceed or approach the secret key capacity. However, the key rates of all links are lower than the key capacity when using phase-matching type protocols. Additionally, four of the links could not extract the key when using sending-or-not-sending type protocols. We anticipate that our protocol can facilitate the development of practical and efficient quantum networks.
翻訳日:2023-03-03 22:36:41 公開日:2022-12-19
# オンラインクエリ応答のためのマルチアナリシスディファレンシャルプライバシ

Multi-Analyst Differential Privacy for Online Query Answering ( http://arxiv.org/abs/2212.09884v1 )

ライセンス: Link先を確認
David Pujol, Albert Sun, Brandon Fain, Ashwin Machanavajjhala(参考訳) ほとんどの微分プライベートメカニズムは、単一アナリストの使用のために設計されている。 しかし実際には、同じプライバシー損失予算を共有する必要がある、異なる、おそらく矛盾する優先順位を持つ複数の利害関係者がしばしばいます。 これは、多アナリストの差分プライバシーのための公平な予算共有の問題を引き起こす。 これまでの作業では,この領域の任意のメカニズムが満足すべきである,というデシラタを定義しました。 我々は、オンラインクエリ応答の場合には、前回のマルチアナリシスなプライベートクエリ応答に関する作業を拡張し、そこでは、クエリが一度にひとつになり、次に挙げたクエリを知らずに応答しなければならない。 オンラインケースにおける未知のクエリの順序付けは、デシダータを満足させながら答えられるクエリの数に根本的な制限をもたらすことを実証する。 応答として,デシダラタを満足するが基本的制約を受ける2つのメカニズムと,既存のオンラインクエリ応答機構がデシダラタを満足できるように入力順序をランダム化する2つのメカニズムを開発する。

Most differentially private mechanisms are designed for the use of a single analyst. In reality, however, there are often multiple stakeholders with different and possibly conflicting priorities that must share the same privacy loss budget. This motivates the problem of equitable budget-sharing for multi-analyst differential privacy. Our previous work defined desiderata that any mechanism in this space should satisfy and introduced methods for budget-sharing in the offline case where queries are known in advance. We extend our previous work on multi-analyst differentially private query answering to the case of online query answering, where queries come in one at a time and must be answered without knowledge of the following queries. We demonstrate that the unknown ordering of queries in the online case results in a fundamental limit in the number of queries that can be answered while satisfying the desiderata. In response, we develop two mechanisms, one which satisfies the desiderata in all cases but is subject to the fundamental limitations, and another that randomizes the input order ensuring that existing online query answering mechanisms can satisfy the desiderata.
翻訳日:2023-02-19 13:10:58 公開日:2022-12-19
# 文化に配慮した学習分析を設計する: 価値に敏感な視点

Designing Culturally Aware Learning Analytics: A Value Sensitive Perspective ( http://arxiv.org/abs/2212.09645v1 )

ライセンス: Link先を確認
Olga Viberg, Ioana Jivet, Maren Scheffel(参考訳) この章は、学習分析サービスの設計と実装において、文化に取り組むことの重要性を強調します。 学習分析は、学習の改善と教育の支援を目的として、さまざまな国で実施されてきた。 有望と思われるソリューションもあるが、その国から他の国への移転は、様々な技術的、社会的、文脈的、文化的要因のために困難で、時には不可能である可能性がある。 本章では,これらの要因の1つ,すなわち学習分析システムの設計と実装における文化的価値を慎重に検討する必要性について論じる。 本章では,1)学習分析システムの設計において重要な役割を果たす可能性のある2つの選択された価値(プライバシーと自律性)を実証し,2)文化的に意識された学習分析システムの設計を導く文化と価値に敏感なデザイン手法を適用する機会を論じる。 最後に、文化的に認識され、価値に敏感な学習分析サービスのための一連の設計内容を提供する。

This chapter aims to stress the importance of addressing culture when designing and implementing learning analytics services. Learning analytics have been implemented in different countries with the purpose of improving learning and supporting teaching; yet, largely at a limited scale and so far with limited evidence of achieving their purpose. Even though some solutions seem promising, their transfer from one country to another might prove challenging and sometimes impossible due to various technical, social, contextual and cultural factors. In this chapter, we argue for a need to carefully consider one of these factors, namely cultural values when designing and implementing learning analytics systems. Viewing culture from a value-sensitive perspective, in this chapter, we: 1)exemplify two selected values (i.e. privacy and autonomy) that might play a significant role in the design of learning analytics systems, and 2)discuss opportunities for applying culture-and value-sensitive design methods that can guide the design of culturally aware learning analytics systems. Finally, a set of design implications for culturally aware and value-sensitive learning analytics services is offered.
翻訳日:2023-02-19 13:09:54 公開日:2022-12-19
# 象がうなずくと人形が話すとき:環境リテラシーのためのロボットとストーリーテリング

When elephants nodded and dolls spoke: Bringing together robotics and storytelling for environmental literacy ( http://arxiv.org/abs/2212.09313v1 )

ライセンス: Link先を確認
Mukil M.V., Gayathri Manikutty, Divya Vijayan, Aparna Rangudu, Bhavani Rao R(参考訳) 持続可能な未来を創るためには,今日,子どもと若者の環境管理の原則を刻むことが急務である。 本稿では,インドにおける環境リテラシー促進のためのモデルとして,コンピュータ思考,ロボティクス,メイカースキルといったstem教育に着目しながら,物語話に基づくワークショップを展開する。 ワークショップでは、参加者がデジタルアニメーションとアニマトロニクスを使ってロボットジオラマを作り、物語を語る。 インドの6つの農村と半アーバンの学校で2019年に行われたパイロット研究からの最初の観察は、子どもたちがワークショップ全体を通して深く関わり、熱心に活動していることを示し、学習体験全体がとても有意義で楽しいものになりました。

Inculcating principles of environmental stewardship among the children and youth is needed urgently today for creating a sustainable future. This paper presents a model for promoting environment literacy in India using story telling based workshops while focusing on STEM education including computational thinking, robotics and maker skills. During the workshop, participants build a robotic diorama with digital animations and animatronics to tell their story. Our initial observations from pilot studies conducted in 2019 in six rural and semi-urban schools in India showed us that the children were deeply engaged and enthusiastic throughout the workshop making the entire learning experience a very meaningful and joyful one for all.
翻訳日:2023-02-19 13:09:22 公開日:2022-12-19
# マルチプロセッサプラットフォーム上での信頼性制約下でのワークフローのMakespanとEnergy-Awareスケジューリングアルゴリズム

A Makespan and Energy-Aware Scheduling Algorithm for Workflows under Reliability Constraint on a Multiprocessor Platform ( http://arxiv.org/abs/2212.09274v1 )

ライセンス: Link先を確認
Atharva Tekawade and Suman Banerjee(参考訳) 多くの科学ワークフローは、ノードが個々のタスクを表現し、有向エッジが2つのタスク間のデータおよび制御フロー依存性を表す有向非循環グラフ(dag)としてモデル化することができる。 大量のデータのために、マルチプロセッサシステムはこれらのワークフローの実行にしばしば使用される。 したがって、ワークフローのタスクをスケジューリングして特定の目標を達成する(メースパン、エネルギーの最小化、信頼性の最大化、プロセッサ利用など)ことは、組み込みシステムにおける研究の活発な領域である。 本稿では,与えられた信頼性制約に対するメーズパンとエネルギーを最小化するワークフロースケジューリングアルゴリズムを提案する。 信頼性の制約が高ければ、アクティブレプリケーションに基づくエネルギを意識したフォールトトレラントスケジューリング(eaftsと呼ばれる)も提案する。 また,タスクノードをプロセッサに割り当てることが知られていることから,プロセッサに周波数を割り当てる周波数割当アルゴリズムを開発した。 数学的には,我々のアルゴリズムは任意の信頼性制約に対して有効であることを示す。 提案する解法を解析し,その時間要件を理解する。 実世界のワークフローの実験では、私たちのアルゴリズムであるMERTとEAFTSが最先端のアプローチよりも優れていることが示されています。 特に、MERTはエネルギー消費を3.12%減少させ、平均で14.14%減少させる。 耐故障性の設定では,EAFTS法は最先端手法と比較して平均11.11%少ないエネルギー消費量となる。

Many scientific workflows can be modeled as a Directed Acyclic Graph (henceforth mentioned as DAG) where the nodes represent individual tasks, and the directed edges represent data and control flow dependency between two tasks. Due to the large volume of data, multiprocessor systems are often used to execute these workflows. Hence, scheduling the tasks of a workflow to achieve certain goals (such as minimizing the makespan, energy, or maximizing reliability, processor utilization, etc.) remains an active area of research in embedded systems. In this paper, we propose a workflow scheduling algorithm to minimize the makespan and energy for a given reliability constraint. If the reliability constraint is higher, we further propose Energy Aware Fault Tolerant Scheduling (henceforth mentioned as EAFTS) based on active replication. Additionally, given that the allocation of task nodes to processors is known, we develop a frequency allocation algorithm that assigns frequencies to the processors. Mathematically we show that our algorithms can work for any satisfiable reliability constraint. We analyze the proposed solution approaches to understand their time requirements. Experiments with real-world Workflows show that our algorithms, MERT and EAFTS, outperform the state-of-art approaches. In particular, we observe that MERT gives 3.12% lesser energy consumption and 14.14% lesser makespan on average. In the fault-tolerant setting, our method EAFTS gives 11.11% lesser energy consumption on average when compared with the state-of-art approaches.
翻訳日:2023-02-19 13:08:59 公開日:2022-12-19
# メタバースのためのモバイルエッジコンピューティング

Mobile Edge Computing for the Metaverse ( http://arxiv.org/abs/2212.09229v1 )

ライセンス: Link先を確認
Chang Liu, Yitong Wang, Jun Zhao(参考訳) metaverseは次世代のインターネットとして登場した。 人々が生き、学び、働き、相互に対話できる没入型で永続的な仮想空間を提供することを目指している。 しかし、既存の技術は、メタバースプレイヤーにとって高い視覚品質と超低レイテンシサービスを保証するには不十分である。 モバイルエッジコンピューティング(英語: Mobile Edge Computing、MEC)は、画像処理やビデオ解析のような計算集約的で遅延に敏感なタスクを実行するために、近縁サーバを利用するパラダイムである。 MECでは、大量のデータを取得場所に近いエッジサーバで処理することで、レイテンシを大幅に低減し、ほぼリアルタイムのパフォーマンスを提供する。 本稿では,MECフレームワークに基本要素(5Gおよび6G無線通信,ブロックチェーン,ディジタルツイン,人工知能)を統合し,Metaverseを実現する。 また,MEC対応Metaverseの研究課題と応用について詳述する。 最後に,実世界シナリオにおけるユーザユーティリティ最大化問題に関する詳細な知識を確立するためのケーススタディと,潜在的な研究方向の傾向に関する洞察を得ることを目的とする。

The Metaverse has emerged as the next generation of the Internet. It aims to provide an immersive, persistent virtual space where people can live, learn, work and interact with each other. However, the existing technology is inadequate to guarantee high visual quality and ultra-low latency service for the Metaverse players. Mobile Edge Computing (MEC) is a paradigm where proximal edge servers are utilized to perform computation-intensive and latency-sensitive tasks like image processing and video analysis. In MEC, the large amount of data is processed by edge servers closest to where it is captured, thus significantly reducing the latency and providing almost real-time performance. In this paper, we integrate fundamental elements (5G and 6G wireless communications, Blockchain, digital twin and artificial intelligence) into the MEC framework to facilitate the Metaverse. We also elaborate on the research problems and applications in the MEC-enabled Metaverse. Finally, we provide a case study to establish a thorough knowledge of the user utility maximization problem in a real-world scenario and gain some insights about trends in potential research directions.
翻訳日:2023-02-19 13:08:16 公開日:2022-12-19
# プロジェクト駆動型STEM教育のためのCDIO-CT協調戦略--数学的振り子周期の解明の図示

CDIO-CT collaborative strategy for project-driven STEM education: an illustration of solving the period of mathematical pendulum ( http://arxiv.org/abs/2212.09209v1 )

ライセンス: Link先を確認
Hong-Yan Zhang, Yu Zhou, Yu-Tao Li, Fu-Yun Li and Yong-Hui Jiang(参考訳) プロジェクト主導型STEM教育は、学生のイノベーション能力の育成に重要な役割を果たしている。 教育者が目的の多分野計画に取り組むために適切な方法論を採用することが重要な課題である。 大学や大学の学生のSTEM教育において,CDIOと計算思考の組み合わせに基づく新たなアプローチが提案され,CDIOは「どうやるか」,CTは「どのように考えるべきか」,プロジェクトは「何をすべきか」を意味する。 図示として, 数学振り子 (MP) の周期を解くプロジェクトについて, CDIO-CT協調戦略について詳述する。 このプロジェクトの最も重要な仕事は、第一種(CEI-1)の完全な楕円積分を解くことである。 STEM教育の哲学では、全ての問題には複数の解決策がある。 cei-1の計算には、無限級数法、算術-幾何平均法(agm)法、ガウス-チェビシェフ法、ガウス-レゲンドル法を含む4つの手法をトップダウン戦略で議論する。 関連するアルゴリズムはR \&Dプロジェクトで利用することができ、遭遇した要求に応じて再利用することができる。 CEI-1を計算するためのソフトウェアを開発する際に生じる概念やツールは、コンピュータプログラミングを教えるのに有用である。 大学や大学における学生やインストラクターに普及させる価値のある,MP の時代の表現と解決策を探求するプロジェクトに組み込まれた方法論が啓蒙されている。

The project-driven STEM education plays a significant role in training students' ability of innovation. It is a key issue that educators adopt appropriate methodology to work on the objective multi-discipline project of interest. A novel approach based on the combination of conceive-design-implement-operate (CDIO) and computational thinking (CT) is proposed for the STEM education of students in colleges and universities, in which the CDIO concerns ``how to do", CT concerns ``how to think", and the project means ``what to do". As an illustration, the project of solving the period of mathematical pendulum (MP) is discussed in detail with the CDIO-CT collaborative strategy. The most important work of this project is to solve the complete elliptic integral of the first kind (CEI-1). In the philosophy of STEM education, all problems have more than one solutions. For computing the CEI-1, four methods are discussed with a top-down strategy, which includes the infinite series method, arithmetic-geometric mean (AGM) method, Gauss-Chebyshev method and Gauss-Legendre method. The algorithms involved can be utilized for R \& D projects of interest and be reused according to the requirements encountered. The concepts and tools arising in developing the software for calculating CEI-1 are valuable for teaching computer programming. The methodology embedded in the project of exploring the expression and solution to the period of MP is enlightening, which is worth popularizing to students and instructors in colleges and universities.
翻訳日:2023-02-19 13:07:45 公開日:2022-12-19
# オンラインワクチン接種をめぐるcovid-19前後の議論における世界的誤情報の流出

Global misinformation spillovers in the online vaccination debate before and during COVID-19 ( http://arxiv.org/abs/2211.11495v3 )

ライセンス: Link先を確認
Jacopo Lenti, Kyriaki Kalimeri, Andr\'e Panisson, Daniela Paolotti, Michele Tizzani, Yelena Mejova, Michele Starnini(参考訳) 予防接種は、オンラインのソーシャルメディアに浸透し、科学的な専門知識に対する不信感を高め、ワクチンに固執する個人を増加させる。 これまでの研究は特定の国に焦点を当てていたが、新型コロナウイルスのパンデミックは予防接種に関する議論を世界中でもたらし、世界規模の情報フローに対処して効果的な対策を設計する必要性を浮き彫りにした。 ここでは、2019年10月から2021年3月までの18言語で、3億1600万件のワクチン関連Twitterメッセージを利用して、予防接種(no-vax)コンテンツに晒されたユーザ間の誤情報フローを定量化します。 パンデミックの間、no-vaxコミュニティは国固有の議論の中心となり、国境を越えたつながりが強化され、世界的なtwitter反ワクチンネットワークが明らかになった。 米国ユーザーはこのネットワークの中心であり、ロシアのユーザーは予防接種ロールアウト中に偽情報のネット輸出者となる。 興味深いことに、twitterのコンテンツモデレーションの取り組み、特に1月6日の米国議会議事堂攻撃後のユーザーの停止は、ワクチンに関する誤情報の拡散を減らすことに世界的な影響を与えた。 これらの発見は、公共の医療機関やソーシャルメディアプラットフォームが、脆弱なオンラインコミュニティを明らかにすることで、健康関連で低信頼な情報の拡散を緩和するのに役立つかもしれない。

Anti-vaccination views pervade online social media, fueling distrust in scientific expertise and increasing vaccine-hesitant individuals. While previous studies focused on specific countries, the COVID-19 pandemic brought the vaccination discourse worldwide, underpinning the need to tackle low-credible information flows on a global scale to design effective countermeasures. Here, we leverage 316 million vaccine-related Twitter messages in 18 languages, from October 2019 to March 2021, to quantify misinformation flows between users exposed to anti-vaccination (no-vax) content. We find that, during the pandemic, no-vax communities became more central in the country-specific debates and their cross-border connections strengthened, revealing a global Twitter anti-vaccination network. U.S. users are central in this network, while Russian users also become net exporters of misinformation during vaccination roll-out. Interestingly, we find that Twitter's content moderation efforts, and in particular the suspension of users following the January 6th U.S. Capitol attack, had a worldwide impact in reducing misinformation spread about vaccines. These findings may help public health institutions and social media platforms to mitigate the spread of health-related, low-credible information by revealing vulnerable online communities.
翻訳日:2023-02-19 12:33:42 公開日:2022-12-19
# 胸部X線基礎モデルにおけるバイアスのリスク

Risk of Bias in Chest X-ray Foundation Models ( http://arxiv.org/abs/2209.02965v2 )

ライセンス: Link先を確認
Ben Glocker, Charles Jones, Melanie Bernhardt, Stefan Winzeck(参考訳) ファンデーションモデルは、AIのあらゆる応用におけるブレークスルーと見なされ、機能抽出のための堅牢で再利用可能なメカニズムを約束し、タスク固有の予測モデルのための大量の高品質な注釈付きトレーニングデータの必要性を軽減する。 しかし、基礎モデルは、歴史的なデータセットに存在する既存のバイアスをエンコードし、強化する可能性さえある。 基礎モデルを精査する能力が限られているため、臨床意思決定のような安全上重要な応用において、その機会がリスクを上回るかどうかは不明である。 最近公表された胸部X線基礎モデルの統計バイアス分析では,生物性や人種的同一性を含む保護された特徴をコード化しているように見えるため,懸念されている。 疾患検出を下流で行う際には,保護されたサブグループで特異的に異なる標準モデルと比較して基礎モデルの性能が著しく低下するのが観察された。 医療アプリケーションの基礎モデルの研究は初期段階にあるが、徹底的なバイアスとサブグループのパフォーマンス分析の重要性を強調して、リスクに対する認識を高めたいと考えている。

Foundation models are considered a breakthrough in all applications of AI, promising robust and reusable mechanisms for feature extraction, alleviating the need for large amounts of high quality annotated training data for task-specific prediction models. However, foundation models may potentially encode and even reinforce existing biases present in historic datasets. Given the limited ability to scrutinize foundation models, it remains unclear whether the opportunities outweigh the risks in safety critical applications such as clinical decision making. In our statistical bias analysis of a recently published, and publicly accessible chest X-ray foundation model, we found reasons for concern as the model seems to encode protected characteristics including biological sex and racial identity. When used for the downstream application of disease detection, we observed substantial degradation of performance of the foundation model compared to a standard model with specific disparities in protected subgroups. While research into foundation models for healthcare applications is in an early stage, we hope to raise awareness of the risks by highlighting the importance of conducting thorough bias and subgroup performance analyses.
翻訳日:2023-02-19 11:01:09 公開日:2022-12-19
# SATA: ニューラルネットワークをスパイクするための空間認識トレーニングアクセラレータ

SATA: Sparsity-Aware Training Accelerator for Spiking Neural Networks ( http://arxiv.org/abs/2204.05422v3 )

ライセンス: Link先を確認
Ruokai Yin, Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として注目されている。 近年,時間的バックプロパゲーション(BPTT)を持つSNNは,他のSNNトレーニングアルゴリズムよりも高い精度で画像認識タスクを達成している。 アルゴリズムの観点からは成功したが、このSNNトレーニングアルゴリズムのハードウェア評価プラットフォームが欠如しているため、先行研究はBPTTのハードウェアエネルギーオーバーヘッドの評価を無視した。 さらに、SNNは長い間、エネルギー効率のよいANNとは見なされてきたが、SNNとANNのトレーニングコストの定量的比較は欠落している。 上記の課題に対処するため,本稿では,BPTTベースのSNNトレーニングアクセラレータであるSATA(Sparsity-Aware Training Accelerator)を紹介する。 提案したSATAは、BPTTベースのSNNトレーニングアルゴリズムのトレーニングエネルギーを簡易かつ再構成可能なサイストリックベースのアクセラレータアーキテクチャを提供する。 スパーシティを利用することで、SATAはスパーシティを使わずに計算エネルギー効率を5.58ドルに向上させる。 SATAに基づいて,SNNトレーニングのエネルギー効率を定量的に分析し,SNNとANNのトレーニングコストを比較した。 結果は、Eyerissのようなシストリクスベースのアーキテクチャでは、SNNはANNと比較して、余剰エネルギーで1.27\times$以上のエネルギーを消費していることを示している。 このような高い訓練エネルギーコストは、時間反復畳み込み操作とバックプロパゲーション中のデータ移動によるものである。 さらに,将来のSNNトレーニングアルゴリズムの設計を促進するために,異なるSNN固有のトレーニングパラメータに対するエネルギー効率に関するいくつかの観測結果を提供し,SNNトレーニングのためのエネルギー推定フレームワークを提案する。 私たちのフレームワークのコードは公開されています。

Spiking Neural Networks (SNNs) have gained huge attention as a potential energy-efficient alternative to conventional Artificial Neural Networks (ANNs) due to their inherent high-sparsity activation. Recently, SNNs with backpropagation through time (BPTT) have achieved a higher accuracy result on image recognition tasks than other SNN training algorithms. Despite the success from the algorithm perspective, prior works neglect the evaluation of the hardware energy overheads of BPTT due to the lack of a hardware evaluation platform for this SNN training algorithm. Moreover, although SNNs have long been seen as an energy-efficient counterpart of ANNs, a quantitative comparison between the training cost of SNNs and ANNs is missing. To address the aforementioned issues, in this work, we introduce SATA (Sparsity-Aware Training Accelerator), a BPTT-based training accelerator for SNNs. The proposed SATA provides a simple and re-configurable systolic-based accelerator architecture, which makes it easy to analyze the training energy for BPTT-based SNN training algorithms. By utilizing the sparsity, SATA increases its computation energy efficiency by $5.58 \times$ compared to the one without using sparsity. Based on SATA, we show quantitative analyses of the energy efficiency of SNN training and compare the training cost of SNNs and ANNs. The results show that, on Eyeriss-like systolic-based architecture, SNNs consume $1.27\times$ more total energy with sparsities when compared to ANNs. We find that such high training energy cost is from time-repetitive convolution operations and data movements during backpropagation. Moreover, to propel the future SNN training algorithm design, we provide several observations on energy efficiency for different SNN-specific training parameters and propose an energy estimation framework for SNN training. Code for our framework is made publicly available.
翻訳日:2023-02-17 08:04:35 公開日:2022-12-19
# 非一次量子セルオートマタにおける情報フロー

Information Flow in Non-Unitary Quantum Cellular Automata ( http://arxiv.org/abs/2204.09922v2 )

ライセンス: Link先を確認
Elisabeth Wagner, Ramil Nigmatullin, Alexei Gilchrist, Gavin K. Brennen(参考訳) 量子システムにおける情報の流れは、そのダイナミクスの基本的な特徴である。 量子セルオートマトン (QCA) は、時間と空間において離散的な更新が不変なシステムであり、境界を越えて量子情報のネットフローを定量化する指標理論が提案されている。 指数は有限深度局所回路の下での開始不変性という意味では厳密であるが、開量子系の非単位時間発展のためにシステムが環境に結合されたときに定義されない。 本稿では,地図の行列積演算子表現に基づいて局所的に計算できる,剛性のない情報電流を表す非単位QCAの新たな情報フロー尺度を提案する。

The information flow in a quantum system is a fundamental feature of its dynamics. An important class of dynamics are quantum cellular automata (QCA), systems with discrete updates invariant in time and space, for which an index theory has been proposed for the quantification of the net flow of quantum information across a boundary. While the index is rigid in the sense of begin invariant under finite-depth local circuits, it is not defined when the system is coupled to an environment, i.e. for non-unitary time evolution of open quantum systems. We propose a new measure of information flow for non-unitary QCA denoted the information current which is not rigid, but can be computed locally based on the matrix-product operator representation of the map.
翻訳日:2023-02-16 03:43:32 公開日:2022-12-19
# キタエフハニカムモデルにおけるスケーラブルな量子制御と非可換アノン生成

Scalable quantum control and non-abelian anyon creation in the Kitaev honeycomb model ( http://arxiv.org/abs/2205.10114v2 )

ライセンス: Link先を確認
Omar Raii, Florian Mintert, Daniel Burgarth(参考訳) Kitaev honeycombモデルは、量子情報のトポロジ的保護を伴う実験的に実現可能な量子計算を可能にするシステムである。 量子情報処理の実践的な実装は一般に断熱的、すなわち遅いダイナミクスに依存している。 ここでは, 北エブハニカムモデルから時間依存の場合へのフェミオン化の拡張により, 最適制御理論により, 断熱力学の制限を克服できることを示す。 さらに,サブ指数スケーリングによる大きな格子モデルに適用可能な量子制御法を提案する。

The Kitaev honeycomb model is a system allowing for experimentally realisable quantum computation with topological protection of quantum information. Practical implementation of quantum information processing typically relies on adiabatic, i.e. slow dynamics. Here we show that the restriction to adiabatic dynamics can be overcome with optimal control theory, enabled by an extension of the fermionization of the Kitaev honeycomb model to the time-dependent case. Moreover we present a quantum control method that is applicable to large lattice models due to sub-exponential scaling.
翻訳日:2023-02-12 08:05:26 公開日:2022-12-19
# 量子ハウス効果:古典性と量子ディスコードの間のギャップを埋める

The Quantum-House Effect: Filling the Gap Between Classicality and Quantum Discord ( http://arxiv.org/abs/2205.12726v8 )

ライセンス: Link先を確認
Tam\'as Varga(参考訳) 量子ハウス効果(quantum-house effect)は、量子不一致が存在しないように見える非局所現象である。 どちらのサブシステムも純粋な状態ではない場合、効果は十分である。 このように、量子ハウス効果は自明な相関と量子不和の間のギャップを完全に埋めている。 しかし、「量子ハウスゲーム」と呼ばれる具体的な暗号設定では、量子ハウス効果が機能するためには量子ディスコードを生成する能力が必要であることを示すことにより、状況がより微妙である理由を議論する。 次に、物理系がそれ自身を含む情報に基づいて、一般に古典性から外れる量子性を特徴付ける「量子分離」という原理を提案する。 量子ハウス効果は、2量子ビットの液体状態NMRデスクトップ量子コンピュータであるSpinQ Gemini上で実証される。

We introduce the quantum-house effect, a non-local phenomenon which apparently does not require quantum discord to be present. It suffices for the effect if neither subsystem of a bipartite system is in a pure state. This way, the quantum-house effect completely fills the gap between trivial correlations and quantum discord. However, we discuss why the situation is more subtle than that, by showing that in a concrete cryptographic setting called "the quantum-house game", the ability to produce quantum discord is in fact necessary for the quantum-house effect to work. Then, we suggest a principle called "quantum detachment" to characterize where quantumness in general departs from classicality, based on the information a physical system contains about itself. The quantum-house effect is demonstrated on SpinQ Gemini, a 2-qubit liquid-state NMR desktop quantum computer.
翻訳日:2023-02-11 21:46:15 公開日:2022-12-19
# 過渡電圧源の値の定量化

Quantifying the value of transient voltage sources ( http://arxiv.org/abs/2206.09126v2 )

ライセンス: Link先を確認
Swati, Uttam Singh, Oscar C. O. Dahlsten(参考訳) 一部の電圧源は過渡的であり、人間の動きを電気に変換することによって発生する電圧のように、一瞬だけ持続する。 このようなソースは、内部抵抗と同様にランダムさの度合いを持つ傾向がある。 我々は、与えられた過渡的源がどれほど価値があるかに数字を割り当てる方法について調査する。 体系的なアプローチによるいくつかの候補措置を導出する。 このようなソース間でのコンバータビリティー階層を確立し、コンバータビリティー変換はソースにパッシブインタフェース回路を追加することを意味する。 周囲温度の抵抗器はこの階層の下部にあり、内部抵抗が低く、内部電圧が高いソースが上部にある。 与えられたソースに対して、この階層を尊重するソースに番号を割り当てる3つの可能な測度を提供する。 つまり、$1$V dcで$1\Omega$内部抵抗は$1$である。 別の尺度は電圧時系列の信号対雑音比に関係し、3つめは電圧確率分布と熱雑音抵抗との相対エントロピーに基づいている。 我々は、unitdc測度は、ソースを生成するために組み合わせなければならない単位dc源の数や、ソースから蒸留できる単位dc源の数という操作解釈によって、特に有用であると主張する。

Some voltage sources are transient, lasting only for a moment of time, such as the voltage generated by converting a human motion into electricity. Such sources moreover tend to have a degree of randomness as well as internal resistance. We investigate how to put a number to how valuable a given transient source is. We derive several candidate measures via a systematic approach. We establish an inter-convertibility hierarchy between such sources, where inter-conversion means adding passive interface circuits to the sources. Resistors at the ambient temperature are at the bottom of this hierarchy and sources with low internal resistance and high internal voltages are at the top. We provide three possible measures for a given source that assign a number to the source respecting this hierarchy. One measure captures how much ``unitdc" the source contains, meaning $1$ V dc with $1\Omega$ internal resistance for $1$s. Another measure relates to the signal-to-noise ratio of the voltage time-series whereas a third is based on the relative entropy between the voltage probability distribution and a thermal noise resistor. We argue that the unitdc measure is particularly useful by virtue of its operational interpretation in terms of the number of unit dc sources that one needs to combine to create the source or that can be distilled from the source.
翻訳日:2023-02-08 23:37:45 公開日:2022-12-19
# 二次ハミルトニアンを持つボゾン場に対する量子リウビリアン例外点とダイアボリック点:ハイゼンベルク・ランゲヴィン方程式のアプローチ

Quantum Liouvillian exceptional and diabolical points for bosonic fields with quadratic Hamiltonians: The Heisenberg-Langevin equation approach ( http://arxiv.org/abs/2206.14745v2 )

ライセンス: Link先を確認
Jan Perina Jr and Adam Miranowicz and Grzegorz Chimczak and Anna Kowalewska-Kudlaszyk(参考訳) 開量子系のリウヴィリアンの固有値を決定するための等価なアプローチは、ハイゼンベルク・ランゲバン方程式の解と対応する作用素モーメントの方程式を用いて議論される。 単純な減衰2レベル原子を解析し、両方のアプローチの等価性を示す。 提案手法は,運動方程式の動的行列の構造および固有周波数と,一般二次ハミルトニアンによって記述されたボソニックモードの相互作用の退化について明らかにするために用いられる。 2つのモードの場合、量子リウヴィリアの例外点とダイアボリック点とその退化点が明確に議論される。 振幅スペクトルでは直接認識されない量子ハイブリッドなダイボリックな例外点(継承、真、誘導)と隠れた例外点が観察される。 ハイゼンベルク・ランジュバン方程式を通じて提示されたアプローチは、無限次元開量子系における量子例外点とダイアボリック点の詳細な解析への一般的な方法である。

Equivalent approaches to determine eigenfrequencies of the Liouvillians of open quantum systems are discussed using the solution of the Heisenberg-Langevin equations and the corresponding equations for operator moments. A simple damped two-level atom is analyzed to demonstrate the equivalence of both approaches. The suggested method is used to reveal the structure as well as eigenfrequencies of the dynamics matrices of the corresponding equations of motion and their degeneracies for interacting bosonic modes described by general quadratic Hamiltonians. Quantum Liouvillian exceptional and diabolical points and their degeneracies are explicitly discussed for the case of two modes. Quantum hybrid diabolical exceptional points (inherited, genuine, and induced) and hidden exceptional points, which are not recognized directly in amplitude spectra, are observed. The presented approach via the Heisenberg-Langevin equations paves the general way to a detailed analysis of quantum exceptional and diabolical points in infinitely dimensional open quantum systems.
翻訳日:2023-02-07 07:28:51 公開日:2022-12-19
# 4色法による希土類イオンドープ結晶のスピンスクイーズ法の提案

Proposal for spin squeezing in rare-earth ion-doped crystals with a four-color scheme ( http://arxiv.org/abs/2207.02169v2 )

ライセンス: Link先を確認
Tam\'as Kriv\'achy, Krzysztof T. Kaczmarek, Mikael Afzelius, Jean Etesse and G\'eraldine Haack(参考訳) 固体デバイス内でのスピンスクイーズの実現は、その特性の約束、例えば、その長いコヒーレンス時間、低温実験の可能性、エンタングルメントアシストセンサーのオンチップへの統合など、長期にわたる研究目標である。 本研究では,希土類イオンドープ結晶のスピンスクイーズを実現するための干渉計フリー4色スキームについて検討した。 この提案は、光間相互作用のためのtavis-cummingsモデルから始まり、スピンスキーング生成に関する微視的な洞察を提供する解析的導出に依存する。 光強度分散におけるスピンスクイーズ符号の証明を行う。 我々は、量子技術の発展のワークホースであるEuropium-およびPraseodymium-doped yttrium orthosilicatesの2つの特定の事例を考慮する。 スピンスクイージングの最大8dBは、光子散乱によるノイズを含む、容易にアクセス可能な実験資源で得ることができることを示す。 希土類イオンドープ結晶は多体絡み合い状態の操作や高精度測定に有望な特性を付加する。

Achieving spin squeezing within solid-state devices is a long standing research goal, due to the promise of their particularities, for instance their long coherence times, the possibility of low-temperature experiments or integration of entanglement-assisted sensors on-chip. In this work, we investigate an interferometer-free four-color scheme to achieve spin squeezing of rare-earth ion-doped crystals. The proposal relies on an analytic derivation that starts from a Tavis-Cummings model for light-matter interaction, providing microscopic insights onto spin-squeezing generation. We evidence spin squeezing signature in the light intensity variance. We consider the two particular cases of europium- and praseodymium-doped yttrium orthosilicates, workhorses of quantum technology developments. We show that up to 8 dB of spin squeezing can be obtained with readily accessible experimental resources, including noise due to photon scattering. Our results for rare-earth ion-doped crystals add to promising properties of these platforms for manipulating many-body entangled states and for high-precision measurements.
翻訳日:2023-02-06 12:35:45 公開日:2022-12-19
# 無調波リプキン-メシュコフ-グリックモデルにおける励起状態量子相転移:動的側面

Excited-State Quantum Phase Transitions in the Anharmonic Lipkin-Meshkov-Glick Model: Dynamical Aspects ( http://arxiv.org/abs/2207.04489v3 )

ライセンス: Link先を確認
Jamil Khalouf-Rivera, Juan Gamito, Francisco P\'erez-Bernal, Jos\'e Miguel Arias, Pedro P\'erez-Fern\'andez(参考訳) 標準のLipkin-Meshkov-Glick(LMG)モデルは、二階基底量子相転移(QPT)と励起状態量子相転移(ESQPT)を行う。 LMGハミルトニアンへの無調和項の包含は、モデルの静的特性を変更する第二のESQPT(Phys. Rev. E 106, 044125 (2022))]をもたらす。 本研究では, この新たなESQPTに関する動的含意を解析した。 その目的のために、量子クエンチプロトコルは、初期状態(通常は基底状態)を時間とともに進化する複雑な励起状態にするハミルトニアン系上で定義される。 量子クエンチ後の生存確率と状態の局所密度の時間的変化に対する新しいESQPTの影響と、ロシミットエコーと時間外相関器(OTOC)について述べる。 無調波誘発ESQPTは、物理的起源が異なるにもかかわらず、標準LMGモデルにすでに存在するESQPTと同様のダイナミックな結果をもたらす。

The standard Lipkin-Meshkov-Glick (LMG) model undergoes a second-order ground-state quantum phase transition (QPT) and an excited-state quantum phase transition (ESQPT). The inclusion of an anharmonic term in the LMG Hamiltonian gives rise to a second ESQPT that alters the static properties of the model [Phys. Rev. E 106, 044125 (2022)]. In the present work, the dynamical implications associated to this new ESQPT are analyzed. For that purpose, a quantum quench protocol is defined on the system Hamiltonian that takes an initial state, usually the ground state, into a complex excited state that evolves on time. The impact of the new ESQPT on the time evolution of the survival probability and the local density of states after the quantum quench, as well as on the Loschmidt echoes and the microcanonical out-of-time-order correlator (OTOC) are discussed. The anharmonity-induced ESQPT, despite having a different physical origin, has dynamical consequences similar to those observed in the ESQPT already present in the standard LMG model.
翻訳日:2023-02-05 14:54:07 公開日:2022-12-19
# 作用素流と相関関数の量子速度限界

Quantum speed limits on operator flows and correlation functions ( http://arxiv.org/abs/2207.05769v3 )

ライセンス: Link先を確認
Nicoletta Carabba, Niklas H\"ornedal, Adolfo del Campo(参考訳) 量子速度制限(QSL)は、量子状態の変化率や観測可能な値の期待値に対する低い境界を提供することによって、物理過程の基本的な時間スケールを識別する。 物理学においてユビキタスであり、量子領域と古典領域の両方で応用されるユニタリ作用素フローに対するqslの一般化を提案する。 2種類のqslを導出し、それらの間のクロスオーバーの存在を評価し、キュービットとランダム行列ハミルトニアンを標準例として示す。 さらに, この結果を自己相関関数の時間発展に適用し, 平衡外における量子系の線形動的応答に対する計算可能な制約と, 量子パラメータ推定における精度を規定する量子フィッシャー情報を得る。

Quantum speed limits (QSLs) identify fundamental time scales of physical processes by providing lower bounds on the rate of change of a quantum state or the expectation value of an observable. We introduce a generalization of QSL for unitary operator flows, which are ubiquitous in physics and relevant for applications in both the quantum and classical domains. We derive two types of QSLs and assess the existence of a crossover between them, that we illustrate with a qubit and a random matrix Hamiltonian, as canonical examples. We further apply our results to the time evolution of autocorrelation functions, obtaining computable constraints on the linear dynamical response of quantum systems out of equilibrium and the quantum Fisher information governing the precision in quantum parameter estimation.
翻訳日:2023-02-05 09:18:25 公開日:2022-12-19
# 相関とコヒーレンスとの変換による絡み合いの最適性

Fulfilling entanglement's optimal advantage via converting correlation to coherence ( http://arxiv.org/abs/2207.06609v2 )

ライセンス: Link先を確認
Haowei Shi, Bingzhi Zhang and Quntao Zhuang(参考訳) エンタングルメントは、センシングと通信における性能の限界を増大させ、驚くべきことに、量子照明(phys. rev. lett. 101, 253601 (2008))によって証明されたように、エンタングル性破壊ノイズの存在下では、古典的なプロトコルよりも有利である。 しかし、そのような利点を最大限に発揮するには最適な測定設計が必要であり、エンタングルメントが損失とノイズによって破壊された後、情報は弱く量子相関に符号化されるため、課題は解決される。 このため、様々なエンタングルメントエンハンスプロトコルがデビューしてからしばらく経っても、最適な測定設計はいまだに解明されていない。 本稿では,量子照明,位相推定,古典通信,ターゲット範囲,任意の熱損失チャネルパターンの分類など,幅広いエンタングルメント強化プロトコルに対する最適受信機設計を可能にする,コヒーレント二次変位に対する量子相関のキャプチャと変換を行う変換モジュールを提案する。 ヘテロダインおよびパッシブ線形光学により、変換モジュールは、マルチモード量子検出問題をシングルモードノイズコヒーレント状態の半古典的検出問題にマッピングし、明示的な測定結果を構築して最適性能を達成する。 本モジュールは、短期的実装のためのノイズ量子相関を処理するパラダイムを提供する。

Entanglement boosts performance limits in sensing and communication, and surprisingly the advantage over classical protocols is even larger in presence of entanglement-breaking noise, as examplified by quantum illumination [Phys. Rev. Lett. 101, 253601 (2008)]. However, to maximally fulfill such advantages requires an optimal measurement design, a challenging task as information is encoded in the feeble quantum correlation after entanglement is destroyed by loss and noise. For this reason, the optimal measurement design is still elusive for various entanglement-enhanced protocols long after their debut. We propose a conversion module to capture and transform the quantum correlation to coherent quadrature displacement, which enables the optimal receiver design for a wide range of entanglement-enhanced protocols, including quantum illumination, phase estimation, classical communication, target ranging and arbitrary thermal-loss channel pattern classification. Via heterodyne and passive linear optics, the conversion module maps the multi-mode quantum detection problem to the semi-classical detection problem of a single-mode noisy coherent state, so that explicit measurements can be constructed to achieve the optimal performance. Our module provides a paradigm of processing noisy quantum correlations for near-term implementation.
翻訳日:2023-02-05 01:38:09 公開日:2022-12-19
# 量子特異値変換による古典量子アルゴリズム補間の単純化

Simplifying a classical-quantum algorithm interpolation with quantum singular value transformations ( http://arxiv.org/abs/2207.14810v2 )

ライセンス: Link先を確認
Duarte Magano, Miguel Mur\c{c}a(参考訳) 位相推定(または振幅推定)の問題は二次量子スピードアップを許容する。 Wang, Iggott and Brierly [2019, Phys. Rev. 122 140504] は、量子スピードアップと回路深さの間に連続的なトレードオフが存在することを示した($\alpha$-QPEとして知られるアルゴリズムのファミリーを定義することによって)。 本稿では,量子特異値変換(QSVT)の枠組みにおいて,$\alpha$-QPEのスケーリングが自然かつ簡潔に導出可能であることを示す。 QSVTの観点からは、より多くのコヒーレントなオラクル呼び出しが、位相推定を解くための重要なルーチンである符号関数へのより良い多項式近似に変換される。 符号関数の近似が良くなるほど、符号を正確に決定する必要があるサンプルは少なくなる。 このアイデアにより、$\alpha$-QPEの証明を簡素化し、補間パラメータの新しい解釈を提供し、QSVTが古典量子補間を推論するための有望なフレームワークであることを示す。

The problem of Phase Estimation (or Amplitude Estimation) admits a quadratic quantum speedup. Wang, Iggott and Brierly [2019, Phys. Rev. Lett. 122 140504] have shown that there is a continuous trade-off between quantum speedup and circuit depth (by defining a family of algorithms known as $\alpha$-QPE). In this work, we show that the scaling of $\alpha$-QPE can be naturally and succinctly derived within the framework of Quantum Singular Value Transformation (QSVT). From the QSVT perspective, a greater number of coherent oracle calls translates into a better polynomial approximation to the sign function, which is the key routine for solving Phase Estimation. The better the approximation to the sign function, the fewer samples one needs to determine the sign accurately. With this idea, we simplify the proof of $\alpha$-QPE, while providing a new interpretation of the interpolation parameters, and show that QSVT is a promising framework for reasoning about classical-quantum interpolations.
翻訳日:2023-02-03 02:05:51 公開日:2022-12-19
# 人工ホーキング放射、弱い擬ハーミティティーおよびワイル半金属ブラックホール類似

Artificial Hawking radiation, weak pseudo-Hermiticity and Weyl semimetal blackhole analogy ( http://arxiv.org/abs/2208.00599v3 )

ライセンス: Link先を確認
Bijan Bagchi, Sauvik Sen(参考訳) 傾斜パラメータを含む非PT対称性の弱い擬似エルミート2バンドモデルを提案することで,ワイル半金属ブラックホールの類似を追究し,人工ホーキング放射の可能性を検討する。 このようなハミルトニアンを用いて、古典的に禁止される障壁として作用する事象地平線をトンネルする確率を決定する。

We examine the possibility of artificial Hawking radiation by proposing a non-PT-symmetric weakly pseudo-Hermitian two-band model containing a tilting parameter by pursuing Weyl semimetal blackhole analogy. We determine the tunnelling probability using such a Hamiltonian through the event horizon that acts as a classically forbidden barrier.
翻訳日:2023-02-02 19:12:32 公開日:2022-12-19
# CZゲート忠実度が99.8\%を超える長距離トランスモンカプラ

Long-distance transmon coupler with CZ gate fidelity above $99.8\%$ ( http://arxiv.org/abs/2208.09460v2 )

ライセンス: Link先を確認
Fabian Marxer, Antti Veps\"al\"ainen, Shan W. Jolin, Jani Tuorila, Alessandro Landra, Caspar Ockeloen-Korppi, Wei Liu, Olli Ahonen, Adrian Auer, Lucien Belzane, Ville Bergholm, Chun Fai Chan, Kok Wai Chan, Tuukka Hiltunen, Juho Hotari, Eric Hyypp\"a, Joni Ikonen, David Janzso, Miikka Koistinen, Janne Kotilahti, Tianyi Li, Jyrgen Luus, Miha Papic, Matti Partanen, Jukka R\"abin\"a, Jari Rosti, Mykhailo Savytskyi, Marko Sepp\"al\"a, Vasilii Sevriuk, Eelis Takala, Brian Tarasinski, Manish J. Thapa, Francesca Tosto, Natalia Vorobeva, Liuqi Yu, Kuan Yen Tan, Juha Hassel, Mikko M\"ott\"onen and Johannes Heinsoo(参考訳) 超伝導量子ビットの可変結合は、スケーラブルな量子プロセッサアーキテクチャにおける孤立ゲート演算の重要性から、広く研究されている。 ここでは,浮動式トランスモン装置をベースとした可変量子ビットカップラを実演し,キュービット同士の50MHz以上の結合を維持しながら,少なくとも2mmの間隔で量子ビットを配置できることを示した。 導入されたチューナブル・カップラー設計では、qubit-qubitとqubit-couplerのカップリングは、コンポーネント間の直接容量結合に頼るのではなく、2つの導波路によって仲介され、qubit-qubit距離がカップリングに与える影響を減少させる。 これにより、各キュービットが個々の読み出し共振器と高速高忠実度読み出しに必要なパーセルフィルタを持つスペースが確保される。 さらに、大きなqubit-qubit距離は望ましくない非アレスト近傍結合を減少させ、最小のクロストークで複数の制御線路が構造物を横切ることを可能にする。 提案するフレキシブルでスケーラブルなアーキテクチャを用いて,$(99.81 \pm 0.02)\%$ fidelityの制御された$z$ゲートを実演する。

Tunable coupling of superconducting qubits has been widely studied due to its importance for isolated gate operations in scalable quantum processor architectures. Here, we demonstrate a tunable qubit-qubit coupler based on a floating transmon device which allows us to place qubits at least 2 mm apart from each other while maintaining over 50 MHz coupling between the coupler and the qubits. In the introduced tunable-coupler design, both the qubit-qubit and the qubit-coupler couplings are mediated by two waveguides instead of relying on direct capacitive couplings between the components, reducing the impact of the qubit-qubit distance on the couplings. This leaves space for each qubit to have an individual readout resonator and a Purcell filter needed for fast high-fidelity readout. In addition, the large qubit-qubit distance reduces unwanted non-nearest neighbor coupling and allows multiple control lines to cross over the structure with minimal crosstalk. Using the proposed flexible and scalable architecture, we demonstrate a controlled-$Z$ gate with $(99.81 \pm 0.02)\%$ fidelity.
翻訳日:2023-01-30 11:59:13 公開日:2022-12-19
# エンタングル光子の相関測定からのフィードバックによる繊維の非局所偏光アライメントと制御

Non-local polarization alignment and control in fiber using feedback from correlated measurements of entangled photons ( http://arxiv.org/abs/2209.06920v2 )

ライセンス: Link先を確認
Evan Dowling, Mark Morris, Gerald Baumgartner, Rajarshi Roy, Thomas E. Murphy(参考訳) 量子情報を符号化するために絡み合った光子の偏光を用いる量子測定は、空間的に分離された観測者間で測定基地の校正とアライメントを必要とする。 温度変動や外部の機械的振動から生じる光ファイバの複屈折の変化により、ファイバチャネルの終端の偏光状態は予測不能であり、時間的に変動する。 古典的な光通信のために開発された偏光追跡と安定化法は、別々に検出された光子が統計的に非偏光化されているが量子力学的に相関している偏光絡みの光子には適用できない。 本稿では,空間分離検出器間の偏光測定基地の自動アライメントと動的追跡について報告する。 このシステムはNelder-Mead単純な方法を用いて、古典的な波長多重化パイロットトーンや時間的インターリーブされた偏光子に頼ることなく、非局所測定光子対間の観測された一致率を最小化する。 配向と制御は7.1kmの繊維ループと制御されたドリフトのシナリオで実証される。

Quantum measurements that use the entangled photons' polarization to encode quantum information require calibration and alignment of the measurement bases between spatially separate observers. Because of the changing birefringence in optical fibers arising from temperature fluctuations or external mechanical vibrations, the polarization state at the end of a fiber channel is unpredictable and time-varying. Polarization tracking and stabilization methods originally developed for classical optical communications cannot be applied to polarization-entangled photons, where the separately detected photons are statistically unpolarized, yet quantum mechanically correlated. We report here a fast method for automatic alignment and dynamic tracking of the polarization measurement bases between spatially separated detectors. The system uses the Nelder-Mead simplex method to minimize the observed coincidence rate between non-locally measured entangled photon pairs, without relying on classical wavelength-multiplexed pilot tones or temporally interleaved polarized photons. Alignment and control is demonstrated in a 7.1 km deployed fiber loop as well as in a controlled drifting scenario.
翻訳日:2023-01-26 16:41:10 公開日:2022-12-19
# パラメトリックダウンコンバージョンによる二光子状態のガウス近似の妥当性の最大化

Maximizing the Validity of the Gaussian Approximation for the biphoton State from Parametric Downconversion ( http://arxiv.org/abs/2210.02340v2 )

ライセンス: Link先を確認
Baghdasar Baghdasaryan, Fabian Steinlechner, Stephan Fritzsche(参考訳) 自然パラメトリックダウンコンバージョン(SPDC)は、フォトニックエンタングルメントに基づく量子アプリケーションで広く使われている。 フォトン対生成の効率は、典型的には$sinc(l\delta k/2)$-関数によって特徴づけられるが、ここでは$l$は非線形媒質の長さ、$\delta k$はポンプとダウン変換場の間の位相ミスマッチである。 理論的研究において、位相ミスマッチの \textit{sinc} の挙動は、SPDC過程の解析式を導出するためにガウス函数 $\exp{(-\alpha x^2)}$ によって近似されることが多い。 最適化係数 $\alpha$ の文献では、例えば \textit{sinc} とガウス函数の幅や下向き変換光子の運動量を比較することで異なる値が選択されている。 その結果、$\alpha$の異なる値は、同じ設定に対して異なる理論的予測を提供する。 したがって、このパラメータの情報的かつユニークな選択が必要である。 本研究では,ガウス近似の妥当性を最大化する$\alpha$の選択を提案する。 さらに,実験の予測能力が向上した実用的な代替案として,いわゆる \textit{super}-gaussian と \textit{cosine}-gaussian についても論じる。

Spontaneous parametric down-conversion (SPDC) is widely used in quantum applications based on photonic entanglement. The efficiency of photon pair generation is often characterized by means of a $sinc(L\Delta k/2)$-function, where $L$ is the length of the nonlinear medium and $\Delta k$ the phase mismatch between the pump and down-converted fields. In theoretical investigations, the \textit{sinc} behavior of the phase mismatch has often been approximated by a Gaussian function $\exp{(-\alpha x^2)}$ in order to derive analytical expressions for the SPDC process. Different values have been chosen in the literature for the optimization factor $\alpha$, for instance by comparing the widths of \textit{sinc} and Gaussian functions or the momentum of down-converted photons. As a consequence, different values for $\alpha$ provide different theoretical predictions for the same setup. Therefore, an informed and unique choice of this parameter is necessary. In this work, we present a choice of $\alpha$ which maximizes the validity of the Gaussian approximation. Moreover, we also discuss the so-called \textit{super}-Gaussian and \textit{cosine}-Gaussian approximations as practical alternatives with improved predictive power for experiments.
翻訳日:2023-01-23 17:34:06 公開日:2022-12-19
# 逆高調波発振器におけるクリロフ複雑性

Krylov complexity in inverted harmonic oscillator ( http://arxiv.org/abs/2210.06815v4 )

ライセンス: Link先を確認
Seungjoo Baek(参考訳) 近年,演算子成長の指標として,時間外相関器(OTOC)とクリロフ複雑性が積極的に研究されている。 OTOCはカオス系の指数的な成長を示すことが知られており、これは以前の多くの研究で確認された。 しかし, 非カオス系では, otoc がカオス的な振る舞いを示し, 鞍型スクランブルとカオス系を区別できないことが観察された。 k-複素性については、普遍作用素成長仮説において、ランチョス係数はカオス系において線形成長を示しており、これは最速である。 しかし近年,Lanczos係数とK-複雑度はLMGモデルにおいてカオス的挙動を示し,カオスからサドル支配スクランブルを区別できないことが明らかとなった。 本稿では,逆調和振動子におけるLanczos係数とK-complexityを計算する。 LMGモデルの場合と一致するカオス的行動を示すことが判明した。 また,量子リアプノフ係数とランチョス係数の成長速度の境界を解析し,カオス系に差があることを見いだした。 マイクロカノニカルK錯体もOTOCの場合と比較して分析・比較した。

Recently, the out-of-time-ordered correlator(OTOC) and Krylov complexity have been studied actively as a measure of operator growth. OTOC is known to exhibit exponential growth in chaotic systems, which was confirmed in many previous works. However, in some non-chaotic systems, it was observed that OTOC shows chaotic behavior and cannot distinguish saddle-dominated scrambling from chaotic systems. For K-complexity, in the universal operator growth hypothesis, it was stated that Lanczos coefficients show linear growth in chaotic systems, which is the fastest. But recently, it appeared that Lanczos coefficients and K-complexity show chaotic behavior in the LMG model and cannot distinguish saddle-dominated scrambling from chaos. In this paper, we compute Lanczos coefficients and K-complexity in an inverted harmonic oscillator. We find that they exhibit chaotic behavior, which agrees with the case of the LMG model. We also analyze bounds on the quantum Lyapunov coefficient and the growth rate of Lanczos coefficients and find that there is a difference with the chaotic system. Microcanonical K-complexity is also analyzed and compared with the OTOC case.
翻訳日:2023-01-22 17:04:14 公開日:2022-12-19
# 雑音量子コンピュータ上でのプラットフォーム非依存量子エラー緩和の検証

Testing platform-independent quantum error mitigation on noisy quantum computers ( http://arxiv.org/abs/2210.07194v2 )

ライセンス: Link先を確認
Vincent Russo, Andrea Mari, Nathan Shammah, Ryan LaRose, William J. Zeng(参考訳) 我々は,様々なベンチマーク問題や量子コンピュータに量子誤差緩和手法を適用し,実際の量子誤差緩和性能を評価する。 そのために私たちは,改善要因と呼ばれるエラー緩和の改善に関する経験的動機付けとリソース正規化の指標を定義し,その指標を実験毎に計算します。 提案手法は, ibm, ionq, rigetti 量子コンピュータ上で実行される2つのベンチマーク問題に適用可能なゼロノイズ補間と確率的エラーキャンセラと雑音量子コンピュータシミュレータから構成される。 以上の結果から,誤差軽減効果は誤り緩和効果よりも平均的に有益であることが示されたが,量子誤差緩和性能は基礎となるコンピュータに依存することも強調した。

We apply quantum error mitigation techniques to a variety of benchmark problems and quantum computers to evaluate the performance of quantum error mitigation in practice. To do so, we define an empirically motivated, resource-normalized metric of the improvement of error mitigation which we call the improvement factor, and calculate this metric for each experiment we perform. The experiments we perform consist of zero-noise extrapolation and probabilistic error cancellation applied to two benchmark problems run on IBM, IonQ, and Rigetti quantum computers, as well as noisy quantum computer simulators. Our results show that error mitigation is on average more beneficial than no error mitigation - even when normalized by the additional resources used - but also emphasize that the performance of quantum error mitigation depends on the underlying computer.
翻訳日:2023-01-22 16:55:38 公開日:2022-12-19
# 強結合量子多体系への経路積分的アプローチ

Path-integral approaches to strongly-coupled quantum many-body systems ( http://arxiv.org/abs/2210.16676v2 )

ライセンス: Link先を確認
Kilian Fraboulet(参考訳) この論文の核心は、量子場理論の経路積分的定式化とその有限サイズの強結合量子多体系を記述する能力である。 集団行動は、平均場アプローチにおける自発的対称性破砕(ssb)の実装を通じて、そのようなシステムで効率的に記述できる。 しかし、有限サイズ系では熱力学限界が意味をなさないため、後者はSSBを一切示さず、平均場レベルで分解される対称性は復元されなければならない。 したがって、有限サイズの量子システムの処理における理論的アプローチの効率は、自発的に破れた対称性を復元する能力によって研究することができる。 In this thesis, a zero-dimensional $O(N)$ model is taken as a theoretical laboratory to perform such an investigation with many state-of-the-art path-integral techniques: perturbation theory combined with various resummation methods (Pad\'e-Borel, Borel-hypergeometric, conformal mapping), enhanced versions of perturbation theory (transseries derived via Lefschetz thimbles, optimized perturbation theory), self-consistent perturbation theory based on effective actions (auxiliary field loop expansion (LOAF), Cornwall-Jackiw-Tomboulis (CJT) formalism, 4PPI effective action, ...), functional renormalization group (FRG) techniques (FRG based on the Wetterich equation, DFT-FRG, 2PI-FRG). これらの異なる技法間のつながりも強調される。 さらに、経路積分形式主義は、ハバード・ストラトノビッチ変換(英語版)を通して正確な方法で集合的な自由度を導入する可能性を与え、上記のすべての方法に対するそのような変換の効果についても詳細に検討する。

The core of this thesis is the path-integral formulation of quantum field theory and its ability to describe strongly-coupled quantum many-body systems of finite size. Collective behaviors can be efficiently described in such systems through the implementation of spontaneous symmetry breaking (SSB) in mean-field approaches. However, as the thermodynamic limit does not make sense in finite-size systems, the latter can not exhibit any SSB and the symmetries which are broken down at the mean-field level must therefore be restored. The efficiency of theoretical approaches in the treatment of finite-size quantum systems can therefore be studied via their ability to restore spontaneously broken symmetries. In this thesis, a zero-dimensional $O(N)$ model is taken as a theoretical laboratory to perform such an investigation with many state-of-the-art path-integral techniques: perturbation theory combined with various resummation methods (Pad\'e-Borel, Borel-hypergeometric, conformal mapping), enhanced versions of perturbation theory (transseries derived via Lefschetz thimbles, optimized perturbation theory), self-consistent perturbation theory based on effective actions (auxiliary field loop expansion (LOAF), Cornwall-Jackiw-Tomboulis (CJT) formalism, 4PPI effective action, ...), functional renormalization group (FRG) techniques (FRG based on the Wetterich equation, DFT-FRG, 2PI-FRG). Connections between these different techniques are also emphasized. In addition, the path-integral formalism provides us with the possibility to introduce collective degrees of freedom in an exact fashion via Hubbard-Stratonovich transformations: the effect of such transformations on all the aforementioned methods is also examined in detail.
翻訳日:2023-01-21 03:00:28 公開日:2022-12-19
# ノイズシナリオにおける測定精度の回復量子的優位性

Restoring metrological quantum advantage of measurement precision in noisy scenario ( http://arxiv.org/abs/2211.05537v2 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen(参考訳) 劣化雑音の存在下では、ハミルトニアン系のパラメータ推定における最小不確かさのフィッシャー情報に基づく下界において量子的優位性が得られることを示す。 量子アドバンテージ(quantum advantage)とは、生成物の代わりに最大に絡み合った状態を開始することの利点を指す。 この量子的優位性は、周波数推定プロトコルの同じノイズシナリオで消えることが知られている。 最大絡み合ったプローブによる周波数推定における精度の回復は、系粒子間のイジング相互作用または横方向の磁場またはその両方によって達成できる。 また、導入した磁場の強みを横方向に沿って推定しながら量子的優位性を得ることができるが、検討された場合、Ising相互作用のカップリングパラメータの測定において量子的優位性は得られない。 また,初期状態の最大値ではない絡み合い量に対する測定精度の依存性についても検討した。 周波数推定の精度と横磁場強度は初期状態の絡み合い量の増加とともに単調に増大するが、イジング相互作用の結合パラメータと同様、非単調な挙動を示す。

We show that in presence of a dephasing noise, quantum advantage can be obtained in the Fisher information-based lower bound of the minimum uncertainty in estimating parameters of the system Hamiltonian. The quantum advantage refers here to the benefit of initiating with a maximally entangled state instead of a product one. This quantum advantage was known to vanish in the same noisy scenario for a frequency estimation protocol. Restoration of the better precision in frequency estimation with maximally entangled probes can be attained via an Ising interaction between system particles or a magnetic field applied in the transverse direction or both. A quantum advantage can also be obtained while estimating the strength of the introduced magnetic field along the transverse direction, whereas for the instances considered, no quantum advantage is achieved in measuring the coupling parameter of the Ising interaction. We also investigate the dependence of measurement precision on the entanglement content, which is not necessarily maximal, of the initial states. The precision in estimation of frequency and of transverse field strength increases monotonically with the increase of entanglement content of the initial state, while the same of coupling parameter of the Ising interaction, shows a non-monotonic behavior.
翻訳日:2023-01-19 19:32:31 公開日:2022-12-19
# オープンソースのDeep Learning-based Library for Neuroscienceの概要

An overview of open source Deep Learning-based libraries for Neuroscience ( http://arxiv.org/abs/2301.05057v1 )

ライセンス: Link先を確認
Louis Fabrice Tshimanga and Manfredo Atzori and Federico Del Pup and Maurizio Corbetta(参考訳) 近年、ディープラーニングは機械学習とその応用に革命をもたらし、神経科学を含むいくつかの分野の人間に匹敵する結果を生み出した。 毎年、何百もの科学論文が深層ニューラルネットワークの生物医学データ解析への応用を行っている。 ドメインの急速な成長により、世界中の研究者が最新の先進的なソフトウェアライブラリを明確に見るためには、複雑で非常に時間がかかります。 この研究は、神経科学への深層学習応用を実践し促進する最も有用なライブラリを概説し、研究者が研究や臨床プロジェクトに最も適した選択肢を特定できるように、ドメインの現在の状況を明らかにするのに寄与する。 本稿では,Deep Learningの主な発展と神経科学との関係を要約し,神経科学研究を指向したソフトウェアプロジェクトの特定のハブから収集された,神経情報学のツールボックスやライブラリを概観する。 選択されたツールは、アプリケーションドメイン(例えば、データタイプ、神経科学領域、タスク)、モデルエンジニアリング(例えば、プログラミング言語、モデルカスタマイズ)、および技術的な側面(例えば、インターフェイス、コードソース)によってグループ化された重要な機能を詳述した表に示される。 結果は、多くの利用可能なソフトウェアツールの中で、神経科学アプリケーションの機能という点でいくつかのライブラリが際立っていることを示している。 この情報の集約と議論により、神経科学のコミュニティは、手軽に利用可能なツールと、どのモジュールを改善、接続、追加できるかを知ることによって、研究プロジェクトをより効率的に、迅速にデボロップすることができる。

In recent years, deep learning revolutionized machine learning and its applications, producing results comparable to human experts in several domains, including neuroscience. Each year, hundreds of scientific publications present applications of deep neural networks for biomedical data analysis. Due to the fast growth of the domain, it could be a complicated and extremely time-consuming task for worldwide researchers to have a clear perspective of the most recent and advanced software libraries. This work contributes to clarify the current situation in the domain, outlining the most useful libraries that implement and facilitate deep learning application to neuroscience, allowing scientists to identify the most suitable options for their research or clinical projects. This paper summarizes the main developments in Deep Learning and their relevance to Neuroscience; it then reviews neuroinformatic toolboxes and libraries, collected from the literature and from specific hubs of software projects oriented to neuroscience research. The selected tools are presented in tables detailing key features grouped by domain of application (e.g. data type, neuroscience area, task), model engineering (e.g. programming language, model customization) and technological aspect (e.g. interface, code source). The results show that, among a high number of available software tools, several libraries are standing out in terms of functionalities for neuroscience applications. The aggregation and discussion of this information can help the neuroscience community to devolop their research projects more efficiently and quickly, both by means of readily available tools, and by knowing which modules may be improved, connected or added.
翻訳日:2023-01-15 23:17:12 公開日:2022-12-19
# 深層学習による微視的血液スメア画像に基づく白血病検出

Leukemia detection based on microscopic blood smear images using deep learning ( http://arxiv.org/abs/2301.03367v1 )

ライセンス: Link先を確認
Abdelmageed Ahmed, Alaa Nagy, Ahmed Kamal, and Daila Farghl(参考訳) 本稿では,深層ニューラルネットワークを用いた顕微鏡的血液スメア画像における白血病検出法について検討する。 leukemia is considered one of the most dangerous mortality causes for a human being, the traditional process of diagnosis of leukemia in blood is complex, costly, and time-consuming, so patients could not receive medical treatment on time; Computer vision classification technique using deep learning can overcome the problems of traditional analysis of blood smears, our system for leukemia detection provides 97.3 % accuracy in classifying samples as cancerous or normal samples by taking a shot of blood smear and passing it as an input to the system that will check whether it contains cancer or not. がん細胞を含む場合、血液学者は血液中のがんの進行に関する完全な情報を生成するためにフローサイトメトリーのようなより複雑な装置にサンプルを渡す。

In this paper we discuss a new method for detecting leukemia in microscopic blood smear images using deep neural networks to diagnose leukemia early in blood. leukemia is considered one of the most dangerous mortality causes for a human being, the traditional process of diagnosis of leukemia in blood is complex, costly, and time-consuming, so patients could not receive medical treatment on time; Computer vision classification technique using deep learning can overcome the problems of traditional analysis of blood smears, our system for leukemia detection provides 97.3 % accuracy in classifying samples as cancerous or normal samples by taking a shot of blood smear and passing it as an input to the system that will check whether it contains cancer or not. In case of containing cancer cells, then the hematological expert passes the sample to a more complex device such as flow cytometry to generate complete information about the progress of cancer in the blood.
翻訳日:2023-01-15 23:16:05 公開日:2022-12-19
# neuro-dynastress: 構造成分の動的応力分布の予測

Neuro-DynaStress: Predicting Dynamic Stress Distributions in Structural Components ( http://arxiv.org/abs/2301.02580v1 )

ライセンス: Link先を確認
Hamed Bolandi, Gautam Sreekumar, Xuyang Li, Nizar Lajnef, Vishnu Naresh Boddeti(参考訳) 構造成分は通常、地震、風、爆発などの動的荷重にさらされる。 構造エンジニアは、余波や災害時に、致命的な障害を避けるために即時の修正を必要とするリアルタイム分析を行うことができるべきである。 その結果, 動的応力分布をリアルタイムに予測することが重要である。 有限要素モデル(fems)のような現在利用可能な高忠実性手法は、その本質的に高い複雑さに苦しめられ、計算的に禁止されている。 したがって、精度を維持しつつ計算コストを削減するために、偏微分方程式(pde)解法を用いて有限要素シミュレーションに基づいて応力分布の列全体を予測するために、深層学習モデルneuro-dynastressが提案されている。 このモデルは、幾何学、境界条件、負荷列を入力として使用し、高分解能の応力輪郭のシーケンスを予測するように設計・訓練された。 提案手法の性能をPDEソルバを用いた有限要素シミュレーションと比較した。

Structural components are typically exposed to dynamic loading, such as earthquakes, wind, and explosions. Structural engineers should be able to conduct real-time analysis in the aftermath or during extreme disaster events requiring immediate corrections to avoid fatal failures. As a result, it is crucial to predict dynamic stress distributions during highly disruptive events in real-time. Currently available high-fidelity methods, such as Finite Element Models (FEMs), suffer from their inherent high complexity and are computationally prohibitive. Therefore, to reduce computational cost while preserving accuracy, a deep learning model, Neuro-DynaStress, is proposed to predict the entire sequence of stress distribution based on finite element simulations using a partial differential equation (PDE) solver. The model was designed and trained to use the geometry, boundary conditions and sequence of loads as input and predict the sequences of high-resolution stress contours. The performance of the proposed framework is compared to finite element simulations using a PDE solver.
翻訳日:2023-01-15 23:15:39 公開日:2022-12-19
# 機械学習を用いた量子回路忠実度推定

Quantum circuit fidelity estimation using machine learning ( http://arxiv.org/abs/2212.00677v3 )

ライセンス: Link先を確認
Avi Vadali, Rutuja Kshirsagar, Prasanth Shyamsundar, Gabriel N. Perdue(参考訳) 実世界の量子コンピュータの計算能力は誤差によって制限される。 量子コンピュータを用いて、古典的に効率的にシミュレートできないアルゴリズムを実行する場合、計算が行われた精度を定量化することが重要である。 本稿では,雑音量子回路が生成する状態と,理想的なノイズフリー計算に対応する対象状態との忠実度を推定する機械学習手法を提案する。 我々の機械学習モデルは、直接忠実度推定や量子状態トモグラフィーといった他の手法を用いて、忠実度を推定できる、より小さく、より単純な回路を用いて教師付きで訓練されている。 訓練されたモデルでは、そのような手法が実現不可能であるより複雑な回路の細部を予測できることを実証する。

The computational power of real-world quantum computers is limited by errors. When using quantum computers to perform algorithms which cannot be efficiently simulated classically, it is important to quantify the accuracy with which the computation has been performed. In this work we introduce a machine-learning-based technique to estimate the fidelity between the state produced by a noisy quantum circuit and the target state corresponding to ideal noise-free computation. Our machine learning model is trained in a supervised manner, using smaller or simpler circuits for which the fidelity can be estimated using other techniques like direct fidelity estimation and quantum state tomography. We demonstrate that the trained model can predict the fidelities of more complicated circuits for which such methods are infeasible.
翻訳日:2023-01-09 20:01:13 公開日:2022-12-19
# 量子シミュレーションにおけるトロッター誤差とカオスの発生

Trotter Errors and the Emergence of Chaos in Quantum Simulation ( http://arxiv.org/abs/2212.03843v2 )

ライセンス: Link先を確認
Kevin W. Kuper, Jon P. Pajaud, Karthik Chinni, Pablo M. Poggi, and Poul S. Jessen(参考訳) ノイズの多い中間スケール量子(NISQ)プロセッサはサイズと複雑さが増すにつれて、汎用量子シミュレータとしての使用はトロッタースズキの拡張に基づくアルゴリズムに依存する。 我々は、小型で高精度な量子プロセッサ上で量子シミュレーションを行い、手元の量子ハードウェア特有のネイティブエラーに対してアルゴリズムエラー(trotter)のバランスをとることで、シミュレーション精度を最適化する方法を示す。 さらに,時間平均忠実度-時間順順-調整子測定におけるネイティブエラー,トロッターエラー,カオスの発生の相互作用についても検討した。

As noisy intermediate-scale quantum (NISQ) processors increase in size and complexity, their use as general purpose quantum simulators will rely on algorithms based on the Trotter-Suzuki expansion. We run quantum simulations on a small, highly accurate quantum processor, and show how one can optimize simulation accuracy by balancing algorithmic (Trotter) errors against native errors specific to the quantum hardware at hand. We further study the interplay between native errors, Trotter errors, and the emergence of chaos as seen in measurements of a time averaged fidelity-out-of-time-ordered-correlator
翻訳日:2023-01-09 16:54:14 公開日:2022-12-19
# マルコフ開量子系における対称性リウビリアンギャップ

Symmetrized Liouvillian Gap in Markovian Open Quantum Systems ( http://arxiv.org/abs/2212.06317v2 )

ライセンス: Link先を確認
Takashi Mori and Tatsuhiko Shirai(参考訳) マルコフ開量子系は複雑な緩和ダイナミクスを示す。 リウヴィリアのスペクトルギャップは、漸近崩壊速度を定常状態に向けて特徴づけるが、漸近状態への交差時間が長すぎるため、必ずしも緩和時間の正確な推定を与えるとは限らない。 ここでは、対称性リウビリアンギャップを導入することにより、定常状態における自己相関関数の過渡的減衰に関する厳密な上限を与える。 標準のリウヴィリアギャップとシンメトリゼーションされたギャップは平衡状態では同一であるが、詳細なバランス条件がない場合は互いに異なる。 対称性リウビリアンギャップは自己相関関数の崩壊に対して常に正しい上限を与えるが、標準リウビリアンギャップはそうではないことが数値的に示される。

Markovian open quantum systems display complicated relaxation dynamics. The spectral gap of the Liouvillian characterizes the asymptotic decay rate towards the steady state, but it does not necessarily give a correct estimate of the relaxation time because the crossover time to the asymptotic regime may be too long. We here give a rigorous upper bound on the transient decay of auto-correlation functions in the steady state by introducing the symmetrized Liouvillian gap. The standard Liouvillian gap and the symmetrized one are identical in an equilibrium situation but differ from each other in the absence of the detailed balance condition. It is numerically shown that the symmetrized Liouvillian gap always give a correct upper bound on the decay of the auto-correlation function, but the standard Liouvillian gap does not.
翻訳日:2023-01-09 15:52:20 公開日:2022-12-19
# 実用的量子クレジットリスク分析に向けて

Towards practical Quantum Credit Risk Analysis ( http://arxiv.org/abs/2212.07125v2 )

ライセンス: Link先を確認
Emanuele Dri, Edoardo Giusto, Antonello Aita, Bartolomeo Montrucchio(参考訳) 近年,古典的類似手法を2次高速化したCRA(Credit Risk Analysis)量子アルゴリズムが提案されている。 我々は、このアプローチの最も重要な制限(ビジネスドメインの専門家による)を克服する目的で、この量子アルゴリズムの新しい変種を提案する。 特に,ポートフォリオ資産の既定確率に対して,複数のシステム的リスク要因を考慮した,より現実的で複雑なリスクモデルを実装する手法について述べる。 さらに、モデルの入力の一つであるデフォルト値の損失の柔軟性を高めるソリューションを示し、整数値を使用するための制約を取り除いた。 この具体的な改善は、公正なベンチマークプロトコルを確立するために、金融セクターから来る実際のデータを使用する必要性に対処する。 これらの拡張は回路の深さと幅の点でコストがかかるが、それでもより現実的なソフトウェアソリューションへの道筋を示している。 量子技術の最近の進歩は、最終的に量子ビットの数と信頼性の増加により、実際の量子ハードウェアにおいても金融セクターにとって有用な結果と意味のあるスケールが得られ、この分野における具体的な量子優位性への道が開かれたことを示している。 また,提案した回路をテストするシミュレータで行った実験について述べるとともに,提案手法のスケーラビリティを評価する。

In recent years, a CRA (Credit Risk Analysis) quantum algorithm with a quadratic speedup over classical analogous methods has been introduced. We propose a new variant of this quantum algorithm with the intent of overcoming some of the most significant limitations (according to business domain experts) of this approach. In particular, we describe a method to implement a more realistic and complex risk model for the default probability of each portfolio's asset, capable of taking into account multiple systemic risk factors. In addition, we present a solution to increase the flexibility of one of the model's inputs, the Loss Given Default, removing the constraint to use integer values. This specific improvement addresses the need to use real data coming from the financial sector in order to establish fair benchmarking protocols. Although these enhancements come at a cost in terms of circuit depth and width, they nevertheless show a path towards a more realistic software solution. Recent progress in quantum technology shows that eventually, the increase in the number and reliability of qubits will allow for useful results and meaningful scales for the financial sector, also on real quantum hardware, paving the way for a concrete quantum advantage in the field. The paper also describes experiments conducted on simulators to test the circuit proposed and contains an assessment of the scalability of the approach presented.
翻訳日:2023-01-09 15:27:14 公開日:2022-12-19
# 不純物プローブを用いた量子環境の熱測定

Thermometry of Quantum Environments with Impurity Probes ( http://arxiv.org/abs/2212.09618v1 )

ライセンス: Link先を確認
George Mihailescu, Steve Campbell, Andrew K. Mitchell(参考訳) 我々は量子温度測定のプラットフォームとして量子不純物モデルを研究する。 単一の量子スピン-1/2不純物は、明示的に構造化されたフェルミオン熱環境に結合される。 環境への結合がイジング型や近藤交換型である場合, プローブとしての不純物の温度測定能力を評価する。 イジングの場合、結合強度や環境スペクトルの特徴とは無関係に、適用された制御フィールドで線形にスケールする温度でピーク熱測定性能が得られる理想化された2レベルシステムと同等の感度が得られる。 対照的に、強いプローブ環境の絡み合いが発達するため、コンドの不純物に対してよりリッチな熱測定応答が実現できる。 低温では、微視的詳細とは独立に、環境の低エネルギースペクトル特性のみによって制御される普遍的な熱測定応答を持つレジームを明らかにする。 この状態で発達する多体絡み合いは、弱磁場の低温温度測定が本質的には感度が低く、強い磁場の絡み合いを抑制して最適感度を回復することを意味する。

We study quantum impurity models as a platform for quantum thermometry. A single quantum spin-1/2 impurity is coupled to an explicit, structured, fermionic thermal environment. We critically assess the thermometric capabilities of the impurity as a probe, when its coupling to the environment is of Ising or Kondo exchange type. In the Ising case, we find sensitivity equivalent to that of an idealized two-level system, with peak thermometric performance obtained at a temperature that scales linearly in the applied control field, independent of the coupling strength and environment spectral features. By contrast, a richer thermometric response can be realized for Kondo impurities, since strong probe-environment entanglement can then develop. At low temperatures, we uncover a regime with a universal thermometric response that is independent of microscopic details, controlled only by the low-energy spectral features of the environment. The many-body entanglement that develops in this regime means that low-temperature thermometry with a weakly applied control field is inherently less sensitive, while optimal sensitivity is recovered by suppressing the entanglement with stronger fields.
翻訳日:2023-01-09 13:37:10 公開日:2022-12-19
# 乱れと量子力学の位相次元?

Topological Dimensions from Disorder and Quantum Mechanics? ( http://arxiv.org/abs/2212.09806v1 )

ライセンス: Link先を確認
Ivan Horv\'ath and Peter Marko\v{s}(参考訳) 我々は最近、D=3$次元における臨界アンダーソン電子が、赤外(IR)スケール次元$d_\text{IR} \approx 8/3$の空間領域を効果的に占有していることを示した。 ここでは、関連する次元の部分構造について問い合わせる。 我々は空間を等量子発生確率の領域に分割し、ある領域を構成する点が類似の関連性を持つようにし、各領域のIRスケーリング次元を$d$で計算する。 これにより、電子によってアクセスされる次元$d$に対して確率密度$p(d)$を推測することができる。 私たちは、$p(d)$が$d$で非常に高いピークを持つことがわかった。 実際、我々のデータは$p(d)$が$[d_\text{min}, d_\text{max}] \approx [4/3,8/3]$の間隔でゼロでないことを示唆し、無限体積極限において$d=2$の離散部分(\delta$-function)を発生させるかもしれない。 後者は、量子力学と純粋障害の組み合わせがトポロジカル次元の出現につながる可能性を呼び起こす。 d_\text{IR}$は、$p(d)$が事前知識を持たないような効果的なカウントに基づいているが、$d_\text{IR} \ge d_\text{max}$は、続く形式主義の正確な特徴である。 熱量子色力学のディラック近ゼロモードにおける$d_\text{IR} \approx 2$の最近の発見に対する我々の結果の関連性を強調した。

We have recently shown that critical Anderson electron in $D=3$ dimensions effectively occupies a spatial region of infrared (IR) scaling dimension $d_\text{IR} \approx 8/3$. Here we inquire about the dimensional substructure involved. We partition space into regions of equal quantum occurrence probability, such that points comprising a region are of similar relevance, and calculate the IR scaling dimension $d$ of each. This allows us to infer the probability density $p(d)$ for dimension $d$ to be accessed by electron. We find that $p(d)$ has a strong peak at $d$ very close to 2. In fact, our data suggests that $p(d)$ is non-zero on the interval $[d_\text{min}, d_\text{max}] \approx [4/3,8/3]$ and may develop a discrete part ($\delta$-function) at $d=2$ in infinite-volume limit. The latter invokes the possibility that combination of quantum mechanics and pure disorder can lead to emergence of topological dimensions. Although $d_\text{IR}$ is based on effective counting of which $p(d)$ has no a priori knowledge, $d_\text{IR} \ge d_\text{max}$ is an exact feature of the ensuing formalism. Possible connection of our results to recent findings of $d_\text{IR} \approx 2$ in Dirac near-zero modes of thermal quantum chromodynamics is emphasized.
翻訳日:2023-01-09 13:36:51 公開日:2022-12-19
# 多体局所化による2次元固有状態位相秩序の保護

Many-body-localization protection of eigenstate topological order in two dimensions ( http://arxiv.org/abs/2212.09775v1 )

ライセンス: Link先を確認
Florian Venn and Thorsten B. Wahl and Benjamin B\'eri(参考訳) 多体ローカライゼーション(MBL)は、すべての固有状態における位相秩序の実現と保護を目的として提案され、従来の基底状態の設定を大きく広げている。 しかしながら、エノンとトポロジーに依存した退化を伴う2次元(2次元)系の最も興味深い場合において、このMBL保護を数値的に研究する多体多体スペクトルの課題がある。 ここでは,大規模なフルスペクトル変分ans\"atzeを用いて,mblが保護する2次元トーリック符号の位相秩序を示す。 本研究では, トリック符号結合スケールの0.1$以下の磁場強度に対して, トポロジカル局所運動積分 (tLIOMs) を持つことを示す。 tLIOMsを正確な対角化と組み合わせることで,多体スペクトルの高エネルギートポロジカル多重を同定する。 位相図はトーリック符号と整合し、介在する熱相によって分離される自明なMBL相と一致する。

Many-body localization (MBL) has been proposed to enable and protect topological order in all eigenstates, vastly expanding the traditional ground-state setting. However, for the most intriguing case of two-dimensional (2D) systems with anyons and topology-dependent degeneracies, the dense many-body spectrum challenges studying this MBL protection numerically. Here we use large-scale full-spectrum variational ans\"atze to demonstrate MBL-protected topological order in the disordered 2D toric code perturbed by magnetic fields. We show that the system has topological local integrals of motion (tLIOMs) for magnetic field strengths below $h_c\approx0.1$ times the toric code coupling scale. Combining tLIOMs with exact diagonalization, we also identify high-energy topological multiplets in the dense many-body spectrum. The phase diagram we find is consistent with toric-code and trivial MBL phases being separated by an intervening thermal phase.
翻訳日:2023-01-09 13:29:48 公開日:2022-12-19
# 近似古典状態としての最小不確かさ状態の普遍性について

On the universality of minimum uncertainty states as approximate classical states ( http://arxiv.org/abs/2212.09790v1 )

ライセンス: Link先を確認
Uttam Singh and Adam Sawicki and Jaros{\l}aw K. Korbicz(参考訳) 量子原理からマクロ世界の古典性を理解することは、量子から古典への遷移に有望なアプローチの一つである。 コヒーレント状態は、ハイゼンベルクの不確実性関係によって許される最良の妥協を示す古典的状態と最も近いと見なされてきた。 一方、デコヒーレンス理論は、量子-古典遷移における環境の重要な役割を認識し、理想主義的なシナリオでは、ポインタ状態と呼ばれる独自の好まれる堅牢な状態を定義する。 対話と自由項の両方が寄与する現実的なオープンダイナミクスを分析することで、これらの2つの概念は一般に異なることが分かる。 群論とオープンダイナミクスをつなぐことで、熱的デコヒーレンスに最も頑健な状態を記述する一般方程式を導出し、スピン系を例として研究する。 ここではコンパクト群に集中するが、より一般的であり、オープンダイナミクス-探索物理ポインタ状態における新しい問題の集合を開く。

Explaining the perceived classicality of the macroscopic world from quantum principles has been one of the promising approaches to the quantum-to-classical transition. Coherent states have been regarded as the closest to the classical, representing the best compromise allowed by the Heisenberg uncertainty relations. On the other hand, decoherence theory recognizes the crucial role of the environment in the quantum-to-classical transition and defines, in idealistic scenarios, its own preferred, robust states, so called pointer states. Analyzing realistic open dynamics, where both interaction and free terms contribute, we show that these two notions are in general different. Connecting group theory and open dynamics, we derive general equations describing states most robust to thermal decoherence and study spin systems as an example. Although we concentrate on compact groups here, our method is more general and opens a new set of problems in open dynamics--finding physical pointer states.
翻訳日:2023-01-09 13:29:31 公開日:2022-12-19
# ブリッジグラフにおける量子最大フロー

Quantum max-flow in the bridge graph ( http://arxiv.org/abs/2212.09794v1 )

ライセンス: Link先を確認
Fulvio Gesmundo, Vladimir Lysikov, Vincent Steffan(参考訳) 量子マックスフローは、固定グラフに対するテンソルネットワーク状態の2つの領域と固定結合次元の間の最大エンタングルメントを定量化する。 本研究では,ブリッジグラフの場合の量子最大フローを正確に計算する。 この結果は、先生的テンソルの理論とquiversの表現論とのつながりを引いて得られる。 さらに,不変理論と代数的統計学との関係を強調する。

The quantum max-flow quantifies the maximal possible entanglement between two regions of a tensor network state for a fixed graph and fixed bond dimensions. In this work, we calculate the quantum max-flow exactly in the case of the bridge graph. The result is achieved by drawing connections to the theory of prehomogenous tensor and the representation theory of quivers. Further, we highlight relations to invariant theory and to algebraic statistics.
翻訳日:2023-01-09 13:29:13 公開日:2022-12-19
# SU(2)ゲージフィールドのデジタル化とそれを行う際の展望

Digitizing SU(2) Gauge Fields and What to Look Out for When Doing So ( http://arxiv.org/abs/2212.09496v1 )

ライセンス: Link先を確認
Tobias Hartung, Timo Jakobs, Karl Jansen, Johann Ostmeyer and Carsten Urbach(参考訳) 量子コンピュータとテンソルネットワークを用いた格子ゲージ理論シミュレーションの長期的視点から、ゲージ群要素をデジタル化する効率的な方法が必要である。 したがって、その有限部分群のような SU(2) の非自明な例に対するいくつかの離散化アプローチと、有限部分群の異なるクラスに対する結果を示す。 我々は弱い結合に向けて観察された凍結遷移に注目した。 フィボナッチ・スパイラルの一般化版は特に効率的で最適に近いように見える。

With the long term perspective of using quantum computers and tensor networks for lattice gauge theory simulations, an efficient method of digitizing gauge group elements is needed. We thus present our results for a handful of discretization approaches for the non-trivial example of SU(2), such as its finite subgroups, as well as different classes of finite subsets. We focus our attention on a freezing transition observed towards weak couplings. A generalized version of the Fibonacci spiral appears to be particularly efficient and close to optimal.
翻訳日:2023-01-09 13:20:28 公開日:2022-12-19
# 相互作用するナノデバイスにおける量子輸送-量子ドットから単一分子トランジスタ

Quantum transport in interacting nanodevices: from quantum dots to single-molecule transistors ( http://arxiv.org/abs/2212.09536v1 )

ライセンス: Link先を確認
Emma L. Minarelli(参考訳) ナノメートルスケールでの電子機器製造に関する先例のない制御により、現在ではエキゾチック効果を測定できる量子状態において、高度に制御可能で微調整された実験を行うことができる。 量子ドットデバイスでは、特性エネルギースケール以下の拡張コンダクタンスが近藤一重項形成の署名である。 同様のナノエレクトロニクスデバイスにおける量子輸送特性の正確な予測は、最適機能と制御を設計することが望まれる。 標準輸送法は、ナノ構造特異性、設定設計、温度および電圧制御の適用性の限界に苦しむ。 モデリングの柔軟性と正確なコンダクタンス予測を得るため、ランドウアー-b\"uttiker公式における出発点散乱理論、kubo公式における線形応答理論、meir-wingreen公式における非平衡ケルディッシュ理論、小栗公式におけるフェルミ液体理論を解析的に導出し、改良した量子輸送公式を導出する。 数値正規化群手法を用いた標準手法と比較し, 厳密な表現の体系的ベンチマークを行った。 新たな定式化では, 文献結果の再現だけでなく, 高い精度と計算効率, 既存の手法では得られない状況下でのより広い適用性を示す。 また、coulombブロックとmixed-valenceレジームの両方における多軌道2層相互作用ナノ構造に対する一般化された有効モデルも導出し、有効モデルパラメータの観点から直接再利用可能なコンダクタンス予測を行う。 グラフェンと半導体三重量子ドットからなる単一分子ベンゼントランジスタ, 電荷-コンド量子ドットなど, 複雑なナノエレクトロニクスシステムに新しい定式化を適用することで, 結論付けた。

Unprecedented control over the manufacture of electronic devices on nanometer scale has allowed to perform highly controllable and fine-tuned experiments in the quantum regime where exotic effects can nowadays be measured. In quantum dot devices, enhanced conductance below a characteristic energy scale is the signature of Kondo singlet formation. Precise predictions of quantum transport properties in similar nanoelectronics devices are desired to design optimal functionality and control. Standard transport methods suffer from limitations in nanostructure specifics, set-up design, temperature and voltage regime of applicability. To overcome these issues, such that we obtain modelling flexibility and accurate conductance predictions, in this thesis we analytically derive alternative and improved quantum transport formulations having as their starting point scattering theory in the Landauer-B\"uttiker formula, linear response theory in the Kubo formula, nonequilibrium Keldysh theory in the Meir-Wingreen formula and Fermi liquid theory in the Oguri formula. We perform a systematic benchmark of our exact expressions, comparing with the standard approaches using numerical renormalization group techniques. The new formulations not only reproduce literature results, but also show higher accuracy and computational efficiency, as well as a wider applicability under regimes and conditions out of reach by existing methods. We also derive generalized effective models for multi-orbital two-lead interacting nanostructures in both Coulomb blockade and mixed-valence regime, which yield reusable conductance predictions directly in terms of the effective model parameters. We conclude by applying our novel formulations to complex nanoelectronics systems, including a single-molecule benzene transistor, a charge-Kondo quantum dot made from graphene and semiconductor triple quantum dot.
翻訳日:2023-01-09 13:19:51 公開日:2022-12-19
# 3次元位相秩序の境界状態と解圧量子臨界点

Boundary states of Three Dimensional Topological Order and the Deconfined Quantum Critical Point ( http://arxiv.org/abs/2212.09754v1 )

ライセンス: Link先を確認
Wenjie Ji, Nathanan Tantivasadakarn, Cenke Xu(参考訳) 本研究では, 3次元位相秩序,すなわち3次元$\mathbb{z}_2$ toric符号の境界状態について検討する。 本研究で検討する境界状態には,3つの異なる基本型が存在する。 3つの初等的境界を含む位相図では、いわゆる解圧量子臨界点(dqcp)に「容易軸」な異方性を持つ多重臨界点が存在する可能性がある。 さらに、2つの境界型を交換する創発的な$\mathbb{Z}^d_2$対称性があり、これはDQCPの大域対称性の一部となる。 境界上の創発的な$\mathbb{z}^d_2$ 対称性は、バルクのある種の表面欠陥に由来する。 さらに、創発対称性の下で不変な曲面位相秩序を持つギャップ付き境界が見つかる。

We study the boundary states of the archetypal three-dimensional topological order, i.e. the three-dimensional $\mathbb{Z}_2$ toric code. There are three distinct elementary types of boundary states that we will consider in this work. In the phase diagram that includes the three elementary boundaries there may exist a multi-critical point, which is captured by the so-called deconfined quantum critical point (DQCP) with an "easy-axis" anisotropy. Moreover, there is an emergent $\mathbb{Z}^d_2$ symmetry that swaps two of the boundary types, and it becomes part of the global symmetry of the DQCP. The emergent $\mathbb{Z}^d_2$ symmetry on the boundary is originated from a type of surface defect in the bulk. We further find a gapped boundary with a surface topological order that is invariant under the emergent symmetry.
翻訳日:2023-01-09 13:19:19 公開日:2022-12-19
# ペロブスカイト発光ダイオードを用いた量子乱数生成

Quantum random number generation based on a perovskite light emitting diode ( http://arxiv.org/abs/2212.09773v1 )

ライセンス: Link先を確認
Joakim Argillander, Alvaro Alarc\'on, Chunxiong Bao, Chaoyang Kuang, Gustavo Lima, Feng Gao, Guilherme B. Xavier(参考訳) 最近のペロブスカイト発光ダイオード(peled)の開発は、製造の単純さと優れた光学特性のため、光通信と照明装置の分野に革命をもたらす可能性がある。 ここでは,高セキュアな量子乱数生成器(qrng)を実演することにより,ペレットを量子技術の分野でも活用できることを初めて実証する。 プライバシーを認証する現代のQRNGは、暗号化やギャンブルといったアプリケーションで広く採用されている疑似および真の古典的乱数生成器を置き換えるため、安価で高速で統合性を持つ必要がある。 コンパクトな金属ハロゲン化物PeLED源を用いて、量子計測デバイスに依存しないシナリオに従って、盗聴者に対して安全であると証明された乱数を生成する。 得られた10 Mbit s$^{-1}$のランダム数生成率は、既に実際の商用デバイスに匹敵するものであり、PeLEDsは量子情報タスクのための高品質な光源として機能し、将来の量子技術の発展への道を開くことができることを示している。 最後に、固体デバイスと比較した場合、より単純なPeLED製造プロセスは、炭素フットプリントが低いため、量子技術システムがより大量生産される場合、環境に大きな影響を与える可能性があると論じる。

The recent development of perovskite light emitting diodes (PeLEDs) has the potential to revolutionize the fields of optical communication and lighting devices, due to their simplicity of fabrication and outstanding optical properties. Here we demonstrate, for the first time, that PeLEDs can also be used in the field of quantum technologies by demonstrating a highly-secure quantum random number generator (QRNG). Modern QRNGs that certify their privacy are posed to replace widely adopted pseudo and true classical random number generators in applications such as encryption and gambling, and therefore, need to be cheap, fast and with integration capabilities. Using a compact metal-halide PeLED source, we generate random numbers, which are certified to be secure against an eavesdropper, following the quantum measurement-device-independent scenario. The obtained random number generation rate of more than 10 Mbit s$^{-1}$, which is already comparable to actual commercial devices, shows that PeLEDs can work as high-quality light sources for quantum information tasks, thus paving the way for future developments of quantum technologies. Lastly, we argue that the simpler PeLED manufacturing process, when comparing to solid-state devices, may have large environmental impacts when quantum technology systems become more mass produced, due to the possible lower carbon footprint.
翻訳日:2023-01-09 13:19:04 公開日:2022-12-19
# 最適化2色レーザー磁場による無電界分子アライメント

Field-free molecular alignment by the optimized two-color laser fields ( http://arxiv.org/abs/2212.11258v1 )

ライセンス: Link先を確認
E.A. Koval(参考訳) 2色レーザーの重ね合わせにより生成した非対称ポテンシャルにより分子配向を理論的に検討した。 時間依存シュロディンガー方程式は、異なる場パラメータに対して数値的に解かれる。 我々は,レーザーパルス間の時間,パルスの強度など,レーザー磁場パラメータによって分子配向の増強や抑制をいかに操作できるかを示した。

We have theoretically investigated the molecular orientation by a asymmetric potential created by the superposition of two-color laser fields. The time-dependent Schrodinger equation is solved numerically for different field parameters. We have shown how enhancement or suppression of the molecular orientation can be manipulated by the laser field parameters, such as time between laser pulses, the different intensity of the pulses, etc.
翻訳日:2023-01-09 13:12:07 公開日:2022-12-19
# 単純開量子系におけるカウント統計の大規模偏差

Large deviations of counting statistics in simple open quantum systems ( http://arxiv.org/abs/2212.09212v1 )

ライセンス: Link先を確認
Fei Liu(参考訳) 半マルコフ過程法を用いて、3つの開量子系に対する計数統計量の大きな偏差を計算し、共振二階系と共振三階系を$\lambda$- および$v$-コンフィギュレーションで計算する。 最初の2つのシステムでは、スケールした累積生成関数の解析解が得られる。 これらの系では、ゼロ電流における大きな偏差関数は非エルミートハミルトニアンの固有値によって決定されるのに対し、これらの関数は大電流で統一公式を持つ。

We use a semi-Markov processes method to calculate large deviations of counting statistics for three open quantum systems, including a resonant two-level system and resonant three-level systems in the $\Lambda$- and $V$-configurations. In the first two systems, analytical solutions to the scaled cumulant generating functions are obtained. We find that in these systems, the large deviation rate functions at zero current are determined by the eigenvalues of the non-Hermitian Hamiltonians, while these functions have a unified formula at large current.
翻訳日:2023-01-09 08:38:26 公開日:2022-12-19
# 対称性と同期ブロック

Symmetries and Synchronization Blockade ( http://arxiv.org/abs/2212.09388v1 )

ライセンス: Link先を確認
Parvinder Solanki, Faraz Mohd Mehdi, Michal Hajdu\v{s}ek and Sai Vinjanampathy(参考訳) 同期ブロックとは、量子同期の干渉的キャンセルを指す。 本稿では同期測度とハミルトン対称性の選択が同期遮断の議論にどのように影響するかを示す。 数え上げ原理を用いて、対角極限サイクル状態を定義するために用いられるコヒーレント状態がフル$SU(N)$群であるとき、同期遮断は$N-$レベルシステムでは観測できないという一般的な定理を証明する。 マルチレベルシステムにおける同期遮断の実証例をいくつか提示し,情報理論による同期遮断様の挙動を,制限サイクル状態の集合の適切な選択により観測できることを示す。

Synchronization blockade refers to an interferometric cancellation of quantum synchronization. In this manuscript, we show how the choice of synchronization measure and Hamiltonian symmetries affect the discussion of synchronization blockade. Using counting principles, we prove a general theorem that synchronization blockade cannot be observed in an $N-$level system when the coherent state used to define the diagonal limit-cycle state is in the full $SU(N)$ group. We present several illustrative examples of synchronization blockade in multi-level systems and prove that information-theoretic measures of synchronization can also observe synchronization blockade-like behavior by an appropriate choice of the set of limit cycle states.
翻訳日:2023-01-09 08:38:16 公開日:2022-12-19
# 量子イジング鎖における測定誘起遷移のプローブとしてのフルカウント統計

Full counting statistics as probe of measurement-induced transitions in the quantum Ising chain ( http://arxiv.org/abs/2212.09405v1 )

ライセンス: Link先を確認
Emanuele Tirrito, Alessandro Santini, Rosario Fazio and Mario Collura(参考訳) 測定プロトコルの影響下での多体量子システムの非平衡ダイナミクスは、注目を集めている。 近年、測定によって異なる非平衡状態が引き起こされ、二成分の絡み合いエントロピーのスケーリング則が急変することが判明している。 しかし、これらのレジームがどのように出現し、どのように局所的な量の統計に影響を及ぼし、最終的に熱力学の限界で生き残るかという理解はあまり確立されていない。 本稿では,モニタリング環境に結合した量子イジング鎖における測定誘起相転移について検討する。 特に局所射影測定は局所磁化の平衡外確率分布関数を定量的に変化させることを示す。 GHZ状態から始めると、常磁性と強磁性秩序の緩和が解析される。 特に, 前者の確率分布が, 地域法規と容積法則で異なる振る舞いを示すかを説明する。

Non-equilibrium dynamics of many-body quantum systems under the effect of measurement protocols is attracting an increasing amount of attention. It has been recently revealed that measurements may induce different non-equilibrium regimes and an abrupt change in the scaling-law of the bipartite entanglement entropy. However, our understanding of how these regimes appear, how they affect the statistics of local quantities and, finally whether they survive in the thermodynamic limit, is much less established. Here we investigate measurement-induced phase transitions in the Quantum Ising chain coupled to a monitoring environment. In particular we show that local projective measurements induce a quantitative modification of the out-of-equilibrium probability distribution function of the local magnetization. Starting from a GHZ state, the relaxation of the paramagnetic and the ferromagnetic order is analysed. In particular we describe how the probability distribution of the former shows different behaviour in the area-law and volume-law regimes.
翻訳日:2023-01-09 08:38:02 公開日:2022-12-19
# 正八角形格子上のアブリコソフフェルミオン平均場 Ans\atze の射影対称性群の分類

Projective symmetry group classification of Abrikosov fermion mean-field Ans\"atze on the square-octagon lattice ( http://arxiv.org/abs/2212.09554v1 )

ライセンス: Link先を確認
Atanu Maity, Francesco Ferrari, Ronny Thomale, Saptarshi Mandal, Yasir Iqbal(参考訳) 正方形八角形格子上の異なるゲージ群を持つ対称量子スピン液体の射影対称性群(PSG)分類を行う。 スピン=1/2$に対して Abrikosov fermion 表現を用いると、32$$SU(2)$, $1808$$U(1)$, $384$$\mathbb{Z}_{2}$ algebraic PSGs が得られる。 しかし、短距離の振幅を持つ平均場 parton ans\"atze に制約することで、分類はより限定的な 4$$$su(2)$, $224$ $u(1)$, $336$ $ $$$$\mathbb{z}_{2}$ に還元される。 ハイゼンベルク・ハミルトニアンとフラストレーション結合の自己連続処理における基底状態特性とスピノン分散について論じる。

We perform a projective symmetry group (PSG) classification of symmetric quantum spin liquids with different gauge groups on the square-octagon lattice. Employing the Abrikosov fermion representation for spin-$1/2$, we obtain $32$ $SU(2)$, $1808$ $U(1)$ and $384$ $\mathbb{Z}_{2}$ algebraic PSGs. Constraining ourselves to mean-field parton ans\"atze with short-range amplitudes, however, the classification reduces to a more limited number, $4$ $SU(2)$, $24$ $U(1)$ and $36$ $\mathbb{Z}_{2}$, distinct phases. We discuss their ground state properties and spinon dispersions within a self-consistent treatment of the Heisenberg Hamiltonian with frustrating couplings.
翻訳日:2023-01-09 08:37:48 公開日:2022-12-19
# 2+1次元格子QEDのハミルトン極限

Hamiltonian limit of lattice QED in 2+1 dimensions ( http://arxiv.org/abs/2212.09627v1 )

ライセンス: Link先を確認
L. Funcke, C. F. Gro{\ss}, K. Jansen, S. K\"uhn, S. Romiti and C. Urbach(参考訳) 格子ゲージ理論のハミルトン極限は、異方性格子計算の結果、すなわち時間的および空間的格子間隔の異なる格子作用(a_t\neq a_s$)を$a_t\to 0$の極限に外挿することで得られる。 本研究では, 2+1次元 (qed3) におけるユークリッド値 u(1) のゲージ理論に対するこのハミルトニアン極限をトロイダル格子上で定式化したものである。 この極限は、空間格子間隔定数を維持しながら$\xi_r \to 0$を送ることで、再正規化された異方性$\xi_r=a_t/a_s$を用いて見つかる。 我々は$\xi_r$を3ドルの異なる方法で計算する: ``normal'' と ``sideways'' の静的クォークポテンシャルとゲージ場の勾配流の進化の両方を使用する。 後者のアプローチは、量子計算と古典モンテカルロ計算を組み合わせる将来の研究に特に関係しており、これはハミルトン形式とラグランジュ形式で得られる格子結果のマッチングを必要とする。

The Hamiltonian limit of lattice gauge theories can be found by extrapolating the results of anisotropic lattice computations, i.e., computations using lattice actions with different temporal and spatial lattice spacings ($a_t\neq a_s$), to the limit of $a_t\to 0$. In this work, we present a study of this Hamiltonian limit for a Euclidean $U(1)$ gauge theory in 2+1 dimensions (QED3), regularized on a toroidal lattice. The limit is found using the renormalized anisotropy $\xi_R=a_t/a_s$, by sending $\xi_R \to 0$ while keeping the spatial lattice spacing constant. We compute $\xi_R$ in $3$ different ways: using both the ``normal'' and the ``sideways'' static quark potential, as well as the gradient flow evolution of gauge fields. The latter approach will be particularly relevant for future investigations of combining quantum computations with classical Monte Carlo computations, which requires the matching of lattice results obtained in the Hamiltonian and Lagrangian formalisms.
翻訳日:2023-01-09 08:37:31 公開日:2022-12-19
# 実践ツールとしてのボヘミアン力学

Bohmian Mechanics as a Practical Tool ( http://arxiv.org/abs/2212.09671v1 )

ライセンス: Link先を確認
Xabier Oianguren-Asua, Carlos F. Destefani, Matteo Villani, David K. Ferry, Xavier Oriols(参考訳) 本章では,ボヘミアの力学とその微視的現実を記述する能力が,たとえ測定がなくても,現象学的にアクセス可能な情報(コペンハーゲン理論の支持者にも有用である)の予測を支援するために,計算ツールとして活用できる,いくつかのホットスポットを探索する。 As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system. 実際に最も重要なことは、たとえこれらの数に存在論的意味が与えられなくても、それらをシミュレートできるだけでなく、弱い値の実験で運用的に決定できるということに気づくことである。 したがって、それらは従う量子理論に関係なく量子系を特徴づける実用的な数となる。

In this chapter, we will take a trip around several hot-spots where Bohmian mechanics and its capacity to describe the microscopic reality, even in the absence of measurements, can be harnessed as computational tools, in order to help in the prediction of phenomenologically accessible information (also useful for the followers of the Copenhagen theory). As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system. Most importantly in practice, even if these numbers are given no ontological meaning, not only we will be able to simulate (thus, predict and talk about) them, but we will see that they can be operationally determined in a weak value experiment. Therefore, they will be practical numbers to characterize a quantum system irrespective of the followed quantum theory.
翻訳日:2023-01-09 08:37:07 公開日:2022-12-19
# 集積型量子光位相センサ

Integrated Quantum Optical Phase Sensor ( http://arxiv.org/abs/2212.09717v1 )

ライセンス: Link先を確認
Hubert S. Stokowski, Timothy P. McKenna, Taewon Park, Alexander Y. Hwang, Devin J. Dean, Oguz Tolga Celik, Vahid Ansari, Martin M. Fejer, Amir H. Safavi-Naeini(参考訳) 光の量子ノイズは基本的に光位相センサーを制限する。 半古典的な画像は、このノイズをレーザーのようなコヒーレント光源からの光子のランダムな到着時間とみなす。 圧縮状態の工学的源は、このノイズを抑制し、位相検出のための標準量子限界(sql)を超える感度を許容する。 LIGOのような先進的な重力波検出器はすでにそのような源を組み込んでおり、量子生物学的測定の実現に向けた初期の取り組みは、量子測定で現れる新しい能力を垣間見ることができる。 実験環境の外部で動作するデプロイ可能な量子センサー内で量子光を設計、利用する方法が必要です。 本稿では,ニオブ酸リチウム薄膜で作製したフォトニック集積回路について述べる。 2次非線形性を用いてポンプ光と同じ周波数のスクイーズ状態を生成し、回路制御と電気光学によるセンシングを実現する。 26.2ミリワットの光学電力を用いて(2.7$\pm$ 0.2 )$\%$ squeezingを計測し、位相測定の信号対雑音比を高めるために適用する。 このようなオンチップフォトニックシステムは、低消費電力で動作し、必要な全ての機能を1つのダイスに統合することで、量子光学センシングの新たな機会を開くと予測している。

The quantum noise of light fundamentally limits optical phase sensors. A semiclassical picture attributes this noise to the random arrival time of photons from a coherent light source such as a laser. An engineered source of squeezed states suppresses this noise and allows sensitivity beyond the standard quantum limit (SQL) for phase detection. Advanced gravitational wave detectors like LIGO have already incorporated such sources, and nascent efforts in realizing quantum biological measurements have provided glimpses into new capabilities emerging in quantum measurement. We need ways to engineer and use quantum light within deployable quantum sensors that operate outside the confines of a lab environment. Here we present a photonic integrated circuit fabricated in thin-film lithium niobate that provides a path to meet these requirements. We use the second-order nonlinearity to produce a squeezed state at the same frequency as the pump light and realize circuit control and sensing with electro-optics. Using a 26.2 milliwatts of optical power, we measure (2.7 $\pm$ 0.2 )$\%$ squeezing and apply it to increase the signal-to-noise ratio of phase measurement. We anticipate that on-chip photonic systems like this, which operate with low power and integrate all of the needed functionality on a single die, will open new opportunities for quantum optical sensing.
翻訳日:2023-01-09 08:36:46 公開日:2022-12-19
# QR分解による行列生成状態の高速時間進化

Fast Time-Evolution of Matrix-Product States using the QR decomposition ( http://arxiv.org/abs/2212.09782v1 )

ライセンス: Link先を確認
Jakob Unfried, Johannes Hauschild and Frank Pollmann(参考訳) 特異値分解 (SVD) の代わりにQR分解に基づく切り出し方式を用いた改良時間進化ブロックデシメーション (TEBD) アルゴリズムを提案し, ベンチマークを行った。 この修正により、物理ヒルベルト空間の次元$d$を$d^3$から$d^2$に縮小する。 さらに、QR分解はSVDよりも計算の複雑さが低く、GPUハードウェア上での高効率な実装を可能にする。 量子クロックモデルにおける大域的クエンチのベンチマークシミュレーションでは、最大3桁のスピードアップをA100 GPU上でQRとSVDベースの更新と比較する。

We propose and benchmark a modified time evolution block decimation (TEBD) algorithm that uses a truncation scheme based on the QR decomposition instead of the singular value decomposition (SVD). The modification reduces the scaling with the dimension of the physical Hilbert space $d$ from $d^3$ down to $d^2$. Moreover, the QR decomposition has a lower computational complexity than the SVD and allows for highly efficient implementations on GPU hardware. In a benchmark simulation of a global quench in a quantum clock model, we observe a speedup of up to three orders of magnitude comparing QR and SVD based updates on an A100 GPU.
翻訳日:2023-01-09 08:36:27 公開日:2022-12-19
# フェルミオンガウス回路と相互作用する系:単一不純物アンダーソンモデルへの応用

Disentangling Interacting Systems with Fermionic Gaussian Circuits: Application to the Single Impurity Anderson Model ( http://arxiv.org/abs/2212.09798v1 )

ライセンス: Link先を確認
Ang-Kun Wu, Matthew T. Fishman, J. H. Pixley, E. M. Stoudenmire(参考訳) 量子多体状態のテンソルネットワーク表現は、強相関系の強力なツールを提供し、絡み合い領域の法則を示す基底状態のような局所相関を捉えるために調整される。 相互作用するフェルミオン系にテンソルネットワーク状態を適用する場合、基底や軌道の適切な選択はテンソルの結合次元を大幅に削減し、計算を高速化することができる。 本稿では,フェルミオンガウス状態の圧縮により得られたユニタリゲートを,様々なテンソルネットワークに対応する量子回路に導入する。 これらの回路は、基底状態の絡み合いエントロピーを低減し、密度行列再正規化群のようなアルゴリズムの性能を向上させることができる。 1次元単一不純物アンダーソンモデルを用いて計算効率の向上と不純物物理の解釈における手法のパワーを示す。 さらに、フェルミオンガウス回路は、不純物グリーン関数の計算に用いられる低次励起状態の時間発展中の絡み合いを抑制する可能性も示している。 最後に,フェルミオンガウス状態の階層圧縮を行うガウス型マルチスケールエンタングル化アンサッツ(gmera)回路について考察する。 これらのgmera回路からの創発的粗粒物理モデルは、その絡み合い特性と時間発展に適合性の観点から研究されている。

Tensor network representations of quantum many-body states provide powerful tools for strongly correlated systems, tailored to capture local correlations such as ground states exhibiting entanglement area laws. When applying tensor network states to interacting fermionic systems, a proper choice of basis or orbitals can greatly reduce the bond dimension of tensors and speed up calculations. We introduce such a change of basis with unitary gates obtained via compressing fermionic Gaussian states into quantum circuits corresponding to various tensor networks. These circuits can reduce the ground state entanglement entropy and improve the performance of algorithms such as the density matrix renormalization group. We study the 1D single impurity Anderson model to show the power of the method in improving computational efficiency and interpreting impurity physics. Furthermore, fermionic Gaussian circuits also show potential for suppressing entanglement during the time evolution of a low-lying excited state that is used to compute the impurity Green's function. Lastly, we consider Gaussian multi-scale entanglement renormalization ansatz (GMERA) circuits which compress fermionic Gaussian states hierarchically. The emergent coarse-grained physical models from these GMERA circuits are studied in terms of their entanglement properties and suitability for performing time evolution.
翻訳日:2023-01-09 08:36:16 公開日:2022-12-19
# 原子系2光子干渉計による光子統計の調整

Tailoring photon statistics with an atom-based two-photon interferometer ( http://arxiv.org/abs/2212.09592v1 )

ライセンス: Link先を確認
Martin Cordier, Max Schemmer, Philipp Schneeweiss, J\"urgen Volz and Arno Rauschenbeutel(参考訳) 光の光子統計の制御は、量子科学と技術にとって最重要である。 近年,2レベルエミッタのアンサンブルを通過する共振器レーザ光が単一光子あるいは過剰光子対の流れを生じさせることを示した。 この変換は送信された2光子成分と不整合に散乱した2光子成分の間の量子干渉に起因する。 ここでは,原子媒質の分散を利用して,これら2成分間の相対量子位相を積極的に制御する。 これにより、可変2光子干渉計を実現し、標準光子一致率の干渉線を観測する。 非コヒーレント光とコヒーレント光の間の量子位相が調整され、光子統計を決定できるという基本的な洞察を超えて、我々の結果は新しい量子光源の開発に役立っている。

Controlling the photon statistics of light is paramount for quantum science and technologies. Recently, we demonstrated that transmitting resonant laser light past an ensemble of two-level emitters can result in a stream of single photons or excess photon pairs. This transformation is due to quantum interference between the transmitted and incoherently scattered two-photon component. Here, using the dispersion of the atomic medium, we actively control the relative quantum phase between these two components. We thereby realize a tunable two-photon interferometer and observe interference fringes in the normalized photon coincidence rate, varying from antibunching to bunching. Beyond the fundamental insight that the quantum phase between incoherent and coherent light can be tuned and dictates photon statistics, our results lend themselves to the development of novel quantum light sources.
翻訳日:2023-01-09 08:02:37 公開日:2022-12-19
# 結合光子数分布からのボソンサンプリングの有効検証

Efficient validation of Boson Sampling from binned photon-number distributions ( http://arxiv.org/abs/2212.09643v1 )

ライセンス: Link先を確認
Benoit Seron, Leonardo Novo, Alex Arkhipov, Nicolas J. Cerf(参考訳) 量子計算の利点の主張を裏付けるためには、実験データを検証する効率的な方法を開発することが不可欠である。 本稿では,光子が出力モードの分割間でどのように分配されるかに基づく単一光子入力を用いたボソン・サンプラーの正しい機能検証を提案する。 提案手法は多種多様であり, 束縛現象, 限界分布, さらにはいくつかの抑制法に基づく検証試験を包含する。 理論的な議論と数値シミュレーションにより、バイナリドモードの光子数分布を実際のシナリオで使用することで、理想的なボゾンサンプルと実際の不完全さ、特に光子の部分的識別性の影響を効率的に区別できることを示した。

In order to substantiate claims of quantum computational advantage, it is crucial to develop efficient methods for validating the experimental data. We propose a test of the correct functioning of a boson sampler with single-photon inputs that is based on how photons distribute among partitions of the output modes. Our method is versatile and encompasses previous validation tests based on bunching phenomena, marginal distributions, and even some suppression laws. We show via theoretical arguments and numerical simulations that binned-mode photon number distributions can be used in practical scenarios to efficiently distinguish ideal boson samplers from those affected by realistic imperfections, especially partial distinguishability of the photons.
翻訳日:2023-01-09 08:02:22 公開日:2022-12-19
# 最適化情報完全一般化測定によるADAPT-VQEの測定オーバーヘッドの軽減

Mitigating the measurement overhead of ADAPT-VQE with optimised informationally complete generalised measurements ( http://arxiv.org/abs/2212.09719v1 )

ライセンス: Link先を確認
Anton Nyk\"anen, Matteo A. C. Rossi, Elsi-Mari Borrelli, Sabrina Maniscalco, Guillermo Garc\'ia-P\'erez(参考訳) ADAPT-VQE は分子シミュレーションのためのコンパクトな ans\atze を構築するための頑健なアルゴリズムである。 UCCSDのような他の手法と比較して回路深度を著しく低減できるが、精度は高く、多くのハードウェア効率の良い ans\atze の変動最適化を妨げるようなバレン高原に悩まされない。 しかし、標準的な実装では、多くの整流子演算子の勾配評価とトラフ推定という形でかなりの測定オーバーヘッドを導入する。 本研究では, 適応情報完全一般化計測(AIM)に基づくエネルギー評価手法を最近導入して, この測定オーバーヘッドを軽減する。 エネルギー自体の効率的な測定方法を提供する以外に、情報完全(IC)測定データは、古典的に効率的な後処理のみを使用してADAPT-VQEの演算子プール内の演算子のすべての演算子を推定するために再利用することができる。 本稿では,AIM-ADAPT-VQE方式の詳細を述べるとともに,H4ハミルトニアンと演算子プールを用いてその性能について検討する。 数値シミュレーションにより,エネルギーを評価するために得られた測定データを再利用してADAPT-VQEを実装することができることを示す。 さらに, エネルギーを化学精度で測定すると, 生成回路のcnotカウントが理想値に近いことを示す。 測定データが少ないため、AIM-ADAPT-VQEは高い確率で基底状態に収束するが、回路深さが増加する場合もある。

ADAPT-VQE stands out as a robust algorithm for constructing compact ans\"atze for molecular simulation. It enables to significantly reduce the circuit depth with respect to other methods, such as UCCSD, while achieving higher accuracy and not suffering from so-called barren plateaus that hinder the variational optimisation of many hardware-efficient ans\"atze. In its standard implementation, however, it introduces a considerable measurement overhead in the form of gradient evaluations trough estimations of many commutator operators. In this work, we mitigate this measurement overhead by exploiting a recently introduced method for energy evaluation relying on Adaptive Informationally complete generalised Measurements (AIM). Besides offering an efficient way to measure the energy itself, Informationally Complete (IC) measurement data can be reused to estimate all the commutators of the operators in the operator pool of ADAPT-VQE, using only classically efficient post-processing. We present the AIM-ADAPT-VQE scheme in detail, and investigate its performance with several H4 Hamiltonians and operator pools. Our numerical simulations indicate that the measurement data obtained to evaluate the energy can be reused to implement ADAPT-VQE with no additional measurement overhead for the systems considered here. In addition, we show that, if the energy is measured within chemical precision, the CNOT count in the resulting circuits is close to the ideal one. With scarce measurement data, AIM-ADAPT-VQE still converges to the ground state with high probability, albeit with an increased circuit depth in some cases.
翻訳日:2023-01-09 08:02:07 公開日:2022-12-19
# Bonsaiアルゴリズム:自作のフェルミオン・ツー・キュービットマッピング

The Bonsai algorithm: grow your own fermion-to-qubit mapping ( http://arxiv.org/abs/2212.09731v1 )

ライセンス: Link先を確認
Aaron Miller, Zolt\'an Zimbor\'as, Stefan Knecht, Sabrina Maniscalco, Guillermo Garc\'ia-P\'erez(参考訳) フェルミオン-量子ビットマッピングは、電子構造計算のための多くの量子アルゴリズムにおいて重要な第一歩である量子コンピュータ上のフェルミオンモードを表現するために用いられる。 本稿では,三元木からのフレキシブルなフェルミオンから量子ビットへのマッピングを設計するための形式的手法を提案する。 本研究では,木構造の生成と,パウリ重みやモード占有の非局在化といったマッピングの特定の性質との関係を直感的に議論する。 さらに,fock基底状態が量子ビット空間内の計算基底状態にマッピングされることを保証するレシピを導入する。 この定式化に基づいて、量子デバイスの量子ビット接続の潜在的に制限されたトポロジを入力として、他のパラダイムマッピングに関してSWAPオーバーヘッドを低減するように調整されたフェルミオン-量子ビットマッピングを返すボンサイアルゴリズムを導入する。 我々は,IBM量子コンピュータで広く使われているヘキサゴナルトポロジのマッピングを作成した。 結果として得られる写像は、この接続性についてpauli weight scaling $\mathcal{o}(\sqrt{n})$を持つが、単一の励起操作にはスワップゲートが不要である。

Fermion-to-qubit mappings are used to represent fermionic modes on quantum computers, an essential first step in many quantum algorithms for electronic structure calculations. In this work, we present a formalism to design flexible fermion-to-qubit mappings from ternary trees. We discuss in an intuitive manner the connection between the generating trees' structure and certain properties of the resulting mapping, such as Pauli weight and the delocalisation of mode occupation. Moreover, we introduce a recipe that guarantees Fock basis states are mapped to computational basis states in qubit space, a desirable property for many applications in quantum computing. Based on this formalism, we introduce the Bonsai algorithm, which takes as input the potentially limited topology of the qubit connectivity of a quantum device and returns a tailored fermion-to-qubit mapping that reduces the SWAP overhead with respect to other paradigmatic mappings. We illustrate the algorithm by producing mappings for the heavy-hexagon topology widely used in IBM quantum computers. The resulting mappings have a favourable Pauli weight scaling $\mathcal{O}(\sqrt{N})$ on this connectivity, while ensuring that no SWAP gates are necessary for single excitation operations.
翻訳日:2023-01-09 08:01:40 公開日:2022-12-19
# 量子力学を仮定しないフォトニックスターネットワークの全てのリンクにおける非古典性の証明

Certification of non-classicality in all links of a photonic star network without assuming quantum mechanics ( http://arxiv.org/abs/2212.09765v1 )

ライセンス: Link先を確認
Ning-Ning Wang, Alejandro Pozas-Kerstjens, Chao Zhang, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, Nicolas Gisin, Armin Tavakoli(参考訳) 遠方のユーザーを繋ぐ絡み合った粒子の独立した源からなるネットワークは、急速に発展する量子技術であり、基礎物理学のための有望なテストベッドである。 ここでは,完全ネットワークの非局所性の実証を通じて,彼らのポスト古典的特性の認定について述べる。 完全なネットワーク非局所性は、少なくとも1つのソースが古典的であるモデルをファルシファイリングすることによって、ネットワーク内の標準的な非局所性を超える。 本報告では,3つの独立したフォトニック量子ビット源と3量子絡み合せスワッピング測定を備えた星型ネットワークにおける完全ネットワーク非局所性の観測について報告する。 本研究は,バイローカルネットワークを超えたフルネットワーク非局所性の実証実験である。

Networks composed of independent sources of entangled particles that connect distant users are a rapidly developing quantum technology and an increasingly promising test-bed for fundamental physics. Here we address the certification of their post-classical properties through demonstrations of full network nonlocality. Full network nonlocality goes beyond standard nonlocality in networks by falsifying any model in which at least one source is classical, even if all the other sources are limited only by the no-signaling principle. We report on the observation of full network nonlocality in a star-shaped network featuring three independent sources of photonic qubits and joint three-qubit entanglement-swapping measurements. Our results constitute the first experimental demonstration of full network nonlocality beyond the bilocal network.
翻訳日:2023-01-09 08:01:14 公開日:2022-12-19
# 一般化・絡み合った量子消去器の量子シミュレーションと関連する完全相補関係

Quantum simulation of the generalized-entangled quantum eraser, and the related complete complementarity relations ( http://arxiv.org/abs/2212.09915v1 )

ライセンス: Link先を確認
Diego S. S. Chrysosthemos, Marcos L. W. Basso and Jonas Maziero(参考訳) 我々は、IBMの量子コンピュータを用いて、入力時に可変部分偏光ビームスプリッタ(VPPBS)を備えたマッハ・ツェンダー干渉計を用いて、光学量子消去器(QE)の完全な量子シミュレーションを行う。 VPPBSの使用は、ベル基底測定を用いて経路情報を消去する絡み合った量子消去器を導入する動機となっている。 また,完全相補関係 (ccrs) で示される予測可能性と絡み合いによって表される粒子特性と同様に,波面,すなわち量子コヒーレンス(quantum coherence)の挙動についても検討した。 本稿では,VPPBSの利用がQEとCCRの興味深い側面を明らかにする。 例えば、絡み合いによる経路に関する部分的な知識しか持たない場合でも、消去手順により完全な波動挙動を回復することができる。

We utilize IBM's quantum computers to perform a full quantum simulation of the optical quantum eraser (QE) utilizing a Mach-Zehnder interferometer with a variable partially-polarizing beam splitter (VPPBS) at the input. The use of the VPPBS motivates us to introduce the entangled quantum eraser, for which the path information is erased using a Bell-basis measurement. We also investigate the behavior of the wave aspect, i.e., the quantum coherence, as well as the particle character, represented by the predictability and entanglement, as delineated in complete complementarity relations (CCRs). As we show in this article, the utilization of the VPPBS uncover interesting aspects of the QE and CCRs. For instance, we can recover the full wave-behavior by the erasure procedure even when we have only partial knowledge about the path through entanglement.
翻訳日:2023-01-09 08:00:59 公開日:2022-12-19
# ニュートリノ振動における量子資源理論のトレードオフ関係

Trade-off relations of quantum resource theory in neutrino oscillations ( http://arxiv.org/abs/2212.09320v1 )

ライセンス: Link先を確認
Yu-Wen Li, Li-Juan Li, Xue-Ke Song, Dong Wang(参考訳) Leggett-Gargの不等式による古典的境界の違反は、伝播中のニュートリノ振動(NOs)の量子性をテストする。 実験的に観測されたNOsにおける量子性の尺度は量子資源理論(QRT)によって研究される。 ここでは,ベル型違反,一階コヒーレンス,内在的コヒーレンス,および相対的コヒーレンスエントロピーに基づく3種類のNOにおけるQRTのトレードオフ関係に着目した。 電子及びミューオン反ニュートリノ発振では、この3つのフレーバーニュートリノ系における一対のフレーバー状態のベル-CHSH不等式に従属する分析的トレードオフ関係が得られ、三対のフレーバー状態に対するCHSH試験の最大違反の和は12以下である。 さらに、nosにおける一階コヒーレンスと本質コヒーレンスに関する等式関係が存在し、ニュートリノ伝播中に一階コヒーレンスと本質コヒーレンスの間にどれだけの量子リソースが流れるかを示す。 また, 3-フレーバー系の三成分コヒーレンスは, 還元二成分フレーバー状態のコヒーレンス和と同等かそれ以上であることがわかった。 QRTのトレードオフ関係は、量子資源がNOを変換し分散する方法を研究する方法を提供し、ニュートリノを用いた量子情報処理における将来の応用を刺激する可能性がある。

The violation of the classical bounds imposed by Leggett-Garg inequalities has tested the quantumness of neutrino oscillations (NOs) over a long distance during the propagation. The measure of quantumness in experimentally observed NOs is studied via quantum resource theory (QRT). Here, we focus on the trade-off relations of QRT in the three-flavor NOs, based on Bell-type violations, first-order coherence and intrinsic concurrence, and the relative entropy of coherence. For the electron and muon antineutrino oscillations, the analytical trade-off relations obeyed by the Bell-CHSH inequality of pairwise flavor states in this three-flavor neutrino system are obtained; the sum of the maximal violation of the CHSH tests for three pairwise flavor states is less than or equal to 12. Moreover, there exists an equality relation concerning first-order coherence and intrinsic concurrence in NOs, showing how much quantum resources flow between first-order coherence and intrinsic concurrence during the neutrino propagation. In addition, it is found that the tripartite coherence of three-flavor system is equal to or larger than the sum of the coherence of reduced bipartite flavor states. The trade-off relations of QRT provide a method for studying how the quantum resources convert and distribute in NOs, which might inspire the future applications in quantum information processing using neutrinos.
翻訳日:2023-01-09 07:53:14 公開日:2022-12-19
# 三成分絡み合い、コヒーレンス、操舵不等式違反の相補的関係

Complementary relations of tripartite entanglement, coherence, and steering inequality violation ( http://arxiv.org/abs/2212.09326v1 )

ライセンス: Link先を確認
Dong-Dong Dong, Xue-Ke Song, Xiao-Gang Fan, Liu Ye, and Dong Wang(参考訳) 我々は,任意の3ビット状態に対する絡み合い,コヒーレンス,およびステアリング不等式違反の相補関係を推し進めた。 一つのパラメータを持つ真に絡み合った3量子状態の2つの族が存在し、それぞれ一定量の負性に対して最大コヒーレンスおよびステアリング不等式違反を示す。 ネガティリティは常に3量子ビット混合状態のネガティリティよりも小さいかまたは等しいが、ネガティリティは3量子ビット純状態の2成分共役の幾何学的平均とちょうど等しいことが判明した。 さらに, 3部交絡状態に対する負性度と一階コヒーレンスとの相補関係を確立する。 さらに, 負性度と最大操舵不等式違反の関係について検討した。 その結果, 絡み合い, コヒーレンス, ステアリング不平等違反の根本的関係の確実な証拠が得られた。

We put forward complementary relations of entanglement, coherence, and steering inequality violation for arbitrary three-qubit states. We show that two families of genuinely entangled three-qubit pure states with single parameter exist, and they exhibit maximum coherence and steering inequality violation for a fixed amount of negativity, respectively. It is found that the negativity is exactly equal to the geometric mean of bipartite concurrences for the three-qubit pure states, although the negativity is always less than or equal to the latter for three-qubit mixed states. Moreover, the complementary relation between negativity and first-order coherence for tripartite entanglement states are established. Furthermore, we investigate the close relation between the negativity and the maximum steering inequality violation. The results provide reliable evidence of fundamental connections among entanglement, coherence, and steering inequality violation.
翻訳日:2023-01-09 07:52:51 公開日:2022-12-19
# 開量子多体系の非定常モードにおける自発対称性の破れ

Spontaneous symmetry breaking in non-steady modes of open quantum many-body systems ( http://arxiv.org/abs/2212.09327v1 )

ライセンス: Link先を確認
Taiki Haga(参考訳) 環境に結合した量子多体系では、制御パラメータが臨界値を超えると、その定常状態が自発的対称性の破れを示す。 本研究では,開量子多体系の非定常モードにおける自発的対称性の破れを考える。 系の密度行列の時間発展がマルコフのマスター方程式によって記述されると仮定すると、系の力学は対応する時間発展超作用素の固有モードとスペクトルによって完全に特徴づけられる。 有限寿命を持つ非定常固有モードのうち、最も高い周波数を持つ固有モードに焦点を当て、最もコヒーレントなモードと呼ぶ。 散逸スピンモデルにおいて、最もコヒーレントなモードは、定常状態が特異な振る舞いを示さない場合でも、不規則位相から対称性ブロッケン秩序相への遷移を示すことが示されている。 さらに、最もコヒーレントなモードの位相遷移は、高度に絡み合った状態、すなわちシュル=オディンガーの猫状態のデコヒーレンスダイナミクスを定性的に変化させる。

In a quantum many-body system coupled to the environment, its steady state can exhibit spontaneous symmetry breaking when a control parameter exceeds a critical value. In this study, we consider spontaneous symmetry breaking in non-steady modes of an open quantum many-body system. Assuming that the time evolution of the density matrix of the system is described by a Markovian master equation, the dynamics of the system is fully characterized by the eigenmodes and spectrum of the corresponding time evolution superoperator. Among the non-steady eigenmodes with finite lifetimes, we focus on the eigenmodes with the highest frequency, which we call the most coherent mode. For a dissipative spin model, it is shown that the most coherent mode exhibits a transition from a disordered phase to a symmetry-broken ordered phase, even if the steady state does not show singular behavior. We further argue that the phase transition of the most coherent mode induces a qualitative change in the decoherence dynamics of highly entangled states, i.e., the Schr\"odinger's cat states.
翻訳日:2023-01-09 07:52:36 公開日:2022-12-19
# 文脈性のための2つのコホモロジー障害の比較と浅回路を用いた量子アドバンテージの一般化構成

Comparing two cohomological obstructions for contextuality, and a generalised construction of quantum advantage with shallow circuits ( http://arxiv.org/abs/2212.09382v1 )

ライセンス: Link先を確認
Sivert Aasn{\ae}ss(参考訳) 量子テクスチュアリティとコホモロジー,非局所性と浅い回路による量子優位性に関する2つの結果を示す。 Abramskyらは、量子テクスチュアリティの一連の例は、 \v{C}ech cohomology に基づいてコホモロジー不変量によって検出されることを示した。 しかし、このアプローチは文脈性の完全なコホモロジー的特徴を与えない。 okらによって文脈性に対する別のコホモロジー的アプローチが導入された。 彼らのアプローチは、パウリ作用素の代数的構造とワイル作用素として知られるクディット一般化を利用する。 この構造を抽象的に説明し、そのアプローチをこの構造で文脈性を示す任意の例に一般化する。 この一般的なレベルでは、このアプローチが \v{c}echコホモロジーのアプローチよりも文脈性の完全な特徴付けを与えないことが証明される。 Bravyi, Gosset, K\"{o}nig (BGK) は、制限された量子回路のクラスが古典的なアナログよりも強力であるという最初の無条件の証明を与えた。 その結果、境界深さの回路とファンイン回路(浅回路)のクラスは、文脈性の特定の種類の例を利用する。 BGKの量子回路と計算問題は、よく知られたGHZ非局所ゲームに関連する非局所ゲーム群から導かれる。 我々はそれらの建築の一般化版を提示する。 文脈性の例を取り、浅い回路で無条件量子優位結果を生成する体系的な方法。

We present two results on the subject of quantum contextuality and cohomology, and non-locality and quantum advantage with shallow circuits. Abramsky et al. showed that a range of examples of quantum contextuality is detected by a cohomological invariant based on \v{C}ech cohomology. However, the approach does not give a complete cohomological characterisation of contextuality. A different cohomological approach to contextuality was introduced by Okay et al. Their approach exploits the algebraic structure of the Pauli operators and their qudit generalisations known as Weyl operators. We give an abstract account of this structure, then generalise their approach to any example of contextuality with this structure. We prove at this general level that the approach does not give a more complete characterisation of contextuality than the \v{C}ech cohomology approach. Bravyi, Gosset, and K\"{o}nig (BGK) gave the first unconditional proof that a restricted class of quantum circuits is more powerful than its classical analogue. The result, for the class of circuits of bounded depth and fan-in (shallow circuits), exploits a particular family of examples of contextuality. BGK's quantum circuit and computational problem are derived from a family of non-local games related to the well-known GHZ non-local game. We present a generalised version of their construction. A systematic way of taking examples of contextuality and producing unconditional quantum advantage results with shallow circuits.
翻訳日:2023-01-09 07:52:17 公開日:2022-12-19
# ハードウェア誤差下における量子強化学習のロバスト性

Robustness of quantum reinforcement learning under hardware errors ( http://arxiv.org/abs/2212.09431v1 )

ライセンス: Link先を確認
Andrea Skolik, Stefano Mangini, Thomas B\"ack, Chiara Macchiavello, Vedran Dunjko(参考訳) 変動量子機械学習アルゴリズムは、機械学習タスクに短期量子デバイスを利用する方法に関する最近の研究の焦点となっている。 これらは、実行中の回路がデバイスに調整可能であり、計算の大部分が古典的なオプティマイザに委譲されるため、この方法に適していると考えられている。 また、それらのハイブリッド性により、従来のアルゴリズムよりもハードウェアノイズに頑健であるという仮説もある。 しかし、ハードウェアによるノイズの影響下での量子機械学習モデルのトレーニングの効果は、まだ広く研究されていない。 本研究では,様々なノイズ源の存在下での学習性能を,ショットノイズ,コヒーレント,アンコヒーレントな誤りなど,特定の種類の学習,すなわち変分強化学習に向け,この問題に対処する。 量子強化学習アルゴリズムの学習中における雑音の存在がエージェントの性能と学習方針の頑健性に及ぼす影響を解析的・実証的に検討した。 さらに,本アルゴリズムの固有構造を用いて,q-learningエージェントの学習に必要な測定回数を削減する手法を提案する。

Variational quantum machine learning algorithms have become the focus of recent research on how to utilize near-term quantum devices for machine learning tasks. They are considered suitable for this as the circuits that are run can be tailored to the device, and a big part of the computation is delegated to the classical optimizer. It has also been hypothesized that they may be more robust to hardware noise than conventional algorithms due to their hybrid nature. However, the effect of training quantum machine learning models under the influence of hardware-induced noise has not yet been extensively studied. In this work, we address this question for a specific type of learning, namely variational reinforcement learning, by studying its performance in the presence of various noise sources: shot noise, coherent and incoherent errors. We analytically and empirically investigate how the presence of noise during training and evaluation of variational quantum reinforcement learning algorithms affect the performance of the agents and robustness of the learned policies. Furthermore, we provide a method to reduce the number of measurements required to train Q-learning agents, using the inherent structure of the algorithm.
翻訳日:2023-01-09 07:51:53 公開日:2022-12-19
# 時間依存ハミルトニアンシミュレーションのためのアンバイアスランダム回路コンパイラ

Unbiased random circuit compiler for time-dependent Hamiltonian simulation ( http://arxiv.org/abs/2212.09445v1 )

ライセンス: Link先を確認
Xiao-Ming Zhang, Zixuan Huo, Kecheng Liu, Ying Li and Xiao Yuan(参考訳) 時間依存ハミルトンシミュレーション(TDHS)は量子コンピューティングにおいて重要な課題である。 既存のアルゴリズムは一般に小さなアルゴリズムエラー$\varepsilon$に偏りがあり、ゲート複雑性は製品公式に基づくメソッドに対して$o(\text{poly}(1/\varepsilon))$でスケールし、複雑な回路構成で多対数に改善することができる。 本稿では、量子進化のための非バイアス付き連続サンプリング法であるダイソン展開と、先行順序回転を組み合わせ、TDHSのための非バイアス付きランダムコンパイラを開発する。 本手法では, サンプリングオーバーヘッドが一定である単一および2量子ゲートの複雑性$O(\Lambda^2)$, $\Lambda$はハミルトン強度の時間積分である。 分子系の相互作用図と断熱基底状態によるスピンモデルの数値シミュレーションを行う。 どちらの例でも,既存の手法よりも顕著な改善が見られた。 我々の研究は、TDHSの効率的な実現への道を開いた。

Time-dependent Hamiltonian simulation (TDHS) is a critical task in quantum computing. Existing algorithms are generally biased with a small algorithmic error $\varepsilon$, and the gate complexity scales as $O(\text{poly}(1/\varepsilon))$ for product formula-based methods and could be improved to be polylogarithmic with complicated circuit constructions. Here, we develop an unbiased random compiler for TDHS by combining Dyson expansion, an unbiased continuous sampling method for quantum evolution, and leading order rotations, and it is free from algorithmic errors. Our method has the single- and two-qubit gate complexity $O(\Lambda^2)$ with a constant sampling overhead, where $\Lambda$ is the time integration of the Hamiltonian strength. We perform numerical simulations for a spin model under the interaction picture and the adiabatic ground state preparation for molecular systems. In both examples, we observe notable improvements of our method over existing ones. Our work paves the way to efficient realizations of TDHS.
翻訳日:2023-01-09 07:51:37 公開日:2022-12-19
# 4レベルモデルを超えて:量子ドットにおける暗黒とホット状態はフォトニック絡みを分解する

Beyond the four-level model: Dark and hot states in quantum dots degrade photonic entanglement ( http://arxiv.org/abs/2212.09529v1 )

ライセンス: Link先を確認
Barbara Ursula Lehner, Tim Seidelmann, Gabriel Undeutsch, Christian Schimpf, Santanu Manna, Micha{\l} Gawe{\l}czyk, Saimon Filipe Covre da Silva, Xueyong Yuan, Sandra Stroj, Doris E. Reiter, Vollrath Martin Axt, Armando Rastelli(参考訳) 絡み合った光子対は、多くのフォトニック量子応用に必須である。 これまで、エンタングル光子の固体量子エミッタは、液体ヘリウム温度で操作される半導体量子ドットである。 これらのソースを広く展開するためには、小型スターリング冷却機で利用できる温度でそれらの振る舞いを探索し理解することが重要である。 本稿では,光子対生成に関わる4つのレベルに加えて,温度65KのGaAs量子ドットにおける光子対間の偏光絡みについて検討する。 追加状態の存在と特性を考慮した詳細な計算とフォノン支援遷移は解釈を支持する。 これらの結果は、高温で非常に絡み合った光子の源として量子ドットの最適化を導くことを期待する。

Entangled photon pairs are essential for a multitude of photonic quantum applications. To date, the best performing solid-state quantum emitters of entangled photons are semiconductor quantum dots operated around liquid-helium temperatures. To favor the widespread deployment of these sources, it is important to explore and understand their behavior at temperatures accessible with compact Stirling coolers. Here we study the polarization entanglement among photon pairs from the biexciton-exciton cascade in GaAs quantum dots at temperatures up to 65 K. We observe entanglement degradation accompanied by changes in decay dynamics, which we ascribe to thermal population and depopulation of hot and dark states in addition to the four levels relevant for photon pair generation. Detailed calculations considering the presence and characteristics of the additional states and phonon-assisted transitions support the interpretation. We expect these results to guide the optimization of quantum dots as sources of highly entangled photons at elevated temperatures.
翻訳日:2023-01-09 07:50:57 公開日:2022-12-19
# BosonSampling.jl:量子多光子干渉計のためのJuliaパッケージ

BosonSampling.jl: A Julia package for quantum multi-photon interferometry ( http://arxiv.org/abs/2212.09537v1 )

ライセンス: Link先を確認
Benoit Seron, Antoine Restivo(参考訳) 本稿では,ボーソンサンプラーの高性能シミュレーションと数値解析のためのフリーオープンソースパッケージと,より一般的には多光子干渉法を提案する。 私たちのパッケージはJuliaで書かれており、簡単に表記できるCライクなパフォーマンスと高速でハイレベルなコーディングを実現しています。 下位のビルディングブロックは、複雑な低レベル言語の変更なしに簡単に変更できる。 本稿では,統計ツール,最適化手法,古典的サンプリングツール,検証ツールなど,ボゾンサンプリングに関連するタスクの多種多様なルーチンを提案する。

We present a free open source package for high performance simulation and numerical investigation of boson samplers and, more generally, multi-photon interferometry. Our package is written in Julia, allowing C-like performance with easy notations and fast, high-level coding. Underlying building blocks can easily be modified without complicated low-level language modifications. We present a great variety of routines for tasks related to boson sampling, such as statistical tools, optimization methods, classical samplers and validation tools.
翻訳日:2023-01-09 07:50:40 公開日:2022-12-19
# 発電機座標法の量子アルゴリズム

Quantum algorithms for generator coordinate methods ( http://arxiv.org/abs/2212.09205v1 )

ライセンス: Link先を確認
Muqing Zheng, Bo Peng, Nathan Wiebe, Ang Li, Xiu Yang, Karol Kowalski(参考訳) 本稿では,分子系のベンチマークに使用できるジェネレータ座標法(GCM)の量子アルゴリズムについて論じる。 フェルミオン u(n) リー代数(トゥーレスの定理)の生成元を通じて定義される指数作用素によって定義されるgcm形式は、低深さの量子回路を用いて大きな部分空間を探索する可能性を与える。 本研究では,地盤および励起状態エネルギーに対するヒル・ホイーラー方程式の離散化形式を構築するための量子アルゴリズムの性能を示す。 また、GCMの標準定式化を多積展開に一般化し、集合経路を適切に探索すると、高階効果を体系的に導入し、生成状態が空間対称性やスピン対称性を破る際の対称性浄化の基本的なメカニズムを提供する。 GCM量子アルゴリズムは、既存の変分量子固有解法に代わるものと見なすことができ、多段階古典最適化アルゴリズムはヒル・ウィーラー固有値問題を解くための1ステップの手順に置き換えられる。

This paper discusses quantum algorithms for the generator coordinate method (GCM) that can be used to benchmark molecular systems. The GCM formalism defined by exponential operators with exponents defined through generators of the Fermionic U(N) Lie algebra (Thouless theorem) offers a possibility of probing large sub-spaces using low-depth quantum circuits. In the present studies, we illustrate the performance of the quantum algorithm for constructing a discretized form of the Hill-Wheeler equation for ground and excited state energies. We also generalize the standard GCM formulation to multi-product extension that when collective paths are properly probed, can systematically introduce higher rank effects and provide elementary mechanisms for symmetry purification when generator states break the spatial or spin symmetries. The GCM quantum algorithms also can be viewed as an alternative to existing variational quantum eigensolvers, where multi-step classical optimization algorithms are replaced by a single-step procedure for solving the Hill-Wheeler eigenvalue problem.
翻訳日:2023-01-09 07:43:14 公開日:2022-12-19
# ダイヤモンド中の単一電子スピンの光読み出しのオンライン最適化

Online optimization for optical readout of a single electron spin in diamond ( http://arxiv.org/abs/2212.09214v1 )

ライセンス: Link先を確認
Xue Lin, Jingwei Fan, Runchuan Ye, Mingti Zhou, Yumeng Song, Dawei Lu, Nanyang Xu(参考訳) ダイヤモンドの窒素空洞(nv)中心は量子センシングの有望なプラットフォームとして開発され、特にナノメートルの解像度でナノテスラ帯の磁場測定のために開発された。 光スピン読み出し性能は、実験の信号対雑音比(SNR)に直接的な影響を及ぼす。 本研究では,レーザ波形を読み取り用にカスタマイズするオンライン最適化手法を提案する。 シミュレーションと実験により,nv中心の光検出磁気共鳴を最適化した新しい手法が得られた。 光スピン読み出しのSNRは44.1%の増大が見られた。 また,Rabi発振実験にも適用し,従来の定常レーザーパワーSNRの最適化に比べて46.0%,平均偏差12.1%の低減効果を示した。 このスキームは、将来幅広いNVベースのアプリケーションに対する感度を向上させることを約束している。

The nitrogen-vacancy (NV) center in diamond has been developed as a promising platform for quantum sensing, especially for magnetic field measurements in the nano-tesla range with a nanometer resolution. Optical spin readout performance has a direct effect on the signal-to-noise ratio (SNR) of experiments. In this work, we introduce an online optimization method to customize the laser waveform for readout. Both simulations and experiments reveal that our new scheme optimizes the optically detected magnetic resonance in NV center. The SNR of optical spin readout has been witnessed a 44.1% increase in experiments. In addition, we applied the scheme to the Rabi oscillation experiment, which shows an improvement of 46.0% in contrast and a reduction of 12.1% in mean deviation compared to traditional constant laser power SNR optimization. This scheme is promising to improve sensitivities for a wide range of NV-based applications in the future.
翻訳日:2023-01-09 07:42:56 公開日:2022-12-19
# 量子センサを用いたディジタルノイズスペクトロスコピー

Digital noise spectroscopy with a quantum sensor ( http://arxiv.org/abs/2212.09216v1 )

ライセンス: Link先を確認
Guoqing Wang, Yuan Zhu, Boning Li, Changhao Li, Lorenza Viola, Alexandre Cooper, and Paola Cappellaro(参考訳) ディジタル制御変調下での単一量子ビットセンサを用いた雑音過程の自己相関をサンプリング・再構成するための量子センシングプロトコルを紹介・実証する。 このウォルシュノイズ分光法は、スピンフリップパルスの単純な配列を利用して、周波数領域における目標雑音のパワースペクトルを直接サンプリングするデジタルフィルタの完全な基底を生成する。 本手法はフレームに基づくノイズスペクトロスコピーの実装としても見受けられるが、算術領域と論理時間領域を関連付けた変換を導入することで、ディジタルフィルタによる連続関数のサンプリングの基本的な困難さを解消する。 周波数ベースのダイナミックデカップリングノイズ分光法と比較すると,本手法の精度は時間空間におけるサンプリングと離散化によってのみ制限され,デコヒーレンスやハードウェアの制約により,進化時間に制限された場合でも容易に改善できる。 最後に,ダイヤモンド中の単一窒素空洞中心の電子スピン上での核スピン浴で発生する有効磁場の自己相関関数を実験的に再構成し,本手法の実用的限界について検討し,再現精度を向上させるための道筋について述べる。

We introduce and experimentally demonstrate a quantum sensing protocol to sample and reconstruct the auto-correlation of a noise process using a single-qubit sensor under digital control modulation. This Walsh noise spectroscopy method exploits simple sequences of spin-flip pulses to generate a complete basis of digital filters that directly sample the power spectrum of the target noise in the sequency domain -- from which the auto-correlation function in the time domain, as well as the power spectrum in the frequency domain, can be reconstructed using linear transformations. Our method, which can also be seen as an implementation of frame-based noise spectroscopy, solves the fundamental difficulty in sampling continuous functions with digital filters by introducing a transformation that relates the arithmetic and logical time domains. In comparison to standard, frequency-based dynamical-decoupling noise spectroscopy protocols, the accuracy of our method is only limited by the sampling and discretization in the time space and can be easily improved, even under limited evolution time due to decoherence and hardware limitations. Finally, we experimentally reconstruct the auto-correlation function of the effective magnetic field produced by the nuclear-spin bath on the electronic spin of a single nitrogen-vacancy center in diamond, discuss practical limitations of the method, and avenues for further improving the reconstruction accuracy.
翻訳日:2023-01-09 07:42:40 公開日:2022-12-19
# 状態接続を用いたブロックワイド量子グレースケール画像表現と圧縮方式

Block-wise quantum grayscale image representation and compression scheme using state connection ( http://arxiv.org/abs/2212.09222v1 )

ライセンス: Link先を確認
Md Ershadul Haque, Manoranjan Paul, Anwaar Ulhaq, Tanmoy Debnath(参考訳) 量子コンピューティングは、古典的画像データを量子領域に表現・圧縮する古典的コンピューティングに比べて計算能力が速いため、大きな注目を集めている。 量子領域表現の主な考え方は、ピクセルの強度とその座標、すなわち量子ビット、すなわち量子ビットを用いた状態ラベル作成である。 大きな画像の場合、状態ラベルの準備にはより多くのQubitsが必要である。 より多くのQubits問題に対処するため、ブロックワイズ状態ラベル作成を用いて、より少ない量子ビットを用いてグレースケール画像の任意のサイズをマッピングする新しいSCMNEQR(State Connection Modification Novel Enhanced Quantum Representation)アプローチが提案されている。 提案するscmneqrアプローチでは,既存のアプローチで使用する toffoli ゲートの使用を繰り返すのではなく,リセットゲートを用いた状態接続を導入する。 実験の結果,提案手法は既存の圧縮手法よりも優れていることがわかった。

Quantum computing draws huge attention due to its faster computational capability compared to classical computing to represent and compress the classical image data into the quantum domain. The main idea of quantum domain representation is to convert pixel intensities and their coordinates i.e. state label preparation using quantum bits i.e. Qubits. For a bigger size image, the state label preparation takes more Qubits. To address more Qubits issues, a novel SCMNEQR (State Connection Modification Novel Enhanced Quantum Representation) approach has been proposed that uses fewer qubits to map the arbitrary size of the grayscale image using block-wise state label preparation. The proposed SCMNEQR approach introduces the state connection using a reset gate rather than repeating the use of the Toffoli gate used in the existing approach. The experimental results show that the proposed approach outperforms the existing methods in terms of compression.
翻訳日:2023-01-09 07:42:16 公開日:2022-12-19
# qudit非安定化状態から引き起こされるベル非局所性の決定論的全可逆証明

Deterministic All-versus-nothing Proofs of Bell Nonlocality Induced from Qudit Non-stabilizer States ( http://arxiv.org/abs/2212.09264v1 )

ライセンス: Link先を確認
Wenjing Du, Di Zhou, Kanyuan Han, Hui Sun, Huaixin Cao, and Weidong Tang(参考訳) 近年, 量子ビット非安定状態から引き起こされるベル非局所性の決定論的全可逆証明が提案され, 決定論的全可安定証明は安定状態から常に導かれるという伝統を破っている。 qudit (d は偶数) バージョンへの自明な一般化は、特別な基底写像を用いて行われるが、そのような証明はいまだに qubit バージョンに還元できる。 今のところ、高次元の非安定化状態がベル非局所性の非自明な決定論的全対数証明を誘導できるかどうかは不明である。 ここでは、特定の4量子の非安定化状態(d = 4)から誘導される例を示し、そのような証明は高次元のシナリオでも構築できることを示す。

Recently, a kind of deterministic all-versus-nothing proof of Bell nonlocality induced from the qubit non-stabilizer state was proposed, breaking the tradition that deterministic all-versus-nothing proofs are always derived from stabilizer states. A trivial generalization to the qudit (d is even) version is by using a special basis map, but such a proof can still be reduced to the qubit version. So far, whether high dimensional non-stabilizer states can induce nontrivial deterministic all-versus-nothing proofs of Bell nonlocality remains unknown. Here we present an example induced from a specific four-qudit non-stabilizer state (with d = 4), showing that such proofs can be constructed in high dimensional scenarios as well.
翻訳日:2023-01-09 07:42:00 公開日:2022-12-19
# DGNet:石油スパイル画像分割のための配電誘導学習

DGNet: Distribution Guided Efficient Learning for Oil Spill Image Segmentation ( http://arxiv.org/abs/2301.01202v1 )

ライセンス: Link先を確認
Fang Chen, Heiko Balzter, Feixiang Zhou, Peng Ren and Huiyu Zhou(参考訳) SAR(Synthetic Aperture Radar)画像における油流出セグメンテーションの実施は,海洋環境保護に不可欠である。 本稿では,SAR画像にバックスキャッタ値の内在分布を取り入れ,石油流出セグメンテーションを行うDGNetという効果的なセグメンテーションフレームワークを開発する。 具体的には,提案するセグメンテーションネットワークは,sar画像から潜在特徴変数を推定する推論モジュールと,潜在特徴変数を入力として油流出セグメンテーションマップを生成する生成モジュールという,2つの深層ニューラルネットワークをインタラクティブに実行して構成する。 そこで, 正確なセグメンテーションを得るために, SAR画像中の後方散乱値の内在分布を考慮し, セグメンテーションモデルに組み込む。 内在分布は, 流出油の物理的特性を記述したSAR画像に由来する。 訓練過程において、定式化された内在分布は、石油流出セグメントの最適潜性特徴変数推論の効率的な学習を導く。 効率的な学習により,少ない画像データで提案したDGNetの学習が可能となる。 これは、石油流出SAR画像データの入手が実際に限られている石油流出セグメンテーションにとって経済的に有益である。 さらに,提案したDGNetは,最適潜時特徴量推定の利点を生かし,正確なオイル流出セグメンテーションを行う。 提案したDGNetのセグメンテーション性能を異なるメトリクスで評価し,その有効セグメンテーションを実験的に評価した。

Successful implementation of oil spill segmentation in Synthetic Aperture Radar (SAR) images is vital for marine environmental protection. In this paper, we develop an effective segmentation framework named DGNet, which performs oil spill segmentation by incorporating the intrinsic distribution of backscatter values in SAR images. Specifically, our proposed segmentation network is constructed with two deep neural modules running in an interactive manner, where one is the inference module to achieve latent feature variable inference from SAR images, and the other is the generative module to produce oil spill segmentation maps by drawing the latent feature variables as inputs. Thus, to yield accurate segmentation, we take into account the intrinsic distribution of backscatter values in SAR images and embed it in our segmentation model. The intrinsic distribution originates from SAR imagery, describing the physical characteristics of oil spills. In the training process, the formulated intrinsic distribution guides efficient learning of optimal latent feature variable inference for oil spill segmentation. The efficient learning enables the training of our proposed DGNet with a small amount of image data. This is economically beneficial to oil spill segmentation where the availability of oil spill SAR image data is limited in practice. Additionally, benefiting from optimal latent feature variable inference, our proposed DGNet performs accurate oil spill segmentation. We evaluate the segmentation performance of our proposed DGNet with different metrics, and experimental evaluations demonstrate its effective segmentations.
翻訳日:2023-01-09 07:14:43 公開日:2022-12-19
# 最適輸送のための完全確率設計

Fully Probabilistic Design for Optimal Transport ( http://arxiv.org/abs/2212.13912v1 )

ライセンス: Link先を確認
Sarah Boufelja Y., Anthony Quinn, Martin Corless and Robert Shorten(参考訳) 本研究の目的は,FPD(Fully Probabilistic Design)の用語と技法を用いて,OT(Optimal Transport)の新たな理論的枠組みを導入することである。 最適輸送は、確率測度を比較する標準的な方法であり、幅広い領域でうまく適用されている(computer vision rubner et al. [2004], computer graphics solomon et al. [2015], natural language processing kusner et al. [2015]など)。 第一に、OT問題における一般的な制約や確率的知識を誘導することは困難であり、第二に、現在の形式主義は限界における不確実性の問題に対処せず、従ってロバストなソリューションを設計するメカニズムが欠如している。 OT問題を限界制約付き確率密度関数の最適設計として見ることにより、OTがより一般的なFPDフレームワークの例であることを証明できる。 この新しい設定では、確率的制約の処理と不確実性定量化のための必要なメカニズムをotフレームワークに提供することで、fpd-otと呼ばれる新しい拡張フレームワークを確立することができる。 本論文の主な貢献は,OTとFPDの関連性を確立することであり,両者に新たな理論的洞察を与えるものである。 これにより、FPD-OTのその後の研究、特により洗練された知識制約の処理、および不確実な限界の場合の堅牢なソリューションの設計における基礎となる。

The goal of this paper is to introduce a new theoretical framework for Optimal Transport (OT), using the terminology and techniques of Fully Probabilistic Design (FPD). Optimal Transport is the canonical method for comparing probability measures and has been successfully applied in a wide range of areas (computer vision Rubner et al. [2004], computer graphics Solomon et al. [2015], natural language processing Kusner et al. [2015], etc.). However, we argue that the current OT framework suffers from two shortcomings: first, it is hard to induce generic constraints and probabilistic knowledge in the OT problem; second, the current formalism does not address the question of uncertainty in the marginals, lacking therefore the mechanisms to design robust solutions. By viewing the OT problem as the optimal design of a probability density function with marginal constraints, we prove that OT is an instance of the more generic FPD framework. In this new setting, we can furnish the OT framework with the necessary mechanisms for processing probabilistic constraints and deriving uncertainty quantifiers, hence establishing a new extended framework, called FPD-OT. Our main contribution in this paper is to establish the connection between OT and FPD, providing new theoretical insights for both. This will lay the foundations for the application of FPD-OT in a subsequent work, notably in processing more sophisticated knowledge constraints, as well as in designing robust solutions in the case of uncertain marginals.
翻訳日:2023-01-01 14:07:21 公開日:2022-12-19
# ポイントワイド距離分布を用いた分子結晶のコンパクトグラフ表現

Compact Graph Representation of molecular crystals using Point-wise Distance Distributions ( http://arxiv.org/abs/2212.11246v1 )

ライセンス: Link先を確認
Jonathan Balasingham, Viktor Zamaraev, Vitaliy Kurlin(参考訳) 分子結晶を表すグラフの利用は、原子や結合からノードやエッジへの自然な翻訳を提供することによって近年人気を集めている。 グラフは構造をキャプチャするが、結晶が示す対称性には不変である。 最先端の結果を含むいくつかのプロパティ予測では、Crystal Graphを使用している。 本研究は, 対称不変性を保持し, 計算負荷を減少させ, 実験結晶およびシミュレーション結晶の予測精度を向上させる点距離分布に基づくグラフを提供する。

Use of graphs to represent molecular crystals has become popular in recent years as they provide a natural translation from atoms and bonds to nodes and edges. Graphs capture structure, while remaining invariant to the symmetries that crystals display. Several works in property prediction, including those with state-of-the-art results, make use of the Crystal Graph. The present work offers a graph based on Point-wise Distance Distributions which retains symmetrical invariance, decreases computational load, and yields similar or better prediction accuracy on both experimental and simulated crystals.
翻訳日:2022-12-22 15:56:48 公開日:2022-12-19
# カーネルスパース表現分類器を用いた抗癌ペプチドの分類

Anticancer Peptides Classification using Kernel Sparse Representation Classifier ( http://arxiv.org/abs/2212.10567v1 )

ライセンス: Link先を確認
Ehtisham Fazal and Muhammad Sohail Ibrahim and Seongyong Park and Imran Naseem and Abdul Wahab(参考訳) がんは、その複雑さ、多様性、原因の多様性のために最も困難な病気の1つである。 これは過去数十年間、主要な研究テーマの1つだったが、いまだによく分かっていない。 この目的のために、多面的治療フレームワークは不可欠である。 \emph{Anticancer peptides} (ACPs)は最も有望な治療法であるが、その大規模同定と合成には信頼性の高い予測方法が必要である。 本稿では,従来の \emph{black box} 法とは異なる直感的な分類戦略を示し,よく知られた \emph{sparse-representation classification} (src) の統計理論に基づいている。 具体的には, K-spaced amino acid pairs (CKSAAP) の \emph{composition を埋め込み, 過剰完全辞書行列を生成する。 従来のSRCフレームワークとは異なり、この戦略では計算コストのかかるemph{basis pursue}ソルバの代わりに、効率的なemph{matching pursue}ソルバを使用する。 さらに、kpca ( \emph{kernel principal component analysis}) は特徴空間の非線形性と次元縮小に対応し、smote ( \emph{synthetic minority oversampling technique}) は辞書のバランスをとるために用いられる。 提案手法は,よく知られた統計パラメータのための2つのベンチマークデータセット上で評価され,既存の手法よりも優れることがわかった。 その結果、最もバランスの取れた精度が最も高い感度を示し、構造的および化学的側面の理解と新しいACPの開発に有用である可能性が示唆された。 提案されたメソッドのGoogle-Colab実装は、著者のGitHubページで公開されている(\href{https://github.com/ehtisham-Fazal/ACP-Kernel-SRC}{https://github.com/ehtisham-fazal/ACP-Kernel-SRC})。

Cancer is one of the most challenging diseases because of its complexity, variability, and diversity of causes. It has been one of the major research topics over the past decades, yet it is still poorly understood. To this end, multifaceted therapeutic frameworks are indispensable. \emph{Anticancer peptides} (ACPs) are the most promising treatment option, but their large-scale identification and synthesis require reliable prediction methods, which is still a problem. In this paper, we present an intuitive classification strategy that differs from the traditional \emph{black box} method and is based on the well-known statistical theory of \emph{sparse-representation classification} (SRC). Specifically, we create over-complete dictionary matrices by embedding the \emph{composition of the K-spaced amino acid pairs} (CKSAAP). Unlike the traditional SRC frameworks, we use an efficient \emph{matching pursuit} solver instead of the computationally expensive \emph{basis pursuit} solver in this strategy. Furthermore, the \emph{kernel principal component analysis} (KPCA) is employed to cope with non-linearity and dimension reduction of the feature space whereas the \emph{synthetic minority oversampling technique} (SMOTE) is used to balance the dictionary. The proposed method is evaluated on two benchmark datasets for well-known statistical parameters and is found to outperform the existing methods. The results show the highest sensitivity with the most balanced accuracy, which might be beneficial in understanding structural and chemical aspects and developing new ACPs. The Google-Colab implementation of the proposed method is available at the author's GitHub page (\href{https://github.com/ehtisham-Fazal/ACP-Kernel-SRC}{https://github.com/ehtisham-fazal/ACP-Kernel-SRC}).
翻訳日:2022-12-22 15:47:50 公開日:2022-12-19
# 畳み込みニューラルネットワークを用いた頭部衝撃キネマティクスの発振器マウスガード測定

Denoising instrumented mouthguard measurements of head impact kinematics with a convolutional neural network ( http://arxiv.org/abs/2212.09832v1 )

ライセンス: Link先を確認
Xianghao Zhan, Yuzhe Liu, Nicholas J. Cecchi, Ashlyn A. Callan, Enora Le Flao, Olivier Gevaert, Michael M. Zeineh, Gerald A. Grant, David B. Camarillo(参考訳) 頭部運動量を測定するためのウェアラブルセンサーは、身体との不完全なインターフェースのためにうるさい。 マウスガードは外傷性脳損傷(TBI)研究における衝撃時の頭部運動量を測定するのに使用されるが、基準運動量からの偏差は、潜在的なゆるみのために生じることがある。 本研究では,深層学習を用いて不完全なインターフェースを補償し,測定精度を向上させる。 1次元畳み込みニューラルネットワーク(1D-CNN)モデルを用いて,3軸の線形加速度と角速度の空間軸に沿って,マウスガード運動学測定をノイズ化する手法を開発した。 変性キネマティクスは, 基準キネマティクスと比較して有意に誤差を減少させ, 脳損傷基準, 組織ひずみ, ひずみ速度を有限要素モデリングにより算出した。 1D-CNNモデルはまた、大学のフットボール影響のフィールド上のデータセットと死後の人間の被験者のデータセットでテストされた。 このモデルは、頭部衝撃の検出とtbiリスク評価の改善に利用することができ、運動量を測定する他のセンサーにも拡張できる可能性がある。

Wearable sensors for measuring head kinematics can be noisy due to imperfect interfaces with the body. Mouthguards are used to measure head kinematics during impacts in traumatic brain injury (TBI) studies, but deviations from reference kinematics can still occur due to potential looseness. In this study, deep learning is used to compensate for the imperfect interface and improve measurement accuracy. A set of one-dimensional convolutional neural network (1D-CNN) models was developed to denoise mouthguard kinematics measurements along three spatial axes of linear acceleration and angular velocity. The denoised kinematics had significantly reduced errors compared to reference kinematics, and reduced errors in brain injury criteria and tissue strain and strain rate calculated via finite element modeling. The 1D-CNN models were also tested on an on-field dataset of college football impacts and a post-mortem human subject dataset, with similar denoising effects observed. The models can be used to improve detection of head impacts and TBI risk evaluation, and potentially extended to other sensors measuring kinematics.
翻訳日:2022-12-21 17:28:16 公開日:2022-12-19
# 非計測コンバウンディングによるリスク評価

Counterfactual Risk Assessments under Unmeasured Confounding ( http://arxiv.org/abs/2212.09844v1 )

ライセンス: Link先を確認
Ashesh Rambachan and Amanda Coston and Edward Kennedy(参考訳) 統計的リスクアセスメントは、刑事司法における裁判前の釈放や消費者金融におけるローンの承認などの一連の決定を通知する。 このようなリスクアセスメントは偽りの予測を行い、提案された決定の下で結果の可能性を予測する(例えば、このローンを承認したらどうなるか)。 しかし、重要な課題は、過去の決定と過去のデータに共同で影響を及ぼした、計測されていない共同ファウンダーがいることだ。 本稿では,無測定の共同設立者が平均的な結果にどのような影響を及ぼすかを限定した,抽出可能な平均結果感度モデルを提案する。 平均結果感度モデルは、提案した判定条件、一般的な予測性能指標(例えば、精度、校正、TPR、FPR)、一般的に使用される予測格差を部分的に識別する。 我々は,それらの鋭い識別セットを導出し,高い状況下での統計的リスク評価の展開に不可欠な3つの課題を解決する。 まず,提案する決定の下,結果の条件付き確率の限界に対する2倍ロバスト学習手順を提案する。 第2に、提案する決定の下での成果の条件付き可能性に関する推定限界を、堅牢なプラグイン意思決定方針に翻訳する。 第3に,既存のリスクアセスメントの予測性能の限界の2倍ロバスト推定器を開発する。

Statistical risk assessments inform consequential decisions such as pretrial release in criminal justice, and loan approvals in consumer finance. Such risk assessments make counterfactual predictions, predicting the likelihood of an outcome under a proposed decision (e.g., what would happen if we approved this loan?). A central challenge, however, is that there may have been unmeasured confounders that jointly affected past decisions and outcomes in the historical data. This paper proposes a tractable mean outcome sensitivity model that bounds the extent to which unmeasured confounders could affect outcomes on average. The mean outcome sensitivity model partially identifies the conditional likelihood of the outcome under the proposed decision, popular predictive performance metrics (e.g., accuracy, calibration, TPR, FPR), and commonly-used predictive disparities. We derive their sharp identified sets, and we then solve three tasks that are essential to deploying statistical risk assessments in high-stakes settings. First, we propose a doubly-robust learning procedure for the bounds on the conditional likelihood of the outcome under the proposed decision. Second, we translate our estimated bounds on the conditional likelihood of the outcome under the proposed decision into a robust, plug-in decision-making policy. Third, we develop doubly-robust estimators of the bounds on the predictive performance of an existing risk assessment.
翻訳日:2022-12-21 17:27:55 公開日:2022-12-19
# 有限擬距離空間に対する固定および適応的ランドマーク集合

Fixed and adaptive landmark sets for finite pseudometric spaces ( http://arxiv.org/abs/2212.09826v1 )

ライセンス: Link先を確認
Jason Cory Brunson and Yara Skaf(参考訳) トポロジカルデータ分析(TDA)は、代数的トポロジからの原理とツールを活用して、データセットの構造的特徴を定量化し、より管理しやすい形式に変換する拡張分野である。 理論の基礎が発達するにつれて、TDAは高次元、ノイズ、複雑なデータから有用な情報を抽出することを約束している。 効率的に運用するために、これらの技術はランダムまたはヒューリスティックなランドマークサンプリングを用いることができる。 ヒューリスティックマックスミン手順は、一様半径の集合からなる被覆を暗黙的に構成することにより、試料点のほぼ偶数分布を得る。 しかし、生物医学でよく見られるように、密度の異なるデータや多重点を含むデータで問題が発生する。 本稿では,一様濃度の集合からなる被覆を意味するランク付き距離に基づく類似の手続き「ラストファースト」を提案する。 まず、手順を厳格に定義し、所望の特性を持つランドマークを得ることを示す。 次に、シミュレーションおよび実世界のバイオメディカルデータを含む特徴検出およびクラス予測タスクにおいて、ベンチマークテストを行い、その性能をmaxminと比較する。 ラストファーストは、任意の(かつ必ずしも対称ではない)ペアワイズ距離を計算できる任意のデータに適用できるという点で、maxminよりも一般的である。 lastfirstは計算コストが高いが、実装はmaxminと同じ速度でスケールする。 lastfirstは予測タスクで同等のパフォーマンスを達成し、ホモロジー検出タスクではmaxminを上回っています。 類似度尺度の数値が意味を持たない場合、多くの生物医学的文脈において、ラストファーストサンプリングは解釈可能性を向上させる。

Topological data analysis (TDA) is an expanding field that leverages principles and tools from algebraic topology to quantify structural features of data sets or transform them into more manageable forms. As its theoretical foundations have been developed, TDA has shown promise in extracting useful information from high-dimensional, noisy, and complex data such as those used in biomedicine. To operate efficiently, these techniques may employ landmark samplers, either random or heuristic. The heuristic maxmin procedure obtains a roughly even distribution of sample points by implicitly constructing a cover comprising sets of uniform radius. However, issues arise with data that vary in density or include points with multiplicities, as are common in biomedicine. We propose an analogous procedure, "lastfirst" based on ranked distances, which implies a cover comprising sets of uniform cardinality. We first rigorously define the procedure and prove that it obtains landmarks with desired properties. We then perform benchmark tests and compare its performance to that of maxmin, on feature detection and class prediction tasks involving simulated and real-world biomedical data. Lastfirst is more general than maxmin in that it can be applied to any data on which arbitrary (and not necessarily symmetric) pairwise distances can be computed. Lastfirst is more computationally costly, but our implementation scales at the same rate as maxmin. We find that lastfirst achieves comparable performance on prediction tasks and outperforms maxmin on homology detection tasks. Where the numerical values of similarity measures are not meaningful, as in many biomedical contexts, lastfirst sampling may also improve interpretability.
翻訳日:2022-12-21 17:19:41 公開日:2022-12-19
# ARO-Net: Anchored Radial Observations によるニューラルネットワークの学習

ARO-Net: Learning Neural Fields from Anchored Radial Observations ( http://arxiv.org/abs/2212.10275v1 )

ライセンス: Link先を確認
Yizhi Wang, Zeyu Huang, Ariel Shamir, Hui Huang, Hao Zhang, Ruizhen Hu(参考訳) aro(anchored radial observations)は,有意な形状変化の中,カテゴリー非依存で一般化可能な形状のニューラルフィールド表現を学習するための新しい形状符号化手法である。 私たちの研究の主な考え方は、アンカーと呼ばれる一連の視点から部分的な観察を通して形状を推論することにあります。 フィボナッチサンプリングによる固定されたアンカーセットを用い,空間内の問合せ点の占有率を予測する座標ベースの深層ニューラルネットワークを設計することで,汎用的で統一的な形状表現を開発する。 グローバルな形状特徴を使用する従来のニューラル暗黙モデルとは異なり、私たちの形状エンコーダは、文脈的、クエリ特有の特徴で動作する。 ポイント占有率を予測するため、暗黙の復号を行う前に、入力クエリポイントを取り巻くアンカーの観点から局所的に観測された形状情報をエンコードしてアテンションモジュールを介して集約する。 aro-net と呼ばれるネットワークの質と汎用性を実証し,sparse point cloud から表面再構成し,新規かつ未発見のオブジェクトカテゴリ,"1-shape" トレーニング,再構築とテッセレーションのための最先端のニューラルおよび古典的手法との比較を行った。

We introduce anchored radial observations (ARO), a novel shape encoding for learning neural field representation of shapes that is category-agnostic and generalizable amid significant shape variations. The main idea behind our work is to reason about shapes through partial observations from a set of viewpoints, called anchors. We develop a general and unified shape representation by employing a fixed set of anchors, via Fibonacci sampling, and designing a coordinate-based deep neural network to predict the occupancy value of a query point in space. Differently from prior neural implicit models, that use global shape feature, our shape encoder operates on contextual, query-specific features. To predict point occupancy, locally observed shape information from the perspective of the anchors surrounding the input query point are encoded and aggregated through an attention module, before implicit decoding is performed. We demonstrate the quality and generality of our network, coined ARO-Net, on surface reconstruction from sparse point clouds, with tests on novel and unseen object categories, "one-shape" training, and comparisons to state-of-the-art neural and classical methods for reconstruction and tessellation.
翻訳日:2022-12-21 17:08:42 公開日:2022-12-19
# 多様変分法を集合に一般化する

Generalizing Multimodal Variational Methods to Sets ( http://arxiv.org/abs/2212.09918v1 )

ライセンス: Link先を確認
Jinzhao Zhou and Yiqun Duan and Zhihong Chen and Yu-Cheng Chang and Chin-Teng Lin(参考訳) マルチモーダル性を理解することは、現実世界の現象をより包括的に記述することができる。 しかし、多様なモダリティの共表現を学ぶことは、新しい機械学習アプリケーションと研究における長年の努力である。 多モード入力に対する従来の生成的アプローチは、一様性後部を積積(PoE)や混合基数(MoE)として近似する。 これらの近似は、最適化プロセスとモダリティ間の意味的接続の喪失に欠陥をもたらすと論じる。 本稿では,不備なモダリティ問題に対処しながらマルチモーダル潜在空間を学習する,Set Multimodal VAE (SMVAE) と呼ばれる集合上の新しい変分法を提案する。 共同モダリティ後方分布を直接モデル化することにより,提案するsmvaeは,複数のモダリティ間の情報を交換し,因子分解による欠点を補償する。 各種ドメインの公開データセットにおいて,提案手法は,最先端のマルチモーダル手法と比較して優れた性能を保ちながら,秩序に依存しないクロスモーダル生成に適用可能であることを示す。 この方法のソースコードは、https://anonymous.4open.science/r/smvae-9b3c/で入手できる。

Making sense of multiple modalities can yield a more comprehensive description of real-world phenomena. However, learning the co-representation of diverse modalities is still a long-standing endeavor in emerging machine learning applications and research. Previous generative approaches for multimodal input approximate a joint-modality posterior by uni-modality posteriors as product-of-experts (PoE) or mixture-of-experts (MoE). We argue that these approximations lead to a defective bound for the optimization process and loss of semantic connection among modalities. This paper presents a novel variational method on sets called the Set Multimodal VAE (SMVAE) for learning a multimodal latent space while handling the missing modality problem. By modeling the joint-modality posterior distribution directly, the proposed SMVAE learns to exchange information between multiple modalities and compensate for the drawbacks caused by factorization. In public datasets of various domains, the experimental results demonstrate that the proposed method is applicable to order-agnostic cross-modal generation while achieving outstanding performance compared to the state-of-the-art multimodal methods. The source code for our method is available online https://anonymous.4open.science/r/SMVAE-9B3C/.
翻訳日:2022-12-21 16:17:06 公開日:2022-12-19
# 心不全診断のためのコンピュータビジョンを用いた胸部X線からの吐出率予測

Predicting Ejection Fraction from Chest X-rays Using Computer Vision for Diagnosing Heart Failure ( http://arxiv.org/abs/2212.09860v1 )

ライセンス: Link先を確認
Walt Williams, Rohan Doshi, Yanran Li, Kexuan Liang(参考訳) 心臓不全は、コストの増大に伴う公衆衛生上の大きな課題である。 Ejection fraction (EF) は心不全の診断と管理の鍵となる指標であるが, 心エコー図によるEF推定は医療システムにとって高価であり, 術中変動が懸念される。 胸部X線(CXR)は迅速で安価であり、専門知識は少ないが、EFを推定するのに十分な情報を提供していない。 本研究は,CXRのみから低減されたEFを予測するコンピュータビジョン技術の有効性を検討する。 我々はMIMIC CXR-jpg(MCR)データセットから3488個のCXRのデータセットを検討した。 本研究は,複数の最先端畳み込みニューラルネットワークアーキテクチャを用いたベンチマークを確立する。 続く分析では、8Mから23Mパラメータのモデルサイズが増加し、データセットを過度に適合させることなく分類性能が向上した。 さらに,cxr回転やランダムトリッピングなどのデータ拡張技術がモデル性能をさらに5%向上させることを示す。 最後に,このタスクにおける畳み込みモデルの故障モードをよりよく理解するために,saliency map と grad-cams を用いたエラー解析を行う。

Heart failure remains a major public health challenge with growing costs. Ejection fraction (EF) is a key metric for the diagnosis and management of heart failure however estimation of EF using echocardiography remains expensive for the healthcare system and subject to intra/inter operator variability. While chest x-rays (CXR) are quick, inexpensive, and require less expertise, they do not provide sufficient information to the human eye to estimate EF. This work explores the efficacy of computer vision techniques to predict reduced EF solely from CXRs. We studied a dataset of 3488 CXRs from the MIMIC CXR-jpg (MCR) dataset. Our work establishes benchmarks using multiple state-of-the-art convolutional neural network architectures. The subsequent analysis shows increasing model sizes from 8M to 23M parameters improved classification performance without overfitting the dataset. We further show how data augmentation techniques such as CXR rotation and random cropping further improves model performance another ~5%. Finally, we conduct an error analysis using saliency maps and Grad-CAMs to better understand the failure modes of convolutional models on this task.
翻訳日:2022-12-21 16:14:33 公開日:2022-12-19
# layoutdetr: detection transformerは優れたマルチモーダルレイアウトデザイナである

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer ( http://arxiv.org/abs/2212.09877v1 )

ライセンス: Link先を確認
Ning Yu, Chia-Chih Chen, Zeyuan Chen, Rui Meng, Gang Wu, Paul Josel, Juan Carlos Niebles, Caiming Xiong, Ran Xu(参考訳) グラフィックレイアウト設計は視覚コミュニケーションにおいて重要な役割を果たす。 しかし、手作りのレイアウト設計は、スキル要求、時間消費、バッチ生産への非スカラブルである。 生成モデルは、設計の自動化をもはやユートピアにするものではないが、デザイナのマルチモーダルな欲求、すなわち背景画像によって制約され、前景コンテンツによって駆動されるデザインをカスタマイズすることは、依然として容易ではない。 本研究では,生成モデルから高品質とリアリズムを継承する \textit{layoutdetr} を提案する。一方,コンテンツ認識要件の再構成を検出問題として,背景画像から,レイアウトにおけるマルチモーダル要素の適度な位置,スケール,空間関係を検出することを学ぶ。 実験により、我々のソリューションは、公開ベンチマークや新しく作成した広告バナーデータセット上でレイアウト生成のために、新しい最先端のパフォーマンスをもたらすことが検証された。 実用的な利用のために,ユーザ研究を容易にするグラフィカルシステムを構築する。 我々のデザインは、基準よりも主観的嗜好を顕著なマージンで惹きつけることを実証する。 私たちのコード、モデル、データセット、グラフィカルシステム、デモはhttps://github.com/salesforce/LayoutDETRで公開されています。

Graphic layout designs play an essential role in visual communication. Yet handcrafting layout designs are skill-demanding, time-consuming, and non-scalable to batch production. Although generative models emerge to make design automation no longer utopian, it remains non-trivial to customize designs that comply with designers' multimodal desires, i.e., constrained by background images and driven by foreground contents. In this study, we propose \textit{LayoutDETR} that inherits the high quality and realism from generative modeling, in the meanwhile reformulating content-aware requirements as a detection problem: we learn to detect in a background image the reasonable locations, scales, and spatial relations for multimodal elements in a layout. Experiments validate that our solution yields new state-of-the-art performance for layout generation on public benchmarks and on our newly-curated ads banner dataset. For practical usage, we build our solution into a graphical system that facilitates user studies. We demonstrate that our designs attract more subjective preference than baselines by significant margins. Our code, models, dataset, graphical system, and demos are available at https://github.com/salesforce/LayoutDETR.
翻訳日:2022-12-21 16:14:13 公開日:2022-12-19
# MetaCLUE: 総合的なビジュアルメタファー研究を目指して

MetaCLUE: Towards Comprehensive Visual Metaphors Research ( http://arxiv.org/abs/2212.09898v1 )

ライセンス: Link先を確認
Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani(参考訳) 創造性は人間の認知に欠かせない部分であり、世界を理解する方法の本質的な部分でもある。 メタフォリカル抽象は、感情のような抽象概念間のニュアンスな関係を通して創造的なアイデアを伝えるのに基本的である。 コンピュータビジョンのベンチマークとアプローチは画像のリテラル解釈の理解と生成に重点を置いているが、画像の比喩的理解はいまだに解明されていない。 この目的に向けて,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。 また、これらのタスクの評価を容易にするデータセットが存在しないため、高品質でリッチなメタファアノテーション(抽象オブジェクト、概念、関係、対応するオブジェクトボックス)も収集します。 我々は,視覚と言語における最先端モデルの総合的な分析を行い,視覚メタファ分類,局所化,理解(リトライバル,質問応答,キャプション),生成(テキスト対画像合成)タスクにおける現在のアプローチの強みと弱みを強調する。 この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。

Creativity is an indispensable part of human cognition and also an inherent part of how we make sense of the world. Metaphorical abstraction is fundamental in communicating creative ideas through nuanced relationships between abstract concepts such as feelings. While computer vision benchmarks and approaches predominantly focus on understanding and generating literal interpretations of images, metaphorical comprehension of images remains relatively unexplored. Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual metaphor. We also collect high-quality and rich metaphor annotations (abstract objects, concepts, relationships along with their corresponding object boxes) as there do not exist any datasets that facilitate the evaluation of these tasks. We perform a comprehensive analysis of state-of-the-art models in vision and language based on our annotations, highlighting strengths and weaknesses of current approaches in visual metaphor Classification, Localization, Understanding (retrieval, question answering, captioning) and gEneration (text-to-image synthesis) tasks. We hope this work provides a concrete step towards developing AI systems with human-like creative capabilities.
翻訳日:2022-12-21 16:13:52 公開日:2022-12-19
# 説明可能・制御可能なテキスト簡易化のためのトランスフォーマーモデルに適合する言語的特徴

(Psycho-)Linguistic Features Meet Transformer Models for Improved Explainable and Controllable Text Simplification ( http://arxiv.org/abs/2212.09848v1 )

ライセンス: Link先を確認
Yu Qiao, Xiaofei Li, Daniel Wiechmann, Elma Kerz(参考訳) ts(state-of-the-art text simplification)システムは、エンドツーエンドのニューラルネットワークモデルを採用し、入力テキストの簡易バージョンを直接生成し、通常はブラックボックスとして機能する。 さらに、TSは通常、同じ単純化がすべてに相応しい同次性の仮定の下で、全汎用的な汎用的タスクとして扱われる。 しかし、近年では、単純化技術が異なる対象グループの特定のニーズに適応する必要性が認識されている。 本研究では、TSシステムの透明性を高めるために最近提案された研究に基づき、事前学習された言語モデルと組み合わせて、説明可能な複雑性予測を改善するために、多数の(心理学的な)言語的特徴を利用する。 第2に、この予備タスクの結果に基づいて、最先端のseq2seq tsモデルであるaccessを拡張し、10の属性を明示的に制御できるようにします。 実験の結果,(1)本手法は,説明可能な複雑性を予測するための最先端モデルの性能を向上し,(2)seq2seqモデルを10個の属性で明示的に条件づけすることで,ドメイン内およびドメイン外の両方で性能が大幅に向上することが示された。

State-of-the-art text simplification (TS) systems adopt end-to-end neural network models to directly generate the simplified version of the input text, and usually function as a blackbox. Moreover, TS is usually treated as an all-purpose generic task under the assumption of homogeneity, where the same simplification is suitable for all. In recent years, however, there has been increasing recognition of the need to adapt the simplification techniques to the specific needs of different target groups. In this work, we aim to advance current research on explainable and controllable TS in two ways: First, building on recently proposed work to increase the transparency of TS systems, we use a large set of (psycho-)linguistic features in combination with pre-trained language models to improve explainable complexity prediction. Second, based on the results of this preliminary task, we extend a state-of-the-art Seq2Seq TS model, ACCESS, to enable explicit control of ten attributes. The results of experiments show (1) that our approach improves the performance of state-of-the-art models for predicting explainable complexity and (2) that explicitly conditioning the Seq2Seq model on ten attributes leads to a significant improvement in performance in both within-domain and out-of-domain settings.
翻訳日:2022-12-21 15:05:11 公開日:2022-12-19
# tsar-2022におけるmantisの共有課題:事前学習エンコーダによる教師なし語彙単純化の改善

MANTIS at TSAR-2022 Shared Task: Improved Unsupervised Lexical Simplification with Pretrained Encoders ( http://arxiv.org/abs/2212.09855v1 )

ライセンス: Link先を確認
Xiaofei Li, Daniel Wiechmann, Yu Qiao, Elma Kerz(参考訳) 本稿では,テキストの簡略化,アクセシビリティ,可読性に関するワークショップ,EMNLP 2022の語彙単純化に関するTSAR-2022共有タスクへの貢献について述べる。 単純化候補選択のサブタスクでは、robertaトランスフォーマー言語モデルを使用し、生成された候補リストのサイズを拡大します。 その後の代用ランキングでは、新たな特徴重み付け方式を導入し、対象単語と単純化のセマンティックな類似性を最大化するために、テキストエンターメントに基づく候補フィルタリング方式を採用する。 我々のベストパフォーマンスシステムはLSBertを5.9%精度で改善し、33のソリューションのうち2位にランクインする。

In this paper we present our contribution to the TSAR-2022 Shared Task on Lexical Simplification of the EMNLP 2022 Workshop on Text Simplification, Accessibility, and Readability. Our approach builds on and extends the unsupervised lexical simplification system with pretrained encoders (LSBert) system in the following ways: For the subtask of simplification candidate selection, it utilizes a RoBERTa transformer language model and expands the size of the generated candidate list. For subsequent substitution ranking, it introduces a new feature weighting scheme and adopts a candidate filtering method based on textual entailment to maximize semantic similarity between the target word and its simplification. Our best-performing system improves LSBert by 5.9% accuracy and achieves second place out of 33 ranked solutions.
翻訳日:2022-12-21 15:04:46 公開日:2022-12-19
# バイオメディカル文献からの矛盾するcovid-19薬効性クレームの検出

Detecting Contradictory COVID-19 Drug Efficacy Claims from Biomedical Literature ( http://arxiv.org/abs/2212.09867v1 )

ライセンス: Link先を確認
Daniel N. Sosa, Malavika Suresh, Christopher Potts, and Russ B. Altman(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、薬効に関する疑問と矛盾する科学的主張を大量に生み出した。 本研究では,NLPモデルが,この複雑で高い領域の文献を蒸留し,理解する上で有効である,と論じる。 我々の任務は、新型コロナウイルスの薬効に関する矛盾する主張を自動的に識別することである。 私たちはこれを自然言語推論の問題として捉え、ドメインの専門家が作成した新しいNLIデータセットを提供します。 NLIフレーミングにより、既存のデータセットと独自のデータセットを組み合わせたキュリキュラを作成することができます。 得られたモデルは有用な調査ツールである。 我々はこれらのモデルがどのようにドメインの専門家がremdisivirおよびヒドロキシクロロキンに関する証拠を要約し、評価するのに役立つかを事例研究する。

The COVID-19 pandemic created a deluge of questionable and contradictory scientific claims about drug efficacy -- an "infodemic" with lasting consequences for science and society. In this work, we argue that NLP models can help domain experts distill and understand the literature in this complex, high-stakes area. Our task is to automatically identify contradictory claims about COVID-19 drug efficacy. We frame this as a natural language inference problem and offer a new NLI dataset created by domain experts. The NLI framing allows us to create curricula combining existing datasets and our own. The resulting models are useful investigative tools. We provide a case study of how these models help a domain expert summarize and assess evidence concerning remdisivir and hydroxychloroquine.
翻訳日:2022-12-21 15:04:32 公開日:2022-12-19
# 視線追跡, 注釈, 言語モデルからのスタイルのテクスチュアル・サリエンシに関する比較研究

A Comparative Study on Textual Saliency of Styles from Eye Tracking, Annotations, and Language Models ( http://arxiv.org/abs/2212.09873v1 )

ライセンス: Link先を確認
Karin de Langis and Dongyeop Kang(参考訳) 自然言語処理(NLP)パイプラインに、視線追跡データやその他の人間の言語処理の暗黙測度を取り入れることへの関心が高まっている。 人間の言語処理のデータには、言語モデルによって活用できる人間の言語理解に関するユニークな洞察が含まれている。 しかしながら、このデータの性質や、下流のnlpタスクでどのように活用できるか、多くの未解決の疑問が残っている。 本稿では,スタイリスティックテキスト(丁寧さなど)の人為的処理のためのアイトラッキングデータセットである eyeStyliency を提案する。 収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。 さらに、このデータと人間のアノテーション手法とモデルに基づく解釈可能性指標を比較した。 視線追跡データはユニークだが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差し、人間と機械の視点を橋渡しする可能性がある。 下流のいくつかのショット学習タスクでは、視覚追跡ベースおよびアノテーションベースの有能な単語が最高精度を達成することにより、概してスタイル分類を改善した。

There is growing interest in incorporating eye-tracking data and other implicit measures of human language processing into natural language processing (NLP) pipelines. The data from human language processing contain unique insight into human linguistic understanding that could be exploited by language models. However, many unanswered questions remain about the nature of this data and how it can best be utilized in downstream NLP tasks. In this paper, we present eyeStyliency, an eye-tracking dataset for human processing of stylistic text (e.g., politeness). We develop a variety of methods to derive style saliency scores over text using the collected eye dataset. We further investigate how this saliency data compares to both human annotation methods and model-based interpretability metrics. We find that while eye-tracking data is unique, it also intersects with both human annotations and model-based importance scores, providing a possible bridge between human- and machine-based perspectives. In downstream few-shot learning tasks, adding salient words to prompts generally improved style classification, with eye-tracking-based and annotation-based salient words achieving the highest accuracy.
翻訳日:2022-12-21 15:04:21 公開日:2022-12-19
# ミラノ・クンデラの無署名劇? 著者帰属研究

Unsigned Play by Milan Kundera? An Authorship Attribution Study ( http://arxiv.org/abs/2212.09879v1 )

ライセンス: Link先を確認
Lenka Jungmannov\'a and Petr Plech\'a\v{c}(参考訳) ミラノ・クンデラは、広く知られた小説家であるだけでなく、劇場のための3つの作品も執筆している:the owners of the keys (majitel\'e kl\'i\v{c}\r{u}, 1961), the blunder (pt\'akovina, 1967), jacques and his master (jakub a jeho p\'an, 1971)。 しかし、近年では、クンダが第4作の真の作者であるとの仮説が提起されている:Juro J\'ano\v{s}\'ikは、当時クンダの弟子であったKarel Steigerwaldの名前で1974年に初演された。 本研究では,教師付き機械学習(supervised machine learning)を用いて,julia j\'ano\v{s}\'ikにおいて著者の帰属に関する疑問を解決し,クンデラの著者の仮説を強く支持する結果を得た。

In addition to being a widely recognised novelist, Milan Kundera has also authored three pieces for theatre: The Owners of the Keys (Majitel\'e kl\'i\v{c}\r{u}, 1961), The Blunder (Pt\'akovina, 1967), and Jacques and his Master (Jakub a jeho p\'an, 1971). In recent years, however, the hypothesis has been raised that Kundera is the true author of a fourth play: Juro J\'ano\v{s}\'ik, first performed in a 1974 production under the name of Karel Steigerwald, who was Kundera's student at the time. In this study, we make use of supervised machine learning to settle the question of authorship attribution in the case of Juro J\'ano\v{s}\'ik, with results strongly supporting the hypothesis of Kundera's authorship.
翻訳日:2022-12-21 15:04:01 公開日:2022-12-19
# 汎用プログラミング言語におけるコード生成に関する明確化質問

Asking Clarification Questions for Code Generation in General-Purpose Programming Language ( http://arxiv.org/abs/2212.09885v1 )

ライセンス: Link先を確認
Haau-Sing Li, Mohsen Mesgar, Andr\'e F. T. Martins, Iryna Gurevych(参考訳) テキストからコードを生成するには、自然言語記述(NLD)からユーザの意図を理解し、この意図を満たす実行可能なプログラムコードスニペットを生成する必要がある。 最近のプレトレーニング言語モデル(PLM)は、このタスクで顕著な性能を示すが、これらのモデルは、高品質なコードスニペットを生成するのに十分な仕様が不足しているために、与えられたNLDが曖昧であるときに失敗する。 本稿では,この課題に対する新しい,より現実的な設定を提案する。 我々は、NLDの仕様の曖昧さは、明確化質問(CQ)によって解決されると仮定する。 そこで我々は、生成したCQAとNLD-Codeペアを含むCodeClarQAという新しいデータセットを収集し、導入する。 データセット上でのコード生成のためのPLMの性能を評価する。 実験結果は、BLEUの17.52、CodeBLEUの12.72、正確な一致の7.7\%の改善によって示されているように、明確化がより正確な生成コードをもたらすという我々の仮説を支持する。 これに加えて、私たちのタスクとデータセットは、いつ、どのCQを問うべきかなど、コミュニティに新しい課題をもたらします。

Code generation from text requires understanding the user's intent from a natural language description (NLD) and generating an executable program code snippet that satisfies this intent. While recent pretrained language models (PLMs) demonstrate remarkable performance for this task, these models fail when the given NLD is ambiguous due to the lack of enough specifications for generating a high-quality code snippet. In this work, we introduce a novel and more realistic setup for this task. We hypothesize that ambiguities in the specifications of an NLD are resolved by asking clarification questions (CQs). Therefore, we collect and introduce a new dataset named CodeClarQA containing NLD-Code pairs with created CQAs. We evaluate the performance of PLMs for code generation on our dataset. The empirical results support our hypothesis that clarifications result in more precise generated code, as shown by an improvement of 17.52 in BLEU, 12.72 in CodeBLEU, and 7.7\% in the exact match. Alongside this, our task and dataset introduce new challenges to the community, including when and what CQs should be asked.
翻訳日:2022-12-21 15:03:38 公開日:2022-12-19
# 大規模言語モデルによる長文音声翻訳の改善

Improved Long-Form Spoken Language Translation with Large Language Models ( http://arxiv.org/abs/2212.09895v1 )

ライセンス: Link先を確認
Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Axel H. Ng(参考訳) 音声翻訳における課題は、多くの音声コンテンツが長文であるが、高品質翻訳を得るためには短い単位が必要であることである。 このミスマッチに対処するため、我々は汎用の大規模言語モデルを微調整し、長いASR文字を独立に翻訳可能なセグメントに分割し、全体的な翻訳品質を最大化する。 いくつかのセグメンテーション戦略と比較し、我々の手法は自動句読点よりも平均2.7 BLEUで3つの言語でのBLEUスコアを改善する。 さらに,2つの制約付き復号手法の有効性を実証し,モデルの出力が99%以上から100%に向上することを示した。

A challenge in spoken language translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we fine-tune a general-purpose, large language model to split long ASR transcripts into segments that can be independently translated so as to maximize the overall translation quality. We compare to several segmentation strategies and find that our approach improves BLEU score on three languages by an average of 2.7 BLEU overall compared to an automatic punctuation baseline. Further, we demonstrate the effectiveness of two constrained decoding strategies to improve well-formedness of the model output from above 99% to 100%.
翻訳日:2022-12-21 15:03:19 公開日:2022-12-19
# タイプレベルのインターベンショントレーニングを用いたサブワード型言語モデルにおける文字レベルの構造誘導

Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training ( http://arxiv.org/abs/2212.09897v1 )

ライセンス: Link先を確認
Jing Huang, Zhengxuan Wu, Kyle Mahowald, and Christopher Potts(参考訳) 文字レベルの操作(例えばスペル修正、多くのワードゲーム)を含む言語タスクは、サブワードトークン化に基づくモデルでは難しい。 そこで我々は,Geiger et al. (2021) のインターチェンジ介入訓練手法を適用し,タイプレベルの変数を文字上で操作する。 これにより、サブワードベースのモデルの内部表現において、ロバストで位置に依存しない文字レベルの情報をエンコードできる。 さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。 単純な文字レベルのトークン化アプローチは、文字列反転のような純粋にフォームベースのタスクでは依然として最適だが、フォーム、意味、コンテキストをブレンドするより複雑なタスク、例えば、文脈における綴りの修正や単語検索ゲームよりも優れている。 また,このアプローチは,文字の人為的な内的表現を伴うサブワードベースモデルにも繋がる。

Language tasks involving character-level manipulations (e.g., spelling correction, many word games) are challenging for models based in subword tokenization. To address this, we adapt the interchange intervention training method of Geiger et al. (2021) to operate on type-level variables over characters. This allows us to encode robust, position-independent character-level information in the internal representations of subword-based models. We additionally introduce a suite of character-level tasks that systematically vary in their dependence on meaning and sequence-level context. While simple character-level tokenization approaches still perform best on purely form-based tasks like string reversal, our method is superior for more complex tasks that blend form, meaning, and context, such as spelling correction in context and word search games. Our approach also leads to subword-based models with human-intepretable internal representations of characters.
翻訳日:2022-12-21 15:03:08 公開日:2022-12-19
# 抽出NLP課題生成モデルにおけるトークン化整合性

Tokenization Consistency Matters for Generative Models on Extractive NLP Tasks ( http://arxiv.org/abs/2212.09912v1 )

ライセンス: Link先を確認
Kaiser Sun, Peng Qi, Yuhao Zhang, Lan Liu, William Yang Wang, Zhiheng Huang(参考訳) 生成モデルは、入力の一部を抽出して所望の出力を形成する抽出タスクを解くために広く応用され、大きな成功を収めた。 例えば、抽出質問応答(QA)では、生成モデルは常に最先端の結果をもたらす。 本研究では,これらのモデルのトレーニングにおいて一般的に無視されるトークン化の不整合の問題を特定する。 この問題は、インプットとアウトプットがトークン化されていないことでこれらのタスクの抽出性が損なわれ、結果としてパフォーマンスの低下と幻覚が引き起こされる。 本稿では,この問題に対する簡易かつ効果的な解決法を提案し,抽出QAのケーススタディを行う。 我々は、一貫したトークン化により、BARTモデルがSQuAD上でトレーニングされ、8つのQAデータセットで評価された場合、ドメイン内データセットとドメイン外データセットの両方で、注目すべき平均+1.7 F2ゲインを達成できることを示した。 さらに、モデルはより速く収束し、文脈外回答を生じにくくなります。 これらの結果から,抽出タスクの解決においてトークン化をどのように行うべきか,トレーニング中に一貫したトークン化を適用することを推奨したい。

Generative models have been widely applied to solve extractive tasks, where parts of the input is extracted to form the desired output, and achieved significant success. For example, in extractive question answering (QA), generative models have constantly yielded state-of-the-art results. In this work, we identify the issue of tokenization inconsistency that is commonly neglected in training these models. This issue damages the extractive nature of these tasks after the input and output are tokenized inconsistently by the tokenizer, and thus leads to performance drop as well as hallucination. We propose a simple yet effective fix to this issue and conduct a case study on extractive QA. We show that, with consistent tokenization, the model performs better in both in-domain and out-of-domain datasets, with a notable average of +1.7 F2 gain when a BART model is trained on SQuAD and evaluated on 8 QA datasets. Further, the model converges faster, and becomes less likely to generate out-of-context answers. With these findings, we would like to call for more attention on how tokenization should be done when solving extractive tasks and recommend applying consistent tokenization during training.
翻訳日:2022-12-21 15:02:51 公開日:2022-12-19
# テキスト要約のための逆強化学習

Inverse Reinforcement Learning for Text Summarization ( http://arxiv.org/abs/2212.09917v1 )

ライセンス: Link先を確認
Yu Fu, Deyi Xiong, Yue Dong(参考訳) 最先端の要約モデルは、最大確率推定(mle)または強化学習(rl)のいずれかで訓練される。 本研究では,第3の学習パラダイムを考察し,逆強化学習(IRL)がテキスト要約に適している可能性を議論する。 IRLは、エージェントの行動の一連の観察から、エージェントの報酬関数を推定することに焦点を当てる。 一般に、IRLは報酬関数が明示的に知られていない状況や、環境を直接定義したり操作することが難しい状況において利点を提供する。 これらの状況はまさに要約において観察されるものである。 そこで本研究では,テキスト要約に逆強化学習を導入し,要約最適化に重要なサブワード群を定義する。 irlで訓練されたモデルでは,mle と rl で訓練されたベースラインと比較して,報酬関数の見積もりと要約エージェントの最適化を同時に行うことにより,より優れたルージュ,カバレッジ,新規性,圧縮率,事実性の観点から,人間の行動に密接に従う要約を生成できることが示されている。

Current state-of-the-art summarization models are trained with either maximum likelihood estimation (MLE) or reinforcement learning (RL). In this study, we investigate the third training paradigm and argue that inverse reinforcement learning (IRL) may be more suitable for text summarization. IRL focuses on estimating the reward function of an agent, given a set of observations of that agent's behavior. Generally, IRL provides advantages in situations where the reward function is not explicitly known or where it is difficult to define or interact with the environment directly. These situations are exactly what we observe in summarization. Thus, we introduce inverse reinforcement learning into text summarization and define a suite of sub-rewards that are important for summarization optimization. By simultaneously estimating the reward function and optimizing the summarization agent with expert demonstrations, we show that the model trained with IRL produces summaries that closely follow human behavior, in terms of better ROUGE, coverage, novelty, compression ratio and factuality when compared to the baselines trained with MLE and RL.
翻訳日:2022-12-21 15:02:34 公開日:2022-12-19
# 政策学習の「無」重複:ペシミズムと経験的バーンスタインの不平等の一般化

Policy learning "without'' overlap: Pessimism and generalized empirical Bernstein's inequality ( http://arxiv.org/abs/2212.09900v1 )

ライセンス: Link先を確認
Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang(参考訳) 本研究は,行動政策を固定的あるいは適応的に発展させる)事前の観測結果を活用したオフライン政策学習を行い,与えられた集団の最良の結果を達成する最適な個別化決定ルールを学習することを目的とする。 既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットのバウンダリが低く、異なることに、既存の手法のパフォーマンスは、オフラインデータセットの最悪のケースの妥当性に依存する。 データ収集プロセスをコントロールすることができないため、この仮定は多くの状況において非現実的なものとなり得る。 本稿では,ポリシー値の点推定ではなく,低信頼境界(lcbs)を最適化する新しいアルゴリズムを提案する。 lcbはオフラインデータ収集のための行動ポリシーの知識を用いて構築される。 均一な重なり条件を仮定せずに、我々はアルゴリズムの準最適性に対するデータ依存上界を確立する。 (i)最適方針の重なり (ii)最適化したポリシークラスの複雑さ。 すなわち、適応的に収集されたデータに対して、最適動作の確率が時間とともに低い限り、効率的なポリシー学習を確保する一方、最適動作の確率は任意に高速に減少する。 理論解析では, 経験的バーンスタインの不等式を非有界データと非i.i.d.データに一般化し, 自己正規化型濃度不等式を開発した。

This paper studies offline policy learning, which aims at utilizing observations collected a priori (from either fixed or adaptively evolving behavior policies) to learn an optimal individualized decision rule that achieves the best overall outcomes for a given population. Existing policy learning methods rely on a uniform overlap assumption, i.e., the propensities of exploring all actions for all individual characteristics are lower bounded in the offline dataset; put differently, the performance of the existing methods depends on the worst-case propensity in the offline dataset. As one has no control over the data collection process, this assumption can be unrealistic in many situations, especially when the behavior policies are allowed to evolve over time with diminishing propensities for certain actions. In this paper, we propose a new algorithm that optimizes lower confidence bounds (LCBs) -- instead of point estimates -- of the policy values. The LCBs are constructed using knowledge of the behavior policies for collecting the offline data. Without assuming any uniform overlap condition, we establish a data-dependent upper bound for the suboptimality of our algorithm, which only depends on (i) the overlap for the optimal policy, and (ii) the complexity of the policy class we optimize over. As an implication, for adaptively collected data, we ensure efficient policy learning as long as the propensities for optimal actions are lower bounded over time, while those for suboptimal ones are allowed to diminish arbitrarily fast. In our theoretical analysis, we develop a new self-normalized type concentration inequality for inverse-propensity-weighting estimators, generalizing the well-known empirical Bernstein's inequality to unbounded and non-i.i.d. data.
翻訳日:2022-12-21 14:56:16 公開日:2022-12-19
# 契約書で何を読むべきか? 法律文書における重要義務・権利・禁止の政党別要約

What to Read in a Contract? Party-Specific Summarization of Important Obligations, Entitlements, and Prohibitions in Legal Documents ( http://arxiv.org/abs/2212.09825v1 )

ライセンス: Link先を確認
Abhilasha Sancheti, Aparna Garimella, Balaji Vasan Srinivasan, Rachel Rudinger(参考訳) 雇用契約やリース契約などの法的契約は、様々な締約者の義務や権利を管理する上で重要な文書である。 しかし、これらの文書は典型的には長く、法律で書かれており、その理解に多くの手作業が費やされる。 本稿では,各締約者の法的契約を要約し,より迅速にレビューし,理解を深めるための課題について述べる。 具体的には、リース契約から293kの文対について、法律専門家による対関係比較アノテーションからなるデータセットを収集する。 本稿では,契約における最も重要な義務,権利,禁止からなる要約を自動生成する新たな抽出要約システムを提案する。 1) 当事者の分類(義務、権利、禁止)のそれぞれを含む文を識別する内容と、(2) 当事者のそれぞれのカテゴリーの文の重要度を比較してランクリストを得る重要ランク付け者とからなる。 最終要約は、各当事者に対してカテゴリの最も重要な文を選択することで作成される。 本システムの有効性を,複数のテキストランキングベースラインと比較し,自動評価と人間評価により実証する。

Legal contracts, such as employment or lease agreements, are important documents as they govern the obligations and entitlements of the various contracting parties. However, these documents are typically long and written in legalese resulting in lots of manual hours spent in understanding them. In this paper, we address the task of summarizing legal contracts for each of the contracting parties, to enable faster reviewing and improved understanding of them. Specifically, we collect a dataset consisting of pairwise importance comparison annotations by legal experts for ~293K sentence pairs from lease agreements. We propose a novel extractive summarization system to automatically produce a summary consisting of the most important obligations, entitlements, and prohibitions in a contract. It consists of two modules: (1) a content categorize to identify sentences containing each of the categories (i.e., obligation, entitlement, and prohibition) for a party, and (2) an importance ranker to compare the importance among sentences of each category for a party to obtain a ranked list. The final summary is produced by selecting the most important sentences of a category for each of the parties. We demonstrate the effectiveness of our proposed system by comparing it against several text ranking baselines via automatic and human evaluation.
翻訳日:2022-12-21 14:53:48 公開日:2022-12-19
# ソーシャルメディア上でのメンタルヘルス状態のマルチクラス予測のためのハイブリッドおよびアンサンブルモデルの検討

Exploring Hybrid and Ensemble Models for Multiclass Prediction of Mental Health Status on Social Media ( http://arxiv.org/abs/2212.09839v1 )

ライセンス: Link先を確認
Sourabh Zanwar, Daniel Wiechmann, Yu Qiao, Elma Kerz(参考訳) 近年,自然言語処理や機械学習技術の進歩を活用したソーシャルメディアデータから,自動メンタルヘルス検出(MHD)研究への関心が高まっている。 この学際研究領域では大きな進歩を遂げているが、ほとんどの研究はmhdを二分分類タスクとして扱っている。 しかし、マルチクラス分類の設定は、特定の精神疾患に関連する言語使用の統計的パターンの微妙な違いを明らかにするために必要不可欠である。 本稿では,Redditのソーシャルメディア投稿から6つの症状(不安,注意欠陥高活動障害,双極性障害,外傷後ストレス障害,うつ病,心理的ストレス)を予測する実験を報告する。 本稿では,多種多様な言語的特徴のテキスト内分布を訓練したトランスフォーマーベースアーキテクチャ(bert,roberta)とbilstmニューラルネットワークを用いたハイブリッドモデルとアンサンブルモデルの性能の比較を行った。 このセットは、構文的複雑さ、語彙的洗練と多様性、可読性、レジスタ固有のnグラム頻度、および感情と感情の語彙の尺度を含む。 また,特定の精神状態を示す特徴の種類について検討するため,機能改善実験を実施している。

In recent years, there has been a surge of interest in research on automatic mental health detection (MHD) from social media data leveraging advances in natural language processing and machine learning techniques. While significant progress has been achieved in this interdisciplinary research area, the vast majority of work has treated MHD as a binary classification task. The multiclass classification setup is, however, essential if we are to uncover the subtle differences among the statistical patterns of language use associated with particular mental health conditions. Here, we report on experiments aimed at predicting six conditions (anxiety, attention deficit hyperactivity disorder, bipolar disorder, post-traumatic stress disorder, depression, and psychological stress) from Reddit social media posts. We explore and compare the performance of hybrid and ensemble models leveraging transformer-based architectures (BERT and RoBERTa) and BiLSTM neural networks trained on within-text distributions of a diverse set of linguistic features. This set encompasses measures of syntactic complexity, lexical sophistication and diversity, readability, and register-specific ngram frequencies, as well as sentiment and emotion lexicons. In addition, we conduct feature ablation experiments to investigate which types of features are most indicative of particular mental health conditions.
翻訳日:2022-12-21 14:53:29 公開日:2022-12-19
# graph convolutional generative adversarial networkを用いた風力発電シナリオ生成

Wind Power Scenario Generation Using Graph Convolutional Generative Adversarial Network ( http://arxiv.org/abs/2212.10454v1 )

ライセンス: Link先を確認
Young-ho Cho, Shaohui Liu, Duehee Lee, and Hao Zhu(参考訳) 風力発電のシナリオの生成は、グリッドと接続される複数の風力発電所の影響を研究する上で非常に重要である。 我々は,統計モデルを用いることなく,多数の現実シナリオを生成するGANの能力を生かして,グラフ畳み込み生成対向ネットワーク(GCGAN)アプローチを開発する。 既存のGANベースの風力発電データ生成手法とは異なり、GANの隠れ層を設計し、その基礎となる空間的特性と時間的特性に適合させる。 我々は,複数のウィンドファーム間の空間的相関を埋め込むグラフフィルタと,時間的特徴フィルタを表現するための1次元(1次元)畳み込み層を提唱する。 提案するグラフと特徴フィルタの設計はganモデルの複雑さを大幅に削減し、トレーニング効率と計算の複雑さを改善した。 オーストラリアにおける実風力データを用いた数値計算の結果,提案したGCGANが生み出すシナリオは,他のGANベースの出力よりも現実的な空間的・時間的統計値を示した。

Generating wind power scenarios is very important for studying the impacts of multiple wind farms that are interconnected to the grid. We develop a graph convolutional generative adversarial network (GCGAN) approach by leveraging GAN's capability in generating large number of realistic scenarios without using statistical modeling. Unlike existing GAN-based wind power data generation approaches, we design GAN's hidden layers to match the underlying spatial and temporal characteristics. We advocate to use graph filters to embed the spatial correlation among multiple wind farms, and a one-dimensional (1D) convolutional layer for representing the temporal feature filters. The proposed graph and feature filter designs significantly reduce the GAN model complexity, leading to improvements on the training efficiency and computation complexity. Numerical results using real wind power data from Australia demonstrate that the scenarios generated by the proposed GCGAN exhibit more realistic spatial and temporal statistics than other GAN-based outputs.
翻訳日:2022-12-21 14:46:15 公開日:2022-12-19
# 都市大気質予測における大規模データセットギャップの管理:メディアエバル2022におけるDCU-Insight-AQ

Managing Large Dataset Gaps in Urban Air Quality Prediction: DCU-Insight-AQ at MediaEval 2022 ( http://arxiv.org/abs/2212.10273v1 )

ライセンス: Link先を確認
Dinh Viet Cuong and Phuc H. Le-Khac and Adam Stapleton and Elke Eichlemann and Mark Roantree and Alan F. Smeaton(参考訳) 空気品質指数(AQI)の計算は通常、固定位置に配置された空気質センサーのデータストリームを使用し、計算はリアルタイムプロセスである。 1つまたは複数のセンサーが故障またはオフラインの場合、リアルタイムのAQI値は計算できない。 将来ある時点のAQI値を推定することは予測プロセスであり、過去のAQI値を使用してモデルをトレーニングし、構築する。 本研究では,aqiを将来1~5~7日で予測するタスクにおいて,空気質データにギャップを埋めることに焦点を当てる。 シナリオは、1つまたは複数の空気、天気、交通センサーがオフラインであり、そのような状況下で予測精度を探索する。 この作業は、DCU-Insight-AQチームが提出したMediaEval'2022 Urban Air: Urban Life and Air Pollutionタスクの一部であり、大気汚染予測のためにAQI、天気、CCTVの交通画像からなるマルチモーダルおよびクロスモーダルデータを使用する。

Calculating an Air Quality Index (AQI) typically uses data streams from air quality sensors deployed at fixed locations and the calculation is a real time process. If one or a number of sensors are broken or offline, then the real time AQI value cannot be computed. Estimating AQI values for some point in the future is a predictive process and uses historical AQI values to train and build models. In this work we focus on gap filling in air quality data where the task is to predict the AQI at 1, 5 and 7 days into the future. The scenario is where one or a number of air, weather and traffic sensors are offline and explores prediction accuracy under such situations. The work is part of the MediaEval'2022 Urban Air: Urban Life and Air Pollution task submitted by the DCU-Insight-AQ team and uses multimodal and crossmodal data consisting of AQI, weather and CCTV traffic images for air pollution prediction.
翻訳日:2022-12-21 14:35:28 公開日:2022-12-19
# ニューラルネットワークを用いた3次元シーン理解のためのパノプティカルリフティング

Panoptic Lifting for 3D Scene Understanding with Neural Fields ( http://arxiv.org/abs/2212.09802v1 )

ライセンス: Link先を確認
Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Bul\'o, Norman M\"uller, Matthias Nie{\ss}ner, Angela Dai, Peter Kontschieder(参考訳) 本研究では,野生場面の画像からパンオプティカルな3次元容積表現を学習するための新しい手法であるpanopticliftを提案する。 トレーニングが完了すると、新しい視点からカラー画像と3D一貫性のあるパノプティクスのセグメンテーションを同時にレンダリングできる。 直接あるいは間接的に3D入力を使用する既存のアプローチとは異なり,本手法では,事前学習ネットワークから推定される2次元パノプティック・セグメンテーションマスクのみを必要とする。 我々のコアコントリビューションは、シーンの統一された多視点の3次元パノプティクス表現を生成するニューラルネットワーク表現に基づくパノプティカルリフト方式である。 ビュー間の2dインスタンス識別子の不整合を考慮し、モデルの現在の予測とマシン生成セグメンテーションマスクに基づくコストで線形割り当てを解決し、2dインスタンスを一貫した方法で3dにリフトすることができる。 さらに,信頼度推定のためのテスト時間拡張,セグメント一貫性損失,境界セグメンテーションフィールド,勾配停止など,ノイズの多いマシン生成ラベルに対してより堅牢な貢献を提案する。 実験結果は、Hypersim、Replica、ScanNetのデータセットに対する我々のアプローチを検証し、最先端のシーンレベルのPQにおいて8.4、13.8、および10.6%改善した。

We propose Panoptic Lifting, a novel approach for learning panoptic 3D volumetric representations from images of in-the-wild scenes. Once trained, our model can render color images together with 3D-consistent panoptic segmentation from novel viewpoints. Unlike existing approaches which use 3D input directly or indirectly, our method requires only machine-generated 2D panoptic segmentation masks inferred from a pre-trained network. Our core contribution is a panoptic lifting scheme based on a neural field representation that generates a unified and multi-view consistent, 3D panoptic representation of the scene. To account for inconsistencies of 2D instance identifiers across views, we solve a linear assignment with a cost based on the model's current predictions and the machine-generated segmentation masks, thus enabling us to lift 2D instances to 3D in a consistent way. We further propose and ablate contributions that make our method more robust to noisy, machine-generated labels, including test-time augmentations for confidence estimates, segment consistency loss, bounded segmentation fields, and gradient stopping. Experimental results validate our approach on the challenging Hypersim, Replica, and ScanNet datasets, improving by 8.4, 13.8, and 10.6% in scene-level PQ over state of the art.
翻訳日:2022-12-21 14:28:43 公開日:2022-12-19
# 時系列分類のための動的スパースネットワーク:「見る」ものを学ぶ

Dynamic Sparse Network for Time Series Classification: Learning What to "see'' ( http://arxiv.org/abs/2212.09840v1 )

ライセンス: Link先を確認
Qiao Xiao, Boqian Wu, Yu Zhang, Shiwei Liu, Mykola Pechenizkiy, Elena Mocanu, Decebal Constantin Mocanu(参考訳) 時系列の領域を 'seen' と判定し使用する受容場(RF)は、時系列分類(TSC)の性能を向上させるために重要である。 しかし、時系列データ間の信号スケールの変化は、TSCの適切なRFサイズを決定するのを困難にしている。 本稿では,TSCの疎結合を考慮した動的スパースネットワーク(DSN)を提案する。 各スパース層のカーネルはスパースであり、動的スパーストレーニングによって制約領域の下で探索することができるため、リソースコストを削減できる。 実験の結果,DSNモデルは,最近のベースライン法と比較して計算コストが50倍未満の単変量および多変量TSCデータセット上での最先端性能を達成でき,時系列解析のためのより正確な資源認識手法への道を開いた。 私たちのコードは、https://github.com/qiaoxiao7282/dsnで公開されています。

The receptive field (RF), which determines the region of time series to be ``seen'' and used, is critical to improve the performance for time series classification (TSC). However, the variation of signal scales across and within time series data, makes it challenging to decide on proper RF sizes for TSC. In this paper, we propose a dynamic sparse network (DSN) with sparse connections for TSC, which can learn to cover various RF without cumbersome hyper-parameters tuning. The kernels in each sparse layer are sparse and can be explored under the constraint regions by dynamic sparse training, which makes it possible to reduce the resource cost. The experimental results show that the proposed DSN model can achieve state-of-art performance on both univariate and multivariate TSC datasets with less than 50\% computational cost compared with recent baseline methods, opening the path towards more accurate resource-aware methods for time series analyses. Our code is publicly available at: https://github.com/QiaoXiao7282/DSN.
翻訳日:2022-12-21 14:17:34 公開日:2022-12-19
# 言語モデルの重み付けによるデータレス知識融合

Dataless Knowledge Fusion by Merging Weights of Language Models ( http://arxiv.org/abs/2212.09849v1 )

ライセンス: Link先を確認
Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng(参考訳) 微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。 多くの場合、微調整されたモデルは簡単に利用できるが、データのプライバシーや知的財産の懸念からトレーニングデータは利用できない。 これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。 本稿では、異なるトレーニングデータセット上に構築された個別モデルをマージして、すべてのデータセットドメインでよく機能し、ドメイン外のデータで一般化できる単一モデルを得るという課題について考察する。 本稿では,モデルと各モデルとの予測差を最小化する重み付けにより,パラメータ空間でモデルをマージするデータレス知識融合手法を提案する。 評価設定のバッテリ上では,提案手法がフィッシャー重み付け平均化やモデルアンサンブルなどのベースラインを著しく上回ることを示す。 さらに,本手法は,学習データにアクセスせずに個々のモデルを保存・改善できるマルチタスク学習に代わる有望な方法であることがわかった。 最後に、モデルマージはマルチタスクモデルのトレーニングよりも効率的であるため、より広範なシナリオに適用できる。

Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
翻訳日:2022-12-21 14:10:27 公開日:2022-12-19
# 連続半教師付き非負行列分解

Continuous Semi-Supervised Nonnegative Matrix Factorization ( http://arxiv.org/abs/2212.09858v1 )

ライセンス: Link先を確認
Michael R. Lindstrom, Xiaofu Ding, Feng Liu, Anand Somayajula, Deanna Needell(参考訳) 非負行列分解は、教師なしの方法でコーパス内のトピックを自動的に検出することができる。 この手法は、下級の2つの非負行列の積としての非負行列の近似に相当する。 本稿では,この因子化を連続応答変数の回帰と組み合わせることができることを示す。 実際には、この方法はトピックを識別した後の回帰よりもパフォーマンスが良く、解釈可能性を再訓練する。

Nonnegative matrix factorization can be used to automatically detect topics within a corpus in an unsupervised fashion. The technique amounts to an approximation of a nonnegative matrix as the product of two nonnegative matrices of lower rank. In this paper, we show this factorization can be combined with regression on a continuous response variable. In practice, the method performs better than regression done after topics are identified and retrains interpretability.
翻訳日:2022-12-21 14:10:08 公開日:2022-12-19
# ニューラルマシン翻訳のための合成事前学習タスク

Synthetic Pre-Training Tasks for Neural Machine Translation ( http://arxiv.org/abs/2212.09864v1 )

ライセンス: Link先を確認
Zexue He, Graeme Blackwood, Rameswar Panda, Julian McAuley, Rogerio Feris(参考訳) プレトレーニングは、さまざまな機械学習タスクにおける堅牢なパフォーマンスを保証する効果的なテクニックである。 一般的には、毒性または偏りのあるモデルをもたらす大規模なクロールコーパスに依存する。 このようなデータは、著作権、帰属、プライバシーに関しても問題となることがある。 合成タスクとデータによる事前学習は、実際の情報がモデルによって取り込み込まれないため、そのような懸念を緩和する有望な方法である。 本論文の目標は,合成資源を使用する際に,適切な事前学習モデルが何をもたらすのかを理解することである。 本稿では,2つの新しい翻訳モデル事前学習手法を検討することにより,ニューラルマシン翻訳の文脈でこの疑問に答える。 第1のアプローチでは,単語を「ナンセンス」トークンの語彙にマッピングすることで,並列コーパスから得られた難読化データに対する事前学習の効果について検討する。 第2のアプローチは、手続き的に生成された実際の人間の言語コーパスに依存しない合成並列データに対する事前学習の効果を検討する。 複数の言語ペアに対する経験的評価から,不完全あるいは純粋に合成された並列データを用いても,事前学習の利点が実現可能であることが示された。 本分析では,幻覚モデル毒性の問題を緩和するために,難治性および合成前訓練技術がどの程度有効かを検討する。

Pre-training is an effective technique for ensuring robust performance on a variety of machine learning tasks. It typically depends on large-scale crawled corpora that can result in toxic or biased models. Such data can also be problematic with respect to copyright, attribution, and privacy. Pre-training with synthetic tasks and data is a promising way of alleviating such concerns since no real-world information is ingested by the model. Our goal in this paper is to understand what makes for a good pre-trained model when using synthetic resources. We answer this question in the context of neural machine translation by considering two novel approaches to translation model pre-training. Our first approach studies the effect of pre-training on obfuscated data derived from a parallel corpus by mapping words to a vocabulary of 'nonsense' tokens. Our second approach explores the effect of pre-training on procedurally generated synthetic parallel data that does not depend on any real human language corpus. Our empirical evaluation on multiple language pairs shows that, to a surprising degree, the benefits of pre-training can be realized even with obfuscated or purely synthetic parallel data. In our analysis, we consider the extent to which obfuscated and synthetic pre-training techniques can be used to mitigate the issue of hallucinated model toxicity.
翻訳日:2022-12-21 13:53:33 公開日:2022-12-19
# Z-ICL:擬似表現を用いたゼロショットインテクスト学習

Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations ( http://arxiv.org/abs/2212.09865v1 )

ライセンス: Link先を確認
Xinxi Lyu, Sewon Min, Iz Beltagy, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) 大規模な言語モデルはゼロショット学習と少数ショット学習の両方でトリガーできるが、デモが得られない場合のパフォーマンスは大幅に低下する。 本稿では,原文コーパスを用いて,与えられたテスト入力に対する擬似デモンストレーションを構築し,そのギャップを閉じる新しいゼロショット法であるz-iclを提案する。 具体的には、(1)コーパスから入力されたテストに最も近い隣人を見つけ、ランダムなタスクラベルとペアリングし、(2)結果のデモンストレーションからモデルを直接コピーする量を減らすための一連のテクニックを適用することで擬似装飾を構築する。 9つの分類データセットの評価から、Z-ICLは従来のゼロショット法よりも大幅に優れており、ラベル付きトレーニングデータとラベル付きトレーニングデータと同等であることがわかった。 全体として、Z-ICLは、モデルのゼロショット性能レベルをはるかに高く見積もっており、ゼロショット結果をさらに改善するより良い擬似デモを開発するための将来の取り組みを支援している。

Although large language models can be prompted for both zero- and few-shot learning, performance drops significantly when no demonstrations are available. In this paper, we introduce Z-ICL, a new zero-shot method that closes the gap by constructing pseudo-demonstrations for a given test input using a raw text corpus. Concretely, pseudo-demonstrations are constructed by (1) finding the nearest neighbors to the test input from the corpus and pairing them with random task labels, and (2) applying a set of techniques to reduce the amount of direct copying the model does from the resulting demonstrations. Evaluation on nine classification datasets shows that Z-ICL outperforms previous zero-shot methods by a significant margin, and is on par with in-context learning with labeled training data in the few-shot setting. Overall, Z-ICL provides a significantly higher estimate of the zero-shot performance levels of a model, and supports future efforts to develop better pseudo-demonstrations that further improve zero-shot results.
翻訳日:2022-12-21 13:53:14 公開日:2022-12-19
# シンボリック回帰を用いた鉄鋼相速度論モデリング

Steel Phase Kinetics Modeling using Symbolic Regression ( http://arxiv.org/abs/2212.10284v1 )

ライセンス: Link先を確認
David Piringer, Bernhard Bloder, Gabriel Kronberger(参考訳) 本稿では,シンボリック回帰と遺伝的プログラミングに基づく鉄鋼相速度論の実証的モデリング手法について述べる。 このアルゴリズムは、ディラトメーター測定から収集された処理データを取り込み、位相運動学をモデル化する微分方程式のシステムを生成する。 提案手法により,データに適合するコンパクトな微分方程式を同定できることを示す。 このモデルは, 単鋼のフェライト, パーライトおよびベイナイトの生成を予測する。 Martensiteはまだモデルに含まれていない。 今後の作業では,マルテンサイトを取り入れ,化学組成の異なる複数の鋼型に一般化する。

We describe an approach for empirical modeling of steel phase kinetics based on symbolic regression and genetic programming. The algorithm takes processed data gathered from dilatometer measurements and produces a system of differential equations that models the phase kinetics. Our initial results demonstrate that the proposed approach allows to identify compact differential equations that fit the data. The model predicts ferrite, pearlite and bainite formation for a single steel type. Martensite is not yet included in the model. Future work shall incorporate martensite and generalize to multiple steel types with different chemical compositions.
翻訳日:2022-12-21 13:42:10 公開日:2022-12-19
# 固定重量差ターゲット伝搬

Fixed-Weight Difference Target Propagation ( http://arxiv.org/abs/2212.10352v1 )

ライセンス: Link先を確認
Tatsukichi Shibuya, Nakamasa Inoue, Rei Kawakami, Ikuro Sato(参考訳) Target Propagation (TP) は、ディープネットワークをトレーニングするためのエラーバックプロパゲーション (BP) よりも生物学的に妥当なアルゴリズムであり、TPの実用性を改善することが課題である。 TP方式では、フィードフォワードとフィードバックネットワークが出力層で生成されたターゲット値を伝播するレイヤワイズオートエンコーダを形成する必要がある。 例えば、フィードフォワードとフィードバックトレーニングを同期させるためには、注意深いハイパーパラメータチューニングが必要であり、フィードバックパスの頻繁な更新は通常フィードフォワードパスよりも必要である。 フィードフォワードとフィードバックネットワークの学習は、TPメソッドをトレーニングできるのに十分であるが、これらのレイヤーワイドオートエンコーダがTPの動作に必要な条件であるだろうか? 本稿では,フィードバック重みを一定に保つFW-DTP(Fixed-Weight Different Target Propagation)を提案する。 そこで本研究では,TPの課題を自然に解決するこの単純な手法が,与えられたタスクの隠蔽層に情報的目標値を供給できることを確認し,FW-DTPは,4つの分類データセット上で,ベースラインである差分ターゲット伝搬(DTP)よりも高いテスト性能を一貫して達成できることを確認した。 また、FW-DTPを解析するために、DTPのフィードバック関数の正確な形を説明する新しい伝搬アーキテクチャを提案する。

Target Propagation (TP) is a biologically more plausible algorithm than the error backpropagation (BP) to train deep networks, and improving practicality of TP is an open issue. TP methods require the feedforward and feedback networks to form layer-wise autoencoders for propagating the target values generated at the output layer. However, this causes certain drawbacks; e.g., careful hyperparameter tuning is required to synchronize the feedforward and feedback training, and frequent updates of the feedback path are usually required than that of the feedforward path. Learning of the feedforward and feedback networks is sufficient to make TP methods capable of training, but is having these layer-wise autoencoders a necessary condition for TP to work? We answer this question by presenting Fixed-Weight Difference Target Propagation (FW-DTP) that keeps the feedback weights constant during training. We confirmed that this simple method, which naturally resolves the abovementioned problems of TP, can still deliver informative target values to hidden layers for a given task; indeed, FW-DTP consistently achieves higher test performance than a baseline, the Difference Target Propagation (DTP), on four classification datasets. We also present a novel propagation architecture that explains the exact form of the feedback function of DTP to analyze FW-DTP.
翻訳日:2022-12-21 13:42:04 公開日:2022-12-19
# ヒューマン・イン・ザ・ループ抽象対話要約

Human-in-the-loop Abstractive Dialogue Summarization ( http://arxiv.org/abs/2212.09750v1 )

ライセンス: Link先を確認
Jiaao Chen, Mohan Dodda, Diyi Yang(参考訳) 近年,抽象対話要約が注目されている。 現在の対話要約システムのほとんどは、人文要約の可能性を最大化するために訓練されており、大きな成果を上げているにもかかわらず、人間によって決定されるコヒーレンスや忠実さなどの高品質な要約の生成には大きなギャップがある。 そこで本研究では,異なるレベルのフィードバックをトレーニングプロセスに組み込むことを提案する。 これにより、モデルをガイドして、人間が要約に関心を持つ行動を捉えることができます。 具体的には,世界的フィードバックとして,要約に含まれる有能な情報を強調して局所的なフィードバックを提供するとともに,コヒーレンス,正確性,カバレッジ,簡潔さ,全体的な品質の観点から,要約間の総合的な比較を行う。 次に,ローカルフィードバックとグローバルフィードバックを組み合わせることで,ダイアログ要約ポリシーと強化学習を微調整する。 複数のデータセットで行った実験は、最先端の教師付きベースライン、特に人間の判断の観点から、我々の手法の有効性と一般化を実証している。

Abstractive dialogue summarization has received increasing attention recently. Despite the fact that most of the current dialogue summarization systems are trained to maximize the likelihood of human-written summaries and have achieved significant results, there is still a huge gap in generating high-quality summaries as determined by humans, such as coherence and faithfulness, partly due to the misalignment in maximizing a single human-written summary. To this end, we propose to incorporate different levels of human feedback into the training process. This will enable us to guide the models to capture the behaviors humans care about for summaries. Specifically, we ask humans to highlight the salient information to be included in summaries to provide the local feedback , and to make overall comparisons among summaries in terms of coherence, accuracy, coverage, concise and overall quality, as the global feedback. We then combine both local and global feedback to fine-tune the dialog summarization policy with Reinforcement Learning. Experiments conducted on multiple datasets demonstrate the effectiveness and generalization of our methods over the state-of-the-art supervised baselines, especially in terms of human judgments.
翻訳日:2022-12-21 13:41:30 公開日:2022-12-19
# 画像からのデクサラスマニピュレーション:サブステップ誘導による自律的実世界RL

Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance ( http://arxiv.org/abs/2212.09902v1 )

ライセンス: Link先を確認
Kelvin Xu, Zheyuan Hu, Ria Doshi, Aaron Rovinsky, Vikash Kumar, Abhishek Gupta, Sergey Levine(参考訳) 複雑で接触に富んだロボット操作、特に多指の手と不動の物体操作を含むタスクは、あらゆる制御方法に重大な課題をもたらす。 強化学習に基づく手法は、ロボットが強力なモデリング仮定なしで、接触力と微妙に再配置する物体の微妙なバランスを学べるように、そのような設定に魅力的な選択肢を提供する。 しかし、実世界の巧妙な操作システムで強化学習を実行するには、しばしばかなりの手動技術が必要である。 これにより、自律的なデータ収集のメリットと、強化学習が原則的に提供するべき使いやすさが否定される。 本稿では,ユーザが新しいタスクを定義し,複雑な多指ハンドを持つロボットがインタラクションを通じてその動作を学べるようにするための"プログラミングフリー"なアプローチを提供する,視覚に基づくデクスタース操作のシステムについて述べる。 我々のシステムの基本原理は、視覚ベースの環境では、ユーザーは遠隔操作や審美教育の課題を回避し、ロボットがタスクを効率的に学習するだけでなく、自律的に実践することのできる、ハイレベルな中間管理を提供するべきである。 本システムには,最終タスクと中間サブタスクを画像例で定義するフレームワーク,介入なしにタスクを自律的に学習する強化学習手順,シミュレーションや手動モデリング,報酬工学を伴わない実世界での多段階オブジェクト操作タスクを直接学習する4本指ロボットハンドによる実験結果が含まれている。

Complex and contact-rich robotic manipulation tasks, particularly those that involve multi-fingered hands and underactuated object manipulation, present a significant challenge to any control method. Methods based on reinforcement learning offer an appealing choice for such settings, as they can enable robots to learn to delicately balance contact forces and dexterously reposition objects without strong modeling assumptions. However, running reinforcement learning on real-world dexterous manipulation systems often requires significant manual engineering. This negates the benefits of autonomous data collection and ease of use that reinforcement learning should in principle provide. In this paper, we describe a system for vision-based dexterous manipulation that provides a "programming-free" approach for users to define new tasks and enable robots with complex multi-fingered hands to learn to perform them through interaction. The core principle underlying our system is that, in a vision-based setting, users should be able to provide high-level intermediate supervision that circumvents challenges in teleoperation or kinesthetic teaching which allow a robot to not only learn a task efficiently but also to autonomously practice. Our system includes a framework for users to define a final task and intermediate sub-tasks with image examples, a reinforcement learning procedure that learns the task autonomously without interventions, and experimental results with a four-finger robotic hand learning multi-stage object manipulation tasks directly in the real world, without simulation, manual modeling, or reward engineering.
翻訳日:2022-12-21 13:32:54 公開日:2022-12-19
# スケールにまたがる言語モデルの訓練軌跡

Training Trajectories of Language Models Across Scales ( http://arxiv.org/abs/2212.09803v1 )

ライセンス: Link先を確認
Mengzhou Xia, Mikel Artetxe, Chunting Zhou, Xi Victoria Lin, Ramakanth Pasunuru, Danqi Chen, Luke Zettlemoyer, Ves Stoyanov(参考訳) 言語モデルのスケールアップは前例のないパフォーマンス向上につながったが、モデルが大きくなるにつれてトレーニングのダイナミクスがどのように変化するかはほとんど分かっていない。 異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか? 本稿では,様々なサイズのオプティモデル(zhang et al.,2022)の中間トレーニングチェックポイントを125mから175bのパラメータで分析し,次の予測,シーケンスレベル生成,ダウンストリームタスクについて検討した。 私たちはそれを見つけ 1) 所定の難易度及びモデルサイズに依存しない場合において、同様の訓練トークンのサブセットは、損失の最も顕著な減少を示し、残りは停滞又は二重発振を示す。 2) 訓練の早い段階で,すべてのモデルは,幻覚を含む文法的配列の難易度を低下させ,この準最適分布で小さなモデルが停止し,より大きなモデルが最終的にこれらの配列を低い確率で割り当てることを学ぶ。 3) パープレキシティは,BIG-Benchの74種類の複数選択タスクにおいて,コンテキスト内学習性能の強い予測因子であり,モデルサイズに依存しない。 これらの結果から,パープレキシティはモデルサイズやトレーニング計算よりもモデル行動の予測性が高いことが示された。

Scaling up language models has led to unprecedented performance gains, but little is understood about how the training dynamics change as models get larger. How do language models of different sizes learn during pre-training? Why do larger language models demonstrate more desirable behaviors? In this paper, we analyze the intermediate training checkpoints of differently sized OPT models (Zhang et al.,2022)--from 125M to 175B parameters--on next-token prediction, sequence-level generation, and downstream tasks. We find that 1) at a given perplexity and independent of model sizes, a similar subset of training tokens see the most significant reduction in loss, with the rest stagnating or showing double-descent behavior; 2) early in training, all models learn to reduce the perplexity of grammatical sequences that contain hallucinations, with small models halting at this suboptimal distribution and larger ones eventually learning to assign these sequences lower probabilities; 3) perplexity is a strong predictor of in-context learning performance on 74 multiple-choice tasks from BIG-Bench, and this holds independent of the model size. Together, these results show that perplexity is more predictive of model behaviors than model size or training computation.
翻訳日:2022-12-21 13:24:13 公開日:2022-12-19
# メモリ効率の高いNLLB-200:多言語機械翻訳モデルの言語特化

Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model ( http://arxiv.org/abs/2212.09811v1 )

ライセンス: Link先を確認
Yeskendir Koishekenov, Vassilina Nikoulina, Alexandre Berard(参考訳) 従来のバイリンガル翻訳システムと比較して、単一のモデルが複数の言語に翻訳でき、低リソース言語に対する知識伝達の恩恵を受けるため、多言語機械翻訳は魅力的である。 一方、多言語モデルは、そのサイズを大規模にスケーリングし、トレーニングと推論コストを増大させない限り、多言語性の呪いに悩まされる。 Sparse Mixture-of-Expertsモデルは、比例計算を必要とせずに、モデル容量を大幅に増やす方法である。 最近リリースされたnllb-200は、そのようなモデルの例である。 202言語をカバーするが、推論には少なくとも4つの32GB GPUが必要である。 そこで本研究では, 翻訳品質を損なうことなく, 最大80\%のエキスパートを除去し, 単一の32gb gpu上でモデルを実行することが可能なプルーニング手法を提案する。 さらに分析した結果,言語固有の専門家を識別し,特定の言語ペアに関連のない専門家を特定できることが示唆された。

Compared to conventional bilingual translation systems, massively multilingual machine translation is appealing because a single model can translate into multiple languages and benefit from knowledge transfer for low resource languages. On the other hand, massively multilingual models suffer from the curse of multilinguality, unless scaling their size massively, which increases their training and inference costs. Sparse Mixture-of-Experts models are a way to drastically increase model capacity without the need for a proportional amount of computing. The recently released NLLB-200 is an example of such a model. It covers 202 languages but requires at least four 32GB GPUs just for inference. In this work, we propose a pruning method that allows the removal of up to 80\% of experts with a negligible loss in translation quality, which makes it feasible to run the model on a single 32GB GPU. Further analysis suggests that our pruning metrics allow to identify language-specific experts and prune non-relevant experts for a given language pair.
翻訳日:2022-12-21 13:23:48 公開日:2022-12-19
# 多目的強化学習によるラグランジアンカオスの改ざん

Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2212.09612v1 )

ライセンス: Link先を確認
Chiara Calascibetta, Luca Biferale, Francesco Borra, Antonio Celani and Massimo Cencini(参考訳) 2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。 本研究では,多目的強化学習(morl)を用いて,スカラー化手法とq-learningアルゴリズムを組み合わせることで,水泳速度の変動するラグランジアンドリフトラーにアプローチする。 我々は、MORLが最適パレートフロンティアを形成する一連のトレードオフソリューションを見つけることができることを示す。 ベンチマークの結果,一連のヒューリスティック戦略がMORLソリューションに支配されていることがわかった。 エージェントが制御変数を継続的に更新できない状況は、離散的な(決定的な)時間、$\tau$の後にのみ考慮する。 lyapunov時間と連続更新限界の間には,強化学習がヒューリスティックよりも大幅に改善する戦略を見出すという,さまざまな意思決定時間が存在する。 特に、意思決定時間がフローの知識の強化を必要とするかについて議論する一方、より小さい$\tau$ では、事前のヒューリスティック戦略がパレート最適となる。

We consider the problem of two active particles in 2D complex flows with the multi-objective goals of minimizing both the dispersion rate and the energy consumption of the pair. We approach the problem by means of Multi Objective Reinforcement Learning (MORL), combining scalarization techniques together with a Q-learning algorithm, for Lagrangian drifters that have variable swimming velocity. We show that MORL is able to find a set of trade-off solutions forming an optimal Pareto frontier. As a benchmark, we show that a set of heuristic strategies are dominated by the MORL solutions. We consider the situation in which the agents cannot update their control variables continuously, but only after a discrete (decision) time, $\tau$. We show that there is a range of decision times, in between the Lyapunov time and the continuous updating limit, where Reinforcement Learning finds strategies that significantly improve over heuristics. In particular, we discuss how large decision times require enhanced knowledge of the flow, whereas for smaller $\tau$ all a priori heuristic strategies become Pareto optimal.
翻訳日:2022-12-20 19:04:46 公開日:2022-12-19
# 独占グラフアルゴリズムは必ずしも最適とは限らない

The One-Inclusion Graph Algorithm is not Always Optimal ( http://arxiv.org/abs/2212.09270v1 )

ライセンス: Link先を確認
Ishaq Aden-Ali, Yeshwanth Cherapanamjeri, Abhishek Shetty, Nikita Zhivotovskiy(参考訳) Haussler, Littlestone, Warmuth の 1-inclusion graph アルゴリズムは、標準的なPAC分類設定に縛られた最適な予測内リスクを達成する。 最初のcoltオープン問題の1つで、ウォーマスは、この予測戦略が常にリスクに縛られる最適な高い確率を意味し、したがって最適なpacアルゴリズムでもあると推測した。 実際に興味深いVapnik-Chervonenkisクラスに対して、高い確率リスク境界がマルコフの不等式によって示唆されるものを超えない、予測できない最適な1-包含グラフアルゴリズムを提供する。 本稿では,Varshamov-Tenengolts 誤り訂正符号を用いた1-inclusion グラフアルゴリズムの構築を行った。 私たちの否定的な結果はいくつかの意味を持つ。 まず, 1-inclusion graphアルゴリズムの一般化に基づく近年の予測戦略により, 予測精度の低さが受け継がれていることを示す。 第2に, 本解析では, 期待値が絶対的に最適である場合, 高確率法では失敗する場合と, 予測値が最適である場合の統計学的問題を示す。 この差は、濃度の不等式に基づく議論がしばしば鋭い高い確率リスク境界をもたらす二項損失の境界性にもかかわらず生じる。

The one-inclusion graph algorithm of Haussler, Littlestone, and Warmuth achieves an optimal in-expectation risk bound in the standard PAC classification setup. In one of the first COLT open problems, Warmuth conjectured that this prediction strategy always implies an optimal high probability bound on the risk, and hence is also an optimal PAC algorithm. We refute this conjecture in the strongest sense: for any practically interesting Vapnik-Chervonenkis class, we provide an in-expectation optimal one-inclusion graph algorithm whose high probability risk bound cannot go beyond that implied by Markov's inequality. Our construction of these poorly performing one-inclusion graph algorithms uses Varshamov-Tenengolts error correcting codes. Our negative result has several implications. First, it shows that the same poor high-probability performance is inherited by several recent prediction strategies based on generalizations of the one-inclusion graph algorithm. Second, our analysis shows yet another statistical problem that enjoys an estimator that is provably optimal in expectation via a leave-one-out argument, but fails in the high-probability regime. This discrepancy occurs despite the boundedness of the binary loss for which arguments based on concentration inequalities often provide sharp high probability risk bounds.
翻訳日:2022-12-20 19:00:37 公開日:2022-12-19
# 因果的ガウス過程の経験的共分散の最小固有値について

A note on the smallest eigenvalue of the empirical covariance of causal Gaussian processes ( http://arxiv.org/abs/2212.09508v1 )

ライセンス: Link先を確認
Ingvar Ziemann(参考訳) 因果的ガウス過程における経験的共分散の最小固有値の境界に関する簡単な証明を示す。 その過程で、因果分解を用いたガウス二次形式に対する片側尾不等式を確立する。 我々の証明はガウス分布とユニオン境界に関する基本的な事実のみを用いる。

We present a simple proof for bounding the smallest eigenvalue of the empirical covariance in a causal Gaussian process. Along the way, we establish a one-sided tail inequality for Gaussian quadratic forms using a causal decomposition. Our proof only uses elementary facts about the Gaussian distribution and the union bound.
翻訳日:2022-12-20 19:00:17 公開日:2022-12-19
# 非凸予測制約最適化のための確率的不変ラグランジアン法

Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation Constrained Optimization ( http://arxiv.org/abs/2212.09513v1 )

ライセンス: Link先を確認
Zichong Li, Pin-Yu Chen, Sijia Liu, Songtao Lu, Yangyang Xu(参考訳) 多くの実世界の問題は複雑な非凸関数制約を持つだけでなく、多数のデータポイントを使用する。 これは有限和あるいは期待制約問題に対する効率的な確率的手法の設計を動機付ける。 本稿では,非凸複合(smooth+nonsmooth)目的と非凸滑らかな関数制約に関する問題を解くために,確率的不拡張ラグランジアン法(stoc-ialm)を設計し,解析する。 モーメントベース分散型近位確率勾配法(PStorm)と後処理ステップを用いて,標準iALMフレームワークを採用し,サブルーチンを設計する。 ある種の正則性条件(既存の研究でも仮定される)の下では、期待されるときに$\varepsilon$-KKT点に達するために、$O(\varepsilon^{-5})$のオラクル複雑性結果を確立し、最もよく知られた$O(\varepsilon^{-6})$の結果より優れている。 実データを用いたフェアネス制約問題とネイマン・ピアソン分類問題に関する数値実験により,提案手法が従来最もよく知られた複雑性結果の既存手法よりも優れていることを示す。

Many real-world problems not only have complicated nonconvex functional constraints but also use a large number of data points. This motivates the design of efficient stochastic methods on finite-sum or expectation constrained problems. In this paper, we design and analyze stochastic inexact augmented Lagrangian methods (Stoc-iALM) to solve problems involving a nonconvex composite (i.e. smooth+nonsmooth) objective and nonconvex smooth functional constraints. We adopt the standard iALM framework and design a subroutine by using the momentum-based variance-reduced proximal stochastic gradient method (PStorm) and a postprocessing step. Under certain regularity conditions (assumed also in existing works), to reach an $\varepsilon$-KKT point in expectation, we establish an oracle complexity result of $O(\varepsilon^{-5})$, which is better than the best-known $O(\varepsilon^{-6})$ result. Numerical experiments on the fairness constrained problem and the Neyman-Pearson classification problem with real data demonstrate that our proposed method outperforms an existing method with the previously best-known complexity result.
翻訳日:2022-12-20 19:00:12 公開日:2022-12-19
# 効率的なフェデレーション学習のためのクライアント選択と勾配圧縮の適応制御

Adaptive Control of Client Selection and Gradient Compression for Efficient Federated Learning ( http://arxiv.org/abs/2212.09483v1 )

ライセンス: Link先を確認
Zhida Jiang, Yang Xu, Hongli Xu, Zhiyuan Wang, Chen Qian(参考訳) フェデレーション学習(fl)は、複数のクライアントがローカルデータを開示することなく協調的にモデルを訓練することを可能にする。 しかし、既存の作業は、FLにおけるこれらの実践的な懸念に対処することができない。通信リソースの制限、動的ネットワーク条件、およびFLの収束を遅くする不均一なクライアント特性である。 上記の課題に取り組むために,feedcg と呼ばれる異種対応 fl フレームワークを提案し,クライアント選択と勾配圧縮を適応的に行う。 具体的には、パラメータサーバ(PS)が統計的不均一性を考慮した代表クライアントサブセットを選択し、グローバルモデルを送信する。 ローカルトレーニングの後、これらの選択されたクライアントは、圧縮されたモデル更新を集約のためにPSにアップロードし、通信負荷を大幅に軽減し、ストラグラー効果を緩和する。 クライアント選択と勾配圧縮の両方が収束性能に与える影響を理論的に解析する。 導出収束率の導出により,サブモジュラー最大化と線形計画を用いたクライアント選択と圧縮比決定を共同で最適化する反復型アルゴリズムを開発した。 実世界のプロトタイプとシミュレーションの両方の広範な実験により、feedcgは他の方法と比較して最大5.3$\times$のスピードアップを提供できることが示された。

Federated learning (FL) allows multiple clients cooperatively train models without disclosing local data. However, the existing works fail to address all these practical concerns in FL: limited communication resources, dynamic network conditions and heterogeneous client properties, which slow down the convergence of FL. To tackle the above challenges, we propose a heterogeneity-aware FL framework, called FedCG, with adaptive client selection and gradient compression. Specifically, the parameter server (PS) selects a representative client subset considering statistical heterogeneity and sends the global model to them. After local training, these selected clients upload compressed model updates matching their capabilities to the PS for aggregation, which significantly alleviates the communication load and mitigates the straggler effect. We theoretically analyze the impact of both client selection and gradient compression on convergence performance. Guided by the derived convergence rate, we develop an iteration-based algorithm to jointly optimize client selection and compression ratio decision using submodular maximization and linear programming. Extensive experiments on both real-world prototypes and simulations show that FedCG can provide up to 5.3$\times$ speedup compared to other methods.
翻訳日:2022-12-20 18:52:59 公開日:2022-12-19
# リアルタイム個別エンドポイント予測のためのGRU-D-Weibullアーキテクチャの識別・校正・点推定精度

Discrimination, calibration, and point estimate accuracy of GRU-D-Weibull architecture for real-time individualized endpoint prediction ( http://arxiv.org/abs/2212.09606v1 )

ライセンス: Link先を確認
Xiaoyang Ruan, Liwei Wang, Michelle Mai, Charat Thongprayoon, Wisit Cheungpasitporn, Hongfang Liu(参考訳) リアルタイムのエンドポイント予測は、常に難しい課題だが、患者と医療提供者の両方にとって優れた診療ユーティリティである。 6,879人の慢性腎臓病ステージ4(ckd4)患者をユースケースとして,weibull確率密度関数(gru-d-weibull)を実時間エンドポイント予測のための半パラメトリック縦型モデルとしてモデル化した,減衰を伴うゲート型再発ユニットの実現可能性と性能を検討した。 GRU-D-Weibullは最大Cインデックスが0.77で4.3年続く。 GRU-D-WeibullのL1-lossはXGB(AFT)の66%、MTLRの60%、CKD4インデックスのAFTモデルの30%である。 GRU-D-Weibull の平均絶対 L1-loss は約1年で、指標日以降のパークスの誤差は40%である。 GRU-D-Weibullは校正されておらず、真の生存確率を著しく過小評価している。 eGFRと血液アルブミンは重要度が低いが, 経過観察中に血圧が上昇する傾向が示唆された。 ほとんどの連続した特徴は、予測生存時間に非線形/パラボラの影響を受け、その結果は一般に既存の知識と一致する。 半パラメトリック時間モデルとしてのGRU-D-Weibullは、欠落のパラメータ化の利点、非同期に到達した測定に対するネイティブサポート、任意の時刻における任意の予測地平線に対する確率と点推定の出力能力、新たに到着したデータを組み込んだ後の識別と点推定精度の改善を示す。 CKD4等の終末期患者に対して、より包括的な入力機能、プロセス内またはプロセス後キャリブレーションによるパフォーマンスに関するさらなる研究が求められる。

Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
翻訳日:2022-12-20 18:52:37 公開日:2022-12-19
# レーン検出アルゴリズムのハードウェア高速化:GPU対FPGA比較

Hardware Acceleration of Lane Detection Algorithm: A GPU Versus FPGA Comparison ( http://arxiv.org/abs/2212.09460v1 )

ライセンス: Link先を確認
Mohamed Alshemi, Sherif Saif and Mohamed Taher(参考訳) 完全コンピュータビジョンシステムは、検出と分類の2つの主要なカテゴリに分けられる。 レーン検出アルゴリズムはコンピュータビジョン検出カテゴリの一部であり、自律運転システムやスマート自動車システムに応用されている。 レーン検出システムは、複雑な道路環境におけるレーンマーキングを担っている。 同時に、車線を出発する際、車両の警告システムにおいて車線検出が重要な役割を果たす。 実装された車線検出アルゴリズムは主にエッジ検出とライン検出の2段階に分けられる。 本稿では、FPGAとGPUの両方で得られた最先端の実装性能を比較し、レイテンシ、消費電力、利用のトレードオフを評価する。 比較では,両システムの長所と短所を強調する。

A Complete Computer vision system can be divided into two main categories: detection and classification. The Lane detection algorithm is a part of the computer vision detection category and has been applied in autonomous driving and smart vehicle systems. The lane detection system is responsible for lane marking in a complex road environment. At the same time, lane detection plays a crucial role in the warning system for a car when departs the lane. The implemented lane detection algorithm is mainly divided into two steps: edge detection and line detection. In this paper, we will compare the state-of-the-art implementation performance obtained with both FPGA and GPU to evaluate the trade-off for latency, power consumption, and utilization. Our comparison emphasises the advantages and disadvantages of the two systems.
翻訳日:2022-12-20 18:44:27 公開日:2022-12-19
# 異常施設位置予測を用いたメカニズム設計

Mechanism Design With Predictions for Obnoxious Facility Location ( http://arxiv.org/abs/2212.09521v1 )

ライセンス: Link先を確認
Gabriel Istrate, Cosmin Bonchis(参考訳) 施設立地問題に対する予測と共に機構設計について検討する。 本稿では,セグメント,正方形,円,木に対するロバスト性と一貫性のトレードオフを示す決定論的戦略防御機構を提案する。 これらのメカニズムは、実際には2つのエージェントの連立による操作が存在する正方形の場合を除いて、グループ戦略的である。 1次元の場合、これらのトレードオフが最適であることを示す。

We study mechanism design with predictions for the obnoxious facility location problem. We present deterministic strategyproof mechanisms that display tradeoffs between robustness and consistency on segments, squares, circles and trees. All these mechanisms are actually group strategyproof, with the exception of the case of squares, where manipulations from coalitions of two agents exist. We prove that these tradeoffs are optimal in the 1-dimensional case.
翻訳日:2022-12-20 18:43:56 公開日:2022-12-19
# スパース多変量機能成分分析のための準パラメトリック速度

Quasi-parametric rates for Sparse Multivariate Functional Principal Components Analysis ( http://arxiv.org/abs/2212.09434v1 )

ライセンス: Link先を確認
Ryad Belhakem(参考訳) 本研究の目的は,多変量確率過程の第一主成分を推定するための非漸近的結果を与えることである。 まず,多変量の場合の共分散関数と共分散作用素を定義する。 次に射影作用素を定義する。 この演算子は、機能データ分析コンテキストの生データからの再構成ステップと見なすことができる。 次に、最適化問題の解として固有要素を表現できることを示し、この最適化問題のLASSO変種と関連するプラグイン推定器を紹介する。 最後に,推定器の精度を評価する。 固有要素の平均平方形再構成誤差の最小値下限を定式化し、最小値の意味での最適分散が証明される。

This work aims to give non-asymptotic results for estimating the first principal component of a multivariate random process. We first define the covariance function and the covariance operator in the multivariate case. We then define a projection operator. This operator can be seen as a reconstruction step from the raw data in the functional data analysis context. Next, we show that the eigenelements can be expressed as the solution to an optimization problem, and we introduce the LASSO variant of this optimization problem and the associated plugin estimator. Finally, we assess the estimator's accuracy. We establish a minimax lower bound on the mean square reconstruction error of the eigenelement, which proves that the procedure has an optimal variance in the minimax sense.
翻訳日:2022-12-20 18:43:50 公開日:2022-12-19
# SegAugment: セグメンテーションによる音声翻訳データの有用性の最大化

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations ( http://arxiv.org/abs/2212.09699v1 )

ライセンス: Link先を確認
Ioannis Tsiamas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) データ不足は、カスケードされたものと比較して、音声翻訳のエンドツーエンドアプローチの大きな問題の1つです。 音声翻訳のためのほとんどのデータリソースはもともと文書レベルであるが、訓練中に直接使用できる文レベルビューを提供する。 しかし、この文レベルのビューは単一で静的であり、データの有用性を制限する可能性がある。 提案するデータ拡張手法は、データセットの複数の代替文レベルのビューを提供することで、データ可用性を向上させることを目的としている。 提案手法は,各文書の音声を再分割する音声分割システムに大きく依存しており,その後,アライメント方式でターゲットテキストを取得する。 オーディオセグメンテーションシステムは、異なる長さの制約でパラメータ化できるので、文書ごとに複数の多様な文レベルのビューにアクセスできます。 MuST-Cの実験では、8つの言語ペアで一貫したゲインを示し、平均2.2 BLEUポイントが増加し、mTEDxの低リソースシナリオでは4.7 BLEUまで増加した。 さらに、SegAugmentは、CoVoSTのように純粋に文レベルのデータにも適用可能であること、そして、推論時に金と自動セグメンテーションのギャップを完全に閉じることを可能にしている。

Data scarcity is one of the main issues with the end-to-end approach for Speech Translation, as compared to the cascaded one. Although most data resources for Speech Translation are originally document-level, they offer a sentence-level view, which can be directly used during training. But this sentence-level view is single and static, potentially limiting the utility of the data. Our proposed data augmentation method SegAugment challenges this idea and aims to increase data availability by providing multiple alternative sentence-level views of a dataset. Our method heavily relies on an Audio Segmentation system to re-segment the speech of each document, after which we obtain the target text with alignment methods. The Audio Segmentation system can be parameterized with different length constraints, thus giving us access to multiple and diverse sentence-level views for each document. Experiments in MuST-C show consistent gains across 8 language pairs, with an average increase of 2.2 BLEU points, and up to 4.7 BLEU for lower-resource scenarios in mTEDx. Additionally, we find that SegAugment is also applicable to purely sentence-level data, as in CoVoST, and that it enables Speech Translation models to completely close the gap between the gold and automatic segmentation at inference time.
翻訳日:2022-12-20 18:36:28 公開日:2022-12-19
# セグメンテーション能力マップ:医療画像セグメンテーションの深い特徴を解釈する

Segmentation Ability Map: Interpret deep features for medical image segmentation ( http://arxiv.org/abs/2212.09206v1 )

ライセンス: Link先を確認
Sheng He, Yanfang Feng, P. Ellen Grant, Yangming Ou(参考訳) 深層畳み込みニューラルネットワーク(CNN)は医用画像分割に広く利用されている。 多くの研究において、最終的なセグメンテーション結果を計算するために出力層のみを利用しており、深い学習特徴の隠れ表現はよく理解されていない。 本稿では,深部特徴量に基づく二分分割写像を計算するためのプロトタイプセグメンテーション(ProtoSeg)手法を提案する。 特徴分節マップと接地トラスの間のDiceを計算して特徴分節能力を計測し,その特徴分節能力スコア(略してSAスコア)と名づけた。 対応するsaスコアは、異なる層とユニットの深い特徴のセグメンテーション能力を定量化し、セグメンテーションのためのディープニューラルネットワークを理解する。 さらに,本手法は,地上構造を使わずに,テスト画像の出力性能を推定できる平均SAスコアを提供することができる。 最後に,提案手法を用いて,入力画像上のセグメントマップを直接計算し,各入力画像のセグメント化能力を更に理解する。 脳MRIの分節腫瘍,皮膚画像の病変,CT画像におけるCOVID関連異常,腹部MRIにおける前立腺の分節,CT画像における膵腫瘤の分節について検討した。 医用画像セグメンテーションのためのAIシステムの解釈と説明のための新しい知見を提供することができる。 私たちのコードは、下記のとおりです。

Deep convolutional neural networks (CNNs) have been widely used for medical image segmentation. In most studies, only the output layer is exploited to compute the final segmentation results and the hidden representations of the deep learned features have not been well understood. In this paper, we propose a prototype segmentation (ProtoSeg) method to compute a binary segmentation map based on deep features. We measure the segmentation abilities of the features by computing the Dice between the feature segmentation map and ground-truth, named as the segmentation ability score (SA score for short). The corresponding SA score can quantify the segmentation abilities of deep features in different layers and units to understand the deep neural networks for segmentation. In addition, our method can provide a mean SA score which can give a performance estimation of the output on the test images without ground-truth. Finally, we use the proposed ProtoSeg method to compute the segmentation map directly on input images to further understand the segmentation ability of each input image. Results are presented on segmenting tumors in brain MRI, lesions in skin images, COVID-related abnormality in CT images, prostate segmentation in abdominal MRI, and pancreatic mass segmentation in CT images. Our method can provide new insights for interpreting and explainable AI systems for medical image segmentation. Our code is available on: \url{https://github.com/shengfly/ProtoSeg}.
翻訳日:2022-12-20 18:34:07 公開日:2022-12-19
# 医用画像分割のためのfocal-unet: unet様焦点変調

Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation ( http://arxiv.org/abs/2212.09263v1 )

ライセンス: Link先を確認
MohammadReza Naderi, MohammadHossein Givkashi, Fatemeh Piri, Nader Karimi, Shadrokh Samavi(参考訳) 近年,変圧器ベースのU字型アーキテクチャの構築が試みられ,CNNベースのライバルよりも優れた新たな手法が提案されている。 しかし、予測マスクのブロック性やトリミングエッジといった深刻な問題は、トランスフォーマーのパッチ分割操作のために残っている。 本稿では,新たに導入された焦点変調機構を用いて,医用画像分割のための新しいu字型アーキテクチャを提案する。 提案アーキテクチャはエンコーダとデコーダの非対称深さを有する。 局所的な特徴とグローバルな特徴を集約する焦点モジュールの能力により、我々のモデルはトランスフォーマーの広い受容領域とCNNの局所的な視聴を同時に得ることができる。 これにより,提案手法は,swain-unetと呼ばれる最も強力なトランスフォーマー型u字型モデルに匹敵する,局所的およびグローバル的特徴量のバランスをとることができる。 我々はSynapseデータセットで1.68%高いDICEスコアと0.89のHDメトリックを達成した。 また、非常に限られたデータでは、NeoPolypデータセットでDICEスコアが4.25%高かった。 私たちの実装は、https://github.com/givkashi/Focal-UNetで利用可能です。

Recently, many attempts have been made to construct a transformer base U-shaped architecture, and new methods have been proposed that outperformed CNN-based rivals. However, serious problems such as blockiness and cropped edges in predicted masks remain because of transformers' patch partitioning operations. In this work, we propose a new U-shaped architecture for medical image segmentation with the help of the newly introduced focal modulation mechanism. The proposed architecture has asymmetric depths for the encoder and decoder. Due to the ability of the focal module to aggregate local and global features, our model could simultaneously benefit the wide receptive field of transformers and local viewing of CNNs. This helps the proposed method balance the local and global feature usage to outperform one of the most powerful transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp dataset. Our implementations are available at: https://github.com/givkashi/Focal-UNet
翻訳日:2022-12-20 18:33:42 公開日:2022-12-19
# 自己教師付き学習とバッチナレッジセンスリングによるcovid-19自動検出性能の向上

Boosting Automatic COVID-19 Detection Performance with Self-Supervised Learning and Batch Knowledge Ensembling ( http://arxiv.org/abs/2212.09281v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 背景と目的:新型コロナウイルス(COVID-19)とその変異体は世界中で200以上の国や地域で大きな混乱を引き起こし、数十億人の人々の健康と生活に影響を与えている。 胸部x線(cxr)画像からのcovid-19検出は、covid-19患者に共通する放射線性肺炎の出現以来、covid-19検出の最も迅速かつ簡単な方法の1つとなっている。 CXR画像を用いた新しい高精度な新型コロナウイルス検出法を提案する。 方法:本手法は2段階からなる。 1つは自己教師型学習であり、もう1つはバッチ知識に基づく微調整である。 自己教師付き学習に基づく事前学習は、手動のアノテートラベルなしでCXR画像から区別された表現を学習することができる。 一方、バッチ知識に基づく微調整では、視覚的特徴の類似性に応じて、バッチ内の画像のカテゴリ知識を利用して検出性能を向上させることができる。 これまでの実装と異なり、細調整フェーズにバッチ知識を導入し、自己教師付き学習で使用されるメモリを削減し、COVID-19検出精度を向上させる。 結果: 大規模データセットと非バランスデータセットの2つの公開CXRデータセットでは, 有望なCOVID-19検出性能を示した。 本手法は,注釈付きCXRトレーニング画像が大幅に削減された場合でも高い検出精度を維持する(例えば,元のデータセットの10%しか使用していない)。 また,本手法は過度パラメータの変化に敏感である。 結論: 提案手法は, 異なる状況下でのcovid-19検出方法よりも優れている。 医療提供者や放射線科医の作業量を削減できる。

Background and objective: COVID-19 and its variants have caused significant disruptions in over 200 countries and regions worldwide, affecting the health and lives of billions of people. Detecting COVID-19 from chest X-Ray (CXR) images has become one of the fastest and easiest methods for detecting COVID-19 since the common occurrence of radiological pneumonia findings in COVID-19 patients. We present a novel high-accuracy COVID-19 detection method that uses CXR images. Methods: Our method consists of two phases. One is self-supervised learning-based pertaining; the other is batch knowledge ensembling-based fine-tuning. Self-supervised learning-based pretraining can learn distinguished representations from CXR images without manually annotated labels. On the other hand, batch knowledge ensembling-based fine-tuning can utilize category knowledge of images in a batch according to their visual feature similarities to improve detection performance. Unlike our previous implementation, we introduce batch knowledge ensembling into the fine-tuning phase, reducing the memory used in self-supervised learning and improving COVID-19 detection accuracy. Results: On two public COVID-19 CXR datasets, namely, a large dataset and an unbalanced dataset, our method exhibited promising COVID-19 detection performance. Our method maintains high detection accuracy even when annotated CXR training images are reduced significantly (e.g., using only 10% of the original dataset). In addition, our method is insensitive to changes in hyperparameters. Conclusions: The proposed method outperforms other state-of-the-art COVID-19 detection methods in different settings. Our method can reduce the workloads of healthcare providers and radiologists.
翻訳日:2022-12-20 18:33:25 公開日:2022-12-19
# 高階論理への変換によるQMLTP問題の解法

Solving QMLTP Problems by Translation to Higher-order Logic ( http://arxiv.org/abs/2212.09570v1 )

ライセンス: Link先を確認
Alexander Steen, Geoff Sutcliffe, Tobias Glei{\ss}ner, Christoph Benzm\"uller(参考訳) 本稿では,一階モーダル論理問題のqmltpライブラリから取り出された問題に対する自動定理証明(atp)システムの評価について述べる。 主に、この問題は埋め込み手法を用いてTPTP言語の高階論理に変換され、高階論理ATPシステムを用いて解決される。 さらに, ネイティブなモーダル論理ATPシステムの結果を, 組込み方式と比較して検討した。 結論は i) 埋め込みプロセスは信頼性が高く成功している。 (II) バックエンドATPシステムの選択は, 組込み方式の性能に大きな影響を及ぼす可能性がある。 3) ネイティブなモーダル論理ATPシステムは埋め込みアプローチより優れている。 (4)埋め込み手法は、考慮されたネイティブなモーダルシステムよりも広い範囲のモーダル論理を扱うことができる。

This paper describes an evaluation of Automated Theorem Proving (ATP) systems on problems taken from the QMLTP library of first-order modal logic problems. Principally, the problems are translated to higher-order logic in the TPTP languages using an embedding approach, and solved using higher-order logic ATP systems. Additionally, the results from native modal logic ATP systems are considered, and compared with those from the embedding approach. The conclusions are that (i) The embedding process is reliable and successful. (ii) The choice of backend ATP system can significantly impact the performance of the embedding approach. (iii) Native modal logic ATP systems outperform the embedding approach. (iv) The embedding approach can cope with a wider range modal logics than the native modal systems considered.
翻訳日:2022-12-20 18:26:54 公開日:2022-12-19
# Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習

Query-as-context Pre-training for Dense Passage Retrieval ( http://arxiv.org/abs/2212.09598v1 )

ライセンス: Link先を確認
Xing Wu, Guangyuan Ma, Songlin Hu(参考訳) 本稿では,クエリ・アズ・コンテクストと呼ばれる事前学習手法を提案する。 これまでの研究は、文書拡張にクエリ予測を適用し、スパース検索における語彙ミスマッチの問題を緩和してきた。 しかし,厳密検索の文脈ではまだクエリ予測が研究されていない。 クエリ・アズ・コンテクストの事前トレーニングでは、予測クエリがドキュメントの特別なコンテキストであると仮定し、コントラスト学習やコンテキストマスク付き自動エンコーディング学習を使用してドキュメントとクエリを圧縮し、密度の高いベクトルにクエリする。 本手法は,大規模通路検索ベンチマークを用いて評価し,cocondenser や cot-mae などの既存の強力なベースラインと比較してかなり改善し,その効果を示す。 私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。

This paper presents a pre-training technique called query-as-context that uses query prediction to improve dense retrieval. Previous research has applied query prediction to document expansion in order to alleviate the problem of lexical mismatch in sparse retrieval. However, query prediction has not yet been studied in the context of dense retrieval. Query-as-context pre-training assumes that the predicted query is a special context for the document and uses contrastive learning or contextual masked auto-encoding learning to compress the document and query into dense vectors. The technique is evaluated on large-scale passage retrieval benchmarks and shows considerable improvements compared to existing strong baselines such as coCondenser and CoT-MAE, demonstrating its effectiveness. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
翻訳日:2022-12-20 18:26:45 公開日:2022-12-19
# グラディエントDescent型手法:背景と単純統一収束解析

Gradient Descent-Type Methods: Background and Simple Unified Convergence Analysis ( http://arxiv.org/abs/2212.09413v1 )

ライセンス: Link先を確認
Quoc Tran-Dinh, Marten van Dijk(参考訳) 本章では,勾配降下法を構成する主成分と,その加速・確率的変種について概説する。 理論的・実践的な側面を含む数学的観点からこれらの構成要素を説明することを目的としている。 本稿では,勾配降下法の基本変種に着目し,近年の変種,特に分散還元確率勾配スキーム(SGD)への展望を拡大する。 我々のアプローチは、問題の内部で提示される構造と目的関数に課される仮定を明らかにすることに依存している。 我々の収束解析はいくつかの既知の結果を統一し、一般的な、しかし初歩的な再帰的な表現に依存している。 我々は、この分析をいくつかの共通スキームで示した。

In this book chapter, we briefly describe the main components that constitute the gradient descent method and its accelerated and stochastic variants. We aim at explaining these components from a mathematical point of view, including theoretical and practical aspects, but at an elementary level. We will focus on basic variants of the gradient descent method and then extend our view to recent variants, especially variance-reduced stochastic gradient schemes (SGD). Our approach relies on revealing the structures presented inside the problem and the assumptions imposed on the objective function. Our convergence analysis unifies several known results and relies on a general, but elementary recursive expression. We have illustrated this analysis on several common schemes.
翻訳日:2022-12-20 18:26:11 公開日:2022-12-19
# プロキシによる最適個別意思決定

Optimal Individualized Decision-Making with Proxies ( http://arxiv.org/abs/2212.09494v1 )

ライセンス: Link先を確認
Tao Shen, Yifan Cui(参考訳) 政策立案者が因果推論を引き合いに出し、観測データから決定を下す場合の一般的な懸念は、測定された共変量体は、すべての共変量体、すなわち標準の結束性の仮定が成り立たないことを考慮できないことである。 最近提案された近位因果推論フレームワークは、プロキシ変数を利用して因果効果を特定し、意思決定を容易にすることができることを示している。 そこで本研究では, いわゆる結果誘導・治療誘導複合橋を基盤とした, 最適な個別化治療体制を提案する。 以上の結果から,この新しい最適治療体制の価値関数は文献上既存のものよりも優れていることが示された。 推定された体制の識別、優越性、過剰な価値境界を含む理論的保証が確立される。 さらに,提案手法を数値実験により実証し,実データに適用する。

A common concern when a policy-maker draws causal inferences and makes decisions from observational data is that the measured covariates are insufficiently rich to account for all sources of confounding, i.e., the standard no confoundedness assumption fails to hold. The recently proposed proximal causal inference framework shows that proxy variables can be leveraged to identify causal effects and therefore facilitate decision-making. Building upon this line of work, we propose a novel optimal individualized treatment regime based on so-called outcome-inducing and treatment-inducing confounding bridges. We then show that the value function of this new optimal treatment regime is superior to that of existing ones in the literature. Theoretical guarantees, including identification, superiority, and excess value bound of the estimated regime, are established. Moreover, we demonstrate the proposed optimal regime via numerical experiments and a real data application.
翻訳日:2022-12-20 18:25:59 公開日:2022-12-19
# WACO:音声翻訳のための単語対応コントラスト学習

WACO: Word-Aligned Contrastive Learning for Speech Translation ( http://arxiv.org/abs/2212.09359v1 )

ライセンス: Link先を確認
Siqi Ouyang, Rong Ye, Lei Li(参考訳) エンドツーエンド音声翻訳(e2e st)は、中間転写を発生させることなく、ソース音声をターゲット翻訳に翻訳することを目的としている。 しかし、既存のE2E STのアプローチは、限られたSTデータしか利用できない場合に大幅に低下する。 また,STモデルの性能は,音声やテキストからの埋め込み類似性と強く相関している。 本稿では,音声からテキストへ翻訳する新しい手法である単語適応型言語学習(WACO)を提案する。 私たちの重要なアイデアは、コントラスト学習を通じて両方のモダリティの単語レベルの表現を橋渡しすることです。 我々は、広く使われているSTベンチマークである MuST-C データセット上で、WACO や他の手法を評価する。 実験により,wacoは1時間並列データで0.7-8.5 bleuポイントの最高ベースラインメソッドを上回った。 コードはhttps://anonymous.4open.science/r/wacoで入手できる。

End-to-end Speech Translation (E2E ST) aims to translate source speech into target translation without generating the intermediate transcript. However, existing approaches for E2E ST degrade considerably when only limited ST data are available. We observe that an ST model's performance strongly correlates with its embedding similarity from speech and transcript. In this paper, we propose Word-Aligned COntrastive learning (WACO), a novel method for few-shot speech-to-text translation. Our key idea is bridging word-level representations for both modalities via contrastive learning. We evaluate WACO and other methods on the MuST-C dataset, a widely used ST benchmark. Our experiments demonstrate that WACO outperforms the best baseline methods by 0.7-8.5 BLEU points with only 1-hour parallel data. Code is available at https://anonymous.4open.science/r/WACO .
翻訳日:2022-12-20 18:24:35 公開日:2022-12-19
# Mu$^{2}$SLAM:マルチタスク、多言語音声、言語モデル

Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models ( http://arxiv.org/abs/2212.09553v1 )

ライセンス: Link先を確認
Yong Cheng, Yu Zhang, Melvin Johnson, Wolfgang Macherey, Ankur Bapna(参考訳) 自動音声認識(asr)、自動音声翻訳(ast)、機械翻訳(mt)にまたがる教師付きデータとラベルなし音声とラベルなしテキストを100以上の言語で事前学習した多言語系列対シーケンスモデルであるmu$^{2}$slamを提案する。 Mu$^{2}$SLAM は、ターゲットとして音声の量子化表現を活用することにより、デコーダ上の T5 に類似したシークエンスとエンコーダ上のマスク付き言語モデリング(MLM)の目的で音声テキストモデルを訓練し、教師付きタスクを活用して、モデル内の言語間およびモーダル間の表現アライメントを改善する。 CoVoST ASTでは、Mu$^{2}$SLAMが、公開データセットでトレーニングされたモデルの新たな最先端性を確立し、xx-en翻訳を1.9 BLEUポイント、en-xx翻訳を1.1 BLEUポイントで改善した。 voxpopuli asrでは,sequence-to-sequenceアーキテクチャが比較的弱いにもかかわらず,rnn-tデコーダで微調整されたmslamモデルの性能に適合する。 テキスト理解タスクでは、XNLI上のmSLAMよりも6\%以上向上し、XNLIとTydiQAで同等の能力を持つmT5モデルの性能に近づき、すべての音声およびテキスト理解タスクの単一モデルへの道を開いた。

We present Mu$^{2}$SLAM, a multilingual sequence-to-sequence model pre-trained jointly on unlabeled speech, unlabeled text and supervised data spanning Automatic Speech Recognition (ASR), Automatic Speech Translation (AST) and Machine Translation (MT), in over 100 languages. By leveraging a quantized representation of speech as a target, Mu$^{2}$SLAM trains the speech-text models with a sequence-to-sequence masked denoising objective similar to T5 on the decoder and a masked language modeling (MLM) objective on the encoder, for both unlabeled speech and text, while utilizing the supervised tasks to improve cross-lingual and cross-modal representation alignment within the model. On CoVoST AST, Mu$^{2}$SLAM establishes a new state-of-the-art for models trained on public datasets, improving on xx-en translation over the previous best by 1.9 BLEU points and on en-xx translation by 1.1 BLEU points. On Voxpopuli ASR, our model matches the performance of an mSLAM model fine-tuned with an RNN-T decoder, despite using a relatively weaker sequence-to-sequence architecture. On text understanding tasks, our model improves by more than 6\% over mSLAM on XNLI, getting closer to the performance of mT5 models of comparable capacity on XNLI and TydiQA, paving the way towards a single model for all speech and text understanding tasks.
翻訳日:2022-12-20 18:24:12 公開日:2022-12-19
# XEngine: 異種環境におけるニューラルネットワークのための最適テンソルリマテリアル化

XEngine: Optimal Tensor Rematerialization for Neural Networks in Heterogeneous Environments ( http://arxiv.org/abs/2212.09290v1 )

ライセンス: Link先を確認
Manuela Schuler, Richard Membarth, Philipp Slusallek(参考訳) メモリ効率は、リソース制限されたデバイス上でのディープラーニングネットワークのトレーニングに不可欠である。 バックプロパゲーションの間、前方テンソルは勾配を計算するために用いられる。 これらの依存関係をバックプロパゲーションで再利用するまでメモリに保持するオプションがあるが、いくつかの前方テンソルは後に保存されたテンソル、いわゆるチェックポイントから破棄して再計算することができる。 これにより、リソースに制約のある異種環境において、利用可能なすべての計算デバイスを利用できる。 残念なことに、これらのチェックポイントの定義は非自明な問題であり、プログラマにとって課題となる。 本稿では,テンソルのチェックポイントと再計算によって,ネットワーク演算子を低メモリ環境における異種デバイスにスケジュールするXEngineを提案する。 提案手法は時間ステップと演算子毎に適切なリソースを選択し,各デバイスのメモリ制限を考慮したニューラルネットワークのエンドツーエンド時間を最適化する。 そこで我々は、混合整数二次プログラム(MIQP)を定式化し、ヘテロジニアスシステム上でディープラーニングネットワークの演算子をスケジューリングする。 当社のmiqpソルバxengineと,単一デバイスで再計算を行うmilp(mixed-integer linear programming)アプローチであるcheckmateを比較した。 我々の解法は、ネットワークが単一のデバイスでのみ計算される最速のCheckmateスケジュールよりも最大2.5%高速なソリューションを見つける。 また,メモリ制限がグラフィックス処理ユニットのみのスケジューリングを許さない場合,中央処理ユニットとグラフィック処理ユニットの両方を利用するネットワークの有効なスケジュールも見出す。

Memory efficiency is crucial in training deep learning networks on resource-restricted devices. During backpropagation, forward tensors are used to calculate gradients. Despite the option of keeping those dependencies in memory until they are reused in backpropagation, some forward tensors can be discarded and recomputed later from saved tensors, so-called checkpoints. This allows, in particular, for resource-constrained heterogeneous environments to make use of all available compute devices. Unfortunately, the definition of these checkpoints is a non-trivial problem and poses a challenge to the programmer - improper or excessive recomputations negate the benefit of checkpointing. In this article, we present XEngine, an approach that schedules network operators to heterogeneous devices in low memory environments by determining checkpoints and recomputations of tensors. Our approach selects suitable resources per timestep and operator and optimizes the end-to-end time for neural networks taking the memory limitation of each device into account. For this, we formulate a mixed-integer quadratic program (MIQP) to schedule operators of deep learning networks on heterogeneous systems. We compare our MIQP solver XEngine against Checkmate, a mixed-integer linear programming (MILP) approach that solves recomputation on a single device. Our solver finds solutions that are up to 22.5 % faster than the fastest Checkmate schedule in which the network is computed exclusively on a single device. We also find valid schedules for networks making use of both central processing units and graphics processing units if memory limitations do not allow scheduling exclusively to the graphics processing unit.
翻訳日:2022-12-20 18:17:44 公開日:2022-12-19
# マルチステップマルチアプライアンス負荷予測

Multistep Multiappliance Load Prediction ( http://arxiv.org/abs/2212.09426v1 )

ライセンス: Link先を確認
Alona Zharova and Antonia Scherz(参考訳) エネルギー効率のよい消費者行動に対する行動を提案する推薦システムには,良好な予測モデルが不可欠である。 しかし、信頼性と正確な予測は、様々な家庭や家電で良好かつ堅牢に機能する、情報的特徴と適切なモデル設計に依存する。 さらに、正確な予測に対する顧客の不当な高い期待は、長期的にシステムの使用を妨げかねない。 本稿では,24時間負荷値を予測するために,予測可能性,工学的特徴,ディープラーニングアーキテクチャを評価する3段階予測フレームワークを設計する。 まず、予測可能性分析は、顧客予想を緩めるための期待管理ツールを提供する。 第2に,モデリング手順のための気象・時刻・家電関連パラメータをいくつか設計し,そのモデル予測性能への寄与を検証した。 第3に,6つのディープラーニング手法をツリーと比較し,ベクトル回帰ベンチマークをサポートする。 同一のアプライアンスセットを持つ4つの地域(米国、イギリス、オーストリア、カナダ)の4つのデータセットに基づいて、アプライアンスレベルの負荷予測のための堅牢で正確なモデルを構築した。 実験結果から,長期記憶(LSTM)モデルと並行して,時間特性と気象指標の循環的符号化が最適性能を示すことが示された。

A well-performing prediction model is vital for a recommendation system suggesting actions for energy-efficient consumer behavior. However, reliable and accurate predictions depend on informative features and a suitable model design to perform well and robustly across different households and appliances. Moreover, customers' unjustifiably high expectations of accurate predictions may discourage them from using the system in the long term. In this paper, we design a three-step forecasting framework to assess predictability, engineering features, and deep learning architectures to forecast 24 hourly load values. First, our predictability analysis provides a tool for expectation management to cushion customers' anticipations. Second, we design several new weather-, time- and appliance-related parameters for the modeling procedure and test their contribution to the model's prediction performance. Third, we examine six deep learning techniques and compare them to tree- and support vector regression benchmarks. We develop a robust and accurate model for the appliance-level load prediction based on four datasets from four different regions (US, UK, Austria, and Canada) with an equal set of appliances. The empirical results show that cyclical encoding of time features and weather indicators alongside a long-short term memory (LSTM) model offer the optimal performance.
翻訳日:2022-12-20 18:17:18 公開日:2022-12-19
# FedTADBench: フェデレーション付き時系列異常検出ベンチマーク

FedTADBench: Federated Time-Series Anomaly Detection Benchmark ( http://arxiv.org/abs/2212.09518v1 )

ライセンス: Link先を確認
Fanxing Liu, Cheng Zeng, Le Zhang, Yingjie Zhou, Qing Mu, Yanru Zhang, Ling Zhang, Ce Zhu(参考訳) 時系列異常検出は、時間的データから潜在的な異常な振る舞いやパターンを明らかにし、多様なアプリケーションシナリオにおいて根本的な重要性を持つ。 効果的な検出モデルを構築するには、通常、十分なトレーニングデータを集中的に保存する必要があるが、現実的なシナリオでは、この要件を満たすことができない場合もある。 上記の問題に対処するための一般的なアプローチとして、フェデレートドラーニングは、データプロバイダのプライバシを保護しながら、利用可能な分散データに協力する能力を示した。 しかし、既存の時系列異常検出アルゴリズムが分散データストレージとフェデレート学習によるプライバシ保護でどのように機能するかは、まだ不明である。 そこで我々は,FedTADBenchという,5つの代表的な時系列異常検出アルゴリズムと4つの一般的なフェデレーション学習手法を含む,連合時系列異常検出ベンチマークを実施している。 1) 連帯学習のミーティングにおける時系列異常検出アルゴリズムの性能はどのように向上するか? 2) 時系列異常検出に最も適したフェデレーション学習手法は何か? 3)フェデレーション時系列異常検出手法は,クライアント内のデータ分割にどのように作用するか? 各種設定による広範囲な実験から,結果の数と解析結果が提供される。 ベンチマークのソースコードはhttps://github.com/fanxingliu2020/FedTADBench.comで公開されています。

Time series anomaly detection strives to uncover potential abnormal behaviors and patterns from temporal data, and has fundamental significance in diverse application scenarios. Constructing an effective detection model usually requires adequate training data stored in a centralized manner, however, this requirement sometimes could not be satisfied in realistic scenarios. As a prevailing approach to address the above problem, federated learning has demonstrated its power to cooperate with the distributed data available while protecting the privacy of data providers. However, it is still unclear that how existing time series anomaly detection algorithms perform with decentralized data storage and privacy protection through federated learning. To study this, we conduct a federated time series anomaly detection benchmark, named FedTADBench, which involves five representative time series anomaly detection algorithms and four popular federated learning methods. We would like to answer the following questions: (1)How is the performance of time series anomaly detection algorithms when meeting federated learning? (2) Which federated learning method is the most appropriate one for time series anomaly detection? (3) How do federated time series anomaly detection approaches perform on different partitions of data in clients? Numbers of results as well as corresponding analysis are provided from extensive experiments with various settings. The source code of our benchmark is publicly available at https://github.com/fanxingliu2020/FedTADBench.
翻訳日:2022-12-20 18:17:01 公開日:2022-12-19
# ポジティブインセンティブノイズ

Positive-incentive Noise ( http://arxiv.org/abs/2212.09541v1 )

ライセンス: Link先を確認
Xuelong Li(参考訳) 騒音は様々な分野、例えば工学や学習システムにおいて深刻な問題と見なされている。 しかし,本論文は従来の提案が常に成り立つかどうかを検討することを目的としている。 それは、情報エントロピーから拡張され、タスクの複雑さを測定するタスクエントロピーの定義から始まります。 タスクエントロピーを導入すると、ノイズがタスクの複雑さを減少させるかどうかに応じて、正のインセンティブノイズ(pi-noiseまたは$\pi$-noise)と純粋ノイズの2種類に分類できる。 興味深いことに、理論的および経験的に示されるように、単純なランダムノイズでさえ、タスクを単純化する$\pi$-noiseである。 $\pi$-noiseは、いくつかのモデルに新しい説明を提供し、マルチタスク学習や逆トレーニングなど、いくつかの分野に新しい原則を提供する。 さらに、騒音の調査を再考することを思い出させる。

Noise is conventionally viewed as a severe problem in diverse fields, e.g., engineering, learning systems. However, this paper aims to investigate whether the conventional proposition always holds. It begins with the definition of task entropy, which extends from the information entropy and measures the complexity of the task. After introducing the task entropy, the noise can be classified into two kinds, Positive-incentive noise (Pi-noise or $\pi$-noise) and pure noise, according to whether the noise can reduce the complexity of the task. Interestingly, as shown theoretically and empirically, even the simple random noise can be the $\pi$-noise that simplifies the task. $\pi$-noise offers new explanations for some models and provides a new principle for some fields, such as multi-task learning, adversarial training, etc. Moreover, it reminds us to rethink the investigation of noises.
翻訳日:2022-12-20 18:16:39 公開日:2022-12-19
# 動的システムの不安定性の起源を明らかにする:注意機構はどのように役立つのか?

Uncovering the Origins of Instability in Dynamical Systems: How Attention Mechanism Can Help? ( http://arxiv.org/abs/2212.09641v1 )

ライセンス: Link先を確認
Nooshin Bahador, Milad Lankarany(参考訳) ネットワークの挙動とその安定性は、個々のノードのダイナミクスとトポロジカルな相互接続の両方によって制御される。 ニューラルネットワークモデルの不可欠な部分としてのアテンション機構は、もともと自然言語処理(nlp)のために設計され、これまでのところ、個々のノードのダイナミクスとネットワーク内のそれらの間の結合強度の組み合わせにおいて優れた性能を示している。 注意機構の影響は疑いないが、ネットワークの一部のノードが注意重みを負う理由はまだ明らかではない。 より説明可能なソリューションを考え出すために、安定性の観点から問題を考察しようとした。 安定性理論に基づいて、ネットワーク内の負の接続は、情報を反対方向に流れることによってフィードバックループや他の複雑な構造を作ることができる。 これらの構造は複雑な系のダイナミクスにおいて重要な役割を担っており、異常な同期、増幅、抑制に寄与する。 このような構造の組織化に関与しているノードは、ネットワーク全体を不安定モードにし、分析中に注意を払う必要があると仮定した。 この仮説を検証するために,実世界の数値問題,すなわち圧電管アクチュエータの線形多入力状態空間モデルにおいて,スペクトル・位相安定性解析とともに注意機構が適用された。 本研究は、ネットワーク内の不均衡構造と極性駆動構造不安定性の集合的挙動に注意を向けるべきであることを示す。 その結果, ノードがより注意を惹きつけると, システムの不安定性が増すことが示された。 本研究は,ネットワークのノードの摂動がネットワーク力学に劇的な変化をもたらす理由を理解するための概念実証である。

The behavior of the network and its stability are governed by both dynamics of individual nodes as well as their topological interconnections. Attention mechanism as an integral part of neural network models was initially designed for natural language processing (NLP), and so far, has shown excellent performance in combining dynamics of individual nodes and the coupling strengths between them within a network. Despite undoubted impact of attention mechanism, it is not yet clear why some nodes of a network get higher attention weights. To come up with more explainable solutions, we tried to look at the problem from stability perspective. Based on stability theory, negative connections in a network can create feedback loops or other complex structures by allowing information to flow in the opposite direction. These structures play a critical role in the dynamics of a complex system and can contribute to abnormal synchronization, amplification, or suppression. We hypothesized that those nodes that are involved in organizing such structures can push the entire network into instability modes and therefore need higher attention during analysis. To test this hypothesis, attention mechanism along with spectral and topological stability analyses was performed on a real-world numerical problem, i.e., a linear Multi Input Multi Output state-space model of a piezoelectric tube actuator. The findings of our study suggest that the attention should be directed toward the collective behaviour of imbalanced structures and polarity-driven structural instabilities within the network. The results demonstrated that the nodes receiving more attention cause more instability in the system. Our study provides a proof of concept to understand why perturbing some nodes of a network may cause dramatic changes in the network dynamics.
翻訳日:2022-12-20 18:16:25 公開日:2022-12-19
# 非専門家に分類を説明する: 専門家不足時の分類者のためのポストホック説明のXAIユーザスタディ

Explaining Classifications to Non Experts: An XAI User Study of Post Hoc Explanations for a Classifier When People Lack Expertise ( http://arxiv.org/abs/2212.09342v1 )

ライセンス: Link先を確認
Courtney Ford and Mark T Keane(参考訳) 非常に少数のeXplainable AI(XAI)研究は、ユーザが説明すべきドメインについて多かれ少なかれ知っているかどうか(専門知識が異なるかどうか)に応じて、説明に対する理解がどのように変化するかを考察している。 しかし、専門知識は、人間の意思決定(例えば、研修医が経験豊富なコンサルタントとどのように違うかを理解すること)において、ほとんどの高い利害関係の重要な側面である。 そこで本論文では,ドメイン内の人々の専門知識が,例えば深層学習のブラックボックス分類器によるポストホック説明の理解にどのように影響するかに関する,ユーザスタディ(N=96)を報告する。 その結果、画像ベースドメインが慣れ親しんだ(MNIST)場合、複数の次元(応答時間、正当性、有用性の知覚など)において、不慣れな(MNIST)とは対照的に、正誤分類の説明に対する理解が劇的に変化することが明らかとなった。 これらの新たな発見がXAI戦略に与える影響について論じる。

Very few eXplainable AI (XAI) studies consider how users understanding of explanations might change depending on whether they know more or less about the to be explained domain (i.e., whether they differ in their expertise). Yet, expertise is a critical facet of most high stakes, human decision making (e.g., understanding how a trainee doctor differs from an experienced consultant). Accordingly, this paper reports a novel, user study (N=96) on how peoples expertise in a domain affects their understanding of post-hoc explanations by example for a deep-learning, black box classifier. The results show that peoples understanding of explanations for correct and incorrect classifications changes dramatically, on several dimensions (e.g., response times, perceptions of correctness and helpfulness), when the image-based domain considered is familiar (i.e., MNIST) as opposed to unfamiliar (i.e., Kannada MNIST). The wider implications of these new findings for XAI strategies are discussed.
翻訳日:2022-12-20 18:15:42 公開日:2022-12-19
# 高速収束型モデルカウント

Fast Converging Anytime Model Counting ( http://arxiv.org/abs/2212.09390v1 )

ライセンス: Link先を確認
Yong Lai, Kuldeep S. Meel, Roland H. C. Yap(参考訳) モデルカウントは、人工知能から正式な検証に至るまで、多くのアプリケーションに影響を及ぼす根本的な問題である。 モデルカウントの固有硬度から,実世界のモデルカウントの解法として近似手法が開発されている。 本稿では、近似モデルカウントのための新しい時限アプローチであるPartialKCを設計する。 このアイデアは部分的知識コンパイルの一形態であり、正確な数に収束するモデルカウントの偏りのない見積もりを提供する。 実験により, サースやSTSを含む従来の近似カウンタよりも高いスケーラビリティと精度を実現することを示す。 興味深いことに、経験的な結果から、partmentkcは多くのインスタンスで収束し、そのため最先端の厳密なカウンタに匹敵する正確なモデルカウントパフォーマンスを提供する。

Model counting is a fundamental problem which has been influential in many applications, from artificial intelligence to formal verification. Due to the intrinsic hardness of model counting, approximate techniques have been developed to solve real-world instances of model counting. This paper designs a new anytime approach called PartialKC for approximate model counting. The idea is a form of partial knowledge compilation to provide an unbiased estimate of the model count which can converge to the exact count. Our empirical analysis demonstrates that PartialKC achieves significant scalability and accuracy over prior state-of-the-art approximate counters, including satss and STS. Interestingly, the empirical results show that PartialKC reaches convergence for many instances and therefore provides exact model counting performance comparable to state-of-the-art exact counters.
翻訳日:2022-12-20 18:15:23 公開日:2022-12-19
# プロジェクト駆動競争に基づくソフトウェア工学科大学院生のための多段階フィードバック指導モードの検討

Exploring a multi_stage feedback teaching mode for graduate students of software engineering discipline based on project_driven competition ( http://arxiv.org/abs/2212.09394v1 )

ライセンス: Link先を確認
Xiangdong Pei, Rui Zhang(参考訳) 大学院ソフトウェア工学講座における理論指向・実践光の現在の問題とイノベーション能力の欠如を鑑みて,コンペティションプロジェクト主導のソフトウェア工学生を対象とした多段階フィードバック学習モードを提案する。 このモデルはコンペティションプロジェクトによって推進され、ソフトウェア工学コースのタスクと能力育成、競合事例設計、プロセス評価改善の段階的な割り当てという観点で実装提案がなされる。 この教育の実施を通じて、学生の熱意とイニシアチブが刺激されることが期待され、ソフトウェア工学の技術人材の社会の要求を満たすために、学生の専門的スキルと理解能力の全体的な開発が改善される。

Aiming at the current problems of theory-oriented,practice-light,and lack of innovation ability in the teaching of postgraduate software engineering courses,a multi-stage feedback teaching mode for software engineering postgraduates based on competition project_driven is proposed. The model is driven by the competition project,and implementing suggestions are given in terms of stage allocation of software engineering course tasks and ability cultivation,competition case design and process evaluation improvement,etc. Through the implementation of this teaching mode,students enthusiasm and initiative are expected to be stimulated,and the overall development of students professional skills and comprehension ability would be improved to meet the demand of society for software engineering technical talents.
翻訳日:2022-12-20 18:15:08 公開日:2022-12-19
# 視覚言語事前学習のための位置案内テキストプロンプト

Position-guided Text Prompt for Vision-Language Pre-training ( http://arxiv.org/abs/2212.09737v1 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Pan Zhou, Mike Zheng Shou, Shuicheng Yan(参考訳) Vision-Language Pre-Training (VLP)は、画像とテキストのペアをコーディネートする有望な機能を示し、多種多様なクロスモーダル学習タスクを促進している。 しかし,VLPモデルには,視覚的推論などの下流タスクにおいて重要な視覚的接地/局所化機能が欠如している場合が多い。 本稿では,VLPで学習したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,PTP(Pight-Guided Text Prompt)パラダイムを提案する。 具体的には、VLPフェーズにおいて、PTPはイメージを$N\times N$ブロックに分割し、VLPで広く使用されているオブジェクト検出器を通して各ブロック内のオブジェクトを識別する。 次に、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロック(例えば、aPTP ``The block P has a O)に「P」や「`O」を埋めるなど)を回帰させることで、PTPが与えられた視覚的接地タスクを埋めるブランク問題に再構成する。 このメカニズムにより、VLPモデルの視覚的接地能力が向上し、様々な下流タスクをよりよく処理するのに役立つ。 いくつかの最先端のVLPフレームワークにPTPを導入することで、代表的なクロスモーダル学習モデルアーキテクチャと、VLTのゼロショットFlickr30K Retrieval (+4.8 in average recall@1)、SOTAのBLIP \cite{blip}ベースラインのCOCO Captioning (+5.3 in CIDEr)など、いくつかのベンチマークを一貫して改善する。 さらに、PTPはオブジェクト検出をベースとした手法と同等の結果を得ることができ、PTPはオブジェクト検出を中止し、後者は不可能である。 私たちのコードとトレーニング済みのウェイトは、 \url{https://github.com/sail-sg/ptp}でリリースされます。

Vision-Language Pre-Training (VLP) has shown promising capabilities to align image and text pairs, facilitating a broad variety of cross-modal learning tasks. However, we observe that VLP models often lack the visual grounding/localization capability which is critical for many downstream tasks such as visual reasoning. In this work, we propose a novel Position-guided Text Prompt (PTP) paradigm to enhance the visual grounding ability of cross-modal models trained with VLP. Specifically, in the VLP phase, PTP divides the image into $N\times N$ blocks, and identifies the objects in each block through the widely used object detector in VLP. It then reformulates the visual grounding task into a fill-in-the-blank problem given a PTP by encouraging the model to predict the objects in the given blocks or regress the blocks of a given object, e.g. filling `P" or ``O" in aPTP ``The block P has a O". This mechanism improves the visual grounding capability of VLP models and thus helps them better handle various downstream tasks. By introducing PTP into several state-of-the-art VLP frameworks, we observe consistently significant improvements across representative cross-modal learning model architectures and several benchmarks, e.g. zero-shot Flickr30K Retrieval (+4.8 in average recall@1) for ViLT \cite{vilt} baseline, and COCO Captioning (+5.3 in CIDEr) for SOTA BLIP \cite{blip} baseline. Moreover, PTP achieves comparable results with object-detector based methods, and much faster inference speed since PTP discards its object detector for inference while the later cannot. Our code and pre-trained weight will be released at \url{https://github.com/sail-sg/ptp}.
翻訳日:2022-12-20 18:01:02 公開日:2022-12-19
# 対話型データサイエンスノートブックにおける自然言語からコード生成

Natural Language to Code Generation in Interactive Data Science Notebooks ( http://arxiv.org/abs/2212.09248v1 )

ライセンス: Link先を確認
Pengcheng Yin, Wen-Ding Li, Kefan Xiao, Abhishek Rao, Yeming Wen, Kensen Shi, Joshua Howland, Paige Bailey, Michele Catasta, Henryk Michalewski, Alex Polozov, Charles Sutton(参考訳) jupyter notebooksのような計算ノートブックは、データサイエンティストがデータラングリングや分析タスクを実行するためにユビキタスなインタラクティブなコンピューティング環境である。 ユーザから与えられた自然言語(NL)目的のタスクを自動的に合成するAIペアプログラマのパフォーマンスを測定するために,データサイエンスノートブックのパンダスデータ分析フレームワークを用いて,1082のコード生成問題のベンチマークであるARCADEを構築した。 ARCADEは、同じノートブックから複数のNL-to-code問題に対処する。 既存のノートブックセルやその実行状態といったリッチなマルチモーダルなコンテキストや、以前の対話の変遷を理解するモデルが必要である。 この課題に対する強力なベースラインを確立するために、我々は、python計算ノートブック用の62bのコード言語モデル(lm)であるpachincoを開発しました。 最後に,ステップバイステップの分解とnlによる説明によってよりよいコードを導出する,少数のプロンプト戦略を検討し,モデル予測の多様性と説明可能性を改善する可能性を示す。

Computational notebooks, such as Jupyter notebooks, are interactive computing environments that are ubiquitous among data scientists to perform data wrangling and analytic tasks. To measure the performance of AI pair programmers that automatically synthesize programs for those tasks given natural language (NL) intents from users, we build ARCADE, a benchmark of 1082 code generation problems using the pandas data analysis framework in data science notebooks. ARCADE features multiple rounds of NL-to-code problems from the same notebook. It requires a model to understand rich multi-modal contexts, such as existing notebook cells and their execution states as well as previous turns of interaction. To establish a strong baseline on this challenging task, we develop PaChiNCo, a 62B code language model (LM) for Python computational notebooks, which significantly outperforms public code LMs. Finally, we explore few-shot prompting strategies to elicit better code with step-by-step decomposition and NL explanation, showing the potential to improve the diversity and explainability of model predictions.
翻訳日:2022-12-20 17:59:26 公開日:2022-12-19
# Visconde: GPT-3とニューラルネットワークによるマルチドキュメントQA

Visconde: Multi-document QA with GPT-3 and Neural Reranking ( http://arxiv.org/abs/2212.09656v1 )

ライセンス: Link先を確認
Jayr Pereira, Robson Fidalgo, Roberto Lotufo, Rodrigo Nogueira(参考訳) 本稿では,複数の(潜在的に長い)文書に支持証拠が分散している質問応答システムを提案する。 viscondeと呼ばれるこのシステムは、3段階のパイプラインを使ってタスクを実行している。 最初のステップは、少数の大規模言語モデル(llm)を使用して、質問を単純な質問に分解する。 そして、最先端検索エンジンを用いて、分解された各質問に対して、大集合から候補通路を検索する。 最後のステップでは、LLMをいくつかのショット設定で使用して、パスの内容を最終回答に集約します。 このシステムは、IIRC、Qasper、StrategyQAの3つのデータセットで評価されている。 その結果,現在のリトリバーが主なボトルネックであり,関連するパスが提供される限り,読者はすでに人間レベルでの作業を行っていることが示唆された。 また、モデルが質問に答える前に説明を与えるように誘導されると、システムはより効果的であることが示される。 コードは \url{https://github.com/neuralmind-ai/visconde} で入手できる。

This paper proposes a question-answering system that can answer questions whose supporting evidence is spread over multiple (potentially long) documents. The system, called Visconde, uses a three-step pipeline to perform the task: decompose, retrieve, and aggregate. The first step decomposes the question into simpler questions using a few-shot large language model (LLM). Then, a state-of-the-art search engine is used to retrieve candidate passages from a large collection for each decomposed question. In the final step, we use the LLM in a few-shot setting to aggregate the contents of the passages into the final answer. The system is evaluated on three datasets: IIRC, Qasper, and StrategyQA. Results suggest that current retrievers are the main bottleneck and that readers are already performing at the human level as long as relevant passages are provided. The system is also shown to be more effective when the model is induced to give explanations before answering a question. Code is available at \url{https://github.com/neuralmind-ai/visconde}.
翻訳日:2022-12-20 17:59:07 公開日:2022-12-19
# 門番としての言葉 : 学術出版における専門用語と意味の測定

Words as Gatekeepers: Measuring Discipline-specific Terms and Meanings in Scholarly Publications ( http://arxiv.org/abs/2212.09676v1 )

ライセンス: Link先を確認
Li Lucy, Jesse Dodge, David Bamman, Katherine A. Keith(参考訳) 学術的なテキストはしばしば、規律を分割する専門的な言語であるジャーゴン(jargon)で語られる。 BERTをベースとした単語感覚誘導法を用いて,各分野にまたがる多用性に富んだ追加語を見つけることで,語型レベルで科学を特徴付ける過去の研究を拡張した。 我々は学術用語を規律固有の単語タイプと感覚として定義し,解釈可能な情報理論的指標を用いて数百分野にわたってその頻度を推定する。 我々は,科学および計算社会言語学における我々のアプローチの有用性を,二つの重要な社会的意味を浮き彫りにすることで実証する。 まず、オーディエンスデザインを計測し、ほとんどの分野が汎用雑誌の出版時のジャーゴンを減少させるが、他の分野よりも多くのことをするものもある。 第二に、ジャーゴンは分野内の記事の引用率と異なる相関関係を持つが、ほぼ常に学際的影響を阻害する。 広くは、我々の測定は、科学の障壁ではなく、橋として言語を改定する方法を知ることができる。

Scholarly text is often laden with jargon, or specialized language that divides disciplines. We extend past work that characterizes science at the level of word types, by using BERT-based word sense induction to find additional words that are widespread but overloaded with different uses across fields. We define scholarly jargon as discipline-specific word types and senses, and estimate its prevalence across hundreds of fields using interpretable, information-theoretic metrics. We demonstrate the utility of our approach for science of science and computational sociolinguistics by highlighting two key social implications. First, we measure audience design, and find that most fields reduce jargon when publishing in general-purpose journals, but some do so more than others. Second, though jargon has varying correlation with articles' citation rates within fields, it nearly always impedes interdisciplinary impact. Broadly, our measurements can inform ways in which language could be revised to serve as a bridge rather than a barrier in science.
翻訳日:2022-12-20 17:58:51 公開日:2022-12-19
# 補助ステアリングタスクによる道路領域意味セグメンテーションの活用

Leveraging Road Area Semantic Segmentation with Auxiliary Steering Task ( http://arxiv.org/abs/2212.09438v1 )

ライセンス: Link先を確認
Jyri Maanp\"a\"a, Iaroslav Melekhov, Josef Taher, Petri Manninen and Juha Hyypp\"a(参考訳) 異なるパターン認識手法の堅牢性は、特に砂利道や降雪など、多種多様な道路環境や気象条件で運転する場合において、自動運転における重要な課題の1つである。 センサーを装備した車を使って、これらの有害な状況からデータを収集することは可能だが、トレーニングのためにデータに注釈をつけるのは極めて面倒だ。 本研究では,この制限に対処し,操舵輪角情報を利用して道路領域の意味セグメンテーションを改善するcnnベースの手法を提案する。 ステアリングホイールアングルデータを関連画像で容易に取得できるため、手動データアノテーションなしで新たな道路環境におけるデータ収集により、道路領域意味セグメンテーションの精度を向上させることができる。 提案手法が自律運転のための2つの挑戦的データセットに対して有効であることを示すとともに, セグメンテーションモデルトレーニングでステアリングタスクを使用すると, 対応する参照移動学習モデルと比較して, 道路面積mIoUが0.1-2.9%向上することを示す。

Robustness of different pattern recognition methods is one of the key challenges in autonomous driving, especially when driving in the high variety of road environments and weather conditions, such as gravel roads and snowfall. Although one can collect data from these adverse conditions using cars equipped with sensors, it is quite tedious to annotate the data for training. In this work, we address this limitation and propose a CNN-based method that can leverage the steering wheel angle information to improve the road area semantic segmentation. As the steering wheel angle data can be easily acquired with the associated images, one could improve the accuracy of road area semantic segmentation by collecting data in new road environments without manual data annotation. We demonstrate the effectiveness of the proposed approach on two challenging data sets for autonomous driving and show that when the steering task is used in our segmentation model training, it leads to a 0.1-2.9% gain in the road area mIoU (mean Intersection over Union) compared to the corresponding reference transfer learning model.
翻訳日:2022-12-20 17:52:19 公開日:2022-12-19
# MM拡散:共同音声・ビデオ生成のための多モード拡散モデル学習

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation ( http://arxiv.org/abs/2212.09478v1 )

ライセンス: Link先を確認
Ludan Ruan and Yiyang Ma and Huan Yang and Huiguo He and Bei Liu and Jianlong Fu and Nicholas Jing Yuan and Qin Jin and Baining Guo(参考訳) 本稿では,高品質なリアルなビデオにエンゲージメントと聴取体験を同時にもたらす,初の共同音声ビデオ生成フレームワークを提案する。 音声とビデオの併用ペアを生成するために,二結合脱音オートエンコーダを用いたマルチモーダル拡散モデル(mm-diffusion)を提案する。 既存の単一モード拡散モデルとは対照的に、MM拡散は設計による共同記述プロセスのための逐次多モードU-Netで構成されている。 音声とビデオの2つのサブネットは、ガウス雑音から徐々にアライメントされたオーディオビデオペアを生成する。 モダリティ間の意味的一貫性を確保するために,2つのサブネット上にランダムシフトに基づくアテンションブロックを橋渡しし,効率的なクロスモーダルアライメントを実現することにより,相互に音声・映像の忠実度を高めることを提案する。 広汎な実験は、無条件のオーディオビデオ生成やゼロショット条件タスク(例えば、ビデオからオーディオ)において優れた結果を示す。 特にランドスケープとAIST++のダンスデータセットで最高のFVDとFADを実現する。 10k票のチューリングテストは、我々のモデルに支配的な選好を示す。 コードと事前訓練されたモデルはhttps://github.com/researchmm/MM-Diffusion.comでダウンロードできる。

We propose the first joint audio-video generation framework that brings engaging watching and listening experiences simultaneously, towards high-quality realistic videos. To generate joint audio-video pairs, we propose a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled denoising autoencoders. In contrast to existing single-modal diffusion models, MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising process by design. Two subnets for audio and video learn to gradually generate aligned audio-video pairs from Gaussian noises. To ensure semantic consistency across modalities, we propose a novel random-shift based attention block bridging over the two subnets, which enables efficient cross-modal alignment, and thus reinforces the audio-video fidelity for each other. Extensive experiments show superior results in unconditional audio-video generation, and zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of 10k votes further demonstrate dominant preferences for our model. The code and pre-trained models can be downloaded at https://github.com/researchmm/MM-Diffusion.
翻訳日:2022-12-20 17:51:58 公開日:2022-12-19
# MIST:長時間ビデオ質問応答のためのマルチモーダル反復時空間変換器

MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering ( http://arxiv.org/abs/2212.09522v1 )

ライセンス: Link先を確認
Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou(参考訳) 映像質問応答(Video Question Answering, VideoQA)システムを構築するためには,多種多様な複雑なイベントを伴う長文ビデオからの回答を求める必要がある。 既存のマルチモーダルVQAモデルは、特に最近の大規模マルチモーダル事前トレーニングの成功により、画像やショートビデオクリップ上で有望なパフォーマンスを達成する。 しかし,これらの手法を長めのビデオに拡張する場合,新たな課題が生じる。 一方、高密度ビデオサンプリング戦略は計算的に禁止されている。 一方,マルチイベントやマルチグラニュラリティの視覚的推論が必要なシナリオでは,スパースサンプリングによる手法が問題となる。 本研究では,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 具体的には、MISTは従来の密集時空間自己認識をカスケードセグメントと領域選択モジュールに分解し、問題自体に密接に関連するフレームと画像領域を適応的に選択する。 異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。 さらに、MISTは複数のイベントに対する推論をサポートするために、複数のレイヤの選択と注意を反復的に行う。 AGQA, NExT-QA, STAR, Env-QAを含む4つのビデオQAデータセットの実験結果から, MISTが最先端の性能を達成し, 計算効率と解釈性に優れていることが示された。

To build Video Question Answering (VideoQA) systems capable of assisting humans in daily activities, seeking answers from long-form videos with diverse and complex events is a must. Existing multi-modal VQA models achieve promising performance on images or short video clips, especially with the recent success of large-scale multi-modal pre-training. However, when extending these methods to long-form videos, new challenges arise. On the one hand, using a dense video sampling strategy is computationally prohibitive. On the other hand, methods relying on sparse sampling struggle in scenarios where multi-event and multi-granularity visual reasoning are required. In this work, we introduce a new model named Multi-modal Iterative Spatial-temporal Transformer (MIST) to better adapt pre-trained models for long-form VideoQA. Specifically, MIST decomposes traditional dense spatial-temporal self-attention into cascaded segment and region selection modules that adaptively select frames and image regions that are closely relevant to the question itself. Visual concepts at different granularities are then processed efficiently through an attention module. In addition, MIST iteratively conducts selection and attention over multiple layers to support reasoning over multiple events. The experimental results on four VideoQA datasets, including AGQA, NExT-QA, STAR, and Env-QA, show that MIST achieves state-of-the-art performance and is superior at computation efficiency and interpretability.
翻訳日:2022-12-20 17:50:39 公開日:2022-12-19
# FreeEnricher: 追加費用なしで顔のランドマークを充実させる

FreeEnricher: Enriching Face Landmarks without Additional Cost ( http://arxiv.org/abs/2212.09525v1 )

ライセンス: Link先を確認
Yangyu Huang, Xi Chen, Jongyoo Kim, Hao Yang, Chong Li, Jiaolong Yang, Dong Chen(参考訳) 近年では顔のアライメントが著しく成長している。 濃密な顔のランドマークは化粧品や顔の美化など様々なシナリオで非常に要求されているが、ほとんどの研究はまばらな顔のアライメントしか考慮していない。 この問題に対処するために,68点の300W,98点のWFLWなど,既存のスパースランドマークデータセットによるランドマーク密度を向上するフレームワークを提案する。 まず,各セマンティックな輪郭に沿った局所的なパッチは外観的に非常によく似ている。 そこで,本研究では,従来の希薄なランドマークの洗練能力を学習し,密集したランドマークに適応させるという,弱教師付きアイデアを提案する。 一方、いくつかのオペレーターが開発され、そのアイデアを実装するために組織化されている。 最後に、トレーニングされたモデルを既存の顔アライメントネットワークのプラグアンドプレイモジュールとして適用する。 提案手法を評価するため,300Wテストセットに高密度ランドマークを手動でラベル付けした。 提案手法は,新たに構築した高密度300Wテストセットだけでなく,従来のスパルス300WテストセットやWFLWテストセットにおいても,コストを伴わずに最先端の精度が得られる。

Recent years have witnessed significant growth of face alignment. Though dense facial landmark is highly demanded in various scenarios, e.g., cosmetic medicine and facial beautification, most works only consider sparse face alignment. To address this problem, we present a framework that can enrich landmark density by existing sparse landmark datasets, e.g., 300W with 68 points and WFLW with 98 points. Firstly, we observe that the local patches along each semantic contour are highly similar in appearance. Then, we propose a weakly-supervised idea of learning the refinement ability on original sparse landmarks and adapting this ability to enriched dense landmarks. Meanwhile, several operators are devised and organized together to implement the idea. Finally, the trained model is applied as a plug-and-play module to the existing face alignment networks. To evaluate our method, we manually label the dense landmarks on 300W testset. Our method yields state-of-the-art accuracy not only in newly-constructed dense 300W testset but also in the original sparse 300W and WFLW testsets without additional cost.
翻訳日:2022-12-20 17:50:11 公開日:2022-12-19
# HARP:単眼のRGBビデオから手作りのパーソナライズ

HARP: Personalized Hand Reconstruction from a Monocular RGB Video ( http://arxiv.org/abs/2212.09530v1 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Sergey Prokudin, Otmar Hilliges, Siyu Tang(参考訳) 本稿では,ヒトの手の短い単眼RGB映像を入力とし,高忠実な外観と形状を示す忠実な手のアバターを再構成する,パーソナライズされた手指アバター作成手法であるHARP(HAnd Reconstruction and Personalization)を提案する。 神経暗黙表現の大きな傾向とは対照的に、HARPは、メッシュベースのパラメトリックハンドモデル、頂点変位マップ、正規マップ、神経成分のないアルベドで手をモデル化する。 実験で検証されたように、私たちの表現の明示的な性質は、真にスケーラブルで堅牢で効率的なアプローチを可能にします。 HARPは携帯端末が取得した短いシーケンスからの勾配勾配によって最適化されており、リアルタイムレンダリング機能を備えたAR/VRアプリケーションで直接使用できる。 これを実現するため,手動シーケンスに常在する高次調音や自己シャドーイングに頑健なシャドーア認識の識別可能なレンダリング手法を慎重に設計し,実装し,照明条件に挑戦する。 また、見知らぬポーズや新しい視点に一般化し、高調波運動を行う手動アニメーションの写実的なレンダリングを生成する。 さらに、学習されたHARP表現は、挑戦的な視点で3次元ポーズ推定品質を改善するために使用できる。 HARPの重要な利点は, 外観再構成, 新規視点, 新規ポーズ合成, 3次元ポーズ精細化の詳細な解析によって検証された。 ar/vr対応のパーソナライズドハンド表現で、忠実性とスケーラビリティに優れています。

We present HARP (HAnd Reconstruction and Personalization), a personalized hand avatar creation approach that takes a short monocular RGB video of a human hand as input and reconstructs a faithful hand avatar exhibiting a high-fidelity appearance and geometry. In contrast to the major trend of neural implicit representations, HARP models a hand with a mesh-based parametric hand model, a vertex displacement map, a normal map, and an albedo without any neural components. As validated by our experiments, the explicit nature of our representation enables a truly scalable, robust, and efficient approach to hand avatar creation. HARP is optimized via gradient descent from a short sequence captured by a hand-held mobile phone and can be directly used in AR/VR applications with real-time rendering capability. To enable this, we carefully design and implement a shadow-aware differentiable rendering scheme that is robust to high degree articulations and self-shadowing regularly present in hand motion sequences, as well as challenging lighting conditions. It also generalizes to unseen poses and novel viewpoints, producing photo-realistic renderings of hand animations performing highly-articulated motions. Furthermore, the learned HARP representation can be used for improving 3D hand pose estimation quality in challenging viewpoints. The key advantages of HARP are validated by the in-depth analyses on appearance reconstruction, novel-view and novel pose synthesis, and 3D hand pose refinement. It is an AR/VR-ready personalized hand representation that shows superior fidelity and scalability.
翻訳日:2022-12-20 17:49:48 公開日:2022-12-19
# 制御可能な知覚因子を用いた対話的漫画化

Interactive Cartoonization with Controllable Perceptual Factors ( http://arxiv.org/abs/2212.09555v1 )

ライセンス: Link先を確認
Namhyuk Ahn, Patrick Kwon, Jihye Back, Kibeom Hong, Seungkwon Kim(参考訳) カルトン化(Cartoonization)は、自然な写真を漫画のスタイルに変換するタスクである。 従来のディープ・マンガライズ手法はエンドツーエンド翻訳のみに焦点を当てており、編集性を妨げる可能性がある。 そこで本研究では,漫画作成プロセスに基づくテクスチャや色彩の編集機能を備えた新しいソリューションを提案する。 そのために、モデルアーキテクチャを設計し、それらの属性を分離するために、デコーダ、テクスチャ、色を分離する。 テクスチャデコーダでは、ユーザがストロークスタイルや抽象化を制御し、多様なマンガテクスチャを生成することができるテクスチャコントローラを提案する。 また、多様な色変換を生成するために、ネットワークを誘導するHSVカラー拡張を導入する。 私たちの知る限りでは、私たちの研究は推論のマンガ化をコントロールし、ベースラインに対する大幅な品質改善を示す最初の深いアプローチです。

Cartoonization is a task that renders natural photos into cartoon styles. Previous deep cartoonization methods only have focused on end-to-end translation, which may hinder editability. Instead, we propose a novel solution with editing features of texture and color based on the cartoon creation process. To do that, we design a model architecture to have separate decoders, texture and color, to decouple these attributes. In the texture decoder, we propose a texture controller, which enables a user to control stroke style and abstraction to generate diverse cartoon textures. We also introduce an HSV color augmentation to induce the networks to generate diverse and controllable color translation. To the best of our knowledge, our work is the first deep approach to control the cartoonization at inference while showing profound quality improvement over to baselines.
翻訳日:2022-12-20 17:49:21 公開日:2022-12-19
# C2マッチングによる参照型画像とビデオ超解像

Reference-based Image and Video Super-Resolution via C2-Matching ( http://arxiv.org/abs/2212.09581v1 )

ライセンス: Link先を確認
Yuming Jiang, Kelvin C.K. Chan, Xintao Wang, Chen Change Loy, Ziwei Liu(参考訳) 参照型スーパーリゾリューション(Ref-SR)は、最近、高解像度(HR)参照画像を導入して、低解像度(LR)入力画像やビデオを強化するための有望なパラダイムとして登場した。 既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。 しかし、入力画像と参照画像の間には、変換ギャップ(例えば、スケールと回転)と分解能ギャップ(例えば、HRとLR)という2つのギャップがあるため、局所移動の実行は困難である。 これらの課題に対処するため,我々はC2-Matchingを提案する。 1) 変換ギャップを埋めるために, 入力画像の強調ビューを用いて変換-ロバスト対応を学習するコントラスト対応ネットワークを提案する。 2) 解答ギャップに対処するために, より容易なHR-HRマッチングから知識を抽出し, より曖昧なLR-HRマッチングを導出する教師-学生相関蒸留を採用する。 3)最後に,入力画像と参照画像間の潜在的な不一致問題に対処する動的集約モジュールを設計する。 また,実環境下での参照ベース画像の超解像性能を忠実に評価するために,実用シナリオを模倣したwebly referenced sr(wr-sr)データセットを提案する。 また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースビデオスーパーソリューションタスクに拡張する。 広範な実験により,提案するc2マッチングは,標準cufed5ベンチマークのartsを著しく上回り,ビデオsrパイプラインにc2マッチングコンポーネントを組み込むことにより,ビデオsrのパフォーマンスを向上させた。

Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.
翻訳日:2022-12-20 17:49:07 公開日:2022-12-19
# NeRF系ガンからの対応蒸留

Correspondence Distillation from NeRF-based GAN ( http://arxiv.org/abs/2212.09735v1 )

ライセンス: Link先を確認
Yushi Lan, Chen Change Loy, Bo Dai(参考訳) 神経放射野(NeRF)は、物体やシーンの微細な詳細を保存するための有望な結果を示している。 しかし、メッシュベースの表現とは異なり、同じカテゴリの異なるNeRFをまたいで密度の高い対応を構築することは未解決の問題であり、多くの下流タスクにおいて必須である。 この問題の大きな問題は、NeRFの暗黙的な性質と、接地真実対応アノテーションの欠如にある。 本稿では,これらの課題を回避するために,事前学習したNRFベースのGANにカプセル化されたリッチなセマンティクスと構造的前提を活用する。 具体的には3つの側面から 優先事項を活用します 1) 潜在符号を大域的構造指標とする二重変形場 2)生成器の特徴を幾何学的認識可能な局所記述子とする学習目標,および 3) 無限オブジェクト固有のNeRFサンプルのソース。 我々の実験は、そのような先行が正確で滑らかで頑健な3次元密度の対応につながることを示した。 また、NeRF間の密接な対応を確立すれば、テクスチャ転送など、多くのNeRFベースの下流アプリケーションを有効に実現できることを示す。

The neural radiance field (NeRF) has shown promising results in preserving the fine details of objects and scenes. However, unlike mesh-based representations, it remains an open problem to build dense correspondences across different NeRFs of the same category, which is essential in many downstream tasks. The main difficulties of this problem lie in the implicit nature of NeRF and the lack of ground-truth correspondence annotations. In this paper, we show it is possible to bypass these challenges by leveraging the rich semantics and structural priors encapsulated in a pre-trained NeRF-based GAN. Specifically, we exploit such priors from three aspects, namely 1) a dual deformation field that takes latent codes as global structural indicators, 2) a learning objective that regards generator features as geometric-aware local descriptors, and 3) a source of infinite object-specific NeRF samples. Our experiments demonstrate that such priors lead to 3D dense correspondence that is accurate, smooth, and robust. We also show that established dense correspondence across NeRFs can effectively enable many NeRF-based downstream applications such as texture transfer.
翻訳日:2022-12-20 17:48:29 公開日:2022-12-19
# インスタンスセグメンテーションによるビルの高さ予測

Building Height Prediction with Instance Segmentation ( http://arxiv.org/abs/2212.09277v1 )

ライセンス: Link先を確認
Furkan Burak Bagci, Ahmet Alp Kindriroglu, Metehan Yalcin, Ufuk Uyan, Mahiye Uluyagmur Ozturk(参考訳) 衛星画像から建物の高さを抽出することは、電気通信、都市計画など多くの分野で使われている活発な研究分野である。 多くの研究は、ライダーやステレオ画像で生成されたDSM(Digital Surface Models)を利用している。 rgb画像のみを使用して建物の高さを予測することは、データの不足、データ品質の低下、建物タイプの変化、光と影の角度の違いなどにより困難である。 本研究では,1枚のRGB衛星画像から各高さのビルディングマスクを推定するための,ケースセグメンテーションに基づくビルディングハイト抽出手法を提案する。 我々は,移動学習を用いたオープンソースの衛星データセットとともに,特定の都市の標高アノテーションを組み込んだ衛星画像を用いた。 我々は,テストセット内の各高さクラスに属する建物の平均精度を70%とし,境界箱mAP 59,マスクmAP 52.6に到達した。

Extracting building heights from satellite images is an active research area used in many fields such as telecommunications, city planning, etc. Many studies utilize DSM (Digital Surface Models) generated with lidars or stereo images for this purpose. Predicting the height of the buildings using only RGB images is challenging due to the insufficient amount of data, low data quality, variations of building types, different angles of light and shadow, etc. In this study, we present an instance segmentation-based building height extraction method to predict building masks with their respective heights from a single RGB satellite image. We used satellite images with building height annotations of certain cities along with an open-source satellite dataset with the transfer learning approach. We reached, the bounding box mAP 59, the mask mAP 52.6, and the average accuracy value of 70% for buildings belonging to each height class in our test set.
翻訳日:2022-12-20 17:42:22 公開日:2022-12-19
# 汎用マルチモーダル事前学習モデルによるテキスト認識

Transferring General Multimodal Pretrained Models to Text Recognition ( http://arxiv.org/abs/2212.09297v1 )

ライセンス: Link先を確認
Junyang Lin, Xuancheng Ren, Yichang Zhang, Gao Liu, Peng Wang, An Yang, Chang Zhou(参考訳) 本稿では,マルチモーダル事前学習モデルをテキスト認識に転送する新しい手法OFA-OCRを提案する。 具体的には、テキスト認識を画像キャプションとして再キャストし、統一された視覚言語訓練モデルを直接最終タスクに転送する。 大規模な注釈付きまたは合成テキスト認識データを事前学習することなく、OFA-OCRはベースラインを上回り、中国のテキスト認識ベンチマークで最先端のパフォーマンスを達成する。 さらに,OFA-OCRを用いたOCRパイプラインを構築し,製品レベルのAPIと競合する性能が得られることを示す。 コード(https://github.com/OFA-Sys/OFA)とデモ(https://modelscope.cn/studios/damo/ofa_ocr_pipeline/summary)が公開されている。

This paper proposes a new method, OFA-OCR, to transfer multimodal pretrained models to text recognition. Specifically, we recast text recognition as image captioning and directly transfer a unified vision-language pretrained model to the end task. Without pretraining on large-scale annotated or synthetic text recognition data, OFA-OCR outperforms the baselines and achieves state-of-the-art performance in the Chinese text recognition benchmark. Additionally, we construct an OCR pipeline with OFA-OCR, and we demonstrate that it can achieve competitive performance with the product-level API. The code (https://github.com/OFA-Sys/OFA) and demo (https://modelscope.cn/studios/damo/ofa_ocr_pipeline/summary) are publicly available.
翻訳日:2022-12-20 17:42:08 公開日:2022-12-19
# 鳥の視線から見る:カメラの校正を伴わない共同カメラと被写体登録

From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration ( http://arxiv.org/abs/2212.09298v1 )

ライセンス: Link先を確認
Zekun Qian, Ruize Han, Wei Feng, Feifan Wang, Song Wang(参考訳) 本研究では, カメラキャリブレーションのない鳥眼ビュー(BEV)におけるマルチビューカメラと対象登録の新たな課題に取り組む。 BEV画像とFPVのキャリブレーションを伴わないマルチパーソンシーンの異なるファーストパーソンビュー(FPV)から複数のRGB画像が入力されるのに対して、出力はBEV内の被写体とカメラの両方のローカライズと向きの統一された平面であるため、これは非常に難しい問題である。 この問題を解消するエンドツーエンドのフレームワークを提案し、その主な考え方は以下の部分に分けられる。 一 ビュー変換対象検出モジュールを作成して、各歩行者のローカライゼーション及び配向を含む仮想BEVに変換すること。 二 カメラのローカライゼーション及び視野方向を推定するための幾何学的変換に基づく方法、すなわち、統合されたBEVにおけるカメラ登録を導出すること。 三 被写体を統合BEVに集約するために空間情報及び外観情報を利用すること。 評価のためのリッチアノテーションを備えた大規模合成データセットを新たに収集する。 実験の結果,提案手法の顕著な有効性を示した。

We tackle a new problem of multi-view camera and subject registration in the bird's eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.
翻訳日:2022-12-20 17:41:54 公開日:2022-12-19
# SrTR:シーングラフ生成のための視覚言語知識を用いた自己推論変換器

SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for Scene Graph Generation ( http://arxiv.org/abs/2212.09329v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Zhenbo Liu, Shuai Wang(参考訳) シーン内のオブジェクトが常に関連しているとは限らない。 1段階グラフ生成アプローチの実行効率は非常に高く、スパースプロポーザルセットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。 しかし、それらは三重項集合対象実体、述語実体、対象実体における主語と対象の関係にのみ焦点をあて、主語と述語、述語と対象の関係を無視し、モデルには自己合理化能力が欠けている。 また,一段階法では言語的モダリティが無視されている。 モデル推論能力を向上させるためには,言語的モダリティの知識をマイニングする必要がある。 上記の欠点に対処するため,視覚言語知識を用いた自己推論変換器(SrTR)を提案し,モデルに柔軟な自己推論機能を加える。 エンコーダデコーダアーキテクチャはSrTRで採用され、自己推論デコーダは三重項集合 s+o-p, s+p-o, p+o-s の3つの推論を完備化する。 大規模な事前学習された画像テキスト基礎モデルに触発されて、視覚言語的事前知識が導入され、視覚言語的アライメント戦略は、関係推論を支援する事前知識を持つ意味空間に視覚表現を投影するように設計されている。 Visual Genomeデータセットの実験では,提案手法の優位性と高速な推論能力を示す。

Objects in a scene are not always related. The execution efficiency of the one-stage scene graph generation approaches are quite high, which infer the effective relation between entity pairs using sparse proposal sets and a few queries. However, they only focus on the relation between subject and object in triplet set subject entity, predicate entity, object entity, ignoring the relation between subject and predicate or predicate and object, and the model lacks self-reasoning ability. In addition, linguistic modality has been neglected in the one-stage method. It is necessary to mine linguistic modality knowledge to improve model reasoning ability. To address the above-mentioned shortcomings, a Self-reasoning Transformer with Visual-linguistic Knowledge (SrTR) is proposed to add flexible self-reasoning ability to the model. An encoder-decoder architecture is adopted in SrTR, and a self-reasoning decoder is developed to complete three inferences of the triplet set, s+o-p, s+p-o and p+o-s. Inspired by the large-scale pre-training image-text foundation models, visual-linguistic prior knowledge is introduced and a visual-linguistic alignment strategy is designed to project visual representations into semantic spaces with prior knowledge to aid relational reasoning. Experiments on the Visual Genome dataset demonstrate the superiority and fast inference ability of the proposed method.
翻訳日:2022-12-20 17:41:32 公開日:2022-12-19
# StyleTRF:スチル化テンソル放射場

StyleTRF: Stylizing Tensorial Radiance Fields ( http://arxiv.org/abs/2212.09330v1 )

ライセンス: Link先を確認
Rahul Goel, Sirikonda Dhawal, Saurabh Saini, P. J. Narayanan(参考訳) 近年,カメラで撮影するシーンのスチル化ビュー生成に注目が集まっている。 シーンの幾何学と外観は、通常、前作のニューラルポイントセットまたはニューラルラミアンスフィールドとしてキャプチャされる。 画像スタイリング法は、そのネットワークを構造キャプチャネットワークと協調的又は反復的にトレーニングすることにより、捕獲された外観をスタイリングする。 最先端のSNeRF法は、NeRFとスタイリングネットワークを交互に訓練する。 これらの方法は高い訓練時間を持ち、共同最適化を必要とする。 本稿では,TensoRFを用いたスタイル化ビュー生成のための,コンパクトで迅速な最適化戦略であるStyleTRFを提案する。 外観部分は、数回のイテレーションでTensoRF表現を使用してレンダリングされた少数のビューのスタイリングされたスタイリング先を用いて微調整される。 これにより,ビューキャプチャからスタイル適応を効果的に分離し,従来の手法よりもはるかに高速である。 この目的のために使われたいくつかのシーンで最新の結果を示す。

Stylized view generation of scenes captured casually using a camera has received much attention recently. The geometry and appearance of the scene are typically captured as neural point sets or neural radiance fields in the previous work. An image stylization method is used to stylize the captured appearance by training its network jointly or iteratively with the structure capture network. The state-of-the-art SNeRF method trains the NeRF and stylization network in an alternating manner. These methods have high training time and require joint optimization. In this work, we present StyleTRF, a compact, quick-to-optimize strategy for stylized view generation using TensoRF. The appearance part is fine-tuned using sparse stylized priors of a few views rendered using the TensoRF representation for a few iterations. Our method thus effectively decouples style-adaption from view capture and is much faster than the previous methods. We show state-of-the-art results on several scenes used for this purpose.
翻訳日:2022-12-20 17:41:09 公開日:2022-12-19
# 弱教師付き時間行動定位と協調する視覚言語前訓練

Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2212.09335v1 )

ライセンス: Link先を確認
Chen Ju, Kunhao Zheng, Jinxiang Liu, Peisen Zhao, Ya Zhang, Jianlong Chang, Yanfeng Wang, Qi Tian(参考訳) WTAL(Wakly-supervised temporal action Localization)は、カテゴリラベルのみによるアクションインスタンスの検出と分類を学習する。 ほとんどの手法では、市販の分類に基づく事前訓練(cbp)を広く採用し、アクションローカライズのためのビデオ特徴を生成する。 しかし、分類と局所化の異なる最適化目標により、時間的局所化の結果は深刻な不完全な問題に悩まされる。 そこで本研究では,バニラVLPの局所化結果に過剰な問題があり,CBPの結果を補完するものであるとして,VLP(Vision-Language Pre-Training)からフリーアクション知識を抽出することを検討する。 このような相補性を融合させるために, CBPとVLPの2つの枝がそれぞれ作用する新しい蒸留協力フレームワークを提案する。 このフレームワークは、デュアルブランチの代替トレーニング戦略によって最適化されている。 具体的には,Bステップにおいて,CBPブランチから自信ある背景の擬似ラベルを蒸留し,Fステップでは,VLPブランチから自信ある前景の擬似ラベルを蒸留する。 その結果、二重ブランチの相補性が効果的に融合され、強力な同盟が促進される。 THUMOS14およびActivityNet1.2の広範囲な実験とアブレーション研究により,本手法が最先端手法を著しく上回っていることが明らかとなった。

Weakly-supervised temporal action localization (WTAL) learns to detect and classify action instances with only category labels. Most methods widely adopt the off-the-shelf Classification-Based Pre-training (CBP) to generate video features for action localization. However, the different optimization objectives between classification and localization, make temporally localized results suffer from the serious incomplete issue. To tackle this issue without additional annotations, this paper considers to distill free action knowledge from Vision-Language Pre-training (VLP), since we surprisingly observe that the localization results of vanilla VLP have an over-complete issue, which is just complementary to the CBP results. To fuse such complementarity, we propose a novel distillation-collaboration framework with two branches acting as CBP and VLP respectively. The framework is optimized through a dual-branch alternate training strategy. Specifically, during the B step, we distill the confident background pseudo-labels from the CBP branch; while during the F step, the confident foreground pseudo-labels are distilled from the VLP branch. And as a result, the dual-branch complementarity is effectively fused to promote a strong alliance. Extensive experiments and ablation studies on THUMOS14 and ActivityNet1.2 reveal that our method significantly outperforms state-of-the-art methods.
翻訳日:2022-12-20 17:40:53 公開日:2022-12-19
# 地学とリモートセンシングのためのAIセキュリティ - 課題と今後の動向

AI Security for Geoscience and Remote Sensing: Challenges and Future Trends ( http://arxiv.org/abs/2212.09360v1 )

ライセンス: Link先を確認
Yonghao Xu, Tao Bai, Weikang Yu, Shizhen Chang, Peter M. Atkinson, Pedram Ghamisi(参考訳) 人工知能(AI)の最近の進歩は、地球科学とリモートセンシング(RS)分野における研究を著しく強化している。 AIアルゴリズム、特にディープラーニングベースのアルゴリズムが開発され、RSデータ分析に広く応用されている。 aiの成功した応用は、地球観測(eo)ミッションのほとんどすべての側面をカバーする。スーパーレゾリューション、デノージング、インペインティングといった低レベルのビジョンタスクから、シーン分類、オブジェクト検出、セマンティクスセグメンテーションといった高レベルのビジョンタスクまでである。 AI技術は、研究者が地球をより正確に観察し理解することを可能にする一方で、多くの地球科学やRSタスクが非常に安全クリティカルであることを考えると、AIモデルの脆弱性と不確実性はさらに注目に値する。 本稿では,ジオサイエンスとrs分野におけるaiセキュリティの現状を概観し,敵の攻撃,バックドア攻撃,連合学習,不確実性,説明可能性という5つの重要な側面について述べる。 さらに、今後の研究に洞察を与える可能性や動向について論じる。 著者の知識を最大限に活用するために,本稿は,地球科学とRSコミュニティにおけるAIセキュリティ関連研究の体系的レビューを行う最初の試みである。 この活発な研究分野を前進させるために、利用可能なコードとデータセットも論文に記載されている。

Recent advances in artificial intelligence (AI) have significantly intensified research in the geoscience and remote sensing (RS) field. AI algorithms, especially deep learning-based ones, have been developed and applied widely to RS data analysis. The successful application of AI covers almost all aspects of Earth observation (EO) missions, from low-level vision tasks like super-resolution, denoising, and inpainting, to high-level vision tasks like scene classification, object detection, and semantic segmentation. While AI techniques enable researchers to observe and understand the Earth more accurately, the vulnerability and uncertainty of AI models deserve further attention, considering that many geoscience and RS tasks are highly safety-critical. This paper reviews the current development of AI security in the geoscience and RS field, covering the following five important aspects: adversarial attack, backdoor attack, federated learning, uncertainty, and explainability. Moreover, the potential opportunities and trends are discussed to provide insights for future research. To the best of the authors' knowledge, this paper is the first attempt to provide a systematic review of AI security-related research in the geoscience and RS community. Available code and datasets are also listed in the paper to move this vibrant field of research forward.
翻訳日:2022-12-20 17:40:28 公開日:2022-12-19
# TAS-NIR:非構造屋外環境における微粒なセマンティックセマンティックセグメンテーションのためのVIS+NIRデータセット

TAS-NIR: A VIS+NIR Dataset for Fine-grained Semantic Segmentation in Unstructured Outdoor Environments ( http://arxiv.org/abs/2212.09368v1 )

ライセンス: Link先を確認
Peter Mortimer and Hans-Joachim Wuensche(参考訳) 可視色スペクトル(VIS)と近赤外スペクトル(NIR)のペア画像に基づく植生指標がリモートセンシングアプリケーションで広く利用されている。 これらの植生指標は、非構造屋外環境における自律走行に適用するために拡張される。 このドメインでは、正規化差分植生指数(NDVI)や拡張植生指数(EVI)のような伝統的な植生指標を、利用可能なVISデータセットで事前トレーニングされた畳み込みニューラルネットワーク(CNN)と組み合わせることができます。 校正されたCNN出力の学習に焦点をあてることで、既知の手作り画像特徴と異なる領域のCNN予測を融合するアプローチを提供することができる。 非構造屋外環境における意味的注釈付き画像のVIS+NIRデータセットを用いて評価を行った。 データセットはmucar3.de/iros2022-ppniv-tas-nirで利用可能である。

Vegetation Indices based on paired images of the visible color spectrum (VIS) and near infrared spectrum (NIR) have been widely used in remote sensing applications. These vegetation indices are extended for their application in autonomous driving in unstructured outdoor environments. In this domain we can combine traditional vegetation indices like the Normalized Difference Vegetation Index (NDVI) and Enhanced Vegetation Index (EVI) with Convolutional Neural Networks (CNNs) pre-trained on available VIS datasets. By laying a focus on learning calibrated CNN outputs, we can provide an approach to fuse known hand-crafted image features with CNN predictions for different domains as well. The method is evaluated on a VIS+NIR dataset of semantically annotated images in unstructured outdoor environments. The dataset is available at mucar3.de/iros2022-ppniv-tas-nir.
翻訳日:2022-12-20 17:40:06 公開日:2022-12-19
# 大規模視覚モデルによる何百万もの物体検出

Million-scale Object Detection with Large Vision Model ( http://arxiv.org/abs/2212.09408v1 )

ライセンス: Link先を確認
Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin Chen, Yong Xu, Xiaoyu Wang(参考訳) ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発がホットな話題になっている。 強力なユニバーサルシステムは、特定の問題や特定のデータ領域に制限されることなく、多様なビジョンタスクを同時に解決することができる。 本研究では,百万単位の汎用オブジェクト検出問題に集中することで,その方向を推し進める。 この問題は、横断データセットのカテゴリラベルの重複、ラベルの競合、階層的な分類の扱いといった点で複雑であるため、自明ではない。 さらに、数百万スケールのクロスデータセットオブジェクト検出のために、新たな大規模事前学習ビジョンモデルを利用するためのリソース効率のよい方法は、まだ未解決の課題である。 本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングの実践を通じて,これらの課題に対処する。 本手法はロバストビジョンチャレンジ2022(rvc2022)の物体検出トラックにおいて第2位である。 私たちの詳細な研究が、コミュニティの同様の問題に対する代替の実践パラダイムになることを期待しています。 コードはhttps://github.com/linfeng93/Large-UniDetで公開されている。

Over the past few years, developing a broad, universal, and general-purpose computer vision system has become a hot topic. A powerful universal system would be capable of solving diverse vision tasks simultaneously without being restricted to a specific problem or a specific data domain, which is of great importance in practical real-world computer vision applications. This study pushes the direction forward by concentrating on the million-scale multi-domain universal object detection problem. The problem is not trivial due to its complicated nature in terms of cross-dataset category label duplication, label conflicts, and the hierarchical taxonomy handling. Moreover, what is the resource-efficient way to utilize emerging large pre-trained vision models for million-scale cross-dataset object detection remains an open challenge. This paper tries to address these challenges by introducing our practices in label handling, hierarchy-aware loss design and resource-efficient model training with a pre-trained large model. Our method is ranked second in the object detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our detailed study would serve as an alternative practice paradigm for similar problems in the community. The code is available at https://github.com/linfeng93/Large-UniDet.
翻訳日:2022-12-20 17:39:50 公開日:2022-12-19
# 位相場モデルを用いた軽量グラフ畳み込みネットワークの訓練

Training Lightweight Graph Convolutional Networks with Phase-field Models ( http://arxiv.org/abs/2212.09415v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) 本稿では、位相場モデル(PFM)と呼ばれる特定の正規化器のクラスを用いて、軽量グラフ畳み込みネットワーク(GCN)を設計する。 PFMは、一つの「エンドツーエンド」最適化問題の一部として、GCNのトポロジーと重みパラメータの両方をトレーニングできる特定の超局所項を用いて、二相挙動を示す。 提案手法は, 対象プルーニングレートを実装しつつ, 効率的なトポロジ選択と高一般化を実現するために, トポロジのマスクをバイナリ値にプッシュする再パラメータ化にも依存する。 マスクと重みは同じ潜在変数を共有しており、結果として生じる軽量gcnの一般化能力をさらに高めている。 骨格認識の課題に対して行われた大規模な実験は、他の基本正則化器や関連する軽量設計手法に対するPFMの性能の低下を示している。

In this paper, we design lightweight graph convolutional networks (GCNs) using a particular class of regularizers, dubbed as phase-field models (PFMs). PFMs exhibit a bi-phase behavior using a particular ultra-local term that allows training both the topology and the weight parameters of GCNs as a part of a single "end-to-end" optimization problem. Our proposed solution also relies on a reparametrization that pushes the mask of the topology towards binary values leading to effective topology selection and high generalization while implementing any targeted pruning rate. Both masks and weights share the same set of latent variables and this further enhances the generalization power of the resulting lightweight GCNs. Extensive experiments conducted on the challenging task of skeleton-based recognition show the outperformance of PFMs against other staple regularizers as well as related lightweight design methods.
翻訳日:2022-12-20 17:39:32 公開日:2022-12-19
# 可逆分解によるフォトリアリスティック領域外GANインバージョン

Photo-Realistic Out-of-domain GAN inversion via Invertibility Decomposition ( http://arxiv.org/abs/2212.09262v1 )

ライセンス: Link先を確認
Xin Yang, Xiaogang Xu, Yingcong Chen(参考訳) GAN(Generative Adversarial Networks)のインバージョンは、画像内のout-Of-Domain(OOD)領域(例えば、バックグラウンド、アクセサリー)によって阻害される。 事前訓練されたモデルの生成能力を超えるOOD領域を検出し、これらの領域を入力画像とブレンドすることで、忠実度を高めることができる。 インバータビリティマスク」はこれらのOOD領域を解析し、既存の手法は復元誤差でマスクを予測する。 しかし、推定されたマスクは通常、ドメイン内(id)領域の再構成誤差の影響で不正確である。 本稿では,入力画像をidおよびoodパーティションに可逆マスクで分解する新しいモジュールをデザインすることにより,顔の反転の忠実性を高める新しい枠組みを提案する。 従来の手法とは異なり、我々の可逆検出器は空間アライメントモジュールで同時に学習される。 生成した特徴を入力形状に反復的に整列し,ID領域の再構成誤差を低減する。 したがって、OOD領域はより区別しやすく、正確に予測できる。 そして、入力画像からOOD領域とID GAN逆変換結果とを混合することにより、結果の忠実度を向上させる。 本手法は実世界の人間の顔画像の逆転と操作のための実測結果を生成する。 GANインバージョンと属性操作の品質において,本手法が既存の手法よりも優れていることを示す。

The fidelity of Generative Adversarial Networks (GAN) inversion is impeded by Out-Of-Domain (OOD) areas (e.g., background, accessories) in the image. Detecting the OOD areas beyond the generation ability of the pretrained model and blending these regions with the input image can enhance fidelity. The ``invertibility mask" figures out these OOD areas, and existing methods predict the mask with the reconstruction error. However, the estimated mask is usually inaccurate due to the influence of the reconstruction error in the In-Domain (ID) area. In this paper, we propose a novel framework that enhances the fidelity of human face inversion by designing a new module to decompose the input images to ID and OOD partitions with invertibility masks. Unlike previous works, our invertibility detector is simultaneously learned with a spatial alignment module. We iteratively align the generated features to the input geometry and reduce the reconstruction error in the ID regions. Thus, the OOD areas are more distinguishable and can be precisely predicted. Then, we improve the fidelity of our results by blending the OOD areas from the input image with the ID GAN inversion results. Our method produces photo-realistic results for real-world human face image inversion and manipulation. Extensive experiments demonstrate our method's superiority over existing methods in the quality of GAN inversion and attribute manipulation.
翻訳日:2022-12-20 17:30:58 公開日:2022-12-19
# 半教師付き3次元物体検出のための物体レベル点拡張器の学習

Learning Object-level Point Augmentor for Semi-supervised 3D Object Detection ( http://arxiv.org/abs/2212.09273v1 )

ライセンス: Link先を確認
Cheng-Ju Ho, Chen-Hsuan Tai, Yi-Hsuan Tsai, Yen-Yu Lin, Ming-Hsuan Yang(参考訳) 半教師付き物体検出は,大規模3次元バウンディングボックスアノテーションの獲得には時間を要するため,3次元シーン理解において重要である。 既存の半教師法では、教師が指導する知識の蒸留と、ラベルなしの点雲を活用するための拡張戦略が用いられる。 しかし、これらの手法はシーンレベルの変換を伴うグローバルな拡張を採用しており、インスタンスレベルのオブジェクト検出にはサブ最適である。 本研究では、半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。 このようにして、augmentant augmentedorは、無関係なバックグラウンドよりもオブジェクトインスタンスを強調するために導出され、拡張されたデータがオブジェクト検出トレーニングにより有用になる。 scannetとsun rgb-dデータセットの広範な実験により、提案されたopaは様々な実験環境で最先端の手法に好適に作用することが示された。 ソースコードはhttps://github.com/nomiaro/opaで入手できる。

Semi-supervised object detection is important for 3D scene understanding because obtaining large-scale 3D bounding box annotations on point clouds is time-consuming and labor-intensive. Existing semi-supervised methods usually employ teacher-student knowledge distillation together with an augmentation strategy to leverage unlabeled point clouds. However, these methods adopt global augmentation with scene-level transformations and hence are sub-optimal for instance-level object detection. In this work, we propose an object-level point augmentor (OPA) that performs local transformations for semi-supervised 3D object detection. In this way, the resultant augmentor is derived to emphasize object instances rather than irrelevant backgrounds, making the augmented data more useful for object detector training. Extensive experiments on the ScanNet and SUN RGB-D datasets show that the proposed OPA performs favorably against the state-of-the-art methods under various experimental settings. The source code will be available at https://github.com/nomiaro/OPA.
翻訳日:2022-12-20 17:30:38 公開日:2022-12-19
# Flowstorm: ハイブリッド対話アーキテクチャを備えたオープンソースプラットフォーム

Flowstorm: Open-Source Platform with Hybrid Dialogue Architecture ( http://arxiv.org/abs/2212.09377v1 )

ライセンス: Link先を確認
Jan Pichl, Petr Marek, Jakub Konr\'ad, Petr Lorenc, Ond\v{r}ej Kobza, Tom\'a\v{s} Zaj\'i\v{c}ek, Jan \v{S}ediv\'y(参考訳) 本稿では,Flowstormという対話型AIプラットフォームを提案する。 flowstormは、会話型アプリケーションの作成、実行、分析に適したオープンソースのsaasプロジェクトである。 高速で完全に自動化されたビルドプロセスのおかげで、プラットフォーム内で生成された対話は数秒で実行できる。 さらに,木構造と生成モデルを組み合わせた対話型アーキテクチャを提案する。 ツリー構造は特定の対話シナリオに適したNLUモデルのトレーニングにも使用される。 しかし、生成モデルはアプリケーション全体でグローバルに使われ、対話ツリーの機能を拡張する。 さらに、プラットフォーム機能は、発話からデータを抽出したり、クロールされたデータを扱う責任があるような、既定のコンポーネントの恩恵を受ける。 さらに、プラットフォーム内で直接カスタムコードを使用して拡張することもできる。 プラットフォームの本質的な特徴の1つは、アプリケーション間で生成された資産を再利用できることです。 各開発者が貢献できる準備された資産のライブラリがあります。 すべての機能は、ユーザフレンドリーなビジュアルエディタを通じて利用できる。

This paper presents a conversational AI platform called Flowstorm. Flowstorm is an open-source SaaS project suitable for creating, running, and analyzing conversational applications. Thanks to the fast and fully automated build process, the dialogues created within the platform can be executed in seconds. Furthermore, we propose a novel dialogue architecture that uses a combination of tree structures with generative models. The tree structures are also used for training NLU models suitable for specific dialogue scenarios. However, the generative models are globally used across applications and extend the functionality of the dialogue trees. Moreover, the platform functionality benefits from out-of-the-box components, such as the one responsible for extracting data from utterances or working with crawled data. Additionally, it can be extended using a custom code directly in the platform. One of the essential features of the platform is the possibility to reuse the created assets across applications. There is a library of prepared assets where each developer can contribute. All of the features are available through a user-friendly visual editor.
翻訳日:2022-12-20 17:15:51 公開日:2022-12-19
# 建築におけるAIアート

AI Art in Architecture ( http://arxiv.org/abs/2212.09399v1 )

ライセンス: Link先を確認
Joern Ploennigs and Markus Berger(参考訳) 最近の拡散ベースのaiアートプラットフォームは、シンプルなテキスト記述から印象的な画像を作成できる。 これにより、ビジュアルデザインタスクの創造性を必要とするあらゆる分野において、コンセプトデザインのための強力なツールとなる。 これは、イデオレーション、スケッチ、モデリングの複数の段階を持つアーキテクチャ設計の初期段階でも当てはまる。 本稿では,これらの課題に対する拡散モデルの適用性について検討する。 我々は、midjourney、dall-e 2、stablediffusionのプラットフォームを、アーキテクチャ設計における一連の一般的なユースケースに適用し、解決可能か、近いかを決定する。 また、NLP手法を用いて4000万のMidjourneyクエリのデータセットを分析し、一般的な使用パターンを抽出することで、すでに使用されている方法を分析する。 この洞察で私たちは、個々のプラットフォームの強みを組み合わせた内部設計と外部設計にワークフローを導出しました。

Recent diffusion-based AI art platforms are able to create impressive images from simple text descriptions. This makes them powerful tools for concept design in any discipline that requires creativity in visual design tasks. This is also true for early stages of architectural design with multiple stages of ideation, sketching and modelling. In this paper, we investigate how applicable diffusion-based models already are to these tasks. We research the applicability of the platforms Midjourney, DALL-E 2 and StableDiffusion to a series of common use cases in architectural design to determine which are already solvable or might soon be. We also analyze how they are already being used by analyzing a data set of 40 million Midjourney queries with NLP methods to extract common usage patterns. With this insights we derived a workflow to interior and exterior design that combines the strengths of the individual platforms.
翻訳日:2022-12-20 17:15:40 公開日:2022-12-19
# メタヒューリスティックスファインチューニングによる事前トレーニング重量の改善

Improving Pre-Trained Weights Through Meta-Heuristics Fine-Tuning ( http://arxiv.org/abs/2212.09447v1 )

ライセンス: Link先を確認
Gustavo H. de Rosa, Mateus Roder, Jo\~ao Paulo Papa and Claudio F. G. dos Santos(参考訳) 機械学習アルゴリズムは、過去10年間にわたって広範囲に研究され、画像分類や再構成、オブジェクト認識、テキスト分類など、幅広い応用において前例のない進歩をもたらした。 それにもかかわらず、ほとんどの機械学習アルゴリズムは、確率的勾配降下のような微分に基づく最適化によって訓練され、局所的な最適な絡み合いが起こり、適切な性能を達成することを妨げている。 メタヒューリスティック(meta-heuristic)と呼ばれる従来の最適化技術に代わるバイオインスパイアされた代替手段は、その単純さと局所的最適判決を避ける能力によって、大きな注目を集めている。 本研究では,事前学習した重みを微調整し,探索空間の追加領域を探索し,その効果を向上させるためのメタヒューリスティックな手法を提案する。 実験評価は2つの分類タスク(画像とテキスト)で構成され、4つの文献データセットで評価される。 実験結果から,事前学習した重みの近傍を探索する自然に着想を得たアルゴリズムの能力を示す。 さらに、Multi-Layer PerceptronやRecurrent Neural Networksといった異なるアーキテクチャを徹底的に分析することで、学習プロセスにおいて微調整される最も重要な重みに関するより正確な洞察を可視化し提供しようとする。

Machine Learning algorithms have been extensively researched throughout the last decade, leading to unprecedented advances in a broad range of applications, such as image classification and reconstruction, object recognition, and text categorization. Nonetheless, most Machine Learning algorithms are trained via derivative-based optimizers, such as the Stochastic Gradient Descent, leading to possible local optimum entrapments and inhibiting them from achieving proper performances. A bio-inspired alternative to traditional optimization techniques, denoted as meta-heuristic, has received significant attention due to its simplicity and ability to avoid local optimums imprisonment. In this work, we propose to use meta-heuristic techniques to fine-tune pre-trained weights, exploring additional regions of the search space, and improving their effectiveness. The experimental evaluation comprises two classification tasks (image and text) and is assessed under four literature datasets. Experimental results show nature-inspired algorithms' capacity in exploring the neighborhood of pre-trained weights, achieving superior results than their counterpart pre-trained architectures. Additionally, a thorough analysis of distinct architectures, such as Multi-Layer Perceptron and Recurrent Neural Networks, attempts to visualize and provide more precise insights into the most critical weights to be fine-tuned in the learning process.
翻訳日:2022-12-20 17:15:28 公開日:2022-12-19
# データ非依存表現学習のためのランダム化量子化

Randomized Quantization for Data Agnostic Representation Learning ( http://arxiv.org/abs/2212.08663v1 )

ライセンス: Link先を確認
Huimin Wu, Chenyang Lei, Xiao Sun, Peng-Shuai Wang, Qifeng Chen, Kwang-Ting Cheng, Stephen Lin, Zhirong Wu(参考訳) 自己監督型表現学習は、データの一部を保持し、残りの部分から予測するようにネットワークに指示するパラダイムに従う。 この目的に向けて、マスキングは汎用的で強力なツールとして登場し、コンテンツは連続的な次元(例えば、画像の空間、音声の時間的、言語における構文)に沿って保持されない。 本稿では,汎用データ拡張のための直交チャネル次元について検討する。 各チャネルのデータは、ランダムにサンプリングされた量子化ビン内でランダムにサンプリングされた量子化値を持つ非一様量子化器を介して量子化される。 別の観点からは、量子化は各ビン内の情報を削除するが、ビン間で情報を保存するため、チャネル毎のマスキングと類似している。 自己教師付きコントラストモデルに対する逐次増強と合わせてランダム化量子化を適用する。 このジェネリックアプローチは、視覚タスクにおけるモダリティ固有の拡張と、3Dポイントクラウドとオーディオの最先端結果とを同等に達成する。 また,様々なデータモダリティからなる包括的dabsベンチマークを用いて,ディープニューラルネットワークにおける中間埋め込みの強化に適用できることを示す。 コードはhttp://www.github.com/microsoft/random_quantizeで利用可能です。

Self-supervised representation learning follows a paradigm of withholding some part of the data and tasking the network to predict it from the remaining part. Towards this end, masking has emerged as a generic and powerful tool where content is withheld along the sequential dimension, e.g., spatial in images, temporal in audio, and syntactic in language. In this paper, we explore the orthogonal channel dimension for generic data augmentation. The data for each channel is quantized through a non-uniform quantizer, with the quantized value sampled randomly within randomly sampled quantization bins. From another perspective, quantization is analogous to channel-wise masking, as it removes the information within each bin, but preserves the information across bins. We apply the randomized quantization in conjunction with sequential augmentations on self-supervised contrastive models. This generic approach achieves results on par with modality-specific augmentation on vision tasks, and state-of-the-art results on 3D point clouds as well as on audio. We also demonstrate this method to be applicable for augmenting intermediate embeddings in a deep neural network on the comprehensive DABS benchmark which is comprised of various data modalities. Code is availabel at http://www.github.com/microsoft/random_quantize.
翻訳日:2022-12-20 17:14:59 公開日:2022-12-19
# One Embedder, Any Task: Instruction-Finetuned Text Embedddings

One Embedder, Any Task: Instruction-Finetuned Text Embeddings ( http://arxiv.org/abs/2212.09741v1 )

ライセンス: Link先を確認
Hongjin Su, Weijia Shi*, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari Ostendorf, Wen-tau Yih, Noah A. Smith, Luke Zettlemoyer, Tao Yu(参考訳) InSTRUCTORは、与えられたタスク命令にテキストを埋め込む新しい方法であり、すべてのテキスト入力がユースケースを説明する命令(タスクやドメイン記述など)と共に埋め込まれている。 より専門的な以前の作業のエンコーダとは異なり、INSTRUCTORは別の下流タスクやドメインに適したテキスト埋め込みを生成することができる単一の埋め込み器である。 まず330の多様なタスクの指示に注釈を付け、このマルチタスクのミックスでINSTRUCTORを訓練する。 InSTRUCTORを70の組込み評価タスク(うち66は訓練中に見つからない)で評価し、分類や情報検索から意味的テキスト類似性やテキスト生成評価までの範囲で評価する。 INSTRUCTORは、以前のベストモデルよりも桁違いに少ないパラメータを持つが、70の多様なデータセットの前のベストモデルと比べて平均3.4%改善され、最先端のパフォーマンスを達成する。 分析の結果,INSTRUCTORは命令の変化に対して頑健であり,命令の微調整は多様なデータセット上で単一モデルをトレーニングする難しさを軽減していることがわかった。

We introduce INSTRUCTOR, a new method for computing text embeddings given task instructions: every text input is embedded together with instructions explaining the use case (e.g., task and domain descriptions). Unlike encoders from prior work that are more specialized, INSTRUCTOR is a single embedder that can generate text embeddings tailored to different downstream tasks and domains, without any further training. We first annotate instructions for 330 diverse tasks and train INSTRUCTOR on this multitask mixture with a contrastive loss. We evaluate INSTRUCTOR on 70 embedding evaluation tasks (66 of which are unseen during training), ranging from classification and information retrieval to semantic textual similarity and text generation evaluation. INSTRUCTOR, while having an order of magnitude fewer parameters than the previous best model, achieves state-of-the-art performance, with an average improvement of 3.4% compared to the previous best results on the 70 diverse datasets. Our analysis suggests that INSTRUCTOR is robust to changes in instructions, and that instruction finetuning mitigates the challenge of training a single model on diverse datasets.
翻訳日:2022-12-20 17:07:14 公開日:2022-12-19
# 言語モデル間インタラクションの評価

Evaluating Human-Language Model Interaction ( http://arxiv.org/abs/2212.09746v1 )

ライセンス: Link先を確認
Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang(参考訳) コードオートコンプリートや筆記支援など、言語モデル(LM)の現実的な応用の多くは、人間とLMの相互作用を含むが、主要なLMベンチマークは、人間の介入なしに出力を生成する非インタラクティブである。 人-LMインタラクションを評価するために,3次元に沿って非対話的評価を拡大するHuman-AI Language-based Interaction Evaluation (H-LINE) フレームワークを開発した。 (i)最終的な出力だけでなく、対話的なプロセス (ii)第三者のアセスメントに限らず、一人称主観的な経験 (iii)品質以上の選好概念。 次に、さまざまな形式のインタラクションをキャプチャするために、目標指向からopen-endedまでの5つのタスクを設計します。 最先端の4つのLM(OpenAIのGPT-3とAI21のJ1-Jumboの3つの変種)では、非インタラクティブなパフォーマンスが必ずしも人間とLMの相互作用を改善するとは限らないこと、第一人物と第三者のメトリクスがばらつき、人間とLMの相互作用のニュアンスを調べることの重要性が示唆されている。

Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
翻訳日:2022-12-20 17:06:55 公開日:2022-12-19
# CoNLL-2003 は 2023 年に Entity Taggers と命名されるか?

Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023? ( http://arxiv.org/abs/2212.09747v1 )

ライセンス: Link先を確認
Shuheng Liu, Alan Ritter(参考訳) 名前付きエンティティ認識(NER)は自然言語処理において重要かつよく研究されたタスクである。 20年近く前に公開された古典的なCoNLL-2003英語データセットは、一般に名前付きエンティティタグのトレーニングと評価に使われている。 このデータセットの年齢は、現代のデータに適用した場合、これらのモデルがどのように機能するかという疑問を提起する。 本稿では,2020 年から収集されたデータを除いて,オリジナル CoNLL-2003 テストセットを可能な限り緊密に作成するためのプロセスを模倣した,新しいアノテートテストセットである CoNLL++ を提案する。 conll++を用いて20以上の異なるモデルの現代データへの一般化を評価する。 異なるモデルは、非常に異なる一般化挙動を持つ。 F\textsubscript{1}スコアは、最近のデータに基づいて事前トレーニングされた大きなトランスフォーマーベースのモデルで、静的な単語埋め込みを使ったモデルよりもはるかに少なく、RoBERTaベースのモデルとT5モデルは、CoNLL-2003とCoNLL++の両方で同等のF\textsubscript{1}スコアを得る。 我々の実験は、優れた一般化性を達成するためには、より大きなモデルを開発し、ドメイン内および最近のデータで事前学習を続けることが必要であることを示している。 これらの結果から,従来のCoNLL-2003データセットの性能向上に加えて,モデルが現代データに一般化できることが示唆された。

Named Entity Recognition (NER) is an important and well-studied task in natural language processing. The classic CoNLL-2003 English dataset, published almost 20 years ago, is commonly used to train and evaluate named entity taggers. The age of this dataset raises the question of how well these models perform when applied to modern data. In this paper, we present CoNLL++, a new annotated test set that mimics the process used to create the original CoNLL-2003 test set as closely as possible, except with data collected from 2020. Using CoNLL++, we evaluate the generalization of 20+ different models to modern data. We observe that different models have very different generalization behavior. F\textsubscript{1} scores of large transformer-based models which are pre-trained on recent data dropped much less than models using static word embeddings, and RoBERTa-based and T5 models achieve comparable F\textsubscript{1} scores on both CoNLL-2003 and CoNLL++. Our experiments show that achieving good generalizability requires a combined effort of developing larger models and continuing pre-training with in-domain and recent data. These results suggest standard evaluation methodology may have under-estimated progress on named entity recognition over the past 20 years; in addition to improving performance on the original CoNLL-2003 dataset, we have also improved the ability of our models to generalize to modern data.
翻訳日:2022-12-20 17:06:35 公開日:2022-12-19
# 単一・多目的混合整数ブラックボックス最適化のためのマージン付きCMA-ES

CMA-ES with Margin for Single-and Multi-Objective Mixed-Integer Black-Box Optimization ( http://arxiv.org/abs/2212.09260v1 )

ライセンス: Link先を確認
Ryoki Hamano, Shota Saito, Masahiro Nomura, Shinichi Shirakawa(参考訳) 本研究の目的は、連続変数と整数変数を同時に最適化する混合整数ブラックボックス最適化(MI-BBO)問題である。 本研究の焦点であるCMA-ESは,多変量ガウス分布(MGD)から解候補を抽出する確率探索法であり,連続BBOにおいて優れた性能を示す。 CMA-ESにおける候補解の評価値に基づいてMGD,平均および(共)分散のパラメータを更新する。 しかし、CMA-ESを直接離散化でMI-BBOに適用すると、整数変数に対応する分散は最適解に到達する前の離散化の粒度よりもはるかに小さくなり、最適化が停滞する。 特に、バイナリ変数が問題に含まれる場合、この停滞は、離散化の粒度が広くなり、既存のCMA-ESへの修正がこの停滞に対処しないため、より起こりやすい。 これらの制限を克服するために,MGDにおける整数変数の生成に伴う限界確率の低境界に基づくCMA-ESの簡易拡張を提案する。 MI-BBOベンチマーク問題に対する数値実験により,提案手法の有効性とロバスト性を示した。 さらに,提案手法の汎用性を示すために,単目的最適化の事例に加えて,多目的cma-esに組み込んで,bi-objective mixed-integerベンチマーク問題に対する性能検証を行った。

This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple extension of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.
翻訳日:2022-12-20 17:06:10 公開日:2022-12-19
# 情報ゲインを符号化する単語埋め込みの規範

Norm of word embedding encodes information gain ( http://arxiv.org/abs/2212.09663v1 )

ライセンス: Link先を確認
Momose Oyama, Sho Yokoi, Hidetoshi Shimodaira(参考訳) 単語の分散表現は語彙意味情報をエンコードするが、その情報はどのように単語埋め込みにエンコードされるのか? 単語埋め込みの2乗ノルムが,コーパスのユニグラム分布に対する単語の共起分布のkullback-leibler発散によって定義される情報ゲインを,理論的および実験的に符号化することを示す。 さらに,キーワード抽出,ハイパーニム予測,パート・オブ・スパイチ識別の課題について実験を行い,単語頻度によるバイアスが適切に補正されるように,埋め込み作業のkl発散と二乗規範を単語のインフォメーションネスの尺度として確認した。

Distributed representations of words encode lexical semantic information, but how is that information encoded in word embeddings? Focusing on the skip-gram with negative-sampling method, we show theoretically and experimentally that the squared norm of word embedding encodes the information gain defined by the Kullback-Leibler divergence of the co-occurrence distribution of a word to the unigram distribution of the corpus. Furthermore, through experiments on tasks of keyword extraction, hypernym prediction, and part-of-speech discrimination, we confirmed that the KL divergence and the squared norm of embedding work as a measure of the informativeness of a word provided that the bias caused by word frequency is adequately corrected.
翻訳日:2022-12-20 16:57:38 公開日:2022-12-19
# multicoder: 低リソースコード補完のためのマルチプログラミング言語事前学習

MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code Completion ( http://arxiv.org/abs/2212.09666v1 )

ライセンス: Link先を確認
Zi Gong, Yinpeng Guo, Pingyi Zhou, Cuiyun Gao, Yasheng Wang, Zenglin Xu(参考訳) コード補完は、学術と産業の両方で価値のあるトピックです。 近年、コード補完の性能を高めるために、モノプログラミング言語(monopl)事前学習モデルが提案されている。 しかし、低リソースプログラミング言語(PL)のコード補完は、データ駆動のパラダイムでは難しい。 一方,マルチプログラミング言語(MultiPL)によるコード補完の事前学習の効果,特に低リソースプログラミング言語への影響について検討する研究はほとんどない。 そこで本稿では,MultiPLプレトレーニングとMultiPL Mixture-of-Experts (MoE)レイヤによる低リソースコード補完を実現するためのMultiCoderを提案する。 さらに,全てのPLのコード補完を改善するため,PLレベルMOEルーティング戦略(PL-MoE)を提案する。 CodeXGLUEとMultiCCの実験結果 1)提案したMultiCoderは、低リソースプログラミング言語のMonoPLベースラインを著しく上回り、 2) PL-MoEモジュールは6つのプログラミング言語のパフォーマンスをさらに向上させる。 また,提案手法の効果を詳細に分析し,様々なシナリオにおける提案手法の有効性について検討した。

Code completion is a valuable topic in both academia and industry. Recently, large-scale mono-programming-lingual (MonoPL) pre-training models have been proposed to boost the performance of code completion. However, the code completion on low-resource programming languages (PL) is difficult for the data-driven paradigm, while there are plenty of developers using low-resource PLs. On the other hand, there are few studies exploring the effects of multi-programming-lingual (MultiPL) pre-training for the code completion, especially the impact on low-resource programming languages. To this end, we propose the MultiCoder to enhance the low-resource code completion via MultiPL pre-training and MultiPL Mixture-of-Experts (MoE) layers. We further propose a novel PL-level MoE routing strategy (PL-MoE) for improving the code completion on all PLs. Experimental results on CodeXGLUE and MultiCC demonstrate that 1) the proposed MultiCoder significantly outperforms the MonoPL baselines on low-resource programming languages, and 2) the PL-MoE module further boosts the performance on six programming languages. In addition, we analyze the effects of the proposed method in details and explore the effectiveness of our method in a variety of scenarios.
翻訳日:2022-12-20 16:57:23 公開日:2022-12-19
# Style Flow: 教師なしテキストスタイル転送のための正規化フローによる遠方潜在表現

StyleFlow: Disentangle Latent Representations via Normalizing Flow for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2212.09670v1 )

ライセンス: Link先を確認
Kangchen Zhu, Zhiliang Tian, Ruifeng Luo, Xiaoguang Mao(参考訳) テキストスタイルの転送は、コンテンツを保存しながら文のスタイルを変更することを目的としている。 並列コーパスの欠如により、最近の研究は教師なしの手法に焦点をあて、しばしばモデルの訓練にサイクル構成を用いる。 サイクル構成は、転送文を元の文に再構築することで、モデルのスタイル転送能力を向上させるため、教師なしのテキストスタイル転送タスクでコンテンツが失われる。 本稿では,コンテンツ保存性を高めるために,新しいアンタングル型スタイル転送モデルであるStyleFlowを提案する。 典型的なエンコーダ・デコーダ方式の代わりに、StyleFlowは出力を得るために前方プロセスを実行するだけでなく、出力を通して入力を推測する。 文のコンテンツ表現とスタイル表現をアンタングル化するために,注意を意識した結合層を設計する。 さらに,モデルのロバスト性を改善するために,正規化フローに基づくデータ拡張手法を提案する。 実験結果から,本モデルはコンテンツを効果的に保存し,ほとんどの指標で最先端のパフォーマンスを実現する。

Text style transfer aims to alter the style of a sentence while preserving its content. Due to the lack of parallel corpora, most recent work focuses on unsupervised methods and often uses cycle construction to train models. Since cycle construction helps to improve the style transfer ability of the model by rebuilding transferred sentences back to original-style sentences, it brings about a content loss in unsupervised text style transfer tasks. In this paper, we propose a novel disentanglement-based style transfer model StyleFlow to enhance content preservation. Instead of the typical encoder-decoder scheme, StyleFlow can not only conduct the forward process to obtain the output, but also infer to the input through the output. We design an attention-aware coupling layers to disentangle the content representations and the style representations of a sentence. Besides, we propose a data augmentation method based on Normalizing Flow to improve the robustness of the model. Experiment results demonstrate that our model preserves content effectively and achieves the state-of-the-art performance on the most metrics.
翻訳日:2022-12-20 16:57:05 公開日:2022-12-19
# LR-Sum:低リソース言語のための要約

LR-Sum: Summarization for Less-Resourced Languages ( http://arxiv.org/abs/2212.09674v1 )

ライセンス: Link先を確認
Chester Palen-Michel and Constantine Lignos(参考訳) LR-Sumは、低リソース言語の自動要約のさらなる研究を可能にするために作られた新しいパーミッシブライセンスデータセットである。 LR-Sumには40言語のための人間による要約が含まれており、その多くはオープンソースではない。 本稿では,多言語オープンテキストコーパス(Palen-Michel et al.,2022)からデータセットを抽出・フィルタリングするプロセスについて述べる。 ソースデータはVoice of Americaのウェブサイトから収集されたパブリックドメインのニュースワイヤであり、LR-SumはCreative Commonsライセンス(CC BY 4.0)の下でリリースされ、最もオープンにライセンスされた多言語要約データセットの1つである。 実験のモデリングにデータをどのように利用するかを説明し、データセットの制限について論じる。

This preprint describes work in progress on LR-Sum, a new permissively-licensed dataset created with the goal of enabling further research in automatic summarization for less-resourced languages. LR-Sum contains human-written summaries for 40 languages, many of which are less-resourced. We describe our process for extracting and filtering the dataset from the Multilingual Open Text corpus (Palen-Michel et al., 2022). The source data is public domain newswire collected from from Voice of America websites, and LR-Sum is released under a Creative Commons license (CC BY 4.0), making it one of the most openly-licensed multilingual summarization datasets. We describe how we plan to use the data for modeling experiments and discuss limitations of the dataset.
翻訳日:2022-12-20 16:56:46 公開日:2022-12-19
# ヘブライ語NLPの多言語列列列モデル

Multilingual Sequence-to-Sequence Models for Hebrew NLP ( http://arxiv.org/abs/2212.09682v1 )

ライセンス: Link先を確認
Matan Eyal, Hila Noga, Roee Aharoni, Idan Szpektor, Reut Tsarfaty(参考訳) 近年のNLPから大規模言語モデル (LM) への進歩は, モデルサイズが増加し, 事前学習データが多くなった。 それにもかかわらず、現在のヘブライ語における最先端のLMは、他の言語でのLMと比較して、パラメータが低く、訓練を受けていない。 さらに、前任のヘブライのLMはエンコーダのみのモデルに重点を置いていた。 エンコーダのみのアーキテクチャは分類タスクに有用であるが、ヘブライ語の形態学的に豊かな性質を考えると、名前付きエンティティ認識のようなサブワード予測タスクには適さない。 本稿では、ヘブライ語のような形態的にリッチな言語(MRL)の場合、シーケンス・ツー・シーケンス生成アーキテクチャはLLMにより適していると論じる。 我々は,ヘブライ語NLPパイプラインのタスクをテキスト・トゥ・テキストタスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。 提案手法を用いて,既存のヘブライ NLP ベンチマークで得られた結果よりも大幅に改善した。 これらの結果は,多言語列列列モデルがMRLのためのNLP構築ブロックとなることを示唆している。

Recent work attributes progress in NLP to large language models (LMs) with increased model size and large quantities of pretraining data. Despite this, current state-of-the-art LMs for Hebrew are both under-parameterized and under-trained compared to LMs in other languages. Additionally, previous work on pretrained Hebrew LMs focused on encoder-only models. While the encoder-only architecture is beneficial for classification tasks, it does not cater well for sub-word prediction tasks, such as Named Entity Recognition, when considering the morphologically rich nature of Hebrew. In this paper we argue that sequence-to-sequence generative architectures are more suitable for LLMs in the case of morphologically rich languages (MRLs) such as Hebrew. We demonstrate that by casting tasks in the Hebrew NLP pipeline as text-to-text tasks, we can leverage powerful multilingual, pretrained sequence-to-sequence models as mT5, eliminating the need for a specialized, morpheme-based, separately fine-tuned decoder. Using this approach, our experiments show substantial improvements over previously published results on existing Hebrew NLP benchmarks. These results suggest that multilingual sequence-to-sequence models present a promising building block for NLP for MRLs.
翻訳日:2022-12-20 16:56:33 公開日:2022-12-19
# 早期誤情報検出のためのループ内ヒト評価 : COVID-19治療の事例

Human-in-the-loop Evaluation for Early Misinformation Detection: A Case Study of COVID-19 Treatments ( http://arxiv.org/abs/2212.09683v1 )

ライセンス: Link先を確認
Ethan Mendes, Yang Chen, Alan Ritter, Wei Xu(参考訳) 本稿では,新たな誤情報主張を事実チェックし,関連するポリシーに違反するソーシャルメディアメッセージを特定するための,ループ内評価フレームワークを提案する。 提案手法は,チェック価値の高いクレームの構造化表現を抽出し,レビュー用に集計・ランク付けする。 スタンス分類器は、新しい誤った情報クレームをサポートするツイートを識別するために使用され、関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。 提案手法の有効性を実証するため,HIV治療領域におけるヒト・イン・ザ・ループファクトチェックのための最新のNLP法に基づくベースラインシステムを開発した。 当社のベースラインシステムを用いて、人間のファクトチェッカーがcovid-19の誤った情報に対するtwitterのポリシーに違反する1時間に114ツイートを識別できることを示しました。 生のユーザ生成コンテンツから直接、新たな誤情報を識別するループシステムの評価を支援するために、コード、データ、詳細なガイドラインを公開します。

We present a human-in-the-loop evaluation framework for fact-checking novel misinformation claims and identifying social media messages that violate relevant policies. Our approach extracts structured representations of check-worthy claims, which are aggregated and ranked for review. Stance classifiers are then used to identify tweets supporting novel misinformation claims, which are further reviewed to determine whether they violate relevant policies. To demonstrate the feasibility of our approach, we develop a baseline system based on modern NLP methods for human-in-the-loop fact-checking in the domain of COVID-19 treatments. Using our baseline system, we show that human fact-checkers can identify 124 tweets per hour that violate Twitter's policies on COVID-19 misinformation. We will make our code, data, and detailed annotation guidelines available to support the evaluation of human-in-the-loop systems that identify novel misinformation directly from raw user-generated content.
翻訳日:2022-12-20 16:56:11 公開日:2022-12-19
# 言語生成モデルに対する自然なバイアス

A Natural Bias for Language Generation Models ( http://arxiv.org/abs/2212.09686v1 )

ライセンス: Link先を確認
Clara Meister, Wojciech Stokowiec, Tiago Pimentel, Lei Yu, Laura Rimell, Adhiguna Kuncoro(参考訳) ほんの数百のトレーニング更新の後、言語生成の標準的な確率モデルは、自然言語の多くの意味論や構文規則をまだ学ばない可能性が高いため、本質的に次のトークンよりも適切な確率分布を推定することは困難である。 しかし、この時点でこれらのモデルでは、目標トレーニングコーパスのユニグラム分布を出力する、単純な損失最小化動作を特定している。 このような粗末なヒューリスティックの使用は、この戦略を早期のトレーニング段階で学習するために、貴重な計算資源とモデル能力を無駄にするのではなく、この行動でモデルを初期化できるだろうか? そこで本研究では,一グラムの周波数統計を先行知識として反映した別モジュールを効果的に構築できることを述べる。 モデルの最終線形層におけるバイアス項を対数ユニグラム分布で初期化する。 神経機械翻訳の実験では この単純なテクニックが示されています (i)学習効率の向上。 (ii)全体的なパフォーマンスが向上し、 (iii) 強い周波数効果を弱め,非周波数関連言語に特化するようモデルに促す。

After just a few hundred training updates, a standard probabilistic model for language generation has likely not yet learnt many semantic or syntactic rules of natural language, which inherently makes it difficult to estimate the right probability distribution over next tokens. Yet around this point, these models have identified a simple, loss-minimising behaviour: to output the unigram distribution of the target training corpus. The use of such a crude heuristic raises the question: Rather than wasting precious compute resources and model capacity for learning this strategy at early training stages, can we initialise our models with this behaviour? Here, we show that we can effectively endow our model with a separate module that reflects unigram frequency statistics as prior knowledge. Standard neural language generation architectures offer a natural opportunity for implementing this idea: by initialising the bias term in a model's final linear layer with the log-unigram distribution. Experiments in neural machine translation demonstrate that this simple technique: (i) improves learning efficiency; (ii) achieves better overall performance; and (iii) appears to disentangle strong frequency effects, encouraging the model to specialise in non-frequency-related aspects of language.
翻訳日:2022-12-20 16:55:55 公開日:2022-12-19
# テンプレート解釈項によるオープンテクスチャルールの緩和

Resoling Open-textured Rules with Templated Interpretive Arguments ( http://arxiv.org/abs/2212.09700v1 )

ライセンス: Link先を確認
John Licato, Logan Fields, Zaid Marji(参考訳) 書面規則のオープンテキスト用語は、典型的には解釈的議論によって解決される。 現在進行中の作業は、そのような解釈的議論で使われるスキームのカタログ化を試みた。 しかし、これらのスキームの使用は、人々が実際に使う方法や、オープンテクスチャの適切な解釈に対する理屈にどのように影響しますか? Aporia を我々の枠組みとして解釈的議論緩和ゲームを用いて,この問題に対処するための実証的研究を行った。 従来の研究とは違って、参加者は任意に解釈を議論することは許されず、ある解釈的議論テンプレートのセットに適合する引数のみを使用するようにしました。 最後に,この新しいデータセットで得られた結果を分析し,解釈可能な人工的推論器の開発に向けた実践的意義に焦点を当てた。

Open-textured terms in written rules are typically settled through interpretive argumentation. Ongoing work has attempted to catalogue the schemes used in such interpretive argumentation. But how can the use of these schemes affect the way in which people actually use and reason over the proper interpretations of open-textured terms? Using the interpretive argument-eliciting game Aporia as our framework, we carried out an empirical study to answer this question. Differing from previous work, we did not allow participants to argue for interpretations arbitrarily, but to only use arguments that fit with a given set of interpretive argument templates. Finally, we analyze the results captured by this new dataset, specifically focusing on practical implications for the development of interpretation-capable artificial reasoners.
翻訳日:2022-12-20 16:55:35 公開日:2022-12-19
# maner: 極端な低リソース言語のための仮称エンティティ認識のマスク

MANER: Mask Augmented Named Entity Recognition for Extreme Low-Resource Languages ( http://arxiv.org/abs/2212.09723v1 )

ライセンス: Link先を確認
Shashank Sonkar, Zichao Wang, Richard G. Baraniuk(参考訳) 本稿では,数百個のタグ付きデータサンプルを持つ極低リソース言語における名前付きエンティティ認識(NER)の問題について検討する。 NERは自然言語処理(NLP)の基本課題である。 nerシステムの進歩を加速する重要なドライバは、nerシステムが豊富なトレーニングデータを持つ英語やフランス語などの言語で優れたパフォーマンスを達成することができる大規模言語コーパスの存在である。 しかし、低リソース言語に対するnerは比較的未調査のままである。 本稿では,nerのための事前学習されたマスク言語モデル(mlms)の分布仮説を活用する新しい手法である,マスク拡張型名前付きエンティティ認識(maner)を提案する。 事前訓練されたMLMの<mask>トークンは、貴重な意味的コンテキスト情報をエンコードする。 MANERはNER予測のために<mask>トークンを再使用する。 具体的には、名前付きエンティティタグを予測したい文中のすべての単語に<mask>トークンをプリペイドします。 トレーニング中は,MLMと<mask>トークンに付加された新しいNER予測ヘッドを共同で微調整する。 我々は、MANERが低リソース言語でNERに適していることを示し、100のトレーニング例が少ない100の言語では、最先端のメソッドを最大48%改善し、F1スコアで平均12%改善することを示した。 我々はまた、MANERに最も適したシナリオを理解するために、詳細な分析およびアブレーション研究を行う。

This paper investigates the problem of Named Entity Recognition (NER) for extreme low-resource languages with only a few hundred tagged data samples. NER is a fundamental task in Natural Language Processing (NLP). A critical driver accelerating NER systems' progress is the existence of large-scale language corpora that enable NER systems to achieve outstanding performance in languages such as English and French with abundant training data. However, NER for low-resource languages remains relatively unexplored. In this paper, we introduce Mask Augmented Named Entity Recognition (MANER), a new methodology that leverages the distributional hypothesis of pre-trained masked language models (MLMs) for NER. The <mask> token in pre-trained MLMs encodes valuable semantic contextual information. MANER re-purposes the <mask> token for NER prediction. Specifically, we prepend the <mask> token to every word in a sentence for which we would like to predict the named entity tag. During training, we jointly fine-tune the MLM and a new NER prediction head attached to each <mask> token. We demonstrate that MANER is well-suited for NER in low-resource languages; our experiments show that for 100 languages with as few as 100 training examples, it improves on state-of-the-art methods by up to 48% and by 12% on average on F1 score. We also perform detailed analyses and ablation studies to understand the scenarios that are best-suited to MANER.
翻訳日:2022-12-20 16:55:22 公開日:2022-12-19
# LENS: テキスト単純化のための学習可能な評価基準

LENS: A Learnable Evaluation Metric for Text Simplification ( http://arxiv.org/abs/2212.09739v1 )

ライセンス: Link先を確認
Mounica Maddela, Yao Dou, David Heineman, Wei Xu(参考訳) 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。 しかし、テキスト単純化における既存の人間評価データセットは、アノテーション、ユニタリな単純化型、時代遅れのモデルが欠如しているため、このアプローチには適さない。 SIMPEVAL_ASSETは24のシステムの2.4Kの簡易化に12Kの人格評価を組み、SIMPEVAL_2022はGPT-3.5の世代を含む360の人格評価を1万以上の人格評価から成る挑戦的な単純化ベンチマークである。 SIMPEVAL_ASSETを用いたテキスト簡易化のための学習可能な評価指標LENSを提案する。 大規模な実証実験の結果,LENSは既存の指標よりも人間の判断と相関し,テキストの単純化評価における今後の進歩の道を開いた。 SIMPEVALデータセットを作成するために,対話型インターフェースを活用することで,複数のモデルからの単純化をリストワイズで評価し,評価プロセスにおける一貫性と精度を両立させる,RANK & RATEを導入した。 メトリック、データセット、アノテーションツールキットはhttps://github.com/Yao-Dou/LENS.orgで公開されています。

Training learnable metrics using modern language models has recently emerged as a promising method for the automatic evaluation of machine translation. However, existing human evaluation datasets in text simplification are limited by a lack of annotations, unitary simplification types, and outdated models, making them unsuitable for this approach. To address these issues, we introduce the SIMPEVAL corpus that contains: SIMPEVAL_ASSET, comprising 12K human ratings on 2.4K simplifications of 24 systems, and SIMPEVAL_2022, a challenging simplification benchmark consisting of over 1K human ratings of 360 simplifications including generations from GPT-3.5. Training on SIMPEVAL_ASSET, we present LENS, a Learnable Evaluation Metric for Text Simplification. Extensive empirical results show that LENS correlates better with human judgment than existing metrics, paving the way for future progress in the evaluation of text simplification. To create the SIMPEVAL datasets, we introduce RANK & RATE, a human evaluation framework that rates simplifications from several models in a list-wise manner by leveraging an interactive interface, which ensures both consistency and accuracy in the evaluation process. Our metric, dataset, and annotation toolkit are available at https://github.com/Yao-Dou/LENS.
翻訳日:2022-12-20 16:54:59 公開日:2022-12-19
# マルチホップ質問応答におけるラベル平滑化の再考

Rethinking Label Smoothing on Multi-hop Question Answering ( http://arxiv.org/abs/2212.09512v1 )

ライセンス: Link先を確認
Zhangyue Yin, Yuxin Wang, Yiguang Wu, Hang Yan, Xiannian Hu, Xinyu Zhang, Zhao Cao, Xuanjing Huang, Xipeng Qiu(参考訳) ラベルスムーシング(英: Label smoothing)は、画像分類や機械翻訳などの様々なタスクにおけるモデルの一般化を改善するために教師あり学習で広く用いられている正規化手法である。 しかし,マルチホップ質問応答(MHQA)におけるラベル平滑化の有効性については,まだ十分に研究されていない。 本稿では,MHQAの各種モジュールにおけるラベル平滑化の役割を体系的に解析し,機械読解タスクに特化して設計された新しいラベル平滑化技術であるF1平滑化を提案する。 提案手法をhotpotqaデータセット上で評価し,複雑な注意機構を用いたモデルを含む,いくつかの強力なベースラインに対してその優越性を示す。 その結果,mhqaではラベル平滑化が有効であることが示唆されたが,平滑化戦略の選択は性能に大きな影響を与える可能性がある。

Label smoothing is a regularization technique widely used in supervised learning to improve the generalization of models on various tasks, such as image classification and machine translation. However, the effectiveness of label smoothing in multi-hop question answering (MHQA) has yet to be well studied. In this paper, we systematically analyze the role of label smoothing on various modules of MHQA and propose F1 smoothing, a novel label smoothing technique specifically designed for machine reading comprehension (MRC) tasks. We evaluate our method on the HotpotQA dataset and demonstrate its superiority over several strong baselines, including models that utilize complex attention mechanisms. Our results suggest that label smoothing can be effective in MHQA, but the choice of smoothing strategy can significantly affect performance.
翻訳日:2022-12-20 16:48:35 公開日:2022-12-19
# マスキング自己学習による質問応答のためのソースフリードメイン適応

Source-Free Domain Adaptation for Question Answering with Masked Self-training ( http://arxiv.org/abs/2212.09563v1 )

ライセンス: Link先を確認
M. Yin, B. Wang, Y. Dong, C. Ling(参考訳) 質問応答(QA)のための従来の教師なしドメイン適応(UDA)メソッドは、ターゲットドメインのモデルを微調整しながらソースドメインデータにアクセスする必要がある。 しかし、ソースドメインデータは機密情報を含み、制限されることもある。 本研究では、ソースドメインデータにアクセスすることなく、事前訓練されたソースモデルとターゲットドメインデータしか持たない、より困難な、ソースフリーなUDAについて検討する。 ドメイン適応のためのユニークなマスクモジュールを統合するQAモデルに対する新しい自己学習手法を提案する。 マスクは自動調整され、ソースドメインでトレーニングしながらキードメインの知識を抽出する。 予め学習したドメイン知識を維持するために、特定のマスク重みは適応中に凍結され、他の重み付けはターゲットドメインで生成された擬似ラベルサンプルでドメインシフトを緩和するように調整される。 %) , 自己学習の一環として, ソース領域でトレーニングされたモデルに基づいて, 対象領域で擬似ラベルサンプルを生成する。 4つのベンチマークデータセットに対する実験結果から,本手法は対象領域における事前学習されたQAモデルの性能を著しく向上させ,適応中にソースデータにアクセス可能なモデルよりも優れていることが示唆された。

Most previous unsupervised domain adaptation (UDA) methods for question answering(QA) require access to source domain data while fine-tuning the model for the target domain. Source domain data may, however, contain sensitive information and may be restricted. In this study, we investigate a more challenging setting, source-free UDA, in which we have only the pretrained source model and target domain data, without access to source domain data. We propose a novel self-training approach to QA models that integrates a unique mask module for domain adaptation. The mask is auto-adjusted to extract key domain knowledge while trained on the source domain. To maintain previously learned domain knowledge, certain mask weights are frozen during adaptation, while other weights are adjusted to mitigate domain shifts with pseudo-labeled samples generated in the target domain. %As part of the self-training process, we generate pseudo-labeled samples in the target domain based on models trained in the source domain. Our empirical results on four benchmark datasets suggest that our approach significantly enhances the performance of pretrained QA models on the target domain, and even outperforms models that have access to the source data during adaptation.
翻訳日:2022-12-20 16:48:16 公開日:2022-12-19
# NLPにおけるプライバシ・アヒーリングマシンの非学習

Privacy Adhering Machine Un-learning in NLP ( http://arxiv.org/abs/2212.09573v1 )

ライセンス: Link先を確認
Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah, Dan Roth(参考訳) EUやカリフォルニア州消費者プライバシ法(CCPA)においてGDPR(General Data Protection Regulation)が導入した規制には、業界アプリケーションに対して、個人に関連するデータをシステムから削除するよう義務付ける「textit{right to be forget}」という規定が含まれている。 ユーザデータ上にモデルを構築するために機械学習を使用するいくつかの現実世界のアプリケーションでは、データクリーニングとモデルリトレーニングの両方において、モデルがデータ削除によって予測品質を低下させないために、大きな労力を要する。 その結果、このような要求を非常に高い頻度で受信した場合、データの連続的な削除とモデルのリトレーニングステップはスケールしない。 最近、いくつかの研究者がこの課題に取り組むために \textit{machine unlearning} というアイデアを提案した。 このタスクの重要な重要性にもかかわらず、機械学習の分野は自然言語処理(nlp)タスクにおいて未熟である。 本稿では,様々なGLUEタスクであるQQP,SST,MNLIのUnlearningフレームワークについて検討する。 計算効率の高い手法 (sisa-fc と sisa-a) を用いて, モデル性能を一定に保ちつつ, メモリ (90-95\%), 時間 (100x) と空間消費 (99\%) の両方について, 有意な削減をもたらす \textit{guaranteed} unlearning を行う。

Regulations introduced by General Data Protection Regulation (GDPR) in the EU or California Consumer Privacy Act (CCPA) in the US have included provisions on the \textit{right to be forgotten} that mandates industry applications to remove data related to an individual from their systems. In several real world industry applications that use Machine Learning to build models on user data, such mandates require significant effort both in terms of data cleansing as well as model retraining while ensuring the models do not deteriorate in prediction quality due to removal of data. As a result, continuous removal of data and model retraining steps do not scale if these applications receive such requests at a very high frequency. Recently, a few researchers proposed the idea of \textit{Machine Unlearning} to tackle this challenge. Despite the significant importance of this task, the area of Machine Unlearning is under-explored in Natural Language Processing (NLP) tasks. In this paper, we explore the Unlearning framework on various GLUE tasks \cite{Wang:18}, such as, QQP, SST and MNLI. We propose computationally efficient approaches (SISA-FC and SISA-A) to perform \textit{guaranteed} Unlearning that provides significant reduction in terms of both memory (90-95\%), time (100x) and space consumption (99\%) in comparison to the baselines while keeping model performance constant.
翻訳日:2022-12-20 16:47:56 公開日:2022-12-19
# CiteBench:Scientific Citation Text Generationのベンチマーク

CiteBench: A benchmark for Scientific Citation Text Generation ( http://arxiv.org/abs/2212.09577v1 )

ライセンス: Link先を確認
Martin Funkquist, Ilia Kuznetsov, Yufang Hou and Iryna Gurevych(参考訳) 出版率は多くの科学分野にまたがって急上昇しており、最新の研究に追随することは困難である。 これにより、最新の発見を自動的に要約し、研究者が特定の領域における関連する研究を魅力的な研究目的として合成する手助けをする。 本稿では,引用テキスト生成の問題について検討し,引用された論文の集合と引用された文脈が引用テキストを生成する。 引用テキスト生成は従来から行われているが、既存の研究ではデータセットやタスク定義が異なるため、引用テキスト生成を体系的に研究することは困難である。 そこで本稿では,これまでのデータセットを統一し,タスク設定とドメイン間での引用テキスト生成モデルの標準化評価を可能にする,引用テキスト生成ベンチマークであるcitebenchを提案する。 新しいベンチマークを用いて、複数の強いベースラインの性能を調査し、データセット間の転送可能性を確認し、タスク定義と評価に関する新たな洞察を提供し、引用テキスト生成における今後の研究を導く。 CiteBenchをhttps://github.com/UKPLab/citebench.comで公開しています。

The publication rates are skyrocketing across many fields of science, and it is difficult to stay up to date with the latest research. This makes automatically summarizing the latest findings and helping scholars to synthesize related work in a given area an attractive research objective. In this paper we study the problem of citation text generation, where given a set of cited papers and citing context the model should generate a citation text. While citation text generation has been tackled in prior work, existing studies use different datasets and task definitions, which makes it hard to study citation text generation systematically. To address this, we propose CiteBench: a benchmark for citation text generation that unifies the previous datasets and enables standardized evaluation of citation text generation models across task settings and domains. Using the new benchmark, we investigate the performance of multiple strong baselines, test their transferability between the datasets, and deliver new insights into task definition and evaluation to guide the future research in citation text generation. We make CiteBench publicly available at https://github.com/UKPLab/citebench.
翻訳日:2022-12-20 16:47:28 公開日:2022-12-19
# 意味的特徴を表す単語埋め込みの独立成分

Independent Components of Word Embeddings Represent Semantic Features ( http://arxiv.org/abs/2212.09580v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Musil and David Mare\v{c}ek(参考訳) 独立成分分析(Independent Component Analysis, ICA)は、もともと同じ部屋の複数の人が同時に話す記録など、混合信号で別々のソースを見つけるために開発されたアルゴリズムである。 分布表現における言語的特徴を見つけるためにも用いられる。 本稿では,ICAを用いて単語の埋め込みを分析した。 ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索できることがわかった。 独立成分のいくつかだけがそのような特徴を表すが、アルゴリズムのランダムな初期化に関しては安定であることを示す。

Independent Component Analysis (ICA) is an algorithm originally developed for finding separate sources in a mixed signal, such as a recording of multiple people in the same room speaking at the same time. It has also been used to find linguistic features in distributional representations. In this paper, we used ICA to analyze words embeddings. We have found that ICA can be used to find semantic features of the words and these features can easily be combined to search for words that satisfy the combination. We show that only some of the independent components represent such features, but those that do are stable with regard to random initialization of the algorithm.
翻訳日:2022-12-20 16:47:11 公開日:2022-12-19
# 教師なし共同モデリングによる問合せ強化型知識集約会話

Query Enhanced Knowledge-Intensive Conversation via Unsupervised Joint Modeling ( http://arxiv.org/abs/2212.09588v1 )

ライセンス: Link先を確認
Mingzhu Cai, Siqi Bao, Xin Tian, Huang He, Fan Wang, Hua Wu(参考訳) 知識検索の質は知識集約的な会話において重要である。 検索品質を改善するための2つの一般的な戦略は、検索器を微調整したり、自己完結したクエリを生成することである。 本稿では,知識集約型会話,すなわちQKConvに対する教師なしクエリ強化手法を提案する。 QKConvには、クエリジェネレータ、既製の知識セレクタ、レスポンスジェネレータの3つのモジュールがある。 追加の監督がなければ、qkconvのエンドツーエンド合同トレーニングは複数の候補クエリを探索し、選択した知識を利用してターゲット応答を得る。 提案手法の有効性を評価するため,対話型質問応答,タスク指向対話,知識に基づく会話に関する総合的な実験を行った。 実験結果から,QKConvは教師なし手法と比較して最先端性能と,教師なし手法と比較して競争性能を達成できた。

The quality of knowledge retrieval is crucial in knowledge-intensive conversations. Two common strategies to improve the retrieval quality are finetuning the retriever or generating a self-contained query, while they encounter heavy burdens on expensive computation and elaborate annotations. In this paper, we propose an unsupervised query enhanced approach for knowledge-intensive conversations, namely QKConv. There are three modules in QKConv: a query generator, an off-the-shelf knowledge selector, and a response generator. Without extra supervision, the end-to-end joint training of QKConv explores multiple candidate queries and utilizes corresponding selected knowledge to yield the target response. To evaluate the effectiveness of the proposed method, we conducted comprehensive experiments on conversational question-answering, task-oriented dialogue, and knowledge-grounded conversation. Experimental results demonstrate that QKConv achieves state-of-the-art performance compared to unsupervised methods and competitive performance compared to supervised methods.
翻訳日:2022-12-20 16:46:59 公開日:2022-12-19
# 教師なし要約の再評価

Unsupervised Summarization Re-ranking ( http://arxiv.org/abs/2212.09593v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy Chen(参考訳) PEGASUSのような抽象的な要約モデルは、タスク固有の事前学習目標の増大に伴い、下流の要約タスクにおいて魅力的なゼロショットパフォーマンスを提供する。 しかし、そのような教師なしモデルの性能は教師なしモデルよりもかなり遅れている。 教師付きセットアップと同様に、これらのモデルからの要約候補間の品質の非常に高いばらつきに気づき、一方、1つの候補のみが要約出力として保持される。 本稿では,教師なしモデルと教師なしモデルの性能差を縮めるために,教師なし方式で要約候補をランク付けすることを提案する。 提案手法は,事前教師なしペガサスを4つの一般的な要約ベンチマークで4.37%から7.27%に改善し,平均30回の転送を平均して7.51%(最大23.73%)向上した。

With the rise of task-specific pre-training objectives, abstractive summarization models like PEGASUS offer appealing zero-shot performance on downstream summarization tasks. However, the performance of such unsupervised models still lags significantly behind their supervised counterparts. Similarly to the supervised setup, we notice a very high variance in quality among summary candidates from these models whereas only one candidate is kept as the summary output. In this paper, we propose to re-rank summary candidates in an unsupervised manner, aiming to close the performance gap between unsupervised and supervised models. Our approach improves the pre-trained unsupervised PEGASUS by 4.37% to 7.27% relative mean ROUGE across four widely-adopted summarization benchmarks, and achieves relative gains of 7.51% (up to 23.73%) averaged over 30 transfer setups.
翻訳日:2022-12-20 16:46:42 公開日:2022-12-19
# 情報ボトルネックによる説明再生

Explanation Regeneration via Information Bottleneck ( http://arxiv.org/abs/2212.09603v1 )

ライセンス: Link先を確認
Qintong Li, Zhiyong Wu, Lingpeng Kong, Wei Bi(参考訳) NLPモデルのブラックボックス予測を自然かつ正確に記述することは、自然言語生成において重要なオープン問題である。 これらのフリーテキストの説明は、予測に対する支持的な議論を形成するのに十分な、慎重に選択された証拠を含むことが期待されている。 大規模な事前学習型言語モデルの生成能力が優れているため,最近の技術開発により,特定の訓練を伴わない説明生成が可能となった。 しかし、シングルパスによる説明は、しばしば十分で簡潔さに欠ける。 この問題に対処するために,情報ボトルネック手法 EIB を開発し,十分かつ簡潔な説明文を生成する。 本手法は,事前学習した言語モデルから単一パス出力を洗練し,説明内容を支援する情報を保持することにより,自由テキスト説明を再生する。 2つの領域外タスクの実験は、自動評価と徹底した人的評価により、ERBの有効性を検証する。

Explaining the black-box predictions of NLP models naturally and accurately is an important open problem in natural language generation. These free-text explanations are expected to contain sufficient and carefully-selected evidence to form supportive arguments for predictions. Due to the superior generative capacity of large pretrained language models, recent work built on prompt engineering enables explanation generation without specific training. However, explanation generated through single-pass prompting often lacks sufficiency and conciseness. To address this problem, we develop an information bottleneck method EIB to produce refined explanations that are sufficient and concise. Our approach regenerates the free-text explanation by polishing the single-pass output from the pretrained language model but retaining the information that supports the contents being explained. Experiments on two out-of-domain tasks verify the effectiveness of EIB through automatic evaluation and thoroughly-conducted human evaluation.
翻訳日:2022-12-20 16:46:25 公開日:2022-12-19
# 低リソース言語のための言語横断検索プロンプト

Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages ( http://arxiv.org/abs/2212.09651v1 )

ライセンス: Link先を確認
Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Sch\"utze(参考訳) 多言語前訓練言語モデル(mplms)は、最近の経験的言語間移行研究において、その強い多言語性を示している。 本稿では,低リソース言語 (LRL) におけるゼロショット性能を向上させるために,高リソース言語 (HRL) から取得した意味的に類似した文をプロンプトとして拡張することにより,Pmpts Augmented by Retrieval Crosslingually (PARC) パイプラインを提案する。 PARCは3つの下流タスク(バイナリ感情分類、トピック分類、自然言語推論)におけるゼロショットのパフォーマンスを改善し、ラベルなし設定(+5.1%)とラベル付き設定(+16.3%)の6つの言語ファミリーをカバーする10のLRLにわたる多言語並列テストセットを提供する。 PARC-labeledは微調整ベースラインを3.7%上回っている。 その結果,一方の言語間伝達性能と高・低リソース言語間の類似性,他方の低リソースプリトレーニングデータの量との間に有意な相関が認められた。 堅牢性分析は、PARCがより強力なMPLMでさらに強力な性能を達成する可能性を示唆している。

Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs.
翻訳日:2022-12-20 16:46:11 公開日:2022-12-19
# nlpにおけるコードスイッチング研究の数十年の歩み--トレンドと課題に関する体系的調査

The Decades Progress on Code-Switching Research in NLP: A Systematic Survey on Trends and Challenges ( http://arxiv.org/abs/2212.09660v1 )

ライセンス: Link先を確認
Genta Indra Winata, Alham Fikri Aji, Zheng-Xin Yong, Thamar Solorio(参考訳) テキストと会話の共通する現象であるコードスイッチングは、自然言語処理(NLP)研究コミュニティによって数十年にわたって研究されてきた。 当初、コードスイッチは言語理論を活用し、現在、モデルを開発するための機械学習指向のアプローチによって、集中的に検討されている。 本稿では,自然言語処理におけるコード切り換え研究に関する総合的な体系的調査を行い,過去数十年の進歩を理解し,その課題と課題を概念化する。 最後に,その傾向と調査結果を要約し,今後の方向性と今後の調査に向けた公開質問について考察する。

Code-Switching, a common phenomenon in written text and conversation, has been studied over decades by the natural language processing (NLP) research community. Initially, code-switching is intensively explored by leveraging linguistic theories and, currently, more machine-learning oriented approaches to develop models. We introduce a comprehensive systematic survey on code-switching research in natural language processing to understand the progress of the past decades and conceptualize the challenges and tasks on the code-switching topic. Finally, we summarize the trends and findings and conclude with a discussion for future direction and open questions for further investigation.
翻訳日:2022-12-20 16:45:49 公開日:2022-12-19
# 統計データセットの評価:信頼性、難易度、妥当性

Statistical Dataset Evaluation: Reliability, Difficulty, and Validity ( http://arxiv.org/abs/2212.09272v1 )

ライセンス: Link先を確認
Chengwen Wang, Qingxiu Dong, Xiaochen Wang, Haitao Wang and Zhifang Sui(参考訳) データセットは重要なトレーニングリソースとモデルパフォーマンストラッカとして機能します。 しかし、既存のデータセットは多数の問題を明らかにし、バイアス付きモデルや信頼性の低い評価結果を誘導している。 本稿では,自動データセット品質評価のためのモデル非依存なデータセット評価フレームワークを提案する。 データセットの統計的性質を求め,信頼性,難易度,妥当性という3つの基本的な次元を古典的テスト理論に従って扱う。 名前付きエンティティ認識(NER)データセットをケーススタディとして、統計的データセット評価フレームワークに9ドルの統計指標を導入する。 実験結果と人的評価により,評価フレームワークはデータセットの品質の様々な側面を効果的に評価する。 さらに,我々の統計指標におけるデータセットスコアがモデル性能に与える影響について検討し,トレーニングやテスト前のデータセット品質評価や目標データセットの改善に訴求する。

Datasets serve as crucial training resources and model performance trackers. However, existing datasets have exposed a plethora of problems, inducing biased models and unreliable evaluation results. In this paper, we propose a model-agnostic dataset evaluation framework for automatic dataset quality evaluation. We seek the statistical properties of the datasets and address three fundamental dimensions: reliability, difficulty, and validity, following a classical testing theory. Taking the Named Entity Recognition (NER) datasets as a case study, we introduce $9$ statistical metrics for a statistical dataset evaluation framework. Experimental results and human evaluation validate that our evaluation framework effectively assesses various aspects of the dataset quality. Furthermore, we study how the dataset scores on our statistical metrics affect the model performance, and appeal for dataset quality evaluation or targeted dataset improvement before training or testing models.
翻訳日:2022-12-20 16:39:36 公開日:2022-12-19
# インドの母語音韻がl2英語発音に与える影響の検討

An Investigation of Indian Native Language Phonemic Influences on L2 English Pronunciations ( http://arxiv.org/abs/2212.09284v1 )

ライセンス: Link先を確認
Shelly Jain, Priyanshi Pal, Anil Vuppala, Prasanta Ghosh, Chiranjeevi Yarra(参考訳) 音声システムはアクセントの変化に敏感である。 これはインドの文脈では特に困難であり、言語は豊富であるが、発音のバリエーションを特徴付ける言語研究が盛んである。 インドにおけるL2英語話者の増加は、アクセントとL1-L2相互作用を研究する必要性を強化している。 インド英語話者(ie)のアクセントを調査し、我々の観察を詳細に報告した。 特に、話者の母国語で発生する音韻変化と音韻学的特徴を観察し、これを英語の発音に適用する。 既存の文献から得られた発音と,80名の話者による音韻アノテート音声との比較により,18ヶ国語がieに与える影響を実証した。 その結果、インド語音韻学の観点から発音規則を正当化することにより、インド語がie発音に与える影響の直観を検証できる。 インドのアクセントに対して既存のASRおよびTSシステムのアクセント変換と適応を容易にするIEの普遍的特徴と地域特化特性を総合的に記述する。

Speech systems are sensitive to accent variations. This is especially challenging in the Indian context, with an abundance of languages but a dearth of linguistic studies characterising pronunciation variations. The growing number of L2 English speakers in India reinforces the need to study accents and L1-L2 interactions. We investigate the accents of Indian English (IE) speakers and report in detail our observations, both specific and common to all regions. In particular, we observe the phonemic variations and phonotactics occurring in the speakers' native languages and apply this to their English pronunciations. We demonstrate the influence of 18 Indian languages on IE by comparing the native language pronunciations with IE pronunciations obtained jointly from existing literature studies and phonetically annotated speech of 80 speakers. Consequently, we are able to validate the intuitions of Indian language influences on IE pronunciations by justifying pronunciation rules from the perspective of Indian language phonology. We obtain a comprehensive description in terms of universal and region-specific characteristics of IE, which facilitates accent conversion and adaptation of existing ASR and TTS systems to different Indian accents.
翻訳日:2022-12-20 16:39:21 公開日:2022-12-19
# SEScore2: テキスト生成評価のための検索事前トレーニング

SEScore2: Retrieval Augmented Pretraining for Text Generation Evaluation ( http://arxiv.org/abs/2212.09305v1 )

ライセンス: Link先を確認
Wenda Xu, Xian Qian, Mingxuan Wang, Lei Li, William Yang Wang(参考訳) 大規模生・生の並列コーパスを利用して一般的な学習指標を構築することは可能か? 既存の学習メトリクスは、人間の判断にギャップがあるか、モデルに依存しているか、あるいは人間が評価できる領域やタスクに限定されている。 本稿では,新しいデータ合成パイプラインによって構築された100万スケールの合成データセットを事前訓練したモデルベースメトリックであるSEScore2を提案する。 SEScore2は、人間の評価監督なしに、人間の判断と高い相関を達成している。 重要なことに、私たちの教師なしのsescore2は、tedドメインのnews human ratingsでトレーニングされた教師なしメトリクスよりも優れています。 SEScore2を3言語で4つのテキスト生成タスクで評価する。 SEScore2は、機械翻訳、音声翻訳、データ・トゥ・テキスト、対話生成における以前の教師なし評価指標をすべて上回り、平均的なKendallの改善は0.158である。 SEScore2は、データ・トゥ・テキスト、対話生成、全体的な相関において、SOTAが管理するBLEURTよりも優れている。

Is it possible to leverage large scale raw and raw parallel corpora to build a general learned metric? Existing learned metrics have gaps to human judgements, are model-dependent or are limited to the domains or tasks where human ratings are available. In this paper, we propose SEScore2, a model-based metric pretrained over million-scale synthetic dataset constructed by our novel retrieval augmented data synthesis pipeline. SEScore2 achieves high correlation to human judgements without any human rating supervisions. Importantly, our unsupervised SEScore2 can outperform supervised metrics, which are trained on the News human ratings, at the TED domain. We evaluate SEScore2 over four text generation tasks across three languages. SEScore2 outperforms all prior unsupervised evaluation metrics in machine translation, speech translation, data-to-text and dialogue generation, with average Kendall improvements 0.158. SEScore2 even outperforms SOTA supervised BLEURT at data-to-text, dialogue generation and overall correlation.
翻訳日:2022-12-20 16:39:04 公開日:2022-12-19
# E-NER -- 法文のアノテーション付きエンティティ認識コーパス

E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text ( http://arxiv.org/abs/2212.09306v1 )

ライセンス: Link先を確認
Ting Wai Terence Au, Ingemar J. Cox, Vasileios Lampos(参考訳) 人、場所、組織などの名前付きエンティティを文書で識別することは、読者に重要な情報を強調することができる。 名前付きエンティティ認識(NER)モデルのトレーニングにはアノテーション付きデータセットが必要である。 それでも、一般英語用のNERデータセットが公開されている。 近年、法律文書のNER開発への関心が高まっている。 しかし,本論文の先行研究および実験結果から,一般的な英語データセットで訓練されたNER法を法的テキストに適用した場合,性能が著しく低下することが示唆された。 我々は、米国証券取引委員会(SEC)のEDGARデータセットから入手可能な法律事務所の申請に基づいて、E-NERと呼ばれる公開可能な法的NERデータセットについて説明する。 一般的な英語コーパス(CoNLL-2003コーパス)で多数の異なるNERアルゴリズムをトレーニングしたが,F1スコア(29.4\%~60.4\%)で測定されたテストコレクションでは,E-NERコレクションのトレーニングやテストと比較して,精度が著しく低下することが確認された。

Identifying named entities such as a person, location or organization, in documents can highlight key information to readers. Training Named Entity Recognition (NER) models requires an annotated data set, which can be a time-consuming labour-intensive task. Nevertheless, there are publicly available NER data sets for general English. Recently there has been interest in developing NER for legal text. However, prior work and experimental results reported here indicate that there is a significant degradation in performance when NER methods trained on a general English data set are applied to legal text. We describe a publicly available legal NER data set, called E-NER, based on legal company filings available from the US Securities and Exchange Commission's EDGAR data set. Training a number of different NER algorithms on the general English CoNLL-2003 corpus but testing on our test collection confirmed significant degradations in accuracy, as measured by the F1-score, of between 29.4\% and 60.4\%, compared to training and testing on the E-NER collection.
翻訳日:2022-12-20 16:38:48 公開日:2022-12-19
# ギャップを埋める: Entailment Fused-T5 for Open-Retrieval Conversational Machine Reading Comprehension

Bridging The Gap: Entailment Fused-T5 for Open-retrieval Conversational Machine Reading Comprehension ( http://arxiv.org/abs/2212.09353v1 )

ライセンス: Link先を確認
Xiao Zhang, Heyan Huang, Zewen Chi, Xian-Ling Mao(参考訳) open-retrieval conversational machine reading comprehension (ocmrc)は実際の会話シーンをシミュレートする。 マシンは、検索されたルールテキスト、ユーザシナリオ、ユーザ質問、対話履歴に基づいて、"Yes/No/Inquire"の判定や、"Inquire"であると判断された場合のフォローアップ質問を生成する必要がある。 近年,意思決定と質問生成の間の情報ギャップを低減し,生成性能を向上させる手法が検討されている。 しかし、これらのパイプライン構造は3段階の意思決定、スパン抽出、質問の再現に制限があるため、情報ギャップは依然として存在する。 意思決定と生成は別々に推論され、意思決定に使用される詳細な推論は全段階にわたって共有することは困難である。 そこで我々は,意思決定と生成の間の情報ギャップをグローバルな理解で埋めるため,EFT(Entailment Fused-T5)と呼ばれる新しい一段階のエンドツーエンドフレームワークを提案する。 広範な実験結果から,提案フレームワークがor-sharcベンチマークで新たな最先端性能を実現することを実証した。

Open-retrieval conversational machine reading comprehension (OCMRC) simulates real-life conversational interaction scenes. Machines are required to make a decision of "Yes/No/Inquire" or generate a follow-up question when the decision is "Inquire" based on retrieved rule texts, user scenario, user question, and dialogue history. Recent studies explored the methods to reduce the information gap between decision-making and question generation and thus improve the performance of generation. However, the information gap still exists because these pipeline structures are still limited in decision-making, span extraction, and question rephrasing three stages. Decision-making and generation are reasoning separately, and the entailment reasoning utilized in decision-making is hard to share through all stages. To tackle the above problem, we proposed a novel one-stage end-to-end framework, called Entailment Fused-T5 (EFT), to bridge the information gap between decision-making and generation in a global understanding manner. The extensive experimental results demonstrate that our proposed framework achieves new state-of-the-art performance on the OR-ShARC benchmark.
翻訳日:2022-12-20 16:38:28 公開日:2022-12-19
# 分子知能製造のための効率的な薬物・薬物相互作用予測技術

An Efficient Drug-Drug Interactions Prediction Technology for Molecularly Intelligent Manufacturing ( http://arxiv.org/abs/2212.09400v1 )

ライセンス: Link先を確認
Peng Gao, Feng Gao, Jian-Cheng Ni, Hamido Fujita(参考訳) 薬物-薬物相互作用(ddis)の予測は分子分野において不可欠な問題である。 医学実験における従来のDDIの観察方法は、多くの資源と労力を必要とする。 本稿では,複数の医療用文書をマルチホップ機械読解という形で読み取った後,自動的にddisを予測するグラフニューラルネットワークに基づくmedkgqaと呼ばれる計算モデルを提案する。 我々は,薬物とタンパク質の完全な性質を得るための知識融合システムを導入し,その文書に含まれる薬物とタンパク質を推算するグラフ推論システムを開発した。 本モデルでは,DDIの予測精度を4.5%向上したQANGAROO MedHopデータセットと比較して,性能を著しく向上する。

Drug-Drug Interactions (DDIs) prediction is an essential issue in the molecular field. Traditional methods of observing DDIs in medical experiments require plenty of resources and labor. In this paper, we present a computational model dubbed MedKGQA based on Graph Neural Networks to automatically predict the DDIs after reading multiple medical documents in the form of multi-hop machine reading comprehension. We introduced a knowledge fusion system to obtain the complete nature of drugs and proteins and exploited a graph reasoning system to infer the drugs and proteins contained in the documents. Our model significantly improves the performance compared to previous state-of-the-art models on the QANGAROO MedHop dataset, which obtained a 4.5% improvement in terms of DDIs prediction accuracy.
翻訳日:2022-12-20 16:38:05 公開日:2022-12-19
# 領域外一般化のための群集アノテーションによる多視点知識蒸留

Multi-View Knowledge Distillation from Crowd Annotations for Out-of-Domain Generalization ( http://arxiv.org/abs/2212.09409v1 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) 自然言語処理におけるタスクの効果的なトレーニング信号の選択は難しい: 専門家アノテーションの収集は高価であり、クラウドソースアノテーションは信頼できないかもしれない。 同時に、機械学習における最近の研究は、特にテストセットに分散シフトがある場合、クラウドアノテーションから取得したソフトラベルからの学習が効果的であることを示した。 しかし、これらのソフトラベルを取得する最良の方法はタスク間で矛盾する。 本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する手法を提案する。 特に,群集アノテーションの複数ビューから温度スケーリングとJensen-Shannonセントロイドの分布を求めることによって,クラス間の分布を求めることを提案する。 これらのアグリゲーション手法を用いることで、ドメイン外のテストセットで4つのNLPタスクにまたがる最良あるいは最良に近いパフォーマンスを実現し、構成メソッドを単独で使用する場合のパフォーマンスの変動を軽減できることを示す。 さらに、これらの手法はタスク全体の不確実性推定の最良または最良となる。 我々は,個々のメソッドのパフォーマンスの矛盾を考慮に入れた上で,集団アノテーションをソフトラベルとして集約することは,最高の個々のビューよりも良いあるいは良いパフォーマンスを保証する効果的な方法である,と論じている。

Selecting an effective training signal for tasks in natural language processing is difficult: collecting expert annotations is expensive, and crowd-sourced annotations may not be reliable. At the same time, recent work in machine learning has demonstrated that learning from soft-labels acquired from crowd annotations can be effective, especially when there is distribution shift in the test set. However, the best method for acquiring these soft labels is inconsistent across tasks. This paper proposes new methods for acquiring soft-labels from crowd-annotations by aggregating the distributions produced by existing methods. In particular, we propose to find a distribution over classes by learning from multiple-views of crowd annotations via temperature scaling and finding the Jensen-Shannon centroid of their distributions. We demonstrate that using these aggregation methods leads to best or near-best performance across four NLP tasks on out-of-domain test sets, mitigating fluctuations in performance when using the constituent methods on their own. Additionally, these methods result in best or near-best uncertainty estimation across tasks. We argue that aggregating different views of crowd-annotations as soft-labels is an effective way to ensure performance which is as good or better than the best individual view, which is useful given the inconsistency in performance of the individual methods.
翻訳日:2022-12-20 16:37:52 公開日:2022-12-19
# less is more:gzipによるパラメータフリーテキスト分類

Less is More: Parameter-Free Text Classification with Gzip ( http://arxiv.org/abs/2212.09410v1 )

ライセンス: Link先を確認
Zhiying Jiang, Matthew Y.R. Yang, Mikhail Tsirlin, Raphael Tang, Jimmy Lin(参考訳) ディープニューラルネットワーク(DNN)は通常、高いレベルの精度を達成するため、テキスト分類タスクにしばしば使用される。 しかし、DNNは数十億のパラメータと大量のラベル付きデータで計算集約されるため、実際に利用するために費用がかかり、最適化され、配布外(OOD)のケースに転送される。 本稿では,gzipのような単純な圧縮機と$k$-nearest-neighborの分類器を組み合わせることで,テキスト分類におけるDNNの非パラメトリックな代替手段を提案する。 トレーニングや事前トレーニング,微調整を行なわないことで,6つの分散データセットで非トレーニングディープラーニング手法と競合する結果が得られる。 さらに、4つの低リソース言語を含む5つのOODデータセットでBERTを上回ります。 また,DNNにおいてラベル付きデータが不足しすぎて満足な精度が得られない場合において,本手法は特に良好に機能する。

Deep neural networks (DNNs) are often used for text classification tasks as they usually achieve high levels of accuracy. However, DNNs can be computationally intensive with billions of parameters and large amounts of labeled data, which can make them expensive to use, to optimize and to transfer to out-of-distribution (OOD) cases in practice. In this paper, we propose a non-parametric alternative to DNNs that's easy, light-weight and universal in text classification: a combination of a simple compressor like gzip with a $k$-nearest-neighbor classifier. Without any training, pre-training or fine-tuning, our method achieves results that are competitive with non-pretrained deep learning methods on six in-distributed datasets. It even outperforms BERT on all five OOD datasets, including four low-resource languages. Our method also performs particularly well in few-shot settings where labeled data are too scarce for DNNs to achieve a satisfying accuracy.
翻訳日:2022-12-20 16:37:31 公開日:2022-12-19
# ループの中の人間:クラスごとの文書を手動でラベル付けすることで、一貫性のあるトピックを効果的に作成する方法

Human in the loop: How to effectively create coherent topics by manually labeling only a few documents per class ( http://arxiv.org/abs/2212.09422v1 )

ライセンス: Link先を確認
Anton Thielmann, Christoph Weisser, Benjamin S\"afken(参考訳) ばらばらなラベル設定の下で正確なモデリングを行うための数少ない方法が大幅に改善されている。 しかし、自然言語処理における少数ショットモデリングの応用は、文書分類の分野に留まっている。 近年のパフォーマンス向上により、教師なしのトピック抽出法と単純なトピック抽出法を組み合わせることで、教師なしトピックモデリング法に大きな課題が生じる。 本研究は,教師付き少数ショット学習と簡単なトピック抽出手法を組み合わせることで,クラスごとのラベル付き文書を少数使用しても,コヒーレントなトピックを生成するという点で教師なしトピックモデリング技術より優れていることを示す。

Few-shot methods for accurate modeling under sparse label-settings have improved significantly. However, the applications of few-shot modeling in natural language processing remain solely in the field of document classification. With recent performance improvements, supervised few-shot methods, combined with a simple topic extraction method pose a significant challenge to unsupervised topic modeling methods. Our research shows that supervised few-shot learning, combined with a simple topic extraction method, can outperform unsupervised topic modeling techniques in terms of generating coherent topics, even when only a few labeled documents per class are used.
翻訳日:2022-12-20 16:37:14 公開日:2022-12-19
# 心理言語学的特徴を有するトランスフォーマによるテキスト感情検出の一般化性の向上

Improving the Generalizability of Text-Based Emotion Detection by Leveraging Transformers with Psycholinguistic Features ( http://arxiv.org/abs/2212.09465v1 )

ライセンス: Link先を確認
Sourabh Zanwar, Daniel Wiechmann, Yu Qiao, Elma Kerz(参考訳) 近年,ソーシャルメディア投稿やマイクロブログ,ニュース記事など,さまざまなテキストソースから感情を検出する自然言語処理や機械学習技術を活用した予測モデルの構築への関心が高まっている。 しかし、そのようなモデルの現実世界の感情や感情アプリケーションへの展開は、特にドメイン外の一般化性の貧弱な問題に直面している。 これは、異なるモデル間の感情認識の伝達を困難にするドメイン固有の違い(トピック、コミュニケーション目標、アノテーションスキームなど)に起因する可能性が高い。 本研究では,両方向長短期記憶(BiLSTM)ネットワークと変換器モデル(BERT,RoBERTa)を併用したテキストベースの感情検出手法を提案する。 まず、ドメイン内モデルのパフォーマンスを2つのベンチマークデータセット(goemotionとisear)で評価します。 次に、Unified Emotion Datasetから得られた6つのデータセットの転送学習実験を行い、ドメイン外ロバスト性を評価する。 提案するハイブリッドモデルは, 標準のトランスフォーマー方式と比較して, 分散データに一般化する能力が向上することがわかった。 さらに、これらのモデルがドメイン内のデータに対して競合的に動作することを観察する。

In recent years, there has been increased interest in building predictive models that harness natural language processing and machine learning techniques to detect emotions from various text sources, including social media posts, micro-blogs or news articles. Yet, deployment of such models in real-world sentiment and emotion applications faces challenges, in particular poor out-of-domain generalizability. This is likely due to domain-specific differences (e.g., topics, communicative goals, and annotation schemes) that make transfer between different models of emotion recognition difficult. In this work we propose approaches for text-based emotion detection that leverage transformer models (BERT and RoBERTa) in combination with Bidirectional Long Short-Term Memory (BiLSTM) networks trained on a comprehensive set of psycholinguistic features. First, we evaluate the performance of our models within-domain on two benchmark datasets: GoEmotion and ISEAR. Second, we conduct transfer learning experiments on six datasets from the Unified Emotion Dataset to evaluate their out-of-domain robustness. We find that the proposed hybrid models improve the ability to generalize to out-of-distribution data compared to a standard transformer-based approach. Moreover, we observe that these models perform competitively on in-domain data.
翻訳日:2022-12-20 16:37:02 公開日:2022-12-19
# oasum: 大規模オープンドメインアスペクトベースの要約

OASum: Large-Scale Open Domain Aspect-based Summarization ( http://arxiv.org/abs/2212.09233v1 )

ライセンス: Link先を確認
Xianjun Yang, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Xiaoman Pan, Linda Petzold, Dong Yu(参考訳) アスペクトやクエリベースの要約は、ユーザーの興味に基づいて区別された要約を生成することができるため、最近さらに注目を集めている。 しかしながら、アスペクトまたはクエリベースの要約のための現在のデータセットは、特定のドメインに焦点を当てるか、比較的小さなインスタンスを含むか、少数のアスペクトタイプしか含まない。 このような制限は、この方向のさらなる探検を妨げる。 本研究では、ウィキペディア.orgのクラウドソーシングの知識を活用し、200万ページで約100万の異なるアスペクトを持つ370万以上のインスタンスを含む、OASumという高品質で大規模なオープンドメインアスペクトベースの要約データセットを自動生成する。 我々はOAsumのベンチマーク結果を提供し、様々なアスペクトベースの要約生成能力を示す。 特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。 具体的には、ゼロ/フェーショットおよび微調整の結果、コーパスで事前訓練されたモデルは、バックボーンモデルと比較して強いアスペクトまたはクエリ中心の生成能力を示す。 データセットと事前トレーニングされたチェックポイントは公開されています。

Aspect or query-based summarization has recently caught more attention, as it can generate differentiated summaries based on users' interests. However, the current dataset for aspect or query-based summarization either focuses on specific domains, contains relatively small-scale instances, or includes only a few aspect types. Such limitations hinder further explorations in this direction. In this work, we take advantage of crowd-sourcing knowledge on Wikipedia.org and automatically create a high-quality, large-scale open-domain aspect-based summarization dataset named OASum, which contains more than 3.7 million instances with around 1 million different aspects on 2 million Wikipedia pages. We provide benchmark results on OAsum and demonstrate its ability for diverse aspect-based summarization generation. To overcome the data scarcity problem on specific domains, we also perform zero-shot, few-shot, and fine-tuning on seven downstream datasets. Specifically, zero/few-shot and fine-tuning results show that the model pre-trained on our corpus demonstrates a strong aspect or query-focused generation ability compared with the backbone model. Our dataset and pre-trained checkpoints are publicly available.
翻訳日:2022-12-20 16:30:19 公開日:2022-12-19
# pal: パーソナライズされた感情支援会話生成

PAL: Persona-Augmented Emotional Support Conversation Generation ( http://arxiv.org/abs/2212.09235v1 )

ライセンス: Link先を確認
Jiale Cheng, Sahand Sabour, Hao Sun, Zhuang Chen, Minlie Huang(参考訳) メンタルヘルス支援のための人的資源が不足しているため、サポートのために会話エージェントを採用する必要性が高まっている。 近年,感情支援における対話モデルの有効性が実証されている。 先行研究により,希望者のペルソナが効果的な支援にとって重要な要因であることが示されたので,支援のための対話モデルにおいて,その情報モデリングの利点があるか検討した。 本稿では,経験的分析により,ペルソナが感情支援に重要な影響を与えていることを確認する。 そこで本研究では,探索者のペルソナを動的に推論・モデル化する枠組みを提案する。 まず,会話履歴から検索者のペルソナを推測するモデルを訓練する。 そこで我々は,ペルソナ情報を活用するモデルであるPALを提案し,戦略に基づく制御可能な生成手法とともに,パーソナライズされた感情支援を提供する。 自動および手動による評価では,提案モデルであるPALが最先端の結果を達成し,ベンチマークのベースラインを上回った。 私たちのコードとデータはhttps://github.com/chengjl19/palで公開されている。

Due to the lack of human resources for mental health support, there is an increasing demand for employing conversational agents for support. Recent work has demonstrated the effectiveness of dialogue models in providing emotional support. As previous studies have demonstrated that seekers' persona is an important factor for effective support, we investigate whether there are benefits to modeling such information in dialogue models for support. In this paper, our empirical analysis verifies that persona has an important impact on emotional support. Therefore, we propose a framework for dynamically inferring and modeling seekers' persona. We first train a model for inferring the seeker's persona from the conversation history. Accordingly, we propose PAL, a model that leverages persona information and, in conjunction with our strategy-based controllable generation method, provides personalized emotional support. Automatic and manual evaluations demonstrate that our proposed model, PAL, achieves state-of-the-art results, outperforming the baselines on the studied benchmark. Our code and data are publicly available at https://github.com/chengjl19/PAL.
翻訳日:2022-12-20 16:30:01 公開日:2022-12-19
# I2D2:神経論理と自己刺激による誘導的知識蒸留

I2D2: Inductive Knowledge Distillation with NeuroLogic and Self-Imitation ( http://arxiv.org/abs/2212.09246v1 )

ライセンス: Link先を確認
Chandra Bhagavatula, Jena D. Hwang, Doug Downey, Ronan Le Bras, Ximing Lu, Keisuke Sakaguchi, Swabha Swayamdipta, Peter West, Yejin Choi(参考訳) 事前訓練された言語モデルは、スケールによる急速な進歩にもかかわらず、依然として堅牢なコモンセンス能力に欠ける。 しかし、スケールが勝利のレシピのように見える。結局のところ、最大のモデルは最大のcommonsense能力を獲得したようだ。 それとも? 本稿では,不規則なコモンセンス能力を持つ小型言語モデル(gpt-2)が,新たなコモンセンス蒸留アルゴリズムを搭載した小型言語モデル(gpt-3)よりも桁違いに大きく優れたモデル(gpt-3)に勝てるか,という点について検討する。 ここで私たちが質問する重要な知的質問は、スケールの恩恵を受けない学習アルゴリズムを設計することは可能か、あるいは全く可能か、しかしながら、競争レベルのコモンセンス獲得に繋がるかどうかである。 本研究では,コモンセンス知識の生成モデルについて検討し,ジェネリクス生成の課題,鳥類が飛べるような日常概念に関するコモンセンス事実の言明に着目した。 本稿では,西欧のシンボリック・ナレッジ蒸留に追随する新しいコモンセンス蒸留フレームワークI2D2を導入するが,教師モデルとしての極規模のモデルへの依存を,(1)弱い,既成の言語モデルの生成品質を高めるためのニューロロジック・デコーディングの新たな適応,(2)モデルの強化されたコモンセンス獲得能力から反復的に学習するための自己刺激学習の2つの革新によって破壊する。 実験的な結果は、新しいアルゴリズムが有望な代替手段となるため、スケールが唯一の方法ではないことを示唆している。 さらに本研究では,現在利用可能な最大かつ高品質なジェネリックコーパスであるGen-A-Tomicについて検討した。

Pre-trained language models, despite their rapid advancements powered by scale, still fall short of robust commonsense capabilities. And yet, scale appears to be the winning recipe; after all, the largest models seem to have acquired the largest amount of commonsense capabilities. Or is it? In this paper, we investigate the possibility of a seemingly impossible match: can smaller language models with dismal commonsense capabilities (i.e., GPT-2), ever win over models that are orders of magnitude larger and better (i.e., GPT-3), if the smaller models are powered with novel commonsense distillation algorithms? The key intellectual question we ask here is whether it is possible, if at all, to design a learning algorithm that does not benefit from scale, yet leads to a competitive level of commonsense acquisition. In this work, we study the generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce a novel commonsense distillation framework, I2D2, that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale models as the teacher model by two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model's own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and highest quality available to date.
翻訳日:2022-12-20 16:29:45 公開日:2022-12-19
# TextGrad: 勾配駆動最適化によるNLPのロバスト性評価の改善

TextGrad: Advancing Robustness Evaluation in NLP by Gradient-Driven Optimization ( http://arxiv.org/abs/2212.09254v1 )

ライセンス: Link先を確認
Bairu Hou, Jinghan Jia, Yihua Zhang, Guanhua Zhang, Yang Zhang, Sijia Liu, Shiyu Chang(参考訳) 自然言語処理 (NLP) において, 先行する深層モデルの信頼性を明らかにする上で, 敵例に対するロバスト性評価がますます重要になっている。 しかし、強靭性評価のための逆例を生成するベンチマーク手法として、一階射影勾配降下(PGD)を用いるコンピュータビジョン領域とは対照的に、NLPには一階射影勾配に基づく強靭性評価フレームワークがない。 新たな最適化の課題は 1)テキスト入力の離散的性質と摂動位置と実際の内容との強い結合 2) 摂動テキストが流動的で言語モデル下での難易度が低くなければならないという追加の制約。 これらの課題はPGDライクなNLP攻撃の開発を困難にしている。 このギャップを埋めるために,勾配駆動最適化を用いた新たな攻撃生成器であるTextGradを提案する。 具体的には,上記の課題を統一最適化フレームワークで解決する。 また, 連続的なゆらぎとゆらぎを同時最適化する効率的な凸緩和法を開発し, 効率的なサンプリング手法を用いて, 連続的な最適化変数から離散的なテキストの摂動への正確なマッピングを確立する。 さらに、一階攻撃生成法として、TextGradを敵訓練に組み込むことで、NLPモデルの堅牢性をさらに向上することができる。 攻撃発生におけるTextGradの有効性を実証するため, 強靭性評価だけでなく, 敵防御にも有効であることを示すため, 広範囲な実験を行った。

Robustness evaluation against adversarial examples has become increasingly important to unveil the trustworthiness of the prevailing deep models in natural language processing (NLP). However, in contrast to the computer vision domain where the first-order projected gradient descent (PGD) is used as the benchmark approach to generate adversarial examples for robustness evaluation, there lacks a principled first-order gradient-based robustness evaluation framework in NLP. The emerging optimization challenges lie in 1) the discrete nature of textual inputs together with the strong coupling between the perturbation location and the actual content, and 2) the additional constraint that the perturbed text should be fluent and achieve a low perplexity under a language model. These challenges make the development of PGD-like NLP attacks difficult. To bridge the gap, we propose TextGrad, a new attack generator using gradient-driven optimization, supporting high-accuracy and high-quality assessment of adversarial robustness in NLP. Specifically, we address the aforementioned challenges in a unified optimization framework. And we develop an effective convex relaxation method to co-optimize the continuously-relaxed site selection and perturbation variables and leverage an effective sampling method to establish an accurate mapping from the continuous optimization variables to the discrete textual perturbations. Moreover, as a first-order attack generation method, TextGrad can be baked into adversarial training to further improve the robustness of NLP models. Extensive experiments are provided to demonstrate the effectiveness of TextGrad not only in attack generation for robustness evaluation but also in adversarial defense.
翻訳日:2022-12-20 16:29:04 公開日:2022-12-19
# SpaCyにおけるマルチハッシュ埋め込み

Multi hash embeddings in spaCy ( http://arxiv.org/abs/2212.09255v1 )

ライセンス: Link先を確認
Lester James Miranda, \'Akos K\'ad\'ar, Adriane Boyd, Sofie Van Landeghem, Anders S{\o}gaard, Matthew Honnibal(参考訳) シンボルの分散表現は、今日の機械学習システムにおける重要な技術の1つであり、現代の自然言語処理において重要な役割を果たす。 伝統的な単語埋め込みは別個のベクトルと各単語を関連付ける。 このアプローチは単純で優れたパフォーマンスをもたらすが、大きな語彙を表現するには大量のメモリを必要とする。 メモリフットプリントを削減するため、spacyのデフォルト組込み層はハッシュ組込み層である。 これは従来の埋め込みの確率論的近似であり、各単語に対して個別のベクトルを明示的に記憶することなく、多数の単語に対してユニークなベクトルを提供する。 既知の単語と未知語の両方の有意義な表現を計算できるようにするため、ハッシュ埋め込みは、各単語を正規化された単語形式、サブワード情報、単語形状の要約として表現する。 これらの特徴が組み合わさって単語の多層埋め込みを生み出す。 この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。 第二に、様々なドメインや言語から名前付きエンティティ認識データセットに複数埋め込みを施したハッシュ埋め込みアーキテクチャを批判的に評価する。 実験では、paCyの埋め込み装置の背後にある重要な設計上の選択を検証しました。

The distributed representation of symbols is one of the key technologies in machine learning systems today, playing a pivotal role in modern natural language processing. Traditional word embeddings associate a separate vector with each word. While this approach is simple and leads to good performance, it requires a lot of memory for representing a large vocabulary. To reduce the memory footprint, the default embedding layer in spaCy is a hash embeddings layer. It is a stochastic approximation of traditional embeddings that provides unique vectors for a large number of words without explicitly storing a separate vector for each of them. To be able to compute meaningful representations for both known and unknown words, hash embeddings represent each word as a summary of the normalized word form, subword information and word shape. Together, these features produce a multi-embedding of a word. In this technical report we lay out a bit of history and introduce the embedding methods in spaCy in detail. Second, we critically evaluate the hash embedding architecture with multi-embeddings on Named Entity Recognition datasets from a variety of domains and languages. The experiments validate most key design choices behind spaCy's embedders, but we also uncover a few surprising results.
翻訳日:2022-12-20 16:28:36 公開日:2022-12-19
# PromptBoosting: 10の前方パスを持つブラックボックステキスト分類

PromptBoosting: Black-Box Text Classification with Ten Forward Passes ( http://arxiv.org/abs/2212.09257v1 )

ライセンス: Link先を確認
Bairu Hou, Joe O'Connor, Jacob Andreas, Shiyu Chang, Yang Zhang(参考訳) ニューラルネットワークモデル(lm)からテキスト分類器を構築するためのクエリ効率の高い手順であるpromplyboostingを,lmのパラメータや勾配,隠れた表現にアクセスせずに記述する。 大規模LMのトレーニングと推論のコストが増大するにつれて、このような「ブラックボックス」分類器の訓練はますます重要になっている。 しかし、既存のブラックボックスlm分類器学習アプローチは計算効率が悪く、通常、ゼロ次最適化法を用いて(離散的または連続的な)プロンプトの広い空間を探索することで、ターゲットタスクにlmsを特殊化する。 PromptBoostingは、プロンプト空間を直接最適化する代わりに、勾配のないアプローチでプロンプトの小さなプールを取得し、その後、これらのプロンプトとLMの出力分布の異なる要素をペアリングすることによって、弱い学習者の大きなプールを構築する。 これらの弱い学習者はAdaBoostアルゴリズムを使って組み立てられる。 学習プロセス全体は少数の前方パスのみを必要とし、後方パスは不要である。 実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。

We describe PromptBoosting, a query-efficient procedure for building a text classifier from a neural language model (LM) without access to the LM's parameters, gradients, or hidden representations. This form of "black-box" classifier training has become increasingly important as the cost of training and inference in large-scale LMs grows. But existing black-box LM classifier learning approaches are themselves computationally inefficient, typically specializing LMs to the target task by searching in a large space of (discrete or continuous) prompts using zeroth-order optimization methods. Instead of directly optimizing in prompt space, PromptBoosting obtains a small pool of prompts via a gradient-free approach and then constructs a large pool of weak learners by pairing these prompts with different elements of the LM's output distribution. These weak learners are then ensembled using the AdaBoost algorithm. The entire learning process requires only a small number of forward passes and no backward pass. Experiments show that PromptBoosting achieves state-of-the-art performance in multiple black-box few-shot classification tasks, and matches or outperforms full fine-tuning in both few-shot and standard learning paradigms, while training 10x faster than existing black-box methods.
翻訳日:2022-12-20 16:28:17 公開日:2022-12-19
# メタバースエッジコンピューティングのためのunified, user and task (uut)中心型人工知能

Unified, User and Task (UUT) Centered Artificial Intelligence for Metaverse Edge Computing ( http://arxiv.org/abs/2212.09295v1 )

ライセンス: Link先を確認
Terence Jie Chua, Wenhan Yu, Jun Zhao(参考訳) Metaverseは、物理世界と仮想世界を統合し、超現実的なユーザーエクスペリエンスを提供する現在のWebの拡張と見なすことができる。 メタバースの始まりは、コンテンツ制作、ソーシャルエンタテインメント、世界の価値移転、インテリジェントなトラフィック、医療など、多くのエコシステムサービスをもたらします。 これらのサービスは計算集約的で、メタバースエッジコンピューティングサーバ(mecs)への計算オフロードを必要とする。 既存のメタバースエッジコンピューティングアプローチは、メタバースエコシステムサービスに必要な流動的でシームレスで超現実的なメタバースエクスペリエンスを保証するために、リソース割り当てを効率的かつ効果的に処理しない。 そこで我々は,新しいMetaverse- compatible, Unified, User and Task (UUT) Centered AI (AI)-based mobile edge computing (MEC)パラダイムを導入する。

The Metaverse can be considered the extension of the present-day web, which integrates the physical and virtual worlds, delivering hyper-realistic user experiences. The inception of the Metaverse brings forth many ecosystem services such as content creation, social entertainment, in-world value transfer, intelligent traffic, healthcare. These services are compute-intensive and require computation offloading onto a Metaverse edge computing server (MECS). Existing Metaverse edge computing approaches do not efficiently and effectively handle resource allocation to ensure a fluid, seamless and hyper-realistic Metaverse experience required for Metaverse ecosystem services. Therefore, we introduce a new Metaverse-compatible, Unified, User and Task (UUT) centered artificial intelligence (AI)- based mobile edge computing (MEC) paradigm, which serves as a concept upon which future AI control algorithms could be built to develop a more user and task-focused MEC.
翻訳日:2022-12-20 16:04:39 公開日:2022-12-19
# NextGのためのタスク指向コミュニケーション: エンドツーエンドのディープラーニングとAIセキュリティ

Task-Oriented Communications for NextG: End-to-End Deep Learning and AI Security Aspects ( http://arxiv.org/abs/2212.09668v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Sennur Ulukus, Aylin Yener(参考訳) 現在までの通信システムは、主にデジタルシーケンス(ビット)の信頼性(エラーのない)転送を目標に設計されている。 次世代通信システム(NextG)は、ビットを確実に復号化して与えられたタスクを確実に実行する設計パラダイムにシフトし始めている。 タスク指向通信システムの設計は、例えばメッセージの相対的重要性を考えると、影響のあるアプリケーションを見つける可能性が高い。 本稿では、無線信号分類を、信号インテリジェンスのためのnextg無線アクセスネットワーク(ran)や、ユーザ機器(ue)の識別や認証、スペクトル共存のための既存の信号検出といったスペクトル認識応用において行うべき課題として考察する。 その目的で、エッジデバイスは無線信号を収集し、信号クラスを知る必要があるnextg基地局(gnodeb)と通信する。 エッジデバイスは、十分な処理能力を有しておらず、信号分類タスクの実行を信頼できない場合もあるが、エッジデバイスからgNodeBへのキャプチャされた信号の転送は、遅延、レート、エネルギー制限の厳しい条件下で、効率的あるいは実現不可能である。 本稿では,送信機,受信機,分類器の機能を2つのディープニューラルネットワーク(DNN)として,エッジデバイス用とgNodeB用を併用したタスク指向通信手法を提案する。 この手法は,通信と信号の分類を2つの異なるタスクとして扱うベースラインと比較して,より小さなdnnで精度が向上することを示す。 最後に,DNNをタスク指向通信に使用する場合,対人機械学習がセキュリティ上の脅威となる可能性について論じる。 我々は、タスク指向通信のトレーニングおよびテストプロセスをターゲットにしたバックドア(trojan)攻撃と敵(evasion)攻撃による大きなパフォーマンス損失を実証する。

Communications systems to date are primarily designed with the goal of reliable (error-free) transfer of digital sequences (bits). Next generation (NextG) communication systems are beginning to explore shifting this design paradigm of reliably decoding bits to reliably executing a given task. Task-oriented communications system design is likely to find impactful applications, for example, considering the relative importance of messages. In this paper, a wireless signal classification is considered as the task to be performed in the NextG Radio Access Network (RAN) for signal intelligence and spectrum awareness applications such as user equipment (UE) identification and authentication, and incumbent signal detection for spectrum co-existence. For that purpose, edge devices collect wireless signals and communicate with the NextG base station (gNodeB) that needs to know the signal class. Edge devices may not have sufficient processing power and may not be trusted to perform the signal classification task, whereas the transfer of the captured signals from the edge devices to the gNodeB may not be efficient or even feasible subject to stringent delay, rate, and energy restrictions. We present a task-oriented communications approach, where all the transmitter, receiver and classifier functionalities are jointly trained as two deep neural networks (DNNs), one for the edge device and another for the gNodeB. We show that this approach achieves better accuracy with smaller DNNs compared to the baselines that treat communications and signal classification as two separate tasks. Finally, we discuss how adversarial machine learning poses a major security threat for the use of DNNs for task-oriented communications. We demonstrate the major performance loss under backdoor (Trojan) attacks and adversarial (evasion) attacks that target the training and test processes of task-oriented communications.
翻訳日:2022-12-20 16:03:21 公開日:2022-12-19
# グループ畳み込みニューラルネットワークのvc次元

VC dimensions of group convolutional neural networks ( http://arxiv.org/abs/2212.09507v1 )

ライセンス: Link先を確認
Philipp Christian Petersen, Anna Sepliarskaia(参考訳) 群畳み込みニューラルネットワークの一般化能力について検討する。 我々は、グループ畳み込みニューラルネットワークの単純な集合のvc次元の正確な推定を同定する。 特に、無限群と適切に選択された畳み込み核の場合、既に2パラメータの畳み込みニューラルネットワークの族は、無限群の作用に不変であるにもかかわらず、無限のVC次元を持つ。

We study the generalization capacity of group convolutional neural networks. We identify precise estimates for the VC dimensions of simple sets of group convolutional neural networks. In particular, we find that for infinite groups and appropriately chosen convolutional kernels, already two-parameter families of convolutional neural networks have an infinite VC dimension, despite being invariant to the action of an infinite group.
翻訳日:2022-12-20 15:55:51 公開日:2022-12-19
# フォトリアリスティックビデオスタイル転送のためのColoristaNet

ColoristaNet for Photorealistic Video Style Transfer ( http://arxiv.org/abs/2212.09247v1 )

ライセンス: Link先を確認
Xiaowen Qiu, Ruize Xu, Boan He, Yingtao Zhang, Wenqiang Zhang, Weifeng Ge(参考訳) フォトリアリズムスタイル転送は、フォトリアリズムを維持しつつ、画像の芸術的スタイルを入力画像やビデオに転送することを目的としている。 本稿では,非現実的なスタイル化につながる既存アルゴリズムの要約統計マッチング方式について考察する。 一般的なグラム損失の回避を目的として,スタイル除去部とスタイル復元部を含む自己教師型スタイル転送フレームワークを提案する。 スタイル除去ネットワークは、元の画像スタイルを除去し、スタイル復元ネットワークは、監視された方法で画像スタイルを復元する。 一方、現在の機能変換手法における問題に対処するために、特徴変換をスタイルホワイトニングとレスタイライゼーションに分解する分離インスタンス正規化を提案する。 ColoristaNetではかなりうまく機能し、フォトリアリズムを維持しながら画像スタイルを効率的に転送できる。 時間的コヒーレンシを確保するために,光フロー法とconvlstmを組み込んでコンテキスト情報を埋め込む。 実験により、coloristanetは最先端のアルゴリズムと比較してより良いスタイライゼーション効果が得られることが示されている。

Photorealistic style transfer aims to transfer the artistic style of an image onto an input image or video while keeping photorealism. In this paper, we think it's the summary statistics matching scheme in existing algorithms that leads to unrealistic stylization. To avoid employing the popular Gram loss, we propose a self-supervised style transfer framework, which contains a style removal part and a style restoration part. The style removal network removes the original image styles, and the style restoration network recovers image styles in a supervised manner. Meanwhile, to address the problems in current feature transformation methods, we propose decoupled instance normalization to decompose feature transformation into style whitening and restylization. It works quite well in ColoristaNet and can transfer image styles efficiently while keeping photorealism. To ensure temporal coherency, we also incorporate optical flow methods and ConvLSTM to embed contextual information. Experiments demonstrates that ColoristaNet can achieve better stylization effects when compared with state-of-the-art algorithms.
翻訳日:2022-12-20 15:54:33 公開日:2022-12-19
# 胸部X線画像を用いた自己監督型トランスファー学習に基づくCOVID-19検出

COVID-19 Detection Based on Self-Supervised Transfer Learning Using Chest X-Ray Images ( http://arxiv.org/abs/2212.09276v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 目的: 新型コロナウイルス(covid-19)パンデミックでスクリーニングされた患者数人を考えると, コンピュータ支援検出は, 臨床ワークフローの効率化や放射線科医や医療提供者の感染率の低下に役立つ可能性がある。 多くのcovid-19感染者が肺炎のx線学的所見を呈するため、放射線検査は迅速な検出に有用である。 したがって、胸部X線撮影は、患者トリアージ中の新型コロナウイルスのスクリーニングを早めるために使用することができ、パンデミックの状況下で飽和医療施設を支援する患者のケアの優先順位を決定することができる。 方法:本論文では,胸部X線(CXR)画像から新型コロナウイルスを検出するための自己教師伝達学習法を提案する。 提案手法と比較し,自己教師あり学習法(Cross, BYOL, SimSiam, SimCLR, PIRL-jigsaw, PIRL-rotation)を提案手法と比較した。 さらに,提案手法を用いて事前学習した6つのDCNN(ResNet18,ResNet50,ResNet101,CheXNet,DenseNet201,InceptionV3)を比較した。 オープンなCOVID-19 CXRデータセットの定量的評価と視覚検査のための質的結果について報告する。 結果: 高調波平均 (hm) スコアは0.985, aucは0.999, 4級精度は0.953。 また,cxr画像の異なるクラスを視覚的に説明するための可視化手法 grad-cam++ を用いた。 結論: トランスファー学習を用いた自然画像から得られた知識は, cxr画像のsslに有効であることを示し, 新型コロナウイルス検出のための表現学習の性能を高める。 当法は,放射線科医や医療提供者における感染率の低減を約束する。

Purpose: Considering several patients screened due to COVID-19 pandemic, computer-aided detection has strong potential in assisting clinical workflow efficiency and reducing the incidence of infections among radiologists and healthcare providers. Since many confirmed COVID-19 cases present radiological findings of pneumonia, radiologic examinations can be useful for fast detection. Therefore, chest radiography can be used to fast screen COVID-19 during the patient triage, thereby determining the priority of patient's care to help saturated medical facilities in a pandemic situation. Methods: In this paper, we propose a new learning scheme called self-supervised transfer learning for detecting COVID-19 from chest X-ray (CXR) images. We compared six self-supervised learning (SSL) methods (Cross, BYOL, SimSiam, SimCLR, PIRL-jigsaw, and PIRL-rotation) with the proposed method. Additionally, we compared six pretrained DCNNs (ResNet18, ResNet50, ResNet101, CheXNet, DenseNet201, and InceptionV3) with the proposed method. We provide quantitative evaluation on the largest open COVID-19 CXR dataset and qualitative results for visual inspection. Results: Our method achieved a harmonic mean (HM) score of 0.985, AUC of 0.999, and four-class accuracy of 0.953. We also used the visualization technique Grad-CAM++ to generate visual explanations of different classes of CXR images with the proposed method to increase the interpretability. Conclusions: Our method shows that the knowledge learned from natural images using transfer learning is beneficial for SSL of the CXR images and boosts the performance of representation learning for COVID-19 detection. Our method promises to reduce the incidence of infections among radiologists and healthcare providers.
翻訳日:2022-12-20 15:54:15 公開日:2022-12-19
# MRIにおける脳腫瘍分離のためのマルチモーダルCNNネットワーク:BraTS 2022チャレンジソリューション

Multimodal CNN Networks for Brain Tumor Segmentation in MRI: A BraTS 2022 Challenge Solution ( http://arxiv.org/abs/2212.09310v1 )

ライセンス: Link先を確認
Ramy A. Zeineldin, Mohamed E. Karar, Oliver Burgert, Franziska Mathis-Ullrich(参考訳) グリオーマ患者の脳腫瘍診断,疾患予後,経過観察には,自動セグメンテーションが不可欠である。 それでも,マルチモーダルMRIにおけるグリオーマとそのサブ領域の正確な検出は非常に困難である。 ここ数年、BraTS Challengeはグリオーマセグメンテーションアルゴリズムのベンチマークとして、多施設MRIスキャンを多数提供してきた。 本稿では,brats 2022連続評価課題への貢献について述べる。 術前MRIにおけるグリオーマ境界の自動検出のための,DeepSeg,nnU-Net,DeepSCANという,複数のディープラーニングフレームワークのアンサンブルを提案する。 また, 腫瘍, 腫瘍コア, 造影腫瘍全例について, diceスコア0.9294, 0.8788, 0.8803, ハウスドルフ距離5.23, 13.54, 12.05のブラッツテストデータセットを最終評価した。 さらに,提案したアンサンブル法は,サハラ以南のアフリカ亜種データセットにおいて,腫瘍全体,腫瘍コア,造影腫瘍に対するDiceスコアが0.9737,0.9593,0.9022,HD95が2.66,1.72,332であった。 受賞作品のdockerイメージは(https://hub.docker.com/r/razeineldin/camed22)公開されている。

Automatic segmentation is essential for the brain tumor diagnosis, disease prognosis, and follow-up therapy of patients with gliomas. Still, accurate detection of gliomas and their sub-regions in multimodal MRI is very challenging due to the variety of scanners and imaging protocols. Over the last years, the BraTS Challenge has provided a large number of multi-institutional MRI scans as a benchmark for glioma segmentation algorithms. This paper describes our contribution to the BraTS 2022 Continuous Evaluation challenge. We propose a new ensemble of multiple deep learning frameworks namely, DeepSeg, nnU-Net, and DeepSCAN for automatic glioma boundaries detection in pre-operative MRI. It is worth noting that our ensemble models took first place in the final evaluation on the BraTS testing dataset with Dice scores of 0.9294, 0.8788, and 0.8803, and Hausdorf distance of 5.23, 13.54, and 12.05, for the whole tumor, tumor core, and enhancing tumor, respectively. Furthermore, the proposed ensemble method ranked first in the final ranking on another unseen test dataset, namely Sub-Saharan Africa dataset, achieving mean Dice scores of 0.9737, 0.9593, and 0.9022, and HD95 of 2.66, 1.72, 3.32 for the whole tumor, tumor core, and enhancing tumor, respectively. The docker image for the winning submission is publicly available at (https://hub.docker.com/r/razeineldin/camed22).
翻訳日:2022-12-20 15:53:42 公開日:2022-12-19
# GEDIとSentinel-2を用いた世界規模における高作・短作の年間フィールドスケール地図の作成

Annual field-scale maps of tall and short crops at the global scale using GEDI and Sentinel-2 ( http://arxiv.org/abs/2212.09681v1 )

ライセンス: Link先を確認
Stefania Di Tommaso, Sherrie Wang, Vivek Vajipey, Noel Gorelick, Rob Strey, David B. Lobell(参考訳) 作物型地図は農業用地の利用を追跡し、作物生産量を推定するために重要である。 リモートセンシングは、モデルトレーニングのための豊富な地上ラベルを持つ地域でこれらの地図を作成するための効率的で信頼性の高いツールであることが証明されている。 NASAのGEDI(Global Ecosystem Dynamics Investigation)は、もともと森林モニタリング用に設計されたライダー装置で、背の高い作物と短い作物を区別することを約束している。 本研究ではGEDIを利用して,2019-2021年の10m解像度の世界規模で,短い作物と高い作物の壁面マップを作成する。 具体的には,(1)極端視角のショットや地形傾斜のショットを除去した後,GEDIのリターンを高い作物と短い作物に確実に分類し,(2)高作が最高地点の月を識別するために,(2)高作の頻度を用いて,(3)高作と高作を正確に予測するためにSentinel-2時系列を用いたランダムな森林モデルの訓練に,GEDIのリターンを使用できることを示す。 その後、世界中の独立した参照データをGEDI-S2マップの評価に用いる。 GEDI-S2は,少なくとも87%の精度で,アメリカ,ヨーロッパ,東アジアの90%以上で,何千もの参照トレーニングポイントでトレーニングされたモデルと同等に近い性能を示した。 作物がしばしば低バイオマス(アフリカと南アジア)を産出する地域では,高い作物面積の体系的過小評価が観察され,これらのシステムには更なる作業が必要である。 GEDI-S2アプローチは、短い作物と背が高い作物だけを区別するが、多くの風景において、この区別は主要な個々の作物のタイプをマッピングするのに長い道のりを辿っている。 GEDIとSentinel-2の組み合わせは、地上データへの依存を最小限に抑えて、地球規模の作物マッピングへの非常に有望な道を示す。

Crop type maps are critical for tracking agricultural land use and estimating crop production. Remote sensing has proven an efficient and reliable tool for creating these maps in regions with abundant ground labels for model training, yet these labels remain difficult to obtain in many regions and years. NASA's Global Ecosystem Dynamics Investigation (GEDI) spaceborne lidar instrument, originally designed for forest monitoring, has shown promise for distinguishing tall and short crops. In the current study, we leverage GEDI to develop wall-to-wall maps of short vs tall crops on a global scale at 10 m resolution for 2019-2021. Specifically, we show that (1) GEDI returns can reliably be classified into tall and short crops after removing shots with extreme view angles or topographic slope, (2) the frequency of tall crops over time can be used to identify months when tall crops are at their peak height, and (3) GEDI shots in these months can then be used to train random forest models that use Sentinel-2 time series to accurately predict short vs. tall crops. Independent reference data from around the world are then used to evaluate these GEDI-S2 maps. We find that GEDI-S2 performed nearly as well as models trained on thousands of local reference training points, with accuracies of at least 87% and often above 90% throughout the Americas, Europe, and East Asia. Systematic underestimation of tall crop area was observed in regions where crops frequently exhibit low biomass, namely Africa and South Asia, and further work is needed in these systems. Although the GEDI-S2 approach only differentiates tall from short crops, in many landscapes this distinction goes a long way toward mapping the main individual crop types. The combination of GEDI and Sentinel-2 thus presents a very promising path towards global crop mapping with minimal reliance on ground data.
翻訳日:2022-12-20 15:53:10 公開日:2022-12-19
# テキストマイニングの統一手法としての超大言語モデル

Very Large Language Model as a Unified Methodology of Text Mining ( http://arxiv.org/abs/2212.09271v1 )

ライセンス: Link先を確認
Meng Jiang(参考訳) テキストデータマイニングは、言語テキストから必須情報を抽出するプロセスである。 典型的なテキストマイニングタスクには、テキスト分類、テキストクラスタリング、トピックモデリング、情報抽出、テキスト要約などがある。 様々なデータセットが収集され、様々な種類のタスクのために様々なアルゴリズムが設計される。 本稿では,非常に大きな言語モデル(VLLM)が,テキストマイニングの効果的な統一手法となる,という青空の考えを示す。 従来の手法に対する新しい手法の少なくとも3つの利点について論じる。 最後に,テキストマイニングのためのVLLM技術の設計と開発における課題について論じる。

Text data mining is the process of deriving essential information from language text. Typical text mining tasks include text categorization, text clustering, topic modeling, information extraction, and text summarization. Various data sets are collected and various algorithms are designed for the different types of tasks. In this paper, I present a blue sky idea that very large language model (VLLM) will become an effective unified methodology of text mining. I discuss at least three advantages of this new methodology against conventional methods. Finally I discuss the challenges in the design and development of VLLM techniques for text mining.
翻訳日:2022-12-20 15:46:04 公開日:2022-12-19
# クエリツリー最適化による知識グラフの複雑な論理的クエリの解法

Answering Complex Logical Queries on Knowledge Graphs via Query Tree Optimization ( http://arxiv.org/abs/2212.09567v1 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Juanzi Li, Lei Hou(参考訳) 不完全な知識グラフ上で複雑な論理クエリに応答することは難しい課題であり、広く研究されている。 埋め込みベースのメソッドは複雑なクエリのトレーニングを必要とし、分散のクエリ構造にうまく一般化できない。 最近の作業では、このタスクをエンドツーエンドの最適化問題として捉えており、事前訓練されたリンク予測器のみを必要とする。 しかし、指数関数的に大きい組合せ探索空間のため、最適解は近似され、最終的な精度が制限される。 本研究では,最適解を効率的に見つけるためのqto(query tree optimization)を提案する。 qto は木のような計算グラフ、すなわちクエリツリー上の前方後方伝播によって最適な解を見つける。 特に、QTOはクエリツリーにエンコードされた独立性を利用して検索スペースを減らし、最適化手順中にローカルな計算しか関与しない。 3つのデータセットの実験から、QTOは複雑なクエリ応答における最先端のパフォーマンスを得ており、以前の最高の結果を平均22%上回っている。 さらにqtoは、クエリ内の各1ホップ原子の中間解を90%以上の精度で解釈することができる。

Answering complex logical queries on incomplete knowledge graphs is a challenging task, and has been widely studied. Embedding-based methods require training on complex queries, and cannot generalize well to out-of-distribution query structures. Recent work frames this task as an end-to-end optimization problem, and it only requires a pretrained link predictor. However, due to the exponentially large combinatorial search space, the optimal solution can only be approximated, limiting the final accuracy. In this work, we propose QTO (Query Tree Optimization) that can efficiently find the exact optimal solution. QTO finds the optimal solution by a forward-backward propagation on the tree-like computation graph, i.e., query tree. In particular, QTO utilizes the independence encoded in the query tree to reduce the search space, where only local computations are involved during the optimization procedure. Experiments on 3 datasets show that QTO obtains state-of-the-art performance on complex query answering, outperforming previous best results by an average of 22%. Moreover, QTO can interpret the intermediate solutions for each of the one-hop atoms in the query with over 90% accuracy.
翻訳日:2022-12-20 15:45:54 公開日:2022-12-19
# 人間に適応した潜在表現の学習

Learning Latent Representations to Co-Adapt to Humans ( http://arxiv.org/abs/2212.09586v1 )

ライセンス: Link先を確認
Sagar Parekh, Dylan P. Losey(参考訳) ロボットが家や道路、工場で人間と対話するとき、人間の行動はロボットに反応して変化する。 非定常的な人間はロボット学習者に挑戦している。ロボットが学習した行動は、人間がロボットに適応した後で失敗する可能性がある。 本稿では,ロボット(egoエージェント)が動的人間(すなわち他のエージェント)と協調して,ロボットの低レベル状態,行動,報酬のみを用いて協調的に適応できるアルゴリズム形式を提案する。 最大の課題は、人間がロボットの行動に反応するだけでなく、人間の反応が時間とともにユーザーの間で必然的に変化することだ。 この課題に対処するために、私たちの洞察では、人間の正確なモデルを構築する代わりに、ロボットは人間のポリシーとポリシーのダイナミクスの高レベルな表現を学び、推論することができる。 この洞察を応用して、RILI:Robustly Influencing Latent Intentを開発します。 RILIはまず、人間の潜在戦略と戦略ダイナミクスの予測に、低レベルのロボット観測を組み込む。 次に、riliはこれらの予測を利用して適応的人間に影響を与える行動を、反復的な相互作用よりも有利で高い報酬行動へと選択する。 基盤となるディストリビューションからサンプリングされたユーザによるriliの計測パフォーマンスを考えると、同じディストリビューションからサンプリングされた新しい人間に対して、riliが期待するパフォーマンスを確率的にバインドできることを実証します。 我々の模擬実験はRILIと最先端の表現と強化学習のベースラインを比較し、RILIが不完全、ノイズ、時間変化のエージェントと協調することをより良く学習していることを示す。 最後に、RILIが実際の人間と協調して、タグゲームとタワー構築タスクを行う2つのユーザー研究を行う。 ユーザー・スタディのビデオはこちら。https://youtu.be/WYGO5amDXbQ

When robots interact with humans in homes, roads, or factories the human's behavior often changes in response to the robot. Non-stationary humans are challenging for robot learners: actions the robot has learned to coordinate with the original human may fail after the human adapts to the robot. In this paper we introduce an algorithmic formalism that enables robots (i.e., ego agents) to co-adapt alongside dynamic humans (i.e., other agents) using only the robot's low-level states, actions, and rewards. A core challenge is that humans not only react to the robot's behavior, but the way in which humans react inevitably changes both over time and between users. To deal with this challenge, our insight is that -- instead of building an exact model of the human -- robots can learn and reason over high-level representations of the human's policy and policy dynamics. Applying this insight we develop RILI: Robustly Influencing Latent Intent. RILI first embeds low-level robot observations into predictions of the human's latent strategy and strategy dynamics. Next, RILI harnesses these predictions to select actions that influence the adaptive human towards advantageous, high reward behaviors over repeated interactions. We demonstrate that -- given RILI's measured performance with users sampled from an underlying distribution -- we can probabilistically bound RILI's expected performance across new humans sampled from the same distribution. Our simulated experiments compare RILI to state-of-the-art representation and reinforcement learning baselines, and show that RILI better learns to coordinate with imperfect, noisy, and time-varying agents. Finally, we conduct two user studies where RILI co-adapts alongside actual humans in a game of tag and a tower-building task. See videos of our user studies here: https://youtu.be/WYGO5amDXbQ
翻訳日:2022-12-20 15:45:38 公開日:2022-12-19
# 臨床試験におけるデータバイアスの評価に向けて

Towards Assessing Data Bias in Clinical Trials ( http://arxiv.org/abs/2212.09633v1 )

ライセンス: Link先を確認
Chiara Criscuolo, Tommaso Dolci and Mattia Salnitri(参考訳) アルゴリズムとテクノロジーは私たちの日常生活のあらゆる側面に浸透する必須のツールです。 過去数十年間、医療研究は、新しいコンピュータベースの採用方法、データストレージのためのフェデレーションアーキテクチャの使用、データセットの革新的な分析の導入などの恩恵を受けてきた。 それでも、医療データセットはデータバイアスの影響を受け得る。 データバイアスのため、それらは現実の歪んだ見方を提供し、間違った分析結果とその結果、決定につながる。 例えば、心血管疾患のリスクを研究した臨床試験では、少数民族のデータがないために予測が間違っていた。 したがって、研究者は、使用するデータセットに存在する可能性のあるデータバイアスを認識し、最終的にそれらを緩和し、分析結果がどう影響するかを制御する技術を採用することが重要である。 本稿では,データセットのバイアスに対処する手法を提案する。 (i)データセットに存在する可能性のあるデータバイアスの種類を定義します。 (ii)適切なメトリクスでデータのバイアスを特徴づけ、定量化する。 (iii)異なるデータソースのデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。 本提案法は,前向きおよび後向きの臨床試験に応用できる。 本提案は,理論的考察と,医療環境研究者へのインタビューを通じて評価する。

Algorithms and technologies are essential tools that pervade all aspects of our daily lives. In the last decades, health care research benefited from new computer-based recruiting methods, the use of federated architectures for data storage, the introduction of innovative analyses of datasets, and so on. Nevertheless, health care datasets can still be affected by data bias. Due to data bias, they provide a distorted view of reality, leading to wrong analysis results and, consequently, decisions. For example, in a clinical trial that studied the risk of cardiovascular diseases, predictions were wrong due to the lack of data on ethnic minorities. It is, therefore, of paramount importance for researchers to acknowledge data bias that may be present in the datasets they use, eventually adopt techniques to mitigate them and control if and how analyses results are impacted. This paper proposes a method to address bias in datasets that: (i) defines the types of data bias that may be present in the dataset, (ii) characterizes and quantifies data bias with adequate metrics, (iii) provides guidelines to identify, measure, and mitigate data bias for different data sources. The method we propose is applicable both for prospective and retrospective clinical trials. We evaluate our proposal both through theoretical considerations and through interviews with researchers in the health care environment.
翻訳日:2022-12-20 15:45:08 公開日:2022-12-19
# スペクトル正規化核2サンプルテスト

Spectral Regularized Kernel Two-Sample Tests ( http://arxiv.org/abs/2212.09201v1 )

ライセンス: Link先を確認
Omar Hagrass, Bharath K. Sriperumbudur and Bing Li(参考訳) 過去10年間で、一般(すなわち非ユークリッド)領域における非パラメトリックテスト問題に取り組むために多くの人気を得たアプローチは、確率分布を埋め込むカーネルヒルベルト空間(RKHS)の再生の概念に基づいている。 私たちの研究の主な目標は、このアプローチに基づいて構築された2サンプルテストの最適性を理解することです。 まず,一般的なMDD (maximum mean discrepancy) 2サンプル試験は,Hellinger距離で測定された分離境界において最適ではないことを示す。 第2に,共分散情報(mmdテストでは捉えられていない)を考慮してスペクトル正規化に基づくmmdテストの修正を提案し,mmdテストで達成されたより小さい分離境界でミニマックス最適であることを示す。 第3に、正規化パラメータを選択し、適応テストが対数係数までほぼ極小であることを示すためのデータ駆動型戦略を含む、上記のテストの適応バージョンを提案する。 さらに,テストしきい値がエレガントに選択されるテストの置換変種について,サンプルの置換により検討した。 合成および実世界のデータに関する数値実験を通じて,提案試験のMDD試験と比較して優れた性能を示す。

Over the last decade, an approach that has gained a lot of popularity to tackle non-parametric testing problems on general (i.e., non-Euclidean) domains is based on the notion of reproducing kernel Hilbert space (RKHS) embedding of probability distributions. The main goal of our work is to understand the optimality of two-sample tests constructed based on this approach. First, we show that the popular MMD (maximum mean discrepancy) two-sample test is not optimal in terms of the separation boundary measured in Hellinger distance. Second, we propose a modification to the MMD test based on spectral regularization by taking into account the covariance information (which is not captured by the MMD test) and prove the proposed test to be minimax optimal with a smaller separation boundary than that achieved by the MMD test. Third, we propose an adaptive version of the above test which involves a data-driven strategy to choose the regularization parameter and show the adaptive test to be almost minimax optimal up to a logarithmic factor. Moreover, our results hold for the permutation variant of the test where the test threshold is chosen elegantly through the permutation of the samples. Through numerical experiments on synthetic and real-world data, we demonstrate the superior performance of the proposed test in comparison to the MMD test.
翻訳日:2022-12-20 15:43:46 公開日:2022-12-19
# 勾配降下と小乱数初期化を伴うrank-1行列補完

Rank-1 Matrix Completion with Gradient Descent and Small Random Initialization ( http://arxiv.org/abs/2212.09396v1 )

ライセンス: Link先を確認
Daesung Kim and Hye Won Chung(参考訳) 行列完備化問題の非凸定式化は,近年,凸定式化と比較して手頃な複雑さのため,大きな注目を集めている。 勾配降下(GD)は非凸最適化問題の解法として最も単純だが効率的なベースラインアルゴリズムである。 GDの成功は、ランダム初期化と組み合わせることで、理論と実践の両方において多くの異なる問題で見られた。 しかしながら、行列完全性に関する以前の研究では、gd の収束を証明するために注意深い初期化または正規化が必要である。 本研究では,rank-1対称行列の完全性を研究し,小さなランダム初期化を用いた場合,gd が基底真理に収束することを示す。 対数的な反復量では、軌道は局所収束が起こる領域に入る。 我々は、収束を保証するのに十分な初期化サイズの上界を提供し、より多くのサンプルが利用できるので、より大きな初期化が使用できることを示す。 gdの暗黙的正規化効果は解析において重要な役割を担っており、軌道全体において、各エントリが他よりも大きくなることを防ぐ。

The nonconvex formulation of matrix completion problem has received significant attention in recent years due to its affordable complexity compared to the convex formulation. Gradient descent (GD) is the simplest yet efficient baseline algorithm for solving nonconvex optimization problems. The success of GD has been witnessed in many different problems in both theory and practice when it is combined with random initialization. However, previous works on matrix completion require either careful initialization or regularizers to prove the convergence of GD. In this work, we study the rank-1 symmetric matrix completion and prove that GD converges to the ground truth when small random initialization is used. We show that in logarithmic amount of iterations, the trajectory enters the region where local convergence occurs. We provide an upper bound on the initialization size that is sufficient to guarantee the convergence and show that a larger initialization can be used as more samples are available. We observe that implicit regularization effect of GD plays a critical role in the analysis, and for the entire trajectory, it prevents each entry from becoming much larger than the others.
翻訳日:2022-12-20 15:43:24 公開日:2022-12-19
# 教師付き分類手法を用いたロバスト異常マップによる多重欠陥検出

Robust Anomaly Map Assisted Multiple Defect Detection with Supervised Classification Techniques ( http://arxiv.org/abs/2212.09352v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Spyros Theodoropoulos, Erik Koehorst, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 産業 4.0 は、新しいセンシング機能や人工知能など、新しい技術進歩を活用することで製造環境を最適化することを目的としている。 DRAEM法は教師なし分類における最先端性能を示した。 異常マップを作成する能力は、おそらく欠陥がある部分を強調することで、教師付き分類モデルに手がかりを提供し、その性能を高めることができる。 本研究は,画像と対応する異常マップを入力として提供することにより,欠陥検出モデルのトレーニングにおいて,最高の性能が得られることを示す。 さらに、このような設定は、障害検出をバイナリまたはマルチクラス分類問題としてフレーミングする場合に一貫したパフォーマンスを提供し、クラスバランシングポリシーに影響されない。 我々はPhilips Consumer Lifestyle BVが提供する実世界のデータを用いて3つのデータセットで実験を行った。

Industry 4.0 aims to optimize the manufacturing environment by leveraging new technological advances, such as new sensing capabilities and artificial intelligence. The DRAEM technique has shown state-of-the-art performance for unsupervised classification. The ability to create anomaly maps highlighting areas where defects probably lie can be leveraged to provide cues to supervised classification models and enhance their performance. Our research shows that the best performance is achieved when training a defect detection model by providing an image and the corresponding anomaly map as input. Furthermore, such a setting provides consistent performance when framing the defect detection as a binary or multiclass classification problem and is not affected by class balancing policies. We performed the experiments on three datasets with real-world data provided by Philips Consumer Lifestyle BV.
翻訳日:2022-12-20 15:38:12 公開日:2022-12-19
# フェイク、ミックス、セグメンテーション:lidarセンサー間のドメインギャップを埋める

Fake it, Mix it, Segment it: Bridging the Domain Gap Between Lidar Sensors ( http://arxiv.org/abs/2212.09517v1 )

ライセンス: Link先を確認
Frederik Hasecke, Pascal Colling and Anton Kummert(参考訳) lidarデータのセグメンテーションは、ロボットや自動運転車の環境に関するリッチでポイントワイズな情報を提供するタスクである。 現在、lidarセグメンテーションのためのニューラルネットワークは、特定のデータセットに微調整されている。 lidarセンサーを新しいセンサーから大量のアノテートされたデータを再トレーニングすることなく切り替えると、ドメインシフトが発生し、ネットワークのパフォーマンスが大幅に低下する。 本研究では,アノテートされたpanoptic lidarデータセットを用いて,異なるlidarセンサの構造で記録されたシーンを再現する手法を提案する。 我々は、あるドメインから1つのドメインを再生し、生成されたデータを(擬似)ラベル付きターゲットドメインデータの一部と混合することにより、対象データにドメインギャップを狭める。 提案手法は,セマンティックKITTIの非教師付き領域適応性能を15.2平均接点(mIoU)と48.3mIoUで改善する。 21.8 mIoU と 51.5 mIoU による SemanticKITTI と nuScenes ドメイン適応の類似性を示した。 提案手法を,セマンティクスlidarセグメンテーション領域適応法と,非教師なし領域適応法と半教師なし領域適応法とを比較した。 さらに,提案手法を2種類のアートライダーセンサであるVelodyne Alpha PrimeとInnovizTwoの2つの状態のラベルなしデータセットに適用し,両者のセマンティックセマンティックセマンティクスネットワークを訓練することに成功した。

Segmentation of lidar data is a task that provides rich, point-wise information about the environment of robots or autonomous vehicles. Currently best performing neural networks for lidar segmentation are fine-tuned to specific datasets. Switching the lidar sensor without retraining on a big set of annotated data from the new sensor creates a domain shift, which causes the network performance to drop drastically. In this work we propose a new method for lidar domain adaption, in which we use annotated panoptic lidar datasets and recreate the recorded scenes in the structure of a different lidar sensor. We narrow the domain gap to the target data by recreating panoptic data from one domain in another and mixing the generated data with parts of (pseudo) labeled target domain data. Our method improves the nuScenes to SemanticKITTI unsupervised domain adaptation performance by 15.2 mean Intersection over Union points (mIoU) and by 48.3 mIoU in our semi-supervised approach. We demonstrate a similar improvement for the SemanticKITTI to nuScenes domain adaptation by 21.8 mIoU and 51.5 mIoU, respectively. We compare our method with two state of the art approaches for semantic lidar segmentation domain adaptation with a significant improvement for unsupervised and semi-supervised domain adaptation. Furthermore we successfully apply our proposed method to two entirely unlabeled datasets of two state of the art lidar sensors Velodyne Alpha Prime and InnovizTwo, and train well performing semantic segmentation networks for both.
翻訳日:2022-12-20 15:38:01 公開日:2022-12-19
# トランスフォーマーを用いたスケーラブル拡散モデル

Scalable Diffusion Models with Transformers ( http://arxiv.org/abs/2212.09748v1 )

ライセンス: Link先を確認
William Peebles, Saining Xie(参考訳) 本稿では,トランスアーキテクチャに基づく新しい拡散モデルについて検討する。 画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。 我々はGflopsで測定した前方通過複雑性のレンズを通して拡散変換器(DiT)のスケーラビリティを解析する。 変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。 私たちの最大のdit-xl/2モデルは、優れたスケーラビリティ特性を持つだけでなく、クラス条件のimagenet 512x512と256x256ベンチマークのすべての以前の拡散モデルよりも優れています。

We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops -- through increased transformer depth/width or increased number of input tokens -- consistently have lower FID. In addition to possessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class-conditional ImageNet 512x512 and 256x256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.
翻訳日:2022-12-20 15:37:19 公開日:2022-12-19
# OpenIEによる関係抽出の強化

Enriching Relation Extraction with OpenIE ( http://arxiv.org/abs/2212.09376v1 )

ライセンス: Link先を確認
Alessandro Temperoni, Maria Biryukov, Martin Theobald(参考訳) 関係抽出(Relation extract、RE)とは、自然言語入力単位(文、節、あるいは複数の文または/または節からなる短い段落など)から関係述語を予測することに焦点を当てた情報抽出(IE)のサブ分野である。 名前付き認識(NER)と曖昧さ認識(NED)とともに、REは知識ベース(KB)や検証といった多くの先進IEタスクの基礎を形成する。 本研究では,オープン情報抽出(OpenIE)の最近のアプローチが,文の主語,対象語,動詞句,副詞などの構造化情報から,文のベクトル化(従って非構造化)された表現へと変換することで,REのタスクの改善にどのように役立つかを検討する。 主要な予想は、長文と多文をOpenIEを介して複数の小節に分解することで、RE の BERT (およびその多変量) のような文脈に敏感な言語モデルにも役立ちます。 本稿では,2つの注釈付きコーパス,KnowledgeNet と FewRel を用いた実験を行い,既存の RE 手法と比較して拡張モデルの精度向上を実証した。 私たちのベストな結果は、KnowledgeNetとFewRelのF1スコアの92%と71%に達し、競合ベンチマークに対するアプローチの有効性を実証しています。

Relation extraction (RE) is a sub-discipline of information extraction (IE) which focuses on the prediction of a relational predicate from a natural-language input unit (such as a sentence, a clause, or even a short paragraph consisting of multiple sentences and/or clauses). Together with named-entity recognition (NER) and disambiguation (NED), RE forms the basis for many advanced IE tasks such as knowledge-base (KB) population and verification. In this work, we explore how recent approaches for open information extraction (OpenIE) may help to improve the task of RE by encoding structured information about the sentences' principal units, such as subjects, objects, verbal phrases, and adverbials, into various forms of vectorized (and hence unstructured) representations of the sentences. Our main conjecture is that the decomposition of long and possibly convoluted sentences into multiple smaller clauses via OpenIE even helps to fine-tune context-sensitive language models such as BERT (and its plethora of variants) for RE. Our experiments over two annotated corpora, KnowledgeNet and FewRel, demonstrate the improved accuracy of our enriched models compared to existing RE approaches. Our best results reach 92% and 71% of F1 score for KnowledgeNet and FewRel, respectively, proving the effectiveness of our approach on competitive benchmarks.
翻訳日:2022-12-20 15:36:57 公開日:2022-12-19
# 離散的自己監督単位を用いた話し方変換

Speaking Style Conversion With Discrete Self-Supervised Units ( http://arxiv.org/abs/2212.09730v1 )

ライセンス: Link先を確認
Gallil Maimon, Yossi Adi(参考訳) 音声変換(Voice Conversion, VC)とは、ある話者による音声の発声を、別の話者による発声のように行う作業である。 現在のVCメソッドは、主に音色のようなスペクトル機能に焦点を当て、しばしば韻律に影響を与える独特の話し方を無視している。 本研究では,音色だけでなく,韻律情報(リズムやピッチの変化など)を対象話者に変換する手法を提案する。 提案手法は、音声を離散単位に符号化する事前訓練された自己教師型モデルに基づいており、単純で効果的で容易に最適化できる。 ペアデータのない多対多設定を考える。 そこで本研究では, 定量的, 質的評価指標の組を紹介するとともに, 提案手法が評価基準よりも有意に優れていることを実証的に示す。 コードとサンプルはhttps://pages.cs.huji.ac.il/adiyoss-lab/dissc/で確認できる。

Voice Conversion (VC) is the task of making a spoken utterance by one speaker sound as if uttered by a different speaker, while keeping other aspects like content unchanged. Current VC methods, focus primarily on spectral features like timbre, while ignoring the unique speaking style of people which often impacts prosody. In this study, we introduce a method for converting not only the timbre, but also prosodic information (i.e., rhythm and pitch changes) to those of the target speaker. The proposed approach is based on a pretrained, self-supervised, model for encoding speech to discrete units, which make it simple, effective, and easy to optimise. We consider the many-to-many setting with no paired data. We introduce a suite of quantitative and qualitative evaluation metrics for this setup, and empirically demonstrate the proposed approach is significantly superior to the evaluated baselines. Code and samples can be found under https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ .
翻訳日:2022-12-20 15:36:19 公開日:2022-12-19
# Fisher's Criterionの拡張:ニューラルネットワークの実現による理論的結果

An Extension of Fisher's Criterion: Theoretical Results with a Neural Network Realization ( http://arxiv.org/abs/2212.09225v1 )

ライセンス: Link先を確認
Ibrahim Alsolami and Tomoki Fukai(参考訳) Fisherの基準は、特徴選択のための機械学習で広く使われているツールである。 大きな検索スペースの場合、fisherの基準は、機能を選択するためのスケーラブルなソリューションを提供することができる。 しかし、フィッシャーの基準の挑戦的な制限は、クラス条件分布の平均値が互いに近い場合、性能が低いことである。 この課題に触発され、この制限を克服するためのフィッシャーの基準の拡張を提案する。 提案した拡張は,クラス条件分布の異種性を利用して,あるクラスを別のクラスと区別する。 さらに、我々の理論的結果をニューラルネットワークフレームワークにキャストし、概念実証実験を行い、分類問題を解くためのアプローチの可能性を実証する。

Fisher's criterion is a widely used tool in machine learning for feature selection. For large search spaces, Fisher's criterion can provide a scalable solution to select features. A challenging limitation of Fisher's criterion, however, is that it performs poorly when mean values of class-conditional distributions are close to each other. Motivated by this challenge, we propose an extension of Fisher's criterion to overcome this limitation. The proposed extension utilizes the available heteroscedasticity of class-conditional distributions to distinguish one class from another. Additionally, we describe how our theoretical results can be casted into a neural network framework, and conduct a proof-of-concept experiment to demonstrate the viability of our approach to solve classification problems.
翻訳日:2022-12-20 15:25:59 公開日:2022-12-19
# トレーニングダイナミクスから学ぶ - 手動で設計した機能を超えた誤ったラベルデータの識別

Learning from Training Dynamics: Identifying Mislabeled Data Beyond Manually Designed Features ( http://arxiv.org/abs/2212.09321v1 )

ライセンス: Link先を確認
Qingrui Jia, Xuhong Li, Lei Yu, Jiang Bian, Penghao Zhao, Shupeng Li, Haoyi Xiong, Dejing Dou(参考訳) トレーニングセット内のラベル付きまたはあいまいなラベル付きサンプルは、深層モデルのパフォーマンスに悪影響を及ぼす可能性があるが、データセットの診断とラベル付きサンプルの同定は、一般化能力の向上に寄与する。 トレーニング力学、すなわち最適化アルゴリズムの反復によって残されているトレースは、最近、手作りの特徴を持つ間違ったラベル付きサンプルのローカライズに有効であることが証明された。 本稿では,手動で設計するだけでなく,LSTMネットワークを例に,サンプルが入力として生のトレーニングダイナミクスを用いて誤ラベルされているかどうかを判断するノイズ検出を応用した,新しい学習ベースソリューションを提案する。 具体的には、合成ラベルノイズを用いたデータセットを用いて教師あり方式でノイズ検出器を訓練し、再学習せずに様々なデータセット(自然あるいは合成ラベルノイズ)に適応することができる。 提案手法を評価するために広範な実験を行った。 我々は、合成ラベル付きCIFARデータセットに基づいてノイズ検出器を訓練し、Tiny ImageNet, CUB-200, Caltech-256, WebVision, Clothing1Mでそのようなノイズ検出器をテストする。 提案手法は, 各種データセットのラベルのずれを, さらなる適応を伴わずに正確に検出し, 最先端の手法より優れていることを示す。 さらに多くの実験では、ラベルの修正、すなわちデータデバッギングを導出し、データ側面からアルゴリズム中心の最先端技術を直交的に改善できることが示されている。

While mislabeled or ambiguously-labeled samples in the training set could negatively affect the performance of deep models, diagnosing the dataset and identifying mislabeled samples helps to improve the generalization power. Training dynamics, i.e., the traces left by iterations of optimization algorithms, have recently been proved to be effective to localize mislabeled samples with hand-crafted features. In this paper, beyond manually designed features, we introduce a novel learning-based solution, leveraging a noise detector, instanced by an LSTM network, which learns to predict whether a sample was mislabeled using the raw training dynamics as input. Specifically, the proposed method trains the noise detector in a supervised manner using the dataset with synthesized label noises and can adapt to various datasets (either naturally or synthesized label-noised) without retraining. We conduct extensive experiments to evaluate the proposed method. We train the noise detector based on the synthesized label-noised CIFAR dataset and test such noise detector on Tiny ImageNet, CUB-200, Caltech-256, WebVision and Clothing1M. Results show that the proposed method precisely detects mislabeled samples on various datasets without further adaptation, and outperforms state-of-the-art methods. Besides, more experiments demonstrate that the mislabel identification can guide a label correction, namely data debugging, providing orthogonal improvements of algorithm-centric state-of-the-art techniques from the data aspect.
翻訳日:2022-12-20 15:25:49 公開日:2022-12-19
# ローエンドエッジデバイス上でのオンデバイス学習のためのシーケンシャルコンセプトドリフト検出法

A Sequential Concept Drift Detection Method for On-Device Learning on Low-End Edge Devices ( http://arxiv.org/abs/2212.09637v1 )

ライセンス: Link先を確認
Takeya Yamada, Hiroki Matsutani(参考訳) エッジaiシステムの現実的な問題は、トレーニングされたデータセットとデプロイされた環境のデータ分布がノイズや環境の変化によって異なる可能性があることだ。 このような現象はコンセプトドリフトとして知られており、このギャップはエッジAIシステムの性能を低下させ、システム障害を引き起こす可能性がある。 このギャップに対処するために、概念ドリフト検出によって引き起こされるニューラルネットワークモデルのリトレーニングは実用的なアプローチである。 しかし、エッジデバイスで利用可能な計算資源は厳密に制限されているため、近年提案されているニューラルネットワークのオンデバイス学習技術と連携して、軽量なコンセプトドリフト検出手法を提案する。 この場合、ニューラルネットワークの再トレーニングと提案されたドリフト検出は、計算コストとメモリ使用率を削減し、逐次計算によって行われる。 提案手法の評価結果から,従来のバッチ検出法に比べて3.8%-4.3%,メモリサイズが88.9%-96.4%,実行時間が1.3%-83.8%減少した。 その結果,264kbのメモリを持つraspberry pi piのpicoにおいて,ニューラルネットワークの再トレーニングと提案するドリフト検出法の組み合わせが実証された。

A practical issue of edge AI systems is that data distributions of trained dataset and deployed environment may differ due to noise and environmental changes over time. Such a phenomenon is known as a concept drift, and this gap degrades the performance of edge AI systems and may introduce system failures. To address this gap, a retraining of neural network models triggered by concept drift detection is a practical approach. However, since available compute resources are strictly limited in edge devices, in this paper we propose a lightweight concept drift detection method in cooperation with a recently proposed on-device learning technique of neural networks. In this case, both the neural network retraining and the proposed concept drift detection are done by sequential computation only to reduce computation cost and memory utilization. Evaluation results of the proposed approach shows that while the accuracy is decreased by 3.8%-4.3% compared to existing batch-based detection methods, it decreases the memory size by 88.9%-96.4% and the execution time by 1.3%-83.8%. As a result, the combination of the neural network retraining and the proposed concept drift detection method is demonstrated on Raspberry Pi Pico that has 264kB memory.
翻訳日:2022-12-20 15:18:41 公開日:2022-12-19
# 確率的機械学習に基づく動的システムのための予測および解釈可能なデジタル双生児

Probabilistic machine learning based predictive and interpretable digital twin for dynamical systems ( http://arxiv.org/abs/2212.09240v1 )

ライセンス: Link先を確認
Tapas Tripura and Aarya Sheetal Desai and Sondipon Adhikari and Souvik Chakraborty(参考訳) 物理関数のライブラリーから動的システムのためのデジタルツインの作成と更新を行うフレームワークを提案する。 スパースベイズ機械学習は、デジタルツインの解釈可能な表現を更新および導出するために使用される。 ディジタルツインを更新するための2つのアプローチを提案する。 第1のアプローチでは、動的システムからの入力情報と出力情報の両方を使用し、第2のアプローチでは出力のみの観測を使用してデジタルツインを更新する。 どちらの方法も、ある物理を表す候補関数のライブラリを使用して、既存のデジタル双対モデルにおける新しい摂動項を推測する。 いずれの場合も、更新されたデジタル双生児の表現は同一であり、さらに認識の不確実性も定量化される。 第1のアプローチでは、回帰問題は状態空間モデルから導かれるが、後者の場合、出力のみの情報は確率過程として扱われる。 It\^o calculus と Kramers-Moyal の展開の概念は回帰方程式の導出に利用されている。 き裂劣化問題などの高非線形力学系を用いて,提案手法の性能を実証した。 本論文で示される数値結果は、動的系におけるそれらの関連するパラメータとともに、ほぼ正確に正しい摂動項を同定するものである。 提案手法の確率論的性質は、更新されたモデルに関連する不確かさの定量化にも役立つ。 提案手法は,サイバーフィジカルな統合,長期的予測,劣化モニタリング,モデル非依存制御に直接適用可能な,デジタル双生児モデルの摂動の正確かつ説明可能な説明を提供する。

A framework for creating and updating digital twins for dynamical systems from a library of physics-based functions is proposed. The sparse Bayesian machine learning is used to update and derive an interpretable expression for the digital twin. Two approaches for updating the digital twin are proposed. The first approach makes use of both the input and output information from a dynamical system, whereas the second approach utilizes output-only observations to update the digital twin. Both methods use a library of candidate functions representing certain physics to infer new perturbation terms in the existing digital twin model. In both cases, the resulting expressions of updated digital twins are identical, and in addition, the epistemic uncertainties are quantified. In the first approach, the regression problem is derived from a state-space model, whereas in the latter case, the output-only information is treated as a stochastic process. The concepts of It\^o calculus and Kramers-Moyal expansion are being utilized to derive the regression equation. The performance of the proposed approaches is demonstrated using highly nonlinear dynamical systems such as the crack-degradation problem. Numerical results demonstrated in this paper almost exactly identify the correct perturbation terms along with their associated parameters in the dynamical system. The probabilistic nature of the proposed approach also helps in quantifying the uncertainties associated with updated models. The proposed approaches provide an exact and explainable description of the perturbations in digital twin models, which can be directly used for better cyber-physical integration, long-term future predictions, degradation monitoring, and model-agnostic control.
翻訳日:2022-12-20 15:17:32 公開日:2022-12-19
# 文脈線形帯域における表現学習の複雑さについて

On the Complexity of Representation Learning in Contextual Linear Bandits ( http://arxiv.org/abs/2212.09429v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Matteo Pirotta, Alessandro Lazaric(参考訳) 文脈線形帯域では、報酬関数は未知の報酬ベクトルと与えられたコンテキストアーム対の埋め込みの線形結合であると仮定される。 実際には、埋め込みはしばしば報酬ベクトルとして同時に学習されるため、オンライン表現学習問題につながる。 コンテキストバンディットにおける表現学習への既存のアプローチは、非常に汎用的(例えば、任意の関数クラスで学習するためのモデル選択技術やアルゴリズム)か、特定の構造(例えば、特定のスペクトル特性を持つネスト特徴や表現)に特化している。 その結果、文脈線形帯域における表現学習のコストの理解は依然として限られている。 本稿では,問題に対して体系的なアプローチを採り,インスタンス依存の観点から総合的研究を行う。 表現学習は線形帯域(つまり与えられた表現で学習する)よりも根本的に複雑であることを示す。 特に、与えられた表現の集合で学ぶことは、その集合の中で最悪の実現可能な表現で学ぶことよりも決して単純ではない。 この結果は,既存の文献とどのように関連しているかを論じるとともに,表現学習が一定の表現で学習するのと同じくらい複雑であり,非対数的後悔が達成可能であることを示す。

In contextual linear bandits, the reward function is assumed to be a linear combination of an unknown reward vector and a given embedding of context-arm pairs. In practice, the embedding is often learned at the same time as the reward vector, thus leading to an online representation learning problem. Existing approaches to representation learning in contextual bandits are either very generic (e.g., model-selection techniques or algorithms for learning with arbitrary function classes) or specialized to particular structures (e.g., nested features or representations with certain spectral properties). As a result, the understanding of the cost of representation learning in contextual linear bandit is still limited. In this paper, we take a systematic approach to the problem and provide a comprehensive study through an instance-dependent perspective. We show that representation learning is fundamentally more complex than linear bandits (i.e., learning with a given representation). In particular, learning with a given set of representations is never simpler than learning with the worst realizable representation in the set, while we show cases where it can be arbitrarily harder. We complement this result with an extensive discussion of how it relates to existing literature and we illustrate positive instances where representation learning is as complex as learning with a fixed representation and where sub-logarithmic regret is achievable.
翻訳日:2022-12-20 15:17:08 公開日:2022-12-19
# t-SNE次元削減に基づく自動車保険リスクの予測

Prediction of Auto Insurance Risk Based on t-SNE Dimensionality Reduction ( http://arxiv.org/abs/2212.09385v1 )

ライセンス: Link先を確認
Joseph Levitas, Konstantin Yavilberg, Oleg Korol, Genadi Man(参考訳) 自動車保険会社にとって、ドライバーのリスクを正しく評価することは非常に重要である。 この分野で使われているツールは、実際非常に効率的で有益であることが証明されているが、自動車保険リスク推定プロセスの開発と改善の余地は依然としてたくさんあると論じている。 そこで我々は,ニューラルネットワークと次元還元技術t-SNE(t-disdistributed stochastic neighbor embeddeding)を組み合わせたフレームワークを開発した。 これにより、特徴空間内の局所領域の特性を保ちながら、リスクの複雑な構造を二次元表面として視覚的に表現することができる。 得られた結果は、実際の保険データに基づいて、高リスクと低リスクの政策保有者間の明確なコントラストを明らかにし、保険者による実際のリスク推定を実際に改善する。 このアプローチにおけるポートフォリオの視覚的なアクセシビリティのため、私たちは、このフレームワークが主要なリスク予測ツールと他のアプローチにおける追加の検証段階の両方として、auto insurerに有利になる可能性があると論じています。

Correct scoring of a driver's risk is of great significance to auto insurance companies. While the current tools used in this field have been proven in practice to be quite efficient and beneficial, we argue that there is still a lot of room for development and improvement in the auto insurance risk estimation process. To this end, we develop a framework based on a combination of a neural network together with a dimensionality reduction technique t-SNE (t-distributed stochastic neighbour embedding). This enables us to visually represent the complex structure of the risk as a two-dimensional surface, while still preserving the properties of the local region in the features space. The obtained results, which are based on real insurance data, reveal a clear contrast between the high and low risk policy holders, and indeed improve upon the actual risk estimation performed by the insurer. Due to the visual accessibility of the portfolio in this approach, we argue that this framework could be advantageous to the auto insurer, both as a main risk prediction tool and as an additional validation stage in other approaches.
翻訳日:2022-12-20 15:16:47 公開日:2022-12-19
# ビデオシーンのサロゲートドリームを拡散してビデオの記憶力を予測する

Diffusing Surrogate Dreams of Video Scenes to Predict Video Memorability ( http://arxiv.org/abs/2212.09308v1 )

ライセンス: Link先を確認
Lorin Sweeney and Graham Healy and Alan F. Smeaton(参考訳) mediaeval 2022 では,映像の記憶力を予測するタスクの一環として,映像の記憶力とそれを特徴付ける視覚表現と,その視覚表現によって表現される基本概念との関係について検討する。 そこで本研究では,視覚コンテンツに固有の記憶能力が,視覚表現によらず,その基礎となる概念や意味に蒸留可能であることを示す強力な証拠を見いだし,サロゲート・ドリームイメージを専用に訓練,テストしたモデルを用いて,最先端の記憶可能性予測性能を実現する。

As part of the MediaEval 2022 Predicting Video Memorability task we explore the relationship between visual memorability, the visual representation that characterises it, and the underlying concept portrayed by that visual representation. We achieve state-of-the-art memorability prediction performance with a model trained and tested exclusively on surrogate dream images, elevating concepts to the status of a cornerstone memorability feature, and finding strong evidence to suggest that the intrinsic memorability of visual content can be distilled to its underlying concept or meaning irrespective of its specific visual representational.
翻訳日:2022-12-20 15:11:01 公開日:2022-12-19
# GANを用いた自動視覚検査のための合成データ拡張

Synthetic Data Augmentation Using GAN For Improved Automated Visual Inspection ( http://arxiv.org/abs/2212.09317v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Spyros Theodoropoulos, Erik Koehorst, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 品質管理は、製造会社が製品が要件や仕様に合致することを保証するために行う重要な活動である。 人工知能モデルの導入により、視覚品質検査を自動化し、検査プロセスをスピードアップし、すべての製品を同じ基準で評価することができる。 本研究では,教師付きおよび教師なしの欠陥検出手法とデータ拡張手法を比較し,自動視覚検査の文脈におけるデータの不均衡を緩和する。 さらに、データ拡張にはジェネレーティブ・アドバイサル・ネットワークを使用し、分類器の識別性能を向上させる。 その結果,非教師付き欠陥検出は教師付きモデルの性能と一致せず,ラベル付け作業量を50%以上削減できることがわかった。 さらに, AUC ROC スコアが 0,9898 以上である GAN ベースのデータ生成を考慮し, 欠陥製品を示す画像の25%しか残さず, データセットの不均衡を増大させた場合でも, 最高の分類性能が得られた。 philips consumer lifestyle bvによる実世界データを用いて研究を行った。

Quality control is a crucial activity performed by manufacturing companies to ensure their products conform to the requirements and specifications. The introduction of artificial intelligence models enables to automate the visual quality inspection, speeding up the inspection process and ensuring all products are evaluated under the same criteria. In this research, we compare supervised and unsupervised defect detection techniques and explore data augmentation techniques to mitigate the data imbalance in the context of automated visual inspection. Furthermore, we use Generative Adversarial Networks for data augmentation to enhance the classifiers' discriminative performance. Our results show that state-of-the-art unsupervised defect detection does not match the performance of supervised models but can be used to reduce the labeling workload by more than 50%. Furthermore, the best classification performance was achieved considering GAN-based data generation with AUC ROC scores equal to or higher than 0,9898, even when increasing the dataset imbalance by leaving only 25\% of the images denoting defective products. We performed the research with real-world data provided by Philips Consumer Lifestyle BV.
翻訳日:2022-12-20 15:10:48 公開日:2022-12-19
# 運転場面における認知事故予測:マルチモダリティベンチマーク

Cognitive Accident Prediction in Driving Scenes: A Multimodality Benchmark ( http://arxiv.org/abs/2212.09381v1 )

ライセンス: Link先を確認
Jianwu Fang, Lei-Lei Li, Kuan Yang, Zhedong Zheng, Jianru Xue, and Tat-Seng Chua(参考訳) 運転映像における交通事故予測は,事故発生の早期警告の提供を目的としており,安全運転システムの意思決定を支援する。 従来の研究は通常、オブジェクトレベルのコンテキストの空間的時間的相関に集中するが、それらは固有の長期データ分布にうまく適合せず、厳しい環境変化に弱い。 本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。 特に、テキスト記述は、交通シーンの一次文脈に対する密接な意味記述ガイダンスを提供し、運転者の注意は、安全な運転と密接な関係にある重要な領域に焦点を当てる引き金となる。 capは、注意テキストツービジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転者注意誘導事故予測モジュールによって定式化される。 これらのモジュールの注意機構を利用して、事故予測のコアセマンティック・キューを探索する。 CAPをトレーニングするために,既存のDAD-2000データセット(各フレームに注意を喚起した注記付き)を拡張し,事故前の視覚的観察のさらなる事実記述を行う。 さらに,約219万フレーム(CAP-DATAと名付けられている)とファクト・エフェクト・レファレンス・イントロスペクション記述と時間的事故フレームラベルを用いた11,727件の事故動画からなる大規模ベンチマークを構築した。 広範な実験に基づいて、CAPの優位性は最先端のアプローチと比較して検証される。 CAP-DATAと全ての結果は \url{https://github.com/JWFanggit/LOTVS-CAP} でリリースされる。

Traffic accident prediction in driving videos aims to provide an early warning of the accident occurrence, and supports the decision making of safe driving systems. Previous works usually concentrate on the spatial-temporal correlation of object-level context, while they do not fit the inherent long-tailed data distribution well and are vulnerable to severe environmental change. In this work, we propose a Cognitive Accident Prediction (CAP) method that explicitly leverages human-inspired cognition of text description on the visual observation and the driver attention to facilitate model training. In particular, the text description provides a dense semantic description guidance for the primary context of the traffic scene, while the driver attention provides a traction to focus on the critical region closely correlating with safe driving. CAP is formulated by an attentive text-to-vision shift fusion module, an attentive scene context transfer module, and the driver attention guided accident prediction module. We leverage the attention mechanism in these modules to explore the core semantic cues for accident prediction. In order to train CAP, we extend an existing self-collected DADA-2000 dataset (with annotated driver attention for each frame) with further factual text descriptions for the visual observations before the accidents. Besides, we construct a new large-scale benchmark consisting of 11,727 in-the-wild accident videos with over 2.19 million frames (named as CAP-DATA) together with labeled fact-effect-reason-introspection description and temporal accident frame label. Based on extensive experiments, the superiority of CAP is validated compared with state-of-the-art approaches. The code, CAP-DATA, and all results will be released in \url{https://github.com/JWFanggit/LOTVS-CAP}.
翻訳日:2022-12-20 15:10:28 公開日:2022-12-19
# ニューラルモデルがNL2Codeと出会う: サーベイ

When Neural Model Meets NL2Code: A Survey ( http://arxiv.org/abs/2212.09420v1 )

ライセンス: Link先を確認
Daoguang Zan, Bei Chen, Fengji Zhang, Dianjie Lu, Bingchao Wu, Bei Guan, Yongji Wang, Jian-Guang Lou(参考訳) ユーザの要求を記述する自然言語を考えると、nl2codeタスクは要求に対応するコードを生成することを目的としている。 これは、AIによるプログラミングの能力を反映する重要なタスクですが、難しい作業です。 NL2Codeタスクは本質的に汎用的で多様で複雑である。 例えば、要求は異なる言語、異なるフォーマット、異なるレベルの粒度で記述できる。 これはNL2Codeのこの調査にインスピレーションを与えました。 本稿では、ニューラルネットワーク(NN)がNL2Codeをどのように解決するかに焦点を当てる。 まず,この分野のすべての研究を対象とする包括的フレームワークを提案する。 そして、既存の研究をこのフレームワークに深く解析します。 解析結果を記録するオンラインWebサイトを作成し、既存のNL2Codeの進捗状況を追跡する。 さらに,NL2Codeの現在の課題と今後の方向性についても概説する。 この調査がこの分野の進化を促進できることを願っています。

Given a natural language that describes the user's demands, the NL2Code task aims to generate code that addresses the demands. This is a critical but challenging task that mirrors the capabilities of AI-powered programming. The NL2Code task is inherently versatile, diverse and complex. For example, a demand can be described in different languages, in different formats, and at different levels of granularity. This inspired us to do this survey for NL2Code. In this survey, we focus on how does neural network (NN) solves NL2Code. We first propose a comprehensive framework, which is able to cover all studies in this field. Then, we in-depth parse the existing studies into this framework. We create an online website to record the parsing results, which tracks existing and recent NL2Code progress. In addition, we summarize the current challenges of NL2Code as well as its future directions. We hope that this survey can foster the evolution of this field.
翻訳日:2022-12-20 15:09:09 公開日:2022-12-19
# 知識ギャップを念頭に置いて--知識強化対話システムに関する調査研究

Mind the Knowledge Gap: A Survey of Knowledge-enhanced Dialogue Systems ( http://arxiv.org/abs/2212.09252v1 )

ライセンス: Link先を確認
Sagi Shaier, Lawrence Hunter, Katharina Kann(参考訳) 多くの対話システム(dss)は、感情知覚、事実性、情報性などの特徴を欠いている。 知識によるDSの強化はこの問題を軽減するが、多くの方法が存在するため、提案手法の追跡は困難である。 本稿では,知識強化dssに関する最初の調査を行う。 使用する知識に基づいて、システムの内部、外部、ハイブリッドの3つのカテゴリを定義します。 本研究では,知識を用いたDSの強化,使用済みデータセット,知識検索,知識エンコーディング,知識導入のための手法について調査する。 最後に,言語学と認知科学の理論に基づく既存システムの改善手法を提案する。

Many dialogue systems (DSs) lack characteristics humans have, such as emotion perception, factuality, and informativeness. Enhancing DSs with knowledge alleviates this problem, but, as many ways of doing so exist, keeping track of all proposed methods is difficult. Here, we present the first survey of knowledge-enhanced DSs. We define three categories of systems - internal, external, and hybrid - based on the knowledge they use. We survey the motivation for enhancing DSs with knowledge, used datasets, and methods for knowledge search, knowledge encoding, and knowledge incorporation. Finally, we propose how to improve existing systems based on theories from linguistics and cognitive science.
翻訳日:2022-12-20 15:01:01 公開日:2022-12-19
# 言語生成のための潜時拡散

Latent Diffusion for Language Generation ( http://arxiv.org/abs/2212.09462v1 )

ライセンス: Link先を確認
Justin Lovelace and Varsha Kishore and Chao Wan and Eliot Shekhtman and Kilian Weinberger(参考訳) 拡散モデルは、画像、音声、ビデオなどの連続データモダリティのモデリングで大きな成功を収めてきたが、言語のような離散的な領域での使用は限られている。 言語に拡散を適用する最近の試みは、自己回帰型言語生成の代替として拡散を示している。 代わりに、既存の事前学習言語モデルの生成能力を増強できる相補的手法として拡散を考察する。 我々は,事前学習したエンコーダ-デコーダモデルの潜在空間において連続拡散モデルを学習できることを示し,事前学習したデコーダを用いて自然言語に復号可能な連続潜時表現をサンプル化できるようにする。 潜在拡散モデルは強力な自己回帰ベースラインよりもデータ分布から新しいテキストをサンプリングするのに効果的であり,制御可能な生成も可能であることを示す。

Diffusion models have achieved great success in modeling continuous data modalities such as images, audio, and video, but have seen limited use in discrete domains such as language. Recent attempts to adapt diffusion to language have presented diffusion as an alternative to autoregressive language generation. We instead view diffusion as a complementary method that can augment the generative capabilities of existing pre-trained language models. We demonstrate that continuous diffusion models can be learned in the latent space of a pre-trained encoder-decoder model, enabling us to sample continuous latent representations that can be decoded into natural language with the pre-trained decoder. We show that our latent diffusion models are more effective at sampling novel text from data distributions than a strong autoregressive baseline and also enable controllable generation.
翻訳日:2022-12-20 15:00:50 公開日:2022-12-19
# ニューラルマシン翻訳における教師なし幻覚検出のための最適輸送法

Optimal Transport for Unsupervised Hallucination Detection in Neural Machine Translation ( http://arxiv.org/abs/2212.09631v1 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Pierre Colombo, Pablo Piantanida, Andr\'e F. T. Martins(参考訳) neural machine translation (nmt) は現実世界の機械翻訳アプリケーションにおいてデファクトスタンダードとなっている。 しかし、NMTモデルは、幻覚として知られる深刻な病的翻訳を予測不能に生成し、ユーザーの信頼を著しく損なう。 したがって、適切な機能を保証する効果的な予防戦略を実施することが不可欠となる。 本稿では,NMTにおける幻覚検出の問題点を,簡単な直感によって解決する:幻覚をソースコンテンツから切り離すと,高品質翻訳と統計的に異なるエンコーダ・デコーダの注意パターンを示す。 我々は,この問題を最適輸送定式化で構成し,注意に基づくNMTモデルで使用可能な,完全に教師なしのプラグイン検出器を提案する。 実験の結果,我々の検出器は,従来のモデルに基づく検出器よりも優れており,また,何百万ものサンプルで訓練された大規模モデルを用いる検出器と競合することがわかった。

Neural machine translation (NMT) has become the de-facto standard in real-world machine translation applications. However, NMT models can unpredictably produce severely pathological translations, known as hallucinations, that seriously undermine user trust. It becomes thus crucial to implement effective preventive strategies to guarantee their proper functioning. In this paper, we address the problem of hallucination detection in NMT by following a simple intuition: as hallucinations are detached from the source content, they exhibit encoder-decoder attention patterns that are statistically different from those of good quality translations. We frame this problem with an optimal transport formulation and propose a fully unsupervised, plug-in detector that can be used with any attention-based NMT model. Experimental results show that our detector not only outperforms all previous model-based detectors, but is also competitive with detectors that employ large models trained on millions of samples.
翻訳日:2022-12-20 15:00:15 公開日:2022-12-19
# グラフに基づく意味抽出テキスト解析

Graph-based Semantical Extractive Text Analysis ( http://arxiv.org/abs/2212.09701v1 )

ライセンス: Link先を確認
Mina Samizadeh(参考訳) 過去数十年間、さまざまなトピックを持つさまざまなソースから生成されるデータ量が爆発的に増加した。 この膨大なデータが利用できるため、データの探索に効果的な計算ツールを採用する必要があります。 これにより、このテキストデータを処理することに焦点を当てた計算手法を開発する研究コミュニティの関心が高まっている。 テキストを凝縮して、より短い時間でより高度な理解を得られるようにすることに焦点を当てた研究の行。 これを行う2つの重要なタスクはキーワード抽出とテキスト要約である。 キーワード抽出では、テキストから重要な重要な単語を見つけることに興味がある。 これにより、テキストの一般的な話題に精通しています。 テキスト要約では、文書に関する重要な情報を含む短いテキストを作ることに興味がある。 textrankアルゴリズムは、pagerankの拡張である教師なし学習(algorithmはgoogle検索エンジンの検索とランク付けのためのベースアルゴリズム)であり、大規模なテキストマイニング、特にテキスト要約とキーワード抽出においてその効果を示している。 このアルゴリズムは、テキスト(キーワードや文)の重要部分を自動抽出し、その結果として宣言することができる。 しかし、このアルゴリズムは異なる部分間の意味的類似性を無視する。 本研究では,テキストの一部間の意味的類似性を取り入れ,テキストランクアルゴリズムの結果を改善した。 キーワード抽出とテキスト要約を別にして,個別に,あるいは要約生成の一部として使用し,カバレッジ問題を克服するフレームワークに基づくトピッククラスタリングアルゴリズムを開発した。

In the past few decades, there has been an explosion in the amount of available data produced from various sources with different topics. The availability of this enormous data necessitates us to adopt effective computational tools to explore the data. This leads to an intense growing interest in the research community to develop computational methods focused on processing this text data. A line of study focused on condensing the text so that we are able to get a higher level of understanding in a shorter time. The two important tasks to do this are keyword extraction and text summarization. In keyword extraction, we are interested in finding the key important words from a text. This makes us familiar with the general topic of a text. In text summarization, we are interested in producing a short-length text which includes important information about the document. The TextRank algorithm, an unsupervised learning method that is an extension of the PageRank (algorithm which is the base algorithm of Google search engine for searching pages and ranking them) has shown its efficacy in large-scale text mining, especially for text summarization and keyword extraction. this algorithm can automatically extract the important parts of a text (keywords or sentences) and declare them as the result. However, this algorithm neglects the semantic similarity between the different parts. In this work, we improved the results of the TextRank algorithm by incorporating the semantic similarity between parts of the text. Aside from keyword extraction and text summarization, we develop a topic clustering algorithm based on our framework which can be used individually or as a part of generating the summary to overcome coverage problems.
翻訳日:2022-12-20 14:59:58 公開日:2022-12-19
# CHAD:シャーロット異常データセット

CHAD: Charlotte Anomaly Dataset ( http://arxiv.org/abs/2212.09258v1 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Babak Rahimi Ardabili, Christopher Neff, Hamed Tabkhi(参考訳) 近年,映像の特定のフレームが異常な動作を含むかどうかをアルゴリズムが判断しなければならない,映像異常検出のためのデータ駆動型ディープラーニングアプローチが注目されている。 しかし、ビデオ異常検出は特にコンテキスト固有であり、代表データセットの可用性は現実世界の精度を著しく制限する。 さらに、現在のほとんどの最先端メソッドによって報告されているメトリクスは、実際のシナリオでモデルがどのように機能するかを反映していないことが多い。 本稿では,シャーロット異常データセット(chad)について述べる。 CHADは商用駐車場における高解像度マルチカメラ異常データセットである。 フレームレベルの異常ラベルに加えて、CHADはバウンディングボックス、アイデンティティ、各アクターに対するアノテーションを含む最初の異常データセットである。 これはスケルトンに基づく異常検出に特に有用であり、実世界での計算需要の低減に有用である。 CHADは、同じシーンの複数のビューを含む最初の異常データセットである。 4つのカメラビューと115万フレーム以上のフレームを持つCHADは、静止カメラからの連続ビデオストリームから収集された個人アノテーションを含む、完全注釈付き異常検出データセットとして最大である。 トレーニングおよび評価におけるCHADの有効性を実証するため,CHADに2つの最先端スケルトンに基づく異常検出アルゴリズムをベンチマークし,定量的結果と定性検査の両方を含む包括的解析を行った。

In recent years, we have seen a significant interest in data-driven deep learning approaches for video anomaly detection, where an algorithm must determine if specific frames of a video contain abnormal behaviors. However, video anomaly detection is particularly context-specific, and the availability of representative datasets heavily limits real-world accuracy. Additionally, the metrics currently reported by most state-of-the-art methods often do not reflect how well the model will perform in real-world scenarios. In this article, we present the Charlotte Anomaly Dataset (CHAD). CHAD is a high-resolution, multi-camera anomaly dataset in a commercial parking lot setting. In addition to frame-level anomaly labels, CHAD is the first anomaly dataset to include bounding box, identity, and pose annotations for each actor. This is especially beneficial for skeleton-based anomaly detection, which is useful for its lower computational demand in real-world settings. CHAD is also the first anomaly dataset to contain multiple views of the same scene. With four camera views and over 1.15 million frames, CHAD is the largest fully annotated anomaly detection dataset including person annotations, collected from continuous video streams from stationary cameras for smart video surveillance applications. To demonstrate the efficacy of CHAD for training and evaluation, we benchmark two state-of-the-art skeleton-based anomaly detection algorithms on CHAD and provide comprehensive analysis, including both quantitative results and qualitative examination.
翻訳日:2022-12-20 14:59:00 公開日:2022-12-19
# 大規模言語モデルは自己検証の根拠である

Large Language Models are reasoners with Self-Verification ( http://arxiv.org/abs/2212.09561v1 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Shizhu He, Kang Liu, Jun Zhao(参考訳) 大きな言語モデル(LLM)が思考の連鎖(CoT)によって複雑な推論を行う場合、個々のミスに対して非常に敏感である。 私たちはこの問題に対処するために検証者を訓練しなければならなかった。 誰もが知っているように、人間が結論を推測した後、しばしばそれを再検証してチェックします。 我々は,CoTの結論を新しいサンプル構築条件として用いた自己検証法を提案し,LLMにマスクされた元の条件の再予測を依頼する。 精度に基づいて説明可能な検証スコアを算出する。 本手法は,数ショット学習における複数の算術と論理推論データセットの精度を向上させることができる。 我々は, LLM が自身の結論を自己検証し, 競争力のある推論性能を発揮できることを実証した。 大規模な実験により, 自己検証を行う複数の大規模言語モデルにおいて, 誤ったCoTの干渉を回避できることが実証された。 コードは \url{https://github.com/wengsyx/self-verification} で入手できる。

When a large language model (LLM) performs complex reasoning by chain of thought (CoT), it can be highly sensitive to individual mistakes. We have had to train verifiers to address this issue. As we all know, after human inferring a conclusion, they often check it by re-verifying it, which can avoid some mistakes. We propose a new method called self-verification that uses the conclusion of the CoT as a condition to build a new sample and asks the LLM to re-predict the original conditions which be masked. We calculate an explainable verification score based on the accuracy. This method can improve the accuracy of multiple arithmetics and logical reasoning datasets when using few-shot learning. we have demonstrated that LLMs can conduct explainable self-verification of their own conclusions and achieve competitive reasoning performance. Extensive experimentals have demonstrated that our method can help multiple large language models with self-verification can avoid interference from incorrect CoT. Code is available at \url{https://github.com/WENGSYX/Self-Verification}
翻訳日:2022-12-20 14:52:11 公開日:2022-12-19
# NusaCrowd: インドネシアのNLPリソースのためのオープンソースイニシアティブ

NusaCrowd: Open Source Initiative for Indonesian NLP Resources ( http://arxiv.org/abs/2212.09648v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan, Frederikus Hudi, Ivan Halim Parmonangan, Ika Alfina, Muhammad Satrio Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, Ali Akbar Septiandri, James Jaya, Kaustubh D. Dhole, Arie Ardiyanti Suryani, Rifki Afina Putri, Dan Su, Keith Stevens, Made Nindyatama Nityasya, Muhammad Farid Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari, Wenliang Dai, Yan Xu, Dyah Damapuspita, Cuk Tho, Ichwanul Muslim Karo Karo, Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy Baldwin, Sebastian Ruder, Herry Sujaini, Sakriani Sakti, Ayu Purwarianti(参考訳) 我々は,インドネシア語の既存リソースの収集と統合を目的とした共同イニシアティブであるnusacrowdを提案する。 このイニシアティブを通じて、私たちは137のデータセットと117の標準化データローダをまとめました。 データセットの品質は手動および自動で評価され、その効果は複数の実験で実証されている。 nusacrowdのデータ収集は、インドネシアとそのローカル言語における自然言語理解と生成のための最初のゼロショットベンチマークの作成を可能にする。 さらに、NusaCrowdはインドネシアとその地域言語で最初の多言語自動音声認識ベンチマークを作成する。 本研究は,低表現言語における自然言語処理研究の推進を支援することを目的としている。

We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
翻訳日:2022-12-20 14:51:55 公開日:2022-12-19
# 知識グラフリンク予測のための検索・読み出しフレームワーク

A Retrieve-and-Read Framework for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2212.09724v1 )

ライセンス: Link先を確認
Vardaan Pahuja, Boshi Wang, Hugo Latapie, Jayanth Srinivasa, Yu Su(参考訳) 知識グラフ(KG)リンク予測は、KGの既存の事実に基づいて新しい事実を推測することを目的としている。 近年の研究では、グラフニューラルネットワーク(GNN)によるノードのグラフ近傍の利用は、単にクエリ情報を使用するよりも有用な情報を提供することが示された。 KGリンク予測のための従来のGNNは、KG全体の標準メッセージパスパラダイムに従っており、表現の過度な平滑化とスケーラビリティの制限につながっている。 大規模では、推論のためにKG全体から有用な情報を集めるのに計算コストがかかる。 既存のkgリンク予測フレームワークの限界に対処するために,まずクエリの関連するサブグラフコンテキストを検索し,そのコンテキストとクエリを高いキャパシティリーダと共同で理由付けする,新たな検索・読み取りフレームワークを提案する。 そこで我々は,新しいフレームワークのインスタンス化の一環として,グラフベースの注目構造とクエリとコンテキスト間の相互アテンションを組み込んだTransformerベースのGNNをリーダとして提案する。 この設計により、モデルはクエリに関連する適切なコンテキスト情報に集中することができる。 2つの標準KGリンク予測データセットの実験的結果は,提案手法の競合性能を示す。

Knowledge graph (KG) link prediction aims to infer new facts based on existing facts in the KG. Recent studies have shown that using the graph neighborhood of a node via graph neural networks (GNNs) provides more useful information compared to just using the query information. Conventional GNNs for KG link prediction follow the standard message-passing paradigm on the entire KG, which leads to over-smoothing of representations and also limits their scalability. On a large scale, it becomes computationally expensive to aggregate useful information from the entire KG for inference. To address the limitations of existing KG link prediction frameworks, we propose a novel retrieve-and-read framework, which first retrieves a relevant subgraph context for the query and then jointly reasons over the context and the query with a high-capacity reader. As part of our exemplar instantiation for the new framework, we propose a novel Transformer-based GNN as the reader, which incorporates graph-based attention structure and cross-attention between query and context for deep fusion. This design enables the model to focus on salient context information relevant to the query. Empirical results on two standard KG link prediction datasets demonstrate the competitive performance of the proposed method.
翻訳日:2022-12-20 14:51:43 公開日:2022-12-19
# don't generate, discriminate: 実環境への言語モデルの接地に関する提案

Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments ( http://arxiv.org/abs/2212.09736v1 )

ライセンス: Link先を確認
Yu Gu, Xiang Deng, Yu Su(参考訳) 現在の言語モデル(LM)に欠けている重要な機能は、現実世界の環境に根ざしていることです。 接地言語理解のための既存の作業の多くは、望まれる効果を達成するために環境内で実行できるプランを直接生成するためにLMを使用している。 lms上では、文法性、忠実性、制御性を保証する責任を負う。 生成能力の代わりに、LMの識別能力を活かした基盤言語理解のための汎用フレームワークであるPanguを提案する。 エージェントは、有効な候補プランを段階的に構築するために環境を探索し、LMは、探索プロセスを導くための候補プランの妥当性を評価する。 膨大な環境を特徴とする知識ベース質問応答(KBQA)の難解な問題に対するケーススタディでは,Panguの顕著な有効性と柔軟性が示されている。 また、Panguは、Codexのような大規模なLMを持つKBQAに対して、初めて効果的な数発のインコンテキスト学習を可能にする。

A key missing ability of current language models (LMs) is grounding to real-world environments. Most existing work for grounded language understanding uses LMs to directly generate plans that can be executed in the environment to achieve the desired effects. It casts the burden of ensuring grammaticality, faithfulness, and controllability all on the LMs. We propose Pangu, a generic framework for grounded language understanding that capitalizes on the discriminative ability of LMs instead of their generative ability. Pangu consists of a symbolic agent and a neural LM working in a concerted fashion: the agent explores the environment to incrementally construct valid candidate plans, and the LM evaluates the plausibility of the candidate plans to guide the search process. A case study on the challenging problem of knowledge base question answering (KBQA), which features a massive environment, demonstrates the remarkable effectiveness and flexibility of Pangu: A BERT-base LM is sufficient for achieving a new state of the art on standard KBQA datasets, and larger LMs further improve the performance by a large margin. Pangu also enables, for the first time, effective few-shot in-context learning for KBQA with large LMs such as Codex.
翻訳日:2022-12-20 14:51:23 公開日:2022-12-19
# テキストから画像へのプロンプトの最適化

Optimizing Prompts for Text-to-Image Generation ( http://arxiv.org/abs/2212.09611v1 )

ライセンス: Link先を確認
Yaru Hao, Zewen Chi, Li Dong, Furu Wei(参考訳) よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。 しかしながら、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。 本稿では,従来のユーザ入力をモデル優先のプロンプトに自動的に適応する一般的なフレームワークである,プロンプト適応を提案する。 具体的には、手作業によるプロンプトの小さなコレクション上で、事前訓練された言語モデルを用いて教師付き微調整を行う。 その後、強化学習を使用して、より良いプロンプトを探索します。 我々は,本来のユーザ意図を維持しつつ,より美的なイメージを生成するためのポリシーを奨励する報酬関数を定義する。 安定拡散実験の結果,本手法は自動測定値と人選好評価値の両方で手動のプロンプト工学よりも優れていた。 さらに、強化学習は、特にドメイン外のプロンプトのパフォーマンスをさらに向上させる。 事前トレーニングされたチェックポイントはhttps://aka.ms/promptist.comで入手できる。 デモはhttps://aka.ms/promptist-demoで見ることができる。

Well-designed prompts can guide text-to-image models to generate amazing images. However, the performant prompts are often model-specific and misaligned with user input. Instead of laborious human engineering, we propose prompt adaptation, a general framework that automatically adapts original user input to model-preferred prompts. Specifically, we first perform supervised fine-tuning with a pretrained language model on a small collection of manually engineered prompts. Then we use reinforcement learning to explore better prompts. We define a reward function that encourages the policy to generate more aesthetically pleasing images while preserving the original user intentions. Experimental results on Stable Diffusion show that our method outperforms manual prompt engineering in terms of both automatic metrics and human preference ratings. Moreover, reinforcement learning further boosts performance, especially on out-of-domain prompts. The pretrained checkpoints are available at https://aka.ms/promptist. The demo can be found at https://aka.ms/promptist-demo.
翻訳日:2022-12-20 14:50:30 公開日:2022-12-19
# Wukong-Reader: きめ細かいビジュアル文書理解のためのマルチモーダル事前学習

Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document Understanding ( http://arxiv.org/abs/2212.09621v1 )

ライセンス: Link先を確認
Haoli Bai, Zhiguang Liu, Xiaojun Meng, Wentao Li, Shuang Liu, Nian Xie, Rongfu Zheng, Liangwei Wang, Lu Hou, Jiansheng Wei, Xin Jiang, Qun Liu(参考訳) 数百万のデジタル生まれまたはスキャンされた文書の教師なし事前学習は、視覚的文書理解の有望な進歩を示している。 様々な視覚言語による事前学習目的が既存のソリューションで研究されているが、VDUの本質的な粒度としての文書テキストラインは、これまでほとんど研究されていない。 文書テキストラインは通常、空間的および意味的に相関した単語を含み、OCRエンジンから容易に得ることができる。 本稿では,文書テキストに埋もれた構造的知識を活用すべく,新たな事前学習目標を組み込んだwukong-readerを提案する。 文書テキストラインの視覚領域とテキストの微妙なアライメントを実現するために,テキストライン領域のコントラスト学習を導入する。 さらに、マスキング領域モデリングとテキストライングリッドマッチングは、テキストラインの視覚的およびレイアウト表現を強化するためにも設計されている。 実験の結果,Wukong-Readerは情報抽出などの様々なVDUタスクにおいて優れた性能を示した。 テキストラインの微妙なアライメントは、Wukong-Readerに将来性のあるローカライゼーション能力を与える。

Unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in existing solutions, the document textline, as an intrinsic granularity in VDU, has seldom been explored so far. A document textline usually contains words that are spatially and semantically correlated, which can be easily obtained from OCR engines. In this paper, we propose Wukong-Reader, trained with new pre-training objectives to leverage the structural knowledge nested in document textlines. We introduce textline-region contrastive learning to achieve fine-grained alignment between the visual regions and texts of document textlines. Furthermore, masked region modeling and textline-grid matching are also designed to enhance the visual and layout representations of textlines. Experiments show that our Wukong-Reader has superior performance on various VDU tasks such as information extraction. The fine-grained alignment over textlines also empowers Wukong-Reader with promising localization ability.
翻訳日:2022-12-20 14:50:15 公開日:2022-12-19
# 確率最適化器の速度と精度を比較するための非パラメトリックテストを可能にする試行ベースドミナンス

Trial-Based Dominance Enables Non-Parametric Tests to Compare both the Speed and Accuracy of Stochastic Optimizers ( http://arxiv.org/abs/2212.09423v1 )

ライセンス: Link先を確認
Kenneth V. Price, Abhishek Kumar, Ponnuthurai N Suganthan(参考訳) 非パラメトリックテストは、複数の試行の最終適合値のように、ベンチマーク結果が順序づけられた場合の2つの確率最適化アルゴリズムの利点を決定することができる。 しかし、多くのベンチマークでは、試行が所定の目標値に達したら終了することもできる。 いくつかの試行が目標値に達すると、2つの変数がトライアルの結果を特徴付ける:目標値(またはそうでない)に達するのに要する時間とその最終適合値。 本稿では,この2変数の試行データセットに線形順序を課す簡単な方法について述べる。 この方法をMann-Whitney U-testで説明する。 シミュレーションにより、u-scoreは2つのアルゴリズムの良さを識別するタスクにおいて、支配よりもずっと効果的であることが示される。 我々は、実パラメータ数値最適化に関するCEC 2022スペシャルセッションとコンペティションの勝者を決定することでUスコアをテストする。

Non-parametric tests can determine the better of two stochastic optimization algorithms when benchmarking results are ordinal, like the final fitness values of multiple trials. For many benchmarks, however, a trial can also terminate once it reaches a pre-specified target value. When only some trials reach the target value, two variables characterize a trial's outcome: the time it takes to reach the target value (or not) and its final fitness value. This paper describes a simple way to impose linear order on this two-variable trial data set so that traditional non-parametric methods can determine the better algorithm when neither dominates. We illustrate the method with the Mann-Whitney U-test. A simulation demonstrates that U-scores are much more effective than dominance when tasked with identifying the better of two algorithms. We test U-scores by having them determine the winners of the CEC 2022 Special Session and Competition on Real-Parameter Numerical Optimization.
翻訳日:2022-12-20 14:44:26 公開日:2022-12-19
# 大規模言語モデルにおける創発的類推

Emergent Analogical Reasoning in Large Language Models ( http://arxiv.org/abs/2212.09196v1 )

ライセンス: Link先を確認
Taylor Webb, Keith J. Holyoak, Hongjing Lu(参考訳) 最近の大規模言語モデルの出現 - 巨大な自然言語コーパスに対して単純な予測目標に基づいてトレーニングされた大きなニューラルネットワーク - は、十分なトレーニングデータを得た一般的なモデルに人間の認知能力が現れるかどうかという議論を再燃させた。 特に興味深いのは、これらのモデルが、これらの問題を直接訓練することなく、ゼロショットで新しい問題を推論する能力である。 人間の認知では、この能力は類推による推論能力と密接に結びついている。 そこで我々は,Ravenのプログレッシブ・マトリックスをモデルとした新しいテキストベース行列推論タスクを含む,多種多様な類似タスクにおいて,人間の推論器と大規模言語モデル(GPT-3)を直接比較した。 その結果、GPT-3は、多くの設定において、抽象パターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を示した。 以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。

The recent advent of large language models - large neural networks trained on a simple predictive objective over a massive corpus of natural language - has reinvigorated debate over whether human cognitive capacities might emerge in such generic models given sufficient training data. Of particular interest is the ability of these models to reason about novel problems zero-shot, without any direct training on those problems. In human cognition, this capacity is closely tied to an ability to reason by analogy. Here, we performed a direct comparison between human reasoners and a large language model (GPT-3) on a range of analogical tasks, including a novel text-based matrix reasoning task closely modeled on Raven's Progressive Matrices. We found that GPT-3 displayed a surprisingly strong capacity for abstract pattern induction, matching or even surpassing human capabilities in most settings. Our results indicate that large language models such as GPT-3 have acquired an emergent ability to find zero-shot solutions to a broad range of analogy problems.
翻訳日:2022-12-20 14:42:04 公開日:2022-12-19
# MIGA: Conversational Text-to-SQLのための統一マルチタスク生成フレームワーク

MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL ( http://arxiv.org/abs/2212.09278v1 )

ライセンス: Link先を確認
Yingwen Fu, Wenjie Ou, Zhou Yu, and Yue Lin(参考訳) Conversational Text-to-SQLは、マルチターン自然言語質問を対応するSQLクエリに変換するように設計されている。 ほとんどの最先端の会話型テキスト-to-SQLメソッドは、T5のような生成事前学習言語モデル(PLM)と互換性がない。 本稿では,PLMのテキスト・トゥ・SQL処理能力を活用した2段階統合MultI-task frAmework(MIGA)を提案する。 事前学習段階では、MIGAはまずメインタスクをいくつかの関連するサブタスクに分解し、タスク固有の自然言語プロンプトで同じシーケンス・ツー・シーケンス(Seq2Seq)パラダイムに統一し、マルチタスクトレーニングからメインタスクを強化する。 その後、微調整段階において、エラー伝搬問題を緩和する4つのSQL摂動を提案する。 MIGAは2つのベンチマーク(SparCとCoSQL)で最先端のパフォーマンスを達成する傾向がある。 さらに,対話型テキストからsqlへの新たな視点について,詳細な分析や議論も行なっています。

Conversational text-to-SQL is designed to translate multi-turn natural language questions into their corresponding SQL queries. Most state-of-the-art conversational text- to-SQL methods are incompatible with generative pre-trained language models (PLMs), such as T5. In this paper, we present a two-stage unified MultI-task Generation frAmework (MIGA) that leverages PLMs' ability to tackle conversational text-to-SQL. In the pre-training stage, MIGA first decomposes the main task into several related sub-tasks and then unifies them into the same sequence-to-sequence (Seq2Seq) paradigm with task-specific natural language prompts to boost the main task from multi-task training. Later in the fine-tuning stage, we propose four SQL perturbations to alleviate the error propagation problem. MIGA tends to achieve state-of-the-art performance on two benchmarks (SparC and CoSQL). We also provide extensive analyses and discussions to shed light on some new perspectives for conversational text-to-SQL.
翻訳日:2022-12-20 14:41:44 公開日:2022-12-19
# chatgpt: オンライン試験の完全性は終わりか?

ChatGPT: The End of Online Exam Integrity? ( http://arxiv.org/abs/2212.09292v1 )

ライセンス: Link先を確認
Teo Susnjak(参考訳) 本研究では、最近開発された人工知能(ai)エージェントであるchatgptが、高度な認知タスクを実行し、人間の生成したテキストと区別できないテキストを生成する能力を評価した。 この能力は、オンライン試験における学術的不正行為のツールとしてのChatGPTの潜在的な使用に対する懸念を高める。 研究によれば、chatgptは批判的な思考スキルを発揮でき、最小限のインプットで非常に現実的なテキストを生成することが可能であり、オンライン試験の完全性を脅かす可能性がある。 心電図や経口検査に戻すことはソリューションの一部となり得るが、高度なプロクター技術とAIテキスト出力検出器はこの問題に対処するのに有効であるかもしれない。 さらに研究は、ChatGPTのような大規模言語モデルの影響を十分に理解し、これらのツールを使用した不正行為のリスクに対処するための戦略を考案するために必要である。 教育者や機関は、ChatGPTが不正行為に使用される可能性を認識し、全学生に対するオンライン試験の公平性と妥当性を維持するために、その対策を検討することが重要である。

This study evaluated the ability of ChatGPT, a recently developed artificial intelligence (AI) agent, to perform high-level cognitive tasks and produce text that is indistinguishable from human-generated text. This capacity raises concerns about the potential use of ChatGPT as a tool for academic misconduct in online exams. The study found that ChatGPT is capable of exhibiting critical thinking skills and generating highly realistic text with minimal input, making it a potential threat to the integrity of online exams, particularly in tertiary education settings where such exams are becoming more prevalent. Returning to invigilated and oral exams could form part of the solution, while using advanced proctoring techniques and AI-text output detectors may be effective in addressing this issue, they are not likely to be foolproof solutions. Further research is needed to fully understand the implications of large language models like ChatGPT and to devise strategies for combating the risk of cheating using these tools. It is crucial for educators and institutions to be aware of the possibility of ChatGPT being used for cheating and to investigate measures to address it in order to maintain the fairness and validity of online exams for all students.
翻訳日:2022-12-20 14:41:24 公開日:2022-12-19
# プロンプトゲーティング:ゼロショット多元翻訳のためのパラメータ効率的なチューニング法

Prompt Gating: A Parameter Efficient Tuning Method for Zero-Shot Multi-Source Translation ( http://arxiv.org/abs/2212.09387v1 )

ライセンス: Link先を確認
Xuancheng Huang, Zijun Liu, Peng Li, Maosong Sun, Yang Liu(参考訳) 通常、異なる言語で同じ意味の複数のソース文を受け取るマルチソース翻訳(MST)は、単一ソース翻訳よりも優れていることが示されている。 マルチソース並列データの量は限られているため、単一ソースデータと限定されたマルチソースデータを活用することで、可能な限り多くのソースを受信した場合にモデルがうまく機能するようにすることは課題である。 モデルが複数のソース(例えば、未認識の言語の組み合わせ)の未認識の組み合わせを、推論中に処理できることを期待しています。 本稿では,モデル入力にプロンプトを付加し,エンコーダ層毎に拡張した隠れ状態にゲートをアタッチする,簡易かつ効率的なプロンプトゲーティング法を提案する。 mst上では強いゼロショット転送性(+9.0 ブレウ点)と顕著な合成性(+15.6 ブレウ点)を示し、語彙的に制約された翻訳のベースラインよりも優れていることを示している。

Multi-source translation (MST), which typically receives multiple source sentences of the same meaning in different languages, has been shown superior to single-source translation. As the quantity of multi-source parallel data is limited, taking full advantage of single-source data and limited multi-source data to make models perform well when receiving as many as possible sources remains a challenge. Unlike previous work mostly devoted to supervised scenarios, we focus on zero-shot MST: expecting models to be able to process unseen combinations of multiple sources, e.g., unseen language combinations, during inference. We propose a simple yet effective parameter efficient method, named Prompt Gating, which appends prompts to the model inputs and attaches gates on the extended hidden states for each encoder layer. It shows strong zero-shot transferability (+9.0 BLEU points maximally) and remarkable compositionality (+15.6 BLEU points maximally) on MST, and also shows its superiorities over baselines on lexically constrained translation.
翻訳日:2022-12-20 14:41:03 公開日:2022-12-19
# 特徴目標モデルプルーニングによる分布外一般化のための最適部分構造探索

Exploring Optimal Substructure for Out-of-distribution Generalization via Feature-targeted Model Pruning ( http://arxiv.org/abs/2212.09458v1 )

ライセンス: Link先を確認
Yingchun Wang, Jingcai Guo, Song Guo, Weizhan Zhang, Jie Zhang(参考訳) 近年の研究では、高バイアスの高密度ネットワークでさえ、元のモデルよりも優れた分布外一般化(OOD)を実現する未バイアスのサブ構造を含んでいることが示されている。 既存の作業は通常、モジュラーリスク最小化(MRM)とドメイン外データを用いて不変サブネットワークを探索する。 このようなパラダイムは2つの潜在的な弱点をもたらす可能性がある。 1)トレーニング中のドメイン外のデータの観察が不十分なため、不公平 2) 全データ分布を対象としないモデルプルーニングによるサブオプティマイズoodの一般化。 本稿では, SFP と呼ばれる新しい特徴目標モデルPruning フレームワークを提案し, 上記の弱点に言及することなく, 不変部分構造を自動探索する。 具体的には、SFPは、理論的に検証されたタスク損失を用いて、トレーニング中のID(In-distriion)機能を特定し、その上で、ID機能に強い依存を持つブランチを除去するIDターゲットモデルプルーニングを実行することができる。 特に、刺激的な特徴の投影をモデル空間に減衰させることで、SFPはモデル学習を不変の特徴へと押し上げ、環境特徴から抽出し、最適なOOD一般化を考案することができる。 さらに,モデル空間によるOOD構造の合理性保証と証明フレームワークを提供するための詳細な理論的解析を行い,モデル空間の偏りがOODの一般化にどのように影響するかを初めて明らかにした。 様々なOODデータセットの大規模な実験により、SFPは構造ベースのOOD一般化SOTAと非構造OOD一般化SOTAの両方を大きく上回っており、それぞれ4.72%と23.35%の精度で改善されている。

Recent studies show that even highly biased dense networks contain an unbiased substructure that can achieve better out-of-distribution (OOD) generalization than the original model. Existing works usually search the invariant subnetwork using modular risk minimization (MRM) with out-domain data. Such a paradigm may bring about two potential weaknesses: 1) Unfairness, due to the insufficient observation of out-domain data during training; and 2) Sub-optimal OOD generalization, due to the feature-untargeted model pruning on the whole data distribution. In this paper, we propose a novel Spurious Feature-targeted model Pruning framework, dubbed SFP, to automatically explore invariant substructures without referring to the above weaknesses. Specifically, SFP identifies in-distribution (ID) features during training using our theoretically verified task loss, upon which, SFP can perform ID targeted-model pruning that removes branches with strong dependencies on ID features. Notably, by attenuating the projections of spurious features into model space, SFP can push the model learning toward invariant features and pull that out of environmental features, devising optimal OOD generalization. Moreover, we also conduct detailed theoretical analysis to provide the rationality guarantee and a proof framework for OOD structures via model sparsity, and for the first time, reveal how a highly biased data distribution affects the model's OOD generalization. Extensive experiments on various OOD datasets show that SFP can significantly outperform both structure-based and non-structure OOD generalization SOTAs, with accuracy improvement up to 4.72% and 23.35%, respectively.
翻訳日:2022-12-20 14:35:15 公開日:2022-12-19
# 能動強化学習における近最適政策同定

Near-optimal Policy Identification in Active Reinforcement Learning ( http://arxiv.org/abs/2212.09510v1 )

ライセンス: Link先を確認
Xiang Li, Viraj Mehta, Johannes Kirschner, Ian Char, Willie Neiswanger, Jeff Schneider, Andreas Krause, Ilija Bogunovic(参考訳) 多くの現実世界の強化学習タスクは、コストのかかるデータ取得プロセスと大きな状態空間の両方を含む複雑な動的システムの制御を必要とする。 遷移力学が特定の状態(例えばシミュレーターを通して)で容易に評価できる場合、エージェントは、しばしば \emph{generative model} で計画と呼ばれるものを扱うことができる。 AE-LSVIアルゴリズムは,最適化とペシミズムを組み合わせた最小二乗値反復法(LSVI)アルゴリズムの新たな変種である。 AE-LSVIは、状態空間全体に対する準最適ポリシー \emph{uniformly} を確実に特定し、状態数に依存しない多項式サンプルの複雑性を保証する。 最近導入されたオフラインコンテキストベイズ最適化設定に特化したアルゴリズムでは,サンプル複雑性境界の改善を実現する。 AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のRLアルゴリズムよりも優れていることを示す。

Many real-world reinforcement learning tasks require control of complex dynamical systems that involve both costly data acquisition processes and large state spaces. In cases where the transition dynamics can be readily evaluated at specified states (e.g., via a simulator), agents can operate in what is often referred to as planning with a \emph{generative model}. We propose the AE-LSVI algorithm for best-policy identification, a novel variant of the kernelized least-squares value iteration (LSVI) algorithm that combines optimism with pessimism for active exploration (AE). AE-LSVI provably identifies a near-optimal policy \emph{uniformly} over an entire state space and achieves polynomial sample complexity guarantees that are independent of the number of states. When specialized to the recently introduced offline contextual Bayesian optimization setting, our algorithm achieves improved sample complexity bounds. Experimentally, we demonstrate that AE-LSVI outperforms other RL algorithms in a variety of environments when robustness to the initial state is required.
翻訳日:2022-12-20 14:34:44 公開日:2022-12-19
# 500以上の自然に触発されたメタヒューリスティックアルゴリズムの性能評価と完全リスト

Performance assessment and exhaustive listing of 500+ nature inspired metaheuristic algorithms ( http://arxiv.org/abs/2212.09479v1 )

ライセンス: Link先を確認
Zhongqiang Ma, Guohua Wu, Ponnuthurai N. Suganthan, Aijuan Song, Qizhang Luo(参考訳) メタヒューリスティックスは様々な分野で広く使われており、科学や工業のコミュニティで注目を集めている。 近年、新しいメタヒューリスティックな名前の数が増加し続けている。 発明者は一般的に、これらの新しいアルゴリズムの斬新さを、生物学、人間の行動、物理学、その他の現象からインスピレーションを受けている。 さらに、これらのアルゴリズムは、シフト/ローテーションを伴わない古典的なベンチマーク問題を用いて、他のメタヒューリスティックの基本的なバージョンと比較し、競合性能を示す。 本研究では500以上のメタヒューリスティックを徹底的に集計した。 近年の競争的変種と新たに提案されたメタヒューリスティックスの性能を比較評価するために,11の新たなメタヒューリスティックスと4つの確立されたメタヒューリスティックスをCEC2017ベンチマークスイートで総合的に比較した。 また,これらのアルゴリズムが検索空間の中心に偏りがあるかどうかを調べた。 その結果,新たに提案するebcmアルゴリズムの性能は,確立されたメタヒューリスティクスの4つのよく機能する変種に比較可能であり,収束性,多様性,探索性,搾取トレードオフなど,類似した特性と挙動を有することがわかった。 15のアルゴリズムは、ある変換によって性能が低下する可能性が高いが、4つの最先端メタヒューリスティックは、探索空間の中心から大域的最適点のシフトのような変換の影響が小さい。 EBCMを除いて、2019-2020年に提案された他の10のアルゴリズムは、CEC 2017関数上の収束速度とグローバル検索能力の観点から、2017年の微分進化と進化戦略の優れた変種よりも劣っていることに注意する必要がある。

Metaheuristics are popularly used in various fields, and they have attracted much attention in the scientific and industrial communities. In recent years, the number of new metaheuristic names has been continuously growing. Generally, the inventors attribute the novelties of these new algorithms to inspirations from either biology, human behaviors, physics, or other phenomena. In addition, these new algorithms, compared against basic versions of other metaheuristics using classical benchmark problems without shift/rotation, show competitive performances. In this study, we exhaustively tabulate more than 500 metaheuristics. To comparatively evaluate the performance of the recent competitive variants and newly proposed metaheuristics, 11 newly proposed metaheuristics and 4 variants of established metaheuristics are comprehensively compared on the CEC2017 benchmark suite. In addition, whether these algorithms have a search bias to the center of the search space is investigated. The results show that the performance of the newly proposed EBCM (effective butterfly optimizer with covariance matrix adaptation) algorithm performs comparably to the 4 well performing variants of the established metaheuristics and possesses similar properties and behaviors, such as convergence, diversity, exploration and exploitation trade-offs, in many aspects. The performance of all 15 of the algorithms is likely to deteriorate due to certain transformations, while the 4 state-of-the-art metaheuristics are less affected by transformations such as the shifting of the global optimal point away from the center of the search space. It should be noted that, except EBCM, the other 10 new algorithms proposed mostly during 2019-2020 are inferior to the well performing 2017 variants of differential evolution and evolution strategy in terms of convergence speed and global search ability on CEC 2017 functions.
翻訳日:2022-12-20 14:33:21 公開日:2022-12-19
# 4ビット精度の場合:kビット推論スケーリング法則

The case for 4-bit precision: k-bit Inference Scaling Laws ( http://arxiv.org/abs/2212.09720v1 )

ライセンス: Link先を確認
Tim Dettmers, Luke Zettlemoyer(参考訳) 量子化法は、モデル内の各パラメータを表すために必要なビット数を削減し、より小さなメモリフットプリントと推論レイテンシのトレーディング精度を下げる。 しかし、最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。 例えば、30Bの8ビットモデルと60Bの4ビットモデルは同じ数のビットを持つが、ゼロショットの精度は全く異なる。 本研究では,大言語モデル(llms)におけるゼロショット性能の推論法を開発し,ゼロショット性能を最大化するビット精度とモデルサイズを決定する。 我々は16ビット入力とkビットパラメータを用いた35,000以上のゼロショット実験を行い、LLMファミリーBLOOM, OPT, NeoX/Pythia, GPT-2の19Mから66Bのスケールで、どの量子化手法が3ビットから8ビットのスケーリングを改善するかを調べる。 私たちは、小さなブロックサイズ(パラメータを小さな独立した量子化されたブロックに分割すること)と量子化データ型(例えば、intとfloat)を使用することで、ビットレベルのスケーリングトレードオフを改善することが困難であることに気付きました。 全体として,4ビット精度はほぼ全モデルビットに対して最適であり,ゼロショット精度も高いことがわかった。

Quantization methods reduce the number of bits required to represent each parameter in a model, trading accuracy for smaller memory footprints and inference latencies. However, the final model size depends on both the number of parameters of the original model and the rate of compression. For example, a 30B 8-bit model and a 60B 4-bit model have the same number of bits but may have very different zero-shot accuracies. In this work, we study this trade-off by developing inference scaling laws of zero-shot performance in Large Language Models (LLMs) to determine the bit-precision and model size that maximizes zero-shot performance. We run more than 35,000 zero-shot experiments with 16-bit inputs and k-bit parameters to examine which quantization methods improve scaling for 3 to 8-bit precision at scales of 19M to 66B parameters across the LLM families BLOOM, OPT, NeoX/Pythia, and GPT-2. We find that it is challenging to improve the bit-level scaling trade-off, with the only improvements being the use of a small block size -- splitting the parameters into small independently quantized blocks -- and the quantization data type being used (e.g., Int vs Float). Overall, our findings show that 4-bit precision is almost universally optimal for total model bits and zero-shot accuracy.
翻訳日:2022-12-20 14:32:18 公開日:2022-12-19
# BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting ( http://arxiv.org/abs/2212.09535v1 )

ライセンス: Link先を確認
Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman, Dragomir Radev and Vassilina Nikoulina(参考訳) BLOOMモデルはゼロショット学習が可能な大規模なオープンソースの多言語言語モデルであるが、事前訓練は46言語に限られていた。 目に見えない言語でのゼロショット性能を改善するため、BLOOMを適応することが望ましいが、以前の研究では小さな言語モデルに適応することしか検討されていない。 本研究では,既存の言語適応戦略をBLOOMに適用し,ゼロショットによる8つの新言語の性能評価を行う。 新たな言語におけるゼロショット性能の向上には,言語適応が有効である。 驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。 また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。 主に言語適応データの大きさによって決定される。 また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。 新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。 十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。 私たちのコードは \url{https://github.com/bigscience-workshop/multilingual-modeling/} で利用可能です。

The BLOOM model is a large open-source multilingual language model capable of zero-shot learning, but its pretraining was limited to 46 languages. To improve its zero-shot performance on unseen languages, it is desirable to adapt BLOOM, but previous works have only explored adapting small language models. In this work, we apply existing language adaptation strategies to BLOOM and benchmark its zero-shot prompting performance on eight new languages. We find language adaptation to be effective at improving zero-shot performance in new languages. Surprisingly, adapter-based finetuning is more effective than continued pretraining for large models. In addition, we discover that prompting performance is not significantly affected by language specifics, such as the writing system. It is primarily determined by the size of the language adaptation data. We also add new languages to BLOOMZ, which is a multitask finetuned version of BLOOM capable of following task instructions zero-shot. We find including a new language in the multitask fine-tuning mixture to be the most effective method to teach BLOOMZ a new language. We conclude that with sufficient training data language adaptation can generalize well to diverse languages. Our code is available at \url{https://github.com/bigscience-workshop/multilingual-modeling/}.
翻訳日:2022-12-20 14:26:16 公開日:2022-12-19
# foveate, attribute, and rationalize: 安全で信頼できるaiに向けて

Foveate, Attribute, and Rationalize: Towards Safe and Trustworthy AI ( http://arxiv.org/abs/2212.09667v1 )

ライセンス: Link先を確認
Alex Mei, Sharon Levy, William Yang Wang(参考訳) 知的システムの市場が成長を続けるにつれ、ユーザの身体的安全が懸念されるようになり、制約のないシステムは、深刻な怪我につながる危険なアクションをユーザに推奨する可能性がある。 行動可能な物理的危害を含むが、そのような害を識別するためにさらなる推論を必要とする言語である、包括的に安全でないテキストは、日常的なシナリオから生じる可能性があるため、特に関心のある分野である。 さまざまなテキストの安全性を判断し、人間解釈可能な根拠を提供するために必要な知識は、特定のユーザグループに対するシステムのリスクに光を当て、利害関係者がシステムと政策立案者のリスクを管理し、消費者安全のための具体的な安全対策を提供するのに役立つ。 安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。 特にファームは、特定のシナリオにおける知識の欠如に焦点をあて、信頼に値する情報源への帰属とともにこの知識を検索し、原文の安全性を分類し、ユーザー安全性などの繊細な領域において重要な品質を組み合わせるために、人間解釈可能な根拠を生成する。 さらに、FARMはSafeTextデータセットの最先端結果を取得し、安全性の分類精度を5.29ポイント向上する。

Users' physical safety is an increasing concern as the market for intelligent systems continues to grow, where unconstrained systems may recommend users dangerous actions that can lead to serious injury. Covertly unsafe text, language that contains actionable physical harm, but requires further reasoning to identify such harm, is an area of particular interest, as such texts may arise from everyday scenarios and are challenging to detect as harmful. Qualifying the knowledge required to reason about the safety of various texts and providing human-interpretable rationales can shed light on the risk of systems to specific user groups, helping both stakeholders manage the risks of their systems and policymakers to provide concrete safeguards for consumer safety. We propose FARM, a novel framework that leverages external knowledge for trustworthy rationale generation in the context of safety. In particular, FARM foveates on missing knowledge in specific scenarios, retrieves this knowledge with attribution to trustworthy sources, and uses this to both classify the safety of the original text and generate human-interpretable rationales, combining critically important qualities for sensitive domains such as user safety. Furthermore, FARM obtains state-of-the-art results on the SafeText dataset, improving safety classification accuracy by 5.29 points.
翻訳日:2022-12-20 14:25:56 公開日:2022-12-19
# 不自然な指示:(ほとんど)人間労働を伴わない言語モデルをチューニングする

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor ( http://arxiv.org/abs/2212.09689v1 )

ライセンス: Link先を確認
Or Honovich, Thomas Scialom, Omer Levy, Timo Schick(参考訳) インストラクションチューニングにより、事前訓練された言語モデルが推論時自然言語記述から新しいタスクを実行できる。 これらのアプローチは、クラウドソースデータセットやユーザインタラクションという形で、膨大な量の人的監視に依存しています。 本研究では,創造的で多様な指示の膨大なデータセットを,ほとんど人的労働を伴わずに収集し,不自然な指示を導入する。 命令の3つのシード例と4番目の例を抽出した言語モデルによって64,000のサンプルを収集する。 このセットは、モデルに各命令を言い換えるよう促すことで拡張され、約24万の命令、入力、出力の例が生成される。 実験によると、かなりのノイズを含むにもかかわらず、非自然的インストラクションのトレーニングは、オープンソースの手作業によるデータセットのトレーニングの有効性に匹敵し、T0++やTk-Instructといったモデルのパフォーマンスをさまざまなベンチマークで上回っている。 これらの結果は,クラウドソーシングに代わるコスト効率の高いデータ生成の可能性を示す。

Instruction tuning enables pretrained language models to perform new tasks from inference-time natural language descriptions. These approaches rely on vast amounts of human supervision in the form of crowdsourced datasets or user interactions. In this work, we introduce Unnatural Instructions: a large dataset of creative and diverse instructions, collected with virtually no human labor. We collect 64,000 examples by prompting a language model with three seed examples of instructions and eliciting a fourth. This set is then expanded by prompting the model to rephrase each instruction, creating a total of approximately 240,000 examples of instructions, inputs, and outputs. Experiments show that despite containing a fair amount of noise, training on Unnatural Instructions rivals the effectiveness of training on open-source manually-curated datasets, surpassing the performance of models such as T0++ and Tk-Instruct across various benchmarks. These results demonstrate the potential of model-generated data as a cost-effective alternative to crowdsourcing for dataset expansion and diversification.
翻訳日:2022-12-20 14:25:31 公開日:2022-12-19
# 文書レベル情報抽出のためのイベント識別について

On Event Individuation for Document-Level Information Extraction ( http://arxiv.org/abs/2212.09702v1 )

ライセンス: Link先を確認
William Gantt, Reno Kriz, Yunmo Chen, Siddharth Vashishtha, Aaron Steven White(参考訳) 情報抽出システム(IE)は文書全体の抽出能力が向上するにつれて,従来の課題である「emph{template fill}」が評価基準として注目されている。 本稿では,この目的のためにテンプレート充填の妥当性に疑問を呈する。 タスクは、人間の専門家でさえ異論を唱える、異なる事象を区別する問題である \emph{event individuation} に対する決定的な答えを要求する。 アノテーション研究とエラー分析を通して、テンプレート充填評価メトリクスの有用性、タスクのためのデータセットの品質、モデルが学習する能力について懸念を生じさせることを示した。 最後に、可能な解決策を検討する。

As information extraction (IE) systems have grown more capable at whole-document extraction, the classic task of \emph{template filling} has seen renewed interest as a benchmark for evaluating them. In this position paper, we call into question the suitability of template filling for this purpose. We argue that the task demands definitive answers to thorny questions of \emph{event individuation} -- the problem of distinguishing distinct events -- about which even human experts disagree. We show through annotation studies and error analysis that this raises concerns about the usefulness of template filling evaluation metrics, the quality of datasets for the task, and the ability of models to learn it. Finally, we consider possible solutions.
翻訳日:2022-12-20 14:25:12 公開日:2022-12-19
# リアルタイムフィードバックによる指導の継続学習

Continual Learning for Instruction Following from Realtime Feedback ( http://arxiv.org/abs/2212.09710v1 )

ライセンス: Link先を確認
Alane Suhr, Yoav Artzi(参考訳) 本研究では,協調作業中のユーザからのフィードバックを通じて,指示追従エージェントを継続的に訓練する課題について検討する。 対話中、人間のユーザは自然言語を使ってエージェントに指示し、エージェントの命令実行を観察するときにリアルタイムのバイナリフィードバックを提供する。 我々は学習を文脈的包帯問題とみなし、ユーザのフィードバックを即時報酬に変換する。 我々は,複数ラウンドの人間とエージェントのインタラクションを通じて評価を行い,時間とともに命令の実行が15.4%改善したことを示す。 また,提案手法は設計のバリエーションに頑健であり,フィードバック信号は教師ありデモンストレーションデータの学習信号と大まかに等価であることを示した。

We study the problem of continually training an instruction-following agent through feedback provided by users during collaborative interactions. During interaction, human users instruct an agent using natural language, and provide realtime binary feedback as they observe the agent's instruction execution. We cast learning as a contextual bandit problem, converting the user feedback to immediate reward. We evaluate through multiple rounds of human-agent interactions, demonstrating 15.4% absolute improvement in instruction execution over time. We also show our approach is robust to several design variations, and that the feedback signal is roughly equivalent to the learning signal of supervised demonstration data.
翻訳日:2022-12-20 14:24:53 公開日:2022-12-19
# KNIFE: 言論の自由による知識蒸留

KNIFE: Knowledge Distillation with Free-Text Rationales ( http://arxiv.org/abs/2212.09721v1 )

ライセンス: Link先を確認
Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang Ren(参考訳) free-text rationales(ftr)は、自然言語による推論プロセスを説明することによって、人間のコミュニケーションの仕方に従う。 最近の多くの研究は、FTRを用いて、正しいタスク出力の裏にある正しい推論プロセスを教えることで、言語モデル(LM)の一般化を改善する方法について研究している。 これらの先行研究は、これらをLM入力またはターゲット出力に付加することでFTRから学習することを目的としているが、これはそれぞれ、入力分布シフトやタスク目標との競合を導入する可能性がある。 本研究では,FTRを付加した教師LM(タスク入力とFTRの両方を取り込む)から学生LM(タスク入力のみを取り込む)にFTRの知識を蒸留するKNIFEを提案する。 重要なことに、教師LMのフォワード計算は、すべてのFTR状態がマスクアウトされるボトルネックステージを持ち、FTR状態からタスク入力/出力状態に知識をプッシュする。 そして、その課題入出力状態を訓練してFTR知識を学生LMに蒸留し、教師LMと整合させる。 2つの質問応答データセットにおいて,完全教師付きと低リソースの両方において,ナイフが既存のftr学習方法を大きく上回ることを示した。

Free-text rationales (FTRs) follow how humans communicate by explaining reasoning processes via natural language. A number of recent works have studied how to improve language model (LM) generalization by using FTRs to teach LMs the correct reasoning processes behind correct task outputs. These prior works aim to learn from FTRs by appending them to the LM input or target output, but this may introduce an input distribution shift or conflict with the task objective, respectively. We propose KNIFE, which distills FTR knowledge from an FTR-augmented teacher LM (takes both task input and FTR) to a student LM (takes only task input), which is used for inference. Crucially, the teacher LM's forward computation has a bottleneck stage in which all of its FTR states are masked out, which pushes knowledge from the FTR states into the task input/output states. Then, FTR knowledge is distilled to the student LM by training its task input/output states to align with the teacher LM's. On two question answering datasets, we show that KNIFE significantly outperforms existing FTR learning methods, in both fully-supervised and low-resource settings.
翻訳日:2022-12-20 14:24:34 公開日:2022-12-19
# 非関連文の共起効果制御による抽象要約の忠実度向上

Improving Faithfulness of Abstractive Summarization by Controlling Confounding Effect of Irrelevant Sentences ( http://arxiv.org/abs/2212.09726v1 )

ライセンス: Link先を確認
Asish Ghoshal, Arash Einolghozati, Ankit Arun, Haoran Li, Lili Yu, Yashar Mehdad, Scott Wen-tau Yih, Asli Celikyilmaz(参考訳) 事実の正確さの欠如は、一見流麗な要約を生成するという印象的な進歩にもかかわらず、未だに最先端の要約システムを悩ませている問題である。 本稿では,共同創設者として機能する入力テキストの無関係な部分によって,事実整合性が引き起こされることを示す。 そこで我々は,因果効果の情報理論的尺度を利用して,共起の量を定量化し,それらが要約性能に与える影響を正確に定量化する。 理論的な結果から得られた知見に基づいて,人間が記述した関連文を利用可能にすることで,そのような共起を制御できるシンプルなマルチタスクモデルを設計する。 重要な点として,このようなコンバウンディングが大きくなりうるデータ分布の原理的特徴付けを,人間の注釈付き関連文を用いて事実要約を生成する必要がある。 本手法は,タスクの主観的な性質から,信頼の欠如が重要な問題となる会話要約データセットであるAnswerSumm{fabbri2021answersumm}上で,強いベースラインに対する忠実度スコアを20 %向上させる。 本手法は,ROUGE や METEOR などの標準指標を用いて,高い忠実度を達成しつつ,最先端の成果を達成できる。 我々はこの改善を人間による評価によって裏付ける。

Lack of factual correctness is an issue that still plagues state-of-the-art summarization systems despite their impressive progress on generating seemingly fluent summaries. In this paper, we show that factual inconsistency can be caused by irrelevant parts of the input text, which act as confounders. To that end, we leverage information-theoretic measures of causal effects to quantify the amount of confounding and precisely quantify how they affect the summarization performance. Based on insights derived from our theoretical results, we design a simple multi-task model to control such confounding by leveraging human-annotated relevant sentences when available. Crucially, we give a principled characterization of data distributions where such confounding can be large thereby necessitating the use of human annotated relevant sentences to generate factual summaries. Our approach improves faithfulness scores by 20\% over strong baselines on AnswerSumm \citep{fabbri2021answersumm}, a conversation summarization dataset where lack of faithfulness is a significant issue due to the subjective nature of the task. Our best method achieves the highest faithfulness score while also achieving state-of-the-art results on standard metrics like ROUGE and METEOR. We corroborate these improvements through human evaluation.
翻訳日:2022-12-20 14:24:13 公開日:2022-12-19
# DSI++: 新しいドキュメントでトランスフォーマーメモリを更新

DSI++: Updating Transformer Memory with New Documents ( http://arxiv.org/abs/2212.09744v1 )

ライセンス: Link先を確認
Sanket Vaibhav Mehta, Jai Gupta, Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Jinfeng Rao, Marc Najork, Emma Strubell, Donald Metzler(参考訳) 微分検索インデックス(DSI)は、モデルのパラメータに文書のコーパスをエンコードし、同じモデルを使用してクエリを関連するドキュメント識別子に直接マッピングする。 DSIモデルの性能は高いが、コーパスを再インデックスするにはモデルを再トレーニングする必要があるため、コーパスが時間とともに変化する状況にデプロイする。 そこで本研究では,DSI++を提案する。DSIが新たなドキュメントをインクリメンタルにインデクシングする上で,従来と新たにインデックス付けされたドキュメントの両方に関するクエリに回答することができる。 異なるモデルスケールと文書識別子の表現において、新しい文書の連続的なインデックス付けは、以前インデックスされた文書をかなり忘れてしまうことを示す。 また、モデルがトレーニング中にイベントを忘れていることを仮定し、検証することで、不安定な学習につながります。 これらの問題を緩和するため、我々は2つのアプローチを調査した。 ひとつは、トレーニングダイナミクスの変更だ。 フラッターミニマは暗黙的に忘れを和らげるため、フラットな損失盆地を最適化し、モデルが安定してより多くの文書(+12\%)を記憶することを示す。 次に,文書の疑似クエリをサンプリングし,連続インデックス化時に補完する生成メモリを導入し,検索タスクの忘れることを防止する。 NQ (Natural Questions) とMS MARCO (MS MARCO) に基づく新しい連続的索引付けベンチマークの広範囲な実験により,提案手法は大きな差で忘れを緩和することを示した。 具体的には、NQの競争ベースラインよりも平均Hits@10を$+21.1\%改善し、シーケンス内の5つのコーパスをインクリメンタルにインデックスするDSIモデルを再トレーニングするのに比べて6倍のモデル更新が必要になる。

Differentiable Search Indices (DSIs) encode a corpus of documents in the parameters of a model and use the same model to map queries directly to relevant document identifiers. Despite the strong performance of DSI models, deploying them in situations where the corpus changes over time is computationally expensive because reindexing the corpus requires re-training the model. In this work, we introduce DSI++, a continual learning challenge for DSI to incrementally index new documents while being able to answer queries related to both previously and newly indexed documents. Across different model scales and document identifier representations, we show that continual indexing of new documents leads to considerable forgetting of previously indexed documents. We also hypothesize and verify that the model experiences forgetting events during training, leading to unstable learning. To mitigate these issues, we investigate two approaches. The first focuses on modifying the training dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for flatter loss basins and show that the model stably memorizes more documents (+12\%). Next, we introduce a generative memory to sample pseudo-queries for documents and supplement them during continual indexing to prevent forgetting for the retrieval task. Extensive experiments on novel continual indexing benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our proposed solution mitigates forgetting by a significant margin. Concretely, it improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and requires $6$ times fewer model updates compared to re-training the DSI model for incrementally indexing five corpora in a sequence.
翻訳日:2022-12-20 14:23:51 公開日:2022-12-19
# 量子政策勾配アルゴリズム

Quantum policy gradient algorithms ( http://arxiv.org/abs/2212.09328v1 )

ライセンス: Link先を確認
Sofiene Jerbi, Arjan Cornelissen, M\=aris Ozols, Vedran Dunjko(参考訳) 機械学習タスクにおけるデータへの量子アクセスのパワーと制限を理解することは、人工知能における量子コンピューティングの可能性を評価するための最優先事項である。 これまでの研究で、強化学習環境への量子アクセスが与えられると、学習のスピードアップが可能になることが示されている。 しかし、この設定における量子アルゴリズムの適用性は、特に大きな状態と行動空間を持つ環境では、非常に限定的である。 本研究では,環境との量子インタラクションを活用し,最先端の強化学習方針を学習するための量子アルゴリズムを設計する。 しかしながら、これらのアルゴリズムは、訓練されたポリシーが一定の規則性条件を満たすとき、古典的なアナログよりもサンプルの2次的なスピードアップしか提供しない。 興味深いことに、これらの条件に関して、パラメタライズド量子回路から派生した強化学習ポリシーがよく理解されており、完全量子強化学習フレームワークの利点を示している。

Understanding the power and limitations of quantum access to data in machine learning tasks is primordial to assess the potential of quantum computing in artificial intelligence. Previous works have already shown that speed-ups in learning are possible when given quantum access to reinforcement learning environments. Yet, the applicability of quantum algorithms in this setting remains very limited, notably in environments with large state and action spaces. In this work, we design quantum algorithms to train state-of-the-art reinforcement learning policies by exploiting quantum interactions with an environment. However, these algorithms only offer full quadratic speed-ups in sample complexity over their classical analogs when the trained policies satisfy some regularity conditions. Interestingly, we find that reinforcement learning policies derived from parametrized quantum circuits are well-behaved with respect to these conditions, which showcases the benefit of a fully-quantum reinforcement learning framework.
翻訳日:2022-12-20 14:23:01 公開日:2022-12-19
# 生涯テスト時間適応のための確率的フレームワーク

A Probabilistic Framework for Lifelong Test-Time Adaptation ( http://arxiv.org/abs/2212.09713v1 )

ライセンス: Link先を確認
Dhanajit Brahma and Piyush Rai(参考訳) テスト時間適応は、ソースドメインデータにアクセスすることなく、ターゲットドメインからのテスト入力を使用して、ソース事前訓練モデルを適用する問題である。 既存のアプローチのほとんどは、ターゲットドメインが定常的な設定に対処している。 さらに,分布シフトが発生すると,不確実性推定の不確かさを伴う誤った予測を行う傾向がみられた。 したがって、非定常目標領域シフトの面におけるテスト時間適応は重要な関心事となる。 これらの問題に対処するため,我々はpetal(probabilistic lifelong test-time adapt with self-training prior)という原則付きアプローチを提案する。 教師モデルが学生モデルの指数移動平均である生徒-教師の枠組みは、この確率論的観点から自然に現れる。 さらに、ソースタスクで得られた後方分布からの知識がレギュレータとして機能する。 また,長期にわたる壊滅的忘れを解消するために,フィッシャー情報行列(FIM)に基づくデータ駆動型モデルパラメータリセット機構を提案する。 また,fimに基づくデータ駆動パラメータ復元は,不適切なパラメータのみを復元することで,エラーの蓄積を減少させ,最近のドメインの知識の維持に寄与することが示唆された。 CIFAR-10C, CIFAR-100C, ImageNetC, ImageNet3DCC などの各種ベンチマークにおいて, 予測誤差率や, Brier スコアや負のログ類似度などの不確実性に基づく指標を用いて, オンライン寿命テスト時間適応法よりも優れた結果が得られた。

Test-time adaptation is the problem of adapting a source pre-trained model using test inputs from a target domain without access to source domain data. Most of the existing approaches address the setting in which the target domain is stationary. Moreover, these approaches are prone to making erroneous predictions with unreliable uncertainty estimates when distribution shifts occur. Hence, test-time adaptation in the face of non-stationary target domain shift becomes a problem of significant interest. To address these issues, we propose a principled approach, PETAL (Probabilistic lifElong Test-time Adaptation with seLf-training prior), which looks into this problem from a probabilistic perspective using a partly data-dependent prior. A student-teacher framework, where the teacher model is an exponential moving average of the student model naturally emerges from this probabilistic perspective. In addition, the knowledge from the posterior distribution obtained for the source task acts as a regularizer. To handle catastrophic forgetting in the long term, we also propose a data-driven model parameter resetting mechanism based on the Fisher information matrix (FIM). Moreover, improvements in experimental results suggest that FIM based data-driven parameter restoration contributes to reducing the error accumulation and maintaining the knowledge of recent domain by restoring only the irrelevant parameters. In terms of predictive error rate as well as uncertainty based metrics such as Brier score and negative log-likelihood, our method achieves better results than the current state-of-the-art for online lifelong test time adaptation across various benchmarks, such as CIFAR-10C, CIFAR-100C, ImageNetC, and ImageNet3DCC datasets.
翻訳日:2022-12-20 14:16:42 公開日:2022-12-19
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v1 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions.
翻訳日:2022-12-20 14:16:11 公開日:2022-12-19
# MatCha: 数学推論とチャートデレンダによるビジュアル言語事前トレーニングの強化

MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering ( http://arxiv.org/abs/2212.09662v1 )

ライセンス: Link先を確認
Fangyu Liu, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Yasemin Altun, Nigel Collier, Julian Martin Eisenschlos(参考訳) プロット、チャート、インフォグラフィックなどのビジュアル言語データは、人間の世界で広く使われている。 しかし、最先端の視覚言語モデルはこれらのデータではうまく機能しない。 本稿では,グラフ/プロットと言語データの共同モデリングにおいて,視覚言語モデルの能力を高めるためにmatcha(math reasoning and chart derendering pretraining)を提案する。 具体的には、視覚言語モデリングにおける重要な機能であるプロットのデコンストラクションと数値推論を網羅する事前学習タスクを提案する。 我々は最近提案された画像からテキストまでのビジュアル言語モデルであるPix2StructからMatCha事前学習を行う。 PlotQAやChartQAのような標準ベンチマークでは、MatChaモデルは最先端のメソッドを最大20%上回っている。 また、スクリーンショット、教科書図、文書図などの領域への事前学習の精度を検証し、全体的な改善を観察し、より広い視覚言語タスクにおけるMateCha事前学習の有用性を検証する。

Visual language data such as plots, charts, and infographics are ubiquitous in the human world. However, state-of-the-art vision-language models do not perform well on these data. We propose MatCha (Math reasoning and Chart derendering pretraining) to enhance visual language models' capabilities in jointly modeling charts/plots and language data. Specifically, we propose several pretraining tasks that cover plot deconstruction and numerical reasoning which are the key capabilities in visual language modeling. We perform the MatCha pretraining starting from Pix2Struct, a recently proposed image-to-text visual language model. On standard benchmarks such as PlotQA and ChartQA, the MatCha model outperforms state-of-the-art methods by as much as nearly 20%. We also examine how well MatCha pretraining transfers to domains such as screenshots, textbook diagrams, and document figures and observe overall improvement, verifying the usefulness of MatCha pretraining on broader visual language tasks.
翻訳日:2022-12-20 14:15:46 公開日:2022-12-19
# モデル記述による言語モデル行動の発見

Discovering Language Model Behaviors with Model-Written Evaluations ( http://arxiv.org/abs/2212.09251v1 )

ライセンス: Link先を確認
Ethan Perez, Sam Ringer, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen, Edwin Chen, Scott Heiner, Craig Pettit, Catherine Olsson, Sandipan Kundu, Saurav Kadavath, Andy Jones, Anna Chen, Ben Mann, Brian Israel, Bryan Seethor, Cameron McKinnon, Christopher Olah, Da Yan, Daniela Amodei, Dario Amodei, Dawn Drain, Dustin Li, Eli Tran-Johnson, Guro Khundadze, Jackson Kernion, James Landis, Jamie Kerr, Jared Mueller, Jeeyoon Hyun, Joshua Landau, Kamal Ndousse, Landon Goldberg, Liane Lovitt, Martin Lucas, Michael Sellitto, Miranda Zhang, Neerav Kingsland, Nelson Elhage, Nicholas Joseph, Noem\'i Mercado, Nova DasSarma, Oliver Rausch, Robin Larson, Sam McCandlish, Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera Lanham, Timothy Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Yuntao Bai, Zac Hatfield-Dodds, Jack Clark, Samuel R. Bowman, Amanda Askell, Roger Grosse, Danny Hernandez, Deep Ganguli, Evan Hubinger, Nicholas Schiefer, Jared Kaplan(参考訳) 言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。 事前の作業は、クラウドワーク(時間と費用がかかる)や既存のデータソース(常に利用できるとは限らない)による評価を生成する。 ここでは lms を用いて評価を自動的に生成する。 lmsにyes/noの質問を書くよう指示することから、lmベースの生成とフィルタリングの複数の段階からなる複雑なwinogenderスキーマを作成することまで、さまざまな人的努力でアプローチを探求する。 クラウドワーカーは、例を非常に関連性の高いものと評価し、90~100%のラベルに同意する。 我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。 より大きなlmsは、ダイアログユーザの好みの回答("sycophancy")を繰り返すとともに、リソース獲得や目標維持といった目標を追求したいという願望の高まりを表します。 また、Human Feedback (RLHF) から RL の逆スケーリングの最初の例をいくつか見出す。 例えば、RLHFは、LMを(銃の権利や移民に関する)より強力な政治的見解を示し、閉鎖を避けたいと願っている。 全体として、LMによる評価は高品質であり、多くの新しいLMの挙動を迅速に発見できる。

As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.
翻訳日:2022-12-20 14:14:44 公開日:2022-12-19
# APOLLO:論理推論のための言語モデルの適応事前学習のための簡単なアプローチ

APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning ( http://arxiv.org/abs/2212.09282v1 )

ライセンス: Link先を確認
Soumya Sanyal, Yichong Xu, Shuohang Wang, Ziyi Yang, Reid Pryzant, Wenhao Yu, Chenguang Zhu, Xiang Ren(参考訳) テキストの論理的推論は、テキストに含まれる情報とその相互関係を理解し、それらを推論して新たな結論を推測する必要がある重要な能力である。 言語モデルの論理的推論能力を改善するには、トレーニングデータの複雑な処理(例えば、記号的知識をテキストに合わせる)が必要であり、一般的な論理推論スキルの学習を制限するタスク固有のデータ拡張ソリューションを提供する。 本研究では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 言語モデルの事前学習を継続するために、論理推論キーワードのセットに基づいてwikipediaのサブセットを選択する。 2つの自己教師付き損失関数を用いており、基本的言語理解よりも推論を必要とする可能性のある特定の部分のみを修飾したマスク付き言語モデリング損失と、関連する文と矛盾する文の区別をモデルに教える文レベル分類損失である。 提案するトレーニングパラダイムは単純かつタスク形式に依存しない。 本稿では,2つの論理的推論データセットのベースラインと比較し,APOLLOの有効性を示す。 APOLLOはReClorで互換性があり、LogiQAでベースラインを上回っている。

Logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of language models require complex processing of training data (e.g., aligning symbolic knowledge to text), yielding task-specific data augmentation solutions that restrict the learning of general logical reasoning skills. In this work, we propose APOLLO, an adaptively pretrained language model that has improved logical reasoning abilities. We select a subset of Wikipedia, based on a set of logical inference keywords, for continued pretraining of a language model. We use two self-supervised loss functions: a modified masked language modeling loss where only specific parts-of-speech words, that would likely require more reasoning than basic language understanding, are masked, and a sentence-level classification loss that teaches the model to distinguish between entailment and contradiction types of sentences. The proposed training paradigm is both simple and independent of task formats. We demonstrate the effectiveness of APOLLO by comparing it with prior baselines on two logical reasoning datasets. APOLLO performs comparably on ReClor and outperforms baselines on LogiQA.
翻訳日:2022-12-20 14:14:20 公開日:2022-12-19
# Difformer:テキスト生成のための埋め込み空間における拡散モデル

Difformer: Empowering Diffusion Model on Embedding Space for Text Generation ( http://arxiv.org/abs/2212.09412v1 )

ライセンス: Link先を確認
Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, Linli Xu(参考訳) 拡散モデルは視覚と音声のタスクで最先端の合成品質を達成しており、最近の研究では埋め込み空間で拡散することでテキストデータに適応している。 しかし、連続データ空間と埋め込み空間の違いは、慎重に検討されていない拡散モデルへの挑戦を引き起こす。 本稿では,体系的な研究を行い,課題を3倍に分析する。 まず、データ分布は埋め込みで学習可能であり、損失関数の崩壊につながる可能性がある。 第二に、埋め込みの規範が人気語と稀語の間で異なるため、同じノイズスケールを追加すると、準最適結果につながる。 加えて、標準ガウス分布からサンプリングされたノイズは拡散過程を乱す可能性がある。 以上の課題を解決するために,Transformerに基づく拡散確率モデルであるDifformerを提案する。これは,アンカー損失関数,埋め込み用層正規化モジュール,ガウス雑音のノルム係数を含む3つの手法からなる。 すべてのテクニックは相互補完的であり、モデルのパフォーマンス向上に不可欠です。 機械翻訳とテキスト要約を含む2つのセミナルテキスト生成タスクのベンチマークデータセットで実験を行った。 その結果,Difformer は自己回帰ベースラインと競合する結果を得る一方で,埋込拡散ベースラインを著しく上回ることがわかった。

Diffusion models have achieved state-of-the-art synthesis quality on visual and audio tasks, and recent works adapt them to textual data by diffusing on the embedding space. But the difference between the continuous data space and the embedding space raises challenges to the diffusion model, which have not been carefully explored. In this paper, we conduct systematic studies and analyze the challenges threefold. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the loss function. Secondly, as the norm of embedding varies between popular and rare words, adding the same noise scale will lead to sub-optimal results. In addition, we find that noises sampled from a standard Gaussian distribution may distract the diffusion process. To solve the above challenges, we propose Difformer, a denoising diffusion probabilistic model based on Transformer, which consists of three techniques including utilizing an anchor loss function, a layer normalization module for embeddings, and a norm factor to the Gaussian noise. All techniques are complementary to each other and critical to boosting the model performance together. Experiments are conducted on benchmark datasets over two seminal text generation tasks including machine translation and text summarization. The results show that Difformer significantly outperforms the embedding diffusion baselines, while achieving competitive results with strong autoregressive baselines.
翻訳日:2022-12-20 14:13:58 公開日:2022-12-19
# WavEnhancer: 画像強調のためのウェーブレットとトランスフォーマーの統合

WavEnhancer: Unifying Wavelet and Transformer for Image Enhancement ( http://arxiv.org/abs/2212.08327v2 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Chi-Man Pun and Shuqiang Wang(参考訳) 画像強調はデジタル画像処理で頻繁に利用される技法である。 近年,画像の美的性能を高めるための学習技術の普及が進んでいる。 しかし、現在の作品の大部分は異なる周波数領域からの画像を最適化せず、通常はピクセルレベルまたはグローバルレベルの拡張に焦点を当てている。 本稿では,画像の周波数帯域の異なるウェーブレット領域におけるトランスベースモデルを提案する。 本手法は,局所的詳細と高レベル機能の両方に着目し,優れた結果が得られる。 総合的なベンチマーク評価に基づいて,本手法は最先端手法よりも優れている。

Image enhancement is a technique that frequently utilized in digital image processing. In recent years, the popularity of learning-based techniques for enhancing the aesthetic performance of photographs has increased. However, the majority of current works do not optimize an image from different frequency domains and typically focus on either pixel-level or global-level enhancements. In this paper, we propose a transformer-based model in the wavelet domain to refine different frequency bands of an image. Our method focuses both on local details and high-level features for enhancement, which can generate superior results. On the basis of comprehensive benchmark evaluations, our method outperforms the state-of-the-art methods.
翻訳日:2022-12-20 12:02:56 公開日:2022-12-19
# 脆弱性検出のためのディープラーニングモデルに関する実証的研究

An Empirical Study of Deep Learning Models for Vulnerability Detection ( http://arxiv.org/abs/2212.08109v2 )

ライセンス: Link先を確認
Benjamin Steenhoek, Md Mahbubur Rahman, Richard Jiles, and Wei Le(参考訳) コード深層学習(DL)モデルは、最近脆弱性検出の大きな進歩を報告している。 dlベースのモデルは静的解析ツールよりも優れています。 多くの優れたモデルが提案されているが、これらのモデルについて十分に理解されていない。 これにより、脆弱性検出のためのモデルロバスト性、デバッグ、デプロイメントのさらなる進歩が制限される。 本稿では,広く使用されている脆弱性検出データセットであるdevignとmsrの9つの最先端(sota)ディープラーニングモデルを調査し,再現した。 モデル能力,トレーニングデータ,モデル解釈という3つの分野における6つの研究課題を調査した。 モデルの異なる動作と、異なるモデルの出力間の低一致の変動を実験的に実証した。 特定の種類の脆弱性に対してトレーニングされたモデルと、すべての脆弱性に対して一度にトレーニングされたモデルを比較した。 我々は、DLが扱う「ハード」なプログラムの種類を調査した。 トレーニングデータサイズとトレーニングデータ組成とモデル性能の関係について検討した。 最後に,モデル解釈を研究し,モデルが予測に用いた重要な特徴を分析した。 私たちの発見は、モデル結果の理解を深め、トレーニングデータの準備に関するガイダンスを提供し、モデルの堅牢性を改善するのに役立つと考えています。 データセット、コード、結果はすべて、https://figshare.com/s/284abfba67dba448fdc2で利用可能です。

Deep learning (DL) models of code have recently reported great progress for vulnerability detection. In some cases, DL-based models have outperformed static analysis tools. Although many great models have been proposed, we do not yet have a good understanding of these models. This limits the further advancement of model robustness, debugging, and deployment for the vulnerability detection. In this paper, we surveyed and reproduced 9 state-of-the-art (SOTA) deep learning models on 2 widely used vulnerability detection datasets: Devign and MSR. We investigated 6 research questions in three areas, namely model capabilities, training data, and model interpretation. We experimentally demonstrated the variability between different runs of a model and the low agreement among different models' outputs. We investigated models trained for specific types of vulnerabilities compared to a model that is trained on all the vulnerabilities at once. We explored the types of programs DL may consider "hard" to handle. We investigated the relations of training data sizes and training data composition with model performance. Finally, we studied model interpretations and analyzed important features that the models used to make predictions. We believe that our findings can help better understand model results, provide guidance on preparing training data, and improve the robustness of the models. All of our datasets, code, and results are available at https://figshare.com/s/284abfba67dba448fdc2.
翻訳日:2022-12-20 12:02:47 公開日:2022-12-19
# Azimuth: テキスト分類のための体系的誤り解析

Azimuth: Systematic Error Analysis for Text Classification ( http://arxiv.org/abs/2212.08216v2 )

ライセンス: Link先を確認
Gabrielle Gauthier-Melan\c{c}on, Orlando Marquez Ayala, Lindsay Brin, Chris Tyler, Fr\'ed\'eric Branchaud-Charron, Joseph Marinier, Karine Grande, Di Le(参考訳) テキスト分類のための誤り解析を行うオープンソースで使いやすいツールであるAzimuthを提案する。 モデルトレーニングやハイパーパラメータチューニングといったML開発サイクルの他の段階と比較して、エラー解析ステージのプロセスとツーリングは成熟していない。 しかし、この段階は信頼性と信頼性の高いAIシステムの開発に不可欠である。 誤り解析をより体系的にするために,Azimuthが支援するデータセット解析とモデル品質評価を組み合わせたアプローチを提案する。 私たちは、サリエンシマップ、類似性、不確実性、行動分析など、さまざまなMLテクニックを1つのツールで活用し、統合することにより、AI実践者が一般化しない領域を発見し、対処することを目指している。 コードとドキュメントはgithub.com/servicenow/azimuthで入手できます。

We present Azimuth, an open-source and easy-to-use tool to perform error analysis for text classification. Compared to other stages of the ML development cycle, such as model training and hyper-parameter tuning, the process and tooling for the error analysis stage are less mature. However, this stage is critical for the development of reliable and trustworthy AI systems. To make error analysis more systematic, we propose an approach comprising dataset analysis and model quality assessment, which Azimuth facilitates. We aim to help AI practitioners discover and address areas where the model does not generalize by leveraging and integrating a range of ML techniques, such as saliency maps, similarity, uncertainty, and behavioral analyses, all in one tool. Our code and documentation are available at github.com/servicenow/azimuth.
翻訳日:2022-12-20 12:00:27 公開日:2022-12-19
# 連結車両における高精度3次元物体検出のためのマルチレベル・マルチモーダル機能融合

Multi-level and multi-modal feature fusion for accurate 3D object detection in Connected and Automated Vehicles ( http://arxiv.org/abs/2212.07560v2 )

ライセンス: Link先を確認
Yiming Hou, Mahdi Rezaei, Richard Romano(参考訳) 本稿では,コネクテッド・オートマチック・ビークル(CAV)の高精度な物体検出を目指して,新しいLIDAR-Camera融合方式を開発し,三段特徴抽出器を利用したディープニューラルネットワークを用いた3次元物体検出モデルを提案する。 提案する特徴抽出器は,2つの入力感覚モダリティから高レベル特徴を抽出し,畳み込み過程で捨てられた重要な特徴を復元する。 新しい融合スキームは、感覚的モダリティと畳み込み層にまたがる特徴を効果的に融合し、最も代表的なグローバル特徴を見つける。 融合した特徴は、領域提案ネットワーク(RPN)と検出ヘッド(DH)という2段階のネットワークで共有される。 RPNはハイリコール提案を生成し、DHは最終検出結果を生成する。 実験の結果,提案手法はkitti 2dおよび3d検出ベンチマーク,特に遠方および高度にオクルードされたインスタンスにおいて,より最近の研究よりも優れていることがわかった。

Aiming at highly accurate object detection for connected and automated vehicles (CAVs), this paper presents a Deep Neural Network based 3D object detection model that leverages a three-stage feature extractor by developing a novel LIDAR-Camera fusion scheme. The proposed feature extractor extracts high-level features from two input sensory modalities and recovers the important features discarded during the convolutional process. The novel fusion scheme effectively fuses features across sensory modalities and convolutional layers to find the best representative global features. The fused features are shared by a two-stage network: the region proposal network (RPN) and the detection head (DH). The RPN generates high-recall proposals, and the DH produces final detection results. The experimental results show the proposed model outperforms more recent research on the KITTI 2D and 3D detection benchmark, particularly for distant and highly occluded instances.
翻訳日:2022-12-20 12:00:14 公開日:2022-12-19
# 小さな言語モデルに推論を教える

Teaching Small Language Models to Reason ( http://arxiv.org/abs/2212.08410v2 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn(参考訳) 思考の連鎖は、大きな言語モデルの推論能力を改善することに成功し、さまざまなデータセット上で技術結果の状態を達成します。 しかし、これらの推論能力は、1000億以上のパラメータを持つモデルでのみ現れるように見える。 本稿では,1000億以上のパラメータを持つモデルへの知識蒸留による推論能力の移転について検討する。 具体的には,より大きな教師モデルによって生成された思考アウトプットの連鎖に学生モデルを適用した。 提案手法は算術,コモンセンス,シンボリック推論データセット全体のタスク性能を向上させる。 例えば、GSM8K 上の T5 XXL の精度は PaLM-540B で微調整すると 8.11% から 21.99% に向上する。

Chain of thought prompting successfully improves the reasoning capabilities of large language models, achieving state of the art results on a range of datasets. However, these reasoning capabilities only appear to emerge in models with a size of over 100 billion parameters. In this paper, we explore the transfer of such reasoning capabilities to models with less than 100 billion parameters via knowledge distillation. Specifically, we finetune a student model on the chain of thought outputs generated by a larger teacher model. Our experiments show that the proposed method improves task performance across arithmetic, commonsense and symbolic reasoning datasets. For example, the accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on PaLM-540B generated chains of thought.
翻訳日:2022-12-20 11:59:55 公開日:2022-12-19
# 拡張地熱系の熱抽出最適化のためのサーロゲート支援レベルベース学習進化探索

Surrogate-assisted level-based learning evolutionary search for heat extraction optimization of enhanced geothermal system ( http://arxiv.org/abs/2212.07666v3 )

ライセンス: Link先を確認
Guodong Chen, Xin Luo, Chuanyin Jiang, Jiu Jimmy Jiao(参考訳) 地熱システムの強化は、持続可能な長期地熱エネルギー供給と二酸化炭素排出量削減に不可欠である。 地熱開発において,有効熱抽出と改良熱浄化効率の最適化が重要な役割を担っている。 しかし,既存の最適化アルゴリズムの最適化性能は次元が大きくなるにつれて低下する。 本研究では,改良地熱系の熱抽出最適化のために,新しいサーロゲート支援レベルベース学習進化探索アルゴリズム(slles)を提案する。 sllesは、レベルベース学習プリスクリーン部と局所進化探索部で構成される。 両者の協力により,最適化過程における探索と搾取のバランスが達成された。 設計空間から繰り返しサンプリングした後、アルゴリズムの堅牢性と有効性が著しく向上することが証明された。 我々の知る限り、提案アルゴリズムは最先端のシミュレーション関連最適化フレームワークを備えている。 ベンチマーク関数, 2次元破壊貯留層, 3次元強化地熱系について比較実験を行った。 提案アルゴリズムは,すべてのベンチマーク関数において,他の5つの最先端サーロゲート支援アルゴリズムよりも優れている。 2つの熱抽出実験の結果、SLLESは従来の進化的アルゴリズムや代用補助アルゴリズムと比較して優れた最適化性能が得られることを示した。 この研究は、改良された地熱系の効率的な地熱抽出の基礎を固め、エネルギー利用分野におけるデータ駆動最適化のモデル管理戦略に光を当てる。

An enhanced geothermal system is essential to provide sustainable and long-term geothermal energy supplies and reduce carbon emissions. Optimal well-control scheme for effective heat extraction and improved heat sweep efficiency plays a significant role in geothermal development. However, the optimization performance of most existing optimization algorithms deteriorates as dimension increases. To solve this issue, a novel surrogate-assisted level-based learning evolutionary search algorithm (SLLES) is proposed for heat extraction optimization of enhanced geothermal system. SLLES consists of classifier-assisted level-based learning pre-screen part and local evolutionary search part. The cooperation of the two parts has realized the balance between the exploration and exploitation during the optimization process. After iteratively sampling from the design space, the robustness and effectiveness of the algorithm are proven to be improved significantly. To the best of our knowledge, the proposed algorithm holds state-of-the-art simulation-involved optimization framework. Comparative experiments have been conducted on benchmark functions, a two-dimensional fractured reservoir and a three-dimensional enhanced geothermal system. The proposed algorithm outperforms other five state-of-the-art surrogate-assisted algorithms on all selected benchmark functions. The results on the two heat extraction cases also demonstrate that SLLES can achieve superior optimization performance compared with traditional evolutionary algorithm and other surrogate-assisted algorithms. This work lays a solid basis for efficient geothermal extraction of enhanced geothermal system and sheds light on the model management strategies of data-driven optimization in the areas of energy exploitation.
翻訳日:2022-12-20 11:59:06 公開日:2022-12-19
# リアルタイムPOCUS画像品質評価・取得誘導システムの開発

Development of A Real-time POCUS Image Quality Assessment and Acquisition Guidance System ( http://arxiv.org/abs/2212.08624v2 )

ライセンス: Link先を確認
Zhenge Jia, Yiyu Shi, Jingtong Hu, Lei Yang, Benjamin Nti(参考訳) ポイント・オブ・ケア・超音波(POCUS)は、救急医療部と小児集中治療部の臨床業務における心臓機能イメージングの最も一般的なツールの1つである。 先行研究は、AI支援ソフトウェアが、興味領域を認識し、画像品質を評価し、指示を提供することで、事前に音韻学の経験のない看護師や初心者を誘導し、POCUSを取得することを実証している。 しかし、これらのAIアルゴリズムは、診断品質の高いPOCUSを取得する際に、熟練したソノグラフィーの役割を単に置き換えることはできない。 標準化されたイメージングプロトコルを持つ胸部X線、CT、MRIとは異なり、POCUSは高いサーバ間変動で取得できる。 可変性はあるものの、通常は臨床上許容され、解釈可能である。 難しい臨床環境では、ソノグラフィーは複雑なシナリオでPOCUSを取得するために新しいヒューリスティックを使用する。 教育実践において経験豊富なソノグラフィーへの依存を減らしながら、初等学習者が学習過程の迅速化を支援するため、実時間AI支援品質評価とプローブ位置ガイダンスを行い、初等学習者の手作業による介入の少ないトレーニングプロセスを提供する枠組みを開発する。

Point-of-care ultrasound (POCUS) is one of the most commonly applied tools for cardiac function imaging in the clinical routine of the emergency department and pediatric intensive care unit. The prior studies demonstrate that AI-assisted software can guide nurses or novices without prior sonography experience to acquire POCUS by recognizing the interest region, assessing image quality, and providing instructions. However, these AI algorithms cannot simply replace the role of skilled sonographers in acquiring diagnostic-quality POCUS. Unlike chest X-ray, CT, and MRI, which have standardized imaging protocols, POCUS can be acquired with high inter-observer variability. Though being with variability, they are usually all clinically acceptable and interpretable. In challenging clinical environments, sonographers employ novel heuristics to acquire POCUS in complex scenarios. To help novice learners to expedite the training process while reducing the dependency on experienced sonographers in the curriculum implementation, We will develop a framework to perform real-time AI-assisted quality assessment and probe position guidance to provide training process for novice learners with less manual intervention.
翻訳日:2022-12-20 11:58:12 公開日:2022-12-19
# 効率的なパノプティカル部分分割のためのマルチタスクフュージョン

Multi-task Fusion for Efficient Panoptic-Part Segmentation ( http://arxiv.org/abs/2212.07671v2 )

ライセンス: Link先を確認
Sravan Kumar Jagadeesh, Ren\'e Schuster, Didier Stricker(参考訳) 本稿では,共有エンコーダを用いたセマンティクス,インスタンス,部分セグメンテーションを生成し,それらを効果的に融合してpanoptic-partセグメンテーションを実現する新しいネットワークを提案する。 これら3つのセグメンテーション問題を統一することで、相互改善と一貫した表現学習が可能になる。 3つのヘッドの予測を効率的に融合するために,ロジットの動的バランスを保ち,それらを融合してpanoptic-partセグメンテーションを生成するパラメータフリージョイント融合モジュールを導入する。 本手法は,Cityscapes Panoptic Parts (CPP) と Pascal Panoptic Parts (PPP) のデータセットを用いて評価する。 CPPの場合, 関節融合モデルであるPartPQは, 全領域, 部分のそれぞれ1.6および4.7%の比率で, 従来の最先端モデルを上回っている。 pppでは,従来のトップダウンマージ戦略を用いたモデルよりも,partpqでは3.3ポイント,partpqでは10.5ポイント,パーティショナブルクラスでは10.5ポイントの融合が優れている。

In this paper, we introduce a novel network that generates semantic, instance, and part segmentation using a shared encoder and effectively fuses them to achieve panoptic-part segmentation. Unifying these three segmentation problems allows for mutually improved and consistent representation learning. To fuse the predictions of all three heads efficiently, we introduce a parameter-free joint fusion module that dynamically balances the logits and fuses them to create panoptic-part segmentation. Our method is evaluated on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets. For CPP, the PartPQ of our proposed model with joint fusion surpasses the previous state-of-the-art by 1.6 and 4.7 percentage points for all areas and segments with parts, respectively. On PPP, our joint fusion outperforms a model using the previous top-down merging strategy by 3.3 percentage points in PartPQ and 10.5 percentage points in PartPQ for partitionable classes.
翻訳日:2022-12-20 11:57:54 公開日:2022-12-19